오랜만에 만져보는 spark scala코드

2018. 7. 18. 15:49

by. 위지원

공식홈페이지에 나와있는 것처럼 아래와 같이 scala코드 한개와 sbt를 위한 build.sbt 파일 두개를 생성한다.

sbt는 여기서 다운받을 수 있다. 환경변수만 잡아주면 그냥 사용할 수 있다.

/* SimpleApp.scala */
import org.apache.spark.sql.SparkSession

object SimpleApp {
  def main(args: Array[String]) {
    val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your system
    val spark = SparkSession.builder.appName("Simple Application").getOrCreate()
    val logData = spark.read.textFile(logFile).cache()
    val numAs = logData.filter(line => line.contains("a")).count()
    val numBs = logData.filter(line => line.contains("b")).count()
    println(s"Lines with a: $numAs, Lines with b: $numBs")
    spark.stop()
  }
}name := "Simple Project"


version := "1.0"

scalaVersion := "2.11.8"

libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.2.0"

그리고 나서 그냥 sbt package라고 해당 경로(scala와 sbt코드가 있는)에서 명령어를 입력해주면 info와 함께 jar파일이 생성되고 해당 jar 파일은 아래와 같이 spark를 이용하여 실행할 수 있다.

$ YOUR_SPARK_HOME/bin/spark-submit \
  --class "SimpleApp" \
  --master local[4] \
  target/scala-2.11/simple-project_2.11-1.0.jar

저작자표시 (새창열림)

'2018년 > spark' 카테고리의 다른 글

spark 예제파일 submit 하기 (0)	2018.10.08
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable (0)	2018.07.24
GraphX ~그래프 연산 (0)	2018.04.03
GraphX ~그래프 생성까지 (0)	2018.04.02
spark info좀 꺼보자 (0)	2018.02.28

잠깐만요~! 읽으신김에 이런 글들은 어떠세요? 👀

맨 위로

데이터를 사랑하고 궁금해하는 기록쟁이입니다! 😉 Super Data Girl이 되는 그날까지🏃‍♀️ 화이팅!

오랜만에 만져보는 spark scala코드

'2018년 > spark' 카테고리의 다른 글

티스토리툴바

티스토리툴바