-
공식홈페이지에 나와있는 것처럼 아래와 같이 scala코드 한개와 sbt를 위한 build.sbt 파일 두개를 생성한다.
sbt는 여기서 다운받을 수 있다. 환경변수만 잡아주면 그냥 사용할 수 있다.
/* SimpleApp.scala */ import org.apache.spark.sql.SparkSession object SimpleApp { def main(args: Array[String]) { val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your system val spark = SparkSession.builder.appName("Simple Application").getOrCreate() val logData = spark.read.textFile(logFile).cache() val numAs = logData.filter(line => line.contains("a")).count() val numBs = logData.filter(line => line.contains("b")).count() println(s"Lines with a: $numAs, Lines with b: $numBs") spark.stop() } }
name := "Simple Project"version := "1.0" scalaVersion := "2.11.8" libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.2.0"
그리고 나서 그냥 sbt package라고 해당 경로(scala와 sbt코드가 있는)에서 명령어를 입력해주면 info와 함께 jar파일이 생성되고 해당 jar 파일은 아래와 같이 spark를 이용하여 실행할 수 있다.
$ YOUR_SPARK_HOME/bin/spark-submit \ --class "SimpleApp" \ --master local[4] \ target/scala-2.11/simple-project_2.11-1.0.jar
'2018년 > spark' 카테고리의 다른 글
spark 예제파일 submit 하기 (0) 2018.10.08 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable (0) 2018.07.24 GraphX ~그래프 연산 (0) 2018.04.03 GraphX ~그래프 생성까지 (0) 2018.04.02 spark info좀 꺼보자 (0) 2018.02.28