-
공식홈페이지에 나와있는 것처럼 아래와 같이 scala코드 한개와 sbt를 위한 build.sbt 파일 두개를 생성한다.
sbt는 여기서 다운받을 수 있다. 환경변수만 잡아주면 그냥 사용할 수 있다.
name := "Simple Project"/* SimpleApp.scala */import org.apache.spark.sql.SparkSessionobject SimpleApp {def main(args: Array[String]) {val logFile = "YOUR_SPARK_HOME/README.md" // Should be some file on your systemval spark = SparkSession.builder.appName("Simple Application").getOrCreate()val logData = spark.read.textFile(logFile).cache()val numAs = logData.filter(line => line.contains("a")).count()val numBs = logData.filter(line => line.contains("b")).count()println(s"Lines with a: $numAs, Lines with b: $numBs")spark.stop()}}version := "1.0"scalaVersion := "2.11.8"libraryDependencies += "org.apache.spark" %% "spark-sql" % "2.2.0"그리고 나서 그냥 sbt package라고 해당 경로(scala와 sbt코드가 있는)에서 명령어를 입력해주면 info와 함께 jar파일이 생성되고 해당 jar 파일은 아래와 같이 spark를 이용하여 실행할 수 있다.
$ YOUR_SPARK_HOME/bin/spark-submit \--class "SimpleApp" \--master local[4] \target/scala-2.11/simple-project_2.11-1.0.jar위지원데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨
'2018년 > spark' 카테고리의 다른 글
spark 예제파일 submit 하기 (0) 2018.10.08 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable (0) 2018.07.24 GraphX ~그래프 연산 (0) 2018.04.03 GraphX ~그래프 생성까지 (0) 2018.04.02 spark info좀 꺼보자 (0) 2018.02.28