2017년/Spark

spark를 설치해보자

위지원 2017. 7. 11. 16:32

나는 일단 우분투에서 spark를 사용해볼 것이다... window는 가상머신을 이용하면 될 듯 함..


일단 sparkR을 쓰기위해 spark를 먼저 설치하기위해.. 가상환경을 설치해서 사용을 시작해보겠다.. 가상환경이란거에 익숙해져보기위한..



1.자바 설치 ( 자바는 많이들 설치했을거라 생각.. ) http://weejw.tistory.com/63 여기서 설치 방법 다시


$ apt-add-repository ppa:webupd8team/java

$ apt-get update

$ apt-get install oracle-java8-installer




2.스칼라 설치 * 스칼라 최신 버전을 확인할 수 있는 곳--> https://www.scala-lang.org/download/


$ cd /usr/local/src

$ wget http://www.scala-lang.org/files/archive/scala-2.11.8.tgz

$ mkdir /usr/local/src/scala

$ tar xvf scala-2.11.8.tgz -C /usr/local/src/scala/


$ nano ~/.bashrc


bashrc 파일에 아래와 같이 경로 추가

export SCALA_HOME=/usr/local/src/scala/scala-2.11.8

export PATH=$SCALA_HOME/bin:$PATH

 

$ source ~/.bashrc

 




3.스파크 설치 * 스파크 최신 버전을 확인할 수 있는 곳 -->http://spark.apache.org/downloads.html


$ sudo apt-get install git

$ wget 주소 마음대로~

다음 주소에서 마음에 드는 링크를  확인할 수 있다 https://www.apache.org/dyn/closer.lua/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz


$ tar xvf spark-1.1.0.tgz -C /usr/local/src/



bashrc 파일에 스칼라와 마찬가지로 환경변수 설정을 해준다


export SPARK_HOME=/usr/local/src/spark-1.6.1

export PATH=$SPARK_HOME/bin:%PATH

추가 )) 경로 이렇게하면 시작/종료 도 간편한 >>PATH=$PATH:$SPARK_HOME/sbin:$SPARK_HOME/bin


$ sbt/sbt assembly



sbt에서 막혔다.. sbt가 무엇인고 하니

스칼라를 위한 빌드 툴이라고 한다 simple build tool 


설치방법 : http://www.scala-sbt.org/0.13/docs/Installing-sbt-on-Linux.html


$ run-example SparkPi 10



$ spark-shell





< 새로운 기록 >

아래와같이 spark 사이트에가서하면 최신버전을 받을 수 있다 http://spark.apache.org/downloads.html



멍청기록..



+2.waiting.. (생략) lock 은 해당 파일을 제거하면 넘어간다

+3.getting org.... 하면서 갑자기 아무 반응이없는데 이건 그냥 기다리면 된다

+4.run-example할때... 호스트 네임 불일치.. 오류는 http://weejw.tistory.com/44




출처url

http://statkclee.github.io/parallel-r/sparkr-ubuntu.html

http://ledgku.tistory.com/71