2021년/Data
[Spark] Data Analytics with Spark using Python
위지원
2021. 3. 31. 18:50
2021.03.25 - [2021년 상반기/개발공부] - [티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기
위에 이전글을 작성하면서, Spark을 까먹었나(?) 라는 생각에 책을 구매했다.
위 책은 제목이 정말 맘에든다. 스파크와 데이터 분석과 파이썬이 제목에 함께 있다. (ㅋㅋ)
19년도 발행이지만 본문 내용은 스파크와 하둡 모두 2버전이다. 음 잘 적당히 융통성있게 따라해야겠다.
파이썬 설치 및 예제 실행(local 환경)
$ python3 -m venv spark_env
$ source spark_env/bin/activate
$ mkdir spark
$ cd spark
$ curl -O https://downloads.apache.org/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
$ history
$ cd spark-3.1.1-bin-hadoop2.7
$ vi ../../spark_env/bin/activate
##환경변수 잡아줌 export SPARK_HOME 이랑 PATH
$ source spark_env/bin/activate
$ source ../../spark_env/bin/activate
$ spark-submit\
--class org.apache.spark.examples.SparkPi\
--master local\
$SPARK_HOME/examples/jars/spark-examples*.jar 1000
...
21/03/31 18:26:14 INFO DAGScheduler: Job 0 finished: reduce at SparkPi.scala:38, took 9.249947 s
Pi is roughly 3.142000311420003