2021년/Data

[Spark] Data Analytics with Spark using Python

위지원 2021. 3. 31. 18:50


 

2021.03.25 - [2021년 상반기/개발공부] - [티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기

 

위에 이전글을 작성하면서, Spark을 까먹었나(?) 라는 생각에 책을 구매했다.

위 책은 제목이 정말 맘에든다. 스파크와 데이터 분석과 파이썬이 제목에 함께 있다. (ㅋㅋ)

19년도 발행이지만 본문 내용은 스파크와 하둡 모두 2버전이다. 음 잘 적당히 융통성있게 따라해야겠다.

 

파이썬 설치 및 예제 실행(local 환경)

$ python3 -m venv spark_env
$ source spark_env/bin/activate
$ mkdir spark
$ cd spark
$ curl -O https://downloads.apache.org/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
$ history
$ cd spark-3.1.1-bin-hadoop2.7
$ vi ../../spark_env/bin/activate
##환경변수 잡아줌 export SPARK_HOME 이랑 PATH
$ source spark_env/bin/activate
$ source ../../spark_env/bin/activate
$ spark-submit\
  --class org.apache.spark.examples.SparkPi\
  --master local\
   $SPARK_HOME/examples/jars/spark-examples*.jar 1000
   
   
   ...
   
   21/03/31 18:26:14 INFO DAGScheduler: Job 0 finished: reduce at SparkPi.scala:38, took 9.249947 s
   Pi is roughly 3.142000311420003