[Spark] Data Analytics with Spark using Python

2021. 3. 31. 18:50

by. 위지원

2021.03.25 - [2021년 상반기/개발공부] - [티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기

위에 이전글을 작성하면서, Spark을 까먹었나(?) 라는 생각에 책을 구매했다.

위 책은 제목이 정말 맘에든다. 스파크와 데이터 분석과 파이썬이 제목에 함께 있다. (ㅋㅋ)

19년도 발행이지만 본문 내용은 스파크와 하둡 모두 2버전이다. 음 잘 적당히 융통성있게 따라해야겠다.

파이썬 설치 및 예제 실행(local 환경)

$ python3 -m venv spark_env
$ source spark_env/bin/activate
$ mkdir spark
$ cd spark
$ curl -O https://downloads.apache.org/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
$ history
$ cd spark-3.1.1-bin-hadoop2.7
$ vi ../../spark_env/bin/activate
##환경변수 잡아줌 export SPARK_HOME 이랑 PATH
$ source spark_env/bin/activate
$ source ../../spark_env/bin/activate
$ spark-submit\
  --class org.apache.spark.examples.SparkPi\
  --master local\
   $SPARK_HOME/examples/jars/spark-examples*.jar 1000
   
   
   ...
   
   21/03/31 18:26:14 INFO DAGScheduler: Job 0 finished: reduce at SparkPi.scala:38, took 9.249947 s
   Pi is roughly 3.142000311420003

저작자표시 (새창열림)

'2021년 > Data' 카테고리의 다른 글

[Spark] Data Analytics with Spark using Python - 기초 함수 (0)	2021.04.06
vmware fushion을 이용한 스파크 완전분산 모드(CentOS+MAC) (0)	2021.04.01
[티스토리 게시글 추천 시스템 만들기] #4 worldCloud 만들기 (0)	2021.03.26
[티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기 (0)	2021.03.25
[티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장 (0)	2021.03.24

잠깐만요~! 읽으신김에 이런 글들은 어떠세요? 👀

맨 위로

데이터를 사랑하고 궁금해하는 기록쟁이입니다! 😉 Super Data Girl이 되는 그날까지🏃‍♀️ 화이팅!

[Spark] Data Analytics with Spark using Python

'2021년 > Data' 카테고리의 다른 글

티스토리툴바

티스토리툴바