-
2021.03.25 - [2021년 상반기/개발공부] - [티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기
위에 이전글을 작성하면서, Spark을 까먹었나(?) 라는 생각에 책을 구매했다.
위 책은 제목이 정말 맘에든다. 스파크와 데이터 분석과 파이썬이 제목에 함께 있다. (ㅋㅋ)
19년도 발행이지만 본문 내용은 스파크와 하둡 모두 2버전이다. 음 잘 적당히 융통성있게 따라해야겠다.
파이썬 설치 및 예제 실행(local 환경)
$ python3 -m venv spark_env $ source spark_env/bin/activate $ mkdir spark $ cd spark $ curl -O https://downloads.apache.org/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz $ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz $ history $ cd spark-3.1.1-bin-hadoop2.7 $ vi ../../spark_env/bin/activate ##환경변수 잡아줌 export SPARK_HOME 이랑 PATH $ source spark_env/bin/activate $ source ../../spark_env/bin/activate $ spark-submit\ --class org.apache.spark.examples.SparkPi\ --master local\ $SPARK_HOME/examples/jars/spark-examples*.jar 1000 ... 21/03/31 18:26:14 INFO DAGScheduler: Job 0 finished: reduce at SparkPi.scala:38, took 9.249947 s Pi is roughly 3.142000311420003
'2021년 > Data' 카테고리의 다른 글
[Spark] Data Analytics with Spark using Python - 기초 함수 (0) 2021.04.06 vmware fushion을 이용한 스파크 완전분산 모드(CentOS+MAC) (0) 2021.04.01 [티스토리 게시글 추천 시스템 만들기] #4 worldCloud 만들기 (0) 2021.03.26 [티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기 (0) 2021.03.25 [티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장 (0) 2021.03.24