-
2021.03.25 - [2021년 상반기/개발공부] - [티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기
위에 이전글을 작성하면서, Spark을 까먹었나(?) 라는 생각에 책을 구매했다.
위 책은 제목이 정말 맘에든다. 스파크와 데이터 분석과 파이썬이 제목에 함께 있다. (ㅋㅋ)
19년도 발행이지만 본문 내용은 스파크와 하둡 모두 2버전이다. 음 잘 적당히 융통성있게 따라해야겠다.
파이썬 설치 및 예제 실행(local 환경)
$ python3 -m venv spark_env$ source spark_env/bin/activate$ mkdir spark$ cd spark$ curl -O https://downloads.apache.org/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz$ history$ cd spark-3.1.1-bin-hadoop2.7$ vi ../../spark_env/bin/activate##환경변수 잡아줌 export SPARK_HOME 이랑 PATH$ source spark_env/bin/activate$ source ../../spark_env/bin/activate$ spark-submit\--class org.apache.spark.examples.SparkPi\--master local\$SPARK_HOME/examples/jars/spark-examples*.jar 1000...21/03/31 18:26:14 INFO DAGScheduler: Job 0 finished: reduce at SparkPi.scala:38, took 9.249947 sPi is roughly 3.142000311420003위지원데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨
'2021년 > Data' 카테고리의 다른 글
[Spark] Data Analytics with Spark using Python - 기초 함수 (0) 2021.04.06 vmware fushion을 이용한 스파크 완전분산 모드(CentOS+MAC) (0) 2021.04.01 [티스토리 게시글 추천 시스템 만들기] #4 worldCloud 만들기 (0) 2021.03.26 [티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기 (0) 2021.03.25 [티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장 (0) 2021.03.24