위지원의 데이터 일기 🐈
Home
  • 분류 전체보기 (563)
    • ✎ 2025년 (4)
    • 2024년 (16)
    • 2023년 (6)
    • 2022년 (35)
      • Developement (22)
      • Error (9)
    • 2021년 (68)
      • ERROR (9)
      • 알고리즘 (11)
      • 개발공부 (21)
      • Data (15)
      • 21.下 (12)
    • 2020년 (164)
      • 코테 (84)
      • Development (29)
      • 정처기 (41)
    • 2019년 (27)
    • 2018년 (89)
      • English Speaking (8)
      • Error (12)
      • C, Java, FileSystem (13)
      • DataBase (15)
      • Java (2)
      • 지식 (16)
      • Go (3)
      • spark (9)
      • 영어 (5)
      • 알고리즘 (6)
    • 2017년 (143)
      • Error (17)
      • machine learning (16)
      • Spark (20)
      • Database (19)
      • Python (17)
      • Spring (9)
      • etc. (10)
      • 백준 (5)
      • Google Platform (12)
      • web Development (7)
      • Docker (3)
      • Linux (8)
Home
  • 분류 전체보기 (563)
    • ✎ 2025년 (4)
    • 2024년 (16)
    • 2023년 (6)
    • 2022년 (35)
      • Developement (22)
      • Error (9)
    • 2021년 (68)
      • ERROR (9)
      • 알고리즘 (11)
      • 개발공부 (21)
      • Data (15)
      • 21.下 (12)
    • 2020년 (164)
      • 코테 (84)
      • Development (29)
      • 정처기 (41)
    • 2019년 (27)
    • 2018년 (89)
      • English Speaking (8)
      • Error (12)
      • C, Java, FileSystem (13)
      • DataBase (15)
      • Java (2)
      • 지식 (16)
      • Go (3)
      • spark (9)
      • 영어 (5)
      • 알고리즘 (6)
    • 2017년 (143)
      • Error (17)
      • machine learning (16)
      • Spark (20)
      • Database (19)
      • Python (17)
      • Spring (9)
      • etc. (10)
      • 백준 (5)
      • Google Platform (12)
      • web Development (7)
      • Docker (3)
      • Linux (8)
블로그 내 검색
포트폴리오

위지원의 데이터 일기 🐈

데이터를 사랑하고 궁금해하는 기록쟁이입니다! 😉 Super Data Girl이 되는 그날까지🏃‍♀️ 화이팅!

  • 🖥 깃블로그
  • 🌍 위키원
  • 📑 내맘대로 스크랩
  • 💌 메일
  • 2021년/Data

    [Spark] Data Analytics with Spark using Python

    2021. 3. 31. 18:50

    by. 위지원


     

    2021.03.25 - [2021년 상반기/개발공부] - [티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기

     

    위에 이전글을 작성하면서, Spark을 까먹었나(?) 라는 생각에 책을 구매했다.

    위 책은 제목이 정말 맘에든다. 스파크와 데이터 분석과 파이썬이 제목에 함께 있다. (ㅋㅋ)

    19년도 발행이지만 본문 내용은 스파크와 하둡 모두 2버전이다. 음 잘 적당히 융통성있게 따라해야겠다.

     

    파이썬 설치 및 예제 실행(local 환경)

    $ python3 -m venv spark_env
    $ source spark_env/bin/activate
    $ mkdir spark
    $ cd spark
    $ curl -O https://downloads.apache.org/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
    $ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
    $ history
    $ cd spark-3.1.1-bin-hadoop2.7
    $ vi ../../spark_env/bin/activate
    ##환경변수 잡아줌 export SPARK_HOME 이랑 PATH
    $ source spark_env/bin/activate
    $ source ../../spark_env/bin/activate
    $ spark-submit\
      --class org.apache.spark.examples.SparkPi\
      --master local\
       $SPARK_HOME/examples/jars/spark-examples*.jar 1000
       
       
       ...
       
       21/03/31 18:26:14 INFO DAGScheduler: Job 0 finished: reduce at SparkPi.scala:38, took 9.249947 s
       Pi is roughly 3.142000311420003

     

    저작자표시 (새창열림)

    '2021년 > Data' 카테고리의 다른 글

    [Spark] Data Analytics with Spark using Python - 기초 함수  (0) 2021.04.06
    vmware fushion을 이용한 스파크 완전분산 모드(CentOS+MAC)  (0) 2021.04.01
    [티스토리 게시글 추천 시스템 만들기] #4 worldCloud 만들기  (0) 2021.03.26
    [티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기  (0) 2021.03.25
    [티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장  (0) 2021.03.24

    잠깐만요~! 읽으신김에 이런 글들은 어떠세요? 👀

    • [Spark] Data Analytics with Spark using Python - 기초 함수 2021.04.06
    • vmware fushion을 이용한 스파크 완전분산 모드(CentOS+MAC) 2021.04.01
    • [티스토리 게시글 추천 시스템 만들기] #4 worldCloud 만들기 2021.03.26
    • [티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기 2021.03.25
    맨 위로
전체 글 보기
Tistory 로그인
Tistory 로그아웃
로그아웃 글쓰기 관리

열정! 열정! 열정! 🔥

Designed by Nana
블로그 이미지
위지원
데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨

티스토리툴바

티스토리툴바