• spark 로 하는 고속 빅데이터 분석과 처리

    2017. 10. 19. 19:13

    by. 위지원

    spark 로 하는 고속 빅데이터 분석과 처리 -홀로 카로 지음 을 보고 공부하고 spark공식 문서에서 코드 예제를 돌려봄


    1.스파크 설치와 클러스터 설정


    설치는 이미 해봤다. http://weejw.tistory.com/38


    스파크 구동


    1.stand alone https://spark.apache.org/docs/latest/spark-standalone.html


    1.1 마스터 서버시작


    $./sbin/start-master.sh 독립 실행형 마스터 서버를 시작할 수 있다.



    주소창에 http://localhost:8080/ 를 입력하고 들어가면 아래와 같은 화면이 나온다.



    이제 slave를 실행시켜보자 위에 보면  "spark://weejwPC:7077"이 있는데 이 주소를 잘 기억하자


    1.2 슬레이브 시작


    $./sbin/start-slave.sh spark://weejwPC:7077 을 입력하면 아래와같이 worker들이 생긴다


    +3개나 생긴이유는 http://jdm.kr/blog/167 이분의 블로그에 보면

    $cd SPARK_HOME/conf

    $cp spark-env.sh.template spark-env.sh

    $sudo nano spark-env.sh


    열린 화면에 아래쪽에

    export SPARK_WORKER_INSTANCES=3

    으로 워커의 개수를 지정할 수 있다.


     공식문서에 나와있는데로 여러가지 파라미터를 넘겨서 워커의 설정을 지정할 수 있다.



    1.3 응용 프로그램 시작


    $spark-shell --master spark://weejwPC:7077을 입력하면 스파크 셀을 시작한다.



    그냥 간단한것을 하나 해봤다 >val textFile = spark.read.textFile("README.md")

    그랬더니 아래와 같이 생겼다. 오..




    2.얀에서 스파크 구동https://spark.apache.org/docs/latest/running-on-yarn.html


    두가지 모드가 있다 (--deploy-mdoe에 cluster,client를 다르게 해주면 된다)


    ? 이게 뭔차이일까 http://paranwater.tistory.com/417에 의하면


     

    yarn cluster

    yatn client

    spark standalone

     driver tun is

     application master

    client

    client

     자원 요청을 누가?

    application master

    application master

    client

     executor process 시작을 누가?

     yarn node manager

    yarn node manager

    spark slave

     persistent service

    yarn resource manager,nodemanager

    yarn resource manager,nodemanager

     spark master,workers

     spark -sehll 지원함?

    n

    y

    y




    yarn에서 하기 위해선 몇가지 설정을 해야한다.


    1.hadoop 설정 출처url로 가서 설정파일을 카피할 수 있다

    하둡의 설정파일은 hadoop설치경로 아래에 etc/hadoop아래에 있다.




    아래의 6가지 파일을 설정해주어야 한다.

    **설정하기전엔 INFO ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032 이런에러가 발생했다..ㅠㅠ


    – /etc/hosts 이건 원래경로 (하둡아래에있는게 아니다) 그냥 /etc/hosts 자체다)


     요기에는 datanode,secondarynamenode,namenode의 hosts를 설정해주는것


    – core-site.xml
    – hdfs-site.xml
    – mapred-site.xml
    – yarn-site.xml
    – slaves


    설정을 해주고나면 음..뭔가 생기고 포트주소로 가면 job?이 생기는것을 확인된다 아직까진 뭔지 잘모르겠다 ㅠㅠ;;




    일단은 오늘은 여기까지 ^--^



    2.sparkcontext

    -sparkcontext는 클러스트에서 사용하며 스파크 클러스터의 연결,스파크와 연동할 수 있는 엔트리 포인트를 제공한다

    -생성하면 스파크와 연동할 수 있고 스파크 잡을 배포할 수 있다.





    '2017년 > Spark' 카테고리의 다른 글

    시작하세요! 하둡프로그래밍 [결론 : 실패]  (2) 2017.11.01
    Spark Sql 실습  (0) 2017.10.20
    hadoop 설치  (0) 2017.10.19
    spark 예제 돌려보기  (0) 2017.10.18
    spark sql  (0) 2017.10.18

    대화의 장 💬