spark 로 하는 고속 빅데이터 분석과 처리

2017. 10. 19. 19:13

by. 위지원

spark 로 하는 고속 빅데이터 분석과 처리 -홀로 카로 지음 을 보고 공부하고 spark공식 문서에서 코드 예제를 돌려봄

1.스파크 설치와 클러스터 설정

설치는 이미 해봤다. http://weejw.tistory.com/38

스파크 구동

1.stand alone https://spark.apache.org/docs/latest/spark-standalone.html

1.1 마스터 서버시작

$./sbin/start-master.sh 독립 실행형 마스터 서버를 시작할 수 있다.

주소창에 http://localhost:8080/ 를 입력하고 들어가면 아래와 같은 화면이 나온다.

이제 slave를 실행시켜보자 위에 보면 "spark://weejwPC:7077"이 있는데 이 주소를 잘 기억하자

1.2 슬레이브 시작

$./sbin/start-slave.sh spark://weejwPC:7077 을 입력하면 아래와같이 worker들이 생긴다

+3개나 생긴이유는 http://jdm.kr/blog/167 이분의 블로그에 보면

$cd SPARK_HOME/conf

$cp spark-env.sh.template spark-env.sh

$sudo nano spark-env.sh

열린 화면에 아래쪽에

export SPARK_WORKER_INSTANCES=3

으로 워커의 개수를 지정할 수 있다.

공식문서에 나와있는데로 여러가지 파라미터를 넘겨서 워커의 설정을 지정할 수 있다.

1.3 응용 프로그램 시작

$spark-shell --master spark://weejwPC:7077을 입력하면 스파크 셀을 시작한다.

그냥 간단한것을 하나 해봤다 >val textFile = spark.read.textFile("README.md")

그랬더니 아래와 같이 생겼다. 오..

2.얀에서 스파크 구동https://spark.apache.org/docs/latest/running-on-yarn.html

두가지 모드가 있다 (--deploy-mdoe에 cluster,client를 다르게 해주면 된다)

? 이게 뭔차이일까 http://paranwater.tistory.com/417에 의하면

	yarn cluster	yatn client	spark standalone
driver tun is	application master	client	client
자원 요청을 누가?	application master	application master	client
executor process 시작을 누가?	yarn node manager	yarn node manager	spark slave
persistent service	yarn resource manager,nodemanager	yarn resource manager,nodemanager	spark master,workers
spark -sehll 지원함?	n	y	y

yarn에서 하기 위해선 몇가지 설정을 해야한다.

1.hadoop 설정 출처url로 가서 설정파일을 카피할 수 있다

하둡의 설정파일은 hadoop설치경로 아래에 etc/hadoop아래에 있다.

아래의 6가지 파일을 설정해주어야 한다.

**설정하기전엔 INFO ipc.Client: Retrying connect to server: 0.0.0.0/0.0.0.0:8032 이런에러가 발생했다..ㅠㅠ

– /etc/hosts 이건 원래경로 (하둡아래에있는게 아니다) 그냥 /etc/hosts 자체다)

요기에는 datanode,secondarynamenode,namenode의 hosts를 설정해주는것

– core-site.xml
– hdfs-site.xml
– mapred-site.xml
– yarn-site.xml
– slaves

설정을 해주고나면 음..뭔가 생기고 포트주소로 가면 job?이 생기는것을 확인된다 아직까진 뭔지 잘모르겠다 ㅠㅠ;;

일단은 오늘은 여기까지 ^--^

2.sparkcontext

-sparkcontext는 클러스트에서 사용하며 스파크 클러스터의 연결,스파크와 연동할 수 있는 엔트리 포인트를 제공한다

-생성하면 스파크와 연동할 수 있고 스파크 잡을 배포할 수 있다.

위지원

데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨

저작자표시

'2017년 > Spark' 카테고리의 다른 글

시작하세요! 하둡프로그래밍 [결론 : 실패] (2)	2017.11.01
Spark Sql 실습 (0)	2017.10.20
hadoop 설치 (0)	2017.10.19
spark 예제 돌려보기 (0)	2017.10.18
spark sql (0)	2017.10.18

잠깐만요~! 읽으신김에 이런 글들은 어떠세요? 👀

맨 위로

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터를 사랑하고 궁금해하는 기록쟁이입니다! 😉 Super Data Girl이 되는 그날까지🏃‍♀️ 화이팅!

spark 로 하는 고속 빅데이터 분석과 처리

'2017년 > Spark' 카테고리의 다른 글

티스토리툴바

개인정보

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역