2018년/spark
[Spark] :: 구조 및 동작 과정 [이론]
전체 처리 과정 1 . Driver Program : 사용자가 실제로 작성한 코드 드라이버가 실행 될때- 사용자 프로그램을 Task로 변환- Task를 Executor에 할당 SparkContext를 반드시 포함 - 스파크 환경 변수 설정등 - RDD 생성 / 파일 로딩 / RDD의 메타 데이터 저장- Job 정보 UI로 표현 시작 시 스케쥴러 실행- DAG( Direct Acyclic Graph ) : 데이터의 지역성을 고려하여 단순히 Job의 논리적인 실행 계획을 세움 - Task : stage 단위 ( Task의 묶음 ) 로 분할 * task는 가장 작은 실행단위 - 각 stage 별 task 실행 계획을 생성 * job은 stage의 묶음 2. Deploy mode : 드라이버 프로그램의 실행 위..
2018. 1. 17. 14:18