• spark란?

    2017. 6. 25. 17:57

    by. 위지원



    -범용적 목적의 분산 고성능 클러스터링 플랫폼 (General purpose high performance distributed platform)

    분산된 여러대의 노드에서 연산을 할 수 있게 해주는 범용 분산 클러스터링 플랫폼으로

    맵리듀스,스트리밍 처리모듈을 추가하여 기능을 수행하게 하는 기능제공

    -메모리 하둡이라 불리는데, 기존의 하둡작업은 디스크기반이라 성능이 느려졌는데 이를 메모리기반으로 옮겨 고속화 하고자 하는데서

    스파크는 출발


    -주요기능 

    -맵리듀스

    -스트리밍 데이타 핸들링

    -sql 기반의 데이타 쿼리

    -머신 런닝 라이브러리


    -장점

    -하나의 플랫폼에서 여러가지가 가능하고 속도가 빠름

    -배치,스트리밍,머신런닝등 다양한 처리를 제공하므로 하나의 데이터로 여러가지 형태의 데이터 처리

    -스파크는 스칼라로 구현되었지만 다양한 언어를 지원하기 위한 sdk 존재

    -하둡,아마존,s3 등 다양한 데이터 저장소 지원



    10/19일 추가


    1.spark는 excutor라는  프로세스를 갖게 된다. 

    스팍 어플리케이션에 대한 익스큐터의 수는 고정 되어있고 이 익스큐터에 대한 자원또한 고정되어있어 어플리케이션 실행시간동안 같은 자원 사용

    Yarn이 지원하는 컨테이너 resizing을 통해 동적으로 자원을 주고 받는 기능을  spark에 활용할 계획


    2.job흐름과 스케쥴 작업을 관리하기 위해 spark는 active driver에 의존



    주요개념


    1.spark dirver는 spark context를 실행하는 프로세서

    2.spark application master는 yarn driver에 의해 자원 요천을 협상

    3.spark excutor는 job을 수행함

    4.spark task는 분산된 데이터 집합의 파티션 작업 단위


    출처 url

    http://bcho.tistory.com/1023

    http://paranwater.tistory.com/417

    '2017년 > Spark' 카테고리의 다른 글

    버츄어박스에 coreOs+Dockerswarm+spark 를 깔아보자  (0) 2017.07.21
    도커에서 spark를 설치해 보자  (0) 2017.07.13
    RDD(Resilient Distribured DataSet)란?  (0) 2017.07.12
    spark를 설치해보자  (0) 2017.07.11
    맵 리듀스란?  (0) 2017.07.08

    대화의 장 💬