2017년/Spark
spark란?
-범용적 목적의 분산 고성능 클러스터링 플랫폼 (General purpose high performance distributed platform)분산된 여러대의 노드에서 연산을 할 수 있게 해주는 범용 분산 클러스터링 플랫폼으로맵리듀스,스트리밍 처리모듈을 추가하여 기능을 수행하게 하는 기능제공 -메모리 하둡이라 불리는데, 기존의 하둡작업은 디스크기반이라 성능이 느려졌는데 이를 메모리기반으로 옮겨 고속화 하고자 하는데서스파크는 출발 -주요기능 -맵리듀스-스트리밍 데이타 핸들링-sql 기반의 데이타 쿼리-머신 런닝 라이브러리 -장점-하나의 플랫폼에서 여러가지가 가능하고 속도가 빠름-배치,스트리밍,머신런닝등 다양한 처리를 제공하므로 하나의 데이터로 여러가지 형태의 데이터 처리-스파크는 스칼라로 구현되었지만 다..
2017. 6. 25. 17:57