2022년/Developement
프로젝트를 마치며 #2. Kudu 와 Hive
본 프로젝트를 진행하면서 저장소로 kudu와 hive를 사용했다. 데이터의 특성과 각 저장소의 특성을 알맞게 연관 지어 사용했다. 그래서 이번에는 각 저장소의 특징을 정리하고자 한다. Hive란? Apache Hive는 광범위한 Hadoop 에코시스템에 속하는 Apache Hadoop Distributed File System(HDFS)에서 추출한 대용량 데이터세트를 읽고, 쓰고, 관리하도록 설계된 오픈 소스 데이터 웨어하우스 소프트웨어입니다. 출처는 아래 링크이고, Hive에 대해 매우 자세하게 쓰여있기 때문에 내가 추가로 쓸 필요는 없을 것 같다. Apache Hive는 어디에 사용합니까? - Databricks Apache Hive는 Apache 하둡에서 SQL을 사용하여 분산형 스토리지에 상주하는..
2022. 12. 27. 15:01