위지원의 개발 일기 🐈

Home

분류 전체보기 (545)

Home

분류 전체보기 (545)

블로그 내 검색

포트폴리오

데이터를 사랑하고 궁금해하는 기록쟁이입니다! 😉 Super Data Engineer가 되는 그날까지🏃‍♀️ 화이팅!

🖥 깃블로그
🌍 위키원
📑 내맘대로 스크랩
💌 메일
🐙 깃허브

Impala (2)

2022년/Developement
프로젝트를 마치며 #2. Kudu 와 Hive
본 프로젝트를 진행하면서 저장소로 kudu와 hive를 사용했다. 데이터의 특성과 각 저장소의 특성을 알맞게 연관 지어 사용했다. 그래서 이번에는 각 저장소의 특징을 정리하고자 한다. Hive란? Apache Hive는 광범위한 Hadoop 에코시스템에 속하는 Apache Hadoop Distributed File System(HDFS)에서 추출한 대용량 데이터세트를 읽고, 쓰고, 관리하도록 설계된 오픈 소스 데이터 웨어하우스 소프트웨어입니다. 출처는 아래 링크이고, Hive에 대해 매우 자세하게 쓰여있기 때문에 내가 추가로 쓸 필요는 없을 것 같다. Apache Hive는 어디에 사용합니까? - Databricks Apache Hive는 Apache 하둡에서 SQL을 사용하여 분산형 스토리지에 상주하는..

2022. 12. 27. 15:01

2022년/Developement
프로젝트를 마치며 #1. 데이터 검증
벌써 2022년도의 마지막 주이고 나는 이번주를 끝으로 프로젝트에서 철수한다. 서론 이번에 데이터 이행 프로젝트를 진행하게 되었다. 프로젝트를 진행하면서 꽤나 많은 기술을 접할 수 있었는데, 프로젝트가 종료되어가는 이 시점에서 각 기술들을 정리하면서 머릿속에 남겨보고자 한다. 아, 당연히 기술을 플젝에서 어떻게 썼는지에 대한 자세한 내용은 기술하지 않을 것이다. 나는 이번 프로젝트에서 초반에는 데이터 이행을 도와주다가 후반 부에는 검증을 도맡아 했다. 검증 해야하는 테이블의 양이 약 4000개로 매우 많았고, 테이블의 크기가 커 어려움이 많았다. 무엇을 배웠는가? 우선 프로젝트에서 접한 것들을 나열하자면 1. Linux Bash shell 2. Sqoop 3. Impala 4. Kudu 5. Hive 6..

2022. 12. 26. 16:57

이전

1

다음

전체 글 보기

Tistory 로그인

Tistory 로그아웃

로그아웃 글쓰기 관리

열정! 열정! 열정! 🔥

Designed by Nana

블로그 이미지

위지원

데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨

티스토리툴바