AWS Glue 사용해보기

2021. 3. 19. 20:51

by. 위지원

아래 guide를 보고 실습했다.

Amazon S3 및 AWS Glue를 이용한 데이터 레이크 구축하기 | Amazon Web Services

데이터 레이크(Data Lake)는 다양한 유형의 대량 데이터를 처리해야 하는 과제를 해결하는 데이터 저장 및 분석 방법으로서 점차 인기를 얻고 있습니다. 데이터 레이크를 사용하면 모든 데이터(정

aws.amazon.com

우선 데이터베이스를 생성해야한다.

데이터베이스를 생성하고나면 아래처럼 테이블을 추가할 수 있는데, 이에 크롤러를 이용할 수 있다.

클로링은 AWS에서 제공해주는 링크를 이용하면된다.

아래와 같이 크롤러가 추가되고나면 크롤러를 실행해주면 된다! 이후 테이블을 확인하면 data라는 테이블이 생성된 걸 확인할 수 있다.

이제 데이터 타입을 변경할 것이다. csv -> Parquet

Parquet이란? : Apache Parquet는 Apache Hadoop 에코 시스템의 무료 오픈 소스 열 지향 데이터 스토리지 형식

근데 난 아래처럼 전 과정을 똑같이했는데 계속 에러가 떴다..ㅠ_ㅠ 뭘잘못한건지.

그러다가 계속 위에 뉴~ 이러면서 홍보하길래 이를 이용해보려했다.

이 과정으로 진행하니까 스므스하게 테이블 추가까지 모두 완료할 수 있었다..(띠용?)

이제 Athena에서 데이터를 사용할 수 있다.

이래서 다들 AWS를 사용하는구나를 느꼈다. 편리성 인터페이스, 직관성 뭐하나 빠지는게 없다.. 대단하다..

위지원

데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨

[티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장 (0)	2021.03.24
[티스토리 게시글 추천 시스템 만들기] #1 계획 (0)	2021.03.24
koalas (0)	2021.03.23
[DB 공부] PostgreSQL Query (0)	2021.03.22
[DB 공부] PostgreSQL 설치(Docker, Dbeaver 사용) (0)	2021.03.22

잠깐만요~! 읽으신김에 이런 글들은 어떠세요? 👀

맨 위로

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`