-
아래 guide를 보고 실습했다.
Amazon S3 및 AWS Glue를 이용한 데이터 레이크 구축하기 | Amazon Web Services
데이터 레이크(Data Lake)는 다양한 유형의 대량 데이터를 처리해야 하는 과제를 해결하는 데이터 저장 및 분석 방법으로서 점차 인기를 얻고 있습니다. 데이터 레이크를 사용하면 모든 데이터(정
aws.amazon.com
우선 데이터베이스를 생성해야한다.
가이드에 나와있는대로 이름을 지정하고 데이터베이스를 추가한다. 데이터베이스를 생성하고나면 아래처럼 테이블을 추가할 수 있는데, 이에 크롤러를 이용할 수 있다.
클로링은 AWS에서 제공해주는 링크를 이용하면된다.
딱히 설명할게 없다... 가이드가 워낙 잘되어있어서... (^0^);; 아래와 같이 크롤러가 추가되고나면 크롤러를 실행해주면 된다! 이후 테이블을 확인하면 data라는 테이블이 생성된 걸 확인할 수 있다.
이제 데이터 타입을 변경할 것이다. csv -> Parquet
Parquet이란? : Apache Parquet는 Apache Hadoop 에코 시스템의 무료 오픈 소스 열 지향 데이터 스토리지 형식
근데 난 아래처럼 전 과정을 똑같이했는데 계속 에러가 떴다..ㅠ_ㅠ 뭘잘못한건지.
착실히 따라했는데 몬가 빠진걸까. 근데 가이드와 다르게 Parquet 지정하는 부분이 없었다. 그러다가 계속 위에 뉴~ 이러면서 홍보하길래 이를 이용해보려했다.
이 과정으로 진행하니까 스므스하게 테이블 추가까지 모두 완료할 수 있었다..(띠용?)
이제 Athena에서 데이터를 사용할 수 있다.
이래서 다들 AWS를 사용하는구나를 느꼈다. 편리성 인터페이스, 직관성 뭐하나 빠지는게 없다.. 대단하다..
위지원데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨
'2021년 > Data' 카테고리의 다른 글
[티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장 (0) 2021.03.24 [티스토리 게시글 추천 시스템 만들기] #1 계획 (0) 2021.03.24 koalas (0) 2021.03.23 [DB 공부] PostgreSQL Query (0) 2021.03.22 [DB 공부] PostgreSQL 설치(Docker, Dbeaver 사용) (0) 2021.03.22