위지원의 데이터 일기 🐈
Home
  • 분류 전체보기 (564)
    • ✎ 2025년 (5)
    • 2024년 (16)
    • 2023년 (6)
    • 2022년 (35)
      • Developement (22)
      • Error (9)
    • 2021년 (68)
      • ERROR (9)
      • 알고리즘 (11)
      • 개발공부 (21)
      • Data (15)
      • 21.下 (12)
    • 2020년 (164)
      • 코테 (84)
      • Development (29)
      • 정처기 (41)
    • 2019년 (27)
    • 2018년 (89)
      • English Speaking (8)
      • Error (12)
      • C, Java, FileSystem (13)
      • DataBase (15)
      • Java (2)
      • 지식 (16)
      • Go (3)
      • spark (9)
      • 영어 (5)
      • 알고리즘 (6)
    • 2017년 (143)
      • Error (17)
      • machine learning (16)
      • Spark (20)
      • Database (19)
      • Python (17)
      • Spring (9)
      • etc. (10)
      • 백준 (5)
      • Google Platform (12)
      • web Development (7)
      • Docker (3)
      • Linux (8)
Home
  • 분류 전체보기 (564)
    • ✎ 2025년 (5)
    • 2024년 (16)
    • 2023년 (6)
    • 2022년 (35)
      • Developement (22)
      • Error (9)
    • 2021년 (68)
      • ERROR (9)
      • 알고리즘 (11)
      • 개발공부 (21)
      • Data (15)
      • 21.下 (12)
    • 2020년 (164)
      • 코테 (84)
      • Development (29)
      • 정처기 (41)
    • 2019년 (27)
    • 2018년 (89)
      • English Speaking (8)
      • Error (12)
      • C, Java, FileSystem (13)
      • DataBase (15)
      • Java (2)
      • 지식 (16)
      • Go (3)
      • spark (9)
      • 영어 (5)
      • 알고리즘 (6)
    • 2017년 (143)
      • Error (17)
      • machine learning (16)
      • Spark (20)
      • Database (19)
      • Python (17)
      • Spring (9)
      • etc. (10)
      • 백준 (5)
      • Google Platform (12)
      • web Development (7)
      • Docker (3)
      • Linux (8)
블로그 내 검색
포트폴리오

위지원의 데이터 일기 🐈

데이터를 사랑하고 궁금해하는 기록쟁이입니다! 😉 Super Data Girl이 되는 그날까지🏃‍♀️ 화이팅!

  • 🖥 깃블로그
  • 🌍 위키원
  • 📑 내맘대로 스크랩
  • 💌 메일
  • 2021년/Data

    AWS Glue 사용해보기

    2021. 3. 19. 20:51

    by. 위지원

    아래 guide를 보고 실습했다.

     

    Amazon S3 및 AWS Glue를 이용한 데이터 레이크 구축하기 | Amazon Web Services

    데이터 레이크(Data Lake)는 다양한 유형의 대량 데이터를 처리해야 하는 과제를 해결하는 데이터 저장 및 분석 방법으로서 점차 인기를 얻고 있습니다. 데이터 레이크를 사용하면 모든 데이터(정

    aws.amazon.com


    우선 데이터베이스를 생성해야한다. 

    가이드에 나와있는대로 이름을 지정하고 데이터베이스를 추가한다.

     

    데이터베이스를 생성하고나면 아래처럼 테이블을 추가할 수 있는데, 이에 크롤러를 이용할 수 있다.

    클로링은 AWS에서 제공해주는 링크를 이용하면된다. 

    딱히 설명할게 없다... 가이드가 워낙 잘되어있어서... (^0^);;

     

    아래와 같이 크롤러가 추가되고나면 크롤러를 실행해주면 된다! 이후 테이블을 확인하면 data라는 테이블이 생성된 걸 확인할 수 있다.

     

     

    이제 데이터 타입을 변경할 것이다. csv -> Parquet

    Parquet이란? : Apache Parquet는 Apache Hadoop 에코 시스템의 무료 오픈 소스 열 지향 데이터 스토리지 형식

    근데 난 아래처럼 전 과정을 똑같이했는데 계속 에러가 떴다..ㅠ_ㅠ 뭘잘못한건지. 

    착실히 따라했는데 몬가 빠진걸까. 근데 가이드와 다르게 Parquet 지정하는 부분이 없었다.

     

    그러다가 계속 위에 뉴~ 이러면서 홍보하길래 이를 이용해보려했다.

     

    이 과정으로 진행하니까 스므스하게 테이블 추가까지 모두 완료할 수 있었다..(띠용?)

     

    이제 Athena에서 데이터를 사용할 수 있다. 

     

    이래서 다들 AWS를 사용하는구나를 느꼈다. 편리성 인터페이스, 직관성 뭐하나 빠지는게 없다.. 대단하다..

    저작자표시 (새창열림)

    '2021년 > Data' 카테고리의 다른 글

    [티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장  (0) 2021.03.24
    [티스토리 게시글 추천 시스템 만들기] #1 계획  (0) 2021.03.24
    koalas  (0) 2021.03.23
    [DB 공부] PostgreSQL Query  (1) 2021.03.22
    [DB 공부] PostgreSQL 설치(Docker, Dbeaver 사용)  (0) 2021.03.22

    잠깐만요~! 읽으신김에 이런 글들은 어떠세요? 👀

    • [티스토리 게시글 추천 시스템 만들기] #1 계획 2021.03.24
    • koalas 2021.03.23
    • [DB 공부] PostgreSQL Query 2021.03.22
    • [DB 공부] PostgreSQL 설치(Docker, Dbeaver 사용) 2021.03.22
    맨 위로
전체 글 보기
Tistory 로그인
Tistory 로그아웃
로그아웃 글쓰기 관리

열정! 열정! 열정! 🔥

Designed by Nana
블로그 이미지
위지원
데이터와 관련된 일을 모두 좋아합니다

티스토리툴바

티스토리툴바