위지원의 데이터 일기 🐈
Home
  • 분류 전체보기 (563)
    • ✎ 2025년 (4)
    • 2024년 (16)
    • 2023년 (6)
    • 2022년 (35)
      • Developement (22)
      • Error (9)
    • 2021년 (68)
      • ERROR (9)
      • 알고리즘 (11)
      • 개발공부 (21)
      • Data (15)
      • 21.下 (12)
    • 2020년 (164)
      • 코테 (84)
      • Development (29)
      • 정처기 (41)
    • 2019년 (27)
    • 2018년 (89)
      • English Speaking (8)
      • Error (12)
      • C, Java, FileSystem (13)
      • DataBase (15)
      • Java (2)
      • 지식 (16)
      • Go (3)
      • spark (9)
      • 영어 (5)
      • 알고리즘 (6)
    • 2017년 (143)
      • Error (17)
      • machine learning (16)
      • Spark (20)
      • Database (19)
      • Python (17)
      • Spring (9)
      • etc. (10)
      • 백준 (5)
      • Google Platform (12)
      • web Development (7)
      • Docker (3)
      • Linux (8)
Home
  • 분류 전체보기 (563)
    • ✎ 2025년 (4)
    • 2024년 (16)
    • 2023년 (6)
    • 2022년 (35)
      • Developement (22)
      • Error (9)
    • 2021년 (68)
      • ERROR (9)
      • 알고리즘 (11)
      • 개발공부 (21)
      • Data (15)
      • 21.下 (12)
    • 2020년 (164)
      • 코테 (84)
      • Development (29)
      • 정처기 (41)
    • 2019년 (27)
    • 2018년 (89)
      • English Speaking (8)
      • Error (12)
      • C, Java, FileSystem (13)
      • DataBase (15)
      • Java (2)
      • 지식 (16)
      • Go (3)
      • spark (9)
      • 영어 (5)
      • 알고리즘 (6)
    • 2017년 (143)
      • Error (17)
      • machine learning (16)
      • Spark (20)
      • Database (19)
      • Python (17)
      • Spring (9)
      • etc. (10)
      • 백준 (5)
      • Google Platform (12)
      • web Development (7)
      • Docker (3)
      • Linux (8)
블로그 내 검색
포트폴리오

위지원의 데이터 일기 🐈

데이터를 사랑하고 궁금해하는 기록쟁이입니다! 😉 Super Data Girl이 되는 그날까지🏃‍♀️ 화이팅!

  • 🖥 깃블로그
  • 🌍 위키원
  • 📑 내맘대로 스크랩
  • 💌 메일
  • 2021년/Data

    koalas

    2021. 3. 23. 19:37

    by. 위지원

    1. 1. 데이터 생성
    2. REFERENCE

    오늘은 코알라스를 알아보려한다.  Apache Spark위에 Pandas API를 구현한 기능이다.

     

    코알라와 판다.. 

    But when they have to work with really large data they don’t have option they have to migrate to PySpark due to scalability issue in Pandas.

     

    In-Order to solve this problem Data-bricks introduced a solution called “Koalas” a library where you can transfer your data between Pandas and PySpark very easily without changing nearly ~75% of your native code.

     

     

    Koalas: Easy Transition between pandas and Spark

    Hi There… This Post will give you basic background about using Koalas to transfer data between pandas and Spark using pandas DataFrame API…

    medium.com

     

    pandas의 분석 용이함과 spark의 분산 이 두마리 토끼를 모두 잡을 수 있는 엄첨난 라이브러리이다.

    필요성과 자세한 설명은 아래에 있다. 개인 프로젝트하면서 koalas를 쓸만큼 큰 데이터를 만질 기회는 없을 것 같긴하다.

    실제로도 기가바이트 이하의 데이터는 pandas를 사용하는 것이 더 효율적이라고 한다.

    또한 Spark과 함께라서 사용 시 옵션에 대한 깊은 이해가 필요하다고 한다.

     

     


    그래서 간단하게 사용만 조금 해보려한다. 아래 링크를 참고해서 필요한 라이브러리를 모두 설치했다.

     

    Installation — Koalas 1.7.0 documentation

    Officially Python 3.5 to 3.8. Note Koalas support for Python 3.5 is deprecated and will be dropped in the future release. At that point, existing Python 3.5 workflows that use Koalas will continue to work without modification, but Python 3.5 users will no

    koalas.readthedocs.io

    1. 데이터 생성

    데이터를 생성하는 방법은 3가지가 있다. 나머지 함수 사용법 등은 pandas와 거의 유사하므로 스킵한다. 

    1-1. koalas를 직접 이용

     2-1. from_pandas를 이용

    2-3. pyspark df를 to_koalas를 이용해 변환

     

    REFERENCE

    https://1004jonghee.tistory.com/entry/Pandas-API-on-Apache-Spark

    profile
    위지원

    데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨

    저작자표시 (새창열림)

    '2021년 > Data' 카테고리의 다른 글

    [티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장  (0) 2021.03.24
    [티스토리 게시글 추천 시스템 만들기] #1 계획  (0) 2021.03.24
    [DB 공부] PostgreSQL Query  (0) 2021.03.22
    [DB 공부] PostgreSQL 설치(Docker, Dbeaver 사용)  (0) 2021.03.22
    AWS Glue 사용해보기  (0) 2021.03.19

    잠깐만요~! 읽으신김에 이런 글들은 어떠세요? 👀

    • [티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장 2021.03.24
    • [티스토리 게시글 추천 시스템 만들기] #1 계획 2021.03.24
    • [DB 공부] PostgreSQL Query 2021.03.22
    • [DB 공부] PostgreSQL 설치(Docker, Dbeaver 사용) 2021.03.22
    맨 위로
전체 글 보기
Tistory 로그인
Tistory 로그아웃
로그아웃 글쓰기 관리

열정! 열정! 열정! 🔥

Designed by Nana
블로그 이미지
위지원
데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨

티스토리툴바

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.