koalas

2021. 3. 23. 19:37

by. 위지원

1. 데이터 생성
REFERENCE

오늘은 코알라스를 알아보려한다. Apache Spark위에 Pandas API를 구현한 기능이다.

코알라와 판다..

But when they have to work with really large data they don’t have option they have to migrate to PySpark due to scalability issue in Pandas.

In-Order to solve this problem Data-bricks introduced a solution called “Koalas” a library where you can transfer your data between Pandas and PySpark very easily without changing nearly ~75% of your native code.

Koalas: Easy Transition between pandas and Spark

Hi There… This Post will give you basic background about using Koalas to transfer data between pandas and Spark using pandas DataFrame API…

medium.com

pandas의 분석 용이함과 spark의 분산 이 두마리 토끼를 모두 잡을 수 있는 엄첨난 라이브러리이다.

필요성과 자세한 설명은 아래에 있다. 개인 프로젝트하면서 koalas를 쓸만큼 큰 데이터를 만질 기회는 없을 것 같긴하다.

실제로도 기가바이트 이하의 데이터는 pandas를 사용하는 것이 더 효율적이라고 한다.

또한 Spark과 함께라서 사용 시 옵션에 대한 깊은 이해가 필요하다고 한다.

그래서 간단하게 사용만 조금 해보려한다. 아래 링크를 참고해서 필요한 라이브러리를 모두 설치했다.

Installation — Koalas 1.7.0 documentation

Officially Python 3.5 to 3.8. Note Koalas support for Python 3.5 is deprecated and will be dropped in the future release. At that point, existing Python 3.5 workflows that use Koalas will continue to work without modification, but Python 3.5 users will no

koalas.readthedocs.io

1. 데이터 생성

데이터를 생성하는 방법은 3가지가 있다. 나머지 함수 사용법 등은 pandas와 거의 유사하므로 스킵한다.

1-1. koalas를 직접 이용

2-1. from_pandas를 이용

2-3. pyspark df를 to_koalas를 이용해 변환

REFERENCE

https://1004jonghee.tistory.com/entry/Pandas-API-on-Apache-Spark

위지원

데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨

저작자표시 (새창열림)

'2021년 > Data' 카테고리의 다른 글

[티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장 (0)	2021.03.24
[티스토리 게시글 추천 시스템 만들기] #1 계획 (0)	2021.03.24
[DB 공부] PostgreSQL Query (0)	2021.03.22
[DB 공부] PostgreSQL 설치(Docker, Dbeaver 사용) (0)	2021.03.22
AWS Glue 사용해보기 (0)	2021.03.19

잠깐만요~! 읽으신김에 이런 글들은 어떠세요? 👀

맨 위로

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터를 사랑하고 궁금해하는 기록쟁이입니다! 😉 Super Data Girl이 되는 그날까지🏃‍♀️ 화이팅!

koalas

1. 데이터 생성

REFERENCE

'2021년 > Data' 카테고리의 다른 글

티스토리툴바

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역