-
오늘은 코알라스를 알아보려한다. Apache Spark위에 Pandas API를 구현한 기능이다.
But when they have to work with really large data they don’t have option they have to migrate to PySpark due to scalability issue in Pandas.
In-Order to solve this problem Data-bricks introduced a solution called “Koalas” a library where you can transfer your data between Pandas and PySpark very easily without changing nearly ~75% of your native code.
pandas의 분석 용이함과 spark의 분산 이 두마리 토끼를 모두 잡을 수 있는 엄첨난 라이브러리이다.
필요성과 자세한 설명은 아래에 있다. 개인 프로젝트하면서 koalas를 쓸만큼 큰 데이터를 만질 기회는 없을 것 같긴하다.
실제로도 기가바이트 이하의 데이터는 pandas를 사용하는 것이 더 효율적이라고 한다.
또한 Spark과 함께라서 사용 시 옵션에 대한 깊은 이해가 필요하다고 한다.
그래서 간단하게 사용만 조금 해보려한다. 아래 링크를 참고해서 필요한 라이브러리를 모두 설치했다.
1. 데이터 생성
데이터를 생성하는 방법은 3가지가 있다. 나머지 함수 사용법 등은 pandas와 거의 유사하므로 스킵한다.
1-1. koalas를 직접 이용
2-1. from_pandas를 이용
2-3. pyspark df를 to_koalas를 이용해 변환
REFERENCE
https://1004jonghee.tistory.com/entry/Pandas-API-on-Apache-Spark
'2021년 > Data' 카테고리의 다른 글
[티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장 (0) 2021.03.24 [티스토리 게시글 추천 시스템 만들기] #1 계획 (0) 2021.03.24 [DB 공부] PostgreSQL Query (0) 2021.03.22 [DB 공부] PostgreSQL 설치(Docker, Dbeaver 사용) (0) 2021.03.22 AWS Glue 사용해보기 (0) 2021.03.19