-
데이터를 수집해서 데이터로 무엇인가 하는 전체적인 흐름을 갖는 프로그램을 만들고싶었다.
1. 조사
우선 몇몇 메이저 회사들과 그냥 단순 구글링을 통해 데이터 플랫폼 구조를 조사했다.
1. Cloud 기반
2. local에서 apache 기반으로
3. 1과 2를 혼합
2. 선택
local + batch
3. 무엇을?
무엇을 할까 고민을 했다. 우선은 "추천"과 "통계" 에 무게를 두었다. 사실 주제만 다르지 다 목적은 같았다. ... 🥺
일단 간단한 것부터 구현해보자 생각했기때문에 아래와같이 정의했다.
이 중, 이왕 블로그에 업로드하는 것이니 블로그 게시글을 선택했다.
추천 통계 식사 점심/저녁 추천 내가 많이 먹은 음식들 노래 노동요 추천 내가 많이 들은 노래들 블로그 게시글 추천 내가 많이 사용한 단어들 사실 게시글이 500만도 아니고,, 데이터 양만 보면 Spark까지는 전혀 필요없는 상황이다. 그냥 전체 흐름을 만들어보고싶었다.
4. 결론
Spark 기반의 블로그 게시글 추천 시스템을 만들어보자
'2021년 > Data' 카테고리의 다른 글
[티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기 (0) 2021.03.25 [티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장 (0) 2021.03.24 koalas (0) 2021.03.23 [DB 공부] PostgreSQL Query (0) 2021.03.22 [DB 공부] PostgreSQL 설치(Docker, Dbeaver 사용) (0) 2021.03.22