위지원의 데이터 일기 🐈
Home
  • 분류 전체보기 (563)
    • ✎ 2025년 (4)
    • 2024년 (16)
    • 2023년 (6)
    • 2022년 (35)
      • Developement (22)
      • Error (9)
    • 2021년 (68)
      • ERROR (9)
      • 알고리즘 (11)
      • 개발공부 (21)
      • Data (15)
      • 21.下 (12)
    • 2020년 (164)
      • 코테 (84)
      • Development (29)
      • 정처기 (41)
    • 2019년 (27)
    • 2018년 (89)
      • English Speaking (8)
      • Error (12)
      • C, Java, FileSystem (13)
      • DataBase (15)
      • Java (2)
      • 지식 (16)
      • Go (3)
      • spark (9)
      • 영어 (5)
      • 알고리즘 (6)
    • 2017년 (143)
      • Error (17)
      • machine learning (16)
      • Spark (20)
      • Database (19)
      • Python (17)
      • Spring (9)
      • etc. (10)
      • 백준 (5)
      • Google Platform (12)
      • web Development (7)
      • Docker (3)
      • Linux (8)
Home
  • 분류 전체보기 (563)
    • ✎ 2025년 (4)
    • 2024년 (16)
    • 2023년 (6)
    • 2022년 (35)
      • Developement (22)
      • Error (9)
    • 2021년 (68)
      • ERROR (9)
      • 알고리즘 (11)
      • 개발공부 (21)
      • Data (15)
      • 21.下 (12)
    • 2020년 (164)
      • 코테 (84)
      • Development (29)
      • 정처기 (41)
    • 2019년 (27)
    • 2018년 (89)
      • English Speaking (8)
      • Error (12)
      • C, Java, FileSystem (13)
      • DataBase (15)
      • Java (2)
      • 지식 (16)
      • Go (3)
      • spark (9)
      • 영어 (5)
      • 알고리즘 (6)
    • 2017년 (143)
      • Error (17)
      • machine learning (16)
      • Spark (20)
      • Database (19)
      • Python (17)
      • Spring (9)
      • etc. (10)
      • 백준 (5)
      • Google Platform (12)
      • web Development (7)
      • Docker (3)
      • Linux (8)
블로그 내 검색
포트폴리오

위지원의 데이터 일기 🐈

데이터를 사랑하고 궁금해하는 기록쟁이입니다! 😉 Super Data Girl이 되는 그날까지🏃‍♀️ 화이팅!

  • 🖥 깃블로그
  • 🌍 위키원
  • 📑 내맘대로 스크랩
  • 💌 메일
  • 2021년/Data

    [티스토리 게시글 추천 시스템 만들기] #1 계획

    2021. 3. 24. 20:39

    by. 위지원

    1. 1. 조사
    2. 2. 선택
    3. 3. 무엇을?
    4. 4. 결론

     

    데이터를 수집해서 데이터로 무엇인가 하는 전체적인 흐름을 갖는 프로그램을 만들고싶었다.


    1. 조사

    우선 몇몇 메이저 회사들과 그냥 단순 구글링을 통해 데이터 플랫폼 구조를 조사했다.

        1. Cloud 기반 

        2. local에서 apache 기반으로

        3. 1과 2를 혼합

    [좌] aws: aws.amazon.com/ko/blogs/korea/mangoplate-customer-case [우] gcp: www.bespinglobal.com/gcp-datalab-bigquery-20180731/

     

    [좌] 아파치 기반: http://www.kosta.or.kr/mail/2016/download/architect/Track%204-1_Oracle_sblim.pdf  [우] 혼합: https://www.rtinsights.com/meet-the-etl-challenges-of-iot-data-and-maximize-roi/

     

     

    2. 선택

    local + batch 

     

    3. 무엇을?

    무엇을 할까 고민을 했다. 우선은 "추천"과 "통계" 에 무게를 두었다.  사실 주제만 다르지 다 목적은 같았다. ... 🥺

    일단 간단한 것부터 구현해보자 생각했기때문에 아래와같이 정의했다.

    이 중, 이왕 블로그에 업로드하는 것이니 블로그 게시글을 선택했다.

      추천 통계
    식사 점심/저녁 추천 내가 많이 먹은 음식들
    노래 노동요 추천 내가 많이 들은 노래들
    블로그 게시글 추천 내가 많이 사용한 단어들

    사실 게시글이 500만도 아니고,, 데이터 양만 보면 Spark까지는 전혀 필요없는 상황이다.  그냥 전체 흐름을 만들어보고싶었다.

    4. 결론

    Spark 기반의 블로그 게시글 추천 시스템을 만들어보자

     

     

    profile
    위지원

    데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨

    저작자표시 (새창열림)

    '2021년 > Data' 카테고리의 다른 글

    [티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기  (0) 2021.03.25
    [티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장  (0) 2021.03.24
    koalas  (0) 2021.03.23
    [DB 공부] PostgreSQL Query  (0) 2021.03.22
    [DB 공부] PostgreSQL 설치(Docker, Dbeaver 사용)  (0) 2021.03.22

    잠깐만요~! 읽으신김에 이런 글들은 어떠세요? 👀

    • [티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기 2021.03.25
    • [티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장 2021.03.24
    • koalas 2021.03.23
    • [DB 공부] PostgreSQL Query 2021.03.22
    맨 위로
전체 글 보기
Tistory 로그인
Tistory 로그아웃
로그아웃 글쓰기 관리

열정! 열정! 열정! 🔥

Designed by Nana
블로그 이미지
위지원
데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨

티스토리툴바

티스토리툴바

단축키

내 블로그

내 블로그 - 관리자 홈 전환
Q
Q
새 글 쓰기
W
W

블로그 게시글

글 수정 (권한 있는 경우)
E
E
댓글 영역으로 이동
C
C

모든 영역

이 페이지의 URL 복사
S
S
맨 위로 이동
T
T
티스토리 홈 이동
H
H
단축키 안내
Shift + /
⇧ + /

* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.