2021년/Data
[티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기
2021.03.24 - [✎ 21.上/Data] - [티스토리 게시글 추천 시스템 만들기] #1 계획 2021.03.24 - [✎ 21.上/Data] - [티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장 tfidf 계산 계산 결과를 계속 도출하는게 시간이 걸리기때문에 parquet 형태로 또 저장해두고 이후에는 그냥 hdfs에서 가져다 썼다. 어.. 근데 뭔가 그냥 판다스로 계산한 것같아서... 어... 스파크를 파케이때문에 쓴 느낌이라.. 어.... 사실 스팍없어도 됬을거라는 생각이.. 👽 def cal_tf_idf(spark, docs_df: dataframe.DataFrame, stop_word_df: dataframe.DataFrame): docs_info ..
2021. 3. 25. 20:16