-
2021.03.24 - [✎ 21.上/Data] - [티스토리 게시글 추천 시스템 만들기] #1 계획
2021.03.24 - [✎ 21.上/Data] - [티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장
2021.03.25 - [✎ 21.上/Data] - [티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기
코드를 아래와같이 조금 추가했다.
역시 데이터가 압도적으로 많긴 하다. 데이터를 빼보니 그 다음은 정처기였다. 링크를 걸은 것 때문인건가? 호호
from wordcloud import WordCloud import matplotlib.pyplot as plt Cloud = WordCloud( font_path="/Users/jiwonwee/Library/Fonts/D2Coding-Ver1.3.2-20180524-all.ttc", background_color="white", max_words=50) \ .generate_from_frequencies(countvect_df.T.sum(axis=1)) plt.figure(figsize=(22, 22)) # 이미지 사이즈 지정 plt.imshow(Cloud, interpolation='lanczos') # 이미지의 부드럽기 정도 plt.axis('off') # x y 축 숫자 제거 plt.show()
'2021년 > Data' 카테고리의 다른 글
vmware fushion을 이용한 스파크 완전분산 모드(CentOS+MAC) (0) 2021.04.01 [Spark] Data Analytics with Spark using Python (0) 2021.03.31 [티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기 (0) 2021.03.25 [티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장 (0) 2021.03.24 [티스토리 게시글 추천 시스템 만들기] #1 계획 (0) 2021.03.24