2021년/Data

[티스토리 게시글 추천 시스템 만들기] #4 worldCloud 만들기

위지원 2021. 3. 26. 21:11

2021.03.24 - [✎ 21.上/Data] - [티스토리 게시글 추천 시스템 만들기] #1 계획

2021.03.24 - [✎ 21.上/Data] - [티스토리 게시글 추천 시스템 만들기] #2 크롤링해서 HDFS에 Parquet으로 저장

2021.03.25 - [✎ 21.上/Data] - [티스토리 게시글 추천 시스템 만들기] #3 클롤링 데이터 TF-IDF 계산하기

 

코드를 아래와같이 조금 추가했다.

역시 데이터가 압도적으로 많긴 하다. 데이터를 빼보니 그 다음은 정처기였다. 링크를 걸은 것 때문인건가? 호호 

from wordcloud import WordCloud
import matplotlib.pyplot as plt

Cloud = WordCloud(
        font_path="/Users/jiwonwee/Library/Fonts/D2Coding-Ver1.3.2-20180524-all.ttc",
        background_color="white",
        max_words=50) \
        .generate_from_frequencies(countvect_df.T.sum(axis=1))

    plt.figure(figsize=(22, 22))  # 이미지 사이즈 지정
    plt.imshow(Cloud, interpolation='lanczos')  # 이미지의 부드럽기 정도
    plt.axis('off')  # x y 축 숫자 제거
    plt.show()