-
협업 필터링이란?
협업 필터링(collaborative filtering)은 많은 사용자들로부터 얻은 기호정보(taste information)에 따라 사용자들의 관심사들을 자동적으로 예측하게 해주는 방법이다. 협력 필터링 접근법의 근본적인 가정은 사용자들의 과거의 경향이 미래에서도 그대로 유지 될 것이라는 전제에 있다. (위키 백과)
크게
- 우리가 흔히 이야기하는 사용자, 아이템 기반은 Neighborhood based method
- SGD(Stochastic Gradient Descent), ALS(Alternating Least Squares)와 같은 Latent Factor Collaborative Filtering으로도 나눌 수 있다.
1) Neighborhood based method(Memory Based); 사용자, 아이템 기반
말 그대로 유사 사용자가 사용한 아이템을 추천해주거나 내가 소비한 아이템과 유사한 아이템을 추천해준다.
2)Latent Factor Collaborative Filter method(Matrix Factorization); SGD, ALS
Latent Factor Collaborative Filtering: User Latent factor와 Item Latent factor의 inner product로 rating matrix를 계산하여 원래 rating matrix와 유사해지도록 만드는 잠재요인 값을 찾아냄, 행렬 인수분해 이용
- SGD(확률적 경사 하강법): Sample Data에 Grdient Descent를 부여하는 방식으로 속도를 얻어 더 많은 trial을 진행할 수 있으며 local minima에 빠질 확률이 줄어든다. 기존 경사 하강법의 계산량을 줄일 수 있음
- ALS(교대 최소 제곱법): SGD는 User, iterm Latent factor를 동시 최적화 하지만 ALS는 하나를 고정시킨 뒤 하나를 순차적으로 반복하며 최적화
알고리즘의 자세한 설명은 아래 블로거분이 상세하게 적어주셨다.
3) 협업 필터링의 문제점
그러나 협업 필터링은 문제점이 존재한다.
(1) 콜드 스타트: 충분히 데이터가 수집되지못한 유저의 경우 추천이 어렵다.
(2) 롱테일: 파레토 법칙을 도식화했을 때 아래와 같이 나타난다. 이는 사용자들이 관심을 갖는 일부 콘텐츠가 추천콘텐츠로 도출될 확률이 커진다.
4. 컨텐츠 기반 필터링
TFIDF, Word2Vec,
요 근래, 내가 계속 진행했던 TFIDF와 같은 알고리즘이 컨텐츠 기반 필터링이다.
컨텐츠 자체를 분석하기때문에 사용자의 정보가 필요하지 않아 콜드스타트의 문제가 없다.
컨텐츠 기반의 필터링의 단점은
- 추천 아이템의 다양성 저하
- meta data의 한정성으로 인한 정밀성 저하
위와 같이 알고리즘은 저마다의 단점을 가지고 있다. 때문에 각 알고리즘의 장점만을 수용하여 설계한 알고리즘들이 오늘날 대부분 사용되고있으며, 현재 쏟아지고 있는 수많은 논문들 또한 이들의 단점을 보안할 방법들을 지속해서 발표하고있다.
필터 버블
추가로 자료를 조사하면서, ‘필터버블(Filter Bubble)' 이라는 현상을 알게되었다. 이러한 추천시스템으로 인해 사용자가 필터링 된 결과만을 접하게 되는 현상을 이야기한다고한다.
하.. 추천시스템 너무 오룝다... 😢 머리 폭발할거같다.
REFERENCES
m.blog.naver.com/with_msip/221870532849
www.samsungsemiconstory.com/2265
ko.wikipedia.org/wiki/%ED%98%91%EC%97%85_%ED%95%84%ED%84%B0%EB%A7%81
'2021년 > Data' 카테고리의 다른 글
GCP, Bigquery를 이용해 Kmeans 모델 만들기 (0) 2021.05.14 [티스토리 게시글 추천 시스템 만들기] #5 Scrapy로 스크랩하기 (0) 2021.04.20 Amazon Personalize는 어떻게 동작하는걸까? (2) 2021.04.09 [Spark] Data Analytics with Spark using Python - 기초 함수 (0) 2021.04.06 vmware fushion을 이용한 스파크 완전분산 모드(CentOS+MAC) (0) 2021.04.01