-
[논문 정리] A Contextual-Bandit Approach to Personalized News Article Recommendation
2021. 4. 17. 17:16
논문 원본
A Contextual-Bandit Approach to Personalized News Article Recommendation
Personalized web services strive to adapt their services (advertisements, news articles, etc) to individual users by making use of both content and user information. Despite a few recent advances, this problem remains challenging for at least two reasons.
arxiv.org
1. Multi-Armed Bandit
"MAB(Multi-Armed Bandits)"
위 논문은 Multi-armed bandit problem with context information를 줄여 Contextual-Badit이라고 칭하였다. 그럼 시작에 앞서 multl-armed bandit인지 알아봐야한다.
우선 뜻은 다음과 같다. "여러개(Multi)의 레버(Arm)를 가진 여러대의 슬롯머신(Bandits)"
즉, 이 알고리즘은 어떤 슬롯머신으로 돈을 벌 수 있을까? 에서 출발했다고 한다.
호주갔을 때 한번 해봤지만 역쉬나..나는 노행운 아래와 같이 여러 대의 슬롯머신이 있을 때, 어떤 슬롯머신의 레버를 당겨야할까? 라는 알고리즘이다.
이에 대한 전략은 당연하겠지만, 굉장히 많은 방법이 있다.
- 그리디한 방법
- 입실론-그리디한 방법
- UCB(Upper Cofidence Bound) > 입실론 그리디에서 랜덤이 아닌 확률적인 방법을 통해 선택한다. 가장 많이 쓰인다고한다.
다시 정리하자면, 어떤 상황에 어떤 전략이 가장 우수할까.. 라는 알고리즘이다. 추천에선 기본일 것 같다. 가장 알맞는 아이템을 적시에 고객에게 추천을 해야하니까.
2. 컨텍스츄얼 밴딧 알고리즘
컨텍스츄얼(Contextual)은 상황에 맞춘이라는 의미로 이해할 수 있다. 개인화를 적용해서 선택을 한다.라고 이해하면될 것 같다.
본 논문의 최종 목적은 기사 노출 대비 클릭 수를 증가시키는 것이다.
큰 수 법칙: 사건을 무한히 반복했을 떄 일정 사건이 일어나는 비율이 횟수를 거듭할수록 일정한 값에 가까워짐
1) 기존 알고리즘의 문제(협업필터링같은)
- 대부분의 웹 기반 시나리오에서 콘텐츠 전체 목록은 자주 변경
- 시간이 경과함에 따라 콘텐츠의 인기는 변함
- 방문자의 상당수는 과거 소비 기록이 전혀 없는 신규 사용자
2) 컨텍스츄얼 밴딧은?
컨텍스츄얼 밴딧은 사용자 클릭 수 총합을 장기적으로 최대로 만들기 위해 동시에 아래 2가지를 진행하면서 사용자에게 제공할 기사를 순차적으로 선택하는 학습 알고리즘
- 사용자 클릭 피드백을 바탕으로 기사 선택 전략을 점차 수정
- 사용자와 기사에 관한 맥락 상 정보를 이용
REFERENCES
m.blog.naver.com/nilsine11202/221912267111
위지원데이터 엔지니어로 근무 중에 있으며 데이터와 관련된 일을 모두 좋아합니다!. 특히 ETL 부분에 관심이 가장 크며 데이터를 빛이나게 가공하는 일을 좋아한답니다 ✨
'2021년 > 개발공부' 카테고리의 다른 글
Greate Expectations (0) 2021.06.02 apache Airflow (0) 2021.04.22 오늘부터 나도 인싸! 인터넷 친구만들기 😎 (0) 2021.04.15 [논문 정리] Wide & Deep Learning for Recommender Systems (0) 2021.04.14 쿠버네티스 예제: mongodb+kubernetes (0) 2021.04.12