-
[논문 정리] A Contextual-Bandit Approach to Personalized News Article Recommendation
2021. 4. 17. 17:16
논문 원본
1. Multi-Armed Bandit
"MAB(Multi-Armed Bandits)"
위 논문은 Multi-armed bandit problem with context information를 줄여 Contextual-Badit이라고 칭하였다. 그럼 시작에 앞서 multl-armed bandit인지 알아봐야한다.
우선 뜻은 다음과 같다. "여러개(Multi)의 레버(Arm)를 가진 여러대의 슬롯머신(Bandits)"
즉, 이 알고리즘은 어떤 슬롯머신으로 돈을 벌 수 있을까? 에서 출발했다고 한다.
아래와 같이 여러 대의 슬롯머신이 있을 때, 어떤 슬롯머신의 레버를 당겨야할까? 라는 알고리즘이다.
이에 대한 전략은 당연하겠지만, 굉장히 많은 방법이 있다.
- 그리디한 방법
- 입실론-그리디한 방법
- UCB(Upper Cofidence Bound) > 입실론 그리디에서 랜덤이 아닌 확률적인 방법을 통해 선택한다. 가장 많이 쓰인다고한다.
다시 정리하자면, 어떤 상황에 어떤 전략이 가장 우수할까.. 라는 알고리즘이다. 추천에선 기본일 것 같다. 가장 알맞는 아이템을 적시에 고객에게 추천을 해야하니까.
2. 컨텍스츄얼 밴딧 알고리즘
컨텍스츄얼(Contextual)은 상황에 맞춘이라는 의미로 이해할 수 있다. 개인화를 적용해서 선택을 한다.라고 이해하면될 것 같다.
본 논문의 최종 목적은 기사 노출 대비 클릭 수를 증가시키는 것이다.
큰 수 법칙: 사건을 무한히 반복했을 떄 일정 사건이 일어나는 비율이 횟수를 거듭할수록 일정한 값에 가까워짐
1) 기존 알고리즘의 문제(협업필터링같은)
- 대부분의 웹 기반 시나리오에서 콘텐츠 전체 목록은 자주 변경
- 시간이 경과함에 따라 콘텐츠의 인기는 변함
- 방문자의 상당수는 과거 소비 기록이 전혀 없는 신규 사용자
2) 컨텍스츄얼 밴딧은?
컨텍스츄얼 밴딧은 사용자 클릭 수 총합을 장기적으로 최대로 만들기 위해 동시에 아래 2가지를 진행하면서 사용자에게 제공할 기사를 순차적으로 선택하는 학습 알고리즘
- 사용자 클릭 피드백을 바탕으로 기사 선택 전략을 점차 수정
- 사용자와 기사에 관한 맥락 상 정보를 이용
REFERENCES
m.blog.naver.com/nilsine11202/221912267111
'2021년 > 개발공부' 카테고리의 다른 글
Greate Expectations (0) 2021.06.02 apache Airflow (0) 2021.04.22 오늘부터 나도 인싸! 인터넷 친구만들기 😎 (0) 2021.04.15 [논문 정리] Wide & Deep Learning for Recommender Systems (0) 2021.04.14 쿠버네티스 예제: mongodb+kubernetes (0) 2021.04.12