์ต๊ทผ Recommendar System์ ๋ํด ๊ณต๋ถํ๋ฉด์, Multi-armed bandit์ด๋ผ๋ ๋ถ์ผ์ ๋ํด ๊ณต๋ถํ ํ์๊ฐ ์๋ค๊ณ ์๊ฐํ๋ ์ฐจ์ A Survey of Online Experiment Design with the Stochastic Multi-Armed Bandit์ ๋ฐํ์ผ๋ก ์ ๋ฆฌํด๋ณด์์ต๋๋ค.
๋ชฉ์ฐจ
1. Concept
Multi-armed Bandit(์ดํ MAB)๋ผ๋ ๋จ์ด๊ฐ ๋์ค๊ฒ ๋ ๋ฐฐ๊ฒฝ์ ๊ฒ๋ธ๋ง์ ๋๋ค. ์ด๋ค ์ฌ๋์ด ์ฃผ์ด์ง ์๊ฐ์์, ์์ต ๋ถํฌ๊ฐ ๋ค ๋ค๋ฅธ N๊ฐ์ ์ฌ๋กฏ๋จธ์ ์ ํตํด ์ต๋์ ์์ต์ ์ป๋ ๋ฐฉ๋ฒ์ ๋ฌด์์ผ๊น์? ๋ง์ฝ ์ ํ๋ ์๊ฐ์ N๊ฐ์ ์ฌ๋กฏ๋จธ์ ๋ค์ ๋น๊ฒจ์ ์์ต์ ์ป์ ์ ์๋ ๊ธฐํ๊ฐ ์ฃผ์ด์ง๋ค๋ฉด, ์ผ๋จ์ ์ด๋ ์๊ฐ ๋์์ ์ด๋ ์ฌ๋กฏ ๋จธ์ ์ด ๋์ ๋ง์ด ์ป์ ์ ์๋ ์ง ํ์ํ๋ ๊ณผ์ ์ด ์์ด์ผ ํ ๊บผ๊ณ (์ด๋ฅผ Exploration์ด๋ผ๊ณ ํฉ๋๋ค), ๊ทธ ๋ค์์๋ ์์ ์ด ํ๋จํ๊ธฐ์ ๊ด์ฐฎ์ ์ฌ๋กฏ ๋จธ์ ์ ๋๋ฆฌ๋ฉด์ ์์ต์ ๊ทน๋ํํ๋ ๊ณผ์ ์ด ํ์ํฉ๋๋ค(์ด๋ฅผ Exploitation์ด๋ผ๊ณ ํฉ๋๋ค).
Exploration์ ๋ง์ด ํ๋ฉด, ์ด๋ค ์ฌ๋กฏ๋จธ์ ์ด ๋ ์ฑ๊ณตํ๋ฅ ์ด ๋์ ๊ฒ์ธ ์ง๋ฅผ ๋ ์ ํ์ ํ ์ ์์ง๋ง, ๊ทธ๊ฑธ ์ฐพ๊ธฐ๋ง ํ๋ค๊ฐ ๋ง์ ์์ต์ ๋ง์ด ์ป์ง ๋ชปํ๋ค๋ ๋จ์ ์ด ์๊ตฌ์, exploitaion์ ๋ง์ด ํ๋ฉด ์๋ ค์ง ๋ถํฌ๋ค ์ฌ์ด์์๋ ๊ทธ๋๋ง ๊ด์ฐฎ์ ์์ต์ ์ป์ ์ ์๊ฒ ์ง๋ง, ๋ ์ข์ ์ฌ๋กฏ๋จธ์ ์ ์ฐพ์์ ์๋ํ์ง ๋ชปํ๋ค๋ ์์ฌ์์ด ์๊ธฐ๊ฒ ์ฃ . ์ด๋ฅผ exploration-exploitation tradeoff๋ผ๊ณ ํฉ๋๋ค.
MAB๋ ์ด๋ฐ exploration-exploitation tradeoff๋ฅผ ์ ์กฐ์ ํด๋๊ฐ๋ฉด์ ๋น ๋ฅธ ํ๋จ๊ณผ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ด๊ธฐ ์ํ ์คํ์ ๊ฒฐ์ ํฉ๋๋ค. ์ผ๋จ์ ํ๊ฒฝ๊ณผ ๋ฐ์ํ๋ฉด์ ํ์ตํ๋ค๋ ์ ๊ณผ decision making์ ํ๋ค๋ ๊ด์ ์์ ๊ฐํํ์ต์ ํ ์ข ๋ฅ๋ผ๊ณ ๋ณผ ์ ์๊ตฌ์. ์ถ์ฒ ์์คํ ์ด๋ ์ฃผ์ ํฌ์, ์๋ฃ ์คํ ๋ฑ์์ ๋ชจ๋ ์ฌ์ฉ๋๊ณ ์์ต๋๋ค.
๊ธฐ์กด Supervised Learning๊ณผ ๊ฐ์ฅ ๋ค๋ฅธ ์ ์, ์ค์๊ฐ์ผ๋ก ์ด๋ฃจ์ด์ง๋ exploration & exploitation์ ๋ณ์์ ์์(์๊ฐ, ์๋ ํ์ ๋ฑ)์ ๋ฃ์๋ค๋ ์ ์ ๋๋ค. ๊ธฐ์กด Supervised learning์ ํ๋์ ๋ฌธ์ ๊ฐ ์ ํด์ ธ ์๊ณ , ๊ทธ ๋ฌธ์ ์ ํด๋นํ๋ ๋ฐ์ดํฐ๋ฅผ ์์งํ ๋ค์, ์์ธกํ๊ณ ์ ํ๋ ๊ฐ์ ์์ธกํ๋ decision boundary๋ฅผ ์ฐพ๊ฒ ๋ฉ๋๋ค. ํ์ง๋ง ์ฃผ์ ํฌ์๋ ์ถ์ฒ ์์คํ ์์๋ ์์ธกํ๊ณ ์ ํ๋ ๊ฐ์ด ์์ฃผ ๋ฐ๋์ด์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ์ผ๊ณ ํ์ตํ๊ณ ์ด๋ฅผ ํตํด ์์ธกํ๋ ๊ณผ์ ์ด ์ง๋์น๊ฒ ์ค๋ ๊ฑธ๋ฆด ๋๊ฐ ๋ง์ต๋๋ค. ๋ฐ๋ผ์ ์ ํ๋ ์์ ๋ด์์ ์ต์ ์ ์์ต์ ์ป๊ธฐ ์ํ ๋ฐฉ๋ฒ๋ก ์ค ํ๋๊ฐ Mulit Armed Bandit์ ๋๋ค.
2. MAB์ ๊ธฐ์กด ํต๊ณ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค๊ณผ์ ์ฐจ์ด์
MAB ์คํ ํ๊ฒฝ์ ์ด๋ค ์๋์ ๋ฐ๋ฅธ ๊ฒฐ๊ณผ๋ฅผ ์ฆ๊ฐ์ ์ผ๋ก ๋ฐ์ ์ ์๋ ํ๊ฒฝ์ธ ๊ฒฝ์ฐ๊ฐ ๋๋ถ๋ถ์ ๋๋ค. ๋ฐ๋ผ์ MAB ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ์๊ธฐ ์ ์ ๋จผ์ ์๊ฐํด์ผ ํ ๊ฒ์, MAB ์คํํ๊ฒฝ์์ ์ด๋ป๊ฒ ์๊ณ ๋ฆฌ์ฆ์ ํ๊ฐํ๋๋ ๊ฒ์ ๋๋ค. ๊ธฐ์กด์ supervised learning์ด๋ unsupervised learning์ ํ์คํ loss function์ด ์๊ณ ์ด๋ฅผ ์ต์ํํ์๋ ๋ชฉ์ ์ด ์์ต๋๋ค. ๊ทธ๋ฌ๋ MAB ์คํ ํ๊ฒฝ์์๋ ์ค์ ์จ๋ผ์ธ ํ๊ฒฝ์ผ๋ก ๋ฐ๋ก ํ๊ฐํ์ง ์๋ ํ(์ฌ์ค ์ด๊ฒ๋ ์จ์ ํ๋ค๊ณ ๋ ๋ณผ ์ ์์ฃ .) ํด๋น MAB ์๊ณ ๋ฆฌ์ฆ์ด ์ด๋ค ์ฑ๋ฅ์ ๊ฐ์ง๊ณ ์๋ ์ง์ ๋ํ ํ๊ฐ๊ฐ ์ด๋ ต์ต๋๋ค. ์ด๋ฅผ ์ธก์ ํ๊ธฐ ์ํด regret, variance and bounds of regret, stationary, feedback delay๋ค์ ํตํด MAB ์๊ณ ๋ฆฌ์ฆ์ ํ๊ฐํฉ๋๋ค.
1) Regret
Regret์ ์ฌ์ ์ ์๋ฏธ ๊ทธ๋๋ก ์ดํดํ๋ฉด ๋ ์ฝ์ต๋๋ค. ๋ด๊ฐ ์ ํ์ ํ์ ๋, ๋์ค์ ๊ฒฐ๊ณผ๋ฅผ ํ์ธํ๊ณ ์ผ๋ง๋ ํํํ ๊ฒ์ด๋์ ๋๋ค.
“The remorse(losses) felt after the fact as a result of dissatisfaction with the agent’s (prior) choices.”
์ด๋ฅผ ํด์ํ๋ฉด ์ฌ์ ์ ๊ธฐ๋ํ๋ ๊ฒฐ๊ณผ์ ์ค์ ๊ฒฐ๊ณผ์ ์ฐจ์ด๋ผ๊ณ ๋ณผ ์ ์๊ตฌ์, ํด๋น bandits ์ค ๊ฐ์ฅ optimalํ ๊ฒฐ๊ณผ์ ๋ด ๊ฒฐ๊ณผ์ ์ฐจ์ด๋ก๋ ๋ณผ ์ ์์ต๋๋ค.
$$ \bar{R}^E = \sum^{H}{t=1}(\max{i=1,2, …, K}E[x_i,t ]) - \sum^{H}{t=1} E[x{S_t, t}] $$
Regret์๋ ๋ค์ํ ์ข ๋ฅ๊ฐ ์์ง๋ง, ์ ์์์ ์ ํ๋ arm์์์ ๊ธฐ๋๊ฐ๊ณผ, ์ ์ฒด arm์์์ ๊ฐ์ฅ ๋์ ๊ธฐ๋๊ฐ๊ณผ์ ์ฐจ์ด๋ฅผ regret์ผ๋ก ์ ์๋ด๋ ธ์ต๋๋ค. ์ฆ, ์ด๋ก ์ ์ผ๋ก ์ฌ์ ์ ๊ฐ arm๋ณ ๋ถํฌ๋ฅผ ์ ์๋ด๋ฆด ์ ์๋๋ฐ, ์ฌ์ ์ ์ ์๋ ๋ถํฌ์ ๋ฐ๋ฅธ ๊ธฐ๋๊ฐ์ ์ต๋๊ฐ๊ณผ MAB ์๊ณ ๋ฆฌ์ฆ์ด ์ ํํ arm์ ๊ธฐ๋๊ฐ๊ณผ์ ์ฐจ์ด๋ฅผ ๊ตฌํ๋ ๊ฒ์ด์ฃ . ์ด๋ ๋งค์ฐ ์ง๊ด์ ์ด๊ณ ์ฝ๊ฒ regret์ ๊ตฌํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ง๋ง, ์ค์ ์๋น์ค์ ์ ์ฉํ ๋ ๊ฐ arm์ ๋ถํฌ๊ฐ ์ด๋ก ์ ์ผ๋ก ์ ์๋ด๋ฆฐ ๋ถํฌ์ ๋ค๋ฅด๋ฉด ๊ฒฐ๊ณผ๊ฐ ๋งค์ฐ ๋ฌ๋ผ์ง๊ธฐ ์ฝ๋ค๋ ๋จ์ ์ด ์์ต๋๋ค.
2) Variance and Bounds of Regret
1)์์ ์ธ๊ธํ regret์ ๊ฒฐ๊ตญ ๋ฏธ๋ฆฌ ์ ํด๋์ ๋ถํฌ(ํน์ ์ค์ ๋ถํฌ)์ ์๊ณ ๋ฆฌ์ฆ์ด ์์ธกํ ๋ถํฌ๊ฐ ์ผ๋ง๋ ๋ค๋ฅธ ์ง๋ฅผ ํ๊ฐํ๋ ์งํ์ ๋๋ค. ์ด๋ฅผ supervised learning๊ณผ ์ฐ๊ฒฐ์์ผ ์๊ฐํด๋ณด๋ฉด, ์์ regret์ loss function์ ์ผ์ข ์ด๋ผ๊ณ ๋ณผ ์ ์์ต๋๋ค. ๊ทธ๋ฐ๋ฐ MAB ์๊ณ ๋ฆฌ์ฆ์์๋ supervised learning์์ ๋ํ๋๋ bias-variance tradeoff ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค. ํ๊ท ์ด ๋ฎ์ regret๋ ์ค์ํ์ง๋ง variance๊ฐ ๋ฎ์ regret๋ ์ค์ํ์ฃ (๊ธฐ์กด ๋ชจ๋ธ์์์ loss๋ผ๊ณ ์๊ฐํ๋ฉด ์ฝ์ต๋๋ค. Loss์ ํ๊ท ์ด ๋ฎ์ ๊ฒ๋ ์ค์ํ์ง๋ง, variance๊ฐ ๋ฎ์์ผ ์์ธก์ ์์ ์ฑ์ ๋ณด์ฅํฉ๋๋ค).
3) Stationary
๋๋ถ๋ถ์ ๋ชจ๋ธ์์์ ๊ฐ์ฅ ์ค์ํ๊ณ ๋ ๊ธฐ๋ณธ์ ์ธ ๊ฐ์ ์, data์ ๋ถํฌ๊ฐ ์ฐ๋ฆฌ๊ฐ ์์ธกํ ๋์, ์์ธก ๋ชจ๋ธ์ ํ์ตํ ๋ ์ผ์ ํ ๋ถํฌ๋ผ๋ ๊ฒ์ ๋๋ค. ์ด๋ฅผ stationary ๋ผ๊ณ ํฉ๋๋ค. ํ์ง๋ง MAB ํ๊ฒฝ์ ์ดํด๋ณด๋ฉด ์ด ์กฐ๊ฑด์ ๋ง์กฑํ๊ธฐ๊ฐ ํ๋ญ๋๋ค. ๊ฐ์ฅ ๋ํ์ ์ธ ์๋ก, Supervised learning์์์ ‘๊ฐ์ธ์ง ๊ณ ์์ด์ธ์ง ๋ง์ถ๋ ๋ฌธ์ ’์ MAB์์ ‘์ฌ์ฉ์์๊ฒ ๊ด๊ณ ๋ฅผ ์ถ์ฒํด์ฃผ๋ ๋ฌธ์ ’๋ฅผ ์๊ฐํด๋ด ์๋ค. ๊ฐ์ธ์ง ๊ณ ์์ด์ธ์ง๋ ์๊ฐ์ด ์ง๋๋ค๊ณ ํด์, ์ ํ์ด ๋ฐ๋๋ค๊ณ ํด์ ํ๋จ ๊ธฐ์ค์ด ๋ฐ๋์ง ์์ต๋๋ค. ๊ทธ์ ๋นํด ์ฌ์ฉ์์๊ฒ ๊ด๊ณ ๋ฅผ ์ถ์ฒํด์ค๋ค๋ฉด, ์ด๋ค ํธ๋ ๋๊ฐ ์ ํ์ธ์ง, ๊ณ์ ์ ์ด๋ค์ง, ๊ณ ๊ฐ๋ค์ ์ทจํฅ์ ์ด๋ป๊ฒ ๋ฐ๋๋ ์ง ๋ฑ์ ์์ฒญ๋๊ฒ ๋ง์ ๋ณ์์ ๋ฐ๋ผ ๊ทธ ๊ธฐ์ค์ด ๋ฌ๋ผ์ง๊ฒ ๋ฉ๋๋ค. ๋ฐ๋ผ์ ์ด๋ฅผ ํด๊ฒฐํด์ฃผ๊ธฐ ์ํด์, MAB์์๋ ํฌ๊ฒ stationary bandit models์ non-stationary bandit models๋ก ๋์ง๋๋ค. ๊ฐ์ฅ ๊ฐ๋จํ ๋ฐฉ๋ฒ์, ์ด๋ค ๊ฐ์น๊ฐ ์์ ๋ ์ด๋ฅผ ์๊ฐ์ ๋ฐ๋ผ์ ์กฐ๊ธ์ฉ decayํด์ฃผ๋ ๋ฐฉ์์ ๋๋ค. ์๋ฅผ ๋ค์ด ์ธ๊ธฐ๋๋ผ๋ ๊ฐ์น๊ฐ ์๋ค๊ณ ํ๋ค๋ฉด, ๊ทธ ์ธ๊ธฐ๋๋ฅผ ์๊ฐ์ ๋ฐ๋ผ์ ์ ์ฐจ ์ค์ด๋ค๊ฒ๋๋ง ํ๋ ๊ฒ์ด์ฃ .
4) Feedback Delay
๋ค์ ํ๋ฒ ์ด์ผ๊ธฐํ์ง๋ง MAB๋ ์จ๋ผ์ธ ํผ๋๋ฐฑ์์ ๊ฐ์ ์ ๊ฐ์ง๊ณ ์๋ ๋ชจ๋ธ์ ๋๋ค. ์จ๋ผ์ธ ๋ชจ๋ธ์ด ๊ธฐ์กด ํต๊ณ ๋ชจ๋ธ๊ณผ ๋ค๋ฅธ ์ ์ ๋ฐ์ดํฐ๊ฐ ์ค์๊ฐ์ผ๋ก ๋ฐ๋๊ณ , ํ๊ฒฝ์ด ์ค์๊ฐ์ผ๋ก ๋ฐ๋๊ณ , ์์ธกํ๊ณ ์ ํ๋ ๊ฐ์ ๋ถํฌ ๋ํ ๋ฐ๋ ์ ์๋ค๋ ์ ์ ๋๋ค. ๋ฐ๋ผ์ ์ด๋ฐ ์ํฉ์์๋ ํ์ต์ ๋ฐ๋ฅธ feedback์ด ์ผ๋ง๋ ๋น ๋ฅด๊ฒ ์ ๋ฌ๋๋๋๊ฐ ์ค์ํฉ๋๋ค. ์๋ฌด๋ฆฌ ์ข์ ๋ชจ๋ธ์ด๋ผ๋, feedback์ ์ฃผ๋ ์์ค์ ํ๊ฒฝ์ด ์์ ๋ฐ๋์ด ๋ฒ๋ฆฐ๋ค๋ฉด ์ข์ feedback์ด ๋ ์๊ฐ ์์ต๋๋ค.
์ด ๊ธ์ ์๋ณธ์ ์ผ๋ถ๋ง ํฌํจํ๊ณ ์์ต๋๋ค. ์ ์ฒด ๋ด์ฉ์ ์ด์ ๋ธ๋ก๊ทธ์์ ํ์ธํ์ค ์ ์์ต๋๋ค.