Multi Armed Bandit
์ต๊ทผ Recommendar System์ ๋ํด ๊ณต๋ถํ๋ฉด์, Multi-armed bandit์ด๋ผ๋ ๋ถ์ผ์ ๋ํด ๊ณต๋ถํ ํ์๊ฐ ์๋ค๊ณ ์๊ฐํ๋ ์ฐจ์ A Survey of Online Experiment Design with the Stochastic Multi-Armed Bandit์ ๋ฐํ์ผ๋ก ์ ๋ฆฌํด๋ณด์์ต๋๋ค. ๋ชฉ์ฐจ 1. Concept 2. MAB์ ๊ธฐ์กด ํต๊ณ ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค๊ณผ์ ์ฐจ์ด์ 1. Concept Multi-armed Bandit(์ดํ MAB)๋ผ๋ ๋จ์ด๊ฐ ๋์ค๊ฒ ๋ ๋ฐฐ๊ฒฝ์ ๊ฒ๋ธ๋ง์ ๋๋ค. ์ด๋ค ์ฌ๋์ด ์ฃผ์ด์ง ์๊ฐ์์, ์์ต ๋ถํฌ๊ฐ ๋ค ๋ค๋ฅธ N๊ฐ์ ์ฌ๋กฏ๋จธ์ ์ ํตํด ์ต๋์ ์์ต์ ์ป๋ ๋ฐฉ๋ฒ์ ๋ฌด์์ผ๊น์? ๋ง์ฝ ์ ํ๋ ์๊ฐ์ N๊ฐ์ ์ฌ๋กฏ๋จธ์ ๋ค์ ๋น๊ฒจ์ ์์ต์ ์ป์ ์ ์๋ ๊ธฐํ๊ฐ ์ฃผ์ด์ง๋ค๋ฉด, ์ผ๋จ์ ์ด๋ ์๊ฐ ๋์์ ์ด๋ ์ฌ๋กฏ ๋จธ์ ์ด ๋์ ๋ง์ด ์ป์ ์ ์๋ ์ง ํ์ํ๋ ๊ณผ์ ์ด ์์ด์ผ ํ ๊บผ๊ณ (์ด๋ฅผ Exploration์ด๋ผ๊ณ ํฉ๋๋ค), ๊ทธ ๋ค์์๋ ์์ ์ด ํ๋จํ๊ธฐ์ ๊ด์ฐฎ์ ์ฌ๋กฏ ๋จธ์ ์ ๋๋ฆฌ๋ฉด์ ์์ต์ ๊ทน๋ํํ๋ ๊ณผ์ ์ด ํ์ํฉ๋๋ค(์ด๋ฅผ Exploitation์ด๋ผ๊ณ ํฉ๋๋ค). ...