์ตœ๊ทผ Recommendar System์— ๋Œ€ํ•ด ๊ณต๋ถ€ํ•˜๋ฉด์„œ, Multi-armed bandit์ด๋ผ๋Š” ๋ถ„์•ผ์— ๋Œ€ํ•ด ๊ณต๋ถ€ํ•  ํ•„์š”๊ฐ€ ์žˆ๋‹ค๊ณ  ์ƒ๊ฐํ•˜๋˜ ์ฐจ์— A Survey of Online Experiment Design with the Stochastic Multi-Armed Bandit์„ ๋ฐ”ํƒ•์œผ๋กœ ์ •๋ฆฌํ•ด๋ณด์•˜์Šต๋‹ˆ๋‹ค.

๋ชฉ์ฐจ

1. Concept

Multi-armed Bandit(์ดํ•˜ MAB)๋ผ๋Š” ๋‹จ์–ด๊ฐ€ ๋‚˜์˜ค๊ฒŒ ๋œ ๋ฐฐ๊ฒฝ์€ ๊ฒœ๋ธ”๋ง์ž…๋‹ˆ๋‹ค. ์–ด๋–ค ์‚ฌ๋žŒ์ด ์ฃผ์–ด์ง„ ์‹œ๊ฐ„์•ˆ์—, ์ˆ˜์ต ๋ถ„ํฌ๊ฐ€ ๋‹ค ๋‹ค๋ฅธ N๊ฐœ์˜ ์Šฌ๋กฏ๋จธ์‹ ์„ ํ†ตํ•ด ์ตœ๋Œ€์˜ ์ˆ˜์ต์„ ์–ป๋Š” ๋ฐฉ๋ฒ•์€ ๋ฌด์—‡์ผ๊นŒ์š”? ๋งŒ์•ฝ ์ œํ•œ๋œ ์‹œ๊ฐ„์— N๊ฐœ์˜ ์Šฌ๋กฏ๋จธ์‹ ๋“ค์„ ๋‹น๊ฒจ์„œ ์ˆ˜์ต์„ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ๊ธฐํšŒ๊ฐ€ ์ฃผ์–ด์ง„๋‹ค๋ฉด, ์ผ๋‹จ์€ ์–ด๋А ์‹œ๊ฐ„ ๋™์•ˆ์€ ์–ด๋А ์Šฌ๋กฏ ๋จธ์‹ ์ด ๋ˆ์„ ๋งŽ์ด ์–ป์„ ์ˆ˜ ์žˆ๋Š” ์ง€ ํƒ์ƒ‰ํ•˜๋Š” ๊ณผ์ •์ด ์žˆ์–ด์•ผ ํ• ๊บผ๊ณ (์ด๋ฅผ Exploration์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค), ๊ทธ ๋‹ค์Œ์—๋Š” ์ž์‹ ์ด ํŒ๋‹จํ•˜๊ธฐ์— ๊ดœ์ฐฎ์€ ์Šฌ๋กฏ ๋จธ์‹ ์„ ๋Œ๋ฆฌ๋ฉด์„œ ์ˆ˜์ต์„ ๊ทน๋Œ€ํ™”ํ•˜๋Š” ๊ณผ์ •์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค(์ด๋ฅผ Exploitation์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค).

Exploration์„ ๋งŽ์ด ํ•˜๋ฉด, ์–ด๋–ค ์Šฌ๋กฏ๋จธ์‹ ์ด ๋” ์„ฑ๊ณตํ™•๋ฅ ์ด ๋†’์€ ๊ฒƒ์ธ ์ง€๋ฅผ ๋” ์ž˜ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๊ทธ๊ฑธ ์ฐพ๊ธฐ๋งŒ ํ•˜๋‹ค๊ฐ€ ๋ง‰์ƒ ์ˆ˜์ต์„ ๋งŽ์ด ์–ป์ง€ ๋ชปํ•œ๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๊ตฌ์š”, exploitaion์„ ๋งŽ์ด ํ•˜๋ฉด ์•Œ๋ ค์ง„ ๋ถ„ํฌ๋“ค ์‚ฌ์ด์—์„œ๋Š” ๊ทธ๋‚˜๋งˆ ๊ดœ์ฐฎ์€ ์ˆ˜์ต์„ ์–ป์„ ์ˆ˜ ์žˆ๊ฒ ์ง€๋งŒ, ๋” ์ข‹์€ ์Šฌ๋กฏ๋จธ์‹ ์„ ์ฐพ์•„์„œ ์‹œ๋„ํ•˜์ง€ ๋ชปํ–ˆ๋‹ค๋Š” ์•„์‰ฌ์›€์ด ์ƒ๊ธฐ๊ฒ ์ฃ . ์ด๋ฅผ exploration-exploitation tradeoff๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.

MAB๋Š” ์ด๋Ÿฐ exploration-exploitation tradeoff๋ฅผ ์ž˜ ์กฐ์ ˆํ•ด๋‚˜๊ฐ€๋ฉด์„œ ๋น ๋ฅธ ํŒ๋‹จ๊ณผ ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ๋‚ด๊ธฐ ์œ„ํ•œ ์‹คํ–‰์„ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ผ๋‹จ์€ ํ™˜๊ฒฝ๊ณผ ๋ฐ˜์‘ํ•˜๋ฉด์„œ ํ•™์Šตํ•œ๋‹ค๋Š” ์ ๊ณผ decision making์„ ํ•œ๋‹ค๋Š” ๊ด€์ ์—์„œ ๊ฐ•ํ™”ํ•™์Šต์˜ ํ•œ ์ข…๋ฅ˜๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๊ตฌ์š”. ์ถ”์ฒœ ์‹œ์Šคํ…œ์ด๋‚˜ ์ฃผ์‹ ํˆฌ์ž, ์˜๋ฃŒ ์‹คํ—˜ ๋“ฑ์—์„œ ๋ชจ๋‘ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด Supervised Learning๊ณผ ๊ฐ€์žฅ ๋‹ค๋ฅธ ์ ์€, ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ด๋ฃจ์–ด์ง€๋Š” exploration & exploitation์™€ ๋ณ€์ˆ˜์— ์ž์›(์‹œ๊ฐ„, ์‹œ๋„ ํšŸ์ˆ˜ ๋“ฑ)์„ ๋„ฃ์—ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด Supervised learning์€ ํ•˜๋‚˜์˜ ๋ฌธ์ œ๊ฐ€ ์ •ํ•ด์ ธ ์žˆ๊ณ , ๊ทธ ๋ฌธ์ œ์— ํ•ด๋‹นํ•˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•œ ๋‹ค์Œ, ์˜ˆ์ธกํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” decision boundary๋ฅผ ์ฐพ๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ฃผ์‹ ํˆฌ์ž๋‚˜ ์ถ”์ฒœ ์‹œ์Šคํ…œ์—์„œ๋Š” ์˜ˆ์ธกํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฐ’์ด ์ž์ฃผ ๋ฐ”๋€Œ์–ด์„œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ์œผ๊ณ  ํ•™์Šตํ•˜๊ณ  ์ด๋ฅผ ํ†ตํ•ด ์˜ˆ์ธกํ•˜๋Š” ๊ณผ์ •์ด ์ง€๋‚˜์น˜๊ฒŒ ์˜ค๋ž˜ ๊ฑธ๋ฆด ๋•Œ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ œํ•œ๋œ ์ž์› ๋‚ด์—์„œ ์ตœ์„ ์˜ ์ˆ˜์ต์„ ์–ป๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•๋ก  ์ค‘ ํ•˜๋‚˜๊ฐ€ Mulit Armed Bandit์ž…๋‹ˆ๋‹ค.

2. MAB์™€ ๊ธฐ์กด ํ†ต๊ณ„ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค๊ณผ์˜ ์ฐจ์ด์ 

MAB ์‹คํ—˜ ํ™˜๊ฒฝ์€ ์–ด๋–ค ์‹œ๋„์— ๋”ฐ๋ฅธ ๊ฒฐ๊ณผ๋ฅผ ์ฆ‰๊ฐ์ ์œผ๋กœ ๋ฐ›์„ ์ˆ˜ ์žˆ๋Š” ํ™˜๊ฒฝ์ธ ๊ฒฝ์šฐ๊ฐ€ ๋Œ€๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ MAB ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋Œ€ํ•ด ์•Œ๊ธฐ ์ „์— ๋จผ์ € ์ƒ๊ฐํ•ด์•ผ ํ•  ๊ฒƒ์€, MAB ์‹คํ—˜ํ™˜๊ฒฝ์—์„œ ์–ด๋–ป๊ฒŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ‰๊ฐ€ํ•˜๋ƒ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ supervised learning์ด๋‚˜ unsupervised learning์€ ํ™•์‹คํ•œ loss function์ด ์žˆ๊ณ  ์ด๋ฅผ ์ตœ์†Œํ™”ํ•˜์ž๋Š” ๋ชฉ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ MAB ์‹คํ—˜ ํ™˜๊ฒฝ์—์„œ๋Š” ์‹ค์ œ ์˜จ๋ผ์ธ ํ™˜๊ฒฝ์œผ๋กœ ๋ฐ”๋กœ ํ‰๊ฐ€ํ•˜์ง€ ์•Š๋Š” ํ•œ(์‚ฌ์‹ค ์ด๊ฒƒ๋„ ์˜จ์ „ํ•˜๋‹ค๊ณ ๋Š” ๋ณผ ์ˆ˜ ์—†์ฃ .) ํ•ด๋‹น MAB ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์–ด๋–ค ์„ฑ๋Šฅ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ์ง€์— ๋Œ€ํ•œ ํ‰๊ฐ€๊ฐ€ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์ธก์ •ํ•˜๊ธฐ ์œ„ํ•ด regret, variance and bounds of regret, stationary, feedback delay๋“ค์„ ํ†ตํ•ด MAB ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

1) Regret

Regret์€ ์‚ฌ์ „์  ์˜๋ฏธ ๊ทธ๋Œ€๋กœ ์ดํ•ดํ•˜๋ฉด ๋” ์‰ฝ์Šต๋‹ˆ๋‹ค. ๋‚ด๊ฐ€ ์„ ํƒ์„ ํ–ˆ์„ ๋•Œ, ๋‚˜์ค‘์— ๊ฒฐ๊ณผ๋ฅผ ํ™•์ธํ•˜๊ณ  ์–ผ๋งˆ๋‚˜ ํ›„ํšŒํ•  ๊ฒƒ์ด๋ƒ์ž…๋‹ˆ๋‹ค.

“The remorse(losses) felt after the fact as a result of dissatisfaction with the agent’s (prior) choices.”

์ด๋ฅผ ํ•ด์„ํ•˜๋ฉด ์‚ฌ์ „์— ๊ธฐ๋Œ€ํ–ˆ๋˜ ๊ฒฐ๊ณผ์™€ ์‹ค์ œ ๊ฒฐ๊ณผ์˜ ์ฐจ์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๊ตฌ์š”, ํ•ด๋‹น bandits ์ค‘ ๊ฐ€์žฅ optimalํ•œ ๊ฒฐ๊ณผ์™€ ๋‚ด ๊ฒฐ๊ณผ์˜ ์ฐจ์ด๋กœ๋„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

$$ \bar{R}^E = \sum^{H}{t=1}(\max{i=1,2, …, K}E[x_i,t ]) - \sum^{H}{t=1} E[x{S_t, t}] $$

Regret์—๋„ ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜๊ฐ€ ์žˆ์ง€๋งŒ, ์œ„ ์ˆ˜์‹์€ ์„ ํƒ๋œ arm์—์„œ์˜ ๊ธฐ๋Œ“๊ฐ’๊ณผ, ์ „์ฒด arm์—์„œ์˜ ๊ฐ€์žฅ ๋†’์€ ๊ธฐ๋Œ“๊ฐ’๊ณผ์˜ ์ฐจ์ด๋ฅผ regret์œผ๋กœ ์ •์˜๋‚ด๋ ธ์Šต๋‹ˆ๋‹ค. ์ฆ‰, ์ด๋ก ์ ์œผ๋กœ ์‚ฌ์ „์— ๊ฐ arm๋ณ„ ๋ถ„ํฌ๋ฅผ ์ •์˜๋‚ด๋ฆด ์ˆ˜ ์žˆ๋Š”๋ฐ, ์‚ฌ์ „์— ์ •์˜๋œ ๋ถ„ํฌ์— ๋”ฐ๋ฅธ ๊ธฐ๋Œ“๊ฐ’์˜ ์ตœ๋Œ“๊ฐ’๊ณผ MAB ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์„ ํƒํ•œ arm์˜ ๊ธฐ๋Œ“๊ฐ’๊ณผ์˜ ์ฐจ์ด๋ฅผ ๊ตฌํ•˜๋Š” ๊ฒƒ์ด์ฃ . ์ด๋Š” ๋งค์šฐ ์ง๊ด€์ ์ด๊ณ  ์‰ฝ๊ฒŒ regret์„ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์ง€๋งŒ, ์‹ค์ œ ์„œ๋น„์Šค์— ์ ์šฉํ•  ๋•Œ ๊ฐ arm์˜ ๋ถ„ํฌ๊ฐ€ ์ด๋ก ์ ์œผ๋กœ ์ •์˜๋‚ด๋ฆฐ ๋ถ„ํฌ์™€ ๋‹ค๋ฅด๋ฉด ๊ฒฐ๊ณผ๊ฐ€ ๋งค์šฐ ๋‹ฌ๋ผ์ง€๊ธฐ ์‰ฝ๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

2) Variance and Bounds of Regret

1)์—์„œ ์–ธ๊ธ‰ํ•œ regret์€ ๊ฒฐ๊ตญ ๋ฏธ๋ฆฌ ์ •ํ•ด๋†“์€ ๋ถ„ํฌ(ํ˜น์€ ์‹ค์ œ ๋ถ„ํฌ)์™€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์˜ˆ์ธกํ•œ ๋ถ„ํฌ๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋‹ค๋ฅธ ์ง€๋ฅผ ํ‰๊ฐ€ํ•˜๋Š” ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ supervised learning๊ณผ ์—ฐ๊ฒฐ์‹œ์ผœ ์ƒ๊ฐํ•ด๋ณด๋ฉด, ์œ„์˜ regret์€ loss function์˜ ์ผ์ข…์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ MAB ์•Œ๊ณ ๋ฆฌ์ฆ˜์—์„œ๋„ supervised learning์—์„œ ๋‚˜ํƒ€๋‚˜๋Š” bias-variance tradeoff ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ‰๊ท ์ด ๋‚ฎ์€ regret๋„ ์ค‘์š”ํ•˜์ง€๋งŒ variance๊ฐ€ ๋‚ฎ์€ regret๋„ ์ค‘์š”ํ•˜์ฃ (๊ธฐ์กด ๋ชจ๋ธ์—์„œ์˜ loss๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ์‰ฝ์Šต๋‹ˆ๋‹ค. Loss์˜ ํ‰๊ท ์ด ๋‚ฎ์€ ๊ฒƒ๋„ ์ค‘์š”ํ•˜์ง€๋งŒ, variance๊ฐ€ ๋‚ฎ์•„์•ผ ์˜ˆ์ธก์˜ ์•ˆ์ •์„ฑ์„ ๋ณด์žฅํ•ฉ๋‹ˆ๋‹ค).

3) Stationary

๋Œ€๋ถ€๋ถ„์˜ ๋ชจ๋ธ์—์„œ์˜ ๊ฐ€์žฅ ์ค‘์š”ํ•˜๊ณ ๋„ ๊ธฐ๋ณธ์ ์ธ ๊ฐ€์ •์€, data์˜ ๋ถ„ํฌ๊ฐ€ ์šฐ๋ฆฌ๊ฐ€ ์˜ˆ์ธกํ•  ๋•Œ์™€, ์˜ˆ์ธก ๋ชจ๋ธ์„ ํ•™์Šตํ•  ๋•Œ ์ผ์ •ํ•œ ๋ถ„ํฌ๋ผ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ stationary ๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ MAB ํ™˜๊ฒฝ์„ ์‚ดํŽด๋ณด๋ฉด ์ด ์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜๊ธฐ๊ฐ€ ํž˜๋“ญ๋‹ˆ๋‹ค. ๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ธ ์˜ˆ๋กœ, Supervised learning์—์„œ์˜ ‘๊ฐœ์ธ์ง€ ๊ณ ์–‘์ด์ธ์ง€ ๋งž์ถ”๋Š” ๋ฌธ์ œ’์™€ MAB์—์„œ ‘์‚ฌ์šฉ์ž์—๊ฒŒ ๊ด‘๊ณ ๋ฅผ ์ถ”์ฒœํ•ด์ฃผ๋Š” ๋ฌธ์ œ’๋ฅผ ์ƒ๊ฐํ•ด๋ด…์‹œ๋‹ค. ๊ฐœ์ธ์ง€ ๊ณ ์–‘์ด์ธ์ง€๋Š” ์‹œ๊ฐ„์ด ์ง€๋‚œ๋‹ค๊ณ  ํ•ด์„œ, ์œ ํ–‰์ด ๋ฐ”๋€๋‹ค๊ณ  ํ•ด์„œ ํŒ๋‹จ ๊ธฐ์ค€์ด ๋ฐ”๋€Œ์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๊ทธ์— ๋น„ํ•ด ์‚ฌ์šฉ์ž์—๊ฒŒ ๊ด‘๊ณ ๋ฅผ ์ถ”์ฒœํ•ด์ค€๋‹ค๋ฉด, ์–ด๋–ค ํŠธ๋ Œ๋“œ๊ฐ€ ์œ ํ–‰์ธ์ง€, ๊ณ„์ ˆ์€ ์–ด๋–ค์ง€, ๊ณ ๊ฐ๋“ค์˜ ์ทจํ–ฅ์€ ์–ด๋–ป๊ฒŒ ๋ฐ”๋€Œ๋Š” ์ง€ ๋“ฑ์˜ ์—„์ฒญ๋‚˜๊ฒŒ ๋งŽ์€ ๋ณ€์ˆ˜์— ๋”ฐ๋ผ ๊ทธ ๊ธฐ์ค€์ด ๋‹ฌ๋ผ์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋ฅผ ํ•ด๊ฒฐํ•ด์ฃผ๊ธฐ ์œ„ํ•ด์„œ, MAB์—์„œ๋Š” ํฌ๊ฒŒ stationary bandit models์™€ non-stationary bandit models๋กœ ๋‚˜์ง‘๋‹ˆ๋‹ค. ๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ ๋ฐฉ๋ฒ•์€, ์–ด๋–ค ๊ฐ€์น˜๊ฐ€ ์žˆ์„ ๋•Œ ์ด๋ฅผ ์‹œ๊ฐ„์— ๋”ฐ๋ผ์„œ ์กฐ๊ธˆ์”ฉ decayํ•ด์ฃผ๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ธ๊ธฐ๋„๋ผ๋Š” ๊ฐ€์น˜๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•œ๋‹ค๋ฉด, ๊ทธ ์ธ๊ธฐ๋„๋ฅผ ์‹œ๊ฐ„์— ๋”ฐ๋ผ์„œ ์ ์ฐจ ์ค„์–ด๋“ค๊ฒŒ๋”๋งŒ ํ•˜๋Š” ๊ฒƒ์ด์ฃ .

4) Feedback Delay

๋‹ค์‹œ ํ•œ๋ฒˆ ์ด์•ผ๊ธฐํ•˜์ง€๋งŒ MAB๋Š” ์˜จ๋ผ์ธ ํ”ผ๋“œ๋ฐฑ์—์„œ ๊ฐ•์ ์„ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์˜จ๋ผ์ธ ๋ชจ๋ธ์ด ๊ธฐ์กด ํ†ต๊ณ„ ๋ชจ๋ธ๊ณผ ๋‹ค๋ฅธ ์ ์€ ๋ฐ์ดํ„ฐ๊ฐ€ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋ฐ”๋€Œ๊ณ , ํ™˜๊ฒฝ์ด ์‹ค์‹œ๊ฐ„์œผ๋กœ ๋ฐ”๋€Œ๊ณ , ์˜ˆ์ธกํ•˜๊ณ ์ž ํ•˜๋Š” ๊ฐ’์˜ ๋ถ„ํฌ ๋˜ํ•œ ๋ฐ”๋€” ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ด๋Ÿฐ ์ƒํ™ฉ์—์„œ๋Š” ํ•™์Šต์— ๋”ฐ๋ฅธ feedback์ด ์–ผ๋งˆ๋‚˜ ๋น ๋ฅด๊ฒŒ ์ „๋‹ฌ๋˜๋Š”๋ƒ๊ฐ€ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์•„๋ฌด๋ฆฌ ์ข‹์€ ๋ชจ๋ธ์ด๋ผ๋„, feedback์„ ์ฃผ๋Š” ์™€์ค‘์— ํ™˜๊ฒฝ์ด ์•„์˜ˆ ๋ฐ”๋€Œ์–ด ๋ฒ„๋ฆฐ๋‹ค๋ฉด ์ข‹์€ feedback์ด ๋  ์ˆ˜๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค.

์ด ๊ธ€์€ ์›๋ณธ์˜ ์ผ๋ถ€๋งŒ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ „์ฒด ๋‚ด์šฉ์€ ์ด์ „ ๋ธ”๋กœ๊ทธ์—์„œ ํ™•์ธํ•˜์‹ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.