Attention in NLP
์ด ๊ธ์์๋ attention์ด ๋ฌด์์ธ์ง, ๋ช ๊ฐ์ ์ค์ํ ๋ ผ๋ฌธ๋ค์ ์ค์ฌ์ผ๋ก ์ ๋ฆฌํ๊ณ NLP์์ ์ด๋ป๊ฒ ์ฐ์ด๋ ์ง๋ฅผ ์ ๋ฆฌํด๋ณด์์ต๋๋ค. ๋ชฉ์ฐจ ๊ธฐ์กด Encoder-Decoder ๊ตฌ์กฐ์์ ์๊ธฐ๋ ๋ฌธ์ Basic Idea Attention Score Functions What Do We Attend To? Multi-headed Attention Transformer ๊ธฐ์กด Encoder-Decoder ๊ตฌ์กฐ์์ ์๊ธฐ๋ ๋ฌธ์ Encoder-Decoder ๊ตฌ์กฐ์์ ๊ฐ์ฅ ์ค์ํ ๋ถ๋ถ์ input sequence๋ฅผ ์ด๋ป๊ฒ vectorํํ ๊ฒ์ด๋๋ ๋ฌธ์ ์ ๋๋ค. ํนํ NLP์์๋ input sequence์ด๊ฐ dynamicํ ๊ตฌ์กฐ์ผ ๋๊ฐ ๋ง์ผ๋ฏ๋ก, ์ด๋ฅผ ๊ณ ์ ๋ ๊ธธ์ด์ ๋ฒกํฐ๋ก ๋ง๋ค๋ฉด์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค. ์ฆ, โ์๋ โ ์ด๋ผ๋ ๋ฌธ์ฅ์ด๋ โ์ค๋ ๋ ์จ๋ ์ข๋๋ฐ ๋ฏธ์ธ๋จผ์ง๋ ์ฌํ๋๊น ๋๊ฐ ๋ ๋ง์คํฌ ๊ผญ ์ฐ๊ณ ๋๊ฐ๋ ด!โ ์ด๋ผ๋ ๋ฌธ์ฅ์ด ๋ด๊ณ ์๋ ์ ๋ณด์ ์์ด ๋งค์ฐ ๋ค๋ฆ์๋ encoder-decoder๊ตฌ์กฐ์์๋ ๊ฐ์ ๊ธธ์ด์ vector๋ก ๋ฐ๊ฟ์ผ ํ์ฃ . Attention์ ๊ทธ ๋จ์ด์์ ์ ์ ์๋ ๊ฒ์ฒ๋ผ, sequence data์์ ์ํฉ์ ๋ฐ๋ผ ์ด๋ ๋ถ๋ถ์ ํนํ ๋ ์ฃผ๋ชฉ์ ํด์ผํ๋ ์ง๋ฅผ ๋ฐ์ํจ์ผ๋ก์จ ์ ๋ณด ์์ค๋ ์ค์ด๊ณ ๋ ์ง๊ด์ ์ผ๋ก ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ฒ์ ์ ์๋์์ต๋๋ค. ...