๐ ๋ชฉ์ฐจ
1. preview
2. Duality๋ฅผ ํ์ฉํ Supervised Learning
3. Duality๋ฅผ ํ์ฉํ Unsupervised Learning
4. Back-Translation ์ฌํด์
๐ ๊ธ์ ๋ง์น๋ฉฐ...
1. Preview
1.1 Duality๋?
์ฐ๋ฆฐ ๋ณดํต ๊ธฐ๊ณํ์ต์ ํตํด ํน์ ๋๋ฉ์ธ์ data X๋ฅผ ๋ฐ์
๋ค๋ฅธ ๋๋ฉ์ธ์ data Y๋ก mappingํ๋ ํจ์๋ฅผ ๊ทผ์ฌํ๋ ๋ฒ์ ํ์ตํ๋ค.
๋ฐ๋ผ์ ๋๋ถ๋ถ์ ๊ธฐ๊ณํ์ต์ ์ฌ์ฉ๋๋ dataset์ ๋ ๋๋ฉ์ธ ์ฌ์ด data๋ก ๊ตฌ์ฑ๋๋ค.
Duality: ๋ ๋๋ฉ์ธ ์ฌ์ด์ ๊ด๊ณ, ๋๋ถ๋ถ์ ๊ธฐ๊ณํ์ต๋ฌธ์ ๋ ์ด์ฒ๋ผ Duality์์ฑ์ ๊ฐ๋๋ค.
ํนํ๋ NMT๋ ๊ฐ ๋๋ฉ์ธ์ data์ฌ์ด์ ์ ๋ณด๋์ ์ฐจ์ด๊ฐ ๊ฑฐ์ ์๋ค๋ ์ ์ด ํฐ ํน์ง์ด์ ์ฅ์ ์ธ๋ฐ, Duality๋ฅผ ์ ๊ทน์ ์ผ๋ก ํ์ฉํ๋ค๋ฉด ๊ธฐ๊ณ๋ฒ์ญ์ ๊ณ ๋ํํ ์ ์๋ค.
1.2 CycleGAN
๋ฒ์ญ ์ธ ๋ถ์ผ์์๋ Duality๋ฅผ ํ์ฉํ ์ ์๋๋ฐ,
โ Vision๋ถ์ผ์์ ์๊ฐํ [CycleGAN; 2017]์ ๋ํด ์๊ฐํด๋ณด๊ณ ํ๋ค.
CycleGAN์ด๋ ์๋๊ทธ๋ฆผ์ฒ๋ผ ์ง์ง์ด์ง์ง์์ ๋ ๋๋ฉ์ธ์ ์ด๋ฏธ์ง๊ฐ ์์๋,
X๋๋ฉ์ธ์ image๋ฅผ Y๋๋ฉ์ธ์ image๋ก ๋ณํํ๋ ๋ฐฉ๋ฒ์ด๋ค.
X→Y์ Y→X ๋ชจ๋ ๊ฐ๊ฐ ์์ฑ์ G, F์ ํ๋ณ์ Dx, Dy๋ฅผ ๊ฐ๊ณ ์๊ธฐ์ min/max ๊ฒ์์ ์ํํ๋ค.
G๋ x๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ลท์ผ๋ก ๋ณํํ๋ค.
F๋ y๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ xฬ ์ผ๋ก ๋ณํํ๋ค.
Dx๋ xฬ ์ด๋ x๋ฅผ ์ ๋ ฅ์ผ๋ก ๋ฐ์ ํฉ์ฑ ์ฌ๋ถ๋ฅผ ํ๋จํ๋ค.
์ด ๋ฐฉ์์ ํต์ฌ์ xฬ ๋ ลท๋ฅผ ํฉ์ฑํ ๋, ๊ธฐ์กด์ ๋๋ฉ์ธ X, Y์ ์ค์ ๋ก ์ํ๋ ์ด๋ฏธ์ง์ฒ๋ผ ๋ง๋ค์ด ๋ด์ผ ํ๋ค๋ ๊ฒ์ด๋ค.
๊ทธ๋ฆฌ๊ณ ๊ฐ๊ฐ์ xฬ ์ ลท๋ก๋ถํฐ ์๋ data๋ก ๋์์ฌ ์ ์์ด์ผ ํ๋ค๋ ๊ฒ์ด๋ค.
2. Duality๋ฅผ ํ์ฉํ Supervised Learning
2.1 DSL (Dual Supervised Learning)
์ด๋ฒ์ ์๊ฐํ ๋ ผ๋ฌธ์ Duality๋ฅผ ํ์ฉํ ์ง๋ํ์ต[DSL;2017]์ด๋ค.
์ด ๋ฐฉ๋ฒ์ ๊ธฐ์กด์ Teacher-Forcing์ ์ด๋ ค์ ํด๊ฒฐ ์,
RL๋ฐฉ๋ฒ๋์ Duality์ Regularization Term์ ๋์ถํด ํด๊ฒฐํ๋ค.
Bayes ์ ๋ฆฌ์ ๋ฐ๋ฅด๋ฉด ์๋์์์ ํญ์ ์ฑ๋ฆฝ.
๊ทธ๋ ๋ค๋ฉด, ์ด ์์๋๋ก dataset์ ํตํด ํ๋ จํ ๋ชจ๋ธ๋ค์ ์๋ ์์์ ๋ง์กฑํด์ผํ๋ค. ์์ ๊ฐ์ ์ ์ ๋ก ๋ฒ์ญํ๋ จ์ ์ํ ๋ชฉํ์ ์ ์ฉํ๋ค๋ฉด, ์๋์ ๊ฐ๋ค.
์์ ์์์ ํด์ํด๋ณด์.
โ[๋ชฉํ. 1]: Bayes์ ๋ฆฌ์๋ฐ๋ฅธ ์ ์ฝ์กฐ๊ฑด์ ๋ง์กฑ + โ1์ ์ต์ํ
โ1์ ๋ฒ์ญํจ์ f์ ์ ๋ ฅ xi๋ฅผ ๋ฃ์ด ๋์จ ๋ฐํ๊ฐ๊ณผ yi์ฌ์ด์ ์์ค์ ์๋ฏธ
โ[๋ชฉํ. 2]: โ2๋ ๋ฒ์ญํจ์ g์๋ํด ๋์ผ์์ ์ ์ํ, ์ต์ํ
๋ฐ๋ผ์ ์์ ๊ฐ์ MSE์์คํจ์๋ฅผ ๋ง๋ค ์ ์๋ค.
์ด ํจ์๋ Bayes์ ๋ฆฌ์๋ฐ๋ฅธ ์ ์ฝ์กฐ๊ฑด์ ์ ๋ณ์ ๊ฐ์ ์ฐจ์ด๋ฅผ ์ต์ํํ๋ค.
โ ์์ ์์์์ ์ฐ๋ฆฌ๊ฐ ๋์์ ํ๋ จ์ํค๋ ์ ๊ฒฝ๋งํ๋ผ๋ฏธํฐ๋ก logP(y | x; θx→y)์ logP(x | y; θy→x)๋ฅผ ๊ตฌํ๊ณ
โ monolingual corpus๋ฅผ ํตํด ๋ณ๋๋ก ์ด๋ฏธ ํ๋ จ์์ผ ๋์ LM์ผ๋ก logpฬ(x)๊ณผ logpฬ(y)๋ฅผ ๊ทผ์ฌ์ํฌ ์ ์๋ค.
์ด ๋ถ๊ฐ์ ์ ์ฝ์กฐ๊ฑด์ ์์คํจ์๋ฅผ ๊ธฐ์กด์ ์์คํจ์์ ์ถ๊ฐํด ๋์ํด ์ต์ํํ๋ฉด, ์๋์ ๊ฐ์ด ํํ๊ฐ๋ฅํ๋ค.
์ฌ๊ธฐ์ λ๋ฅผ ํตํด ์์คํจ์๋ด ๋น์จ์กฐ์ ์ด ๊ฐ๋ฅํ๋ค. (๋ง์ฝ λ๊ฐ ๋๋ฌด ํฌ๋ค๋ฉด, ์ต์ ํ๊ณผ์ ์์ regularization term์ต์ํ ์ ์ง๋์น๊ฒ ์ง์ค).
3. Duality๋ฅผ ํ์ฉํ Unsupervised Learning
3.1 Dual-learning Machine Translation
๊ณต๊ต๋กญ๊ฒ๋ CycleGAN์ถ์์๊ธฐ์ ๋ง์ถฐ ๋์จ ๋ ผ๋ฌธ, [Dual learning for machine translation; 2016]์ด ์๋ค.
NLP์ ํน์ฑ์ CycleGAN์ฒ๋ผ ์ง์ ์ ๋ฏธ๋ถ๊ฐ์ ์ ๋ฌ์ ๋ถ๊ฐ๋ฅํ๋ค.
ํ์ง๋ง ๊ธฐ๋ณธ์ ์ผ๋ก ์์ฃผ ๋น์ทํ ๊ฐ๋ ์ ํ์ฉํ๋๋ฐ,
์์ ๋ ผ๋ฌธ์ "parallel corpus๋ฅผ ํ์ฉํด ํ๋ จ๋ ๊ธฐ๋ณธ์ฑ๋ฅ์ NMT๋ฅผ monolingual corpus๋ฅผ ์ด์ฉํด ๊ทธ ์ฑ๋ฅ์ ๊ทน๋ํ"ํ๊ณ ์ ํ๋ค.
NLP์์ GAN๊ฐ์ ๋ฐฉ์์ผ๋ก Gradient๋ฅผ ์ ๋ฌ์ด ๋ถ๊ฐ๋ฅํ๊ธฐ์ ๊ฐํํ์ต์ ํ์ฉํด ํ๋ณ์์ ๊ฐ์ ์ ๋ฌํด์ค์ผํ๋ค.
(โตG์ D์ฌ์ด์ ๋ช ํํ ๋ชฉํ๋ ๋ณด์ ์ ํธ๊ฐ ๋ถ์กฑํ๊ฑฐ๋ ๋ชจํธํ ๊ฒฝ์ฐ๊ฐ ๋ง๊ธฐ ๋๋ฌธ.)
โmono-lingual corpus๋ก๋ถํฐ ๋ฐ์ ๋ฌธ์ฅ s์๋ํด ๋ฒ์ญ์ ํ๊ณ
โ๋ฒ์ญ๋ ๋ฌธ์ฅ smid๋ฅผ ์ฌ์ฉํด ๋ฐ๋๋ฐฉํฅ ๋ฒ์ญ์ ํตํด ๋ฒ์ญ ์,
โ๋ณต์๋ ๋ฌธ์ฅ ล์ด ๊ธฐ์กด ์ฒ์๋ฌธ์ฅ๊ณผ์ ์ฐจ์ด Δ(ล, s)๊ฐ ์ต์ํ๋๋๋ก ํ๋ จํ๋ค.
์ด๋, ๋ฒ์ญ๋ ๋ฌธ์ฅ smid๊ฐ ์ผ๋ง๋ ์์ฐ์ค๋ฝ๊ฒ ํด๋น์ธ์ด๋ฌธ์ฅ์ด ๋๋์ง ์ฌ๋ถ๊ฐ ์ค์ํ ์งํ๊ฐ ๋๋ค.
์์ ์๊ณ ๋ฆฌ์ฆ์ ์ดํด๋ณด์.
๋ ๋๋ฉ์ธ(A์ธ์ด, B์ธ์ด)์ ๋ฌธ์ฅ๋ค์ด ์ฃผ์ด์ง๊ณ
์์ฑ์ GA→B์ parameter θAB์
๋ฐ๋๋ฐฉํฅ ์์ฑ์ FB→A์ parameter θBA๊ฐ ๋ฑ์ฅํ๋ค.
์ด GA→B์ FB→A๋ ๋ชจ๋ parallel corpus๋ฅผ ํ์ฉํด pretrain๋ ์ํ์ด๋ค.
์์์ ๋ฐฐ์ด Policy Gradient๋ฅผ ํ์ฉํด parameter๋ฅผ updateํ๋ฉด, 14๋ฒ์งธ ์์ด ๋์ถ๋๋ค.
Ê[r]์ ๊ฐ๊ฐ์ Parameter์ ๋ํด ๋ฏธ๋ถํ ๊ฐ์ ๋ํด์ฃผ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
์ด์ , ์ด ๋ณด์์ ๊ธฐ๋๊ฐ์ ๊ตฌํ๋ฉด ์๋์ ๊ฐ๋ค.
์ด์ k๊ฐ์ sampling๋ ๋ฌธ์ฅ์ ๋ํด ๊ฐ ๋ฐฉํฅ์ ๋ํ ๋ณด์์ ๊ฐ๊ฐ ๊ตฌํ๊ณ ์ด๋ฅผ ์ ํ๊ฒฐํฉํ๋ค. (์ด๋, smid: sampling๋ ๋ฌธ์ฅ์ ์๋ฏธ)
์ด๋ ๊ฒ ์ป์ ๐ผ[r]์ ๊ฐ parameter์ ๋ํด ๋ฏธ๋ถํ๋ฉด ์์๊ฐ์ ์์์ ์ป์ ์ ์๊ณ ,
LMB๋ฅผ ์ฌ์ฉํด ํด๋น ๋ฌธ์ฅ์ด B์ธ์ด์ ์งํฉ์ ์ํ๋์ง ๋ณด์๊ฐ์ ๊ณ์ฐํ๋ค.
LMB๋ ๊ธฐ์กด ์ธ์ดB๋จ์ผ์ฝํผ์ค๋ก ์ฌ์ ํ๋ จ๋์ด์๊ธฐ์ ์์ฐ์ค๋ฌ์ด ๋ฌธ์ฅ์ด ์์ฑ๋ ์๋ก ํด๋น LM์์ ๋์ ํ๋ฅ ์ ๊ฐ์ง ๊ฒ์ด๋ค.
์์์ ์์ ํ parameter update์์์ ๋์ ํ๋ฉด ๋๋ค.
๋น์ทํ ๋ฐฉ์์ผ๋ก ๋ฐ๋๋ฐฉํฅ์ ๋ฒ์ญ B→A๋ฅผ ๊ตฌํ ์ ์๋ค.
์ต์ข ์ ์ธ ์ฑ๋ฅ์ ๋ํ ์ค๋ช ๋ฐ ๊ฒฐ๊ณผ๋ ์์ ๊ฐ๋ค.
Dual-Learning์ด ๋ฌธ์ฅ๊ธธ์ด์ ์๊ด์์ด ํญ์ ๋์ ์ฑ๋ฅ์ ๋ณด์์ ์ ์ ์๋ค.
3.2 DUL (Dual Unsupervised Learning)
์์ ์ค๋ช ํ ๋์ผ์ง๋ํ์ต(DSL)์ Bayes์ ๋ฆฌ์ ๋ฐ๋ฅธ ์์์ ์ ์ฝ์กฐ๊ฑด์ผ๋ก ์ฌ์ฉํ๋ค.
์ง๊ธ ์๊ฐํ๋ ๋ ผ๋ฌธ[DUL ; 2018]์ ๋ฐฉ๋ฒ์ ์ฃผ๋ณ๋ถํฌ(marginal distribution)์ ์ฑ์ง์ ์ด์ฉํด ์ ์ฝ์กฐ๊ฑด์ ์์ฑํ๋ค.
์ฃผ๋ณ ๋ถํฌ์ ์์ฑ์ ํตํด ์์ ์์์ ํญ์ ์ฐธ์ด๋ค.
์ด๋ ์กฐ๊ฑด๋ถํ๋ฅ ๋ก ๋ํ๋ผ ์ ์๊ณ , ์ข ๋ ๋์๊ฐ๋ฉด ๊ธฐ๋๊ฐํํ์ผ๋ก๋ ๋ฐ๊ฟ ์ ์๋ค.
๊ทธ ํ K๋ฒ sampling ํด Monte Carlo Sampling์ผ๋ก ๊ทผ์ฌํด ํํํ ์ ์๋ค.
์์ ์์์ NMT์ ์ ์ฉํด๋ณด์.
โsrc๋ฌธ์ฅ x, tgt๋ฌธ์ฅ y๋ก ์ด๋ค์ง ์๋ฐฉํฅ๋ณ๋ ฌ์ฝํผ์ค ๐ฉ ์
โS๊ฐ์ tgt๋ฌธ์ฅ y๋ก๋ง ์ด๋ค์ง ๋จ์ผ์ธ์ด์ฝํผ์ค โณ์ด ์๋ค ๊ฐ์ ํ์.
์ด๋, ๋ชฉ์ ํจ์๋ฅผ ์ต๋ํํ๋ ๋์์ ์ฃผ๋ณ๋ถํฌ์ ๋ฐ๋ฅธ ์ ์ฝ์กฐ๊ฑด ๋ํ ๋ง์กฑ์์ผ์ผํ๋ค.
[Objectiv; ๋ชฉํ]
์์ ์์์ DSL๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก λ์ ํจ๊ป S(θ)์ ๊ฐ์ด ํํํด ๊ธฐ์กด ์์คํจ์์ ์ถ๊ฐํ๋ฉด ์๋์ ๊ฐ๋ค.
์ด์ DSL๊ณผ ์ ์ฌํ๊ฒ pฬ(x)์ pฬ(y)๊ฐ ๋ฑ์ฅํ๋ค.
โpฬ(x): ๋จ์ผ์ธ์ด์ฝํผ์ค๋ก ๋ง๋ LM์ผ๋ก ๊ณ์ฐํ ๊ฐ ๋ฌธ์ฅ๋ค์ ํ๋ฅ ๊ฐ
์์ ์์์ ๋ฐ๋ฅด๋ฉด pฬ(x)๋ฅผ ํตํด src๋ฌธ์ฅ x๋ฅผ samplingํด ์ ๊ฒฝ๋ง θ๋ฅผ ํต๊ณผ์์ผ P(y | x; θ)๋ฅผ ๊ตฌํด์ผ ๋ ๊ฒ์ฒ๋ผ ๋ณด์ธ๋ค.
ํ์ง๋ง, ์๋์ฒ๋ผ ์กฐ๊ธ ๋ ๋ค๋ฅธ ๋ฐฉ๋ฒ์ผ๋ก ์ ๊ทผํ๋ค.
์ด์ฒ๋ผ ์ค์๋ํ์ง๋ฒ(importance sampling)์ ํตํด
tgt์ธ์ด์ ๋ฌธ์ฅ y๋ฅผ ๋ฐ๋๋ฐฉํฅ๋ฒ์ญ๊ธฐ (y→x)์ ๋ฃ์ด
K๊ฐ์ src๋ฌธ์ฅ x๋ฅผ samplingํด P(y)๋ฅผ ๊ตฌํ๋ค.
์ด ๊ณผ์ ์ ํ๋์ ์์คํจ์๋ก ํํํ๋ฉด ์๋์ ๊ฐ๋ค.
โ1ํญ: ๋ฌธ์ฅ xn์ด ์ฃผ์ด์ง ๋, yn์ ํ๋ฅ ์ ์ต๋๋กํ๋ θ๋ฅผ ์ฐพ๋๋ค.
โ2ํญ: ๋จ์ผ์ธ์ด์ฝํผ์ค์์ ์ฃผ์ด์ง ๋ฌธ์ฅ ys LM์์์ ํ๋ฅ ๊ฐ log pฬ(ys)๊ณผ์ ์ฐจ์ด๋ฅผ ์ค์ฌ์ผํ๋ค.
๊ทธ ๊ฐ์ ๋ฐ๋๋ฐฉํฅ๋ฒ์ญ๊ธฐ(y→x)๋ฅผ ํตํด K๋ฒ samplingํ ๋ฌธ์ฅ xi์ LMํ๋ฅ ๊ฐ pฬ(xi)์ xi๊ฐ ์ฃผ์ด์ง ๋, ys์ ํ๋ฅ ๊ฐ์ ๊ณฑํ๊ณ , ๋ฌธ์ฅ ys๊ฐ ์ฃผ์ด์ก์ ๋ samplingํ ๋ฌธ์ฅ xi์ ํ๋ฅ ๊ฐ์ผ๋ก ๋๋ ์ค ๊ฐ์ด ๋๋ค.
[์ฑ๋ฅ ๋ฐ ๊ฒฐ๊ณผ]
์ด ํ์์ ๋ณผ ์ ์๋ฏ, DUL๊ณผ ๋ค๋ฅธ ๊ธฐ์กด ๋จ์ผ์ธ์ด์ฝํผ์ค๋ฅผ ํ์ฉํ ์๊ณ ๋ฆฌ์ฆ๋ค๊ณผ ๋น๊ตํ ๊ฒฐ๊ณผ๋ ์์ ๊ฐ์๋ฐ, ์ด ๋ฐฉ๋ฒ์ ์์ ์๊ฐํ ๊ธฐ์กด์ ๋จ์ผ์ธ์ด์ฝํผ์ค๋ฅผ ํ์ฉํ ๋ฐฉ์๋ค๊ณผ ๋น๊ตํ์ ๋, ํจ์ฌ ๋ ๋์ ์ฑ๋ฅ์ ๊ฐ์ ์ ๋ณด์ฌ์ค๋ค.
๋ ๋์๊ฐ, ์์ ์๊ฐํ Dual-Learning๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก, ๋นํจ์จ์ RL์ ์ฌ์ฉํ์ง ์๊ณ ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ฃผ๋ชฉํ ๋งํ ์ฑ๊ณผ๋ผ ํ ์ ์๋ค.
4. ์ฌ์ด๊ฐ๊ธฐ) Back-Translation ์ฌํด์
4.1 Back-Translation
์์ Back-Translation์ ์ถ์์ ๊ด์ ์์ ์ ์ ๋์ํ๋์ง ์๊ณ ๋์ด๊ฐ๋ค๋ฉด,
์ค๋์ ๋ ผ๋ฌธ์ Back-Translation์ ์์น์ ๊ด์ ์ผ๋ก ๊ทธ ์ด์ ๋ฅผ ํ์ ํด๋ณด๊ณ ์ ํ๋ค.
โ N๊ฐ์ src๋ฌธ์ฅ x, tgt๋ฌธ์ฅ y๋ก ์ด๋ค์ง ์๋ฐฉํฅ๋ณ๋ ฌ์ฝํผ์ค ๐ฃ์
โ S๊ฐ์ tgt๋ฌธ์ฅ y๋ก๋ง ์ด๋ค์ง ๋จ์ผ์ธ์ด์ฝํผ์ค โณ์ด ์๋ค๊ณ ๊ฐ์ ํ์.
์์ ๋ค๋ฃฌ DUL(Dual Unsupervised Learning)์ฒ๋ผ ์ต์ข ์ ์ผ๋ก ์ต์ํํ๋ ค๋ ์์คํจ์๋ ์๋์ ๊ฐ์ด ํํ๊ฐ๋ฅํ๋ค.
์ฌ๊ธฐ์, DUL๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก P(y)๋ ์ฃผ๋ณ๋ถํฌ์ ์์ฑ์ ํ์ฉํด ํํ๊ฐ๋ฅํ๋ค.
๋ค๋ง, ์ฌ๊ธฐ์ ์ข๋ณ์ด P(y)๊ฐ ์๋ logP(y)์์ ์ฃผ๋ชฉํ์.
cf) Jensen's ๋ถ๋ฑ์์ ๋ฆฌ๋ ํญ์ log P(y)๋ณด๋ค ์๊ฑฐ๋ ๊ฐ์ ์์์ผ๋ก ์ ๋ฆฌํ ์ ์๋ค.
[Jensen's ๋ถ๋ฑ์ ์ ๋ฆฌ]
๋ก๊ทธํจ์๊ณก์ ์ด ์๋์ ๊ฐ์ ๋, ๋์ x1, x2์ ๋ํ ํ๊ท ์ xm์ด๋ผ ํ์.
log xm ≥ (1/2)×(logx1 + logx2)๋ ํญ์ ์ฑ๋ฆฝํ๋ ๊ฒ์ ์ ์ ์๋ค.
์์ ๋ถ๋ฑ์ ๊ฒฐ๊ณผ๋ฌผ์์ ์์๋ถํธ๋ฅผ ๋ถ์ฌ์ฃผ๋ฉด ์๋์ ๊ฐ๊ณ ,
๊ฒฐ๊ณผ์ ์ผ๋ก ๋ชฉ์ ์ -logP(y)๋ฅผ ์ต์ํ ํ๋ ๊ฒ์์ ์ ์ ์๋ค.
์ด๋ฅผ ์กฐ๊ธ ์ , ์ต์ํํ๋ ค๋ ์์คํจ์์ ์ด ์์์ ๋์ ํด๋ณด๋ฉด ์๋์ ๊ฐ๋ค.
๊ฒฐ๊ตญ L~์ ์ต์ํํ๋ ๊ฒ์ L์ ์ต์ํํ๋ ํจ๊ณผ๋ฅผ ๋ง๋ค ์ ์๋ค.
๋ฐ๋ผ์ L~์ต์ํ๋ฅผ ์ํด optimizer๋ฅผ ์ด์ฉํ ์ ์๋ค.
KL Divergence์ ๊ฒฝ์ฐ, θ์ ๋ํด ๋ฏธ๋ถํ๋ฉด ์์์ด๊ธฐ์ ์๋ต๋๋ฏ๋ก
GD๋ฅผ ์ด์ฉํ ์์์ผ ๊ฒฝ์ฐ, ์๋์ ๊ฐ์ด ๋ฏธ๋ถ๋๋ค.
๊ฒฐ๊ณผ์ ์ผ๋ก ์ป๊ฒ๋ ์์คํจ์์ ๊ฐ ๋ถ๋ถ์ ์๋ฏธ๋ฅผ ์ดํด๋ณด์.
์ฒซ๋ฒ์งธ ํญ: xn์ด ์ฃผ์ด์ก์ ๋, yn์ ํ๋ฅ ์ ์ต๋๋ก ํ๋ θ๋ฅผ ์ฐพ๋ ๊ฒ
๋๋ฒ์งธ ํญ: sampling๋ ๋ฌธ์ฅ xi์ด ์ฃผ์ด์ง ๋, ๋จ์ผ์ธ์ด์ฝํผ์ค์ ๋ฌธ์ฅ ys๊ฐ ๋์ฌ ํ๊ท ํ๋ฅ ์ ์ต๋๋ก ํ๋ θ๋ฅผ ์ฐพ๋ ๊ฒ
∴ Back-Translation์ด๋ L~(θ)๋ฅผ ์ต์ํํ๋๊ฒ์์ ์ ์ ์๋ค.
๋ง์น๋ฉฐ...
์ด๋ฒ์๊ฐ์๋ ๊ธฐ์กด RL์ ๋์ด Duality๋ผ๋ ์์ฑ์ ํ์ฉํด NMT์ ์ฑ๋ฅ์ ๊ทน๋ํํ๋ ๋ฐฉ๋ฒ์ ์ดํด๋ดค๋ค.
์ด์ RL์ ํ์ฉํ NLP ์ฑํฐ์์ ์ธ๊ธํ๋ฏ, "Policy Gradient๋ฐฉ์"์
โ ์ฅ์ ) ๋ฏธ๋ถ๋ถ๊ฐ๋ฅํ ๋ณด์ํจ์๋ ์ฌ์ฉํ ์ ์์ผ๋
โ ๋จ์ ) Sampling๊ธฐ๋ฐ ๋์์ผ๋ก ํจ์ฌ ๋ ๋นํจ์จ์ ํ์ต์ ์งํํ๋ค.
โต High Variance // Exploration vs. Exploitation Trade-off
ํ์ง๋ง Duality๋ฅผ ํ์ฉํ ๋ฐฉ์์์๋ ๊ธฐ์กด์ MLE ๋ฐ Teacher-Forcing๋ฐฉ๋ฒ ํ์์ teacher-forcing์ ๋จ์ ์ ๋ณด์ํ๋, "Regularization Term"์ ์ถ๊ฐํจ์ผ๋ก์จ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ทน๋ํํ์๋ค.
์ถ๊ฐ์ ์ผ๋ก ๊ธฐ์กด์ Back-Translation๋ฑ์ mono-lingual corpus ํ์ฉ๋ฐฉ๋ฒ์ ๋ํ ์ฌํด์์ ์ ๊ณตํ๋ค.
์ถ๊ฐ์ ์ผ๋ก ํต๊ณ๊ธฐ๋ฐํด์์ด ํจ์ฌ ์์ํ๊ธฐ์ ํ์ฌ ๋ฅ๋ฌ๋ํ๊ณ์ ์ฐ๊ตฌ๋ฐฉํฅ๊ณผ ์๋น๋ถ๋ถ ์ผ์นํ๋ค.