๐ ๋ชฉ์ฐจ
1. The Rules of Probability
2. Probability Densities
3. The Gaussian Distribution
4. Transformation of Densities
5. Information Theory
6. Bayesian Probabilities
๐ง preview: uncertainty
ML์ ์ ์ฉ์ "๋ถํ์ค์ฑ์ ๋ค๋ฃจ๋ ๊ฒ"์ด ํ์์ :
uncertainty์๋ ๋ค์ 2๊ฐ์ง ์ข ๋ฅ๊ฐ ์์.
โ Epistemic uncertainty
= systematic uncertainty
์ธ์๋ก ์ ๋ถํ์ค์ฑ์ ๋ค์ ํน์ฑ์ ๊ฐ๋๋ค.
- ์ ํํ dataset size
- ์ฆ, ๋ฌดํํ large data์ ๋ํด ์ฐ์ฐ์ ์ธ ๋ถํ์ค์ฑ์ด ์กด์ฌ
→ model์ด data๋ฅผ ์ถฉ๋ถํ ํด๊ฒฐโโ Aleotoric uncertainty
= intrinsic uncertainty
= stochastic uncertainty
= noise
์ด๋ฐ ์ฐ์ฐ์ฑ(aleotoric)์ data์ ํฌํจ๋ ๊ณ ์ noise๋ก ์ธํด ๋ฐ์ํ๋ค.→ noise๋ ์ธ์์ ๋ณด์ ์ผ๋ถ๋ง ๊ด์ฐฐํ๊ธฐ์ ๋ฐ์ํ๋ ๊ฒ.
→ ์ด ๋ถํ์ค์ฑ์ ์ค์ด๋ ค๋ฉด ๋ค๋ฅธ ์ข ๋ฅ์ data์์ง์ด ํ์.
์ด๋ฐ ๋ถํ์ค์ฑ์ ๋ค๋ฃจ๊ธฐ ์ํ Tool๋ก์จ "ํ๋ฅ ๋ก "์ ์ฌ์ฉํจ.
์ด ํ๋ฅ ๋ก ์๋ ๋จ์ํ์ง๋ง ๊ฐ๋ ฅํ 2๊ฐ์ง ๋ฒ์น์ด ์กด์ฌ.
โ ํฉ์ ๋ฒ์น
โ ๊ณฑ์ ๋ฒ์น
ํฉโ๊ณฑ๋ฒ์น + ๊ฒฐ์ ์ด๋ก (decision theory)๋ฅผ ์ด์ฉํ๋ฉด,
์ ๋ณด๊ฐ ๋ชจํธ = uncertainty๊ฐ ์๋๋ผ๋ optimal prediction์ ๋๋ฌํ ์ ์๋ค.
โ How to deal with uncertainty?
i) ๋น๋์ฃผ์์ ๊ด์ ์์์ ํ๋ฅ ์ฌ์ฉ:
๋ง์ด ํด๋ณด๋ฉด(= frequency↑), ํ๋ฅ ์ ํน์ ๊ฐ์ ์๋ ดํ๋ค.
์ฆ, ๋ถํ์ค์ฑ์ ์์ ํ๊ฐ๋ก์จ ํ๋ฅ ์ ์ฌ์ฉํ ์ ์์.
ii) Bayesian ๊ด์ ์์์ ํ๋ฅ ์ฌ์ฉ.
๋น๋์ฃผ์ ํ๋ฅ ์ ํฌํจํ๋ ๋ณด๋ค ์ผ๋ฐ์ ์ธ Bayesian ๊ด์ .
๋ถํ์ค์ฑ์ ์์ ํ๊ฐ๋ก์จ์ ํ๋ฅ ์ฌ์ฉ.
์ฆ, ๊ด์ธก๋ ๊ฒฐ๊ณผ๊ฐ ๋ง์์ง์๋ก ํด๋น ํ๋ฅ ์ ๋ํ ๋ถํ์ค์ฑ์ ๋ฎ์์ง๋ค.
1. The Rules of Probability
1.1 ์ํ์ ์ ๋ณ๊ฒ์ฌ ์์
[๋ฌธ์ ]: ์ ์กฐ๊ธฐ ๋ฐ๊ฒฌ์ ์ํ ์ธ๊ตฌ ์คํฌ๋ฆฌ๋
[๊ฐ์ ]: ๊ฐ์ ์ปจ๋ ์ธ๊ตฌ์ 1%๊ฐ ์ค์ ๋ก ์์ ๊ฑธ๋ ค ์๋ค
[์ด์์ ์ํฉ]: ์์ด ์๋ ์ฌ๋์๊ฒ ์์ฑ, ์์ด ์๋ ์ฌ๋์๊ฒ ์์ฑ.
[์ค์ ์ ๊ฐ์ ]: ์์ด ์๋ ์ฌ๋์๊ฒ 3%๊ฐ ์์ฑ์ด๋ผ ๋์ฌ ๊ฒ (= FP)
์์ด ์๋ ์ฌ๋์๊ฒ 10%๊ฐ ์์ฑ์ด๋ผ ๋์ฌ ๊ฒ(= FN)๐ค [์ง๋ฌธ] ์ ์์์ ๋ํ ๊ทธ๋ฆผ์ค๋ช .
1) '์ธ๊ตฌ๋ฅผ ์คํฌ๋ฆฌ๋ํ๋ฉด ๋๊ตฐ๊ฐ๊ฐ ์์ฑ์ผ ํ๋ฅ ์?
2) '๋๊ตฐ๊ฐ๊ฐ ์์ฑ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ์์ ๋, ์ค์ ๋ก ์์ ๊ฑธ๋ ค ์์ ํ๋ฅ ์?
์ด๋ฌํ ์ง๋ฌธ์ ์ผ๋ฐ์ ์ธ ํ๋ฅ ๋ฒ์น, ์ฆ ํฉ์ ๋ฒ์น๊ณผ ๊ณฑ์ ๋ฒ์น์ ์ ๋ํด๋ณด์.
1.2 ํฉโ๊ณฑ์ ๋ฒ์น
ํ๋ฅ ๋ฒ์น ์ ๋๋ฅผ ์ํด ์๋ ์์ ๋ฅผ ์ดํด๋ณด์.์ด ์์ ์์๋ ๋ ๋ณ์ X์ Y๊ฐ ๊ด๋ จ๋์ด ์์ต๋๋ค.
์ด ๋ณ์๋ ๋ฐ๋ ์ ์๊ธฐ์ ์ด๋ฅผ "random variable"์ด๋ "stochastic variable"์ด๋ผ ํ๋ค.
[๊ฐ์ ]: X๊ฐ i = 1, ..., L ๊ฐ์ ๊ฐ๊ณ Y๊ฐ j = 1, ..., M ๊ฐ์ ๊ฐ์ ์ ์์ผ๋ฉฐ, X์ Y๋ฅผ ๋ชจ๋ ์ํ๋งํ๋ N๋ฒ์ ์๋ํ ๋,
โ nij : X = xi ๋ฐ Y = yj์ธ ๊ฒฝ์ฐ์ ์๋ ์
โ ci : X๊ฐ ๊ฐ์ xi๋ก ์ทจํ๋ ์๋ ์(Y๊ฐ ์ด๋ค ๊ฐ์ ์ทจํ๋ ์ง ์๊ด์์ด)
โ rj: Y๊ฐ ๊ฐ์ yj๋ก ์ทจํ๋ ์๋ ์
โ p(X = xi, Y = yj): X๊ฐ ๊ฐ xi๋ฅผ ์ทจํ๊ณ Y๊ฐ ๊ฐ yj๋ฅผ ์ทจํ ํ๋ฅ
์ด๋ฅผ X = xi ์ Y = yj์ ๊ฒฐํฉํ๋ฅ (joint probability)๋ผํ๋ค.
์ด๋ ์ i,j์ ์ํ๋ ์ ์ ์๋ฅผ ์ ์ฒด ์ ์ ์๋ก ๋๋ ๋น์จ๋ก ์ฃผ์ด์ง๋ค:์ด๋, ์์์ ์ผ๋ก lim N → ∞์ ๊ณ ๋ คํ๋ค; (2.1)
๋น์ทํ๊ฒ Y์ ๊ฐ๊ณผ๋ ๋ฌด๊ดํ๊ฒ X๊ฐ ๊ฐ์ xi๋ก ์ทจํ ํ๋ฅ ์ p(X = xi)๋ก ํ์๋๋ค.
์ด๋ ์ด i์ ์ํ๋ ์ ์ฒด ์ ์ ์๋ก ์ฃผ์ด์ง๋ค:์ด๋, ∑i ci = N์ด๋ฏ๋ก (2.2) (2.3) ๐ค Sum Rule
๋ฐ๋ผ์ ํ๋ฅ ์ ์๊ตฌ์ฌํญ์ ๋ฐ๋ผ ํฉ์ด 1์ด ๋ฉ๋๋ค.
Figure 2.4์ i ์ด์ ๋ํ ์ธ์คํด์ค ์๋ ํด๋น ์ด์ ๊ฐ ์ ์ ์ธ์คํด์ค ์์ ํฉ์ผ ๋ฟ์ด๋ฉฐ,
๋ฐ๋ผ์ ci = ∑j nij์ด๋ฏ๋ก (2.1)๊ณผ (2.2)์ ์ํด ์๋ ์์ด ์ฑ๋ฆฝํ๋ค:(2.4) ์ด๊ฒ์ด ๋ฐ๋ก ํ๋ฅ ์ ํฉ์ ๋ฒ์น์ด๋ค.
๐ค ์กฐ๊ฑด๋ถ ํ๋ฅ
โ p(X = xi) : marginal probability, ์ด๋ ๋ค๋ฅธ ๋ณ์๋ค(์ฌ๊ธฐ์๋ Y)์ ์ฃผ๋ณํํ๊ฑฐ๋ sum outํ์ฌ ์ป๋๋ค.
โ p(Y = yj | X = xi) : ๋ง์ฝ X = xi์ธ ๊ฒฝ์ฐ๋ง์ ๊ณ ๋ คํ๋ค๋ฉด, ๊ทธ ์ค Y = yj์ผ ํ๋ฅ ์ด๋ค.
์ด๋ฅผ X์ ๋ํ Y์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ด๋ผ ํ๋ค.
์ด๋ ์ด i์ ์ํ๋ ๊ทธ ์ ์ค ์ i,j์ ์ํ๋ ์ ์ ๋น์จ์ ์ฐพ์ ์ป์ ์ ์์ผ๋ฉฐ, ๋ฐ๋ผ์ ๋ค์๊ณผ ๊ฐ์ด ์ฃผ์ด์ง๋ค:์๋ณ์ j์ ๋ํด ๋ชจ๋ ํฉํ๊ณ , ∑j nij = c๋ฅผ ์ฌ์ฉํ๋ฉด ์๋์ ๊ฐ๋ค: (2.5) ์ด๋ก์จ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ด ์ฌ๋ฐ๋ฅด๊ฒ ์ ๊ทํ๋์์์ ๋ณด์ฌ์ค๋ค. (2.6)
๐ค Product Rule
์ด์ (2.1), (2.2), (2.5)์์ ์๋๋ฅผ ์ ๋ํ ์ ์๋๋ฐ, ์ด๋ฅผ ํ๋ฅ ์ ๊ณฑ์ ๋ฒ์น์ด๋ผ ํ๋ค:
๐ค Sum & Product Rule
๋ค๋ง, X๊ฐ xi๊ฐ์ ์ทจํ ํ๋ฅ ์ p(X=xi)๋ก ํ๊ธฐํ๊ธฐ๋ ๋ค์ ๋ฒ๊ฑฐ๋กญ๊ธฐ์
p(X)๋ก random variable X์ ๋ํ ๋ถํฌ๋ฅผ ๋ํ๋ผ ๊ฒ์ด๋ฉฐ,
๋ฌธ๋งฅ ์ ๋ช ํํ๊ฒ ํน์ ๊ฐ xi์ ๋ํ ๋ถํฌ๋ฅผ p(xi)๋ก ํ๊ธฐํ์.
์ด์ , ์ด๋ ๊ฒ ๊ฐ๋จํ ํ๊ธฐ๋ฒ์ ์ด์ฉํ๋ฉด ํฉ๊ณผ ๊ณฑ์ ๋ฒ์น์ ์๋์ ๊ฐ์ด ํํ๊ฐ๋ฅํ๋ค:โ p(X,Y): ๊ฒฐํฉํ๋ฅ (joint probability), 'X์ Y์ ํ๋ฅ '.
โ p(Y|X): ์กฐ๊ฑด๋ถ ํ๋ฅ (conditional probability),'X๊ฐ ์ฃผ์ด์ง ์ํฉ์์ Y์ ํ๋ฅ '.
โ p(X): ์ฃผ๋ณ ํ๋ฅ (marginal probability), ๋จ์ํ 'X์ ํ๋ฅ '
1.3 Bayes' theorem
๊ณฑ์ ๋ฒ์น๊ณผ ๊ฒฐํฉํ๋ฅ ์ ๋์นญ์ฑ ์ฑ์ง์ ์ด์ฉํด ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ก๋ถํฐ ์๋ ์์์ ์ป์ ์ ์๋๋ฐ, ์ด๋ฅผ ๋ฒ ์ด์ฆ ์ ๋ฆฌ(Bayes' Theorem)์ด๋ผ ํ๋ค. ์ข๋ณ์ ์กฐ๊ฑด๋ถ๋ถํฌ P(Y|X)์ ์ฐ๋ณ์ p(X | Y)๊ฐ์ ๊ด๊ณ๋ฅผ ๋ํ๋ธ๋ค๋ ๊ฒ์ ์ฃผ๋ชฉํ ๋, ํฉ์ ๋ฒ์น์ ์ฌ์ฉ, ๋ฒ ์ด์ฆ ์ ๋ฆฌ์ ๋ถ๋ชจ๋ฅผ ๋ถ์์ ๋ํ๋ ์์ผ๋ก ํํํ ์ ์๋ค:
์ฆ, ๋ฒ ์ด์ฆ ์ ๋ฆฌ์ ๋ถ๋ชจ๋ p(Y|X)์์ ๋ชจ๋ Y์ ๊ฐ์ ๋ํ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ถํฌ์ ํฉ์ด 1์ด ๋๋๋ก ๋ณด์ฅํ๊ธฐ ์ํด ํ์ํ ์ ๊ทํ ์์๋ก ๋ณผ ์ ์๋ค.์ข์๋จ) N = 60์ ์ ํํ data point sample์ด ๊ฒฐํฉ๋ถํฌ์์ ์ถ์ถ ์ฃผ๋ณ ๋ฐ ์กฐ๊ฑด๋ถ ๋ถํฌ์ ๊ฐ๋ ์ ์ค๋ช ํ๊ธฐ ์ํด ๋ ๋ณ์์ ๋ํ ๊ฒฐํฉ ๋ถํฌ๋ฅผ ์ฌ์ฉํ ๊ฐ๋จํ ์์
์ฐ์๋จ) ๊ฐ๊ฐ์ ๋ ๊ฐ ์ค ํ๋๋ฅผ ๊ฐ์ง๋ data point๋น์จ historgram.
ํ๋จ) p(X)์ p(X|Y=1)์ ํด๋น histogram ์ถ์ ์น.
ํ๋ฅ ์ ์ ์์ ๋ฐ๋ผ N → ∞์ผ ๋, data point ๋น์จ=ํด๋น ํ๋ฅ p(Y)
1.4 ์ํ์ ์ ๋ณ๊ฒ์ฌ ์ฌ๋ฐฉ๋ฌธ
1.1 ์์ ์ ๋ํ ์กฐ๊ฑด๋ถ ํ๋ฅ ํฉ๊ณผ ๊ณฑ์ ๋ฒ์น ์ ์ฉ
โ ๋ณ์ C: ์์ ์กด์ฌ ์ฌ๋ถ (C = 0์ '์์ด ์์', C = 1์ '์์ด ์์')์ด๋, p(C = 0) + p(C = 1) = 1๊ฐ ๋ง์กฑํจ์ ์ ์.
[๊ฐ์ ]: ๊ฐ์ ์ปจ๋ ์ธ๊ตฌ์ 1%๊ฐ ์ค์ ๋ก ์์ ๊ฑธ๋ ค ์๋ค
[์ด์์ ์ํฉ]: ์์ด ์๋ ์ฌ๋์๊ฒ ์์ฑ, ์์ด ์๋ ์ฌ๋์๊ฒ ์์ฑ.
โ ๋ณ์ T: ๊ฒ์ง ํ ์คํธ ๊ฒฐ๊ณผ.
T = 1: ์์ ๋ํ๋ด๋ ์์ฑ ๊ฒฐ๊ณผ,
T = 0: ์์ ๋ถ์ฌ๋ฅผ ๋ํ๋ด๋ ์์ฑ ๊ฒฐ๊ณผ
[์ค์ ์ ๊ฐ์ ]: ์์ด ์๋ ์ฌ๋์๊ฒ 3%๊ฐ ์์ฑ์ด๋ผ ๋์ฌ ๊ฒ (= FP)
์์ด ์๋ ์ฌ๋์๊ฒ 10%๊ฐ ์์ฑ์ด๋ผ ๋์ฌ ๊ฒ(= FN)
๋ฐ๋ผ์ ์ฐ์ธก์ฒ๋ผ ๋ค ๊ฐ์ง ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๋ชจ๋ ์ธ ์ ์๋ค:
๋ค์ ํ ๋ฒ, ์ด๋ฐ ํ๋ฅ ์ ์ ๊ทํ๋์ด ์๋๋ฅผ ๋ง์กฑํ๋ค:
์ด์ ๋ํ ํฉ๊ณผ ๊ณฑ์ ํ๋ฅ ๋ฒ์น ์ ์ฉ
์ฒซ ๋ฒ์งธ ์ง๋ฌธ์ ๋ตํ๊ณ ์์๋ก ํ ์คํธ ๋ฐ์ ์ฌ๋์ด ์์ฑ ํ ์คํธ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ง ์ ์ฒด์ ์ธ ํ๋ฅ :
random test์, ์ค์ ์ํ๋ฅ =1%, test๊ฐ ์์ฑ์ผ ํ๋ฅ =4%์ด๋ฏ๋ก
์ด๋ฐ ํฉ์ ๋ฒ์น์ ์ฌ์ฉํ๋ฉด p(T = 0) = 1 − 387/10, 000 = 9613/10, 000 = 0.9613๊ฐ ๋๊ณ , ๋ฐ๋ผ์ ์์ด ์์ ํ๋ฅ ์ ๋๋ต 96%์ด๋ค.
์ด์ test=positive์ผ ๋, TP์ผ ํ๋ฅ ์?
์ด๋ ํ ์คํธ ๊ฒฐ๊ณผ์ ์กฐ๊ฑด์ ๊ฑธ์ ์ํฉ์์ ์์ ๊ฑธ๋ฆด ํ๋ฅ ์ ํ๊ฐํด์ผ ํ๋ค.
p(T=1|C=1)~p(T=0|C=0)๊น์ง์ ํ๋ฅ ์ ํด๋น ์ฌ๋์ด ์์ ๊ฑธ๋ ธ์ ๋ ํ ์คํธ ๊ฒฐ๊ณผ์ ํ๋ฅ ๋ถํฌ๋ฅผ ์ ๊ณตํ๋ค.
ํ์ง๋ง, ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฒ์ ํ ์คํธ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅธ ์์ ๊ฑธ๋ฆด ํ๋ฅ ์ด๋ฏ๋ก ์ด๋ฐ ์กฐ๊ฑด๋ถํ๋ฅ ์ ๋ฐ์ ์ํค๋ ๋ฌธ์ ์ ๋ํด Bayes' Theorem์ ์ ์ฉ์์ผ ์๋ ์์ ์ป์ ์ ์๋ค.๋ฐ๋ผ์ ์์๋ก ๊ฒ์ฌ๋ฅผ ๋ฐ์ ์์ฑ์ด ๋์จ ๊ฒฝ์ฐ, ์ค์ ๋ก ์์ ๊ฑธ๋ฆฐ ํ๋ฅ ์ 23%์ด๋ค.
ํฉ์ ๋ฒ์น์ ์ด์ฉํ๋ฉด, p(C = 0|T = 1) = 1 - 90/387 = 297/387 ≈ 0.77์ด ๋์ด, ์์ด ์๋ค๋ ํ๋ฅ ์ 77%๊ฐ ๋๋ค.
1.5 Prior์ Posterior ํ๋ฅ
Bayes' Theorem์ ์ค์ํด์
โ prior(์ฌ์ ํ๋ฅ ):
์ด๋ค ์ฌ๋์ด ํ ์คํธ๋ฅผ ๋ฐ๊ธฐ ์ ์ ํด๋น ์ฌ๋์ด ์์ ๊ฑธ๋ฆด ๊ฐ๋ฅ์ฑ์ ๋ฌป๋๋ค๋ฉด,
์ฐ๋ฆฌ๊ฐ ๊ฐ์ง๊ณ ์๋ ๊ฐ์ฅ ์์ ํ ์ ๋ณด๋ ํ๋ฅ p(C)๋ฅผ ์ฌ์ ํ๋ฅ ์ด๋ผ ํ๋ค.
์ฆ, ํ ์คํธ ๊ฒฐ๊ณผ๋ฅผ ๊ด์ฐฐํ๊ธฐ ์ ์ ์ฌ์ฉํ ์ ์๋ ํ๋ฅ ์ด๋ค.
โก posterior(์ฌํํ๋ฅ ):
์ด ์ฌ๋์ test๊ฒฐ๊ณผ๋ก Bayes' Theorem์ผ๋ก (p(C|T)๋ฅผ ๊ณ์ฐํ ์ ์๋๋ฐ,
์ด๋ฅผ ์ฌํ ํ๋ฅ (posterior probability)์ด๋ผ๊ณ ํ๋ค.
์ฆ, ํ ์คํธ ๊ฒฐ๊ณผ T๋ฅผ ๊ด์ฐฐํ ํ์ ์ป์ ํ๋ฅ ์ด๋ค.
1.1 ์์ ๋ฅผ ์ดํด๋ณด์.
โ ์์ ๊ฑธ๋ฆด prior = 1%.
โ ์์ฑ๊ฒฐ๊ณผ๋ฅผ ๊ด์ฐฐ ํ, ์์ ๊ฑธ๋ฆด posterior = 23%
์๋นํ ๋์์ง ๊ฒ์ ํ์ธ๊ฐ๋ฅํ๋ฐ, ์ด๋ ์ง๊ด์ ์ผ๋ก ์์ํ ์ ์๋ ์์ ๋์ ํ๋ฅ ์ด๋ค.
Butโ๏ธFigure 2.3์์ ๋ณด์ด๋ฏ, ํ ์คํธ๊ฐ ์๋นํ '์ ํ'ํด ๋ณด์ผ์ง๋ผ๋
์์ฑ ํ ์คํธ๋ฅผ ๋ฐ์ ์ฌ๋์ ์ฌ์ ํ ์ค์ ๋ก ์์ ๊ฑธ๋ฆด ํ๋ฅ ์ด 23%์ด๋ค.
์ด๋ ๋ณดํธ์ ์ธ ์๊ฐ์์ ์ง๊ด์ ์ด๊ธ๋ ๋ณด์ผ ์ ์๋ค. (โต prior๊ฐ ๋ฎ๊ธฐ ๋๋ฌธ)
๋น๋ก ํ ์คํธ๊ฐ ์์ ๊ฐ๋ ฅํ ์ฆ๊ฑฐ๋ฅผ ์ ๊ณตํ๋๋ผ๋, Bayes' Theorem์ผ๋ก ์ฌ์ ํ๋ฅ ๊ณผ ๊ฒฐํฉ๋์ด ์ฌ๋ฐ๋ฅธ ์ฌํ ํ๋ฅ ์ ๋๋ฌํด์ผ ํ๋ค.
1.6 ๋ ๋ฆฝ ๋ณ์
[๋ ๋ฆฝ(independent)]:
๋ ๋ณ์์ ๊ฒฐํฉ ๋ถํฌ๊ฐ ์ฃผ๋ณ์ ๊ณฑ์ผ๋ก ๋ํ๋ ๋ ๋ ๋ฆฝ์ด๋ผ ํ๋ค.
์ฆ, ์ข์ธก ์์ ๋ํด X์ Y๋ ๋ ๋ฆฝ์ด๋ผ ํ๋ค.
ex-1) ๋์ ์ ์ฐ์์ผ๋ก ๋์ง ๋,
๊ณฑ์ ๋ฒ์น์ ๋ฐ๋ผ (p(Y|X) = p(Y)์ด๋ฏ๋ก X์ ๊ฐ์ ๋ ๋ฆฝ์ ์ธ Y์ ์กฐ๊ฑด๋ถ ๋ถํฌ๋ฅผ ๊ฐ๋๋ค.
ex-2) 1.1 ์์ ์์ ์์ฑ ํ ์คํธ์ ํ๋ฅ ์ด ํด๋น ์ฌ๋์ด ์์ ๊ฑธ๋ ธ๋์ง์ ๋ ๋ฆฝ์ด๋ผ๋ฉด?
(p(T|C) = p(T)๊ฐ ์ฑ๋ฆฝ
→ Bayes' Theorem์ ๋ฐ๋ผ p(C|T) = p(C)
์ฆ, ํ ์คํธ ๊ฒฐ๊ณผ๋ฅผ ๊ด์ฐฐํด๋ ์์ ํ๋ฅ ์ด ๋ณํ์ง ์์์ ์๋ฏธ. (= test๊ฒฐ๊ณผ๊ฐ ์ธ๋ชจ ์์.)
2. Probability Densities
preview
์ด์ , discrete๋ง๊ณ continuous๋ณ์์ ๋ํ ํ๋ฅ ์ ์์๋ณด์.
ex) ํ์์๊ฒ ์ด๋ค ์ฝ๋ฌผ์ ํฌ์ฌํด์ผ ํ ์ง ์์ธกํ๊ณ ์ ํ๋ค๋ฉด?
→ ์ด ์์ธก์๋ ๋ถํ์ค์ฑ์ด ์กด์ฌ, ์ด๋ฅผ ์์ ํํ๋ ค๋ฉด ํ๋ฅ ์ด ํ์.
์ด ํ๋ฅ ๊ฐ๋ ์ ์ง์ ์ ์ผ๋ก ์ ์ฉํ๋ ๋ฐฉ๋ฒ์ ๋ค๋ฃจ์ง ์์๊ธฐ์ "ํ๋ฅ ๋ฐ๋ํจ์"๊ฐ๋ ์ ์๊ฐ.
[ํ๋ฅ ๋ฐ๋ ํจ์(probability density)]:
์ฐ์ ๋ณ์ x์ ๋ํด,
p(x)δx = ํ๋ฅ ๋ฐ๋ ํจ์ p(x)๋ฅผ x๊ฐ (x, x + δx) ๊ตฌ๊ฐ์ ์ํ ํ๋ฅ (์ด๋, δx → 0).(์ ๊ทธ๋ฆผ ์ฐธ๊ณ ) ๊ตฌ๊ฐ (a, b)์ ์ํ ํ๋ฅ : ํ๋ฅ ์ ๋น์์์ด๋ฉฐ, x์ ๊ฐ์ ์ด๋๊ฐ์ ์ค์ ์ถ ์์ ์์นํด ์๊ธฐ ๋๋ฌธ์,
ํ๋ฅ ๋ฐ๋ ํจ์ p(x)๋ ์๋ ๋ ๊ฐ์ง ์กฐ๊ฑด์ ๋ง์กฑํด์ผ ํ๋ค:
x๊ฐ ๊ตฌ๊ฐ (-∞, z)์ ์ํ ํ๋ฅ ์
๋์ ๋ถํฌ ํจ์(cumulative distribution function, CDF)์ ์ํด ์ ์๋๋๋ฐ,
์ด๋ Figure 2.6์ ๋์ ์๋ ๊ฒ์ฒ๋ผ P′(x) = p(x)๋ฅผ ๋ง์กฑํ๋ ๋์ ๋ถํฌ ํจ์์ด๋ค:
x1, ..., xD์ ์ฌ๋ฌ ์ฐ์ ๋ณ์์ ๋ํด, ์ด๋ค์ ๋ชจ๋ ํฌํจํ๋ ๋ฒกํฐ x๋ก ๋ํ๋ผ ์ ์๊ณ ,
์ด ๋ฒกํฐ์ ๋ํ ๊ฒฐํฉ ํ๋ฅ ๋ฐ๋ ํจ์๋ฅผ p(x) = p(x1, ..., xD)๋ก ์ ์ํ ์ ์๋ค.
p(x)δx: x๊ฐ ์ํ δx์ ๋ํ ํ๋ฅ (δx: ๋ฌดํ์ ์ฒด์ ; infinitesimal volume)
์ด ๋ค๋ณ๋ ํ๋ฅ ๋ฐ๋๋ ์๋ ์กฐ๊ฑด์ ๋ง์กฑํ๋ค:cf) ์ด๋, ์ ๋ถ๊ฐ์ด ๋ฐ์ฐํ๋ฉด ์ ๊ทํ๋ ์ ์๋๋ฐ, ์ด ์ ๊ทํ๋ ์ ์๋ ๋ถํฌ๋ฅผ ๋ถ์ ์ ํ(improper) ๋ถํฌ๋ผ ํ๋ค. ์ ๋ถ์ x ๊ณต๊ฐ ์ ์ฒด์ ๊ฑธ์ณ ์ด๋ค์ง.
๋ ์ผ๋ฐ์ ์ผ๋ก, ์ด์ฐ ๋ฐ ์ฐ์ ๋ณ์์ ์กฐํฉ์ ๋ํ ๊ฒฐํฉ ํ๋ฅ ๋ถํฌ๋ ๊ณ ๋ คํ ์ ์๋ค:
ํฉ๊ณผ ๊ณฑ์ ๋ฒ์น, ๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ ์ด์ฐโ์ฐ์ ๋ณ์์ ์กฐํฉ, ํ๋ฅ ๋ฐ๋์๋ ์ ์ฉ๊ฐ๋ฅํ๊ธฐ์
๋ง์ฝ x์ y๊ฐ ๋ ์ค์ ๋ณ์๋ผ๋ฉด, ํฉ๊ณผ ๊ณฑ์ ๋ฒ์น์ ๋ค์๊ณผ ๊ฐ์ ํํ๋ฅผ ๊ฐ๋๋ค.๋ง์ฐฌ๊ฐ์ง๋ก, ๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ ๋ค์๊ณผ ๊ฐ์ ํํ๋ก ์ธ ์ ์๋ค. ๋ถ๋ชจ๋ ๋ค์๊ณผ ๊ฐ์ด ์ฃผ์ด์ง๋๋ค. ์ฐ์ ๋ณ์์ ๋ํ ํฉ๊ณผ ๊ณฑ์ ๋ฒ์น์ ํ์์ ์ธ ๊ทผ๊ฑฐ๋ ์ธก๋๋ก (measure theory)์ด๋ผ๋ ์ํ ๋ถ์ผ๋ฅผ ํ์๋ก ํ๋ฉฐ, ์ด๋ ๋ณธ ์ฑ ์ ๋ฒ์๋ฅผ ๋ฒ์ด๋์ง๋ง, ์ด์ ์ ํจ์ฑ์ ๊ฐ ์ค์ ๋ณ์๋ฅผ ํญ์ด โ์ธ ๊ตฌ๊ฐ์ผ๋ก ๋๋์ด ์ด๋ค ๊ฐ์ ์ด์ฐ ํ๋ฅ ๋ถํฌ๋ฅผ ๊ณ ๋ คํจ์ผ๋ก์จ ๋นํ์์ ์ผ๋ก ํ์ธํ ์ ์์ผ๋ฉฐ ์ด ๊ตฌ๊ฐ์ ํญ์ โ๋ก ํ๊ณ๋ฅผ ์ทจํ๋ฉด ํฉ์ด ์ ๋ถ์ผ๋ก ๋ณํ๊ณ ์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ต๋๋ค.
2.1 ๋ถํฌ ์์
[Laplace Distribution]
์ง์ ๋ถํฌ์ ๋ณํ์ผ๋ก, ์ ์ ์ ์์น μ๋ก ์ด๋์ํฌ ์ ์๋ค.
์์, ์ง์ ๋ฐ ๋ผํ๋ผ์ค ๋ถํฌ๋ Figure 2.7์์ ์ค๋ช ๋์ด ์๋ค.
[Dirac delta function]
๋๋ ๋ธํ ํจ์๋ x = μ์์๋ง 0์ด ์๋ ๊ฐ์ ๊ฐ์ง๋ฉฐ
p(x)์ ๋ถ ์, 1์ด ๋๋๋ก ์ ์๋๋ค. (๋ฉด์ ์ด 1์ธ ํน์ฑ)
์ง๊ด์ ์๊ฑฐ, ์ด๋ฅผ x = μ์์ ๋ฌดํํ ์ข๊ณ ๋ฌดํํ ๋์ ์คํ์ดํฌ๋ก ์๊ฐํ ์ ์์ผ๋ฉฐ ๋ง์ฝ D = {x1, ..., xN}๋ก ์ฃผ์ด์ง x์ ์ ํํ ๊ด์ธก๊ฐ ์งํฉ์ด ์๋ค๋ฉด,
๋ธํ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์๊ณผ ๊ฐ์ ๊ฒฝํ์ ๋ถํฌ๋ฅผ ๊ตฌ์ฑํ ์ ์๋ค.์ ์์ ์ ์๋ ๊ฒฝํ์ ๋ถํฌ๋ ๊ฐ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ์ค์ฌ์ผ๋ก ํ๋ ๋๋ ๋ธํ ํจ์๋ก ๊ตฌ์ฑ๋๋ฉฐ,
์ด๋ฅผ ํตํด ์ ์๋ ํ๋ฅ ๋ฐ๋๋ ํ์์ ์ํด ์ ๋ถ ์ 1์ด๋ค.
2.2 ๊ธฐ๋๊ฐ๊ณผ ๊ณต๋ถ์ฐ
Expectation
ํ๋ฅ ๊ณผ ๊ด๋ จ๋ ๊ฐ์ฅ ์ค์ํ ์์ ์ค ํ๋๋ ํจ์์ ๊ฐ์ค ํ๊ท ์ ์ฐพ๋ ๊ฒ์ด๋ค.
E[f] : ๊ธฐ๋๊ฐ(expectation), ์ด๋, x์ ๋ค๋ฅธ ๊ฐ๋ค์ ์๋์ ํ๋ฅ ์ ๋ฐ๋ผ "๊ฐ์ค"๋๋ค.
= ํ๋ฅ ๋ถํฌ p(x) ํ์์ ํจ์ f(x)์ ๊ฐ์ค ํ๊ท๋ ๊ฒฝ์ฐ ๋ชจ๋ ํ๋ฅ ๋ถํฌ๋ ํ๋ฅ ๋ฐ๋๋ก๋ถํฐ ๋ฝํ ์ ํ ๊ฐ์์ N๊ฐ์ ์ ์ด ์ฃผ์ด์ง ๊ฒฝ์ฐ,
๊ธฐ๋๊ฐ์ ์ด๋ฌํ ์ ๋ค์ ์ด์ฉํ ์ ํ ํฉ์ผ๋ก ๊ทผ์ฌํ๋ ์ ์๋ค.์ด๋, ์์ ๊ทผ์ฌ์์ N → ∞๋ก ์๋ ดํ ๋ ๋ ์ ํํด์ง๋ค.
(์ฆ, sample์ด ๋ง์์ง์๋ก ๊ทผ์ฌ๊ฐ์ด ์ค์ ํจ์์ ๊ฐ์คํ๊ท ๊ฐ์ ๋ ์๋ ดํ๋ค๋ ์๋ฏธ.)๋๋ก๋ ์ฌ๋ฌ ๋ณ์์ ํจ์์ ๋ํ ๊ธฐ๋๊ฐ์ ๊ณ ๋ คํ ๊ฒ์ด๋ฉฐ, ์ด ๊ฒฝ์ฐ ์ด๋ค ๋ณ์์ ๋ํ ํ๊ท ์ ๋ํ๋ด๊ธฐ ์ํด ์ฐ์ธก์ฒ๋ผ ํ์ ์ฒจ์๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค:
์ด๋ x์ ๋ถํฌ์ ๋ํ ํจ์ f(x, y)์ ํ๊ท ์ ๋ํ๋ด๋๋ฐ ์ฌ๊ธฐ์ Ex[f(x, y)]๋ y์ ํจ์์ด๋ค.
๋ํ ์กฐ๊ฑด๋ถ ๋ถํฌ์ ๋ํ ์กฐ๊ฑด๋ถ ๊ธฐ๋๊ฐ์ ์๋์ ๊ฐ์ผ๋ฉฐ ์ด ์ญ์ y์ ๋ํ ํจ์์ด๋ค.์ด๋, ํจ์ f(x)์ ๋ถ์ฐ์ ์๋์ ๊ฐ์ด ์ ์๋๋ค: ์ด๋ f(x)๊ฐ ๊ทธ ํ๊ท ๊ฐ E[f(x)]์ฃผ๋ณ์์ ์ผ๋ง๋ ๋ณํ๋์ง๋ฅผ ์ธก์ ํ๋ ์งํ๋ฅผ ์ ๊ณตํ๋ค.
์ ๊ณฑ์ ํ์ด์ ํํํ๋ฉด ๋ถ์ฐ์ f(x)์ f(x)2์ ๊ธฐ๋๊ฐ์ผ๋ก๋ ๋ํ๋ผ ์ ์๋ค.ํนํ ๋ณ์ x ์์ฒด์ ๋ถ์ฐ์ ๊ณ ๋ คํ๋ฉด ์๋์ ๊ฐ๋ค:
Covariance
๋ ํ๋ฅ ๋ณ์ x์ y์ ๋ํด, ๊ณต๋ถ์ฐ์ ๋ ๋ณ์๊ฐ ํจ๊ป ์ผ๋ง๋ ๋ณํ๋์ง๋ฅผ ์ธก์ ํ๋ค:
๋ง์ฝ x์ y๊ฐ ๋ ๋ฆฝ์ด๋ผ๋ฉด: Cov[x,y]=0
๋ ๋ฒกํฐ x์ y์ ๋ํด, ๊ทธ๋ค์ ๊ณต๋ถ์ฐ์ ๋ค์๊ณผ ๊ฐ์ ํ๋ ฌ์ด๋ค:
๋ง์ฝ ๋ฒกํฐ x์ ๊ตฌ์ฑ ์์๋ค ๊ฐ์ ๊ณต๋ถ์ฐ์ ๊ณ ๋ คํ๋ค๋ฉด,
๋ ๊ฐ๋จํ ํ๊ธฐ๋ฒ์ผ๋ก cov[x] ≡ cov[x, x]๋ฅผ ์ฌ์ฉํ๋ค.
3. The Gaussian Distribution ๐
prev.
์ฐ์๋ณ์๋ถํฌ์์๋ค ์ค, ๊ฐ์ฅ ์ค์ํ ๋ถํฌ๋ฅผ ๊ผฝ์ผ๋ผ๋ฉด ๋จ์ฐ Gaussian Distribution(= ์ ๊ท๋ถํฌ)์ด๋ค:์ ๊ท๋ถํฌ๋ ํ๊ท (μ)๊ณผ ๋ถ์ฐ(σ²)์ ์ํด ์ง๋ฐฐ๋๋ x์ ๋ํ ํ๋ฅ ๋ฐ๋์ด๋ค.
์ด๋, ํ์คํธ์ฐจ(σ)๋ฅผ ์ด์ฉํด precision์ ๊ตฌํ ์ ์๋ค.
โ precision(β) = 1/σ² = ๋ถ์ฐ์ ์ญ์์ ๊ท๋ถํฌ ๊ทธ๋ํ ๊ฐํ.
Gaussian ๋ถํฌ๋ ์ต๋ ์ํธ๋กํผ์ ๊ฐ๋ ๊ณผ ์ค์ฌ ๊ทนํ ์ ๋ฆฌ์ ๊ด์ ์์ ์์ฐ์ค๋ฝ๊ฒ ๋ํ๋๋ค.
Gaussian ๋ถํฌ๋ ์๋์กฐ๊ฑด์ ๋ง์กฑํ๋ฉฐ, ์ ๊ทํ๋์ด์์์ ์ฆ๋ช ํ ์ ์๋ค.
๋ฐ๋ผ์ Gaussian๋ถํฌ ์์ด ์ ํจํจ์ ์ฆ๋ช ๊ฐ๋ฅํ๋ค:
3.1 ํ๊ท ๊ณผ ๋ถ์ฐ
Gaussian๋ถํฌ ํ์์ x์ ๋ํ ํจ์์ ๊ธฐ๋๊ฐ:
์ด๋, ๋ถํฌ์ ํ๊ท ๊ฐ(μ)์ ๋ํ๋ด์
๋งค๊ฐ ๋ณ์ μ๋ฅผ ํ๊ท ์ด๋ผ๊ณ ํ๋ค.
์ ์์ ์ ๋ถ์ ๋ถํฌ์ x๋ฅผ 1์น์ผ๋ก ์ ๊ณฑํ ๊ฒ์ ๊ธฐ๋๊ฐ์ด๋ผ๊ณ ์๋ ค์ง ์ 1์ ์ ๋ฅ (first-order moment)๋ก ๋น์ทํ๊ฒ 2์ฐจ moment์ ๋ํด ํ๊ฐ๋ฅผ ํ ์ ์๋ค:
์ ์๋ค์ ์ด์ฉํด ๊ตฌํด์ง ๋ถ์ฐ๊ฐ์ ๋ค์๊ณผ ๊ฐ๋ค:
๋ฐ๋ผ์ σ2๋ ๋ถ์ฐ ๋งค๊ฐ ๋ณ์๋ก ์๋ ค์ ธ ์์ผ๋ฉฐ,
๋ถํฌ์ ์ต๋๊ฐ์ ์ต๋น๊ฐ์ด๋ผ๊ณ ํ๋ค. (Gaussian์ ๊ฒฝ์ฐ, mode=mean)
3.2 Likelihood ํจ์
[๊ฐ์ ]: μ์ σ2์ด ์๋ ค์ง์ง ์์ ์ ๊ท๋ถํฌ์์ ๋ ๋ฆฝ์ ์ผ๋ก ์ถ์ถ๋ N๊ฐ์ ๊ด์ธก dataset์ ๋ํด μ์ σ๊ฐ์ ๊ฒฐ์ ํ๊ณ ์ ํ๋ค.
์ด๋, ๊ด์ธก์น ์งํฉ์์ ํ๋ฅ ๋ถํฌ๋ฅผ ์ถ์ ํ๋ ๋ฌธ์ ๋ ๋ฐ๋ ์ถ์ (density estimation)์ผ๋ก ์๋ ค์ ธ ์์ผ๋ฉฐ ๋ฐ๋ ์ถ์ ์ ๋ฌธ์ ๋ ๊ธฐ๋ณธ์ ์ผ๋ก ์ ์ ์๋์ง ์๋๋ค. (โต ๊ด์ธก๋ ์ ํํ Dataset์์ ๋ฐ์๊ฐ๋ฅํ ๋ฌดํํ ํ๋ฅ ๋ถํฌ๊ฐ ์กด์ฌํด์.)
[๋ฐฉ๋ฒ]:
์ฌ์ค, x1,...,xN ๊ฐ๊ฐ์ ๋ฐ์ดํฐ ํฌ์ธํธ์์ 0์ด ์๋ ๋ชจ๋ p(x)๋ ์ ์ฌ์ ์ธ ํ๋ณด.
์ฌ๊ธฐ์๋ ๊ฐ๋ฅํ ํ๋ณด๋ค์ ๊ฐ์ฐ์์์ผ๋ก ์ ํํ๋ฉด, ๋ช ํํ๊ฒ ์ ์๋ ํด๊ฒฐ์ฑ ์ ๋๋ฌํ๋ค.
i.i.d (independent & identically distributed)
data point๊ฐ ๋์ผ๋ถํฌ์์ ๋ ๋ฆฝ์ ์ผ๋ก ์ถ์ถ๋ ๊ฒ.
์ด๋, Joint probability๋ ๋ event๊ฐ์ ๊ณฑ์ผ๋ก ํํ.
x๊ฐ i.i.d์ด๊ณ μ์ σ2๊ฐ ์ฃผ์ด์ง ๊ฒฝ์ฐ, Dataset์ ํ๋ฅ ์ ์ฐ์ธก๊ณผ ๊ฐ๋ค:
Likelihood Function
Gaussian์ ๋ํ Likelihoodํจ์: ๊ทธ๋ฆผ 2.9์ฒ๋ผ๋ง์ฝ μ์ σ2์ ํจ์๋ก ๋ณผ ๋์ Gaussian function
Maximum Likelihood:
์ด๋ ๊ด์ฐฐ๋ Dataset์ผ๋ก ํ๋ฅ ๋ถํฌ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐฉ๋ฒ.
Likelihood Function์ ์ต๋ํํ๋ parameter๋ฅผ ์ฐพ๋ ๋ฐฉ๋ฒ.
Step 1. Gaussian์์ Gaussian Likelihoodํจ์๋ฅผ ์ต๋ํํ์ฌ ์๋ ค์ง์ง ์์ ๋งค๊ฐ ๋ณ์ μ์ σ2์ ๊ฐ์ ๊ฒฐ์ .
(์ค์ ๋ก Likelihoodํจ์์ log๋ฅผ ์ต๋ํ ํ๋ ๊ฒ์ด ํธ๋ฆฌ.)
(์ค์ฉ์ ์ผ๋ก๋, ํฐ ์์ ์์ ํ๋ฅ ์ ๊ณฑ์ ์ปดํจํฐ์ ์ซ์ ์ ๋ฐ๋๋ฅผ ์์์ํฌ ์ ์๊ธฐ์, ์ด๋ ๋ก๊ทธ ํ๋ฅ ์ ํฉ์ ๊ณ์ฐํจ์ผ๋ก์จ ํด๊ฒฐ๊ฐ๋ฅ.)
์ด์ ๋ฐ๋ผ์ ๋ก๊ทธ ๊ฐ๋ฅ๋ ํจ์๋ ๋ค์๊ณผ ๊ฐ๋ค:์ ์์ μ์ ๋ํด ์ต๋ํํ๋ฉด ๋ค์๊ณผ ๊ฐ์ Maximum Likelihood ํด๋ฅผ ์ป์ ์ ์๋ค.
์ด๋ฅผ sample mean, ํ๋ณธํ๊ท ์ด๋ผ ํ๋ฉฐ, ์ด๋ ๊ด์ธก๋ ๊ฐ {xn}๋ค์ ํ๊ท ์ ์๋ฏธํ๋ค.
๋น์ทํ๊ฒ σ2์ ๋ํด ์ต๋ํ ์, ๋ถ์ฐ์ ๋ํ ์ต๋ ์ฐ๋ํด๋ฅผ ์ป์ ์ ์๋ค.
์ด๋ฅผ ํ๋ณธ ํ๊ท μML์ ๋ํ sample variance, ํ๋ณธ ๋ถ์ฐ์ด๋ผ ํ๋ค.
์ฃผ์ํ ์ ์ ์ฐ๋ฆฌ๊ฐ μ์ σ2์ ๋ํด (2.56)์ ๋์์ ์ต๋ํํ์ง๋ง,
Gaussian๋ถํฌ๋ μ์ ๋ํ ํด๊ฐ σ2์ ๋ํ ํด์์ ๋ ๋ฆฝ๋์ด ๊ณ์ฐ๋ ์ ์๊ธฐ์
๋ฐ๋ผ์ ๋จผ์ μML์ ํ๊ฐํ๊ณ ์ด ๊ฒฐ๊ณผ๋ฅผ ์ฌ์ฉํ์ฌ ๋์ค์ σML2์ ํ๊ฐํ ์ ์๋ค.
3.3 Maximum Likelihood์ Bias
Maximum Likelihood, ๋ณธ Section์์๋ ML์ด๋ผ ๋ถ๋ฅด๊ฒ ๋ค.
ML์ ๋ฅ๋ฌ๋์์ ๋๋ฆฌ์ฌ์ฉ๋์ด ๊ธฐ๊ณํ์ต์๊ณ ๋ฆฌ์ฆ์ ๊ทผ๊ฐ์ด ๋์ง๋ง, ๋ช๊ฐ์ง ์ ํ์ฌํญ์ด ์๋๋ฐ, ์ด๋ฅผ ๋จ์ผ ๋ณ์ ๊ฐ์ฐ์์์ ์ฌ์ฉํ ์์ ๋ฅผ ํตํด ์์๋ณด์.
Maximum Likelihood์ ์ ํ์ฌํญ(feat. bias)
[๊ฐ์ ]:
μML๊ณผ σ2์ Dataset(x1, ..., xN)์ ํจ์๋ก ์ด ๊ฐ๋ค์ด
์ค์ ๋ก μ์ σ2๊ฐ μML๊ณผ σML2๋ก ์ถ์ ๋ ์ ๊ท๋ถํฌ์์ i.i.d๋ก ์์ฑ๋จ.
์ด Dataset์ ๋ํ μML๊ณผ σ2์ ๊ธฐ๋๊ฐ์ ๊ณ ๋ คํด ๋ณด์:
[๊ฒฐ๊ณผ]:
์ด๋ฌํ ๊ฒฐ๊ณผ๋ ์๋ 2๊ฐ์ง๋ฅผ ๋ณด์ฌ์ค๋ค.
μML = μ์ ๋ถํธ ์ถ์ ๋
σML2 ≠ σ2์ ๋ถํธ ์ถ์ ๋. (N-1 / N)
∴ ML๋ฐฉ๋ฒ์ ๋ฐ๋ผ์ ์ต๋ ์ฐ๋ ๋ฐฉ๋ฒ์ ๋ชจ์ง๋จ ์ถ์ ์ ์๋ฒฝํ์ง ์๋ค.
์ด๊ฒ์ ๋ฐ์ด์ด์ค(bias)๋ผ๊ณ ๋ถ๋ฆฌ๋ ํ์์ ์์์ด๋ค.
[Bias]:
randomํ ์ถ์ ๋์ด ์ค์ ๊ฐ๊ณผ ์ฒด๊ณ์ ์ผ๋ก ๋ค๋ฅธ ๊ฒ.
[Bias๋ฐ์์์ธ]:
๋ถ์ฐ์ด ๋ฐ์ดํฐ์ ๋ง๊ฒ ์กฐ์ ๋ MLE๊ธฐ์ค์ผ๋ก ์ธก์ ๋๊ธฐ ๋๋ฌธ
์๋ ๊ทธ๋ฆผ์ ํตํด ์ง๊ด์ ์ธ ์ดํด๊ฐ ๊ฐ๋ฅํ๋ค.
๋์ ์ค์ ํ๊ท μ์ ์ ๊ทผํ์ฌ ์๋์ฒ๋ผ ๋ถ์ฐ์ ๊ฒฐ์ ํ๋๋ฐ ์ฌ์ฉํ๋ค ๊ฐ์ ํ์:์ด๋ ๊ฒ ๋๋ฉด unbiased๋ ๋ถ์ฐ ์ถ์ ์น ๊ฐ์ ์ฐพ์ ์ ์๋๋ฐ, ์ด๋ ์ค์ ๋ถ์ฐ๊ณผ ๊ฐ์์ง๋ค: ๋ฌผ๋ก ์ฐ๋ฆฌ๋ ์ค์ ํ๊ท ์ ์ ๊ทผํ ์ ์๊ณ ๊ด์ธก๋ ๋ฐ์ดํฐ ๊ฐ์๋ง ์ ๊ทผํ ์ ์๊ธฐ์ ์ค์ ๋ถ์ฐ๊ณผ ๊ฐ์์ง๊ธด ์ด๋ ต๋ค.
๋ค๋ง, ML๋ถ์ฐ์ ํ๊ท ์ ๋ฐ๋ผ Gaussian๋ถํฌ์ ๋ํ ๋ถ์ฐ์ ๋ค์ ์ถ์ ์น์ ๊ฒฝ์ฐ, ํธํฅ์ด ์์ด์ง๋ค:๋ค๋ง, ์ ๊ฒฝ๋ง์ฒ๋ผ ๋ณต์กํ ๋ชจ๋ธ์์๋ ML์ bias๋ณด์ ์ด ์ฝ์ง ์๋ค.
๋ํ, MLE์ bias๋ Data point N์ด ๋ง์์ง๋ฉด, ๋ ์ค์ํด์ง์ง๋ค.(lim N → ∞, σML2 = σ2)
Gaussian์ ๊ฒฝ์ฐ, ๋๋ฌด N์ด ์ ์ง ์์ ์ด์ ์ด bias๊ฐ ํฐ ๋ฌธ์ ๊ฐ ๋์ง ์์ง๋ง
๋ณธ ์ ์๋ Deep Learning ์ฆ, ๋ง์ parameter๋ฅผ ๊ฐ๋ ๋ชจ๋ธ์ ์ด์ ์ ๋์๊ธฐ์
ML๊ณผ ๊ด๋ จ๋ bias๋ฌธ์ ๋ ๋ณด๋ค ์ฌ๊ฐํ๋ค.(Overfitting๋ฌธ์ ์ ๋ฐ์ ํ ๊ด๋ จ์ฑ์ ๊ฐ์ง.)
3.4 Linear Regression
Linear Regression์์ Error function๊ณผ Regularization์ ๋ํด ์์๋ณด์.
Regression์ ๋ชฉํ:
input x์ ๋ํ target t์ ์์ธก์ ๊ฐ๋ฅ์ผ ํ๋ ๊ฒ.
[๊ฐ์ ]:
training data= input x = (x1, ..., xN) & target t = (t1, ..., tN)
x๊ฐ ์ฃผ์ด์ง ๋, t์ ๋ถํ์ค์ฑ์ ํ๋ฅ ๋ถํฌ๋ก ๋ํ๋ด๊ณ ์ ํจ.
์ด๋, data๋ i.i.d
์ด๋ฅผ ์ํด ์ฃผ์ด์ง x์ ๋ํ t์ ๊ฐ์ด y(x, w) ๊ฐ๊ณผ ๋์ผํ ํ๊ท μ์ ๋ถ์ฐ σ2์ ๊ฐ๋ Gaussian ๋ถํฌ๋ฅผ ๊ฐ์ง:ํ๊ท ์ ๋คํญ์ํจ์ y๋ก ์ฃผ์ด์ง๊ณ , ๋ถ์ฐ์ p์ ๋ถ์ฐ์ผ๋ก ์ฃผ์ด์ง๋ค. train data {x, t}๋ฅผ ์ฌ์ฉํด ML๋ก ์ ์ ์๋ ๋งค๊ฐ๋ณ์ w์ σ2์ ๊ฐ์ ๊ฒฐ์ ํ์.
i.i.d์ด๋ฏ๋ก ML๋ฐฉ๋ฒ์ ํตํด w๋ฅผ ๊ฒฐ์ ํ ์ ์๋ค.
์ ๋์์ ๋ถํฌ์ i.i.d๋ก data์ถ์ถ๋์๋ค ๊ฐ์ ์ likelihoodํจ์:
๊ฐ์ฐ์์ ๋ถํฌ์์ผ๋ก ML์ ์ํ์ Log-Likelihoodํจ์:wML: ๋คํญ์ ๊ณ์์ ๋ํ MLE๊ฐ์ผ๋ก ์ด ๊ฐ์ w์ ๋ํด ์์ ์์ ์ต๋ํํ์ฌ ๊ฒฐ์ ๋๋ฏ๋ก ๋ค์๊ณผ ๊ฐ์ trick์ ์ฌ์ฉํด๋ณด์.
โ ์์ ์์ ์ฐ๋ณ์์ ๋ง์ง๋ง ๋ ํญ์ ์๋ตํ ์ ์๋ค. (โต w์ ์์กดํ์ง ์๊ธฐ ๋๋ฌธ)
โก Log-Likelihood๋ฅผ ์์ ์์๊ณ์๋ก ์ค์ผ์ผ๋ง
(โต w์ ๋ํ ์ต๋๊ฐ์ ์์น๋ฅผ ๋ณ๊ฒฝํ์ง ์์ผ๋ฏ๋ก 1/2σ2 ๋์ 1/2๋ก ๊ณ์๋ฅผ ๋์ฒด)
โข MLE → NLL ์ต์ํ (= w ๊ฒฐ์ ์ MSE์ ๋์ผํ๊ฒ ๋จ)∴ Gaussian Noise Distribution์ ๊ฐ์ , MLE์ ๊ฒฐ๊ณผ๊ฐ MSE๋ก ๋ฐ๋์ด ๋ฒ๋ฆฐ ๊ฒ!
๋ํ, MLE๋ฅผ ์ด์ฉํด σ2๋ฅผ ๊ฒฐ์ ํ ์๋ ์๋๋ฐ, σ2์ ๋ํ ์ต๋ํ๋ ์๋์ ์๊ณผ ๊ฐ๋ค:ํ๊ท ์ ์ง๋ฐฐํ๋ ๋งค๊ฐ๋ณ์ ๋ฒกํฐ wML๋ฅผ ๋จผ์ ๊ฒฐ์ ํ๊ณ , ๊ฐ๋จํ ๊ฐ์ฐ์์ ๋ถํฌ์ ๊ฒฝ์ฐ์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ด๋ฅผ ์ฌ์ฉํด σML2์ ์ฐพ์ ์ ์๋ค.
w์ σ2 ๊ฒฐ์ ์ดํ, ์๋ ์๋ก์ด x๊ฐ์ ๋ํ ์์ธก๋ ๊ฐ๋ฅํ๋ฐ,
probabilistic๋ชจ๋ธ์ด ์๊ธฐ์ ์ด๋ฐ ์์ธก์ ๋จ์ํ point ์ถ์ ์ด ์๋,
t์ ๋ํ ํ๋ฅ ๋ถํฌ๋ก ํํ๋๋ฉฐ, ์ต๋ ์ฐ๋ ๋งค๊ฐ๋ณ์๋ฅผ ์ฐ์ธก ์์ชฝ์์ ๋์ ํ๋ฉด ์ฐ์ธก ์๋์์ ์ป๋๋ค:
4. Transformation of Densities
๋ณ์๊ฐ์ ๋น์ ํ๋ณํ
๋ณ์์ ๋น์ ํ๋ณํ์ ๋ํด ํ๋ฅ ๋ฐ๋๊ฐ ์ด๋ป๊ฒ ๋ณํ ๊น?
Chapter 18. Normalizing flow๋ผ๋ ์์ฑ๋ชจ๋ธํด๋์ค๋ฅผ ๋ค๋ฃฐ๋ ์ค์ํ ์ญํ .์ ์์ ๋ํ ํ๋ฅ ๋ฐ๋ px(x)๋ฅผ ์๊ฐํด๋ณด์. x→y๋ก ๋ณํํ ํจ์์
๋ํ, x=g(y)๋ฅผ ์ด์ฉํด ์๋ก์ด ๋ณ์ y์ ๋ํ ๋ฐ๋ py(y)๋ฅผ ์์ฑํ์.
๋งค์ฐ ์์๊ฐ δx์ ๋ํด (x, x+δx)๋ฒ์์์ ์๋ x=g(y)์ ๋ํด (y, y+δy)๋ฒ์๋ก ๋ณํ๋ ์ ์๋ค.
๋ฐ๋ผ์ px(x)δx โ py(y)δy๊ฐ ์ฑ๋ฆฝํ๋ค.
๋ํ, δx→0์ผ ๋, ์๋ ์์ ์ป๋๋ค.์ด๋, ์ ๋๊ฐ์ ์ด์ ๋ ๋ํจ์๊ฐ ์์๋๋ ๊ฒ์ ๋ฐฉ์ง. (๋ฐ๋๋ ํญ์ ์์์ด๊ธฐ ๋๋ฌธ.)
์ฆ, f๋ผ๋ ๋น์ ํํจ์, x→y๋ก ๋ณํ๋ ๋ณ์์ ํ๋ฅ ๋ฐ๋๊ฐ ์ด๋ป๊ฒ ๋ณํ๋์ง์ ๋ํด ์ค๋ช ํ๊ณ ์์.
์์์ ์ค๋ช ํ ๋ฐ๋๋ณํ๋ฐฉ๋ฒ์ ๋งค์ฐ ๊ฐ๋ ฅํ ์ ์๋ค.
๋ชจ๋ ๋ฐ๋ p(y)๋ ๋ชจ๋ ๊ณณ์์ 0์ด์๋ ๊ณ ์ ๋ ๋ฐ๋ q(x)๋ฅผ ์ป์ ์ ์๊ธฐ ๋๋ฌธ.
์ด๋, q(x)๋ x=f(y)์ธ ๋น์ ํ๋ณ์๋ณํ์ผ๋ก ์ป์ด์ง ๊ฐ.
ˆx์ด ๊ทน๊ฐ์ธ f(x)ํจ์์ ๋ํด ์ ์์์์ ์ ๋๊ฐ์ผ๋ก ์ธํด f'( ˆx)=0์ด ๋์ด๋ฒ๋ฆฐ๋ค.
์ฆ, ์๋์์ด ์ฑ๋ฆฝํ๋ค.์ฆ, ์ด๋ x์ y์ ๋ํ ๊ทน๊ฐ์ ์์น๊ฐ ˆx = g(ˆy)๋ก ๊ด๋ จ๋์ด ์์์ ์๋ฏธ. ๊ทน๊ฐ์์ g'( ˆy)≠0์ด๋ผ๋ฉด f'(g'( ˆy)) = 0์ด๋ค. (ํฉ์ฑํจ์ ์ฑ์ง.)
๊ทธ๋ ๊ธฐ์ ์๋ก๊ฐ์ mode(๊ทน๊ฐ)์ฐพ๊ธฐ๋ ์๋ก์๊ฒ ์์กดํ๊ฒ ๋ ๊ฒ.
(๋ค๋ง, ์๋ ์์ ๋ฅผ ๋ณด๋ฉด ์์ ํ ์๋ฒฝํ๊ฒ ์๋ก๊ฐ์ mode๋ฅผ ์ฐพ์ ์ ์๋ ๋๋์ ์๋๋ฏ.)
Ex) ์๋ ๊ทธ๋ฆผ์ผ๋ก ์ค๋ช ์ ์ถ๊ฐํด๋ณด์.๋นจ๊ฐ๊ณก์ : x์ ๋ํ ์ ๊ท๋ถํฌ px(x)
์ด ๋ถํฌ์์ N=5๋ง๊ฐ ์ ์ถ์ถ, histogram์ ๊ทธ๋ฆผ.
→ px(x)์ ๊ฑฐ์ ์ผ์นํ ๊ฒ.
x→y๋ก์ ๋น์ ํ๋ณ์๋ณํ์ ๊ณ ๋ คํด๋ณด์.
x = g(y) = ln(y)-ln(1-y)+5
์ด ํจ์์ ์ญํจ์๋ Sigmoidํจ์๋ก ํ๋๊ณก์ ์ด๋ค.
px(g(y)): ๋ง์ฝ ๋จ์ํ px(x)๋ฅผ x์ ํจ์๋ก ๋ณํํ๋ค๋ฉด ์ป๋ ๋ถํฌ, ๊ณก์ ์ mode๊ฐ ๋ณํ๋ ๊ฒ์ ํ์ธ๊ฐ๋ฅ.
๋ค๋ง, y์ ๋ํ ๋ฐ๋๋ ์ข์ธก ์์ ์ํด ๋ณํ๋๊ธฐ์
์ข์ธก์ ํํฌ ๊ณก์ (right-skewed)์ผ๋ก ๋ํ๋๋ค.
์ด์ ๋ํ ์ ํํ ์ธก์ ์ 5๋ง๊ฐ์ sample์ ์ด์ฉํด ๋ณํ ํ histogram์ผ๋ก ํ์ธ๊ฐ๋ฅํ๋ฐ, ์ด๋ก์๊ณก์ ๊ณผ๋ ์ผ์นํ์ง ์์์ ์ ์ ์๋ค.
4.1 ๋ค๋ณ๋ ๋ถํฌ with Jacobian Matrix
์ข์ธก ์์ ๊ฒฐ๊ณผ๋ฅผ D์ฐจ์ ๋ณ์์ ๋ํด ์ ์๋ ๋ฐ๋์ ํ์ฅํด๋ณด์.
์ฆ, ๋จ๋ณ๋์ ๋น์ ํ๋ณ์๋ณํ→๋ค๋ณ๋์ ์ ์ฉ
[๊ฐ์ ]
D์ฐจ์ ๋ณ์ x = (x1, . . . , xD)T์ ๋ํ ๋ฐ๋ p(x)๋ฅผ ์๋ก์ด ๋ณ์ y = (y1,...,yD)T๋ก ๋ณํํ๋ค ๊ฐ์ .
์ด๋, x์ y๋ ๋์ผํ ์ฐจ์์ ๊ฐ์ง๋ค๊ณ ๊ฐ์ .
๋ณํ๋ ๋ฐ๋๋ ์ ์์ฒ๋ผ ์ผ๋ฐํ๋ ํํ๋ก ํํ: py(y) = px(x) |det J|
(J๋ ์์ฝ๋น์ ํ๋ ฌ(Jacobian matrix)์ด๋ฉฐ, ๊ทธ ์์๋ค์ Jij = ∂gi/∂yj์ฒ๋ผ ํธ๋ฏธ๋ถ์ผ๋ก ์ฃผ์ด์ง๋ค.)
J๋ ๊ณต๊ฐ์ ์ผ๋ถ๋ฅผ ํ์ฅํ๊ณ ๋ค๋ฅธ ๋ถ๋ถ์ ์์ถํ๋ ๊ฒ์ผ๋ก ์ง๊ด์ ์ผ๋ก ์ดํด๊ฐ๋ฅํ๋ค.x ์ฃผ๋ณ์ ๋ฌดํ์ ์์ญ โx๊ฐ ์ x๋ฅผ ์ค์ฌ์ผ๋ก y = g(x) ์ฃผ๋ณ์ ์์ญ โy๋ก ๋ณํ๋๋ค ๋ณผ ์ ์๋ค.
์ Jํ๋ ฌ์์ ์์ญ โx์ ํ๋ฅ ์ง๋์ด ์์ญ โy์ ํ๋ฅ ์ง๋๊ณผ ๋์ผํ๋ค๋ ์ฌ์ค๋ก๋ถํฐ ๋์ถ๋๋ค.์ด๋, x→y๋ก์ ๋ณํ์ ์๋ ์์ ์ํด ์ฃผ์ด์ง๋ค. x์ 2์ฐจ์ ๊ฐ์ฐ์์ ๋ถํฌ์ ๋ณ์ ๋ณํ์ ์ ์ฉ, y๋ก ๋ณํํ ๊ทธ๋ฆผ. x, y๊ฐ ๋ค๋ณ๋๋ถํฌ์ผ ๋, ๋น์ ํ๋ณํ์ ์ ์ฉํ๋ ค๋ฉด
Jacobian Matrix๋ฅผ ์ฌ์ฉ (py(y) = px(x) |det J|).
์ถ๊ฐ์ ์ผ๋ก ๋ฌดํ์์์ญ ์ด์ฉ๊ตฌ ์ ์ฉ๊ตฌ ๋ง์ด ๋ง์๋ฐ ๋จ๋ณ๋๊ณผ ์ ์ฌํ๋ค ๋ณด์ฌ์ง.
ํด๋น ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด y์ ์ฃผ๋ณ๋ถํฌ๋ก ๋จ์ด์ง๋๋ฐ ์ด๋ฅผ ๊ณต๊ฐ์์ผ๋ก ํ์ฅํ๊ฒ์ด๋ ์ง๋ฐฐ์์.
์ฆ, ์ฃผ๋ณ "์์ญ"์ผ๋ก ๋ณํ ๋๋ค๋ ๊ฒ์ ์๋ฏธ. (์์ ํ ๋ณํ๋๋ ๊ฒ์ ์๋ฏธํ์ง ์์์ ์ ์ฌ์ง์์ y์ ๋ถํฌ๊ฐ ์ ํํ๊ฒ ์ํ์ด ์๋ ๋ง์น ํ์ฑ์ฒ๋ผ ์ฃผ๋ณ์ ๋ถํฌ๊ฐ ์กด์ฌํ๋ ๊ฒ์ผ๋ก ์ ์ ์์)
cf) J์ ์ญํ : ๊ณต๊ฐ์ ์ผ๋ถ๋ฅผ ํ์ฅํ๊ณ ๋ค๋ฅธ ๋ถ๋ถ์ ์์ถํ๋ ๊ฒ
(= ํด๋น ๋ณ์์ ๋ณํ๋์ด ๋ค๋ฅธ ๋ณ์์ ์ผ๋ง๋ ์ํฅ์ ์ฃผ๋์ง๋ฅผ ์๋ฏธ;
์ด๋ฅผ ๋ชจ๋ ์์ญ์ ๋ํด ๊ณ ๋ คํ๋ฉด ์ ์ฒด ๊ณต๊ฐ์ด ์ด๋ป๊ฒ ๋ณํํ๋์ง ์ ์ ์์)
cf) ์ฌ์ค ๋จ๋ณ๋์ผ๋๋ ๋ฏธ๋ถ ํ ํจ์์ mode๋ฅผ ๋ดค๋ ๊ฒ์ ๋ณด๋ฉด, ํธ๋ฏธ๋ถ์ ์งํฉ์ฒด๋ฅผ ํ๋ ฌ์์ผ๋ก ๋ง๋ Jacobian์ ๊ฒฝ์ฐ, ๊ทธ๋ฅ ์ฐจ์์ ๋๋ ธ๋ค๋ผ๊ณ ์๊ฐํ๋ฉด ํธํ ๊ฒ ๊ฐ๋ค.
5. Information Theory: Dataset์ ํฌํจ๋ ์ ๋ณด๋ฅผ ์ธก์
5.1 Entropy
๋จผ์ discrete random๋ณ์ x์ ๋ํด ์ด ๋ณ์์ ํน์ ๊ฐ์ ๊ด์ฐฐ ์ ์ป๋ ์ ๋ณด๋์ ์์๋ณด์.
์ ๋ณด๋ = x๊ฐ์ ์์์ ๋์ '๋๋์ ์ ๋'
๋ง์ฝ ์ฐ๋ฆฌ์๊ฒ ๋งค์ฐ ๋๋ฌผ๊ฒ ๋ฐ์ํ ์ฌ๊ฑด์ด ๋ฐ์ํ๋ค๊ณ ์๋ ค์ง๋ค๋ฉด, ๋งค์ฐ ๊ฐ๋ฅ์ฑ์ด ๋์ ์ด๋ค ์ฌ๊ฑด์ด ๋ฐ์ํ๋ค๊ณ ์๋ ค์ง ๊ฒ๋ณด๋ค ๋ ๋ง์ ์ ๋ณด๋ฅผ ๋ฐ๊ฒ ๋ ๊ฒ์ด๋ฉฐ, ๊ทธ ์ฌ๊ฑด์ด ๋ฐ๋์ ์ผ์ด๋ ๊ฒ์ด๋ผ๊ณ ์๊ณ ์๋ค๋ฉด ์ฐ๋ฆฌ๋ ์ด๋ ํ ์ ๋ณด๋ ๋ฐ์ง ์์ ๊ฒ์ด๊ธฐ ๋๋ฌธ.
์ ๋ณด๋ด์ฉ์ ์ธก์ ์ ํ๋ฅ ๋ถํฌ p(x)์ ์์กด, ๋ฐ๋ผ์ h(x)๋ฅผ ์ฐพ๋๊ฒ์ด ๋ชฉํ.
h(x): p(x)์ ๋จ์กฐ ํจ์์ธ ์ ๋ณด ๋ด์ฉ์ ๋ํ๋ด๋ ์
๐ค h(x, y) = h(x) + h(y)์ธ ์ด์
h(·)์ ํํ: ๋ ๋ ๋ฆฝ์ฌ๊ฑด x,y์ ๋ํด ์๋ ์ฑ์ง์ ๋ง์กฑ.
ํจ๊ป ๊ด์ฐฐํจ์ผ๋ก์จ ์ป๋ ์ ๋ณด = ๊ฐ๊ฐ ๋ฐ๋ก ๊ด์ฐฐํ ์ ๋ณด์ ํฉ
๋ํ, p(x, y) = p(x)p(y)๋ฅผ ๋ง์กฑํ๋ค.
[์ ๋ฆฌ]: ๋ ๋ ๋ฆฝ์ฌ๊ฑด x,y์ ๋ํด ์๋๊ฐ ์ฑ๋ฆฝ.
โ h(x,y) = h(x) + h(y)
โ p(x,y) = p(x)p(y)
h๋ p์ ์ ๋ณด๋์ด๊ธฐ์ ์ ์์ด ๋ง์กฑํ๋ ค๋ฉด h๋ log๋ก ์ฃผ์ด์ ธ์ผํ๋ค.
∴ h(x) = -log2p(x)๋ก ์ฃผ์ด์ง๋ค. (์ด๋, - ๋ ์ ๋ณด๊ฐ ์์or0์ด ๋๋๋ก ๋ณด์ฅ.)
๋ฎ์ํ๋ฅ ์ ์ฌ๊ฑด x = ๋์์ ๋ณด์ด๋ฉฐ, ์ด๋ log ๋ฐ์ ์์๋ก ์ ํ๊ฐ๋ฅ.
์ ๋ณด๋ก : log2๊ฐ ๊ด๋ก์ , ์ด๋ ๊ณง h(x)์ ๋จ์๊ฐ bit('binary digits')์์ ์๋ฏธ.
๐ค H[x] : x์ entropy (ํ๊ท ์ ๋ณด๋ ์ฆ, p(x)์ ๊ธฐ๋๊ฐ)
์ด์ ๋ฐ์ ์๊ฐ ๋๋ค ๋ณ์ ๊ฐ์ ์์ ์์๊ฒ ์ ์กํ๋ค ๊ฐ์ ํ์.
์ด ๊ณผ์ ์์ ์ ์ก๋๋ ํ๊ท ์ ๋ณด์ ์ = ๋ถํฌ p(x)์ ๋ํ ๊ธฐ๋๊ฐ.
์ด๋ฅผ H[x]๋ก ๋ํ๋ด๋ฉฐ, ์ด ์ค์ํ ์์ random ๋ณ์ x์ "entropy"๋ผ ํ๋ค.H[x]๋ random variable x์ Entropy H[x]๋ x์ entropy๋ก ํ๊ท ์ ๋ณด๋ ์ฆ, p(x)์ ๊ธฐ๋๊ฐ์ ์๋ฏธ
= state x์ ํ๊ท ์ ๋ณด๋
= p(x)์ ๊ธฐ๋๊ฐ ์ ์๋ฏธ.
cf) limε→0(ε ln ε) = 0์ด๋ฏ๋ก, p(x) = 0์ธ ์ด๋ค x์ ๊ฐ์ ๋ํด p(x)lnp(x) = 0 ์ด ์ฑ๋ฆฝํ๋ค.
Example)
8๊ฐ์ง ๊ฐ๋ฅํ ์ํ๋ฅผ ๊ฐ๋ random๋ณ์ x์ ๋ํด ์ด ๋ณ์์ entropy๊ฐ ์๋์ ๊ฐ์ ๋,
(์ด๋, ๊ฐ ์ํ๋ ๋์ผํ ํ๋ฅ ๋ก ๋ฐ์.)
์ด์ 8๊ฐ์ ์ํ๋ฅผ ๊ฐ๋ ๋ณ์: {a, b, c, d, e, f, g, h}์ ๋ํด
๊ฐ ํ๋ฅ ์ด (1/2, 1/4, ,1/8, 1/16, 1/64, 1/64, 1/64, 1/64)๋ก ์ฃผ์ด์ง๋ค ํ์.
์ด ๊ฒฝ์ฐ์ entropy๋ ๋ค์๊ณผ ๊ฐ์ด ์ฃผ์ด์ง๋ค:
๋น๊ท ์ผ๋ถํฌ๋ ๊ท ์ผ๋ถํฌ๋ณด๋ค ๋ ์์ entropy๋ฅผ ๊ฐ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
(๋ฌผ๋ฆฌ์ ํํ์ด์ญํ์ ๋งฅ๋ฝ์์ entropy๋์ ๋ํ ๋ฌด์ง์๋ ๊ด์ ์ด๊ธฐ ๋๋ฌธ.)
๋จผ์ , ๋ณ์์ํ๋ฅผ ์์ ์์๊ฒ ์ ์กํ๋ ์์ ์ ๋ํด ์๊ฐํด๋ณด์. ์ ์ฒ๋ผ 3-bits์ซ์๋ฅผ ์ฌ์ฉํด ์ด๋ฅผ ํ ์ ์๋ค.
๋ถ๊ท ์ผํ ๋ถํฌ๋ฅผ ํ์ฉํด ๋ ๊ฐ๋ฅ์ฑ์ด ๋์ ์ฌ๊ฑด์ ๋ํด ๋ ์งง์ ์ฝ๋๋ฅผ ์ฌ์ฉํ๊ณ ,
๊ทธ์ ๋ฐ๋ฅธ ์ ์ ๊ฐ๋ฅ์ฑ์ ์ฌ๊ฑด์ ๋ํด ๋ ๊ธด ์ฝ๋๋ฅผ ์ฌ์ฉํด ํ๊ท ์ฝ๋ ๊ธธ์ด๋ฅผ ์ค์ด๋ ค๊ณ ํ ๋,
(์ฝ๊ฐ JPEG๋๋์ธ๋ฏ?)
์ด๋ฅผ ์ํด {a, b, c, d, e, f, g, h} ์ํ๋ฅผ ๋ค์๊ณผ ๊ฐ์ ์ฝ๋ ๋ฌธ์์ด ์งํฉ์ ์ฌ์ฉํ์ฌ ๋ํ๋ผ ์ ์๋ค:
0, 10, 110, 1110, 111100, 111101, 111110, 111111.
์ด์ ๋ํด ์ ์กํด์ผ ํ๋ ์ฝ๋์ ํ๊ท ๊ธธ์ด๋ ์๋์ ๊ฐ์๋ฐ, ์ด๋ random ๋ณ์์ entropy์ ๋์ผํ๋ค.๋ ์งง์ ์ฝ๋ ๋ฌธ์์ด์ ์ฌ์ฉํ ์ ์๋ ์ด์ : ์ด๋ฐ ๋ฌธ์์ด์ ์ฐ๊ฒฐ์ ํด๋น ๊ตฌ์ฑ ์์๋ก ๋ช ํํ ๊ตฌ๋ถํ ์ ์์ด์ผ ํ๊ธฐ ๋๋ฌธ.
ex) 11001110์ c, a, d ์ํ ์์ด๋ก ๊ณ ์ ํ๊ฒ ํด์๋จ. entropy์ ๊ฐ์ฅ ์งง์ ์ธ์ฝ๋ฉ ๊ธธ์ด ๊ฐ์ ๊ด๊ณ๋ ์ผ๋ฐ์ ์ธ ๊ฒ.
noiseless coding theorem(Shannon, 1948)์ entropy๊ฐ random๋ณ์์ ์ํ๋ฅผ ์ ์กํ๋ ๋ฐ ํ์ํ ๋นํธ ์์ ํํ๊ฐ์์ ๋ช ์.
cf) ๋ณธ ์ฑ ์ ๋ค๋ฅธ ๊ณณ์ ์์ด๋์ด์ ๋ ํธ๋ฆฌํ๊ฒ ์ฐ๊ฒฐ๋๋๋ก entropy์ ์ ์ ์์ฐ๋ก๊ทธ ln์ ์ฌ์ฉ.
์ด ๊ฒฝ์ฐ, ์ํธ๋กํผ๋ ๋นํธ ๋์ ๋ค์ดํธ(nats, '์์ฐ๋ก๊ทธ') ๋จ์๋ก ์ธก์ .
์ด ๋ ๋จ์๋ ๋จ์ํ ln 2์ ๋ฐฐ์๋ก ์ฐจ์ด๊ฐ ์์ต๋๋ค.
5.2 ๋ฌผ๋ฆฌํ๊ด์ ์์
ex) entropy์ ๋ํ ์ถ๊ฐ์ ์ธ ์๊ฐํ๋ณด๋ฅผ ์ํ ์์
i๋ฒ์งธ ๋ฐ๊ตฌ๋๋ง๋ค ์๋ก ๊ฐ์ ni๊ฐ์ ๋ฌผ์ฒด๊ฐ ๊ฐ๊ฐ ๋ค์ด์๋ ์๋ก๋ค๋ฅธ ์ด N๊ฐ์ ๋ฐ๊ตฌ๋์ ๋ํด
"๋ฌผ์ฒด๋ฅผ ๋ฐ๊ตฌ๋์ ํ ๋นํ๋ ๋ฐฉ๋ฒ์ ๊ฒฝ์ฐ์ ์๋ฅผ ๊ณ ๋ คํด๋ณด์."
N๊ฐ์ ๋ฌผ์ฒด๋ฅผ ๋ฐ๊ตฌ๋์ ํ ๋นํ๋ ๋ฐฉ๋ฒ์ ์ด ์๋ N!์ด๋ค.
์ฆ, i๋ฒ์งธ ๋ฐ๊ตฌ๋์๋ ni!์ ๋ฐฉ๋ฒ์ผ๋ก ๋ฌผ์ฒด๋ฅผ ์ฌ๋ฐฐ์นํ ์ ์๋ค.
(๋ฐ๊ตฌ๋ ๋ด์ ๊ตฌ๋ณX)
∴ N๊ฐ์ ๋ฌผ์ฒด๋ฅผ ๋ฐ๊ตฌ๋์ ํ ๋นํ๋ ๋ฐฉ๋ฒ์ ์ด ์: ์ด๋ฅผ multiplicity๋ผ ๋ถ๋ฅธ๋ค.์ด๋, Entropy(H)๋ ๋ค์์ฑ(W)์ ๋ก๊ทธ์ 1/N(์ ๊ทํ ์์)๋ฅผ ๊ณฑํ๊ฒ์ผ๋ก ์ ์๋๋ค: ์ด์ N → ∞์ ํ๊ณ๋ฅผ ๊ณ ๋ คํ๋ฉฐ ni/N์ ๋ถ์๋ฅผ ๊ณ ์ ์ํค๊ณ ์คํธ๋ง ๊ทผ์ฌ๋ฅผ ์ ์ฉํด ๋ณด๋ฉด, ์ด๋ฉฐ, ์ด๋ฅผ ์ํธ๋กํผ ๋ฐฉ์ ์์ ๋์ ํ๋ฉด ์๋์ ๊ฐ๋ค. N์ด ๋ฌดํ๋๋ก ์ ๊ทผํจ์ ๋ฐ๋ผ lnNํญ์ด ์ฐ์ธํด์ง๊ณ , ํ๊ณ๊ฐ์ -∞์ด ๋๋ค.
๋ฐ๋ผ์ ๋ฌผ์ฒด์ ์๊ฐ ์ฆ๊ฐํจ
= ๋ฌผ์ฒด์ ๋ํ ๋ฌด์ง์๋ ์ฆ๊ฐ
= ๋ฌผ์ฒด์ ๋ํ ๊ตฌ์ฒด์ ์ธ ๋ฐฐ์ด์ ๋ํ ์ ๋ณด ๋ถ์กฑ์ด ์ฆ๊ฐ.
์ด๋, pi = limN→∞(ni/N)๋ i๋ฒ์งธ ๋ฐ๊ตฌ๋์ ๋ฌผ์ฒด๊ฐ ํ ๋น๋ ํ๋ฅ ์ด๋ค.
[Macro์ Micro] - in physics
๋ฌผ์ฒด๋ฅผ ๋ฐ๊ตฌ๋์ ํ ๋นํ๋ ํน์ ๋ฐฉ๋ฒ์ ๋ฏธํฌ๋ก์ํ(micro state)๋ผ๊ณ ํ๋ฉฐ,
ni/N์ ๋น์จ์ ํตํด ํํ๋ ์ ์ฒด์ ์ธ ๋ฐฐ์น๋ ๋งคํฌ๋ก์ํ(macro state)๋ผ๊ณ ํ๋ค.
๋งคํฌ๋ก์ํ์์์ ๋ฏธํฌ๋ก์ํ์ ์๋ฅผ ๋ํ๋ด๋ ๋ค์์ฑ W์ macro์ ๊ฐ์ค์น(weight)๋ก๋ ์๋ ค์ ธ ์๋ค.
๋ฐ๊ตฌ๋๋ฅผ ์ด์ฐํ ํ๋ฅ ๋ณ์ X์ ์ํ xi๋ก ํด์ํด๋ณด๋ฉด, p(X = xi) = pi์ด๋ค.
์ด๋, ํ๋ฅ ๋ณ์ X์ entropy๋ ์๋์ ๊ฐ๋ค.๋ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ํ๋ด๋ 30๊ฐ์ ๋ฐ๊ตฌ๋์ ๋ํ ํ์คํ ๊ทธ๋จ์ผ๋ก ์ํธ๋กํผ H์ ๋ ๋์ ๊ฐ์ ๋ณด์ฌ์ฃผ๋๋ฐ, ๊ฐ์ฅ ํฐ ์ํธ๋กํผ๋ ๊ท ์ผํ ๋ถํฌ์์ ๋ํ๋ ๊ฒ์ด๋ฉฐ, ์ด๋ H=−lnโก(1/30)=3.40H=−ln(1/30)=3.40 ์ด ๋ ๊ฒ์ด๋ค.
์ ๊ทธ๋ฆผ์์ ์ ์ ์๋ฏ, ๋ช ๊ฐ์ ๊ฐ ์ฃผ๋ณ์ ๋ ์นด๋กญ๊ฒ ํผํฌํ ๋ถํฌ p(xi)๋ ์๋์ ์ผ๋ก ๋ฎ์ ์ํธ๋กํผ๋ฅผ ๊ฐ์ง ๊ฒ์ด๊ณ ,
์ฌ๋ฌ ๊ฐ์ ๊ณ ๋ฅด๊ฒ ํผ์ ธ ์๋ ๋ถํฌ๋ ๋์ ์ํธ๋กํผ๋ฅผ ๊ฐ์ง ๊ฒ์ด๋ค.
0 ≤ pi ≤ 1์ด๋ฏ๋ก entropy๋ ์์ด ์๋๋ฉฐ, pi = 1์ด๊ณ pj≠i = 0์ธ ๊ฒฝ์ฐ์ ์ต์๊ฐ, 0์ด ๋๋ค.
[Lagrange์น์๋ก ์ต๋ํ: ์ด์ฐํ ๋ถํฌ]
Maximum Entropy๋ ํ๋ฅ ์ ๋ํ ์ ๊ทํ ์ ์ฝ์ ๊ฐ์ ํ๊ธฐ ์ํด Lagrange์น์๋ฅผ ์ฌ์ฉํ์ฌ H๋ฅผ ์ต๋ํํจ์ผ๋ก์จ ์ฐพ์ ์ ์๋๋ฐ, ์ด๋ ์๋์ ๊ฐ์ด ์ต๋ํํ๋ค.์ด๋, ๋ชจ๋ p(xi)๋ ๋์ผํ๊ณ p(xi) = 1/M์ด๋ฉฐ, ์ฌ๊ธฐ์ M์ ์ํ xi์ ์ด ์์ด๊ณ entropy์ ํด๋น ๊ฐ์ H = ln M์ด๋ค.
์ด ๊ฒฐ๊ณผ๋ ์ถํ ์งง๊ฒ ๋ ผ์๋๋ Jensen ๋ถ๋ฑ์์์๋ ์ ๋๋ ์ ์๋ค.
๋ํจ์๊ฐ 0์ด ๋๋ ์ง์ ์ด ์ค์ ๋ก ์ต๋๊ฐ์ธ์ง ํ์ธํ๊ธฐ ์ํด ์ํธ๋กํผ์ ์ด๊ณ๋ํจ์๋ฅผ ๊ตฌํ๋ฉด,์ฌ๊ธฐ์ Iij๋ ํญ๋ฑ ํ๋ ฌ์ ์์๋ก ์ด ๊ฐ๋ค์ด ๋ชจ๋ ์์์ด๋ฏ๋ก
๋ํจ์๊ฐ 0์ด ๋๋ ์ง์ ์ ์ค์ ๋ก๋ ์ต๋๊ฐ์์ ์ ์ ์๋ค.
5.3 Differential Entropy
entropy์ ์ ์๋ฅผ ์ ์ ํ์ฅํ๋ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ๊ณ ์๋ค.
์ ์๋ฅผ ํ์ฅ์์ผ continuous๋ณ์ x์ ๋ํ ํ๋ฅ ๋ถํฌ p(x)๋ฅผ ํฌํจ์์ผ๋ณด์.
๋จผ์ x๋ฅผ ํญ์ด โ์ธ ๊ตฌ๊ฐ์ผ๋ก ๋๋ ํ, p(x)๊ฐ ์ฐ์์ ์ผ ๋ ํ๊ท ๊ฐ์ ๋ฆฌ์ ๋ฐ๋ผ
๊ฐ ๊ตฌ๊ฐ iโ ≤ xi ≤ (i+1)โ ๋ฒ์์์ xi๊ฐ ์กด์ฌํด์ผ ํ๋ค.์ด์ ์ฐ์๋ณ์ x๋ฅผ ์์ํํ์ฌ x๊ฐ i๋ฒ์งธ ๊ตฌ๊ฐ์ ์ํ ๋ ์ด๋ค ๊ฐ x๋ฅผ ๊ฐ xi์ ํ ๋นํ๋ค ํ์.
์ด๋ฅผ ํตํด ๊ฐ xi๋ฅผ ๊ด์ธกํ ํ๋ฅ ์ p(xi)โ์ด๋ฏ๋ก entropy๋ ์๋์ ๊ฐ์ ์ด์ฐํ ๋ถํฌ๋ฅผ ์ป๋๋ค:์ฌ๊ธฐ์ ∑ip(xi)โ = 1๋ ํ๊ท ๊ฐ์ ๋ฆฌ์ ํ๋ฅ ๋ฐ๋ํจ์์ AUC=1์์ ๋์ถ๋ ๊ฒ์ด๋ค.
์ ์์ ๋ ๋ฒ์งธ ํญ์ธ - ln โ๋ฅผ ์๋ต (โต์ด ํญ์ p(x)์ ๋ ๋ฆฝ์ )
์ด์ limโ → 0์ ๊ณ ๋ คํด ๋ณด๋ฉด ์ ์์ ์ฒซํญ์ ์ด lim์์ p(x) ln p(x)์ ์ ๋ถ์ ๊ทผ์ ํ๋ค.์ด ๋ ์ฐ์ธก ํญ์ ์๋ ์์ ๋ฏธ๋ถ ์ํธ๋กํผ(Differential Entropy)๋ผ ํ๋ค.
๐ค ์ด์ฐโ์ฐ์ํ entropy์ฐจ์ด๊ฐ ๋ฐ์์ด์ ?
์ด์ฐํ๊ณผ ์ฐ์ํ ์ํธ๋กํผ ํํ์ ์ฐจ์ด๋ ln โ๋ผ๋ ์์ ์ํด ๋ฐ์
์ด๋ limโ → 0์์ ๋ฐ์ฐํ๋๋ฐ, ์ด๋ ์ฐ์ ๋ณ์๋ฅผ ๋งค์ฐ ์ ๋ฐํ๊ฒ ์ง์ ํ๋ ๋ฐ๋ ๋ง์ bit๊ฐ ํ์ํจ์ ๋๋ณํ๋ค.
์ฌ๋ฌ ์ฐ์ ๋ณ์์ ๋ํ ๋ฐ๋๋ฅผ ์ ์ํ๋ ๊ฒฝ์ฐ, ์ด๋ฅผ ๋ฒกํฐ x๋ก ํ๊ธฐํ๋ฉด ๋ฏธ๋ถ ์ํธ๋กํผ๋ ์๋์ ๊ฐ๋ค.
5.4 Maximum Entropy
[Lagrange์น์๋ก ์ต๋ํ: ์ฐ์ํ ๋ถํฌ]
์ต๋ ์ํธ๋กํผ๊ฐ ๋ช ํํ๊ฒ ์ ์๋๊ธฐ ์ํด์๋ p(x)์ 1,2๋ฒ์งธ ๋ชจ๋ฉํธ, ์ฆ ํ๊ท ๊ณผ ๋ถ์ฐ๊ฐ์ ์ ํํ๊ณ ์ ๊ทํ ์ ์ฝ์ ์ ์งํด์ผ ํ๋ฏ๋ก
์๋ 3๊ฐ์ง ์ ์ฝ์กฐ๊ฑด์ผ๋ก Differential Entropy๋ฅผ ์ต๋ํํ๋ค.
Lagrange ์น์๋ฅผ ์ฌ์ฉํด ์๋ ํจ์๋ฅผ p(x)์ ๋ํด ์ ํ๋ ์ต๋ํ๋ฅผ ์ํ:์ด์ ๋ณ๋ถ๋ฒ์ผ๋ก ์ด ํจ์์ ๋ํจ์๋ฅผ 0์ผ๋ก ์ค์ ํ๋ฉด:
(๋ณ๋ถ๋ฒ: ๋ฒํจ์์ ์ต๋/์ต์๋ฅผ ๋ค๋ฃจ๋ ๋ฐฉ๋ฒ.)์ด ๋ Lagrange ์น์๋ ์ด ๊ฒฐ๊ณผ๋ฅผ ์ธ ์ ์ฝ ์กฐ๊ฑด ๋ฐฉ์ ์์ ์ญ๋์ ํ์ฌ ์ฐพ์ ์ ์์ผ๋ฉฐ, ์ต์ข ๊ฒฐ๊ณผ๋ ์๋์ ๊ฐ๋ค: ์ฆ, ๋ฏธ๋ถ ์ํธ๋กํผ๋ฅผ ์ต๋ํํ๋ ์ฐ์ํ๋ฅ ๋ณ์๋ถํฌ๋ Guassian Distribution์์ ์ ์ ์๋ค.
๋ง์ฝ ๊ฐ์ฐ์์์ ๋ฏธ๋ถ ์ํธ๋กํผ๋ฅผ ํ๊ฐํ๋ฉด ์์ ๊ฐ์๋ฐ, ์ด๋ ๋ถํฌ ํญ์ด ์ฆ๊ฐํ๋ฉด, entropy ๋ํ ์ฆ๊ฐํจ์ ๋ณผ ์ ์๋ฐ.
๋ํ, ์ด๋ ์ด์ฐ entropy์ ๋ฌ๋ฆฌ ๋ฏธ๋ถ entropy๊ฐ์ด ์์์ผ ์ ์์์ ๋ณด์ฌ์ค๋ค.
(โต σ2 < 1/(2πe) ์ผ ๋, H[x] < 0 )
5.5 KL Divergence๐
์์ ๋งํ entropy์ ํต์ฌ ๊ฐ๋ ๋ค์ ๊ธฐ๊ณ ํ์ต๊ณผ ์ฐ๊ด์ง์ด๋ณด์!
๋ชจ๋ฅด๋ ๋ถํฌ p(x)์ ๊ทผ์ฌ๋ถํฌ q(x)์ ๋ํด q(x)๋ฅผ ์ฌ์ฉํ์ฌ x์ ๊ฐ์ ์์ ์์๊ฒ ์ ์กํ๊ธฐ ์ํ ์ฝ๋ฉ ์ฒด๊ณ๋ฅผ ๊ตฌ์ถํ๋ค ๊ฐ์ ํ์.
q(x)๋ฅผ ์ฌ์ฉํ๋ฉด ์ค์ ๋ถํฌ p(x) ๋์ x์ ๊ฐ์ ์ง์ ํ๋ ๋ฐ ํ์ํ ํ๊ท ์ถ๊ฐ ์ ๋ณด๋(๋จ์: nats)์ ์๋์ ๊ฐ๋ค:
[KL-Divergence]:
๋ถํฌ p(x)์ q(x) ๊ฐ์ ์๋ ์ํธ๋กํผ(relative entropy)
(๋จ, ์๋ฐฉํฅ์ ์ธ ์์ด ์๋๊ธฐ์, KL(pโฅq) ≠ KL(qโฅp)์์ ์ฃผ์)
KL(pโฅq) ≥ 0 ๋ฅผ ๋ง์กฑํ๋ค. (๋จ, ๋ฑํธ๋ p(x) = q(x)์ผ ๋ ์ฑ๋ฆฝ.)
[KL(pโฅq) ≥ 0 ์ฆ๋ช ]
โ ๋ณผ๋กํจ์(convex)์ ๊ฐ๋ :
์๋ ๊ทธ๋ฆผ์ฒ๋ผ ํจ์ f(x)๋ ๋ชจ๋ chord๊ฐ ํจ์ ์์ ์๊ฑฐ๋ ์ผ์นํ ๋, ์ด๋ฅผ convex๋ผ ํ๋ค.
(a,b)์ฌ์ด ์์์ x๊ฐ์ λa + (1 − λ)b ํํ๋ก ์ฌ์ฉํ์.
chord์์ ํด๋น ์ง์ ์ λf(a) + (1 − λ)f(b)๋ก ์ฃผ์ด์ง๋ฉฐ
ํจ์์ ํด๋น ๊ฐ์ f(λa + (1 − λ)b)์ด๋ค.
์ด๋ f(λa + (1 − λ)b) ≤ λf(a) + (1 − λ)f(b)์์ ์๋ฏธํ๋ฏ๋ก
ํจ์์ ์ด๊ณ๋ํจ์๊ฐ ํญ์ ์์์์ ์๋ฏธํ๋ค.
[Jensen's Inequality]
๋ง์ฝ λi≥ 0์ด๊ณ ∑iλi=1 ์ผ ๋, ๋ชจ๋ ์ {xi}์ ๋ํด convex f(x)๋์ฆ๋ช ์ ์ํด ์๋๋ฅผ ๋ถ๋ฑ์์ ๋ง์กฑํจ์ ์ํ์ ๊ท๋ฉ๋ฒ(induction)์ผ๋ก ์ฆ๋ช ๊ฐ๋ฅํ๋ค: ์ด๋, ์์ ๊ฒฐ๊ณผ๋ฅผ Jensen's inequality, Jensen๋ถ๋ฑ์์ด๋ผ ํ๋ค.
cf) [Jensen's inequality์ ํ๋ฅ ๋ถํฌ]
โ λi๋ {xi}๋ฅผ ๊ฐ์ผ๋ก ๊ฐ๋ ์ด์ฐ ๋ณ์ x์ ๋ํ ํ๋ฅ ๋ถํฌ:โ ์ฐ์ ๋ณ์ x์ ๋ํ ํ๋ฅ ๋ถํฌ:
Jensen's inequality์ ์ฐ์ํ๋ฅ ๋ถํฌ์ KL-Divergence๋ฅผ ์ ์ฉํ๋ฉด ์๋์ ๊ฐ๋ค:
(์ด๋, -lnx๋ convex์ด๋ฏ๋ก ์ ๊ทํ ์กฐ๊ฑด ∫q(x) dx = 1๋ฅผ ํจ๊ป ์ฌ์ฉ.)
(๋ํ, ๋ฑํธ๋ x์ ๋ํด q(x)=p(x)์ผ๋๋ง ์ฑ๋ฆฝ.)
∴ KL-Divergence๋ ๋ ๋ถํฌ p(x)์ q(x)๊ฐ์ ๋น์ ์ฌ์ฑ์ ์ธก์
Data compression๊ณผ Density Estimation(์๋ ค์ง์ง ์์ ํ๋ฅ ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋งํ๋ ๋ฌธ์ ) ๊ฐ์ ๋ฐ์ ํ ๊ด๋ จ์ด ์์์ ์ ์ ์๋๋ฐ, ๊ฐ์ฅ ํจ์จ์ ์ธ ์์ถ์ ์ค์ ๋ถํฌ๋ฅผ ์ ๋ ์ป์ ์ ์๋ค.
์ค์ ๋ถํฌ์ ๋ค๋ฅธ ๋ถํฌ๋ฅผ ์ฌ์ฉํ๋ฉด ๋ฐ๋์ ๋ ํจ์จ์ ์ธ ์ฝ๋ฉ์ด ํ์์ ์ด ๋์ด๋น๋ ค
ํ๊ท ์ ์ผ๋ก ์ถ๊ฐ ์ ์กํด์ผ ํ ์ ๋ณด๋ ์ต์ํ ๋ ๋ถํฌ ๊ฐ์ KL-Divergence์ ๋์ผํ๋ค.
[Negative Log-Likelihood]
6.4.2 Binary classification์ ์์ Softmax์ NLL์ ๊ด๊ณ์ ๋ํด ์์ธํ ๋ค๋ฃธ.
Data: ์๋ ค์ง์ง ์์ ๋ถํฌ p(x)์์ ์์ฑ
๋ชฉํ: ์ด ๋ถํฌ๋ฅผ ๋ชจ๋ธ๋ง
๋ฐฉ๋ฒ: ๋ช ๊ฐ์ ๋งค๊ฐ๋ณ์ θ๋ก ์ ์ด๋๋ ๊ทผ์ฌ ๋ถํฌ q(x|θ)๋ฅผ ์ฌ์ฉ.
(์ด๋, θ๋ p(x)์ q(x|θ) ๊ฐ์ KL-Divergence์ θ์ ๋ํด ์ต์ํํ์ฌ ๊ฒฐ์ .)
(โต p(x)๋ฅผ ๋ชจ๋ฅด๊ธฐ์ ์ง์ ์ ์ผ๋ก ์ด ์์ ์ ์ํํ ์๋ ์๊ธฐ ๋๋ฌธ.)
ex) p(x)์์ ๋ฝ์ ํ์ ๋ ์์ training point xn์ ๊ด์ฐฐ
์ดํ p(x)์ ๋ํ ๊ธฐ๋๊ฐ์ xn์ ์ฌ์ฉํ ์ ํํ ํฉ์ผ๋ก ๊ทผ์ฌ๋ ์ ์์:๐ ์ ์ ์ฐ์ธก์ ์ดํด๋ณด์.
1๋ฒ ํญ: trainset์ ์ฌ์ฉํด ํ๊ฐ๋ q(x|θ)์ ๋ถํฌ์ ๋ํ Negative Log-Likelihoodํจ์.(๋ณดํต ์ด๋ฅผ NLLLoss๋ผ ํจ)
2๋ฒ ํญ: θ์ ๋ ๋ฆฝ์ .
∴ ์ด KL-Divergence๋ฅผ ์ต์ํํ๋ ๊ฒ = NLL ์ต๋ํ
cf) Log-Likelihood
[cross-entropy์ NLL-Loss์ ๊ด๊ณ]
target๋ณ์ t๊ฐ ์์ ๋, (์ด๋ t = 1์ ํด๋์ค C1์ ๋ํ๋ด๊ณ t = 0์ ํด๋์ค C2๋ฅผ ๋ํ๋ด๋ ์ด์ง ๋ถ๋ฅ์ด๋ค.)
canonical linkํจ์(์์ฐ ํ๋ผ๋ฏธํฐ์ ํจ์์ ๋ถํฌ ํ๊ท ์ ํจ์:
๊ฐ์ฐ์์์กฑ์ ๋ํ canonical response function์ identify ํจ์,
๋ฒ ๋ฅด๋์ด ๋ถํฌ์ ๋ํ canonical response function์ logisticํจ์)
์ ์์ ๋ฐ๋ผ sigmoid activation function์ ๊ฐ๋ ๋จ์ผ์ถ๋ ฅ์ ๊ฒฝ๋ง์ ๊ณ ๋ คํ ๋, 0 ≤ y(x, w) ≤ 1 ์ด๋ค.
์ด๋, y(x, w)๋ฅผ ์กฐ๊ฑด๋ถ ํ๋ฅ p(C1|x)๋ก ํด์ํ ์ ์์ผ๋ฉฐ, p(C2|x) = 1 - y(x, w)๊ฐ ์ฑ๋ฆฝํ๋ค.
input์ ๋ํ ์กฐ๊ฑด๋ถ ๋ถํฌ๋ ์๋์ ๊ฐ์ Bernoulli Distribution์ด๋ค.์ 1. ๋ ๋ฆฝ์ ์ผ๋ก ๊ด์ฐฐํ trainset์ ๋ํด ์ค์ฐจํจ์๋ NLL๋ก ์ฃผ์ด์ง Cross-Entropy ํํ์ด๋ค:
์ด๋, yn์ y(xn, w)์ด๋ค.(Simard 2003)๋ Classification์์ MSE๋์ Cross-Entropy Loss๊ฐ ๋น ๋ฅธ ํ๋ จ๊ณผ ํฅ์๋ ์ผ๋ฐํ๋ฅผ ์ด๋์ด๋ธ๋ค ํ์๋ค.
์ 1.์ Noise ๋ถ์ฐ σ2๋ ๋ถ์ฐ์์ ์ด๊ธฐ์ (โต target์ label์ด ์ง์ ๋์ด ๋ถ๋ณ๊ฐ)
๊ทธ๋ฌ๋ ๋ชจ๋ธ์ t๊ฐ ์๋ชป๋ ๊ฐ์ผ๋ก ๋ค์งํ ํ๋ฅ ε๋ฅผ ๋์ , ๋ผ๋ฒจ๋ง ์ค๋ฅ๋ฅผ ํ์ฉํ๋๋ก ์ฝ๊ฒ ํ์ฅ๋ ์ ์๋ค(Opper and Winther, 2000).
K ๊ฐ์ ๋ณ๋ ์ด์ง ๋ถ๋ฅ๋ฅผ ์ํํด์ผ ํ๋ ๊ฒฝ์ฐ ๊ฐ๊ฐ์ logistic sigmoid activation function์ด ์๋ K ๊ฐ์ ์ถ๋ ฅ์ ๊ฐ์ง ์ ๊ฒฝ๋ง์ ๋ํด ๊ฐ ์ถ๋ ฅ์๋ k = 1, ..., K์ ํด๋นํ๋ ์ด์งํด๋์ค ๋ผ๋ฒจ tk๊ฐ ์๋คํ์.
ํด๋์ค ๋ผ๋ฒจ์ด ์ ๋ ฅ ๋ฒกํฐ๊ฐ ์ฃผ์ด์ง ๊ฒฝ์ฐ, ๋ ๋ฆฝ๊ฐ์ ์, ๋์์ ์กฐ๊ฑด๋ถ ๋ถํฌ:
ํด๋น Likelihoodํจ์์ Negative Log๋ฅผ ์์ฐ๋ฉด ์๋์ ๊ฐ๋ค.
์ด๋, ynk๋ yk(xn,w)๋ก
์ฆ, ํน์ output์ ๋ํ ์ค์ฐจํจ์์ pre-activation์ ๋ํ ๋ํจ์๋
Regression์ฒ๋ผ ์ข์ธก ํํ๋ฅผ ๊ฐ๊ธฐ ๋๋ฌธ์ด๋ค.
5.6 Conditional Entropy๐
์ด์ ๋ณ์ x์ y์ ๋ ์งํฉ ๊ฐ์ ๊ฒฐํฉ ๋ถํฌ p(x,y)๋ฅผ ๊ณ ๋ คํด๋ณด์. (๋ ๋ณ์๋ )
๋ง์ฝ x์ ๊ฐ์ ์๊ณ ์๋ค๋ฉด, ํด๋นํ๋ y๊ฐ์ ์ง์ ํ๊ธฐ ์ํ ์ถ๊ฐ์ ๋ณด๋์ -lnp(y|x)์ด๋ค.
๋ฐ๋ผ์ y์ง์ ์, ํ์ํ ํ๊ท ์ถ๊ฐ์ ๋ณด๋ ์๋์ ๊ฐ๋ค:์ด๋, ์ฃผ์ด์ง y๋ฅผ ์ฃผ์ด์ง x์ ์กฐ๊ฑด๋ถ ์ํธ๋กํผ(conditional entropy)๋ผ ํ๋ค.
๊ณฑ์ ๋ฒ์น์ ์ฌ์ฉํ๋ฉด ์กฐ๊ฑด๋ถ entropy๋ ์๋๊ด๊ณ๋ฅผ ๋ง์กฑํ๋ค:H[x, y] : p(x,y)์ ๋ฏธ๋ถ entropy , H[x] : ์ฃผ๋ณ ๋ถํฌ p(x)์ ๋ฏธ๋ถ entropy.
∴ x์ y๋ฅผ ์ค๋ช ํ๋ ๋ฐ ํ์ํ ์ ๋ณด = ์ฃผ์ด์ง ์กฐ๊ฑด์์ y๋ฅผ ์ง์ ํ๋ ๋ฐ ํ์ํ ์ถ๊ฐ ์ ๋ณด + x๋ง์ ์ค๋ช ํ๋ ๋ฐ ํ์ํ ์ ๋ณด
5.7 Mutual Information
๋ ๋ฆฝ๋ณ์ x, y์ ๋ํ ๊ฒฐํฉ๋ถํฌ(joint distribution) p(x, y)๋ ์ฃผ๋ณ๋ถํฌ์ ๊ณฑ์ผ๋ก ๋๋์ด์ง๋ค: p(x,y) = p(x)p(y)
์ข ์๋ณ์ x, y์ ๋ํด ๊ฒฐํฉ๋ถํฌ์ ์ฃผ๋ณ๋ถํฌ์ ๊ณฑ ์ฌ์ด์ KL-Divergence๋ฅผ ๊ณ ๋ คํ๋ฉด,
๊ทผ์ฌ์ ์ผ๋ก ๋ ๋ฆฝ์ธ์ง or ์ผ๋ง๋ ๊ฐ๊น์ด์ง๋ฅผ ํ๊ฐํ ์ ์๋ค:
์ด๋, ์ด๋ฅผ ๋ณ์ x์ y ๊ฐ์ ์ํธ ์ ๋ณด(mutual information)๋ผ ํ๋ค.
KL-Divergence์ ์ฑ์ง์ ์ํด, x์ y๊ฐ ๋ ๋ฆฝ์ธ ๊ฒฝ์ฐ์๋ง I[x,y]≥0์ด ์ฑ๋ฆฝ. (๋จ, ๋ฑํธ๋ ๋ ๋ฆฝ์ผ ๋ ์ฑ๋ฆฝ.)
ํ๋ฅ ์ ํฉ๊ณผ ๊ณฑ์ ๋ฒ์น์ ์ฌ์ฉํ๋ฉด ์ํธ์ ๋ณด๊ฐ ์กฐ๊ฑด๋ถ entropy์ ๊ด๋ จ์์์ ์ ์ ์๋ค.
์ฆ, ์ํธ์ ๋ณด๋ ์๋ก์ด ๊ด์ธก y๋ก ์ธํ ์ฃผ์ด์ง x์ ๋ํ ๋ถํ์ค์ฑ๊ฐ์๋ฅผ ์๋ฏธ (๋ฐ๋๋ ์ฑ๋ฆฝ.)
๐ค Bayesian ๊ด์ :
p(x) : x์ ๋ํ prior ๋ถํฌ
p(x|y) : ์๋ก์ด ๋ฐ์ดํฐ y๋ฅผ ๊ด์ฐฐํ ํ์ posterior
6. Bayesian Probabilities
Bayesian ํ๋ฅ : ๋ถํ์ค์ฑ์ ์์ ํํ
โ [๊ณ ์ ์ (= ๋น๋๋ก ์ ) ํ๋ฅ ]:
ํ ๋์ ์ ๊ฒฝ์ฐ ๋์ ์ด ์ค๋ชฉํ ๋ฉด์ผ๋ก ๋จ์ด์ง ํ๋ฅ ์ฒ๋ผ
๋ฌด์์, ๋ฐ๋ณต ๊ฐ๋ฅํ ์ฌ๊ฑด์ ๋น๋์ ๋ํ ํ๋ฅ ๊ฐ๋ .
โ [Bayesian ํ๋ฅ ]:
๋ถํ์ค์ฑ์ ์์ ํํ, prior๊ฐ ์์ฐ์ค๋ ๋ฐ์ํ์ฌ ํฌํจ๋๋ค.
"๋ถํ์ค์ฑ ํํ์ ์ํด ํ๋ฅ ์ ์ฌ์ฉํ์ง ์์ผ๋ฉด, ์ด์ฑ์ ์ด๊ณ ์ผ๊ด๋ ์ถ๋ก ์ ํ ์ ์๋ค."
ex) ๋ถํ์ค์ฑ = ๋์ ์ ์ค๋ชฉํ ๋ฉด์ด ์๋ฉด or ๋ท๋ฉด์ธ์ง ํ์ ํ๋ ๊ฒ
์๋ฅผ ๋ค์ด, ๋์ ์ด ๋ท๋ฉด์ผ๋ก ๋ ๋ง์ด ๋จ์ด์ง๋ ํ์๊ฐ ๋ง๋ค๋ฉด?
๋์ ์ด ์ค๋ชฉํ ๋ฉด์ด ๋ท๋ฉด์ผ ๊ฐ๋ฅ์ฑ์ด ๋ ๋๋ค๋ ์ฆ๊ฑฐ๋ฅผ ์ ์ํ๊ณ ,
์ค์ ๋ก ์ด๋ฐ ์ง๊ด์ ๋ง๊ธฐ์ ์ด๋ฅผ ํ๋ฅ ๊ท์น์ผ๋ก ์ฌ์ฉํด ์์ ์ผ๋ก ํํ๊ฐ๋ฅํ๋ค
→ Bayes์ ๋ฆฌ์ ์ํด ๋์ ๋์ง๊ธฐ๋ก ์ ๊ณต๋ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ์ฌ ์ค๋ชฉํ ๋ฉด์ด ์๋ฉด์ผ ์ฌ์ ํ๋ฅ ์ ์ฌํ ํ๋ฅ ๋ก ๋ณํํ ์ ์๋ค.
๊ณผ์ ์ด ๋ฐ๋ณต๊ฐ๋ฅํ๊ธฐ์, ์๋ก์ด ๋์ ๋์ง๊ธฐ์์์ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ๋ ๋ฐ์๋ ์ด์ ์ ์ฌํ ํ๋ฅ ์ด ์ฌ์ ์ผ๋ก ์ฌ์ฉ๋๋ค.
6.1 Model parameters
[Machine Learning ์์ ]: sine Regression์์ .
D : train dataset
(์ด๋, Linear Regression๋งฅ๋ฝ์์ parameter๋ maximum likelihood๋ฅผ ์ฌ์ฉํด ์ ํ๊ฐ๋ฅ)
(์ด๋, w๋ ์ฐ๋ ํจ์ p(D|w)๋ฅผ ์ต๋ํํ๋ ๊ฐ์ ์ค์ ํ๋ฉฐ, ์ด๋ ๊ด์ธก๋ dataset์ ์ต๋ํํ๋ w๊ฐ์ ์ ํํ๋ค.)PRML์์ Likelihoodํจ์์ Negative log๋ฅผ Error function์ด๋ผ ํ๋ค.
(์ฆ, NLL-Loss)
NLL์ ๋จ์กฐ๊ฐ์ํจ์์ด๊ธฐ์ Likelihood ์ต๋ํ = ์ค๋ฅ์ต์ํ ์ด๋ค.
๋ฐ๋ผ์ wML๋ผ๋ ํน์ ์ ํ๋ ๋งค๊ฐ๋ณ์ ๊ฐ์ด ์์ฑ๋๋ฉฐ,
์ด ๊ฐ์ ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํ ์์ธก์ ์ํํ๋ ๋ฐ ์ฌ์ฉ๋๋ค.
๋ค์ํ traindataset ์ ํ์(ex. data point ์๊ฐ ๋ค๋ฅธ)๊ฒฝ์ฐ,
wML์ ๋ํด ๋ค๋ฅธ ํด๊ฐ ์์ฑ๋๋ค.
Bayesian๊ด์ ์์ model parameter์ ๋ํด ๋ถํ์ค์ฑ์ค๋ช ์ ์ํด ํ๋ฅ ๋ก ์ฌ์ฉ์ด ๊ฐ๋ฅํ๋ค.
data๊ด์ธก ์ , w์ ๋ํด ์ฐ๋ฆฌ์ ๊ฐ์ ์ prior p(w)์ ํํ๋ก ๋ํ๋ผ ์ ์๋ค.
๊ด์ธก๋ D์ ์ํฅ์ likelihoodํจ์ p(D|w)๋ฅผ ํตํด ํํ๋๋ฉฐ,
Bayes' theorem์ ์๋์ ๊ฐ๋ค:p(D|w) : Likelihood ; ์ฃผ์ด์ง parameter์์ ๊ด์ธก๋ data๊ฐ ๋ฐ์ํ ํ๋ฅ
p(w) : prior ; ์ ํ์ ์ง์์ด๋ ๋ฏฟ์.
p(w|D) : posterior ; ์ ๊ณต๋๋ update๋ parameterํ๋ฅ ๋ถํฌ
p(D) : Marginal Likelihood ; p(D|w)โp(w)์ ์ ๋ถ๊ฐ ; ๋ชจ๋ธ์ ์ฒด์ ์ ํฉ๋.
์ด๋ฅผ ํตํด train data์ ๋ํ ์ฐ๋ฆฌ์ ๋ถํ์ค์ฑ์ ๋ฐ์
์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก new data์ ๋ํ ์์ธก ์ํ์ด ๊ฐ๋ฅํ๋ค.
์ด๋ ๊ฒ Bayesian์ ๊ทผ์ model parameter์ ๋ํ ๋ถํ์ค์ฑ์ ๊ณ ๋ คํ ํ๋ฅ ์ ์ถ๋ก ์ ์ ๊ฑฐ, ๋ถํ์ค์ฑ update๋ฅผ ํตํ model๊ฐ์ ์ด ๊ฐ๋ฅํ๋ค.
์ posterior ∝ likelihood × prior์์ ๋ถ๋ชจ๋ ์ ๊ทํ ์์์ด๊ธฐ์,
์ข์ธก์ posterior๋ ์ ํจํ๋ฅ ๋ฐ๋์ด๊ธฐ์ 1๋ก ์ ๋ถ๋๋ ๊ฒ์ด ๋ณด์ฅ๋๋ค.
์ฌ์ค, ์ p(w|D) ์์ชฝ์ w์ ๋ํด ์ ๋ถํจ์ผ๋ก์จ Bayes' Theorem์ ๋ถ๋ชจ๋ฅผ ์ฌ์ ๋ถํฌ์ likelihood ํจ์์ ๊ด์ ์์ ํํํ ์ ์๋ค:
[Bayesian vs Frequentist paradigms]:
๋ชจ๋์์ p(D|w)๋ ์ค์ํ ์ญํ ์ด์ง๋ง ๋ ์ ๊ทผ๋ฐฉ์์ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅด๋ค.
โ Frequentist
w๋ 'estimator'์ ์ผ์ข ์ ์ํด ๊ฒฐ์ ๋๋ ๊ณ ์ ๋ ๋งค๊ฐ๋ณ์๋ก ๊ฐ์ฃผ
โ Bayesian
ํ๋์ dataset D๋ง ์กด์ฌํ๋ฉฐ (์ฆ, ์ค์ ๋ก ๊ด์ธก๋ ๋ฐ์ดํฐ),
๋งค๊ฐ๋ณ์์ ๋ํ ๋ถํ์ค์ฑ์ w์ ๋ํ ํ๋ฅ ๋ถํฌ๋ฅผ ํตํด ํํ๋ฉ๋๋ค.
6.2 Regularization
์ด Bayesian ๊ด์ ์ ์ฌ์ฉํ์ฌ ์์ sine regression์ overfitting๊ฐ์๋ฅผ ์ํด ์ฌ์ฉ๋ ์ ๊ทํ ๊ธฐ์ ์ ๋ํด ์์๋ณด์.
[MAP: Most A Posteriori]
w์ ๋ํ ์ฐ๋ ํจ์๋ฅผ ์ต๋ํํ์ฌ ๋ชจ๋ธ ๋งค๊ฐ๋ณ์๋ฅผ ์ ํํ๋ ๋์ , p(w|D)์ ์ต๋ํํ ์ ์๋ค.
์ด๋ฅผ ์ต๋ ์ฌํ ํ๋ฅ ์ถ์ ์น(MAP)๋ผ ํ๋ค.
๋ํ, ์ฌํํ๋ฅ ์ NLL์ต์ํ๊ฐ ๊ฐ๋ฅํ๋ฐ, p(w|D)์ ์์ชฝ์ ์์ ๋ก๊ทธ๋ฅผ ์ทจํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค:์ ์์ ์ค๋ฅธ์ชฝ ์์ ๋ํด ์์๋ณด์.
1ํญ: ์ผ๋ฐ์ ์ธ log likelihood.
3ํญ: w์ ์์กดํ์ง ์์ผ๋ฏ๋ก ์๋ต๊ฐ๋ฅ.
2ํญ: w์ ํจ์ ํํ๋ฅผ ๊ฐ์ง๋ฉฐ, ์ด๋ 1ํญ์ ์ถ๊ฐ๋์ด ์ ๊ทํํํ๋ก ์ธ์๋๋ค.
์ด๋ฅผ ๋ ๋ช ํํ๊ฒ ๋ง๋ค๊ธฐ ์ํด w์ ๊ฐ ์์์ ๋ํด ๋์ผํ ๋ถ์ฐ s2๋ฅผ ๊ฐ๋ ๋ ๋ฆฝ์ ์ธ ํ๊ท ์ด 0์ธ ๊ฐ์ฐ์์ ๋ถํฌ์ ๊ณฑ์ผ๋ก ์ฌ์ ๋ถํฌ p(w)๋ฅผ ์ ํํ๋ค๊ณ ๊ฐ์ ํ์.
๋ง์ฝ log likelihood๊ฐ (2.66)์์์ผ๋ก ์ฃผ์ด์ง ๊ฒ์ฒ๋ผ Linear Regression๋ชจ๋ธ์ด ํน๋ณํ ๊ฒฝ์ฐ,posterior ์ต๋ํ๋ ์๋ ํจ์๋ก ์ต์ํ ๊ฐ๋ฅํ๋ค. (MSEํํ์์ ์ ์ ์๋ค.)
6.3 Bayesian Machine Learning
๋ค๋ง, Bayes์ ๋ฆฌ์ ๋จ์์ ์ฉ์ machine learning์ ์ง์ ํ Bayesian ์ฒ๋ฆฌ๊ฐ ์ด๋ฃจ์ด์ง์ง ์๋๋ค.
[Bayes์ ์ ๋ฆฌ๋ฅผ ์ฌ์ฉํ๋ ์ ํต์ ์ธ ๋ฐฉ๋ฒ]:
์ข ์ข w์ ๋ํ ๋จ์ผ ์ง์ ์ถ์ ์น๋ฅผ ์ฐพ๋ ๊ฒฐ๊ณผ๋ก ์ด์ด์ ธ์ w์ ๋ถํ์ค์ฑ์ ๋ฌด์ํ๋ค.
์์ ์๋๋ฆฌ์ค๋ฅผ ๊ณ ๋ คํด ๋ณด์.
train dataset D, input ๊ฐ x์ ๋ํด target๋ณ์ t๋ฅผ ์์ธกํ ๋,
(์ฆ, Bayesian ์ฉ์ด๋ก๋ x์ ๊ด์ฐฐ๋ ๋ฐ์ดํฐ D ๋ชจ๋๋ฅผ ๊ณ ๋ คํ t์ ๋ถํฌ๋ฅผ ์ดํดํ๋ ค๋ ๊ฒ)
ํ๋ฅ ์ ํฉ๊ณผ ๊ณฑ์ ๋ฒ์น์ ์ ์ฉ์ผ๋ก ์ฐ๋ฆฌ๋ ์๋ ์์ ์ป๋๋ค:p(t | x, D) : train data x์ D๊ฐ ์ฃผ์ด์ง ๋์ t์ posterior. (์ด ๋ถํฌ๋ฅผ ์ป๊ธด ์ด๋ ค์.)
(โต w์ ๋ชจ๋ ๊ฐ๋ฅํ ๊ฐ๋ค์ ๋ํ ์ ๋ถ์ด ํ์ํ๋ฉฐ, ์ด๋ ๋ง์ ๊ฒฝ์ฐ์ ๊ณ์ฐ์ ์ผ๋ก ๋งค์ฐ ๋น์ฉ์ด ๋ค๊ฑฐ๋ ํด์์ ์ผ๋ก ์ด๋ ต๊ธฐ ๋๋ฌธ)
→ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ ์ค ํ๋๋ w์ ๋ํ ๋ถํ์ค์ฑ์ ๊ณ ๋ คํ๋ ๊ฒ์ผ๋ก
์ด๋ฅผ ์ํด Bayesian ๋ชจ๋ธ ํ๊ท ํ ๋๋ Bayesian ์ ๊ฒฝ๋ง๊ณผ ๊ฐ์ ๊ธฐ์ ์ ์ฌ์ฉํ๋ค.
์ด๋ w์ ๋ชจ๋ ๊ฐ๋ฅํ ๊ฐ์ ๋ํ ์ฌํ ํ๋ฅ ๋ถํฌ p(w|D)๋ก ๊ฐ์ค ํ๊ท ์ ์ทจํ์ฌ ์ป๋๋ค.
Bayesian ๋ฐฉ๋ฒ์ ํน์ง ์ง๋ ์ฃผ์ ์ฐจ์ด์ ์ ๋งค๊ฐ๋ณ์ ๊ณต๊ฐ์์์ ์ด ์ ๋ถ์ ๋๋ค.
[Frequentist๋ฅผ ์ฌ์ฉํ๋ ์ ํต์ ์ธ ๋ฐฉ๋ฒ]:
์ ๊ทํ๋ MSE๊ฐ์ Loss function์ ์ต์ ํํด ์ป์ parameter์ง์ ์ ์ถ์ ์น๋ฅผ ์ฌ์ฉ
[Maximum Likelihood์ bayesian machine learning]
๋ฐ์ดํฐ์ ํ๋ฅ ์ด ๊ฐ์ฅ ๋์ ๋ชจ๋ธ์ ์ ํ → ๋ ๋ณต์กํ ๋ชจ๋ธ์ ์ ํธ → Overfitting
์์ ํ Bayesian ์ฒ๋ฆฌ๋ ๊ฐ๋ฅํ ๋ชจ๋ ๋ชจ๋ธ์ ๋ํ ํ๊ท ์ ๊ณ์ฐ, ๊ฐ ๋ชจ๋ธ์ ๊ธฐ์ฌ์น๋ ํด๋น posterior์ ๋ฐ๋ผ ๊ฐ์ค๋๋ค.
๋ํ ์ด ํ๋ฅ ์ ์ค๊ฐ๋ณต์ก์ฑ์ ๋ชจ๋ธ์ ๋ํด ์ผ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ๋๋ค (= Overfitting ๋ ๋ฐ์)
(๋ฎ์ ์ฐจ์์ ๋คํญ์๊ณผ ๊ฐ์)๋งค์ฐ ๊ฐ๋จํ ๋ชจ๋ธ: ๋ฐ์ดํฐ๋ฅผ ์ ํํํ ์ ์์ด ๋ฎ์ ํ๋ฅ ์ ๊ฐ์ง.
(๋งค์ฐ ๋์ ์ฐจ์์ ๋คํญ์๊ณผ ๊ฐ์)๋งค์ฐ ๋ณต์กํ ๋ชจ๋ธ ์ญ์ Bayesian ๋งค๊ฐ๋ณ์์ ํตํฉ์์ ์๋์ผ๋ก ๋ณต์ก์ฑ์ ๋ํ ํจ๋ํฐ๋ฅผ ๋ถ์ฌ๋ฐ์ ๋ฎ์ ํ๋ฅ ์ ๊ฐ์ง.
๋ค๋ง, Bayesian๋ฐฉ์์๋ ์ฃผ์ ๋จ์ ์ด ์๋๋ฐ, parameter space๋ฅผ ํตํฉํด์ผํ๋ค๋ ์ .
ํ๋ Deep Learning์ ์์ญ์ต๊ฐ์ parameter๋ก ์ธํด ์ผ๋ฐ์
∴ ๋๊ท๋ชจ ์ ๊ฒฝ๋ง์ Maximum Likelihood๊ธฐ๋ฒ ์ ์ฉ > ํจ์ฌ ์์ ๋ชจ๋ธ์ Bayesian ์ฒ๋ฆฌ๋ฅผ ์ ์ฉ
๋ํ ์ด ๊ฒฝ์ฐ์๋ ์ผ๋ฐ์ ์ผ๋ก ์ ๊ทํ ์ค ํ๋ ์ด์์ด ์ ์ฉ๋์ด์ผ ํจ.
๐ง ์ ๋ฆฌ
Uncertainty: ์์ ํํ์ผ๋ก ๋ค๋ฃจ๊ธฐ ์ํด "ํ๋ฅ ๋ก "๋ฑ์ฅ
โ Epistemic(์ธ์๋ก ์ )
= systematic
→ ์ ํํ dataset์ ์ ์
โ Aleotoric(์ฐ์ฐ์ฑ)
= intrinsic = stochastic = noise
→ ์ธ์ ์ผ๋ถ๋ง ๊ด์ฐฐํ๊ธฐ์ noise๊ฐ ๋ฐ์
→ ๋ค๋ฅธ์ข ๋ฅ์ data์์ง์ผ๋ก noise ์ํ๊ฐ๋ฅ
โ ํฉ๊ณผ ๊ณฑ์ ๋ฒ์น
ํฉโ๊ณฑ๋ฒ์น + ๊ฒฐ์ ์ด๋ก (decision theory)๋ฅผ ์ด์ฉํ๋ฉด,
๋ชจํธํ ์ ๋ณด( = uncertainty)๋๋ผ๋ optimal prediction์ ๋๋ฌ๊ฐ๋ฅ
p(X,Y) : X์ Y์ ๊ฒฐํฉํ๋ฅ (joint probability)
p(Y|X) : X์ ๋ํ Y์ ์กฐ๊ฑด๋ถํ๋ฅ (X๋ง ๊ณ ๋ ค์, Y์ผ ํ๋ฅ )
p(X) : ์ฃผ๋ณํ๋ฅ (marginal probability), ๋จ์ Xํ๋ฅ
p(X,Y) = p(X)p(Y) : ๋ ๋ฆฝ
Expectation & Covariance
โ Expectation: ํ๋ฅ ๋ถํฌ ํ ํจ์์ ๊ฐ์คํ๊ท
E[f] : ๋ค๋ฅธ x๊ฐ๋ค์ด ์๋์ ํ๋ฅ ์ ๋ฐ๋ผ "๊ฐ์ค"๋๋๋ฐ, ์ด๋ ๊ณง "ํ๋ฅ ๋ถํฌ p(x)ํ์์ ํจ์ f(x)์ ๊ฐ์คํ๊ท "์ ์๋ฏธ.
์ด์ฐ๋ณ์์ ๊ธฐ๋๊ฐ์ ๊ฒฝ์ฐ, sample์ด ๋ง์์ง์๋ก ์ค์ ํจ์์ ๊ฐ์คํ๊ท ์ ๋์ฑ ์๋ ดํ๊ฒ ๋๋ค.
cf) ๋ถ์ฐ: Var[f] = E[f(x)2] - E[f(x)]2. (feat. ์ ํํ์ )
โ Covariance: ๋ ๋ณ์๊ฐ ํจ๊ป ์ผ๋ง๋ ๋ณํ๋์ง๋ฅผ ์ธก์ .
๋ง์ฝ x์ y๊ฐ ๋ ๋ฆฝ์ด๋ผ๋ฉด: Cov[x,y]=0
๋ ๋ฒกํฐ x์ y์ ๋ํด, ๊ทธ๋ค์ ๊ณต๋ถ์ฐ์ ๋ค์๊ณผ ๊ฐ์ ํ๋ ฌ์ด๋ค:๋ง์ฝ ๋ฒกํฐ x์ ๊ตฌ์ฑ ์์๋ค ๊ฐ์ ๊ณต๋ถ์ฐ์ ๊ณ ๋ คํ๋ค๋ฉด,
๋ ๊ฐ๋จํ ํ๊ธฐ๋ฒ์ผ๋ก cov[x] ≡ cov[x, x]๋ฅผ ์ฌ์ฉํ๋ค.
Gaussian Distribution
โ Gaussian ๋ถํฌ (์ต๋entropy์ CLT)
Maximum Entropy์ ์ค์ฌ ๊ทนํ ์ ๋ฆฌ(CLT)์ ๊ด์ ์์ ์์ฐ์ค๋ ๋ํ๋๋ค.
cf) ์ต๋๊ฐ=์ต๋น๊ฐ์ด๋ฉฐ, precision = 1/σ2
โ Likelihood ํจ์
์ฐ์ธก ๊ทธ๋ํ๋ Gaussian์ Likelihoodํจ์:
ํ์์ : Gaussian๋ถํฌ์์ i.i.d์ธ Dataset
ํ๋์ : ๊ฐ dataset์ ๋ํ ๊ด์ธก๊ฐ, p(x)
Likelihoodํจ์: p(x)์ PDF์ ๊ณฑ์ผ๋ก "ํน์ data๊ด์ฐฐ ํ๋ฅ ์ ์๋ฏธ"
โ Maximum Likelihood
์ด๋ ๊ด์ฐฐ๋ Dataset์ผ๋ก Likelihood Function์ ์ต๋ํํ๋ ํ๋ฅ ๋ถํฌ์ ๋งค๊ฐ๋ณ์๋ฅผ ๊ฒฐ์ ํ๋ ๋ฐฉ๋ฒ.
์ข์ธก ๊ฐ์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๋ํด ์ likelihoodํจ์๋ฅผ ์ต๋ํ ์,
๊ฐ๊ฐ์ ๋ํ Maximum Likelihood ํด๋ฅผ ์ป์ ์ ์๋ค.
Maximum Likelihood์ ์ ํ์ฌํญ์ด ์กด์ฌํ๋ค:
(MLE๋ ๋ชจ์ง๋จ ์ถ์ ์ ์๋ฒฝํ์ง ์์๋ฐ, ์ด๋ bias๋ก ์ธํด ๋ฐ์ํ๋ค)
μML = μ์ ๋ถํธ ์ถ์ ๋ , σML2 ≠ σ2์ ๋ถํธ ์ถ์ ๋. (N-1 / N)
[Bias๋ฐ์์์ธ]:
๋ถ์ฐ์ด ๋ฐ์ดํฐ์ ๋ง๊ฒ ์กฐ์ ๋ MLE๊ธฐ์ค์ผ๋ก ์ธก์ ๋๊ธฐ ๋๋ฌธ.
์๋ ๊ทธ๋ฆผ์ MLE๋ก Gaussian์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๊ฒฐ์ ํ ๋,
bias๊ฐ ์ด๋ป๊ฒ ๋ฐ์ํ๋์ง์ ๋ํ ์ง๊ด์ ์ธ ์ดํด๊ฐ ๊ฐ๋ฅํ๋ค.๋นจ๊ฐ๊ณก์ : Gaussian๋ถํฌ
ํ๋๊ณก์ : 2๊ฐ์ ๋ น์ data point๋ก ์ด๋ค์ง 3๊ฐ์ dataset์ ML๋ก ์ป์ Gaussian๋ถํฌ.
์ ๊ทธ๋ฆผ์ ํตํด ๋ค์ ์ฌ์ค์ ์ ์ ์๋ค.
3๊ฐ์ dataset์ ํ๊ท ํํ๋ฉด ํ๊ท ์ ๋์ผํ๋ค.
ํ์ง๋ง, ๋ถ์ฐ์ ์ค์ ํ๊ท ๊ณผ ๋น๊ตโ , ํ๋ณธํ๊ท ๊ณผ ๋น๊ต → ๋ค์ ๊ณผ์ํ๊ฐ(N-1/N)๋๋ค.
๋ค๋ง, ์ ๊ฒฝ๋ง์ฒ๋ผ ๋ณต์กํ ๋ชจ๋ธ์์๋ ML์ bias๋ณด์ ์ด ์ฝ์ง ์๋ค.
๋ํ, MLE์ bias๋ Data point N์ด ๋ง์์ง๋ฉด, ๋ ์ค์ํด์ง์ง๋ค.(lim N → ∞)
Gaussian์ ๊ฒฝ์ฐ, ๋๋ฌด N์ด ์ ์ง ์์ ์ด์ ์ด bias๊ฐ ํฐ ๋ฌธ์ ๊ฐ ๋์ง ์์ง๋ง
๋ณธ ์ ์๋ Deep Learning ์ฆ, ๋ง์ parameter๋ฅผ ๊ฐ๋ ๋ชจ๋ธ์ ์ด์ ์ ๋์๊ธฐ์
ML๊ณผ ๊ด๋ จ๋ bias๋ฌธ์ ๋ ๋ณด๋ค ์ฌ๊ฐํ๋ค.(Overfitting๋ฌธ์ ์ ๋ฐ์ ํ ๊ด๋ จ์ฑ์ ๊ฐ์ง.)
๋ณ์๊ฐ ๋น์ ํ๋ณํ:
โ Density ๋ณํ๋ฐฉ๋ฒ:
๋ชจ๋ ๋ฐ๋ p(y)๋ ๋ชจ๋ ๊ณณ์์ 0์ด์๋ ๊ณ ์ ๋ ๋ฐ๋ q(x)๋ฅผ ์ป์ ์ ์๊ธฐ ๋๋ฌธ.
์ด๋, q(x)๋ x=f(y)์ธ ๋น์ ํ๋ณ์๋ณํ์ผ๋ก ์ป์ด์ง ๊ฐ.
๋นจ๊ฐ๊ณก์ : x์ ๋ํ ์ ๊ท๋ถํฌ p(x)
์ด ๋ถํฌ์์ N=5๋ง๊ฐ ์ ์ถ์ถ, histogram์ ๊ทธ๋ฆผ.
→ p(x)์ ๊ฑฐ์ ์ผ์นํ ๊ฒ.
x→y๋ก์ ๋น์ ํ๋ณ์๋ณํ์ ๊ณ ๋ คํด๋ณด๋ฉด:
x = g(y) = ln(y)-ln(1-y)+5
์ด ํจ์์ ์ญํจ์๋ Sigmoidํจ์๋ก ํ๋๊ณก์ ์ด๋ค.
px(g(y)): ๋ง์ฝ ๋จ์ํ px(x)๋ฅผ x์ ํจ์๋ก ๋ณํํ๋ค๋ฉด ์ป๋ ๋ถํฌ, ๊ณก์ ์ mode๊ฐ ๋ณํ๋ ๊ฒ์ ํ์ธ๊ฐ๋ฅ.
y์ ๋ํ ๋ฐ๋๋ ์ข์ธก ์์ ์ํด ๋ณํ๋๊ธฐ์
์ข์ธก์ ํํฌ ๊ณก์ (right-skewed)์ผ๋ก ๋ํ๋๋ค.
์ด ์์ ๋ค๋ณ๋์ ๋ํด ์ ์ฉํ๋ ค๋ฉด Jacobian Matrix๋ฅผ ์ด์ฉํ๋ฉด ๋๋ค.
x, y๊ฐ ๋ค๋ณ๋๋ถํฌ์ผ ๋, ๋น์ ํ๋ณํ์ ์ ์ฉํ๋ ค๋ฉดJacobian Matrix๋ฅผ ์ฌ์ฉ (py(y) = px(x) |det J|).
ํด๋น ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด y์ ์ฃผ๋ณ๋ถํฌ๋ก ๋จ์ด์ง๋๋ฐ ์ด๋ฅผ ๊ณต๊ฐ์์ผ๋ก ํ์ฅํ ๊ฒ.
์ฆ, "์ฃผ๋ณ ์์ญ"์ผ๋ก ๋ณํ ๋๋ค๋ ๊ฒ์ ์๋ฏธ.
cf) J์ ์ญํ :
๊ณต๊ฐ์ ์ผ๋ถ๋ฅผ ํ์ฅํ๊ณ ๋ค๋ฅธ ๋ถ๋ถ์ ์์ถํ๋ ๊ฒ
(= ํด๋น ๋ณ์์ ๋ณํ๋์ด ๋ค๋ฅธ ๋ณ์์ ์ผ๋ง๋ ์ํฅ์ ์ฃผ๋์ง๋ฅผ ์๋ฏธ;
์ด๋ฅผ ๋ชจ๋ ์์ญ์ ๋ํด ๊ณ ๋ คํ๋ฉด ์ ์ฒด ๊ณต๊ฐ์ด ์ด๋ป๊ฒ ๋ณํํ๋์ง ์ ์ ์์)
์ ๋ณด์ด๋ก : Entropy
โ Entropy: ํน์ ๊ฐ ๊ด์ฐฐ ์ ์ป๋ ์ ๋ณด๋
๋ฌผ๋ฆฌํ์์์ entropy๋ณด๋จ, ์ ๋ณด์ด๋ก ์ค์ฌ์ "์ ๋ณด๋"๊ธฐ์ค์ผ๋ก ์ดํด๋ณด์.
์ ๋ณด๋ด์ฉ์ ์ธก์ ์ ํ๋ฅ ๋ถํฌ p(x)์ ์์กด, ๋ฐ๋ผ์ h(x)๋ฅผ ์ฐพ๋๊ฒ์ด ๋ชฉํ.
h(x): p(x)์ ๋จ์กฐ ํจ์์ธ ์ ๋ณด ๋ด์ฉ์ ๋ํ๋ด๋ ์
[์ ๋ฆฌ]: ๋ ๋ ๋ฆฝ์ฌ๊ฑด x,y์ ๋ํด ์๋๊ฐ ์ฑ๋ฆฝ.
โ h(x,y) = h(x) + h(y)
โ p(x,y) = p(x)p(y)
h๋ p์ ์ ๋ณด๋์ด๊ธฐ์ ์ ์์ด ๋ง์กฑํ๋ ค๋ฉด h๋ log๋ก ์ฃผ์ด์ง๋ค.
∴ h(x) = -logโp(x)๋ก ์ฃผ์ด์ง๋ค.
์ ๋ณด๋ก : logโ๊ฐ ๊ด๋ก์ , ์ด๋ ๊ณง h(x)์ ๋จ์๊ฐ bit('binary digits')์์ ์๋ฏธ.
์ด๋, entropy๋ฅผ ์ข ๋ ์ ๋ณด๋ก ์ ์ผ๋ก ์ ๊ทผํด๋ณด์.
๋จผ์ log ์ฌ์ฉ์ด์ ์ด๋ค.
์ ๋ณด ์ ๋ฌ ์, encoding์ ํ์ฌ ์์ถ์ ์์ผ์ผ ํ๋๋ฐ, log๋ ์๋ฆฟ์๋ฅผ ์ฝ๊ฒ ํํ๊ฐ๋ฅํ๋ค.
ex) log100 = 2, log1000 = 3
์ฆ, Entropy๋ random๋ณ์์ ์ํ๋ฅผ ์ ์ก ์,
์ ์ก ๊ฐ๋ฅํ ๊ฐ์ฅ ์งง์, encoding๊ธธ์ด ์ต์๊ฐ์ ์๋ฏธํ๋ค.
์ถ๊ฐ์ ์ผ๋ก ์ ์ก๋ด์ฉ์ ํํ ์์ค์ด ๋ฐ์ํ๋๋ฐ, ์ฐ๋ฆฌ๊ฐ ๊ฐ๋ data๋ ์ด์ฐํ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
์ฆ, ๋งค์ฐ ์ ๋ฐํ๊ฒ ์ง์ ํ๋ ค๋ฉด ๋ง์ bit๊ฐ ํ์ํจ์ ์๋ฏธํ๋ค.
โ H[x] : x์ entropy (= p(x)์ ๊ธฐ๋๊ฐ = ํ๊ท ์ ๋ณด๋)
H[x]๋ x์ entropy๋ก ํ๊ท ์ ๋ณด๋ ์ฆ, p(x)์ ๊ธฐ๋๊ฐ์ ์๋ฏธ cf) H[x, y] = H[y|x] + H[x]๋ฅผ ๋ง์กฑ.
์ฆ, x์ y๋ฅผ ์ค๋ช ํ๋๋ฐ ํ์ํ ์ ๋ณด = ์ฃผ์ด์ง ์กฐ๊ฑด์์ y๋ฅผ ์ง์ ํ๋๋ฐ ํ์ํ ์ถ๊ฐ์ ๋ณด + x๋ง์ ์ค๋ช ํ๋๋ฐ ํ์ํ ์ ๋ณด.
โ KL Divergence : ๋ ๋ถํฌ๊ฐ์ ๋น์ ์ฌ๋ ์ธก์ .
๋ชจ๋ฅด๋ ๋ถํฌ p(x)์ ๊ทผ์ฌ๋ถํฌ q(x)์ ๋ํด q(x)๋ฅผ ์ด์ฉํด x๊ฐ์ ์์ ์์๊ฒ ์ ์กํ๋ค.
์ด๋, q(x)๋ ์ค์ ๋ถํฌ p(x)๋์ x๊ฐ ์ง์ ์ ํ์ํ "ํ๊ท ์ถ๊ฐ์ ๋ณด๋"์ ์๋ฏธํ๋ค.
(์ฆ, ์ถ๊ฐ๋ก ์ ์กํด์ผํ ์ ๋ณด = ๋ ๋ถํฌ๊ฐ์ KL-Divergence)์ฝ๊ฒ ์ค๋ช ํ์๋ฉด, Cross Entropy - Entropy๊ฐ ๋ฐ๋ก KL Divergence์์ด๋ค.
cf) Deep Learning์์ Loss function์ผ๋ก KL Divergence๋ฅผ ์ฌ์ฉํด์ผํ๋ ๊ฒ ์๋๊ฐ์?
์ KL Divergence๊ฐ ์๋ Cross Entropy๋ฅผ ์ฌ์ฉํ๋์ง ์๋ฌธ์ด ๋ค ์ ์๋ค.
KL-Divergence๋ cross entropy์์ ์ต์๋์ธ entropy๋ฅผ ๋นผ๋๊น ์ด ์ค์ฐจ๊ฐ,
์ฆ, cross entropy๊ฐ optimal(= entropy)ํด์ง๋๋ก ํ๊ท ์ถ๊ฐ์ ๋ณด๋์ ์ค์ด๋ ๋ฐฉํฅ์ผ๋ก ํ์ตํ๋ ๊ฒ์ด ๋ง๋ค๋ ์๊ฐ์ด ๋ค ๊ฒ์ด๋ค.
ํ์ง๋ง ์ค์ฐจํจ์ ๋ฏธ๋ถ ์, Entropy๊ฐ ์์๊ฐ ๋์ด๋ฒ๋ฆฌ๊ธฐ ๋๋ฌธ์
๊ฒฐ๊ตญ KL-Divergence = Cross Entropy๊ฐ ๋์ด๋ฒ๋ฆฐ๋ค.
๊ฒฐ๊ตญ Cross Entropy๋ฅผ ํธ์์ ์ฌ์ฉํ์ง๋ง, ์ค์์ KL-Divergence๋ฅผ ์ฌ์ฉํ๋ ๊ฒ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ผ ์๊ฐํ๋ฉด ๋๋ค.
Bayes' Theorem: ๋ถํ์ค์ฑ์ ์์ ํํ
โ Frequentist ํ๋ฅ :
ํ ๋์ ์ ๊ฒฝ์ฐ ๋์ ์ด ์ค๋ชฉํ ๋ฉด์ผ๋ก ๋จ์ด์ง ํ๋ฅ ์ฒ๋ผ ๋ฌด์์, ๋ฐ๋ณต ๊ฐ๋ฅํ ์ฌ๊ฑด์ ๋น๋์ ๋ํ ํ๋ฅ .
[p(D|w)์ ๋ํ ์ ๊ทผ๋ฐฉ์]: w๋'estimator'์ ์ผ์ข ์ ์ํด ๊ฒฐ์ ๋๋๊ณ ์ ๋ ๋งค๊ฐ๋ณ์๋ก ๊ฐ์ฃผ
[๊ธฐ๊ณํ์ต์ ๋ํ ์ ์ฉ๋ฐฉ์]: ์ ๊ทํ๋ MSE๊ฐ์ Loss function์ ์ต์ ํํด ์ป์ parameter์ง์ ์ ์ถ์ ์น๋ฅผ ์ฌ์ฉโ Bayesian ํ๋ฅ
[p(D|w)์ ๋ํ ์ ๊ทผ๋ฐฉ์]: ํ๋์ dataset D๋ง ์กด์ฌํ๋ฉฐ (์ฆ, ์ค์ ๋ก ๊ด์ธก๋ ๋ฐ์ดํฐ), ๋งค๊ฐ๋ณ์์ ๋ํ ๋ถํ์ค์ฑ์ w์ ๋ํ ํ๋ฅ ๋ถํฌ๋ฅผ ํตํด ํํ
[๊ธฐ๊ณํ์ต์ ๋ํ ์ ์ฉ๋ฐฉ์]: ๋ฐ์ดํฐ์ ํ๋ฅ ์ด ๊ฐ์ฅ ๋์ ๋ชจ๋ธ์ ์ ํ → ๋ ๋ณต์กํ ๋ชจ๋ธ์ ์ ํธ → Overfitting
๊ทธ๋ ๊ธฐ์ Bayesian๊ธฐ๋ฐ ๊ธฐ๊ณํ์ต ๋ชจ๋ธ์ ์ ์ dataset์ผ์๋ก ๋ ์ข์ ์ฑ๋ฅ์ ๋ธ๋ค.
๋ถํ์ค์ฑ์ ์์ ํํ, prior๊ฐ ์์ฐ์ค๋ ๋ฐ์ํ์ฌ ํฌํจ๋๋ค.
"๋ถํ์ค์ฑ ํํ์ ์ํด ํ๋ฅ ์ ์ฌ์ฉํ์ง ์์ผ๋ฉด, ์ด์ฑ์ ์ด๊ณ ์ผ๊ด๋ ์ถ๋ก ์ ํ ์ ์๋ค."
ex) ๋ถํ์ค์ฑ = ๋์ ์ ์ค๋ชฉํ ๋ฉด์ด ์ด๋๋ฉด์ธ์ง ํ์ ํ๋ ๊ฒ
์๋ฅผ ๋ค์ด, ๋์ ์ด ๋ท๋ฉด์ผ๋ก ๋ ๋ง์ด ๋จ์ด์ง๋ ํ์๊ฐ ๋ง๋ค๋ฉด?
๋์ ์ด ์ค๋ชฉํ ๋ฉด์ด ๋ท๋ฉด์ผ ๊ฐ๋ฅ์ฑ์ด ๋ ๋๋ค๋ ์ฆ๊ฑฐ๋ฅผ ์ ์ํ๊ณ ,
์ค์ ๋ก ์ด๋ฐ ์ง๊ด์ ๋ง๊ธฐ์ ์ด๋ฅผ ํ๋ฅ ๊ท์น์ผ๋ก ์ฌ์ฉํด ์์ ์ผ๋ก ํํ๊ฐ๋ฅํ๋ค
→ Bayes์ ๋ฆฌ์ ์ํด ๋์ ๋์ง๊ธฐ๋ก ์ ๊ณต๋ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ์ฌ ์ค๋ชฉํ ๋ฉด์ด ์๋ฉด์ผ ์ฌ์ ํ๋ฅ ์ ์ฌํ ํ๋ฅ ๋ก ๋ณํํ ์ ์๋ค.
๊ณผ์ ์ด ๋ฐ๋ณต๊ฐ๋ฅํ๊ธฐ์, ์๋ก์ด ๋์ ๋์ง๊ธฐ์์์ ๋ฐ์ดํฐ๋ฅผ ํตํฉํ๋ ๋ฐ์๋ ์ด์ ์ ์ฌํ ํ๋ฅ ์ด ์ฌ์ ์ผ๋ก ์ฌ์ฉ๋๋ค.
D : train dataset
p(D|w) : Likelihood ; ์ฃผ์ด์ง parameter์์ ๊ด์ธก๋ data๊ฐ ๋ฐ์ํ ํ๋ฅ
p(w) : prior ; ์ ํ์ ์ง์์ด๋ ๋ฏฟ์.
p(w|D) : posterior ; ์ ๊ณต๋๋ update๋ parameterํ๋ฅ ๋ถํฌ
p(D) : Marginal Likelihood ; p(D|w)โp(w)์ ์ ๋ถ๊ฐ ; ๋ชจ๋ธ์ ์ฒด์ ์ ํฉ๋.
์ด๋ฅผ ํตํด train data์ ๋ํ ์ฐ๋ฆฌ์ ๋ถํ์ค์ฑ์ ๋ฐ์์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก new data์ ๋ํ ์์ธก ์ํ์ด ๊ฐ๋ฅํ๋ค.
์ด๋ ๊ฒ Bayesian์ ๊ทผ์ model parameter์ ๋ํ ๋ถํ์ค์ฑ์ ๊ณ ๋ คํ ํ๋ฅ ์ ์ถ๋ก ์ ์ ๊ฑฐ, ๋ถํ์ค์ฑ update๋ฅผ ํตํ model๊ฐ์ ์ด ๊ฐ๋ฅํ๋ค.
'Deep Learning : Vision System > Deep Learning(Christopher M.Bishop)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[DL]00.๋ชฉ์ฐจ ๋ฐ ์ฑ ์๊ฐ. (4) | 2024.01.30 |
---|---|
[DL]04. Single-layer Networks: Regression (2) | 2024.01.22 |
[DL]03. Standard Distributions (2) | 2024.01.22 |
[DL]01.The Deep Learning Revolution. (2) | 2023.12.23 |