๐Ÿ“Œ ๋ชฉ์ฐจ

1. The Rules of Probability
2. Probability Densities

3. The Gaussian Distribution
4. Transformation of Densities
5. Information Theory
6. Bayesian Probabilities

 

๐Ÿง  preview: uncertainty

ML์˜ ์ ์šฉ์€ "๋ถˆํ™•์‹ค์„ฑ์„ ๋‹ค๋ฃจ๋Š” ๊ฒƒ"์ด ํ•„์ˆ˜์ :
uncertainty์—๋Š” ๋‹ค์Œ 2๊ฐ€์ง€ ์ข…๋ฅ˜๊ฐ€ ์žˆ์Œ.

โˆ™ Epistemic uncertainty

= systematic uncertainty
์ธ์‹๋ก ์  ๋ถˆํ™•์‹ค์„ฑ์€ ๋‹ค์Œ ํŠน์„ฑ์„ ๊ฐ–๋Š”๋‹ค.
  - ์œ ํ•œํ•œ dataset size
  - ์ฆ‰, ๋ฌดํ•œํ•œ large data์— ๋Œ€ํ•ด ์šฐ์—ฐ์ ์ธ ๋ถˆํ™•์‹ค์„ฑ์ด ์กด์žฌ
  → model์ด data๋ฅผ ์ถฉ๋ถ„ํžˆ ํ•ด๊ฒฐโŒ

โˆ™ Aleotoric uncertainty

= intrinsic uncertainty
= stochastic uncertainty
= noise
์ด๋Ÿฐ ์šฐ์—ฐ์„ฑ(aleotoric)์€ data์— ํฌํ•จ๋œ ๊ณ ์œ  noise๋กœ ์ธํ•ด ๋ฐœ์ƒํ•œ๋‹ค.

  → noise๋Š” ์„ธ์ƒ์ •๋ณด์˜ ์ผ๋ถ€๋งŒ ๊ด€์ฐฐํ•˜๊ธฐ์— ๋ฐœ์ƒํ•˜๋Š” ๊ฒƒ.
  → ์ด ๋ถˆํ™•์‹ค์„ฑ์„ ์ค„์ด๋ ค๋ฉด ๋‹ค๋ฅธ ์ข…๋ฅ˜์˜ data์ˆ˜์ง‘์ด ํ•„์š”.


์ด๋Ÿฐ ๋ถˆํ™•์‹ค์„ฑ์„ ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•œ Tool๋กœ์จ "ํ™•๋ฅ ๋ก "์„ ์‚ฌ์šฉํ•จ.
์ด ํ™•๋ฅ ๋ก ์—๋Š” ๋‹จ์ˆœํ•˜์ง€๋งŒ ๊ฐ•๋ ฅํ•œ 2๊ฐ€์ง€ ๋ฒ•์น™์ด ์กด์žฌ.
โˆ™ ํ•ฉ์˜ ๋ฒ•์น™
โˆ™ ๊ณฑ์˜ ๋ฒ•์น™

ํ•ฉโˆ™๊ณฑ๋ฒ•์น™ + ๊ฒฐ์ •์ด๋ก (decision theory)๋ฅผ ์ด์šฉํ•˜๋ฉด,
์ •๋ณด๊ฐ€ ๋ชจํ˜ธ = uncertainty๊ฐ€ ์žˆ๋”๋ผ๋„ optimal prediction์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ๋‹ค.


โˆ™ How to deal with uncertainty?

i) ๋นˆ๋„์ฃผ์˜์  ๊ด€์ ์—์„œ์˜ ํ™•๋ฅ  ์‚ฌ์šฉ:
๋งŽ์ด ํ•ด๋ณด๋ฉด(= frequency↑), ํ™•๋ฅ ์€ ํŠน์ • ๊ฐ’์— ์ˆ˜๋ ดํ•œ๋‹ค.
์ฆ‰, ๋ถˆํ™•์‹ค์„ฑ์˜ ์–‘์ ํ‰๊ฐ€๋กœ์จ ํ™•๋ฅ ์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Œ.

ii) Bayesian ๊ด€์ ์—์„œ์˜ ํ™•๋ฅ  ์‚ฌ์šฉ.
๋นˆ๋„์ฃผ์˜ ํ™•๋ฅ ์„ ํฌํ•จํ•˜๋Š” ๋ณด๋‹ค ์ผ๋ฐ˜์ ์ธ Bayesian ๊ด€์ .
๋ถˆํ™•์‹ค์„ฑ์˜ ์–‘์  ํ‰๊ฐ€๋กœ์จ์˜ ํ™•๋ฅ  ์‚ฌ์šฉ.
์ฆ‰, ๊ด€์ธก๋œ ๊ฒฐ๊ณผ๊ฐ€ ๋งŽ์•„์งˆ์ˆ˜๋ก ํ•ด๋‹น ํ™•๋ฅ ์— ๋Œ€ํ•œ ๋ถˆํ™•์‹ค์„ฑ์€ ๋‚ฎ์•„์ง„๋‹ค.

 

 

 

 

 

 

 

 


1. The Rules of Probability

1.1  ์˜ํ•™์  ์„ ๋ณ„๊ฒ€์‚ฌ ์˜ˆ์ œ

[๋ฌธ์ œ]: ์•” ์กฐ๊ธฐ ๋ฐœ๊ฒฌ์„ ์œ„ํ•œ ์ธ๊ตฌ ์Šคํฌ๋ฆฌ๋‹
[๊ฐ€์ •]: ๊ฐ€์ •์ปจ๋Œ€ ์ธ๊ตฌ์˜ 1%๊ฐ€ ์‹ค์ œ๋กœ ์•”์— ๊ฑธ๋ ค ์žˆ๋‹ค
[์ด์ƒ์  ์ƒํ™ฉ]: ์•”์ด ์žˆ๋Š” ์‚ฌ๋žŒ์—๊ฒŒ ์–‘์„ฑ, ์•”์ด ์—†๋Š” ์‚ฌ๋žŒ์—๊ฒŒ ์Œ์„ฑ.
[์‹ค์ œ์  ๊ฐ€์ •]: ์•”์ด ์—†๋Š” ์‚ฌ๋žŒ์—๊ฒŒ 3%๊ฐ€ ์–‘์„ฑ์ด๋ผ ๋‚˜์˜ฌ ๊ฒƒ (= FP)
                      ์•”์ด ์žˆ๋Š” ์‚ฌ๋žŒ์—๊ฒŒ 10%๊ฐ€ ์Œ์„ฑ์ด๋ผ ๋‚˜์˜ฌ ๊ฒƒ(= FN)
์œ„ ์˜ˆ์‹œ์— ๋Œ€ํ•œ ๊ทธ๋ฆผ์„ค๋ช….
๐Ÿค” [์งˆ๋ฌธ]
1) '์ธ๊ตฌ๋ฅผ ์Šคํฌ๋ฆฌ๋‹ํ•˜๋ฉด ๋ˆ„๊ตฐ๊ฐ€๊ฐ€ ์–‘์„ฑ์ผ ํ™•๋ฅ ์€?
2) '๋ˆ„๊ตฐ๊ฐ€๊ฐ€ ์–‘์„ฑ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ›์•˜์„ ๋•Œ, ์‹ค์ œ๋กœ ์•”์— ๊ฑธ๋ ค ์žˆ์„ ํ™•๋ฅ ์€?

์ด๋Ÿฌํ•œ ์งˆ๋ฌธ์— ์ผ๋ฐ˜์ ์ธ ํ™•๋ฅ  ๋ฒ•์น™, ์ฆ‰ ํ•ฉ์˜ ๋ฒ•์น™๊ณผ ๊ณฑ์˜ ๋ฒ•์น™์„ ์œ ๋„ํ•ด๋ณด์ž.

1.2  ํ•ฉโˆ™๊ณฑ์˜ ๋ฒ•์น™

ํ™•๋ฅ  ๋ฒ•์น™ ์œ ๋„๋ฅผ ์œ„ํ•ด ์•„๋ž˜ ์˜ˆ์ œ๋ฅผ ์‚ดํŽด๋ณด์ž.
์ด ์˜ˆ์ œ์—์„œ๋Š” ๋‘ ๋ณ€์ˆ˜ X์™€ Y๊ฐ€ ๊ด€๋ จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.
์ด ๋ณ€์ˆ˜๋Š” ๋ฐ”๋€” ์ˆ˜ ์žˆ๊ธฐ์— ์ด๋ฅผ "random variable"์ด๋‚˜ "stochastic variable"์ด๋ผ ํ•œ๋‹ค.

[๊ฐ€์ •]: X๊ฐ€ i = 1, ..., L ๊ฐ’์„ ๊ฐ–๊ณ  Y๊ฐ€ j = 1, ..., M ๊ฐ’์„ ๊ฐ–์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, X์™€ Y๋ฅผ ๋ชจ๋‘ ์ƒ˜ํ”Œ๋งํ•˜๋Š” N๋ฒˆ์˜ ์‹œ๋„ํ•  ๋•Œ,
โˆ™ nij : X = xi ๋ฐ Y = yj์ธ ๊ฒฝ์šฐ์˜ ์‹œ๋„ ์ˆ˜
โˆ™ ci : X๊ฐ€ ๊ฐ’์„ xi๋กœ ์ทจํ•˜๋Š” ์‹œ๋„ ์ˆ˜(Y๊ฐ€ ์–ด๋–ค ๊ฐ’์„ ์ทจํ•˜๋“ ์ง€ ์ƒ๊ด€์—†์ด)
โˆ™ rj: Y๊ฐ€ ๊ฐ’์„ yj๋กœ ์ทจํ•˜๋Š” ์‹œ๋„ ์ˆ˜
โˆ™ p(X = xi, Y = yj): X๊ฐ€ ๊ฐ’ xi๋ฅผ ์ทจํ•˜๊ณ  Y๊ฐ€ ๊ฐ’ yj๋ฅผ ์ทจํ•  ํ™•๋ฅ 
         ์ด๋ฅผ X = xi ์™€ Y = yj์˜ ๊ฒฐํ•ฉํ™•๋ฅ (joint probability)๋ผํ•œ๋‹ค.
์ด๋Š” ์…€ i,j์— ์†ํ•˜๋Š” ์ ์˜ ์ˆ˜๋ฅผ ์ „์ฒด ์ ์˜ ์ˆ˜๋กœ ๋‚˜๋ˆˆ ๋น„์œจ๋กœ ์ฃผ์–ด์ง„๋‹ค:
(2.1)
์ด๋•Œ, ์•”์‹œ์ ์œผ๋กœ lim N → ∞์„ ๊ณ ๋ คํ•œ๋‹ค;
๋น„์Šทํ•˜๊ฒŒ Y์˜ ๊ฐ’๊ณผ๋Š” ๋ฌด๊ด€ํ•˜๊ฒŒ X๊ฐ€ ๊ฐ’์„ xi๋กœ ์ทจํ•  ํ™•๋ฅ ์€ p(X = xi)๋กœ ํ‘œ์‹œ๋œ๋‹ค.
์ด๋Š” ์—ด i์— ์†ํ•˜๋Š” ์ „์ฒด ์ ์˜ ์ˆ˜๋กœ ์ฃผ์–ด์ง„๋‹ค:
(2.2)
์ด๋•Œ, ∑i ci = N์ด๋ฏ€๋กœ
(2.3)

๐Ÿค” Sum Rule

๋”ฐ๋ผ์„œ ํ™•๋ฅ ์€ ์š”๊ตฌ์‚ฌํ•ญ์— ๋”ฐ๋ผ ํ•ฉ์ด 1์ด ๋ฉ๋‹ˆ๋‹ค.
Figure 2.4์˜ i ์—ด์— ๋Œ€ํ•œ ์ธ์Šคํ„ด์Šค ์ˆ˜๋Š” ํ•ด๋‹น ์—ด์˜ ๊ฐ ์…€์˜ ์ธ์Šคํ„ด์Šค ์ˆ˜์˜ ํ•ฉ์ผ ๋ฟ์ด๋ฉฐ,
๋”ฐ๋ผ์„œ ci = ∑j nij์ด๋ฏ€๋กœ (2.1)๊ณผ (2.2)์— ์˜ํ•ด ์•„๋ž˜ ์‹์ด ์„ฑ๋ฆฝํ•œ๋‹ค:

(2.4)

์ด๊ฒƒ์ด ๋ฐ”๋กœ ํ™•๋ฅ ์˜ ํ•ฉ์˜ ๋ฒ•์น™์ด๋‹ค.

๐Ÿค” ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ 

โˆ™ p(X = xi) : marginal probability, ์ด๋Š” ๋‹ค๋ฅธ ๋ณ€์ˆ˜๋“ค(์—ฌ๊ธฐ์„œ๋Š” Y)์„ ์ฃผ๋ณ€ํ™”ํ•˜๊ฑฐ๋‚˜ sum outํ•˜์—ฌ ์–ป๋Š”๋‹ค.
โˆ™ p(Y = yj | X = xi) : ๋งŒ์•ฝ X = xi์ธ ๊ฒฝ์šฐ๋งŒ์„ ๊ณ ๋ คํ•œ๋‹ค๋ฉด, ๊ทธ ์ค‘ Y = yj์ผ ํ™•๋ฅ ์ด๋‹ค.
์ด๋ฅผ X์— ๋Œ€ํ•œ Y์˜ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์ด๋ผ ํ•œ๋‹ค.

์ด๋Š” ์—ด i์— ์†ํ•˜๋Š” ๊ทธ ์  ์ค‘ ์…€ i,j์— ์†ํ•˜๋Š” ์ ์˜ ๋น„์œจ์„ ์ฐพ์•„ ์–ป์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๋”ฐ๋ผ์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ฃผ์–ด์ง„๋‹ค:
(2.5)
์–‘๋ณ€์„ j์— ๋Œ€ํ•ด ๋ชจ๋‘ ํ•ฉํ•˜๊ณ , ∑j nij = c๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
(2.6)
์ด๋กœ์จ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์ด ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ •๊ทœํ™”๋˜์—ˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

 

๐Ÿค” Product Rule

 

์ด์ œ (2.1), (2.2), (2.5)์—์„œ ์•„๋ž˜๋ฅผ ์œ ๋„ํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด๋ฅผ ํ™•๋ฅ ์˜ ๊ณฑ์˜ ๋ฒ•์น™์ด๋ผ ํ•œ๋‹ค:






๐Ÿค” Sum & Product Rule

๋‹ค๋งŒ, X๊ฐ€ xi๊ฐ’์„ ์ทจํ•  ํ™•๋ฅ ์„ p(X=xi)๋กœ ํ‘œ๊ธฐํ•˜๊ธฐ๋Š” ๋‹ค์†Œ ๋ฒˆ๊ฑฐ๋กญ๊ธฐ์—
p(X)๋กœ random variable X์— ๋Œ€ํ•œ ๋ถ„ํฌ๋ฅผ ๋‚˜ํƒ€๋‚ผ ๊ฒƒ์ด๋ฉฐ,
๋ฌธ๋งฅ ์ƒ ๋ช…ํ™•ํ•˜๊ฒŒ ํŠน์ •๊ฐ’ xi์— ๋Œ€ํ•œ ๋ถ„ํฌ๋ฅผ p(xi)๋กœ ํ‘œ๊ธฐํ•˜์ž.

์ด์ œ, ์ด๋ ‡๊ฒŒ ๊ฐ„๋‹จํ•œ ํ‘œ๊ธฐ๋ฒ•์„ ์ด์šฉํ•˜๋ฉด ํ•ฉ๊ณผ ๊ณฑ์˜ ๋ฒ•์น™์€ ์•„๋ž˜์™€ ๊ฐ™์ด ํ‘œํ˜„๊ฐ€๋Šฅํ•˜๋‹ค:
โˆ™ p(X,Y): ๊ฒฐํ•ฉํ™•๋ฅ (joint probability), 'X์™€ Y์˜ ํ™•๋ฅ '.
โˆ™ p(Y|X): ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ (conditional probability),'X๊ฐ€ ์ฃผ์–ด์ง„ ์ƒํ™ฉ์—์„œ Y์˜ ํ™•๋ฅ '.
โˆ™ p(X): ์ฃผ๋ณ€ ํ™•๋ฅ (marginal probability), ๋‹จ์ˆœํžˆ 'X์˜ ํ™•๋ฅ '

1.3  Bayes' theorem

๊ณฑ์˜ ๋ฒ•์น™๊ณผ ๊ฒฐํ•ฉํ™•๋ฅ ์˜ ๋Œ€์นญ์„ฑ ์„ฑ์งˆ์„ ์ด์šฉํ•ด ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ๋กœ๋ถ€ํ„ฐ ์•„๋ž˜ ์ˆ˜์‹์„ ์–ป์„ ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด๋ฅผ ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ(Bayes' Theorem)์ด๋ผ ํ•œ๋‹ค.

์ขŒ๋ณ€์˜ ์กฐ๊ฑด๋ถ€๋ถ„ํฌ P(Y|X)์™€ ์šฐ๋ณ€์˜ p(X | Y)๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋‚ธ๋‹ค๋Š” ๊ฒƒ์— ์ฃผ๋ชฉํ•  ๋•Œ, ํ•ฉ์˜ ๋ฒ•์น™์„ ์‚ฌ์šฉ, ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ์˜ ๋ถ„๋ชจ๋ฅผ ๋ถ„์ž์— ๋‚˜ํƒ€๋‚œ ์–‘์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค:

์ฆ‰, ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ์˜ ๋ถ„๋ชจ๋Š” p(Y|X)์—์„œ ๋ชจ๋“  Y์˜ ๊ฐ’์— ๋Œ€ํ•œ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  ๋ถ„ํฌ์˜ ํ•ฉ์ด 1์ด ๋˜๋„๋ก ๋ณด์žฅํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ์ •๊ทœํ™” ์ƒ์ˆ˜๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
์ฃผ๋ณ€ ๋ฐ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ์˜ ๊ฐœ๋…์„ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•ด ๋‘ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๊ฒฐํ•ฉ ๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•œ ๊ฐ„๋‹จํ•œ ์˜ˆ์ œ
์ขŒ์ƒ๋‹จ) N = 60์˜ ์œ ํ•œํ•œ data point sample์ด ๊ฒฐํ•ฉ๋ถ„ํฌ์—์„œ ์ถ”์ถœ
์šฐ์ƒ๋‹จ) ๊ฐ๊ฐ์˜ ๋‘ ๊ฐ’ ์ค‘ ํ•˜๋‚˜๋ฅผ ๊ฐ€์ง€๋Š” data point๋น„์œจ historgram.
ํ•˜๋‹จ) p(X)์™€ p(X|Y=1)์˜ ํ•ด๋‹น histogram ์ถ”์ •์น˜.
ํ™•๋ฅ ์˜ ์ •์˜์— ๋”ฐ๋ผ N → ∞์ผ ๋•Œ, data point ๋น„์œจ=
ํ•ด๋‹น ํ™•๋ฅ  p(Y)

1.4 ์˜ํ•™์  ์„ ๋ณ„๊ฒ€์‚ฌ ์žฌ๋ฐฉ๋ฌธ

1.1 ์˜ˆ์ œ์— ๋Œ€ํ•œ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ํ•ฉ๊ณผ ๊ณฑ์˜ ๋ฒ•์น™ ์ ์šฉ

โˆ™ ๋ณ€์ˆ˜ C: ์•”์˜ ์กด์žฌ ์—ฌ๋ถ€ (C = 0์€ '์•”์ด ์—†์Œ', C = 1์€ '์•”์ด ์žˆ์Œ')
์ด๋•Œ, p(C = 0) + p(C = 1) = 1๊ฐ€ ๋งŒ์กฑํ•จ์— ์œ ์˜.

[๊ฐ€์ •]: ๊ฐ€์ •์ปจ๋Œ€ ์ธ๊ตฌ์˜ 1%๊ฐ€ ์‹ค์ œ๋กœ ์•”์— ๊ฑธ๋ ค ์žˆ๋‹ค
[์ด์ƒ์  ์ƒํ™ฉ]: ์•”์ด ์žˆ๋Š” ์‚ฌ๋žŒ์—๊ฒŒ ์–‘์„ฑ, ์•”์ด ์—†๋Š” ์‚ฌ๋žŒ์—๊ฒŒ ์Œ์„ฑ.


โˆ™ ๋ณ€์ˆ˜ T: ๊ฒ€์ง„ ํ…Œ์ŠคํŠธ ๊ฒฐ๊ณผ.

 T = 1: ์•”์„ ๋‚˜ํƒ€๋‚ด๋Š” ์–‘์„ฑ ๊ฒฐ๊ณผ,
 T = 0: ์•”์˜ ๋ถ€์žฌ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์Œ์„ฑ ๊ฒฐ๊ณผ

[์‹ค์ œ์  ๊ฐ€์ •]: ์•”์ด ์—†๋Š” ์‚ฌ๋žŒ์—๊ฒŒ 3%๊ฐ€ ์–‘์„ฑ์ด๋ผ ๋‚˜์˜ฌ ๊ฒƒ (= FP)
                      ์•”์ด ์žˆ๋Š” ์‚ฌ๋žŒ์—๊ฒŒ 10%๊ฐ€ ์Œ์„ฑ์ด๋ผ ๋‚˜์˜ฌ ๊ฒƒ(= FN)
 ๋”ฐ๋ผ์„œ ์šฐ์ธก์ฒ˜๋Ÿผ ๋„ค ๊ฐ€์ง€ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ๋ชจ๋‘ ์“ธ ์ˆ˜ ์žˆ๋‹ค:


๋‹ค์‹œ ํ•œ ๋ฒˆ, ์ด๋Ÿฐ ํ™•๋ฅ ์€ ์ •๊ทœํ™”๋˜์–ด ์•„๋ž˜๋ฅผ ๋งŒ์กฑํ•œ๋‹ค:



์ด์— ๋Œ€ํ•œ ํ•ฉ๊ณผ ๊ณฑ์˜ ํ™•๋ฅ ๋ฒ•์น™ ์ ์šฉ

์ฒซ ๋ฒˆ์งธ ์งˆ๋ฌธ์— ๋‹ตํ•˜๊ณ  ์ž„์˜๋กœ ํ…Œ์ŠคํŠธ ๋ฐ›์€ ์‚ฌ๋žŒ์ด ์–‘์„ฑ ํ…Œ์ŠคํŠธ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€์งˆ ์ „์ฒด์ ์ธ ํ™•๋ฅ :


random test์‹œ, ์‹ค์ œ ์•”ํ™•๋ฅ =1%, test๊ฐ€ ์–‘์„ฑ์ผ ํ™•๋ฅ =4%์ด๋ฏ€๋กœ
์ด๋ฐ ํ•ฉ์˜ ๋ฒ•์น™์„ ์‚ฌ์šฉํ•˜๋ฉด 
p(T = 0) = 1 387/10, 000 = 9613/10, 000 = 0.9613

๊ฐ€ ๋˜๊ณ , ๋”ฐ๋ผ์„œ ์•”์ด ์—†์„ ํ™•๋ฅ ์€ ๋Œ€๋žต 96%์ด๋‹ค.


์ด์ œ test=positive์ผ ๋•Œ, TP์ผ ํ™•๋ฅ ์€?
์ด๋Š” ํ…Œ์ŠคํŠธ ๊ฒฐ๊ณผ์— ์กฐ๊ฑด์„ ๊ฑธ์€ ์ƒํ™ฉ์—์„œ ์•”์— ๊ฑธ๋ฆด ํ™•๋ฅ ์„ ํ‰๊ฐ€ํ•ด์•ผ ํ•œ๋‹ค.
p(T=1|C=1)~p(T=0|C=0)๊นŒ์ง€์˜ ํ™•๋ฅ ์€ ํ•ด๋‹น ์‚ฌ๋žŒ์ด ์•”์— ๊ฑธ๋ ธ์„ ๋•Œ ํ…Œ์ŠคํŠธ ๊ฒฐ๊ณผ์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์ œ๊ณตํ•œ๋‹ค.
ํ•˜์ง€๋งŒ, ์šฐ๋ฆฌ๊ฐ€ ์›ํ•˜๋Š” ๊ฒƒ์€ ํ…Œ์ŠคํŠธ ๊ฒฐ๊ณผ์— ๋”ฐ๋ฅธ ์•”์— ๊ฑธ๋ฆด ํ™•๋ฅ ์ด๋ฏ€๋กœ ์ด๋Ÿฐ ์กฐ๊ฑด๋ถ€ํ™•๋ฅ ์„ ๋ฐ˜์ „์‹œํ‚ค๋Š” ๋ฌธ์ œ์— ๋Œ€ํ•ด Bayes' Theorem์„ ์ ์šฉ์‹œ์ผœ ์•„๋ž˜ ์‹์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

 

๋”ฐ๋ผ์„œ ์ž„์˜๋กœ ๊ฒ€์‚ฌ๋ฅผ ๋ฐ›์•„ ์–‘์„ฑ์ด ๋‚˜์˜จ ๊ฒฝ์šฐ, ์‹ค์ œ๋กœ ์•”์— ๊ฑธ๋ฆฐ ํ™•๋ฅ ์€ 23%์ด๋‹ค.
ํ•ฉ์˜ ๋ฒ•์น™์„ ์ด์šฉํ•˜๋ฉด, p(C = 0|T = 1) = 1 - 90/387 = 297/387 ≈ 0.77์ด ๋˜์–ด, ์•”์ด ์—†๋‹ค๋Š” ํ™•๋ฅ ์€ 77%๊ฐ€ ๋œ๋‹ค.

1.5 Prior์™€ Posterior ํ™•๋ฅ 

Bayes' Theorem์˜ ์ค‘์š”ํ•ด์„

โ‘  prior(์‚ฌ์ „ํ™•๋ฅ ):
์–ด๋–ค ์‚ฌ๋žŒ์ด ํ…Œ์ŠคํŠธ๋ฅผ ๋ฐ›๊ธฐ ์ „์— ํ•ด๋‹น ์‚ฌ๋žŒ์ด ์•”์— ๊ฑธ๋ฆด ๊ฐ€๋Šฅ์„ฑ์„ ๋ฌป๋Š”๋‹ค๋ฉด,
์šฐ๋ฆฌ๊ฐ€ ๊ฐ€์ง€๊ณ  ์žˆ๋Š” ๊ฐ€์žฅ ์™„์ „ํ•œ ์ •๋ณด๋Š” ํ™•๋ฅ  p(C)๋ฅผ ์‚ฌ์ „ํ™•๋ฅ ์ด๋ผ ํ•œ๋‹ค.
์ฆ‰, ํ…Œ์ŠคํŠธ ๊ฒฐ๊ณผ๋ฅผ ๊ด€์ฐฐํ•˜๊ธฐ ์ „์— ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ํ™•๋ฅ ์ด๋‹ค.

โ‘ก posterior(์‚ฌํ›„ํ™•๋ฅ ):
์ด ์‚ฌ๋žŒ์˜ test๊ฒฐ๊ณผ๋กœ Bayes' Theorem์œผ๋กœ (p(C|T)๋ฅผ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, 
์ด๋ฅผ ์‚ฌํ›„ ํ™•๋ฅ (posterior probability)์ด๋ผ๊ณ  ํ•œ๋‹ค.
์ฆ‰, ํ…Œ์ŠคํŠธ ๊ฒฐ๊ณผ T๋ฅผ ๊ด€์ฐฐํ•œ ํ›„์— ์–ป์€ ํ™•๋ฅ ์ด๋‹ค.

1.1 ์˜ˆ์ œ๋ฅผ ์‚ดํŽด๋ณด์ž.
โˆ™ ์•”์— ๊ฑธ๋ฆด prior = 1%. 
โˆ™ ์–‘์„ฑ๊ฒฐ๊ณผ๋ฅผ ๊ด€์ฐฐ ํ›„, ์•”์— ๊ฑธ๋ฆด posterior = 23%
์ƒ๋‹นํžˆ ๋†’์•„์ง„ ๊ฒƒ์„ ํ™•์ธ๊ฐ€๋Šฅํ•œ๋ฐ, ์ด๋Š” ์ง๊ด€์ ์œผ๋กœ ์˜ˆ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ์•”์˜ ๋†’์€ ํ™•๋ฅ ์ด๋‹ค. 

Butโ—๏ธFigure 2.3์—์„œ ๋ณด์ด๋“ฏ, ํ…Œ์ŠคํŠธ๊ฐ€ ์ƒ๋‹นํžˆ '์ •ํ™•'ํ•ด ๋ณด์ผ์ง€๋ผ๋„
์–‘์„ฑ ํ…Œ์ŠคํŠธ๋ฅผ ๋ฐ›์€ ์‚ฌ๋žŒ์€ ์—ฌ์ „ํžˆ ์‹ค์ œ๋กœ ์•”์— ๊ฑธ๋ฆด ํ™•๋ฅ ์ด 23%์ด๋‹ค.
์ด๋Š” ๋ณดํŽธ์ ์ธ ์‹œ๊ฐ์—์„œ ์ง๊ด€์— ์–ด๊ธ‹๋‚˜ ๋ณด์ผ ์ˆ˜ ์žˆ๋‹ค. (โˆต prior๊ฐ€ ๋‚ฎ๊ธฐ ๋•Œ๋ฌธ)

๋น„๋ก ํ…Œ์ŠคํŠธ๊ฐ€ ์•”์— ๊ฐ•๋ ฅํ•œ ์ฆ๊ฑฐ๋ฅผ ์ œ๊ณตํ•˜๋”๋ผ๋„, Bayes' Theorem์œผ๋กœ ์‚ฌ์ „ ํ™•๋ฅ ๊ณผ ๊ฒฐํ•ฉ๋˜์–ด ์˜ฌ๋ฐ”๋ฅธ ์‚ฌํ›„ ํ™•๋ฅ ์— ๋„๋‹ฌํ•ด์•ผ ํ•œ๋‹ค.

1.6 ๋…๋ฆฝ ๋ณ€์ˆ˜

[๋…๋ฆฝ(independent)]:
๋‘ ๋ณ€์ˆ˜์˜ ๊ฒฐํ•ฉ ๋ถ„ํฌ๊ฐ€ ์ฃผ๋ณ€์˜ ๊ณฑ์œผ๋กœ ๋‚˜ํƒ€๋‚  ๋•Œ ๋…๋ฆฝ์ด๋ผ ํ•œ๋‹ค.

์ฆ‰, ์ขŒ์ธก ์‹์— ๋Œ€ํ•ด X์™€ Y๋Š” ๋…๋ฆฝ์ด๋ผ ํ•œ๋‹ค.

ex-1) ๋™์ „์„ ์—ฐ์†์œผ๋กœ ๋˜์งˆ ๋•Œ, 
๊ณฑ์˜ ๋ฒ•์น™์— ๋”ฐ๋ผ (p(Y|X) = p(Y)์ด๋ฏ€๋กœ X์˜ ๊ฐ’์— ๋…๋ฆฝ์ ์ธ Y์˜ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ๋ฅผ ๊ฐ–๋Š”๋‹ค.

ex-2) 1.1 ์˜ˆ์ œ์—์„œ ์–‘์„ฑ ํ…Œ์ŠคํŠธ์˜ ํ™•๋ฅ ์ด ํ•ด๋‹น ์‚ฌ๋žŒ์ด ์•”์— ๊ฑธ๋ ธ๋Š”์ง€์— ๋…๋ฆฝ์ด๋ผ๋ฉด?
(p(T|C) = p(T)๊ฐ€ ์„ฑ๋ฆฝ
→ Bayes' Theorem์— ๋”ฐ๋ผ p(C|T) = p(C)
์ฆ‰, ํ…Œ์ŠคํŠธ ๊ฒฐ๊ณผ๋ฅผ ๊ด€์ฐฐํ•ด๋„ ์•”์˜ ํ™•๋ฅ ์ด ๋ณ€ํ•˜์ง€ ์•Š์Œ์„ ์˜๋ฏธ. (= test๊ฒฐ๊ณผ๊ฐ€ ์“ธ๋ชจ ์—†์Œ.)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


2. Probability Densities

preview

์ด์ œ, discrete๋ง๊ณ  continuous๋ณ€์ˆ˜์— ๋Œ€ํ•œ ํ™•๋ฅ ์„ ์•Œ์•„๋ณด์ž.

ex) ํ™˜์ž์—๊ฒŒ ์–ด๋–ค ์•ฝ๋ฌผ์„ ํˆฌ์—ฌํ•ด์•ผ ํ• ์ง€ ์˜ˆ์ธกํ•˜๊ณ ์ž ํ•œ๋‹ค๋ฉด?
→ ์ด ์˜ˆ์ธก์—๋Š” ๋ถˆํ™•์‹ค์„ฑ์ด ์กด์žฌ, ์ด๋ฅผ ์–‘์ ํ™”ํ•˜๋ ค๋ฉด ํ™•๋ฅ ์ด ํ•„์š”.
์ด ํ™•๋ฅ ๊ฐœ๋…์„ ์ง์ ‘์ ์œผ๋กœ ์ ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋‹ค๋ฃจ์ง€ ์•Š์•˜๊ธฐ์— "ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜"๊ฐœ๋…์„ ์†Œ๊ฐœ.

[ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜(probability density)]:
์—ฐ์† ๋ณ€์ˆ˜ x์— ๋Œ€ํ•ด,
p(x)δx = ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜ p(x)๋ฅผ x๊ฐ€ (x, x + δx) ๊ตฌ๊ฐ„์— ์†ํ•  ํ™•๋ฅ  (์ด๋•Œ, δx → 0).
(์œ„ ๊ทธ๋ฆผ ์ฐธ๊ณ ) ๊ตฌ๊ฐ„ (a, b)์— ์†ํ•  ํ™•๋ฅ :
ํ™•๋ฅ ์€ ๋น„์Œ์ˆ˜์ด๋ฉฐ, x์˜ ๊ฐ’์€ ์–ด๋”˜๊ฐ€์— ์‹ค์ˆ˜ ์ถ• ์ƒ์— ์œ„์น˜ํ•ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์—,
ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜ p(x)๋Š” ์•„๋ž˜ ๋‘ ๊ฐ€์ง€ ์กฐ๊ฑด์„ ๋งŒ์กฑํ•ด์•ผ ํ•œ๋‹ค:


x๊ฐ€ ๊ตฌ๊ฐ„ (-∞, z)์— ์†ํ•  ํ™•๋ฅ ์€
๋ˆ„์  ๋ถ„ํฌ ํ•จ์ˆ˜(cumulative distribution function, CDF)์— ์˜ํ•ด ์ •์˜๋˜๋Š”๋ฐ,
์ด๋Š” Figure 2.6์— ๋‚˜์™€ ์žˆ๋Š” ๊ฒƒ์ฒ˜๋Ÿผ P′(x) = p(x)๋ฅผ ๋งŒ์กฑํ•˜๋Š” ๋ˆ„์  ๋ถ„ํฌ ํ•จ์ˆ˜์ด๋‹ค:

x1, ..., xD์˜ ์—ฌ๋Ÿฌ ์—ฐ์† ๋ณ€์ˆ˜์— ๋Œ€ํ•ด, ์ด๋“ค์„ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” ๋ฒกํ„ฐ x๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๊ณ ,
์ด ๋ฒกํ„ฐ์— ๋Œ€ํ•œ ๊ฒฐํ•ฉ ํ™•๋ฅ  ๋ฐ€๋„ ํ•จ์ˆ˜๋ฅผ p(x) = p(x1, ..., xD)๋กœ ์ •์˜ํ•  ์ˆ˜ ์žˆ๋‹ค.
p(x)δx: x๊ฐ€ ์†ํ•œ δx์— ๋Œ€ํ•œ ํ™•๋ฅ  (δx: ๋ฌดํ•œ์†Œ ์ฒด์ ; infinitesimal volume)

์ด ๋‹ค๋ณ€๋Ÿ‰ ํ™•๋ฅ  ๋ฐ€๋„๋Š” ์•„๋ž˜ ์กฐ๊ฑด์„ ๋งŒ์กฑํ•œ๋‹ค:
์ ๋ถ„์€ x ๊ณต๊ฐ„ ์ „์ฒด์— ๊ฑธ์ณ ์ด๋ค„์ง.
cf) ์ด๋•Œ, ์ ๋ถ„๊ฐ’์ด ๋ฐœ์‚ฐํ•˜๋ฉด ์ •๊ทœํ™”๋  ์ˆ˜ ์—†๋Š”๋ฐ, ์ด ์ •๊ทœํ™”๋  ์ˆ˜ ์—†๋Š” ๋ถ„ํฌ๋ฅผ ๋ถ€์ ์ ˆํ•œ(improper) ๋ถ„ํฌ๋ผ ํ•œ๋‹ค.

๋” ์ผ๋ฐ˜์ ์œผ๋กœ, ์ด์‚ฐ ๋ฐ ์—ฐ์† ๋ณ€์ˆ˜์˜ ์กฐํ•ฉ์— ๋Œ€ํ•œ ๊ฒฐํ•ฉ ํ™•๋ฅ  ๋ถ„ํฌ๋„ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ๋‹ค:
ํ•ฉ๊ณผ ๊ณฑ์˜ ๋ฒ•์น™, ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๋Š” ์ด์‚ฐโˆ™์—ฐ์† ๋ณ€์ˆ˜์˜ ์กฐํ•ฉ, ํ™•๋ฅ  ๋ฐ€๋„์—๋„ ์ ์šฉ๊ฐ€๋Šฅํ•˜๊ธฐ์—
๋งŒ์•ฝ x์™€ y๊ฐ€ ๋‘ ์‹ค์ˆ˜ ๋ณ€์ˆ˜๋ผ๋ฉด, ํ•ฉ๊ณผ ๊ณฑ์˜ ๋ฒ•์น™์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ๋ฅผ ๊ฐ–๋Š”๋‹ค.
๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ๋ฒ ์ด์ฆˆ ์ •๋ฆฌ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ๋กœ ์“ธ ์ˆ˜ ์žˆ๋‹ค.
๋ถ„๋ชจ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค.
์—ฐ์† ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ํ•ฉ๊ณผ ๊ณฑ์˜ ๋ฒ•์น™์˜ ํ˜•์‹์ ์ธ ๊ทผ๊ฑฐ๋Š” ์ธก๋„๋ก (measure theory)์ด๋ผ๋Š” ์ˆ˜ํ•™ ๋ถ„์•ผ๋ฅผ ํ•„์š”๋กœ ํ•˜๋ฉฐ, ์ด๋Š” ๋ณธ ์ฑ…์˜ ๋ฒ”์œ„๋ฅผ ๋ฒ—์–ด๋‚˜์ง€๋งŒ, ์ด์˜ ์œ ํšจ์„ฑ์€ ๊ฐ ์‹ค์ˆ˜ ๋ณ€์ˆ˜๋ฅผ ํญ์ด โˆ†์ธ ๊ตฌ๊ฐ„์œผ๋กœ ๋‚˜๋ˆ„์–ด ์ด๋“ค ๊ฐ„์˜ ์ด์‚ฐ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๊ณ ๋ คํ•จ์œผ๋กœ์จ ๋น„ํ˜•์‹์ ์œผ๋กœ ํ™•์ธํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ์ด ๊ตฌ๊ฐ„์˜ ํญ์„ โˆ†๋กœ ํ•œ๊ณ„๋ฅผ ์ทจํ•˜๋ฉด ํ•ฉ์ด ์ ๋ถ„์œผ๋กœ ๋ณ€ํ•˜๊ณ  ์›ํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

 

2.1  ๋ถ„ํฌ ์˜ˆ์‹œ

[Laplace Distribution]

์ง€์ˆ˜ ๋ถ„ํฌ์˜ ๋ณ€ํ˜•์œผ๋กœ, ์ •์ ์„ ์œ„์น˜ μ๋กœ ์ด๋™์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.
์ƒ์ˆ˜, ์ง€์ˆ˜ ๋ฐ ๋ผํ”Œ๋ผ์Šค ๋ถ„ํฌ๋Š” Figure 2.7์—์„œ ์„ค๋ช…๋˜์–ด ์žˆ๋‹ค. 

[Dirac delta function]

๋””๋ž™ ๋ธํƒ€ ํ•จ์ˆ˜๋Š” x = μ์—์„œ๋งŒ 0์ด ์•„๋‹Œ ๊ฐ’์„ ๊ฐ€์ง€๋ฉฐ
p(x)์ ๋ถ„ ์‹œ, 1์ด ๋˜๋„๋ก ์ •์˜๋œ๋‹ค. (๋ฉด์ ์ด 1์ธ ํŠน์„ฑ)

์ง๊ด€์— ์˜๊ฑฐ, ์ด๋ฅผ x = μ์—์„œ ๋ฌดํ•œํžˆ ์ข๊ณ  ๋ฌดํ•œํžˆ ๋†’์€ ์ŠคํŒŒ์ดํฌ๋กœ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ ๋งŒ์•ฝ D = {x1, ..., xN}๋กœ ์ฃผ์–ด์ง„ x์˜ ์œ ํ•œํ•œ ๊ด€์ธก๊ฐ’ ์ง‘ํ•ฉ์ด ์žˆ๋‹ค๋ฉด,
๋ธํƒ€ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ฒฝํ—˜์  ๋ถ„ํฌ๋ฅผ ๊ตฌ์„ฑํ•  ์ˆ˜ ์žˆ๋‹ค.
์œ„ ์‹์— ์ •์˜๋œ ๊ฒฝํ—˜์  ๋ถ„ํฌ๋Š” ๊ฐ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ํ•˜๋Š” ๋””๋ž™ ๋ธํƒ€ ํ•จ์ˆ˜๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ,
์ด๋ฅผ ํ†ตํ•ด ์ •์˜๋œ ํ™•๋ฅ  ๋ฐ€๋„๋Š” ํ•„์š”์— ์˜ํ•ด ์ ๋ถ„ ์‹œ 1์ด๋‹ค.

 


2.2  ๊ธฐ๋Œ“๊ฐ’๊ณผ ๊ณต๋ถ„์‚ฐ

Expectation

ํ™•๋ฅ ๊ณผ ๊ด€๋ จ๋œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์ž‘์—… ์ค‘ ํ•˜๋‚˜๋Š” ํ•จ์ˆ˜์˜ ๊ฐ€์ค‘ ํ‰๊ท ์„ ์ฐพ๋Š” ๊ฒƒ์ด๋‹ค.
E[f] : ๊ธฐ๋Œ€๊ฐ’(expectation), ์ด๋•Œ, x์˜ ๋‹ค๋ฅธ ๊ฐ’๋“ค์˜ ์ƒ๋Œ€์  ํ™•๋ฅ ์— ๋”ฐ๋ผ "๊ฐ€์ค‘"๋œ๋‹ค.
  = ํ™•๋ฅ  ๋ถ„ํฌ p(x) ํ•˜์—์„œ ํ•จ์ˆ˜ f(x)์˜ ๊ฐ€์ค‘ ํ‰๊ท 
๋‘ ๊ฒฝ์šฐ ๋ชจ๋‘ ํ™•๋ฅ  ๋ถ„ํฌ๋‚˜ ํ™•๋ฅ  ๋ฐ€๋„๋กœ๋ถ€ํ„ฐ ๋ฝ‘ํžŒ ์œ ํ•œ ๊ฐœ์ˆ˜์˜ N๊ฐœ์˜ ์ ์ด ์ฃผ์–ด์ง„ ๊ฒฝ์šฐ, 
๊ธฐ๋Œ€๊ฐ’์€ ์ด๋Ÿฌํ•œ ์ ๋“ค์„ ์ด์šฉํ•œ ์œ ํ•œ ํ•ฉ์œผ๋กœ ๊ทผ์‚ฌํ™”๋  ์ˆ˜ ์žˆ๋‹ค.
์ด๋•Œ, ์œ„์˜ ๊ทผ์‚ฌ์‹์€ N → ∞๋กœ ์ˆ˜๋ ดํ•  ๋•Œ ๋” ์ •ํ™•ํ•ด์ง„๋‹ค.
(์ฆ‰, sample์ด ๋งŽ์•„์งˆ์ˆ˜๋ก ๊ทผ์‚ฌ๊ฐ’์ด ์‹ค์ œ ํ•จ์ˆ˜์˜ ๊ฐ€์ค‘ํ‰๊ท ๊ฐ’์— ๋” ์ˆ˜๋ ดํ•œ๋‹ค๋Š” ์˜๋ฏธ.)

๋•Œ๋กœ๋Š” ์—ฌ๋Ÿฌ ๋ณ€์ˆ˜์˜ ํ•จ์ˆ˜์— ๋Œ€ํ•œ ๊ธฐ๋Œ€๊ฐ’์„ ๊ณ ๋ คํ•  ๊ฒƒ์ด๋ฉฐ, ์ด ๊ฒฝ์šฐ ์–ด๋–ค ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ํ‰๊ท ์„ ๋‚˜ํƒ€๋‚ด๊ธฐ ์œ„ํ•ด ์šฐ์ธก์ฒ˜๋Ÿผ ํ•˜์œ„ ์ฒจ์ž๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค:

์ด๋Š” x์˜ ๋ถ„ํฌ์— ๋Œ€ํ•œ ํ•จ์ˆ˜ f(x, y)์˜ ํ‰๊ท ์„ ๋‚˜ํƒ€๋‚ด๋Š”๋ฐ ์—ฌ๊ธฐ์„œ Ex[f(x, y)]๋Š” y์˜ ํ•จ์ˆ˜์ด๋‹ค.


๋˜ํ•œ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ์— ๋Œ€ํ•œ ์กฐ๊ฑด๋ถ€ ๊ธฐ๋Œ€๊ฐ’์€ ์•„๋ž˜์™€ ๊ฐ™์œผ๋ฉฐ ์ด ์—ญ์‹œ y์— ๋Œ€ํ•œ ํ•จ์ˆ˜์ด๋‹ค.
์ด๋•Œ, ํ•จ์ˆ˜ f(x)์˜ ๋ถ„์‚ฐ์€ ์•„๋ž˜์™€ ๊ฐ™์ด ์ •์˜๋œ๋‹ค:
์ด๋Š” f(x)๊ฐ€ ๊ทธ ํ‰๊ท ๊ฐ’ E[f(x)]์ฃผ๋ณ€์—์„œ ์–ผ๋งˆ๋‚˜ ๋ณ€ํ•˜๋Š”์ง€๋ฅผ ์ธก์ •ํ•˜๋Š” ์ง€ํ‘œ๋ฅผ ์ œ๊ณตํ•œ๋‹ค. 
์ œ๊ณฑ์„ ํ’€์–ด์„œ ํ‘œํ˜„ํ•˜๋ฉด ๋ถ„์‚ฐ์€ f(x)์™€ f(x)2์˜ ๊ธฐ๋Œ€๊ฐ’์œผ๋กœ๋„ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค.
ํŠนํžˆ ๋ณ€์ˆ˜ x ์ž์ฒด์˜ ๋ถ„์‚ฐ์„ ๊ณ ๋ คํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค:

Covariance

๋‘ ํ™•๋ฅ  ๋ณ€์ˆ˜ x์™€ y์— ๋Œ€ํ•ด, ๊ณต๋ถ„์‚ฐ์€ ๋‘ ๋ณ€์ˆ˜๊ฐ€ ํ•จ๊ป˜ ์–ผ๋งˆ๋‚˜ ๋ณ€ํ•˜๋Š”์ง€๋ฅผ ์ธก์ •ํ•œ๋‹ค:


๋งŒ์•ฝ x์™€ y๊ฐ€ ๋…๋ฆฝ์ด๋ผ๋ฉด: Cov[x,y]=0



๋‘ ๋ฒกํ„ฐ x์™€ y์— ๋Œ€ํ•ด, ๊ทธ๋“ค์˜ ๊ณต๋ถ„์‚ฐ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ–‰๋ ฌ์ด๋‹ค:


๋งŒ์•ฝ ๋ฒกํ„ฐ x์˜ ๊ตฌ์„ฑ ์š”์†Œ๋“ค ๊ฐ„์˜ ๊ณต๋ถ„์‚ฐ์„ ๊ณ ๋ คํ•œ๋‹ค๋ฉด,
๋” ๊ฐ„๋‹จํ•œ ํ‘œ๊ธฐ๋ฒ•์œผ๋กœ cov[x] ≡ cov[x, x]๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

 

 

 

 

 

 

 

 

 

 


3.  The Gaussian Distribution ๐ŸŒŸ

prev.

์—ฐ์†๋ณ€์ˆ˜๋ถ„ํฌ์˜ˆ์‹œ๋“ค ์ค‘, ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๋ถ„ํฌ๋ฅผ ๊ผฝ์œผ๋ผ๋ฉด ๋‹จ์—ฐ Gaussian Distribution(= ์ •๊ทœ๋ถ„ํฌ)์ด๋‹ค:
์ •๊ทœ๋ถ„ํฌ๋Š” ํ‰๊ท (μ)๊ณผ ๋ถ„์‚ฐ(σ²)์— ์˜ํ•ด ์ง€๋ฐฐ๋˜๋Š” x์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ฐ€๋„์ด๋‹ค.
์ด๋•Œ, ํ‘œ์ค€ํŽธ์ฐจ(σ)๋ฅผ ์ด์šฉํ•ด precision์„ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.
โˆ™ precision(β) = 1/σ² = ๋ถ„์‚ฐ์˜ ์—ญ์ˆ˜
์ •๊ทœ๋ถ„ํฌ ๊ทธ๋ž˜ํ”„ ๊ฐœํ˜•.

Gaussian ๋ถ„ํฌ๋Š” ์ตœ๋Œ€ ์—”ํŠธ๋กœํ”ผ์˜ ๊ฐœ๋…๊ณผ ์ค‘์‹ฌ ๊ทนํ•œ ์ •๋ฆฌ์˜ ๊ด€์ ์—์„œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋‚˜ํƒ€๋‚œ๋‹ค.
Gaussian ๋ถ„ํฌ๋Š” ์•„๋ž˜์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜๋ฉฐ, ์ •๊ทœํ™”๋˜์–ด์žˆ์Œ์„ ์ฆ๋ช…ํ•  ์ˆ˜ ์žˆ๋‹ค.
๋”ฐ๋ผ์„œ Gaussian๋ถ„ํฌ ์‹์ด ์œ ํšจํ•จ์„ ์ฆ๋ช…๊ฐ€๋Šฅํ•˜๋‹ค:

 

3.1 ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ

Gaussian๋ถ„ํฌ ํ•˜์—์„œ x์— ๋Œ€ํ•œ ํ•จ์ˆ˜์˜ ๊ธฐ๋Œ“๊ฐ’:

์ด๋•Œ, ๋ถ„ํฌ์˜ ํ‰๊ท ๊ฐ’(μ)์„ ๋‚˜ํƒ€๋‚ด์„œ
๋งค๊ฐœ ๋ณ€์ˆ˜ μ๋ฅผ ํ‰๊ท ์ด๋ผ๊ณ  ํ•œ๋‹ค.

์œ„ ์‹์˜ ์ ๋ถ„์€ ๋ถ„ํฌ์˜ x๋ฅผ 1์Šน์œผ๋กœ ์ œ๊ณฑํ•œ ๊ฒƒ์˜ ๊ธฐ๋Œ€๊ฐ’์ด๋ผ๊ณ  ์•Œ๋ ค์ง„ ์ œ1์ˆœ ์ ๋ฅ (first-order moment)๋กœ ๋น„์Šทํ•˜๊ฒŒ 2์ฐจ moment์— ๋Œ€ํ•ด ํ‰๊ฐ€๋ฅผ ํ•  ์ˆ˜ ์žˆ๋‹ค:

์œ„ ์‹๋“ค์„ ์ด์šฉํ•ด ๊ตฌํ•ด์ง„ ๋ถ„์‚ฐ๊ฐ’์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:

๋”ฐ๋ผ์„œ σ2๋Š” ๋ถ„์‚ฐ ๋งค๊ฐœ ๋ณ€์ˆ˜๋กœ ์•Œ๋ ค์ ธ ์žˆ์œผ๋ฉฐ,
๋ถ„ํฌ์˜ ์ตœ๋Œ“๊ฐ’์„ ์ตœ๋นˆ๊ฐ’์ด๋ผ๊ณ  ํ•œ๋‹ค. (Gaussian์˜ ๊ฒฝ์šฐ, mode=mean)

 


3.2  Likelihood ํ•จ์ˆ˜

[๊ฐ€์ •]: μ์™€  σ2์ด ์•Œ๋ ค์ง€์ง€ ์•Š์€ ์ •๊ทœ๋ถ„ํฌ์—์„œ ๋…๋ฆฝ์ ์œผ๋กœ ์ถ”์ถœ๋œ N๊ฐœ์˜ ๊ด€์ธก dataset์— ๋Œ€ํ•ด μ์™€  σ๊ฐ’์„ ๊ฒฐ์ •ํ•˜๊ณ ์ž ํ•œ๋‹ค.
์ด๋•Œ,
๊ด€์ธก์น˜ ์ง‘ํ•ฉ์—์„œ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์ถ”์ •ํ•˜๋Š” ๋ฌธ์ œ๋Š” ๋ฐ€๋„ ์ถ”์ •(density estimation)์œผ๋กœ ์•Œ๋ ค์ ธ ์žˆ์œผ๋ฉฐ ๋ฐ€๋„ ์ถ”์ •์˜ ๋ฌธ์ œ๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ ์ž˜ ์ •์˜๋˜์ง€ ์•Š๋Š”๋‹ค. (โˆต ๊ด€์ธก๋œ ์œ ํ•œํ•œ Dataset์—์„œ ๋ฐœ์ƒ๊ฐ€๋Šฅํ•œ ๋ฌดํ•œํ•œ ํ™•๋ฅ ๋ถ„ํฌ๊ฐ€ ์กด์žฌํ•ด์„œ.)

[๋ฐฉ๋ฒ•]:
์‚ฌ์‹ค, x1,...,xN ๊ฐ๊ฐ์˜ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ์—์„œ 0์ด ์•„๋‹Œ ๋ชจ๋“  p(x)๋Š” ์ž ์žฌ์ ์ธ ํ›„๋ณด.
์—ฌ๊ธฐ์„œ๋Š” ๊ฐ€๋Šฅํ•œ ํ›„๋ณด๋“ค์„ ๊ฐ€์šฐ์‹œ์•ˆ์œผ๋กœ ์ œํ•œํ•˜๋ฉด, ๋ช…ํ™•ํ•˜๊ฒŒ ์ •์˜๋œ ํ•ด๊ฒฐ์ฑ…์— ๋„๋‹ฌํ•œ๋‹ค.

i.i.d (independent & identically distributed)

data point๊ฐ€ ๋™์ผ๋ถ„ํฌ์—์„œ ๋…๋ฆฝ์ ์œผ๋กœ ์ถ”์ถœ๋œ ๊ฒƒ.
์ด๋•Œ, Joint probability๋Š” ๋‘ event๊ฐ„์˜ ๊ณฑ์œผ๋กœ ํ‘œํ˜„.
x๊ฐ€ i.i.d์ด๊ณ  μ์™€ σ2๊ฐ€ ์ฃผ์–ด์ง„ ๊ฒฝ์šฐ, Dataset์˜ ํ™•๋ฅ ์€ ์šฐ์ธก๊ณผ ๊ฐ™๋‹ค:


Likelihood Function

Gaussian์— ๋Œ€ํ•œ Likelihoodํ•จ์ˆ˜: ๊ทธ๋ฆผ 2.9์ฒ˜๋Ÿผ๋งŒ์•ฝ μ์™€ σ2์˜ ํ•จ์ˆ˜๋กœ ๋ณผ ๋•Œ์˜ Gaussian function

Maximum Likelihood:
์ด๋•Œ ๊ด€์ฐฐ๋œ Dataset์œผ๋กœ ํ™•๋ฅ ๋ถ„ํฌ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•.
Likelihood Function์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” parameter๋ฅผ ์ฐพ๋Š” ๋ฐฉ๋ฒ•.

Step 1. Gaussian์—์„œ Gaussian Likelihoodํ•จ์ˆ˜๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜์—ฌ ์•Œ๋ ค์ง€์ง€ ์•Š์€ ๋งค๊ฐœ ๋ณ€์ˆ˜ μ์™€ σ2์˜ ๊ฐ’์„ ๊ฒฐ์ •.
(์‹ค์ œ๋กœ Likelihoodํ•จ์ˆ˜์˜ log๋ฅผ ์ตœ๋Œ€ํ™” ํ•˜๋Š” ๊ฒƒ์ด ํŽธ๋ฆฌ.)
(์‹ค์šฉ์ ์œผ๋กœ๋„, ํฐ ์ˆ˜์˜ ์ž‘์€ ํ™•๋ฅ ์˜ ๊ณฑ์€ ์ปดํ“จํ„ฐ์˜ ์ˆซ์ž ์ •๋ฐ€๋„๋ฅผ ์†์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ๊ธฐ์—, ์ด๋Š” ๋กœ๊ทธ ํ™•๋ฅ ์˜ ํ•ฉ์„ ๊ณ„์‚ฐํ•จ์œผ๋กœ์จ ํ•ด๊ฒฐ๊ฐ€๋Šฅ.)

์ด์— ๋”ฐ๋ผ์„œ ๋กœ๊ทธ ๊ฐ€๋Šฅ๋„ ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:



์œ„ ์‹์„ μ์— ๋Œ€ํ•ด ์ตœ๋Œ€ํ™”ํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ Maximum Likelihood ํ•ด๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.
์ด๋ฅผ sample mean, ํ‘œ๋ณธํ‰๊ท ์ด๋ผ ํ•˜๋ฉฐ, ์ด๋Š” ๊ด€์ธก๋œ ๊ฐ’ {xn}๋“ค์˜ ํ‰๊ท ์„ ์˜๋ฏธํ•œ๋‹ค.
๋น„์Šทํ•˜๊ฒŒ σ2์— ๋Œ€ํ•ด ์ตœ๋Œ€ํ™” ์‹œ, ๋ถ„์‚ฐ์— ๋Œ€ํ•œ ์ตœ๋Œ€ ์šฐ๋„ํ•ด๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

์ด๋ฅผ ํ‘œ๋ณธ ํ‰๊ท  μML์— ๋Œ€ํ•œ sample variance, ํ‘œ๋ณธ ๋ถ„์‚ฐ์ด๋ผ ํ•œ๋‹ค.

์ฃผ์˜ํ•  ์ ์€ ์šฐ๋ฆฌ๊ฐ€ μ์™€ σ2์— ๋Œ€ํ•ด (2.56)์„ ๋™์‹œ์— ์ตœ๋Œ€ํ™”ํ•˜์ง€๋งŒ,
Gaussian๋ถ„ํฌ๋Š” μ์— ๋Œ€ํ•œ ํ•ด๊ฐ€ σ2์— ๋Œ€ํ•œ ํ•ด์—์„œ ๋…๋ฆฝ๋˜์–ด ๊ณ„์‚ฐ๋  ์ˆ˜ ์žˆ๊ธฐ์—
๋”ฐ๋ผ์„œ ๋จผ์ € μML์„ ํ‰๊ฐ€ํ•˜๊ณ  ์ด ๊ฒฐ๊ณผ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‚˜์ค‘์— σML2์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค.

3.3  Maximum Likelihood์˜ Bias

Maximum Likelihood, ๋ณธ Section์—์„œ๋Š” ML์ด๋ผ ๋ถ€๋ฅด๊ฒ ๋‹ค.
ML์€ ๋”ฅ๋Ÿฌ๋‹์—์„œ ๋„๋ฆฌ์‚ฌ์šฉ๋˜์–ด ๊ธฐ๊ณ„ํ•™์Šต์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๊ทผ๊ฐ„์ด ๋˜์ง€๋งŒ, ๋ช‡๊ฐ€์ง€ ์ œํ•œ์‚ฌํ•ญ์ด ์žˆ๋Š”๋ฐ, ์ด๋ฅผ ๋‹จ์ผ ๋ณ€์ˆ˜ ๊ฐ€์šฐ์‹œ์•ˆ์„ ์‚ฌ์šฉํ•œ ์˜ˆ์ œ๋ฅผ ํ†ตํ•ด ์•Œ์•„๋ณด์ž.

Maximum Likelihood์˜ ์ œํ•œ์‚ฌํ•ญ(feat. bias)

[๊ฐ€์ •]:
μML๊ณผ σ2์€ Dataset(x1, ..., xN)์˜ ํ•จ์ˆ˜๋กœ ์ด ๊ฐ’๋“ค์ด
์‹ค์ œ๋กœ μ์™€ σ2๊ฐ€ μML๊ณผ σML2๋กœ ์ถ”์ •๋œ ์ •๊ทœ๋ถ„ํฌ์—์„œ i.i.d๋กœ ์ƒ์„ฑ๋จ.

์ด Dataset์— ๋Œ€ํ•œ μML๊ณผ σ2์˜ ๊ธฐ๋Œ€๊ฐ’์„ ๊ณ ๋ คํ•ด ๋ณด์ž:

[๊ฒฐ๊ณผ]:
์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š” ์•„๋ž˜ 2๊ฐ€์ง€๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
μML   =  μ์˜ ๋ถˆํŽธ ์ถ”์ •๋Ÿ‰
σML2 ≠  σ2์˜ ๋ถˆํŽธ ์ถ”์ •๋Ÿ‰. (N-1 / N)
∴ ML๋ฐฉ๋ฒ•์€ ๋”ฐ๋ผ์„œ ์ตœ๋Œ€ ์šฐ๋„ ๋ฐฉ๋ฒ•์€ ๋ชจ์ง‘๋‹จ ์ถ”์ •์— ์™„๋ฒฝํ•˜์ง€ ์•Š๋‹ค.

์ด๊ฒƒ์€ ๋ฐ”์ด์–ด์Šค(bias)๋ผ๊ณ  ๋ถˆ๋ฆฌ๋Š” ํ˜„์ƒ์˜ ์˜ˆ์‹œ์ด๋‹ค.

[Bias]:
randomํ•œ ์ถ”์ •๋Ÿ‰์ด ์‹ค์ œ๊ฐ’๊ณผ ์ฒด๊ณ„์ ์œผ๋กœ ๋‹ค๋ฅธ ๊ฒƒ.

[Bias๋ฐœ์ƒ์›์ธ]:
๋ถ„์‚ฐ์ด ๋ฐ์ดํ„ฐ์— ๋งž๊ฒŒ ์กฐ์ •๋œ MLE๊ธฐ์ค€์œผ๋กœ ์ธก์ •๋˜๊ธฐ ๋•Œ๋ฌธ
์•„๋ž˜ ๊ทธ๋ฆผ์„ ํ†ตํ•ด ์ง๊ด€์ ์ธ ์ดํ•ด๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.

๋Œ€์‹  ์‹ค์ œ ํ‰๊ท  μ์— ์ ‘๊ทผํ•˜์—ฌ ์•„๋ž˜์ฒ˜๋Ÿผ ๋ถ„์‚ฐ์„ ๊ฒฐ์ •ํ•˜๋Š”๋ฐ ์‚ฌ์šฉํ–ˆ๋‹ค ๊ฐ€์ •ํ•˜์ž:
์ด๋ ‡๊ฒŒ ๋˜๋ฉด unbiased๋œ ๋ถ„์‚ฐ ์ถ”์ •์น˜ ๊ฐ’์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด๋Š” ์‹ค์ œ ๋ถ„์‚ฐ๊ณผ ๊ฐ™์•„์ง„๋‹ค:
๋ฌผ๋ก  ์šฐ๋ฆฌ๋Š” ์‹ค์ œ ํ‰๊ท ์— ์ ‘๊ทผํ•  ์ˆ˜ ์—†๊ณ  ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ ๊ฐ’์—๋งŒ ์ ‘๊ทผํ•  ์ˆ˜ ์žˆ๊ธฐ์— ์‹ค์ œ ๋ถ„์‚ฐ๊ณผ ๊ฐ™์•„์ง€๊ธด ์–ด๋ ต๋‹ค.

๋‹ค๋งŒ, ML๋ถ„์‚ฐ์˜ ํ‰๊ท ์— ๋”ฐ๋ผ Gaussian๋ถ„ํฌ์— ๋Œ€ํ•œ ๋ถ„์‚ฐ์˜ ๋‹ค์Œ ์ถ”์ •์น˜์˜ ๊ฒฝ์šฐ, ํŽธํ–ฅ์ด ์—†์–ด์ง„๋‹ค:

๋‹ค๋งŒ, ์‹ ๊ฒฝ๋ง์ฒ˜๋Ÿผ ๋ณต์žกํ•œ ๋ชจ๋ธ์—์„œ๋Š” ML์˜ bias๋ณด์ •์ด ์‰ฝ์ง€ ์•Š๋‹ค.
๋˜ํ•œ, MLE์˜ bias๋Š” Data point N์ด ๋งŽ์•„์ง€๋ฉด, ๋œ ์ค‘์š”ํ•ด์ง€์ง„๋‹ค.(lim N → ∞,  σML2 = σ2)

Gaussian์˜ ๊ฒฝ์šฐ, ๋„ˆ๋ฌด N์ด ์ ์ง€ ์•Š์€ ์ด์ƒ ์ด bias๊ฐ€ ํฐ ๋ฌธ์ œ๊ฐ€ ๋˜์ง„ ์•Š์ง€๋งŒ
๋ณธ ์ €์„œ๋Š” Deep Learning ์ฆ‰, ๋งŽ์€ parameter๋ฅผ ๊ฐ–๋Š” ๋ชจ๋ธ์— ์ดˆ์ ์„ ๋‘์—ˆ๊ธฐ์—
ML๊ณผ ๊ด€๋ จ๋œ bias๋ฌธ์ œ๋Š” ๋ณด๋‹ค ์‹ฌ๊ฐํ•˜๋‹ค.(Overfitting๋ฌธ์ œ์™€ ๋ฐ€์ ‘ํ•œ ๊ด€๋ จ์„ฑ์„ ๊ฐ€์ง.)

3.4 Linear Regression

Linear Regression์—์„œ Error function๊ณผ Regularization์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž.

Regression์˜ ๋ชฉํ‘œ:
input x์— ๋Œ€ํ•œ target t์˜ ์˜ˆ์ธก์„ ๊ฐ€๋Šฅ์ผ€ ํ•˜๋Š” ๊ฒƒ.       

[๊ฐ€์ •]:

training data=  input x = (x1, ..., xN) & target t = (t1, ..., tN)
x๊ฐ€ ์ฃผ์–ด์งˆ ๋•Œ, t์˜ ๋ถˆํ™•์‹ค์„ฑ์„ ํ™•๋ฅ ๋ถ„ํฌ๋กœ ๋‚˜ํƒ€๋‚ด๊ณ ์ž ํ•จ.
์ด๋•Œ, data๋Š” i.i.d
์ด๋ฅผ ์œ„ํ•ด ์ฃผ์–ด์ง„ x์— ๋Œ€ํ•œ t์˜ ๊ฐ’์ด y(x, w) ๊ฐ’๊ณผ ๋™์ผํ•œ ํ‰๊ท  μ์™€ ๋ถ„์‚ฐ σ2์„ ๊ฐ–๋Š” Gaussian ๋ถ„ํฌ๋ฅผ ๊ฐ€์ง:

ํ‰๊ท ์€ ๋‹คํ•ญ์‹ํ•จ์ˆ˜ y๋กœ ์ฃผ์–ด์ง€๊ณ , ๋ถ„์‚ฐ์€ p์˜ ๋ถ„์‚ฐ์œผ๋กœ ์ฃผ์–ด์ง„๋‹ค.
train data {x, t}๋ฅผ ์‚ฌ์šฉํ•ด ML๋กœ ์•Œ ์ˆ˜ ์—†๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜ w์™€ σ2์˜ ๊ฐ’์„ ๊ฒฐ์ •ํ•˜์ž. 
i.i.d์ด๋ฏ€๋กœ ML๋ฐฉ๋ฒ•์„ ํ†ตํ•ด w๋ฅผ ๊ฒฐ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.
์œ„ ๋„์‹์˜ ๋ถ„ํฌ์™€ i.i.d๋กœ data์ถ”์ถœ๋˜์—ˆ๋‹ค ๊ฐ€์ •์‹œ likelihoodํ•จ์ˆ˜:

๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์‹์œผ๋กœ ML์„ ์ˆ˜ํ–‰์‹œ Log-Likelihoodํ•จ์ˆ˜:
wML: ๋‹คํ•ญ์‹ ๊ณ„์ˆ˜์— ๋Œ€ํ•œ MLE๊ฐ’์œผ๋กœ ์ด ๊ฐ’์€ w์— ๋Œ€ํ•ด ์œ„์˜ ์‹์„ ์ตœ๋Œ€ํ™”ํ•˜์—ฌ ๊ฒฐ์ •๋˜๋ฏ€๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์€ trick์„ ์‚ฌ์šฉํ•ด๋ณด์ž.

โ‘  ์œ„์˜ ์‹์˜ ์šฐ๋ณ€์—์„œ ๋งˆ์ง€๋ง‰ ๋‘ ํ•ญ์„ ์ƒ๋žตํ•  ์ˆ˜ ์žˆ๋‹ค. (โˆต w์— ์˜์กดํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ)

โ‘ก Log-Likelihood๋ฅผ ์–‘์˜ ์ƒ์ˆ˜๊ณ„์ˆ˜๋กœ ์Šค์ผ€์ผ๋ง  
(โˆต
w์— ๋Œ€ํ•œ ์ตœ๋Œ€๊ฐ’์˜ ์œ„์น˜๋ฅผ ๋ณ€๊ฒฝํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ
1/2σ2 ๋Œ€์‹  1/2๋กœ ๊ณ„์ˆ˜๋ฅผ ๋Œ€์ฒด)


โ‘ข MLE → NLL ์ตœ์†Œํ™” (= w ๊ฒฐ์ • ์‹œ MSE์™€ ๋™์ผํ•˜๊ฒŒ ๋จ)
∴ Gaussian Noise Distribution์„ ๊ฐ€์ •, MLE์˜ ๊ฒฐ๊ณผ๊ฐ€ MSE๋กœ ๋ฐ”๋€Œ์–ด ๋ฒ„๋ฆฐ ๊ฒƒ!

๋˜ํ•œ, MLE๋ฅผ ์ด์šฉํ•ด σ2๋ฅผ ๊ฒฐ์ •ํ•  ์ˆ˜๋„ ์žˆ๋Š”๋ฐ, σ2์— ๋Œ€ํ•œ ์ตœ๋Œ€ํ™”๋Š” ์•„๋ž˜์˜ ์‹๊ณผ ๊ฐ™๋‹ค:
ํ‰๊ท ์„ ์ง€๋ฐฐํ•˜๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ฒกํ„ฐ wML๋ฅผ ๋จผ์ € ๊ฒฐ์ •ํ•˜๊ณ , ๊ฐ„๋‹จํ•œ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์˜ ๊ฒฝ์šฐ์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์ด๋ฅผ ์‚ฌ์šฉํ•ด σML2์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค.

w์™€ σ2 ๊ฒฐ์ • ์ดํ›„, ์—๋Š” ์ƒˆ๋กœ์šด  x๊ฐ’์— ๋Œ€ํ•œ ์˜ˆ์ธก๋„ ๊ฐ€๋Šฅํ•œ๋ฐ,

probabilistic๋ชจ๋ธ์ด ์žˆ๊ธฐ์— ์ด๋Ÿฐ ์˜ˆ์ธก์€ ๋‹จ์ˆœํ•œ point ์ถ”์ •์ด ์•„๋‹Œ,

t์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ถ„ํฌ๋กœ ํ‘œํ˜„๋˜๋ฉฐ, ์ตœ๋Œ€ ์šฐ๋„ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์šฐ์ธก ์œ„์ชฝ์‹์— ๋Œ€์ž…ํ•˜๋ฉด ์šฐ์ธก ์•„๋ž˜์‹์„ ์–ป๋Š”๋‹ค:

 

 

 

 

 

 

 


4.  Transformation of Densities

๋ณ€์ˆ˜๊ฐ„์˜ ๋น„์„ ํ˜•๋ณ€ํ™˜

๋ณ€์ˆ˜์˜ ๋น„์„ ํ˜•๋ณ€ํ™˜์— ๋Œ€ํ•ด ํ™•๋ฅ ๋ฐ€๋„๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ณ€ํ• ๊นŒ?
Chapter 18. Normalizing flow๋ผ๋Š” ์ƒ์„ฑ๋ชจ๋ธํด๋ž˜์Šค๋ฅผ ๋‹ค๋ฃฐ๋•Œ ์ค‘์š”ํ•œ ์—ญํ• .
x→y๋กœ ๋ณ€ํ™˜ํ•œ ํ•จ์ˆ˜์‹
์œ„ ์‹์— ๋Œ€ํ•œ ํ™•๋ฅ ๋ฐ€๋„ px(x)๋ฅผ ์ƒ๊ฐํ•ด๋ณด์ž.
๋˜ํ•œ, x=g(y)๋ฅผ ์ด์šฉํ•ด ์ƒˆ๋กœ์šด ๋ณ€์ˆ˜ y์— ๋Œ€ํ•œ ๋ฐ€๋„ py(y)๋ฅผ ์ƒ์„ฑํ•˜์ž.

๋งค์šฐ ์ž‘์€๊ฐ’ δx์— ๋Œ€ํ•ด (x, x+δx)๋ฒ”์œ„์•ˆ์— ์žˆ๋Š” x=g(y)์— ๋Œ€ํ•ด (y, y+δy)๋ฒ”์œ„๋กœ ๋ณ€ํ™˜๋  ์ˆ˜ ์žˆ๋‹ค.
๋”ฐ๋ผ์„œ px(x)δx โ‰ƒ py(y)δy๊ฐ€ ์„ฑ๋ฆฝํ•œ๋‹ค.
๋˜ํ•œ, δx→0์ผ ๋•Œ, ์•„๋ž˜ ์‹์„ ์–ป๋Š”๋‹ค.
์ด๋•Œ, ์ ˆ๋Œ“๊ฐ’์˜ ์ด์œ ๋Š” ๋„ํ•จ์ˆ˜๊ฐ€ ์Œ์ˆ˜๋˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€. (๋ฐ€๋„๋Š” ํ•ญ์ƒ ์–‘์ˆ˜์ด๊ธฐ ๋•Œ๋ฌธ.)


์ฆ‰, f๋ผ๋Š” ๋น„์„ ํ˜•ํ•จ์ˆ˜, x→y๋กœ ๋ณ€ํ™˜๋œ ๋ณ€์ˆ˜์˜ ํ™•๋ฅ ๋ฐ€๋„๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ณ€ํ•˜๋Š”์ง€์— ๋Œ€ํ•ด ์„ค๋ช…ํ•˜๊ณ  ์žˆ์Œ.


์œ„์—์„œ ์„ค๋ช…ํ•œ ๋ฐ€๋„๋ณ€ํ™˜๋ฐฉ๋ฒ•์€ ๋งค์šฐ ๊ฐ•๋ ฅํ•  ์ˆ˜ ์žˆ๋‹ค.

๋ชจ๋“  ๋ฐ€๋„ p(y)๋Š” ๋ชจ๋“ ๊ณณ์—์„œ 0์ด์•„๋‹Œ ๊ณ ์ •๋œ ๋ฐ€๋„ q(x)๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ.
์ด๋•Œ, q(x)๋Š” x=f(y)์ธ ๋น„์„ ํ˜•๋ณ€์ˆ˜๋ณ€ํ™˜์œผ๋กœ ์–ป์–ด์ง„ ๊ฐ’.

ˆx์ด ๊ทน๊ฐ’์ธ f(x)ํ•จ์ˆ˜์— ๋Œ€ํ•ด ์œ„ ์‹์—์„œ์˜ ์ ˆ๋Œ“๊ฐ’์œผ๋กœ ์ธํ•ด f'( ˆx)=0์ด ๋˜์–ด๋ฒ„๋ฆฐ๋‹ค.
์ฆ‰, ์•„๋ž˜์‹์ด ์„ฑ๋ฆฝํ•œ๋‹ค.
๊ทน๊ฐ’์—์„œ g'( ˆy)≠0์ด๋ผ๋ฉด f'(g'( ˆy)) = 0์ด๋‹ค. (ํ•ฉ์„ฑํ•จ์ˆ˜ ์„ฑ์งˆ.)
์ฆ‰, ์ด๋Š” x์™€ y์— ๋Œ€ํ•œ ๊ทน๊ฐ’์˜ ์œ„์น˜๊ฐ€ ˆx = g(ˆy)๋กœ ๊ด€๋ จ๋˜์–ด ์žˆ์Œ์„ ์˜๋ฏธ.
๊ทธ๋ ‡๊ธฐ์— ์„œ๋กœ๊ฐ„์˜ mode(๊ทน๊ฐ’)์ฐพ๊ธฐ๋Š” ์„œ๋กœ์—๊ฒŒ ์˜์กดํ•˜๊ฒŒ ๋œ ๊ฒƒ.

(๋‹ค๋งŒ, ์•„๋ž˜ ์˜ˆ์ œ๋ฅผ ๋ณด๋ฉด ์™„์ „ํžˆ ์™„๋ฒฝํ•˜๊ฒŒ ์„œ๋กœ๊ฐ„์˜ mode๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ๋Š” ๋Š๋‚Œ์€ ์•„๋‹Œ๋“ฏ.)

Ex) ์•„๋ž˜ ๊ทธ๋ฆผ์œผ๋กœ ์„ค๋ช…์„ ์ถ”๊ฐ€ํ•ด๋ณด์ž.
๋นจ๊ฐ„๊ณก์„ : x์— ๋Œ€ํ•œ ์ •๊ทœ๋ถ„ํฌ px(x)
์ด ๋ถ„ํฌ์—์„œ N=5๋งŒ๊ฐœ ์  ์ถ”์ถœ, histogram์„ ๊ทธ๋ฆผ.
→ px(x)์™€ ๊ฑฐ์˜ ์ผ์น˜ํ•  ๊ฒƒ.

x→y๋กœ์˜ ๋น„์„ ํ˜•๋ณ€์ˆ˜๋ณ€ํ™˜์„ ๊ณ ๋ คํ•ด๋ณด์ž.
x = g(y) = ln(y)-ln(1-y)+5

์ด ํ•จ์ˆ˜์˜ ์—ญํ•จ์ˆ˜๋Š” Sigmoidํ•จ์ˆ˜๋กœ ํŒŒ๋ž€๊ณก์„ ์ด๋‹ค.

px(g(y)): ๋งŒ์•ฝ ๋‹จ์ˆœํžˆ px(x)๋ฅผ x์˜ ํ•จ์ˆ˜๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค๋ฉด ์–ป๋Š” ๋ถ„ํฌ, ๊ณก์„ ์˜ mode๊ฐ€ ๋ณ€ํ™˜๋œ ๊ฒƒ์„ ํ™•์ธ๊ฐ€๋Šฅ.


๋‹ค๋งŒ, y์— ๋Œ€ํ•œ ๋ฐ€๋„๋Š” ์ขŒ์ธก ์‹์— ์˜ํ•ด ๋ณ€ํ˜•๋˜๊ธฐ์—

์ขŒ์ธก์˜ ํ•‘ํฌ ๊ณก์„ (right-skewed)์œผ๋กœ ๋‚˜ํƒ€๋‚œ๋‹ค.
์ด์— ๋Œ€ํ•œ ์ •ํ™•ํ•œ ์ธก์ •์€ 5๋งŒ๊ฐœ์˜ sample์„ ์ด์šฉํ•ด ๋ณ€ํ™˜ ํ›„ histogram์œผ๋กœ ํ™•์ธ๊ฐ€๋Šฅํ•œ๋ฐ, ์ดˆ๋ก์ƒ‰๊ณก์„ ๊ณผ๋Š” ์ผ์น˜ํ•˜์ง€ ์•Š์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.


4.1  ๋‹ค๋ณ€๋Ÿ‰ ๋ถ„ํฌ with Jacobian Matrix


์ขŒ์ธก ์‹์˜ ๊ฒฐ๊ณผ๋ฅผ D์ฐจ์› ๋ณ€์ˆ˜์— ๋Œ€ํ•ด ์ •์˜๋œ ๋ฐ€๋„์— ํ™•์žฅํ•ด๋ณด์ž.
์ฆ‰, ๋‹จ๋ณ€๋Ÿ‰์˜ ๋น„์„ ํ˜•๋ณ€์ˆ˜๋ณ€ํ™˜→๋‹ค๋ณ€๋Ÿ‰์— ์ ์šฉ


[๊ฐ€์ •]
D์ฐจ์› ๋ณ€์ˆ˜ x = (x1, . . . , xD)T์— ๋Œ€ํ•œ ๋ฐ€๋„ p(x)๋ฅผ ์ƒˆ๋กœ์šด ๋ณ€์ˆ˜ y = (y1,...,yD)T๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค ๊ฐ€์ •.
์ด๋•Œ, x์™€ y๋Š” ๋™์ผํ•œ ์ฐจ์›์„ ๊ฐ€์ง„๋‹ค๊ณ  ๊ฐ€์ •.

๋ณ€ํ™˜๋œ ๋ฐ€๋„๋Š” ์œ„ ์‹์ฒ˜๋Ÿผ ์ผ๋ฐ˜ํ™”๋œ ํ˜•ํƒœ๋กœ ํ‘œํ˜„: py(y) = px(x) |det J|
(J๋Š” ์Ÿˆ์ฝ”๋น„์•ˆ ํ–‰๋ ฌ(Jacobian matrix)์ด๋ฉฐ, ๊ทธ ์š”์†Œ๋“ค์€ Jij = ∂gi/∂yj์ฒ˜๋Ÿผ ํŽธ๋ฏธ๋ถ„์œผ๋กœ ์ฃผ์–ด์ง„๋‹ค.)
J๋Š” ๊ณต๊ฐ„์˜ ์ผ๋ถ€๋ฅผ ํ™•์žฅํ•˜๊ณ  ๋‹ค๋ฅธ ๋ถ€๋ถ„์„ ์••์ถ•ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์ง๊ด€์ ์œผ๋กœ ์ดํ•ด๊ฐ€๋Šฅํ•˜๋‹ค. 
x ์ฃผ๋ณ€์˜ ๋ฌดํ•œ์†Œ ์˜์—ญ โˆ†x๊ฐ€ ์  x๋ฅผ ์ค‘์‹ฌ์œผ๋กœ y = g(x) ์ฃผ๋ณ€์˜ ์˜์—ญ โˆ†y๋กœ ๋ณ€ํ™˜๋œ๋‹ค ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

์œ„ Jํ–‰๋ ฌ์‹์€ ์˜์—ญ โˆ†x์˜ ํ™•๋ฅ  ์งˆ๋Ÿ‰์ด ์˜์—ญ โˆ†y์˜ ํ™•๋ฅ  ์งˆ๋Ÿ‰๊ณผ ๋™์ผํ•˜๋‹ค๋Š” ์‚ฌ์‹ค๋กœ๋ถ€ํ„ฐ ๋„์ถœ๋œ๋‹ค.
x์˜ 2์ฐจ์› ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์— ๋ณ€์ˆ˜ ๋ณ€ํ™˜์„ ์ ์šฉ, y๋กœ ๋ณ€ํ™˜ํ•œ ๊ทธ๋ฆผ.
์ด๋•Œ, x→y๋กœ์˜ ๋ณ€ํ™˜์€ ์•„๋ž˜ ์‹์— ์˜ํ•ด ์ฃผ์–ด์ง„๋‹ค.

x, y๊ฐ€ ๋‹ค๋ณ€๋Ÿ‰๋ถ„ํฌ์ผ ๋•Œ, ๋น„์„ ํ˜•๋ณ€ํ™˜์„ ์ ์šฉํ•˜๋ ค๋ฉด
Jacobian Matrix๋ฅผ ์‚ฌ์šฉ (
py(y) = px(x) |det J|).
์ถ”๊ฐ€์ ์œผ๋กœ ๋ฌดํ•œ์†Œ์˜์—ญ ์–ด์ฉŒ๊ตฌ ์ €์ฉŒ๊ตฌ ๋ง์ด ๋งŽ์€๋ฐ ๋‹จ๋ณ€๋Ÿ‰๊ณผ ์œ ์‚ฌํ•˜๋‹ค ๋ณด์—ฌ์ง.

 


ํ•ด๋‹น ๊ทธ๋ž˜ํ”„๋ฅผ ๋ณด๋ฉด y์˜ ์ฃผ๋ณ€๋ถ„ํฌ๋กœ ๋–จ์–ด์ง€๋Š”๋ฐ ์ด๋ฅผ ๊ณต๊ฐ„์ƒ์œผ๋กœ ํ™•์žฅํ•œ๊ฒƒ์ด๋‚˜ ์ง„๋ฐฐ์—†์Œ.
์ฆ‰, ์ฃผ๋ณ€ "์˜์—ญ"์œผ๋กœ ๋ณ€ํ™˜ ๋œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธ. (
์™„์ „ํžˆ ๋ณ€ํ™˜๋˜๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•˜์ง€ ์•Š์Œ์„ ์œ„ ์‚ฌ์ง„์—์„œ y์˜ ๋ถ„ํฌ๊ฐ€ ์ •ํ™•ํ•˜๊ฒŒ ์›ํ˜•์ด ์•„๋‹Œ ๋งˆ์น˜ ํ˜œ์„ฑ์ฒ˜๋Ÿผ ์ฃผ๋ณ€์— ๋ถ„ํฌ๊ฐ€ ์กด์žฌํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์•Œ ์ˆ˜ ์žˆ์Œ)

cf) J์˜ ์—ญํ• :
๊ณต๊ฐ„์˜ ์ผ๋ถ€๋ฅผ ํ™•์žฅํ•˜๊ณ  ๋‹ค๋ฅธ ๋ถ€๋ถ„์„ ์••์ถ•ํ•˜๋Š” ๊ฒƒ
(= ํ•ด๋‹น ๋ณ€์ˆ˜์˜ ๋ณ€ํ™”๋Ÿ‰์ด ๋‹ค๋ฅธ ๋ณ€์ˆ˜์— ์–ผ๋งˆ๋‚˜ ์˜ํ–ฅ์„ ์ฃผ๋Š”์ง€๋ฅผ ์˜๋ฏธ;
์ด๋ฅผ ๋ชจ๋“  ์˜์—ญ์— ๋Œ€ํ•ด ๊ณ ๋ คํ•˜๋ฉด ์ „์ฒด ๊ณต๊ฐ„์ด ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”ํ•˜๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ์Œ)

cf) ์‚ฌ์‹ค ๋‹จ๋ณ€๋Ÿ‰์ผ๋•Œ๋„ ๋ฏธ๋ถ„ ํ›„ ํ•จ์ˆ˜์˜ mode๋ฅผ ๋ดค๋˜ ๊ฒƒ์„ ๋ณด๋ฉด, ํŽธ๋ฏธ๋ถ„์˜ ์ง‘ํ•ฉ์ฒด๋ฅผ ํ–‰๋ ฌ์‹์œผ๋กœ ๋งŒ๋“  Jacobian์˜ ๊ฒฝ์šฐ, ๊ทธ๋ƒฅ ์ฐจ์›์„ ๋Š˜๋ ธ๋‹ค๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ํŽธํ•  ๊ฒƒ ๊ฐ™๋‹ค.

 

 

 

 

 


5. Information Theory: Dataset์— ํฌํ•จ๋œ ์ •๋ณด๋ฅผ ์ธก์ •

5.1  Entropy

๋จผ์ € discrete random๋ณ€์ˆ˜ x์— ๋Œ€ํ•ด ์ด ๋ณ€์ˆ˜์˜ ํŠน์ •๊ฐ’์„ ๊ด€์ฐฐ ์‹œ ์–ป๋Š” ์ •๋ณด๋Ÿ‰์„ ์•Œ์•„๋ณด์ž.
์ •๋ณด๋Ÿ‰ = x๊ฐ’์„ ์•Œ์•˜์„ ๋•Œ์˜ '๋†€๋žŒ์˜ ์ •๋„'
๋งŒ์•ฝ ์šฐ๋ฆฌ์—๊ฒŒ ๋งค์šฐ ๋“œ๋ฌผ๊ฒŒ ๋ฐœ์ƒํ•œ ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ–ˆ๋‹ค๊ณ  ์•Œ๋ ค์ง„๋‹ค๋ฉด, ๋งค์šฐ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ์–ด๋–ค ์‚ฌ๊ฑด์ด ๋ฐœ์ƒํ–ˆ๋‹ค๊ณ  ์•Œ๋ ค์ง„ ๊ฒƒ๋ณด๋‹ค ๋” ๋งŽ์€ ์ •๋ณด๋ฅผ ๋ฐ›๊ฒŒ ๋  ๊ฒƒ์ด๋ฉฐ, ๊ทธ ์‚ฌ๊ฑด์ด ๋ฐ˜๋“œ์‹œ ์ผ์–ด๋‚  ๊ฒƒ์ด๋ผ๊ณ  ์•Œ๊ณ  ์žˆ๋‹ค๋ฉด ์šฐ๋ฆฌ๋Š” ์–ด๋– ํ•œ ์ •๋ณด๋„ ๋ฐ›์ง€ ์•Š์„ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ.
์ •๋ณด๋‚ด์šฉ์˜ ์ธก์ •์€ ํ™•๋ฅ  ๋ถ„ํฌ p(x)์— ์˜์กด, ๋”ฐ๋ผ์„œ h(x)๋ฅผ ์ฐพ๋Š”๊ฒƒ์ด ๋ชฉํ‘œ.
h(x)
:
p(x)์˜ ๋‹จ์กฐ ํ•จ์ˆ˜์ธ ์ •๋ณด ๋‚ด์šฉ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์–‘

๐Ÿค” h(x, y) = h(x) + h(y)์ธ ์ด์œ 

h(·)์˜ ํ˜•ํƒœ: ๋‘ ๋…๋ฆฝ์‚ฌ๊ฑด x,y์— ๋Œ€ํ•ด ์•„๋ž˜ ์„ฑ์งˆ์„ ๋งŒ์กฑ.
ํ•จ๊ป˜ ๊ด€์ฐฐํ•จ์œผ๋กœ์จ ์–ป๋Š” ์ •๋ณด = ๊ฐ๊ฐ ๋”ฐ๋กœ ๊ด€์ฐฐํ•œ ์ •๋ณด์˜ ํ•ฉ
๋˜ํ•œ, p(x, y) = p(x)p(y)๋ฅผ ๋งŒ์กฑํ•œ๋‹ค.

[์ •๋ฆฌ]: ๋‘ ๋…๋ฆฝ์‚ฌ๊ฑด x,y์— ๋Œ€ํ•ด ์•„๋ž˜๊ฐ€ ์„ฑ๋ฆฝ.
  โˆ™ h(x,y) = h(x) + h(y)
  โˆ™ p(x,y) = p(x)p(y)
h๋Š” p์˜ ์ •๋ณด๋Ÿ‰์ด๊ธฐ์— ์œ„ ์‹์ด ๋งŒ์กฑํ•˜๋ ค๋ฉด h๋Š” log๋กœ ์ฃผ์–ด์ ธ์•ผํ•œ๋‹ค.
h(x) = -log2p(x)๋กœ ์ฃผ์–ด์ง„๋‹ค. (์ด๋•Œ, - ๋Š” ์ •๋ณด๊ฐ€ ์–‘์ˆ˜or0์ด ๋˜๋„๋ก ๋ณด์žฅ.)
๋‚ฎ์€ํ™•๋ฅ ์˜ ์‚ฌ๊ฑด x = ๋†’์€์ •๋ณด์ด๋ฉฐ, ์ด๋•Œ log ๋ฐ‘์€ ์ž„์˜๋กœ ์„ ํƒ๊ฐ€๋Šฅ.

์ •๋ณด๋ก : log2๊ฐ€ ๊ด€๋ก€์ ,
์ด๋Š” ๊ณง h(x)์˜ ๋‹จ์œ„๊ฐ€ bit('binary digits')์ž„์„ ์˜๋ฏธ.


๐Ÿค” H[x] : x์˜ entropy (ํ‰๊ท ์ •๋ณด๋Ÿ‰ ์ฆ‰, p(x)์˜ ๊ธฐ๋Œ“๊ฐ’)

์ด์ œ ๋ฐœ์‹ ์ž๊ฐ€ ๋žœ๋ค ๋ณ€์ˆ˜ ๊ฐ’์„ ์ˆ˜์‹ ์ž์—๊ฒŒ ์ „์†กํ•œ๋‹ค ๊ฐ€์ •ํ•˜์ž.
์ด ๊ณผ์ •์—์„œ ์ „์†ก๋˜๋Š” ํ‰๊ท  ์ •๋ณด์˜ ์–‘ = ๋ถ„ํฌ p(x)์— ๋Œ€ํ•œ ๊ธฐ๋Œ€๊ฐ’.
์ด๋ฅผ H[x]๋กœ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์ด ์ค‘์š”ํ•œ ์–‘์„ random ๋ณ€์ˆ˜ x์˜ "entropy"๋ผ ํ•œ๋‹ค.
H[x]๋Š” x์˜ entropy๋กœ ํ‰๊ท ์ •๋ณด๋Ÿ‰ ์ฆ‰, p(x)์˜ ๊ธฐ๋Œ“๊ฐ’์„ ์˜๋ฏธ
H[x]๋Š” random variable x์˜ Entropy
= state x์˜ ํ‰๊ท ์ •๋ณด๋Ÿ‰
= p(x)์˜ ๊ธฐ๋Œ“๊ฐ’
์„ ์˜๋ฏธ.


cf) limε→0(ε ln ε) = 0์ด๋ฏ€๋กœ,  p(x) = 0์ธ ์–ด๋–ค x์˜ ๊ฐ’์— ๋Œ€ํ•ด p(x)lnp(x) = 0 ์ด ์„ฑ๋ฆฝํ•œ๋‹ค.

Example)

8๊ฐ€์ง€ ๊ฐ€๋Šฅํ•œ ์ƒํƒœ๋ฅผ ๊ฐ–๋Š” random๋ณ€์ˆ˜ x์— ๋Œ€ํ•ด ์ด ๋ณ€์ˆ˜์˜ entropy๊ฐ€ ์•„๋ž˜์™€ ๊ฐ™์„ ๋•Œ,
(์ด๋•Œ, ๊ฐ ์ƒํƒœ๋Š” ๋™์ผํ•œ ํ™•๋ฅ ๋กœ ๋ฐœ์ƒ.)

์ด์ œ 8๊ฐœ์˜ ์ƒํƒœ๋ฅผ ๊ฐ–๋Š” ๋ณ€์ˆ˜: {a, b, c, d, e, f, g, h}์— ๋Œ€ํ•ด
๊ฐ ํ™•๋ฅ ์ด (1/2, 1/4, ,1/8, 1/16, 1/64, 1/64, 1/64, 1/64)๋กœ ์ฃผ์–ด์ง„๋‹ค ํ•˜์ž.
์ด ๊ฒฝ์šฐ์˜ entropy๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ฃผ์–ด์ง„๋‹ค:


๋น„๊ท ์ผ๋ถ„ํฌ๋Š” ๊ท ์ผ๋ถ„ํฌ๋ณด๋‹ค ๋” ์ž‘์€ entropy๋ฅผ ๊ฐ–๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
(๋ฌผ๋ฆฌ์˜ ํ‰ํ˜•์—ด์—ญํ•™์˜ ๋งฅ๋ฝ์—์„œ entropy๋Š”์— ๋Œ€ํ•œ ๋ฌด์งˆ์„œ๋„ ๊ด€์ ์ด๊ธฐ ๋•Œ๋ฌธ.)
๋จผ์ €, ๋ณ€์ˆ˜์ƒํƒœ๋ฅผ ์ˆ˜์‹ ์ž์—๊ฒŒ ์ „์†กํ•˜๋Š” ์˜ˆ์ œ์— ๋Œ€ํ•ด ์ƒ๊ฐํ•ด๋ณด์ž. ์ „์ฒ˜๋Ÿผ 3-bits์ˆซ์ž๋ฅผ ์‚ฌ์šฉํ•ด ์ด๋ฅผ ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋ถˆ๊ท ์ผํ•œ ๋ถ„ํฌ๋ฅผ ํ™œ์šฉํ•ด ๋” ๊ฐ€๋Šฅ์„ฑ์ด ๋†’์€ ์‚ฌ๊ฑด์— ๋Œ€ํ•ด ๋” ์งง์€ ์ฝ”๋“œ๋ฅผ ์‚ฌ์šฉํ•˜๊ณ ,
๊ทธ์— ๋”ฐ๋ฅธ ์ ์€ ๊ฐ€๋Šฅ์„ฑ์˜ ์‚ฌ๊ฑด์— ๋Œ€ํ•ด ๋” ๊ธด ์ฝ”๋“œ๋ฅผ ์‚ฌ์šฉํ•ด ํ‰๊ท  ์ฝ”๋“œ ๊ธธ์ด๋ฅผ ์ค„์ด๋ ค๊ณ  ํ•  ๋•Œ,
(์•ฝ๊ฐ„ JPEG๋Š๋‚Œ์ธ๋“ฏ?)

์ด๋ฅผ ์œ„ํ•ด {a, b, c, d, e, f, g, h} ์ƒํƒœ๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ฝ”๋“œ ๋ฌธ์ž์—ด ์ง‘ํ•ฉ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค:
0, 10, 110, 1110, 111100, 111101, 111110, 111111.
์ด์— ๋Œ€ํ•ด ์ „์†กํ•ด์•ผ ํ•˜๋Š” ์ฝ”๋“œ์˜ ํ‰๊ท  ๊ธธ์ด๋Š” ์•„๋ž˜์™€ ๊ฐ™์€๋ฐ, ์ด๋Š” random ๋ณ€์ˆ˜์˜ entropy์™€ ๋™์ผํ•˜๋‹ค.
๋” ์งง์€ ์ฝ”๋“œ ๋ฌธ์ž์—ด์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๋Š” ์ด์œ : ์ด๋Ÿฐ ๋ฌธ์ž์—ด์˜ ์—ฐ๊ฒฐ์„ ํ•ด๋‹น ๊ตฌ์„ฑ ์š”์†Œ๋กœ ๋ช…ํ™•ํžˆ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ์–ด์•ผ ํ•˜๊ธฐ ๋•Œ๋ฌธ.

ex) 11001110์€ c, a, d ์ƒํƒœ ์ˆœ์—ด๋กœ ๊ณ ์œ ํ•˜๊ฒŒ ํ•ด์„๋จ. entropy์™€ ๊ฐ€์žฅ ์งง์€ ์ธ์ฝ”๋”ฉ ๊ธธ์ด ๊ฐ„์˜ ๊ด€๊ณ„๋Š” ์ผ๋ฐ˜์ ์ธ ๊ฒƒ.

noiseless coding theorem(Shannon, 1948)์€ entropy๊ฐ€ random๋ณ€์ˆ˜์˜ ์ƒํƒœ๋ฅผ ์ „์†กํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ๋น„ํŠธ ์ˆ˜์˜ ํ•˜ํ•œ๊ฐ’์ž„์„ ๋ช…์‹œ.


cf) ๋ณธ ์ฑ…์˜ ๋‹ค๋ฅธ ๊ณณ์˜ ์•„์ด๋””์–ด์™€ ๋” ํŽธ๋ฆฌํ•˜๊ฒŒ ์—ฐ๊ฒฐ๋˜๋„๋ก entropy์ •์˜ ์‹œ ์ž์—ฐ๋กœ๊ทธ ln์„ ์‚ฌ์šฉ. 
์ด ๊ฒฝ์šฐ, ์—”ํŠธ๋กœํ”ผ๋Š” ๋น„ํŠธ ๋Œ€์‹  ๋„ค์ดํŠธ(nats, '์ž์—ฐ๋กœ๊ทธ') ๋‹จ์œ„๋กœ ์ธก์ •.
์ด ๋‘ ๋‹จ์œ„๋Š” ๋‹จ์ˆœํžˆ ln 2์˜ ๋ฐฐ์ˆ˜๋กœ ์ฐจ์ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

5.2 ๋ฌผ๋ฆฌํ•™๊ด€์  ์˜ˆ์‹œ

ex) entropy์— ๋Œ€ํ•œ ์ถ”๊ฐ€์ ์ธ ์‹œ๊ฐํ™•๋ณด๋ฅผ ์œ„ํ•œ ์˜ˆ์‹œ
i๋ฒˆ์งธ ๋ฐ”๊ตฌ๋‹ˆ๋งˆ๋‹ค ์„œ๋กœ ๊ฐ™์€ ni๊ฐœ์˜ ๋ฌผ์ฒด๊ฐ€ ๊ฐ๊ฐ ๋“ค์–ด์žˆ๋Š” ์„œ๋กœ๋‹ค๋ฅธ ์ด N๊ฐœ์˜ ๋ฐ”๊ตฌ๋‹ˆ์— ๋Œ€ํ•ด
"๋ฌผ์ฒด๋ฅผ ๋ฐ”๊ตฌ๋‹ˆ์— ํ• ๋‹นํ•˜๋Š” ๋ฐฉ๋ฒ•์˜ ๊ฒฝ์šฐ์˜ ์ˆ˜๋ฅผ ๊ณ ๋ คํ•ด๋ณด์ž."

N๊ฐœ์˜ ๋ฌผ์ฒด๋ฅผ ๋ฐ”๊ตฌ๋‹ˆ์— ํ• ๋‹นํ•˜๋Š” ๋ฐฉ๋ฒ•์˜ ์ด ์ˆ˜๋Š” N!์ด๋‹ค.
์ฆ‰, i๋ฒˆ์งธ ๋ฐ”๊ตฌ๋‹ˆ์—๋Š” ni!์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ๋ฌผ์ฒด๋ฅผ ์žฌ๋ฐฐ์น˜ํ•  ์ˆ˜ ์žˆ๋‹ค.
(๋ฐ”๊ตฌ๋‹ˆ ๋‚ด์˜ ๊ตฌ๋ณ„X)
∴ N๊ฐœ์˜ ๋ฌผ์ฒด๋ฅผ ๋ฐ”๊ตฌ๋‹ˆ์— ํ• ๋‹นํ•˜๋Š” ๋ฐฉ๋ฒ•์˜ ์ด ์ˆ˜: ์ด๋ฅผ multiplicity๋ผ ๋ถ€๋ฅธ๋‹ค.
์ด๋•Œ, Entropy(H)๋Š” ๋‹ค์–‘์„ฑ(W)์˜ ๋กœ๊ทธ์— 1/N(์ •๊ทœํ™” ์ƒ์ˆ˜)๋ฅผ ๊ณฑํ•œ๊ฒƒ์œผ๋กœ ์ •์˜๋œ๋‹ค:
์ด์ œ N → ∞์˜ ํ•œ๊ณ„๋ฅผ ๊ณ ๋ คํ•˜๋ฉฐ ni/N์˜ ๋ถ„์ˆ˜๋ฅผ ๊ณ ์ •์‹œํ‚ค๊ณ  ์Šคํ„ธ๋ง ๊ทผ์‚ฌ๋ฅผ ์ ์šฉํ•ด ๋ณด๋ฉด,
์ด๋ฉฐ, ์ด๋ฅผ ์—”ํŠธ๋กœํ”ผ ๋ฐฉ์ •์‹์— ๋Œ€์ž…ํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค.
N์ด ๋ฌดํ•œ๋Œ€๋กœ ์ ‘๊ทผํ•จ์— ๋”ฐ๋ผ lnNํ•ญ์ด ์šฐ์„ธํ•ด์ง€๊ณ , ํ•œ๊ณ„๊ฐ’์€ -∞์ด ๋œ๋‹ค.
๋”ฐ๋ผ์„œ ๋ฌผ์ฒด์˜ ์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ•จ
= ๋ฌผ์ฒด์— ๋Œ€ํ•œ ๋ฌด์งˆ์„œ๋„ ์ฆ๊ฐ€
= ๋ฌผ์ฒด์— ๋Œ€ํ•œ ๊ตฌ์ฒด์ ์ธ ๋ฐฐ์—ด์— ๋Œ€ํ•œ ์ •๋ณด ๋ถ€์กฑ์ด ์ฆ๊ฐ€.

์ด๋•Œ, pi = limN→∞(ni/N)๋Š” i๋ฒˆ์งธ ๋ฐ”๊ตฌ๋‹ˆ์— ๋ฌผ์ฒด๊ฐ€ ํ• ๋‹น๋  ํ™•๋ฅ ์ด๋‹ค.

[Macro์™€ Micro] - in physics
๋ฌผ์ฒด๋ฅผ ๋ฐ”๊ตฌ๋‹ˆ์— ํ• ๋‹นํ•˜๋Š” ํŠน์ • ๋ฐฉ๋ฒ•์€ ๋ฏธํฌ๋กœ์ƒํƒœ(micro state)๋ผ๊ณ  ํ•˜๋ฉฐ,
ni/N์˜ ๋น„์œจ์„ ํ†ตํ•ด ํ‘œํ˜„๋œ ์ „์ฒด์ ์ธ ๋ฐฐ์น˜๋Š” ๋งคํฌ๋กœ์ƒํƒœ(macro state)๋ผ๊ณ  ํ•œ๋‹ค.
๋งคํฌ๋กœ์ƒํƒœ์—์„œ์˜ ๋ฏธํฌ๋กœ์ƒํƒœ์˜ ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋‹ค์–‘์„ฑ W์€ macro์˜ ๊ฐ€์ค‘์น˜(weight)๋กœ๋„ ์•Œ๋ ค์ ธ ์žˆ๋‹ค.

๋ฐ”๊ตฌ๋‹ˆ๋ฅผ ์ด์‚ฐํ˜• ํ™•๋ฅ  ๋ณ€์ˆ˜ X์˜ ์ƒํƒœ xi๋กœ ํ•ด์„ํ•ด๋ณด๋ฉด, p(X = xi) = pi์ด๋‹ค.
์ด๋•Œ, ํ™•๋ฅ  ๋ณ€์ˆ˜ X์˜ entropy๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค.
๋‘ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” 30๊ฐœ์˜ ๋ฐ”๊ตฌ๋‹ˆ์— ๋Œ€ํ•œ ํžˆ์Šคํ† ๊ทธ๋žจ์œผ๋กœ ์—”ํŠธ๋กœํ”ผ H์˜ ๋” ๋†’์€ ๊ฐ’์„ ๋ณด์—ฌ์ฃผ๋Š”๋ฐ, ๊ฐ€์žฅ ํฐ ์—”ํŠธ๋กœํ”ผ๋Š” ๊ท ์ผํ•œ ๋ถ„ํฌ์—์„œ ๋‚˜ํƒ€๋‚  ๊ฒƒ์ด๋ฉฐ, ์ด๋Š” H=−lnโก(1/30)=3.40H=−ln(1/30)=3.40 ์ด ๋  ๊ฒƒ์ด๋‹ค.

์œ„ ๊ทธ๋ฆผ์—์„œ ์•Œ ์ˆ˜ ์žˆ๋“ฏ, ๋ช‡ ๊ฐœ์˜ ๊ฐ’ ์ฃผ๋ณ€์— ๋‚ ์นด๋กญ๊ฒŒ ํ”ผํฌํ•œ ๋ถ„ํฌ p(xi)๋Š” ์ƒ๋Œ€์ ์œผ๋กœ ๋‚ฎ์€ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๊ฐ€์งˆ ๊ฒƒ์ด๊ณ ,
์—ฌ๋Ÿฌ ๊ฐ’์— ๊ณ ๋ฅด๊ฒŒ ํผ์ ธ ์žˆ๋Š” ๋ถ„ํฌ๋Š” ๋†’์€ ์—”ํŠธ๋กœํ”ผ๋ฅผ ๊ฐ€์งˆ ๊ฒƒ์ด๋‹ค.

0 ≤ pi ≤ 1์ด๋ฏ€๋กœ entropy๋Š” ์Œ์ด ์•„๋‹ˆ๋ฉฐ, pi = 1์ด๊ณ  p
j≠i = 0์ธ ๊ฒฝ์šฐ์— ์ตœ์†Œ๊ฐ’, 0์ด ๋œ๋‹ค.

[Lagrange์Šน์ˆ˜๋กœ ์ตœ๋Œ€ํ™”: ์ด์‚ฐํ˜• ๋ถ„ํฌ]
Maximum Entropy๋Š” ํ™•๋ฅ ์— ๋Œ€ํ•œ ์ •๊ทœํ™” ์ œ์•ฝ์„ ๊ฐ•์ œํ•˜๊ธฐ ์œ„ํ•ด Lagrange์Šน์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ H๋ฅผ ์ตœ๋Œ€ํ™”ํ•จ์œผ๋กœ์จ ์ฐพ์„ ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ์ตœ๋Œ€ํ™”ํ•œ๋‹ค.
์ด๋•Œ, ๋ชจ๋“  p(xi)๋Š” ๋™์ผํ•˜๊ณ  p(xi) = 1/M์ด๋ฉฐ, ์—ฌ๊ธฐ์„œ M์€ ์ƒํƒœ xi์˜ ์ด ์ˆ˜์ด๊ณ  entropy์˜ ํ•ด๋‹น ๊ฐ’์€ H = ln M์ด๋‹ค.
์ด ๊ฒฐ๊ณผ๋Š” ์ถ”ํ›„ ์งง๊ฒŒ ๋…ผ์˜๋˜๋Š” Jensen ๋ถ€๋“ฑ์‹์—์„œ๋„ ์œ ๋„๋  ์ˆ˜ ์žˆ๋‹ค.
๋„ํ•จ์ˆ˜๊ฐ€ 0์ด ๋˜๋Š” ์ง€์ ์ด ์‹ค์ œ๋กœ ์ตœ๋Œ€๊ฐ’์ธ์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•ด ์—”ํŠธ๋กœํ”ผ์˜ ์ด๊ณ„๋„ํ•จ์ˆ˜๋ฅผ ๊ตฌํ•˜๋ฉด,
์—ฌ๊ธฐ์„œ Iij๋Š” ํ•ญ๋“ฑ ํ–‰๋ ฌ์˜ ์›์†Œ๋กœ ์ด ๊ฐ’๋“ค์ด ๋ชจ๋‘ ์Œ์ˆ˜์ด๋ฏ€๋กœ
๋„ํ•จ์ˆ˜๊ฐ€ 0์ด ๋˜๋Š” ์ง€์ ์€ ์‹ค์ œ๋กœ๋„ ์ตœ๋Œ“๊ฐ’์ž„์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

5.3  Differential Entropy

entropy์˜ ์ •์˜๋ฅผ ์ ์  ํ™•์žฅํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ๋‚˜์•„๊ฐ€๊ณ  ์žˆ๋‹ค.
์ •์˜๋ฅผ ํ™•์žฅ์‹œ์ผœ continuous๋ณ€์ˆ˜ x์— ๋Œ€ํ•œ ํ™•๋ฅ ๋ถ„ํฌ p(x)๋ฅผ ํฌํ•จ์‹œ์ผœ๋ณด์ž.

๋จผ์ € x๋ฅผ ํญ์ด โˆ†์ธ ๊ตฌ๊ฐ„์œผ๋กœ ๋‚˜๋ˆˆ ํ›„, p(x)๊ฐ€ ์—ฐ์†์ ์ผ ๋•Œ ํ‰๊ท ๊ฐ’์ •๋ฆฌ์— ๋”ฐ๋ผ 
๊ฐ ๊ตฌ๊ฐ„ iโˆ† xi (i+1)โˆ† ๋ฒ”์œ„์—์„œ
 xi๊ฐ€ ์กด์žฌํ•ด์•ผ ํ•œ๋‹ค.
์ด์ œ ์—ฐ์†๋ณ€์ˆ˜ x๋ฅผ ์–‘์žํ™”ํ•˜์—ฌ x๊ฐ€ i๋ฒˆ์งธ ๊ตฌ๊ฐ„์— ์†ํ•  ๋•Œ ์–ด๋–ค ๊ฐ’ x๋ฅผ ๊ฐ’ xi์— ํ• ๋‹นํ•œ๋‹ค ํ•˜์ž.
์ด๋ฅผ ํ†ตํ•ด ๊ฐ’ xi๋ฅผ ๊ด€์ธกํ•  ํ™•๋ฅ ์€ p(xi)โˆ†์ด๋ฏ€๋กœ entropy๋Š” ์•„๋ž˜์™€ ๊ฐ™์€ ์ด์‚ฐํ˜• ๋ถ„ํฌ๋ฅผ ์–ป๋Š”๋‹ค:
์—ฌ๊ธฐ์„œ ∑ip(xi)โˆ† = 1๋Š” ํ‰๊ท ๊ฐ’์ •๋ฆฌ์™€ ํ™•๋ฅ ๋ฐ€๋„ํ•จ์ˆ˜์˜ AUC=1์—์„œ ๋„์ถœ๋œ ๊ฒƒ์ด๋‹ค.
์œ„ ์‹์˜ ๋‘ ๋ฒˆ์งธ ํ•ญ์ธ - ln โˆ†๋ฅผ ์ƒ๋žต (โˆต์ด ํ•ญ์€ p(x)์™€ ๋…๋ฆฝ์ )
์ด์ œ limโˆ† → 0์„ ๊ณ ๋ คํ•ด ๋ณด๋ฉด ์œ„ ์‹์˜ ์ฒซํ•ญ์€ ์ด lim์—์„œ p(x) ln p(x)์˜ ์ ๋ถ„์— ๊ทผ์ ‘ํ•œ๋‹ค.
์ด ๋•Œ ์šฐ์ธก ํ•ญ์— ์žˆ๋Š” ์–‘์„ ๋ฏธ๋ถ„ ์—”ํŠธ๋กœํ”ผ(Differential Entropy)๋ผ ํ•œ๋‹ค.

๐Ÿค” ์ด์‚ฐโˆ™์—ฐ์†ํ˜• entropy์ฐจ์ด๊ฐ€ ๋ฐœ์ƒ์ด์œ ?

์ด์‚ฐํ˜•๊ณผ ์—ฐ์†ํ˜• ์—”ํŠธ๋กœํ”ผ ํ˜•ํƒœ์˜ ์ฐจ์ด๋Š” ln โˆ†๋ผ๋Š” ์–‘์— ์˜ํ•ด ๋ฐœ์ƒ
์ด๋Š” limโˆ† → 0์—์„œ ๋ฐœ์‚ฐํ•˜๋Š”๋ฐ, ์ด๋Š” ์—ฐ์† ๋ณ€์ˆ˜๋ฅผ ๋งค์šฐ ์ •๋ฐ€ํ•˜๊ฒŒ ์ง€์ •ํ•˜๋Š” ๋ฐ๋Š” ๋งŽ์€ bit๊ฐ€ ํ•„์š”ํ•จ์„ ๋Œ€๋ณ€ํ•œ๋‹ค.
์—ฌ๋Ÿฌ ์—ฐ์† ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๋ฐ€๋„๋ฅผ ์ •์˜ํ•˜๋Š” ๊ฒฝ์šฐ, ์ด๋ฅผ ๋ฒกํ„ฐ x๋กœ ํ‘œ๊ธฐํ•˜๋ฉด ๋ฏธ๋ถ„ ์—”ํŠธ๋กœํ”ผ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค.


5.4 Maximum Entropy

[Lagrange์Šน์ˆ˜๋กœ ์ตœ๋Œ€ํ™”: ์—ฐ์†ํ˜• ๋ถ„ํฌ]
์ตœ๋Œ€ ์—”ํŠธ๋กœํ”ผ๊ฐ€ ๋ช…ํ™•ํ•˜๊ฒŒ ์ •์˜๋˜๊ธฐ ์œ„ํ•ด์„œ๋Š” p(x)์˜ 1,2๋ฒˆ์งธ ๋ชจ๋ฉ˜ํŠธ, ์ฆ‰ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ๊ฐ’์„ ์ œํ•œํ•˜๊ณ  ์ •๊ทœํ™” ์ œ์•ฝ์„ ์œ ์ง€ํ•ด์•ผ ํ•˜๋ฏ€๋กœ
์•„๋ž˜ 3๊ฐ€์ง€ ์ œ์•ฝ์กฐ๊ฑด์œผ๋กœ Differential Entropy๋ฅผ ์ตœ๋Œ€ํ™”ํ•œ๋‹ค.

Lagrange ์Šน์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ด ์•„๋ž˜ ํ•จ์ˆ˜๋ฅผ p(x)์— ๋Œ€ํ•ด ์ œํ•œ๋œ ์ตœ๋Œ€ํ™”๋ฅผ ์ˆ˜ํ–‰:
์ด์ œ ๋ณ€๋ถ„๋ฒ•์œผ๋กœ ์ด ํ•จ์ˆ˜์˜ ๋„ํ•จ์ˆ˜๋ฅผ 0์œผ๋กœ ์„ค์ •ํ•˜๋ฉด:
(๋ณ€๋ถ„๋ฒ•: ๋ฒ”ํ•จ์ˆ˜์˜ ์ตœ๋Œ€/์ตœ์†Œ๋ฅผ ๋‹ค๋ฃจ๋Š” ๋ฐฉ๋ฒ•.)
์ด ๋•Œ Lagrange ์Šน์ˆ˜๋Š” ์ด ๊ฒฐ๊ณผ๋ฅผ ์„ธ ์ œ์•ฝ ์กฐ๊ฑด ๋ฐฉ์ •์‹์— ์—ญ๋Œ€์ž…ํ•˜์—ฌ ์ฐพ์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ตœ์ข… ๊ฒฐ๊ณผ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
์ฆ‰, ๋ฏธ๋ถ„ ์—”ํŠธ๋กœํ”ผ๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์—ฐ์†ํ™•๋ฅ ๋ณ€์ˆ˜๋ถ„ํฌ๋Š” Guassian Distribution์ž„์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.
๋งŒ์•ฝ ๊ฐ€์šฐ์‹œ์•ˆ์˜ ๋ฏธ๋ถ„ ์—”ํŠธ๋กœํ”ผ๋ฅผ ํ‰๊ฐ€ํ•˜๋ฉด ์œ„์™€ ๊ฐ™์€๋ฐ, ์ด๋Š” ๋ถ„ํฌ ํญ์ด ์ฆ๊ฐ€ํ•˜๋ฉด,  entropy ๋˜ํ•œ ์ฆ๊ฐ€ํ•จ์„ ๋ณผ ์ˆ˜ ์žˆ๋”ฐ.
๋˜ํ•œ, ์ด๋Š” ์ด์‚ฐ entropy์™€ ๋‹ฌ๋ฆฌ ๋ฏธ๋ถ„ entropy๊ฐ’์ด ์Œ์ˆ˜์ผ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.
(โˆต σ2 < 1/(2πe) ์ผ ๋•Œ, H[x] < 0 )


5.5 KL Divergence๐ŸŒŸ

์•ž์„œ ๋งํ•œ entropy์˜ ํ•ต์‹ฌ ๊ฐœ๋…๋“ค์„ ๊ธฐ๊ณ„ ํ•™์Šต๊ณผ ์—ฐ๊ด€์ง€์–ด๋ณด์ž!
๋ชจ๋ฅด๋Š” ๋ถ„ํฌ p(x)์™€ ๊ทผ์‚ฌ๋ถ„ํฌ q(x)์— ๋Œ€ํ•ด q(x)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ x์˜ ๊ฐ’์„ ์ˆ˜์‹ ์ž์—๊ฒŒ ์ „์†กํ•˜๊ธฐ ์œ„ํ•œ ์ฝ”๋”ฉ ์ฒด๊ณ„๋ฅผ ๊ตฌ์ถ•ํ•œ๋‹ค ๊ฐ€์ •ํ•˜์ž.
q(x)๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์‹ค์ œ ๋ถ„ํฌ p(x) ๋Œ€์‹  x์˜ ๊ฐ’์„ ์ง€์ •ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ํ‰๊ท  ์ถ”๊ฐ€ ์ •๋ณด๋Ÿ‰(๋‹จ์œ„: nats)์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค:

[KL-Divergence]:
๋ถ„ํฌ p(x)์™€ q(x) ๊ฐ„์˜ ์ƒ๋Œ€ ์—”ํŠธ๋กœํ”ผ(relative entropy)
(๋‹จ, ์–‘๋ฐฉํ–ฅ์ ์ธ ์–‘์ด ์•„๋‹ˆ๊ธฐ์—, KL(pโˆฅq) ≠ KL(qโˆฅp)์ž„์— ์ฃผ์˜)
KL(pโˆฅq) ≥ 0 ๋ฅผ ๋งŒ์กฑํ•œ๋‹ค. (๋‹จ, ๋“ฑํ˜ธ๋Š” p(x) = q(x)์ผ ๋•Œ ์„ฑ๋ฆฝ.)



[KL(pโˆฅq) ≥ 0 ์ฆ๋ช…]

โ‘  ๋ณผ๋กํ•จ์ˆ˜(convex)์˜ ๊ฐœ๋…:
์•„๋ž˜ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ ํ•จ์ˆ˜ f(x)๋Š” ๋ชจ๋“  chord๊ฐ€ ํ•จ์ˆ˜ ์œ„์— ์žˆ๊ฑฐ๋‚˜ ์ผ์น˜ํ•  ๋•Œ, ์ด๋ฅผ convex๋ผ ํ•œ๋‹ค.

(a,b)์‚ฌ์ด ์ž„์˜์˜ x๊ฐ’์„ λa + (1 − λ)b ํ˜•ํƒœ๋กœ ์‚ฌ์šฉํ•˜์ž.
chord์ƒ์˜ ํ•ด๋‹น ์ง€์ ์€ λf(a) + (1 − λ)f(b)๋กœ ์ฃผ์–ด์ง€๋ฉฐ
ํ•จ์ˆ˜์˜ ํ•ด๋‹น ๊ฐ’์€ f(λa + (1 − λ)b)์ด๋‹ค.

์ด๋Š” f(λa + (1 − λ)b) ≤ λf(a) + (1 − λ)f(b)์ž„์„ ์˜๋ฏธํ•˜๋ฏ€๋กœ
ํ•จ์ˆ˜์˜ ์ด๊ณ„๋„ํ•จ์ˆ˜๊ฐ€ ํ•ญ์ƒ ์–‘์ˆ˜์ž„์„ ์˜๋ฏธํ•œ๋‹ค.


[Jensen's Inequality]

๋งŒ์•ฝ λi 0์ด๊ณ  ∑iλi=1 ์ผ ๋•Œ, ๋ชจ๋“  ์  {xi}์— ๋Œ€ํ•ด convex f(x)๋Š”
 ์ฆ๋ช…์— ์˜ํ•ด  ์•„๋ž˜๋ฅผ ๋ถ€๋“ฑ์‹์„ ๋งŒ์กฑํ•จ์„ ์ˆ˜ํ•™์  ๊ท€๋‚ฉ๋ฒ•(induction)์œผ๋กœ ์ฆ๋ช…๊ฐ€๋Šฅํ•˜๋‹ค:
์ด๋•Œ, ์œ„์˜ ๊ฒฐ๊ณผ๋ฅผ Jensen's inequality, Jensen๋ถ€๋“ฑ์‹์ด๋ผ ํ•œ๋‹ค.


cf) [Jensen's inequality์˜ ํ™•๋ฅ ๋ถ„ํฌ]


โˆ™ λi
๋Š” {xi}๋ฅผ ๊ฐ’์œผ๋กœ ๊ฐ–๋Š” 
์ด์‚ฐ ๋ณ€์ˆ˜ x์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ถ„ํฌ:
โˆ™ ์—ฐ์† ๋ณ€์ˆ˜ x์— ๋Œ€ํ•œ ํ™•๋ฅ ๋ถ„ํฌ:

Jensen's inequality์˜ ์—ฐ์†ํ™•๋ฅ ๋ถ„ํฌ์— KL-Divergence๋ฅผ ์ ์šฉํ•˜๋ฉด ์•„๋ž˜์˜ ๊ฐ™๋‹ค:
(์ด๋•Œ, -lnx๋Š” convex์ด๋ฏ€๋กœ ์ •๊ทœํ™” ์กฐ๊ฑด ∫q(x) dx = 1๋ฅผ ํ•จ๊ป˜ ์‚ฌ์šฉ.)
(๋˜ํ•œ, ๋“ฑํ˜ธ๋Š” x์— ๋Œ€ํ•ด q(x)=p(x)์ผ๋•Œ๋งŒ ์„ฑ๋ฆฝ.)


KL-Divergence๋Š” ๋‘ ๋ถ„ํฌ p(x)์™€ q(x)๊ฐ„์˜ ๋น„์œ ์‚ฌ์„ฑ์˜ ์ธก์ •


Data compression๊ณผ Density Estimation(์•Œ๋ ค์ง€์ง€ ์•Š์€ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฌธ์ œ) ๊ฐ„์— ๋ฐ€์ ‘ํ•œ ๊ด€๋ จ์ด ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋Š”๋ฐ, ๊ฐ€์žฅ ํšจ์œจ์ ์ธ ์••์ถ•์€ ์‹ค์ œ ๋ถ„ํฌ๋ฅผ ์•Œ ๋•Œ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

์‹ค์ œ ๋ถ„ํฌ์™€ ๋‹ค๋ฅธ ๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋ฐ˜๋“œ์‹œ ๋œ ํšจ์œจ์ ์ธ ์ฝ”๋”ฉ์ด ํ•„์ˆ˜์ ์ด ๋˜์–ด๋น„๋ ค
ํ‰๊ท ์ ์œผ๋กœ ์ถ”๊ฐ€ ์ „์†กํ•ด์•ผ ํ•  ์ •๋ณด๋Š” ์ตœ์†Œํ•œ ๋‘ ๋ถ„ํฌ ๊ฐ„์˜ KL-Divergence์™€ ๋™์ผํ•˜๋‹ค. 

[Negative Log-Likelihood]

6.4.2 Binary classification์ ˆ์—์„œ Softmax์™€ NLL์˜ ๊ด€๊ณ„์— ๋Œ€ํ•ด ์ƒ์„ธํžˆ ๋‹ค๋ฃธ.

Data:
์•Œ๋ ค์ง€์ง€ ์•Š์€ ๋ถ„ํฌ p(x)์—์„œ ์ƒ์„ฑ
๋ชฉํ‘œ: ์ด ๋ถ„ํฌ๋ฅผ ๋ชจ๋ธ๋ง

๋ฐฉ๋ฒ•: ๋ช‡ ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜ θ๋กœ ์ œ์–ด๋˜๋Š” ๊ทผ์‚ฌ ๋ถ„ํฌ q(x|θ)๋ฅผ ์‚ฌ์šฉ.
(์ด๋•Œ, θ๋Š” p(x)์™€ q(x|θ) ๊ฐ„์˜ KL-Divergence์„ θ์— ๋Œ€ํ•ด ์ตœ์†Œํ™”ํ•˜์—ฌ ๊ฒฐ์ •.)
(โˆต  p(x)๋ฅผ ๋ชจ๋ฅด๊ธฐ์— ์ง์ ‘์ ์œผ๋กœ ์ด ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜๋Š” ์—†๊ธฐ ๋•Œ๋ฌธ.)


ex) p(x)์—์„œ ๋ฝ‘์€ ํ•œ์ •๋œ ์–‘์˜ training point xn์„ ๊ด€์ฐฐ
์ดํ›„ p(x)์— ๋Œ€ํ•œ ๊ธฐ๋Œ€๊ฐ’์€ xn์„ ์‚ฌ์šฉํ•œ ์œ ํ•œํ•œ ํ•ฉ์œผ๋กœ ๊ทผ์‚ฌ๋  ์ˆ˜ ์žˆ์Œ:
๐Ÿ” ์œ„ ์‹ ์šฐ์ธก์„ ์‚ดํŽด๋ณด์ž.
1๋ฒˆ ํ•ญ: trainset์„ ์‚ฌ์šฉํ•ด ํ‰๊ฐ€๋œ q(x|θ)์˜ ๋ถ„ํฌ์— ๋Œ€ํ•œ Negative Log-Likelihoodํ•จ์ˆ˜.(๋ณดํ†ต ์ด๋ฅผ NLLLoss๋ผ ํ•จ)
2๋ฒˆ ํ•ญ: θ์— ๋…๋ฆฝ์ .
∴ ์ด KL-Divergence๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒƒ = NLL ์ตœ๋Œ€ํ™”

cf) Log-Likelihood



[cross-entropy์™€ NLL-Loss์˜ ๊ด€๊ณ„]

target๋ณ€์ˆ˜ t๊ฐ€ ์žˆ์„ ๋•Œ, (์ด๋•Œ t = 1์€ ํด๋ž˜์Šค C1์„ ๋‚˜ํƒ€๋‚ด๊ณ  t = 0์€ ํด๋ž˜์Šค C2๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ด์ง„ ๋ถ„๋ฅ˜์ด๋‹ค.)
canonical linkํ•จ์ˆ˜(์ž์—ฐ ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ํ•จ์ˆ˜์˜ ๋ถ„ํฌ ํ‰๊ท ์˜ ํ•จ์ˆ˜:
๊ฐ€์šฐ์‹œ์•ˆ์กฑ์— ๋Œ€ํ•œ canonical response function์€ identify ํ•จ์ˆ˜,
๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ์— ๋Œ€ํ•œ canonical response function์€ logisticํ•จ์ˆ˜
)
์ •์˜์— ๋”ฐ๋ผ sigmoid activation function์„ ๊ฐ–๋Š” ๋‹จ์ผ์ถœ๋ ฅ์‹ ๊ฒฝ๋ง์„ ๊ณ ๋ คํ•  ๋•Œ, 0 ≤ y(x, w) ≤ 1 ์ด๋‹ค.
์ด๋•Œ, y(x, w)๋ฅผ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  p(C1|x)๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, p(C2|x) = 1 - y(x, w)๊ฐ€ ์„ฑ๋ฆฝํ•œ๋‹ค.
input์— ๋Œ€ํ•œ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ๋Š” ์•„๋ž˜์™€ ๊ฐ™์€ Bernoulli Distribution์ด๋‹ค.

์‹ 1.

๋…๋ฆฝ์ ์œผ๋กœ ๊ด€์ฐฐํ•œ trainset์— ๋Œ€ํ•ด ์˜ค์ฐจํ•จ์ˆ˜๋Š” NLL๋กœ ์ฃผ์–ด์ง„ Cross-Entropy ํ˜•ํƒœ์ด๋‹ค:
์ด๋•Œ, yn์€ y(xn, w)์ด๋‹ค.

(Simard 2003)๋Š” Classification์—์„œ MSE๋Œ€์‹  Cross-Entropy Loss๊ฐ€ ๋น ๋ฅธ ํ›ˆ๋ จ๊ณผ ํ–ฅ์ƒ๋œ ์ผ๋ฐ˜ํ™”๋ฅผ ์ด๋Œ์–ด๋‚ธ๋‹ค ํ•˜์˜€๋‹ค.


์‹ 1.์˜ Noise ๋ถ„์‚ฐ σ2๋Š” ๋ถˆ์—ฐ์†์ ์ด๊ธฐ์— (โˆต target์€ label์ด ์ง€์ •๋˜์–ด ๋ถˆ๋ณ€๊ฐ’)
๊ทธ๋Ÿฌ๋‚˜ ๋ชจ๋ธ์€ t๊ฐ€ ์ž˜๋ชป๋œ ๊ฐ’์œผ๋กœ ๋’ค์ง‘ํžŒ ํ™•๋ฅ  ε๋ฅผ ๋„์ž…, ๋ผ๋ฒจ๋ง ์˜ค๋ฅ˜๋ฅผ ํ—ˆ์šฉํ•˜๋„๋ก ์‰ฝ๊ฒŒ ํ™•์žฅ๋  ์ˆ˜ ์žˆ๋‹ค(Opper and Winther, 2000).


K ๊ฐœ์˜ ๋ณ„๋„ ์ด์ง„ ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ ๊ฐ๊ฐ์— logistic sigmoid activation function์ด ์žˆ๋Š” K ๊ฐœ์˜ ์ถœ๋ ฅ์„ ๊ฐ€์ง„ ์‹ ๊ฒฝ๋ง์— ๋Œ€ํ•ด ๊ฐ ์ถœ๋ ฅ์—๋Š” k = 1, ..., K์— ํ•ด๋‹นํ•˜๋Š” ์ด์ง„ํด๋ž˜์Šค ๋ผ๋ฒจ tk๊ฐ€ ์žˆ๋‹คํ•˜์ž.
ํด๋ž˜์Šค ๋ผ๋ฒจ์ด ์ž…๋ ฅ ๋ฒกํ„ฐ๊ฐ€ ์ฃผ์–ด์ง„ ๊ฒฝ์šฐ, ๋…๋ฆฝ๊ฐ€์ •์‹œ, ๋Œ€์ƒ์˜ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ:


ํ•ด๋‹น Likelihoodํ•จ์ˆ˜์— Negative Log๋ฅผ ์”Œ์šฐ๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค.

 

 ์ด๋•Œ, ynk๋Š” yk(xn,w)๋กœ
์ฆ‰, ํŠน์ • output์— ๋Œ€ํ•œ ์˜ค์ฐจํ•จ์ˆ˜์˜ pre-activation์— ๋Œ€ํ•œ ๋„ํ•จ์ˆ˜๋Š”
Regression์ฒ˜๋Ÿผ ์ขŒ์ธก ํ˜•ํƒœ๋ฅผ ๊ฐ–๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

 


5.6 Conditional Entropy๐ŸŒŸ

์ด์ œ ๋ณ€์ˆ˜ x์™€ y์˜ ๋‘ ์ง‘ํ•ฉ ๊ฐ„์˜ ๊ฒฐํ•ฉ ๋ถ„ํฌ p(x,y)๋ฅผ ๊ณ ๋ คํ•ด๋ณด์ž. (๋‘ ๋ณ€์ˆ˜๋Š” )
๋งŒ์•ฝ x์˜ ๊ฐ’์„ ์•Œ๊ณ  ์žˆ๋‹ค๋ฉด, ํ•ด๋‹นํ•˜๋Š” y๊ฐ’์„ ์ง€์ •ํ•˜๊ธฐ ์œ„ํ•œ ์ถ”๊ฐ€์ •๋ณด๋Ÿ‰์€ -lnp(y|x)์ด๋‹ค.
๋”ฐ๋ผ์„œ y์ง€์ • ์‹œ, ํ•„์š”ํ•œ ํ‰๊ท ์ถ”๊ฐ€์ •๋ณด๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
์ด๋•Œ, ์ฃผ์–ด์ง„ y๋ฅผ ์ฃผ์–ด์ง„ x์˜ ์กฐ๊ฑด๋ถ€ ์—”ํŠธ๋กœํ”ผ(conditional entropy)๋ผ ํ•œ๋‹ค.
๊ณฑ์˜ ๋ฒ•์น™์„ ์‚ฌ์šฉํ•˜๋ฉด ์กฐ๊ฑด๋ถ€ entropy๋Š” ์•„๋ž˜๊ด€๊ณ„๋ฅผ ๋งŒ์กฑํ•œ๋‹ค:

H[x, y] : p(x,y)์˜ ๋ฏธ๋ถ„ entropy   ,   H[x] : ์ฃผ๋ณ€ ๋ถ„ํฌ p(x)์˜ ๋ฏธ๋ถ„ entropy.

∴ x์™€ y๋ฅผ ์„ค๋ช…ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ์ •๋ณด = ์ฃผ์–ด์ง„ ์กฐ๊ฑด์—์„œ y๋ฅผ ์ง€์ •ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ์ถ”๊ฐ€ ์ •๋ณด + x๋งŒ์„ ์„ค๋ช…ํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ์ •๋ณด

 

5.7 Mutual Information

๋…๋ฆฝ๋ณ€์ˆ˜ x, y์— ๋Œ€ํ•œ ๊ฒฐํ•ฉ๋ถ„ํฌ(joint distribution) p(x, y)๋Š” ์ฃผ๋ณ€๋ถ„ํฌ์˜ ๊ณฑ์œผ๋กœ ๋‚˜๋ˆ„์–ด์ง„๋‹ค: p(x,y) = p(x)p(y)

์ข…์†๋ณ€์ˆ˜ x, y์— ๋Œ€ํ•ด ๊ฒฐํ•ฉ๋ถ„ํฌ์™€ ์ฃผ๋ณ€๋ถ„ํฌ์˜ ๊ณฑ ์‚ฌ์ด์˜ KL-Divergence๋ฅผ ๊ณ ๋ คํ•˜๋ฉด, 
๊ทผ์‚ฌ์ ์œผ๋กœ ๋…๋ฆฝ์ธ์ง€ or ์–ผ๋งˆ๋‚˜ ๊ฐ€๊นŒ์šด์ง€๋ฅผ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค:

์ด๋•Œ, ์ด๋ฅผ ๋ณ€์ˆ˜ x์™€ y ๊ฐ„์˜ ์ƒํ˜ธ ์ •๋ณด(mutual information)๋ผ ํ•œ๋‹ค.

KL-Divergence์˜ ์„ฑ์งˆ์— ์˜ํ•ด, x์™€ y๊ฐ€ ๋…๋ฆฝ์ธ ๊ฒฝ์šฐ์—๋งŒ I[x,y]≥0์ด ์„ฑ๋ฆฝ. (๋‹จ, ๋“ฑํ˜ธ๋Š” ๋…๋ฆฝ์ผ ๋•Œ ์„ฑ๋ฆฝ.)
ํ™•๋ฅ ์˜ ํ•ฉ๊ณผ ๊ณฑ์˜ ๋ฒ•์น™์„ ์‚ฌ์šฉํ•˜๋ฉด ์ƒํ˜ธ์ •๋ณด๊ฐ€ ์กฐ๊ฑด๋ถ€ entropy์™€ ๊ด€๋ จ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

์ฆ‰, ์ƒํ˜ธ์ •๋ณด๋Š” ์ƒˆ๋กœ์šด ๊ด€์ธก y๋กœ ์ธํ•œ ์ฃผ์–ด์ง„ x์— ๋Œ€ํ•œ ๋ถˆํ™•์‹ค์„ฑ๊ฐ์†Œ๋ฅผ ์˜๋ฏธ (๋ฐ˜๋Œ€๋„ ์„ฑ๋ฆฝ.)

๐Ÿค” Bayesian ๊ด€์ :
p(x) : x์— ๋Œ€ํ•œ prior ๋ถ„ํฌ
p(x|y) : ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ y๋ฅผ ๊ด€์ฐฐํ•œ ํ›„์˜ posterior

 

 

 

 

 


6. Bayesian Probabilities

Bayesian ํ™•๋ฅ : ๋ถˆํ™•์‹ค์„ฑ์˜ ์–‘์ ํ‘œํ˜„

โˆ™ [๊ณ ์ „์ (= ๋นˆ๋„๋ก ์ ) ํ™•๋ฅ ]:
ํœœ ๋™์ „์˜ ๊ฒฝ์šฐ ๋™์ „์ด ์˜ค๋ชฉํ•œ ๋ฉด์œผ๋กœ ๋–จ์–ด์งˆ ํ™•๋ฅ ์ฒ˜๋Ÿผ
๋ฌด์ž‘์œ„, ๋ฐ˜๋ณต ๊ฐ€๋Šฅํ•œ ์‚ฌ๊ฑด์˜ ๋นˆ๋„์— ๋Œ€ํ•œ ํ™•๋ฅ  ๊ฐœ๋….

โˆ™ [Bayesian ํ™•๋ฅ ]:
๋ถˆํ™•์‹ค์„ฑ์˜ ์–‘์ ํ‘œํ˜„, prior๊ฐ€ ์ž์—ฐ์Šค๋ ˆ ๋ฐœ์ƒํ•˜์—ฌ ํฌํ•จ๋œ๋‹ค.
"๋ถˆํ™•์‹ค์„ฑ ํ‘œํ˜„์„ ์œ„ํ•ด ํ™•๋ฅ ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์œผ๋ฉด, ์ด์„ฑ์ ์ด๊ณ  ์ผ๊ด€๋œ ์ถ”๋ก ์„ ํ•  ์ˆ˜ ์—†๋‹ค."

ex) ๋ถˆํ™•์‹ค์„ฑ = ๋™์ „์˜ ์˜ค๋ชฉํ•œ ๋ฉด์ด ์•ž๋ฉด or ๋’ท๋ฉด์ธ์ง€ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ
์˜ˆ๋ฅผ ๋“ค์–ด, ๋™์ „์ด ๋’ท๋ฉด์œผ๋กœ ๋” ๋งŽ์ด ๋–จ์–ด์ง€๋Š” ํšŸ์ˆ˜๊ฐ€ ๋งŽ๋‹ค๋ฉด?
๋™์ „์ด ์˜ค๋ชฉํ•œ ๋ฉด์ด ๋’ท๋ฉด์ผ ๊ฐ€๋Šฅ์„ฑ์ด ๋” ๋†’๋‹ค๋Š” ์ฆ๊ฑฐ๋ฅผ ์ œ์‹œํ•˜๊ณ ,
์‹ค์ œ๋กœ ์ด๋Ÿฐ ์ง๊ด€์€ ๋งž๊ธฐ์— ์ด๋ฅผ ํ™•๋ฅ ๊ทœ์น™์œผ๋กœ ์‚ฌ์šฉํ•ด ์–‘์ ์œผ๋กœ ํ‘œํ˜„๊ฐ€๋Šฅํ•˜๋‹ค

Bayes์ •๋ฆฌ์— ์˜ํ•ด
๋™์ „ ๋˜์ง€๊ธฐ๋กœ ์ œ๊ณต๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ์˜ค๋ชฉํ•œ ๋ฉด์ด ์•ž๋ฉด์ผ ์‚ฌ์ „ ํ™•๋ฅ ์„ ์‚ฌํ›„ ํ™•๋ฅ ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ๋‹ค.
๊ณผ์ •์ด ๋ฐ˜๋ณต๊ฐ€๋Šฅํ•˜๊ธฐ์—, ์ƒˆ๋กœ์šด ๋™์ „ ๋˜์ง€๊ธฐ์—์„œ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉํ•˜๋Š” ๋ฐ์—๋Š” ์ด์ „์˜ ์‚ฌํ›„ ํ™•๋ฅ ์ด ์‚ฌ์ „์œผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค.

 

6.1 Model parameters

[Machine Learning ์˜ˆ์ œ]: sine Regression์˜ˆ์ œ.

D : train dataset
(์ด๋•Œ, Linear Regression๋งฅ๋ฝ์—์„œ parameter๋Š” maximum likelihood๋ฅผ ์‚ฌ์šฉํ•ด ์„ ํƒ๊ฐ€๋Šฅ)
(์ด๋•Œ, w๋Š” ์šฐ๋„ ํ•จ์ˆ˜ p(D|w)๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฐ’์„ ์„ค์ •ํ•˜๋ฉฐ, ์ด๋Š” ๊ด€์ธก๋œ dataset์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” w๊ฐ’์„ ์„ ํƒํ•œ๋‹ค.)

PRML์—์„œ Likelihoodํ•จ์ˆ˜์˜ Negative log๋ฅผ Error function์ด๋ผ ํ•œ๋‹ค.
(์ฆ‰, NLL-Loss)
NLL์€ ๋‹จ์กฐ๊ฐ์†Œํ•จ์ˆ˜์ด๊ธฐ์— Likelihood ์ตœ๋Œ€ํ™” = ์˜ค๋ฅ˜์ตœ์†Œํ™” ์ด๋‹ค.

๋”ฐ๋ผ์„œ wML๋ผ๋Š” ํŠน์ •์„ ํƒ๋œ ๋งค๊ฐœ๋ณ€์ˆ˜ ๊ฐ’์ด ์ƒ์„ฑ๋˜๋ฉฐ,
์ด ๊ฐ’์€ ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์˜ˆ์ธก์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋œ๋‹ค.

๋‹ค์–‘ํ•œ traindataset ์„ ํƒ์˜(ex. data point ์ˆ˜๊ฐ€ ๋‹ค๋ฅธ)๊ฒฝ์šฐ,
wML์— ๋Œ€ํ•ด ๋‹ค๋ฅธ ํ•ด๊ฐ€ ์ƒ์„ฑ๋œ๋‹ค.

Bayesian๊ด€์ ์—์„œ model parameter์— ๋Œ€ํ•ด ๋ถˆํ™•์‹ค์„ฑ์„ค๋ช…์„ ์œ„ํ•ด ํ™•๋ฅ ๋ก  ์‚ฌ์šฉ์ด ๊ฐ€๋Šฅํ•˜๋‹ค.

data๊ด€์ธก ์ „, w์— ๋Œ€ํ•ด ์šฐ๋ฆฌ์˜ ๊ฐ€์ •์„ prior p(w)์˜ ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค. 
๊ด€์ธก๋œ D์˜ ์˜ํ–ฅ์€ likelihoodํ•จ์ˆ˜ p(D|w)๋ฅผ ํ†ตํ•ด ํ‘œํ˜„๋˜๋ฉฐ,
Bayes' theorem์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
p(D|w) : Likelihood ; ์ฃผ์–ด์ง„ parameter์—์„œ ๊ด€์ธก๋œ data๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ 
p(w) : prior ; ์„ ํ—˜์  ์ง€์‹์ด๋‚˜ ๋ฏฟ์Œ.
p(w|D)
 : posterior ; ์ œ๊ณต๋˜๋Š” update๋œ parameterํ™•๋ฅ ๋ถ„ํฌ
p(D) : Marginal Likelihood ; p(D|w)โˆ™p(w)์˜ ์ ๋ถ„๊ฐ’ ; ๋ชจ๋ธ์ „์ฒด์˜ ์ ํ•ฉ๋„.

์ด๋ฅผ ํ†ตํ•ด train data์— ๋Œ€ํ•œ ์šฐ๋ฆฌ์˜ ๋ถˆํ™•์‹ค์„ฑ์„ ๋ฐ˜์˜
์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ new data์— ๋Œ€ํ•œ ์˜ˆ์ธก ์ˆ˜ํ–‰์ด ๊ฐ€๋Šฅํ•˜๋‹ค.

์ด๋ ‡๊ฒŒ Bayesian์ ‘๊ทผ์€ model parameter์— ๋Œ€ํ•œ ๋ถˆํ™•์‹ค์„ฑ์„ ๊ณ ๋ คํ•œ ํ™•๋ฅ ์  ์ถ”๋ก ์„ ์ œ๊ฑฐ, ๋ถˆํ™•์‹ค์„ฑ update๋ฅผ ํ†ตํ•œ model๊ฐœ์„ ์ด ๊ฐ€๋Šฅํ•˜๋‹ค.

์‹ posterior likelihood × prior
์—์„œ ๋ถ„๋ชจ๋Š” ์ •๊ทœํ™” ์ƒ์ˆ˜์ด๊ธฐ์—,
์ขŒ์ธก์˜ posterior๋Š” ์œ ํšจํ™•๋ฅ ๋ฐ€๋„์ด๊ธฐ์— 1๋กœ ์ ๋ถ„๋˜๋Š” ๊ฒƒ์ด ๋ณด์žฅ๋œ๋‹ค.

์‚ฌ์‹ค, ์‹ p(w|D)
์–‘์ชฝ์„ w์— ๋Œ€ํ•ด ์ ๋ถ„ํ•จ์œผ๋กœ์จ Bayes' Theorem์˜ ๋ถ„๋ชจ๋ฅผ ์‚ฌ์ „ ๋ถ„ํฌ์™€ likelihood ํ•จ์ˆ˜์˜ ๊ด€์ ์—์„œ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค:


[Bayesian vs Frequentist paradigms]:
๋ชจ๋‘์—์„œ p(D|w)๋Š” ์ค‘์š”ํ•œ ์—ญํ• ์ด์ง€๋งŒ ๋‘ ์ ‘๊ทผ๋ฐฉ์‹์€ ๊ทผ๋ณธ์ ์œผ๋กœ ๋‹ค๋ฅด๋‹ค.

 โˆ™ Frequentist
   w๋Š” 'estimator'์˜ ์ผ์ข…์— ์˜ํ•ด ๊ฒฐ์ •๋˜๋Š” ๊ณ ์ •๋œ ๋งค๊ฐœ๋ณ€์ˆ˜๋กœ ๊ฐ„์ฃผ

 โˆ™ Bayesian
  ํ•˜๋‚˜์˜ dataset D๋งŒ ์กด์žฌํ•˜๋ฉฐ (์ฆ‰, ์‹ค์ œ๋กœ ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ),
  ๋งค๊ฐœ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๋ถˆํ™•์‹ค์„ฑ์€ w์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ํ†ตํ•ด ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค.

6.2 Regularization

์ด Bayesian ๊ด€์ ์„ ์‚ฌ์šฉํ•˜์—ฌ ์œ„์˜ sine regression์˜ overfitting๊ฐ์†Œ๋ฅผ ์œ„ํ•ด ์‚ฌ์šฉ๋œ ์ •๊ทœํ™” ๊ธฐ์ˆ ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž.

[MAP: Most A Posteriori]

w์— ๋Œ€ํ•œ ์šฐ๋„ ํ•จ์ˆ˜๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜์—ฌ ๋ชจ๋ธ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์„ ํƒํ•˜๋Š” ๋Œ€์‹ , p(w|D)์„ ์ตœ๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค.
์ด๋ฅผ ์ตœ๋Œ€ ์‚ฌํ›„ ํ™•๋ฅ  ์ถ”์ •์น˜(MAP)๋ผ ํ•œ๋‹ค.

๋˜ํ•œ, ์‚ฌํ›„ํ™•๋ฅ ์˜ NLL์ตœ์†Œํ™”๊ฐ€ ๊ฐ€๋Šฅํ•œ๋ฐ,
p(w|D)์˜ ์–‘์ชฝ์— ์Œ์˜ ๋กœ๊ทธ๋ฅผ ์ทจํ•˜๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:
์œ„ ์‹์˜ ์˜ค๋ฅธ์ชฝ ์‹์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž.
1ํ•ญ: ์ผ๋ฐ˜์ ์ธ log likelihood.
3ํ•ญ: w์— ์˜์กดํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ ์ƒ๋žต๊ฐ€๋Šฅ.
2ํ•ญ: w์˜ ํ•จ์ˆ˜ ํ˜•ํƒœ๋ฅผ ๊ฐ€์ง€๋ฉฐ, ์ด๋Š” 1ํ•ญ์— ์ถ”๊ฐ€๋˜์–ด ์ •๊ทœํ™”ํ˜•ํƒœ๋กœ ์ธ์‹๋œ๋‹ค.

์ด๋ฅผ ๋” ๋ช…ํ™•ํ•˜๊ฒŒ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด w์˜ ๊ฐ ์š”์†Œ์— ๋Œ€ํ•ด ๋™์ผํ•œ ๋ถ„์‚ฐ s2๋ฅผ ๊ฐ–๋Š” ๋…๋ฆฝ์ ์ธ ํ‰๊ท ์ด 0์ธ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์˜ ๊ณฑ์œผ๋กœ ์‚ฌ์ „ ๋ถ„ํฌ p(w)๋ฅผ ์„ ํƒํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์ž.


๋งŒ์•ฝ log likelihood๊ฐ€ (2.66)์—์„œ์œผ๋กœ ์ฃผ์–ด์ง„ ๊ฒƒ์ฒ˜๋Ÿผ Linear Regression๋ชจ๋ธ์ด ํŠน๋ณ„ํ•œ ๊ฒฝ์šฐ,

posterior ์ตœ๋Œ€ํ™”๋Š” ์•„๋ž˜ ํ•จ์ˆ˜๋กœ ์ตœ์†Œํ™” ๊ฐ€๋Šฅํ•˜๋‹ค. (MSEํ˜•ํƒœ์ž„์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.)

 


6.3 Bayesian Machine Learning

๋‹ค๋งŒ, Bayes์ •๋ฆฌ์˜ ๋‹จ์ˆœ์ ์šฉ์€ machine learning์— ์ง„์ •ํ•œ Bayesian ์ฒ˜๋ฆฌ๊ฐ€ ์ด๋ฃจ์–ด์ง€์ง€ ์•Š๋Š”๋‹ค

[Bayes์˜ ์ •๋ฆฌ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ „ํ†ต์ ์ธ ๋ฐฉ๋ฒ•]:
์ข…์ข… w์— ๋Œ€ํ•œ ๋‹จ์ผ ์ง€์  ์ถ”์ •์น˜๋ฅผ ์ฐพ๋Š” ๊ฒฐ๊ณผ๋กœ ์ด์–ด์ ธ์„œ w์˜ ๋ถˆํ™•์‹ค์„ฑ์„ ๋ฌด์‹œํ•œ๋‹ค.

์•ž์„  ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ๊ณ ๋ คํ•ด ๋ณด์ž. 
train dataset D, input ๊ฐ’ x์— ๋Œ€ํ•ด target๋ณ€์ˆ˜ t๋ฅผ ์˜ˆ์ธกํ•  ๋•Œ,
(์ฆ‰, Bayesian ์šฉ์–ด๋กœ๋Š” x์™€ ๊ด€์ฐฐ๋œ ๋ฐ์ดํ„ฐ D ๋ชจ๋‘๋ฅผ ๊ณ ๋ คํ•œ t์˜ ๋ถ„ํฌ๋ฅผ ์ดํ•ดํ•˜๋ ค๋Š” ๊ฒƒ)
ํ™•๋ฅ ์˜ ํ•ฉ๊ณผ ๊ณฑ์˜ ๋ฒ•์น™์˜ ์ ์šฉ์œผ๋กœ ์šฐ๋ฆฌ๋Š” ์•„๋ž˜ ์‹์„ ์–ป๋Š”๋‹ค:
p(t | x, D) : train data x์™€ D๊ฐ€ ์ฃผ์–ด์งˆ ๋•Œ์˜ t์˜ posterior. (์ด ๋ถ„ํฌ๋ฅผ ์–ป๊ธด ์–ด๋ ค์›€.)
(โˆต w์˜ ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ ๊ฐ’๋“ค์— ๋Œ€ํ•œ ์ ๋ถ„์ด ํ•„์š”ํ•˜๋ฉฐ, ์ด๋Š” ๋งŽ์€ ๊ฒฝ์šฐ์— ๊ณ„์‚ฐ์ ์œผ๋กœ ๋งค์šฐ ๋น„์šฉ์ด ๋“ค๊ฑฐ๋‚˜ ํ•ด์„์ ์œผ๋กœ ์–ด๋ ต๊ธฐ ๋•Œ๋ฌธ)

→ ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋Š” w์— ๋Œ€ํ•œ ๋ถˆํ™•์‹ค์„ฑ์„ ๊ณ ๋ คํ•˜๋Š” ๊ฒƒ์œผ๋กœ
์ด๋ฅผ ์œ„ํ•ด Bayesian ๋ชจ๋ธ ํ‰๊ท ํ™” ๋˜๋Š” Bayesian ์‹ ๊ฒฝ๋ง๊ณผ ๊ฐ™์€ ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•œ๋‹ค.
์ด๋Š” w์˜ ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ ๊ฐ’์— ๋Œ€ํ•œ ์‚ฌํ›„ ํ™•๋ฅ  ๋ถ„ํฌ p(w|D)๋กœ ๊ฐ€์ค‘ ํ‰๊ท ์„ ์ทจํ•˜์—ฌ ์–ป๋Š”๋‹ค.
Bayesian ๋ฐฉ๋ฒ•์„ ํŠน์ง• ์ง“๋Š” ์ฃผ์š” ์ฐจ์ด์ ์€ ๋งค๊ฐœ๋ณ€์ˆ˜ ๊ณต๊ฐ„์—์„œ์˜ ์ด ์ ๋ถ„์ž…๋‹ˆ๋‹ค.


[Frequentist๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์ „ํ†ต์ ์ธ ๋ฐฉ๋ฒ•]:
์ •๊ทœํ™”๋œ MSE๊ฐ™์€ Loss function์„ ์ตœ์ ํ™”ํ•ด ์–ป์€ parameter์ง€์ ์˜ ์ถ”์ •์น˜๋ฅผ ์‚ฌ์šฉ


[Maximum Likelihood์™€ bayesian machine learning]

๋ฐ์ดํ„ฐ์˜ ํ™•๋ฅ ์ด ๊ฐ€์žฅ ๋†’์€ ๋ชจ๋ธ์„ ์„ ํƒ → ๋” ๋ณต์žกํ•œ ๋ชจ๋ธ์„ ์„ ํ˜ธ → Overfitting

์™„์ „ํ•œ Bayesian ์ฒ˜๋ฆฌ๋Š” ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  ๋ชจ๋ธ์— ๋Œ€ํ•œ ํ‰๊ท ์„ ๊ณ„์‚ฐ, ๊ฐ ๋ชจ๋ธ์˜ ๊ธฐ์—ฌ์น˜๋Š” ํ•ด๋‹น posterior์— ๋”ฐ๋ผ ๊ฐ€์ค‘๋œ๋‹ค.
๋˜ํ•œ ์ด ํ™•๋ฅ ์€ ์ค‘๊ฐ„๋ณต์žก์„ฑ์˜ ๋ชจ๋ธ์— ๋Œ€ํ•ด ์ผ๋ฐ˜์ ์œผ๋กœ ๊ฐ€์žฅ ๋†’๋‹ค (= Overfitting ๋œ ๋ฐœ์ƒ)
(๋‚ฎ์€ ์ฐจ์ˆ˜์˜ ๋‹คํ•ญ์‹๊ณผ ๊ฐ™์€)๋งค์šฐ ๊ฐ„๋‹จํ•œ ๋ชจ๋ธ: ๋ฐ์ดํ„ฐ๋ฅผ ์ž˜ ํ‘œํ˜„ํ•  ์ˆ˜ ์—†์–ด ๋‚ฎ์€ ํ™•๋ฅ ์„ ๊ฐ€์ง.
(๋งค์šฐ ๋†’์€ ์ฐจ์ˆ˜์˜ ๋‹คํ•ญ์‹๊ณผ ๊ฐ™์€)๋งค์šฐ ๋ณต์žกํ•œ ๋ชจ๋ธ ์—ญ์‹œ Bayesian ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ํ†ตํ•ฉ์—์„œ ์ž๋™์œผ๋กœ ๋ณต์žก์„ฑ์— ๋Œ€ํ•œ ํŒจ๋„ํ‹ฐ๋ฅผ ๋ถ€์—ฌ๋ฐ›์•„ ๋‚ฎ์€ ํ™•๋ฅ ์„ ๊ฐ€์ง.

๋‹ค๋งŒ, Bayesian๋ฐฉ์‹์—๋Š” ์ฃผ์š” ๋‹จ์ ์ด ์žˆ๋Š”๋ฐ, parameter space๋ฅผ ํ†ตํ•ฉํ•ด์•ผํ•œ๋‹ค๋Š” ์ .
ํ˜„๋Œ€ Deep Learning์€ ์ˆ˜์‹ญ์–ต๊ฐœ์˜ parameter๋กœ ์ธํ•ด ์ผ๋ฐ˜์ 
∴ ๋Œ€๊ทœ๋ชจ ์‹ ๊ฒฝ๋ง์— Maximum Likelihood๊ธฐ๋ฒ• ์ ์šฉ > ํ›จ์”ฌ ์ž‘์€ ๋ชจ๋ธ์— Bayesian ์ฒ˜๋ฆฌ๋ฅผ ์ ์šฉ 
๋˜ํ•œ ์ด ๊ฒฝ์šฐ์—๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์ •๊ทœํ™” ์ค‘ ํ•˜๋‚˜ ์ด์ƒ์ด ์ ์šฉ๋˜์–ด์•ผ ํ•จ.

 

 

 

 

 

 

 

๐Ÿง ์ •๋ฆฌ

Uncertainty: ์–‘์ ํ‘œํ˜„์œผ๋กœ ๋‹ค๋ฃจ๊ธฐ ์œ„ํ•ด "ํ™•๋ฅ ๋ก "๋“ฑ์žฅ

 โˆ™ Epistemic(์ธ์‹๋ก ์ )

= systematic
→ ์œ ํ•œํ•œ dataset์— ์ ์ ˆ

 โˆ™ Aleotoric(์šฐ์—ฐ์„ฑ)

= intrinsic = stochastic = noise
→ ์„ธ์ƒ ์ผ๋ถ€๋งŒ ๊ด€์ฐฐํ•˜๊ธฐ์— noise๊ฐ€ ๋ฐœ์ƒ
→ ๋‹ค๋ฅธ์ข…๋ฅ˜์˜ data์ˆ˜์ง‘์œผ๋กœ noise ์™„ํ™”๊ฐ€๋Šฅ


 โˆ™ ํ•ฉ๊ณผ ๊ณฑ์˜ ๋ฒ•์น™

ํ•ฉโˆ™๊ณฑ๋ฒ•์น™ + ๊ฒฐ์ •์ด๋ก (decision theory)๋ฅผ ์ด์šฉํ•˜๋ฉด,
๋ชจํ˜ธํ•œ ์ •๋ณด( = uncertainty)๋”๋ผ๋„ optimal prediction์— ๋„๋‹ฌ๊ฐ€๋Šฅ

p(X,Y) : X์™€ Y์˜ ๊ฒฐํ•ฉํ™•๋ฅ (joint probability)

p(Y|X) : X์— ๋Œ€ํ•œ Y์˜ ์กฐ๊ฑด๋ถ€ํ™•๋ฅ  (X๋งŒ ๊ณ ๋ ค์‹œ, Y์ผ ํ™•๋ฅ )
p(X) : ์ฃผ๋ณ€ํ™•๋ฅ (marginal probability), ๋‹จ์ˆœ Xํ™•๋ฅ 
p(X,Y) = p(X)p(Y) : ๋…๋ฆฝ




Expectation & Covariance

 โˆ™ Expectation: ํ™•๋ฅ ๋ถ„ํฌ ํ•˜ ํ•จ์ˆ˜์˜ ๊ฐ€์ค‘ํ‰๊ท 

E[f] : ๋‹ค๋ฅธ x๊ฐ’๋“ค์ด ์ƒ๋Œ€์  ํ™•๋ฅ ์— ๋”ฐ๋ผ "๊ฐ€์ค‘"๋˜๋Š”๋ฐ, ์ด๋Š” ๊ณง "ํ™•๋ฅ ๋ถ„ํฌ p(x)ํ•˜์—์„œ ํ•จ์ˆ˜ f(x)์˜ ๊ฐ€์ค‘ํ‰๊ท "์„ ์˜๋ฏธ.

์ด์‚ฐ๋ณ€์ˆ˜์˜ ๊ธฐ๋Œ“๊ฐ’์˜ ๊ฒฝ์šฐ, sample์ด ๋งŽ์•„์งˆ์ˆ˜๋ก ์‹ค์ œํ•จ์ˆ˜์˜ ๊ฐ€์ค‘ํ‰๊ท ์— ๋”์šฑ ์ˆ˜๋ ดํ•˜๊ฒŒ ๋œ๋‹ค.
cf) ๋ถ„์‚ฐ: Var[f] = E[f(x)2] - E[f(x)]2. (feat. ์ œํ‰ํ‰์ œ)


 โˆ™ Covariance: ๋‘ ๋ณ€์ˆ˜๊ฐ€ ํ•จ๊ป˜ ์–ผ๋งˆ๋‚˜ ๋ณ€ํ•˜๋Š”์ง€๋ฅผ ์ธก์ •.


๋งŒ์•ฝ x์™€ y๊ฐ€ ๋…๋ฆฝ์ด๋ผ๋ฉด: Cov[x,y]=0


๋‘ ๋ฒกํ„ฐ x์™€ y์— ๋Œ€ํ•ด, ๊ทธ๋“ค์˜ ๊ณต๋ถ„์‚ฐ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ–‰๋ ฌ์ด๋‹ค:

๋งŒ์•ฝ ๋ฒกํ„ฐ x์˜ ๊ตฌ์„ฑ ์š”์†Œ๋“ค ๊ฐ„์˜ ๊ณต๋ถ„์‚ฐ์„ ๊ณ ๋ คํ•œ๋‹ค๋ฉด,
๋” ๊ฐ„๋‹จํ•œ ํ‘œ๊ธฐ๋ฒ•์œผ๋กœ cov[x] ≡ cov[x, x]๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.




Gaussian Distribution

 โˆ™ Gaussian ๋ถ„ํฌ (์ตœ๋Œ€entropy์™€ CLT)

Maximum Entropy์™€ ์ค‘์‹ฌ ๊ทนํ•œ ์ •๋ฆฌ(CLT)์˜ ๊ด€์ ์—์„œ ์ž์—ฐ์Šค๋ ˆ ๋‚˜ํƒ€๋‚œ๋‹ค.
cf) ์ตœ๋Œ“๊ฐ’=์ตœ๋นˆ๊ฐ’์ด๋ฉฐ, precision = 1/σ2

 โˆ™ Likelihood ํ•จ์ˆ˜


์šฐ์ธก ๊ทธ๋ž˜ํ”„๋Š” Gaussian์˜ Likelihoodํ•จ์ˆ˜:
ํšŒ์ƒ‰์ : Gaussian๋ถ„ํฌ์—์„œ i.i.d์ธ Dataset
ํŒŒ๋ž€์ : ๊ฐ dataset์— ๋Œ€ํ•œ ๊ด€์ธก๊ฐ’, p(x)
Likelihoodํ•จ์ˆ˜: p(x)์™€ PDF์˜ ๊ณฑ์œผ๋กœ "ํŠน์ • data๊ด€์ฐฐ ํ™•๋ฅ ์„ ์˜๋ฏธ"

 

 โˆ™ Maximum Likelihood 

์ด๋•Œ ๊ด€์ฐฐ๋œ Dataset์œผ๋กœ Likelihood Function์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํ™•๋ฅ ๋ถ„ํฌ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•.

์ขŒ์ธก ๊ฐ’์€ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์— ๋Œ€ํ•ด ์œ„ likelihoodํ•จ์ˆ˜๋ฅผ ์ตœ๋Œ€ํ™” ์‹œ,
๊ฐ๊ฐ์— ๋Œ€ํ•œ Maximum Likelihood ํ•ด๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

Maximum Likelihood์˜ ์ œํ•œ์‚ฌํ•ญ์ด ์กด์žฌํ•œ๋‹ค:
(MLE๋Š” ๋ชจ์ง‘๋‹จ ์ถ”์ •์— ์™„๋ฒฝํ•˜์ง€ ์•Š์€๋ฐ, ์ด๋Š” bias๋กœ ์ธํ•ด ๋ฐœ์ƒํ•œ๋‹ค)
μML   =  μ์˜ ๋ถˆํŽธ ์ถ”์ •๋Ÿ‰  ,  σML2 ≠  σ2์˜ ๋ถˆํŽธ ์ถ”์ •๋Ÿ‰. (N-1 / N)

[Bias๋ฐœ์ƒ์›์ธ]:
๋ถ„์‚ฐ์ด ๋ฐ์ดํ„ฐ์— ๋งž๊ฒŒ ์กฐ์ •๋œ MLE๊ธฐ์ค€์œผ๋กœ ์ธก์ •๋˜๊ธฐ ๋•Œ๋ฌธ.
์•„๋ž˜ ๊ทธ๋ฆผ์€ MLE๋กœ Gaussian์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ๊ฒฐ์ •ํ•  ๋•Œ,
bias๊ฐ€ ์–ด๋–ป๊ฒŒ ๋ฐœ์ƒํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ์ง๊ด€์ ์ธ ์ดํ•ด๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.

๋นจ๊ฐ„๊ณก์„ : Gaussian๋ถ„ํฌ
ํŒŒ๋ž€๊ณก์„ : 2๊ฐœ์˜ ๋…น์ƒ‰ data point๋กœ ์ด๋ค„์ง„ 3๊ฐœ์˜ dataset์— ML๋กœ ์–ป์€ Gaussian๋ถ„ํฌ.


์œ„ ๊ทธ๋ฆผ์„ ํ†ตํ•ด ๋‹ค์Œ ์‚ฌ์‹ค์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.
3๊ฐœ์˜ dataset์„ ํ‰๊ท ํ™”ํ•˜๋ฉด ํ‰๊ท ์„ ๋™์ผํ•˜๋‹ค.
ํ•˜์ง€๋งŒ, ๋ถ„์‚ฐ์€ ์‹ค์ œ ํ‰๊ท ๊ณผ ๋น„๊ตโŒ  , ํ‘œ๋ณธํ‰๊ท ๊ณผ ๋น„๊ต → ๋‹ค์†Œ ๊ณผ์†Œํ‰๊ฐ€(N-1/N)๋œ๋‹ค.

๋‹ค๋งŒ, ์‹ ๊ฒฝ๋ง์ฒ˜๋Ÿผ ๋ณต์žกํ•œ ๋ชจ๋ธ์—์„œ๋Š” ML์˜ bias๋ณด์ •์ด ์‰ฝ์ง€ ์•Š๋‹ค.
๋˜ํ•œ, MLE์˜ bias๋Š” Data point N์ด ๋งŽ์•„์ง€๋ฉด, ๋œ ์ค‘์š”ํ•ด์ง€์ง„๋‹ค.(lim N → ∞)

Gaussian์˜ ๊ฒฝ์šฐ, ๋„ˆ๋ฌด N์ด ์ ์ง€ ์•Š์€ ์ด์ƒ ์ด bias๊ฐ€ ํฐ ๋ฌธ์ œ๊ฐ€ ๋˜์ง„ ์•Š์ง€๋งŒ
๋ณธ ์ €์„œ๋Š” Deep Learning ์ฆ‰, ๋งŽ์€ parameter๋ฅผ ๊ฐ–๋Š” ๋ชจ๋ธ์— ์ดˆ์ ์„ ๋‘์—ˆ๊ธฐ์—
ML๊ณผ ๊ด€๋ จ๋œ bias๋ฌธ์ œ๋Š” ๋ณด๋‹ค ์‹ฌ๊ฐํ•˜๋‹ค.(Overfitting๋ฌธ์ œ์™€ ๋ฐ€์ ‘ํ•œ ๊ด€๋ จ์„ฑ์„ ๊ฐ€์ง.)

๋ณ€์ˆ˜๊ฐ„ ๋น„์„ ํ˜•๋ณ€ํ™˜: 

 โˆ™ Density ๋ณ€ํ™˜๋ฐฉ๋ฒ•:

๋ชจ๋“  ๋ฐ€๋„ p(y)๋Š” ๋ชจ๋“ ๊ณณ์—์„œ 0์ด์•„๋‹Œ ๊ณ ์ •๋œ ๋ฐ€๋„ q(x)๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ.
์ด๋•Œ, q(x)๋Š” x=f(y)์ธ ๋น„์„ ํ˜•๋ณ€์ˆ˜๋ณ€ํ™˜์œผ๋กœ ์–ป์–ด์ง„ ๊ฐ’.

๋นจ๊ฐ„๊ณก์„ 
: x์— ๋Œ€ํ•œ ์ •๊ทœ๋ถ„ํฌ p(x)
์ด ๋ถ„ํฌ์—์„œ N=5๋งŒ๊ฐœ ์  ์ถ”์ถœ, histogram์„ ๊ทธ๋ฆผ.
→ p(x)์™€ ๊ฑฐ์˜ ์ผ์น˜ํ•  ๊ฒƒ.


x→y๋กœ์˜ ๋น„์„ ํ˜•๋ณ€์ˆ˜๋ณ€ํ™˜์„ ๊ณ ๋ คํ•ด๋ณด๋ฉด:
x = g(y) = ln(y)-ln(1-y)+5
์ด ํ•จ์ˆ˜์˜ ์—ญํ•จ์ˆ˜๋Š” Sigmoidํ•จ์ˆ˜๋กœ ํŒŒ๋ž€๊ณก์„ ์ด๋‹ค.

px(g(y)): ๋งŒ์•ฝ ๋‹จ์ˆœํžˆ px(x)๋ฅผ x์˜ ํ•จ์ˆ˜๋กœ ๋ณ€ํ™˜ํ•œ๋‹ค๋ฉด ์–ป๋Š” ๋ถ„ํฌ, ๊ณก์„ ์˜ mode๊ฐ€ ๋ณ€ํ™˜๋œ ๊ฒƒ์„ ํ™•์ธ๊ฐ€๋Šฅ.
y์— ๋Œ€ํ•œ ๋ฐ€๋„๋Š” ์ขŒ์ธก ์‹์— ์˜ํ•ด ๋ณ€ํ˜•๋˜๊ธฐ์—

์ขŒ์ธก์˜ ํ•‘ํฌ ๊ณก์„ (right-skewed)์œผ๋กœ ๋‚˜ํƒ€๋‚œ๋‹ค.

์ด ์‹์„ ๋‹ค๋ณ€๋Ÿ‰์— ๋Œ€ํ•ด ์ ์šฉํ•˜๋ ค๋ฉด Jacobian Matrix๋ฅผ ์ด์šฉํ•˜๋ฉด ๋œ๋‹ค.

x, y๊ฐ€ ๋‹ค๋ณ€๋Ÿ‰๋ถ„ํฌ์ผ ๋•Œ, ๋น„์„ ํ˜•๋ณ€ํ™˜์„ ์ ์šฉํ•˜๋ ค๋ฉดJacobian Matrix๋ฅผ ์‚ฌ์šฉ (py(y) = px(x) |det J|).


ํ•ด๋‹น ๊ทธ๋ž˜ํ”„๋ฅผ ๋ณด๋ฉด y์˜ ์ฃผ๋ณ€๋ถ„ํฌ๋กœ ๋–จ์–ด์ง€๋Š”๋ฐ ์ด๋ฅผ ๊ณต๊ฐ„์ƒ์œผ๋กœ ํ™•์žฅํ•œ ๊ฒƒ.
์ฆ‰, "์ฃผ๋ณ€ ์˜์—ญ"์œผ๋กœ ๋ณ€ํ™˜ ๋œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธ.


cf) J์˜ ์—ญํ• : 
๊ณต๊ฐ„์˜ ์ผ๋ถ€๋ฅผ ํ™•์žฅํ•˜๊ณ  ๋‹ค๋ฅธ ๋ถ€๋ถ„์„ ์••์ถ•ํ•˜๋Š” ๊ฒƒ
(= ํ•ด๋‹น ๋ณ€์ˆ˜์˜ ๋ณ€ํ™”๋Ÿ‰์ด ๋‹ค๋ฅธ ๋ณ€์ˆ˜์— ์–ผ๋งˆ๋‚˜ ์˜ํ–ฅ์„ ์ฃผ๋Š”์ง€๋ฅผ ์˜๋ฏธ;
์ด๋ฅผ ๋ชจ๋“  ์˜์—ญ์— ๋Œ€ํ•ด ๊ณ ๋ คํ•˜๋ฉด ์ „์ฒด ๊ณต๊ฐ„์ด ์–ด๋–ป๊ฒŒ ๋ณ€ํ™”ํ•˜๋Š”์ง€ ์•Œ ์ˆ˜ ์žˆ์Œ)



์ •๋ณด์ด๋ก : Entropy

 โˆ™ Entropy: ํŠน์ •๊ฐ’ ๊ด€์ฐฐ ์‹œ ์–ป๋Š” ์ •๋ณด๋Ÿ‰

๋ฌผ๋ฆฌํ•™์—์„œ์˜ entropy๋ณด๋‹จ, ์ •๋ณด์ด๋ก  ์ค‘์‹ฌ์˜ "์ •๋ณด๋Ÿ‰"๊ธฐ์ค€์œผ๋กœ ์‚ดํŽด๋ณด์ž.

์ •๋ณด๋‚ด์šฉ์˜ ์ธก์ •์€ ํ™•๋ฅ  ๋ถ„ํฌ p(x)์— ์˜์กด, ๋”ฐ๋ผ์„œ h(x)๋ฅผ ์ฐพ๋Š”๊ฒƒ์ด ๋ชฉํ‘œ.
h(x)
: 
p(x)์˜ ๋‹จ์กฐ ํ•จ์ˆ˜์ธ ์ •๋ณด ๋‚ด์šฉ์„ ๋‚˜ํƒ€๋‚ด๋Š” ์–‘

[์ •๋ฆฌ]: ๋‘ ๋…๋ฆฝ์‚ฌ๊ฑด x,y์— ๋Œ€ํ•ด ์•„๋ž˜๊ฐ€ ์„ฑ๋ฆฝ.
  โˆ™ h(x,y) = h(x) + h(y)
  โˆ™ p(x,y) = p(x)p(y)
h๋Š” p์˜ ์ •๋ณด๋Ÿ‰์ด๊ธฐ์— ์œ„ ์‹์ด ๋งŒ์กฑํ•˜๋ ค๋ฉด h๋Š” log๋กœ ์ฃผ์–ด์ง„๋‹ค.
 h(x) = -logโ‚‚p(x)๋กœ ์ฃผ์–ด์ง„๋‹ค.

์ •๋ณด๋ก : logโ‚‚๊ฐ€ ๊ด€๋ก€์ , ์ด๋Š” ๊ณง h(x)์˜ ๋‹จ์œ„๊ฐ€ bit('binary digits')์ž„์„ ์˜๋ฏธ.

์ด๋•Œ, entropy๋ฅผ ์ข€ ๋” ์ •๋ณด๋ก ์ ์œผ๋กœ ์ ‘๊ทผํ•ด๋ณด์ž.
๋จผ์ € log ์‚ฌ์šฉ์ด์œ ์ด๋‹ค. 
์ •๋ณด ์ „๋‹ฌ ์‹œ, encoding์„ ํ•˜์—ฌ ์••์ถ•์„ ์‹œ์ผœ์•ผ ํ•˜๋Š”๋ฐ, log๋Š” ์ž๋ฆฟ์ˆ˜๋ฅผ ์‰ฝ๊ฒŒ ํ‘œํ˜„๊ฐ€๋Šฅํ•˜๋‹ค.
ex) log100 = 2, log1000 = 3

์ฆ‰, Entropy๋Š” random๋ณ€์ˆ˜์˜ ์ƒํƒœ๋ฅผ ์ „์†ก ์‹œ,
์ „์†ก ๊ฐ€๋Šฅํ•œ ๊ฐ€์žฅ ์งง์€, encoding๊ธธ์ด ์ตœ์†Ÿ๊ฐ’์„ ์˜๋ฏธํ•œ๋‹ค.

์ถ”๊ฐ€์ ์œผ๋กœ ์ „์†ก๋‚ด์šฉ์€ ํ•„ํžˆ ์†์‹ค์ด ๋ฐœ์ƒํ•˜๋Š”๋ฐ, ์šฐ๋ฆฌ๊ฐ€ ๊ฐ–๋Š” data๋Š” ์ด์‚ฐํ˜•์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.
์ฆ‰, ๋งค์šฐ ์ •๋ฐ€ํ•˜๊ฒŒ ์ง€์ •ํ•˜๋ ค๋ฉด ๋งŽ์€ bit๊ฐ€ ํ•„์š”ํ•จ์„ ์˜๋ฏธํ•œ๋‹ค.


 โˆ™ H[x] : x์˜ entropy (= p(x)์˜ ๊ธฐ๋Œ“๊ฐ’ = ํ‰๊ท ์ •๋ณด๋Ÿ‰)

H[x]๋Š” x์˜ entropy๋กœ ํ‰๊ท ์ •๋ณด๋Ÿ‰ ์ฆ‰, p(x)์˜ ๊ธฐ๋Œ“๊ฐ’์„ ์˜๋ฏธ

cf) H[x, y] = H[y|x] + H[x]๋ฅผ ๋งŒ์กฑ.
์ฆ‰, x์™€ y๋ฅผ ์„ค๋ช…ํ•˜๋Š”๋ฐ ํ•„์š”ํ•œ ์ •๋ณด = ์ฃผ์–ด์ง„ ์กฐ๊ฑด์—์„œ y๋ฅผ ์ง€์ •ํ•˜๋Š”๋ฐ ํ•„์š”ํ•œ ์ถ”๊ฐ€์ •๋ณด + x๋งŒ์„ ์„ค๋ช…ํ•˜๋Š”๋ฐ ํ•„์š”ํ•œ ์ •๋ณด.


โˆ™ KL Divergence : ๋‘ ๋ถ„ํฌ๊ฐ„์˜ ๋น„์œ ์‚ฌ๋„ ์ธก์ •.

๋ชจ๋ฅด๋Š” ๋ถ„ํฌ p(x)์™€ ๊ทผ์‚ฌ๋ถ„ํฌ q(x)์— ๋Œ€ํ•ด q(x)๋ฅผ ์ด์šฉํ•ด x๊ฐ’์„ ์ˆ˜์‹ ์ž์—๊ฒŒ ์ „์†กํ•œ๋‹ค.
์ด๋•Œ, q(x)๋Š” ์‹ค์ œ๋ถ„ํฌ p(x)๋Œ€์‹  x๊ฐ’ ์ง€์ • ์‹œ ํ•„์š”ํ•œ "ํ‰๊ท ์ถ”๊ฐ€์ •๋ณด๋Ÿ‰"์„ ์˜๋ฏธํ•œ๋‹ค.
(์ฆ‰, ์ถ”๊ฐ€๋กœ ์ „์†กํ•ด์•ผํ•  ์ •๋ณด = ๋‘ ๋ถ„ํฌ๊ฐ„์˜ KL-Divergence)
์‰ฝ๊ฒŒ ์„ค๋ช…ํ•˜์ž๋ฉด, Cross Entropy - Entropy๊ฐ€ ๋ฐ”๋กœ KL Divergence์‹์ด๋‹ค.

cf) Deep Learning์—์„œ Loss function์œผ๋กœ KL Divergence๋ฅผ ์‚ฌ์šฉํ•ด์•ผํ•˜๋Š” ๊ฒƒ ์•„๋‹Œ๊ฐ€์š”?
์™œ KL Divergence๊ฐ€ ์•„๋‹Œ Cross Entropy๋ฅผ ์‚ฌ์šฉํ•˜๋Š”์ง€ ์˜๋ฌธ์ด ๋“ค ์ˆ˜ ์žˆ๋‹ค.
KL-Divergence๋Š” cross entropy์—์„œ ์ตœ์†Œ๋Ÿ‰์ธ entropy๋ฅผ ๋นผ๋‹ˆ๊นŒ ์ด ์˜ค์ฐจ๊ฐ’,
์ฆ‰, cross entropy๊ฐ€ optimal(= entropy)ํ•ด์ง€๋„๋ก ํ‰๊ท ์ถ”๊ฐ€์ •๋ณด๋Ÿ‰์„ ์ค„์ด๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ๋งž๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ค ๊ฒƒ์ด๋‹ค.

ํ•˜์ง€๋งŒ ์˜ค์ฐจํ•จ์ˆ˜ ๋ฏธ๋ถ„ ์‹œ, Entropy๊ฐ€ ์ƒ์ˆ˜๊ฐ€ ๋˜์–ด๋ฒ„๋ฆฌ๊ธฐ ๋•Œ๋ฌธ์— 
๊ฒฐ๊ตญ KL-Divergence = Cross Entropy๊ฐ€ ๋˜์–ด๋ฒ„๋ฆฐ๋‹ค.
๊ฒฐ๊ตญ Cross Entropy๋ฅผ ํŽธ์˜์ƒ ์‚ฌ์šฉํ•˜์ง€๋งŒ, ์‹ค์ƒ์€ KL-Divergence๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋ผ ์ƒ๊ฐํ•˜๋ฉด ๋œ๋‹ค.

Bayes' Theorem: ๋ถˆํ™•์‹ค์„ฑ์˜ ์–‘์ ํ‘œํ˜„

 โˆ™ Frequentist ํ™•๋ฅ :

ํœœ ๋™์ „์˜ ๊ฒฝ์šฐ ๋™์ „์ด ์˜ค๋ชฉํ•œ ๋ฉด์œผ๋กœ ๋–จ์–ด์งˆ ํ™•๋ฅ ์ฒ˜๋Ÿผ ๋ฌด์ž‘์œ„, ๋ฐ˜๋ณต ๊ฐ€๋Šฅํ•œ ์‚ฌ๊ฑด์˜ ๋นˆ๋„์— ๋Œ€ํ•œ ํ™•๋ฅ .
[p(D|w)์— ๋Œ€ํ•œ ์ ‘๊ทผ๋ฐฉ์‹]:
w๋Š”'estimator'์˜ ์ผ์ข…์— ์˜ํ•ด ๊ฒฐ์ •๋˜๋Š”๊ณ ์ •๋œ ๋งค๊ฐœ๋ณ€์ˆ˜๋กœ ๊ฐ„์ฃผ
[๊ธฐ๊ณ„ํ•™์Šต์— ๋Œ€ํ•œ ์ ์šฉ๋ฐฉ์‹]: ์ •๊ทœํ™”๋œ MSE๊ฐ™์€ Loss function์„ ์ตœ์ ํ™”ํ•ด ์–ป์€ parameter์ง€์ ์˜ ์ถ”์ •์น˜๋ฅผ ์‚ฌ์šฉ


 โˆ™ Bayesian ํ™•๋ฅ 

[p(D|w)์— ๋Œ€ํ•œ ์ ‘๊ทผ๋ฐฉ์‹]: ํ•˜๋‚˜์˜ dataset D๋งŒ ์กด์žฌํ•˜๋ฉฐ (์ฆ‰, ์‹ค์ œ๋กœ ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ), ๋งค๊ฐœ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๋ถˆํ™•์‹ค์„ฑ์€ w์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ํ†ตํ•ด ํ‘œํ˜„
[๊ธฐ๊ณ„ํ•™์Šต์— ๋Œ€ํ•œ ์ ์šฉ๋ฐฉ์‹]: ๋ฐ์ดํ„ฐ์˜ ํ™•๋ฅ ์ด ๊ฐ€์žฅ ๋†’์€ ๋ชจ๋ธ์„ ์„ ํƒ → ๋” ๋ณต์žกํ•œ ๋ชจ๋ธ์„ ์„ ํ˜ธ → Overfitting
๊ทธ๋ ‡๊ธฐ์— Bayesian๊ธฐ๋ฐ˜ ๊ธฐ๊ณ„ํ•™์Šต ๋ชจ๋ธ์€ ์ ์€ dataset์ผ์ˆ˜๋ก ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ธ๋‹ค.


๋ถˆํ™•์‹ค์„ฑ์˜ ์–‘์ ํ‘œํ˜„, prior๊ฐ€ ์ž์—ฐ์Šค๋ ˆ ๋ฐœ์ƒํ•˜์—ฌ ํฌํ•จ๋œ๋‹ค.
"๋ถˆํ™•์‹ค์„ฑ ํ‘œํ˜„์„ ์œ„ํ•ด ํ™•๋ฅ ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š์œผ๋ฉด, ์ด์„ฑ์ ์ด๊ณ  ์ผ๊ด€๋œ ์ถ”๋ก ์„ ํ•  ์ˆ˜ ์—†๋‹ค."

ex) ๋ถˆํ™•์‹ค์„ฑ = ๋™์ „์˜ ์˜ค๋ชฉํ•œ ๋ฉด์ด ์–ด๋Š๋ฉด์ธ์ง€ ํŒŒ์•…ํ•˜๋Š” ๊ฒƒ
์˜ˆ๋ฅผ ๋“ค์–ด, ๋™์ „์ด ๋’ท๋ฉด์œผ๋กœ ๋” ๋งŽ์ด ๋–จ์–ด์ง€๋Š” ํšŸ์ˆ˜๊ฐ€ ๋งŽ๋‹ค๋ฉด?
๋™์ „์ด ์˜ค๋ชฉํ•œ ๋ฉด์ด ๋’ท๋ฉด์ผ ๊ฐ€๋Šฅ์„ฑ์ด ๋” ๋†’๋‹ค๋Š” ์ฆ๊ฑฐ๋ฅผ ์ œ์‹œํ•˜๊ณ ,
์‹ค์ œ๋กœ ์ด๋Ÿฐ ์ง๊ด€์€ ๋งž๊ธฐ์— ์ด๋ฅผ ํ™•๋ฅ ๊ทœ์น™์œผ๋กœ ์‚ฌ์šฉํ•ด ์–‘์ ์œผ๋กœ ํ‘œํ˜„๊ฐ€๋Šฅํ•˜๋‹ค
 Bayes์ •๋ฆฌ์— ์˜ํ•ด ๋™์ „ ๋˜์ง€๊ธฐ๋กœ ์ œ๊ณต๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉํ•˜์—ฌ ์˜ค๋ชฉํ•œ ๋ฉด์ด ์•ž๋ฉด์ผ ์‚ฌ์ „ ํ™•๋ฅ ์„ ์‚ฌํ›„ ํ™•๋ฅ ๋กœ ๋ณ€ํ™˜ํ•  ์ˆ˜ ์žˆ๋‹ค.
๊ณผ์ •์ด ๋ฐ˜๋ณต๊ฐ€๋Šฅํ•˜๊ธฐ์—, ์ƒˆ๋กœ์šด ๋™์ „ ๋˜์ง€๊ธฐ์—์„œ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ฉํ•˜๋Š” ๋ฐ์—๋Š” ์ด์ „์˜ ์‚ฌํ›„ ํ™•๋ฅ ์ด ์‚ฌ์ „์œผ๋กœ ์‚ฌ์šฉ๋œ๋‹ค.


D
: train dataset

p(D|w) : Likelihood ; ์ฃผ์–ด์ง„ parameter์—์„œ ๊ด€์ธก๋œ data๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ 
p(w) : prior ; ์„ ํ—˜์  ์ง€์‹์ด๋‚˜ ๋ฏฟ์Œ.
p(w|D) : posterior ; ์ œ๊ณต๋˜๋Š” update๋œ parameterํ™•๋ฅ ๋ถ„ํฌ
p(D) : Marginal Likelihood ; p(D|w)โˆ™p(w)์˜ ์ ๋ถ„๊ฐ’ ; ๋ชจ๋ธ์ „์ฒด์˜ ์ ํ•ฉ๋„.



์ด๋ฅผ ํ†ตํ•ด train data์— ๋Œ€ํ•œ ์šฐ๋ฆฌ์˜ ๋ถˆํ™•์‹ค์„ฑ์„ ๋ฐ˜์˜์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ new data์— ๋Œ€ํ•œ ์˜ˆ์ธก ์ˆ˜ํ–‰์ด ๊ฐ€๋Šฅํ•˜๋‹ค.
์ด๋ ‡๊ฒŒ Bayesian์ ‘๊ทผ์€ model parameter์— ๋Œ€ํ•œ ๋ถˆํ™•์‹ค์„ฑ์„ ๊ณ ๋ คํ•œ ํ™•๋ฅ ์  ์ถ”๋ก ์„ ์ œ๊ฑฐ, ๋ถˆํ™•์‹ค์„ฑ update๋ฅผ ํ†ตํ•œ model๊ฐœ์„ ์ด ๊ฐ€๋Šฅํ•˜๋‹ค.

+ Recent posts