๐Ÿ“Œ ๋ชฉ์ฐจ

1. Discrete Variables
2. The Multivariate Gaussian

3. Periodic Variables
4. The Exponential Family
5. Nonparametric Methods
cf. Hypothesis Testing

 

๐Ÿง  preview: Density Estimation

ํ™•๋ฅ ๋ถ„ํฌ์™€ ๊ทธ ํŠน์„ฑ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ณ ์ž ํ•œ๋‹ค.

[ํ™•๋ฅ ๋ฐ€๋„ ์ถ”์ •: Density Estimation]
์œ ํ•œํ•œ ๊ด€์ธก๊ฐ’ ์ง‘ํ•ฉ x1, . . . , xN์ด ์ฃผ์–ด์กŒ์„ ๋•Œ, ํ™•๋ฅ  ๋ณ€์ˆ˜ x์˜ ํ™•๋ฅ  ๋ถ„ํฌ p(x)๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๊ฒƒ
๊ธฐ๋ณธ์ ์œผ๋กœ ๋ฐ€๋„์ถ”์ •์€ ๋ถˆ๊ท ํ˜•ํ•˜๋ฉฐ, ๋ฌดํ•œํžˆ ๋งŽ์€ ํ™•๋ฅ ๋ถ„ํฌ๊ฐ€ ์œ ๋„๋  ์ˆ˜ ์žˆ๊ธฐ์— ์ ์ ˆํ•œ ๋ถ„ํฌ๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ๊ธฐ๊ณ„ํ•™์Šต์˜ fitting์ธก๋ฉด์—์„œ ์ค‘์š”ํ•˜๋‹ค ํ•  ์ˆ˜ ์žˆ๋‹ค.

[Main Interest]:
Gaussian Distribution with discrete variables
Maximum Likelihood
์ด๋•Œ, ๊ธฐ๋ณธ์ ์œผ๋กœ ๊ด€์ฐฐ๋œ data๋Š” i.i.d๋กœ ๊ฐ€์ •ํ•œ๋‹ค.

[non-parametric density estimation]:
โˆ™ ๋งค๊ฐœ ๋ณ€์ˆ˜ ์ ‘๊ทผ๋ฒ•์˜ ํ•œ๊ณ„์ : ํŠน์ •ํ•œ ๋ถ„ํฌ์˜ ๊ธฐ๋Šฅ ํ˜•ํƒœ๋ฅผ ๊ฐ€์ •ํ•œ๋‹ค๋Š” ๊ฒƒ
→ ์ด๋Š” ํŠน์ • ์‘์šฉ์— ๋ถ€์ ์ ˆ
→ ๋Œ€์•ˆ์ ์ธ ์ ‘๊ทผ๋ฒ•์œผ๋กœ "๋น„๋งค๊ฐœ๋ณ€์ˆ˜ ๋ฐ€๋„์ถ”์ •๋ฒ•" ์‚ฌ์šฉ:
Dataset์˜ ํฌ๊ธฐ์— ๋”ฐ๋ผ ๋ถ„ํฌ์˜ ํ˜•ํƒœ๊ฐ€ ๋‹ฌ๋ผ์ง€๋Š” ๊ฒƒ์œผ๋กœ ๋ถ„ํฌํ˜•ํƒœ๊ฐ€ ์•„๋‹Œ, "๋ชจ๋ธ๋ณต์žก์„ฑ์„ ์ œ์–ด"
ex) Histogram, nearest neighbors and kernels์— ๊ธฐ๋ฐ˜ํ•œ 3๊ฐ€์ง€ non-parametric๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ๊ณ ๋ ค.

โˆ™ ๋น„๋งค๊ฐœ ๋ณ€์ˆ˜ ์ ‘๊ทผ๋ฒ•์˜ ํ•œ๊ณ„์ : ๋ชจ๋“  ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ์ €์žฅํ•œ๋‹ค๋Š” ๊ฒƒ

โˆ™ Deep Learning: 
๋งค๊ฐœ ๋ณ€์ˆ˜ ๋ชจ๋ธ(์œ ์—ฐํ•œ ๋ถ„ํฌ๋ฅผ ๊ณ ๋ คํ•˜๋Š” ํšจ์œจ์„ฑ) + ๋น„๋งค๊ฐœ ๋ณ€์ˆ˜ ๋ฐฉ๋ฒ•(์ผ๋ฐ˜์„ฑ)
→ ๋งŽ์ง€๋งŒ ๊ณ ์ •๋œ ์ˆ˜์˜ ๋งค๊ฐœ ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ ์‹ ๊ฒฝ๋ง์— ๊ธฐ์ดˆ, ๋‹ค์–‘ํ•œ ๋ถ„ํฌ๋ฅผ ๊ณ ๋ ค.

 

 

 

 

 

 

 


1. Discrete Variables

1.1  Bernoulli distribution

์ด์ง„ํ™•๋ฅ ๋ณ€์ˆ˜ x ∈ {0, 1}์— ๋Œ€ํ•ด, x = 1์˜ ํ™•๋ฅ ์€ ๋งค๊ฐœ ๋ณ€์ˆ˜ μ์ด๋ผ ํ•˜์ž.
x = 1์˜ ํ™•๋ฅ : p(x=1 | μ) = μ์ด๋‹ค. (0 ≤ μ ≤ 1).
x = 0์˜ ํ™•๋ฅ : p(x=0 | μ) = 1 − μ.
∴ x์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ถ„ํฌ = ๋ฒ ๋ฅด๋ˆ„์ด๋ถ„ํฌ:
์ด ๋ถ„ํฌ๊ฐ€ ์ •๊ทœํ™”๋˜์–ด ์žˆ๊ณ , ํ‰๊ท  ๋ฐ ๋ถ„์‚ฐ ์•„๋ž˜์™€ ๊ฐ™๋‹ค:

Maximum Likelihood Estimation

[Bernoulli distribution์˜ likelihoodํ•จ์ˆ˜]
์ด์ œ x์˜ ๊ด€์ธก๊ฐ’์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ D = {x1,...,xN}์— ๋Œ€ํ•ด
μ์— ๋Œ€ํ•œ ๊ด€์ธก์น˜๊ฐ€ p(x|μ)์—์„œ ๋…๋ฆฝ์ ์œผ๋กœ ์ถ”์ถœ๋˜์—ˆ๋‹ค๋Š” ๊ฐ€์ • ํ•˜์— ์•„๋ž˜์™€ ๊ฐ™๋‹ค:

[Maximum Likelihood Estimation]

์ด์ œ, ์ด likelihoodํ•จ์ˆ˜ ์ตœ๋Œ€ํ™”๋กœ μ๊ฐ’์„ ์ถ”์ •ํ•ด๋ณด์ž.
์œ„ likelihood of Bernoulli distribution ํ•จ์ˆ˜์˜ ํ•ต์‹ฌ์€ ๊ด€์ธก์น˜ x๊ฐ€ ∑x๋ฅผ ํ†ตํ•ด์„œ๋งŒ ์˜์กดํ•œ๋‹ค๋Š” ์ ์ด๋‹ค.
ln p(D|μ)๋ฅผ μ์— ๋Œ€ํ•ด ๋ฏธ๋ถ„ํ•˜์—ฌ 0์œผ๋กœ ๋†“์œผ๋ฉด MLE๊ฐ’์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค:

์ด๋ฅผ μML๋กœ ํ‘œ์‹œํ•˜๋ฉฐ sample mean์ด๋ผ ํ•œ๋‹ค.

1.2  Binomial distribution

Dataset size: N
binary variable: x
x์˜ ๊ด€์ธก์น˜ ์ˆ˜: m

์ด m์— ๋Œ€ํ•œ ๋ถ„ํฌ๋ฅผ ์ดํ•ญ๋ถ„ํฌ๋ผ ํ•˜๋ฉฐ, ์ด๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
์—ฌ๊ธฐ์„œ (N m) ≡ N! / (N-m)!m!์€ N๊ฐœ์˜ ๋™์ผํ•œ ๊ฐ์ฒด ์ค‘์—์„œ m๊ฐœ์˜ ๊ฐ์ฒด๋ฅผ ๊ต์ฒด์—†์ด ์„ ํƒํ•˜๋Š” ๋ฐฉ๋ฒ•์˜ ์ˆ˜์ด๋‹ค.
์•„๋ž˜ ๊ทธ๋ฆผ์€ N = 10 , μ = 0.25์—์ธ ์ดํ•ญ๋ถ„ํฌ ๊ทธ๋ž˜ํ”„์ด๋‹ค.
cf) ์ด ๊ฒฐ๊ณผ๋Š” ๋ฏธ์ ๋ถ„์„ ์‚ฌ์šฉํ•˜์—ฌ ์ง์ ‘ ์ฆ๋ช…ํ•  ์ˆ˜๋„ ์žˆ๋‹ค.

1.3  Multinomial distribution

์ด์ง„๋ณ€์ˆ˜: ๋‘˜ ์ค‘ ํ•˜๋‚˜๋ฅผ ๊ฐ–๋Š” ์–‘์„ ์„ค๋ช… ์‹œ ์‚ฌ์šฉ.

One-hot Encoding:

๋‹ค๋งŒ, ์šฐ๋ฆฐ K๊ฐ€์ง€ ์ƒํƒœ ์ค‘ ํ•˜๋‚˜๋ฅผ ๊ฐ–๋Š” ์ด์‚ฐ๋ณ€์ˆ˜์™€ ํ›จ์”ฌ ๊ทผ์ ‘ํ•จ.
์ด๋•Œ, ๋ณ€์ˆ˜ํ‘œํ˜„์„ ์œ„ํ•ด 1-of-K scheme = "One-Hot Encoding" ๋ฐฉ๋ฒ•์ด ์‚ฌ์šฉ๋จ.

์ด ๋ฐฉ๋ฒ•์—์„œ ๋ณ€์ˆ˜๋Š” K์ฐจ์› ๋ฒกํ„ฐ x์— ์˜ํ•ด ๋‚˜ํƒ€๋‚˜๋ฉฐ, ์—ฌ๊ธฐ์„œ ์š”์†Œ xk ์ค‘ ํ•˜๋‚˜๋Š” 1์ด ๋˜๊ณ  ๋‚˜๋จธ์ง€ ์š”์†Œ๋Š” ๋ชจ๋‘ 0์ด ๋œ๋‹ค.
ex) K = 6์ด๊ณ  ,๋ณ€์ˆ˜์˜ ํŠน์ • ๊ด€์ธก์น˜๊ฐ€ x3 = 1์— ํ•ด๋‹นํ•œ๋‹ค๋ฉด?


xk = 1์˜ ํ™•๋ฅ ์„ ๋งค๊ฐœ ๋ณ€์ˆ˜ μk๋กœ ํ‘œ์‹œํ•˜๋ฉด x์˜ ๋ถ„ํฌ๋Š” p(x|μ)๋กœ ์ฃผ์–ด์ง€๋ฉฐ, ์—ฌ๊ธฐ์„œ μ = (μ1, . . . , μk)T์ด๋‹ค.
μk ≥ 0 ๋ฐ ∑k μk = 1 ์ œ์•ฝ์„ ๋”ฐ๋ฅผ ๋•Œ, ๋ถ„ํฌ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
์ด ๋ถ„ํฌ๋Š” Bernoulli๋ถ„ํฌ๋ฅผ 2๊ฐœ ์ด์ƒ์˜ ๊ฒฐ๊ณผ๋กœ ์ผ๋ฐ˜ํ™” ํ•œ ๊ฒƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋Š”๋ฐ,
์ด ๋ถ„ํฌ๊ฐ€ ์ •๊ทœํ™” ๋˜์–ด์žˆ์Œ์€ ์•„๋ž˜ ์‹์œผ๋กœ ํ™•์ธ ๊ฐ€๋Šฅํ•˜๋‹ค:

Sufficient Statistics (์ถฉ๋ถ„ํ†ต๊ณ„๋Ÿ‰):

์ด์ œ N๊ฐœ์˜ ๋…๋ฆฝ์ ์ธ ๊ด€์ธก์น˜ x1,...,xN์˜ ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ D์— ๋Œ€ํ•ด Likelihoodํ•จ์ˆ˜ p(D|μ)๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
์ด ์‹์—์„œ Likelihoodํ•จ์ˆ˜๊ฐ€ N๊ฐœ data point๋ฅผ ํ†ตํ•ด์„œ๋งŒ K๊ฐœ ์–‘์„ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฒƒ์„ 
์ด ๋ถ„ํฌ์— ๋Œ€ํ•œ ์ถฉ๋ถ„ํ†ต๊ณ„๋Ÿ‰์ด๋ผ ํ•˜๋ฉฐ ์•„๋ž˜์™€ ๊ฐ™์ด ํ‘œํ˜„ํ•œ๋‹ค:

MLE with Lagrange multiplier:

์ด์ œ, μ์— ๋Œ€ํ•œ MLE๋ฅผ ์œ„ํ•ด μk์— ๋Œ€ํ•œ ln p(D|μ)๋ฅผ ์ตœ๋Œ€ํ™”๋ฅผ ํ•ด์•ผํ•˜๋Š”๋ฐ,
์ด๋•Œ μk๋Š” ํ•ฉ์ด 1์ด๋ผ๋Š” ์ œ์•ฝ ์กฐ๊ฑด์„ ๊ณ ๋ คํ•ด์•ผํ•œ๋‹ค.
์ด๋Š” ๋ผ๊ทธ๋ž‘์ง€ ์Šน์ˆ˜ λ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ตœ๋Œ€ํ™” ๊ฐ€๋Šฅํ•˜๋‹ค:
์œ„ ์‹์—์„œ μk์— ๋Œ€ํ•œ ๋„ํ•จ์ˆ˜๋ฅผ 0์œผ๋กœ ๋†“์œผ๋ฉด:
์ด์ œ ์œ„ ์‹์—์„ ์ œ์•ฝ ์กฐ๊ฑด ∑k μk = 1์— ๋Œ€์ž…ํ•˜์—ฌ ๋ผ๊ทธ๋ž‘์ง€ ์Šน์ˆ˜ λ๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.
๋”ฐ๋ผ์„œ ์šฐ๋ฆฌ๋Š” μk์— ๋Œ€ํ•œ ์ตœ๋Œ€ ์šฐ๋„ ํ•ด๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์–ป๋Š”๋‹ค:

Multinomial Distribution:

์œ„์˜ μk๋Š” xk = 1์ธ ๊ฒฝ์šฐ์˜ ๊ด€์ธก๊ฐ’ N์— ๋Œ€ํ•œ ๋น„์œจ์ด๋ฉฐ,
์ด๋•Œ, μ์™€ ์ด ๊ด€์ธก ์ˆ˜ N์— ๋Œ€ํ•œ ์กฐ๊ฑด๋ถ€ m1, ..., mk์˜ ๊ฒฐํ•ฉ ๋ถ„ํฌ๋„ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ ์ขŒ์ธก ์‹์— ๋”ฐ๋ฅด๋ฉด, ์ด ๊ฒฐํ•ฉ๋ถ„ํฌ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค.
์œ„์˜ m์— ๋Œ€ํ•œ ๊ฒฐํ•ฉ๋ถ„ํฌ๋ฅผ ๋‹คํ•ญ๋ถ„ํฌ, Multinomial Distribution์ด๋ผ ํ•œ๋‹ค.
cf) ์ด์ง„๋ณ€์ˆ˜๋Š” ์ดํ•ญ๋ถ„ํฌ์— ์˜ํ•ด ํ‘œํ˜„ํ•˜๊ฑฐ๋‚˜ K=2๋กœ ๋‘๊ณ  1-of-2๋ณ€์ˆ˜๋กœ ํ‘œํ˜„๊ฐ€๋Šฅํ•˜๋‹ค.
cf) K≥2์ธ ๊ฒฝ์šฐ์— Multinoulli Distribution์ด๋ผ๊ณ ๋„ ๋ถ€๋ฅธ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 


2. The Multivariate Gaussian

prev.

 D์ฐจ์› ๋ฒกํ„ฐ x์— ๋Œ€ํ•ด ๋‹ค๋ณ€๋Ÿ‰ Gaussian๋ถ„ํฌ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
μ: D์ฐจ์›์˜ ํ‰๊ท  ๋ฒกํ„ฐ.
Σ: D × D ์˜ Covariance Matrix.
det Σ: Σ์˜ ํ–‰๋ ฌ์‹.
CLT:  N → ∞์ผ ๋•Œ ๊ฐ€์šฐ์‹œ์•ˆ์— ์ˆ˜๋ ดํ•  ๊ฒƒ

Gaussian Distribution์€ ์ตœ๋Œ€ ์—”ํŠธ๋กœํ”ผ, CLT ๋“ฑ์—์„œ ๋งŽ์ด ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค. ์ด๋Š” ๋‹ค๋ณ€๋Ÿ‰์—์„œ๋„ ์„ฑ๋ฆฝํ•˜๊ธฐ์— ์ด์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž.

 

2.1  Geometry of the Gaussian

Gaussian๋ถ„ํฌ์— ๋Œ€ํ•ด ๊ธฐํ•˜ํ•™์ ์œผ๋กœ ๊ณ ๋ คํ•ด๋ณด์ž.
x์— ๋Œ€ํ•œ ํ•จ์ˆ˜์  ์˜์กด์„ฑ์€ ์•„๋ž˜ 2์ฐจ ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚œ๋‹ค:

โˆ†: μ์—์„œ x๊นŒ์ง€์˜ Mahalanobis Distance (cf. Σ=I ์ผ ๋•Œ, euclidean distance๋กœ ์ถ•์†Œ.)

Σ๊ฐ€ ๋Œ€์นญํ–‰๋ ฌ์ผ ๋•Œ, ์†์‹ค์ด ์—†๋‹ค.
์ด์ œ, Σ์— ๋Œ€ํ•œ ๊ณ ์œ ๋ฒกํ„ฐ ๋ฐฉ์ •์‹์„ ๊ณ ๋ คํ•˜์ž:
i = 1, ... , D
Σ๊ฐ€ ์‹ค์ˆ˜์ด๊ณ  ๋Œ€์นญ ํ–‰๋ ฌ์ด๋ฏ€๋กœ
โˆ™ eigen value๋Š” ์‹ค์ˆ˜
โˆ™ eigen vectors๋Š” orthonormal set์„ ๋งŒ์กฑ.
(cf. orthonormal: ์ •๊ทœ์ง๊ต)

Σ๋Š” ๊ณ ์œ ๋ฒกํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ๋‹ค:
๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์˜ inverse๋„ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ๋‹ค:
Σ-1์„ Mahalanobis Distance ์ œ๊ณฑ์‹์— ๋Œ€์ž…ํ•˜์ž:
{yi}: ๊ธฐ์กด xi์ขŒํ‘œ์— ๋Œ€ํ•ด shift ๋ฐ rotate๋œ orthonormal vectors ui๋กœ ์ •์˜๋œ ์ƒˆ๋กœ์šด ์ขŒํ‘œ๊ณ„.
์ด์ œ, ๋ฒกํ„ฐ y = (y1,...,yD)T๋ฅผ ํ˜•์„ฑํ•˜๋ฉด
์—ฌ๊ธฐ์„œ U๋Š” ํ–‰์ด uiT๋กœ ์ฃผ์–ด์ง€๋Š” ํ–‰๋ ฌ๋กœ. uiTuj = Iij์‹์œผ๋กœ๋ถ€ํ„ฐ U๊ฐ€ orthogonal matrix์ž„์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.


∴ Gaussian Density๋Š” โˆ†2๊ฐ€ ์ผ์ •ํ‘œ๋ฉด์ƒ์ผ ๋•Œ ์ผ์ •.
๋ชจ๋“  ๊ณ ์œ ๊ฐ’ λi๊ฐ€ ์–‘์ˆ˜ → ์ด๋Ÿฌํ•œ โˆ†2๋Š” ํƒ€์›์ฒด๋ฅผ ๋‚˜ํƒ€๋ƒ„.
์ด๋•Œ, ๊ทธ ์ค‘์‹ฌ์€ μ์— ์žˆ์œผ๋ฉฐ ์ถ•์€ ui๋ฅผ ๋”ฐ๋ผ ์ •๋ ฌ.
์ถ•์˜ ๋ฐฉํ–ฅ์œผ๋กœ์˜ ์Šค์ผ€์ผ๋ง ์š”์†Œ๋Š” λi1/2๋กœ ์ฃผ์–ด์ง„๋‹ค.

์ •๋ถ€ํ˜ธ ํ–‰๋ ฌ๊ณผ ๋ฐ˜์ •๋ถ€ํ˜ธ ํ–‰๋ ฌ

→ Gaussian๋ถ„ํฌ๊ฐ€ ์ž˜ ์ •์˜๋˜๋ ค๋ฉด Σ์˜ ๋ชจ๋“  ๊ณ ์œ ๊ฐ’ λi๊ฐ€ ๋ฌด์กฐ๊ฑด ์–‘์ˆ˜!
์ด๋•Œ, λ๊ฐ€ ๋ชจ๋‘ ์–‘์ˆ˜์ธ ๋Œ€์นญํ–‰๋ ฌ์„ positive definite(์–‘์˜ ์ •๋ถ€ํ˜ธ)๋ผ ํ•œ๋‹ค.
if not) ๋ถ„ํฌ๊ฐ€ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ •๊ทœํ™”โŒ

→ latent variable model์—์„œ λi ์ค‘ ํ•˜๋‚˜ ์ด์ƒ์ด 0์ธ ๊ฒฝ์šฐ,
๋ถ„ํฌ๋Š” ํŠน์ • ์ฐจ์›์˜ ๋ถ€๋ถ„ ๊ณต๊ฐ„์œผ๋กœ ์ œํ•œ๋˜๊ณ  ํŠน์ดํ•˜๊ฒŒ ๋˜๋Š”๋ฐ,
๋ชจ๋“  ๊ณ ์œ ๊ฐ’์ด ๋น„์Œ์ˆ˜์ธ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์„ positive semidefinite(์–‘์˜ ๋ฐ˜์ •๋ถ€ํ˜ธ)๋ผ ํ•œ๋‹ค.


์ด์ œ yi์— ์˜ํ•ด ์ •์˜๋œ ์ƒˆ๋กœ์šด ์ขŒํ‘œ๊ณ„์˜ Gaussian๋ถ„ํฌํ˜•ํƒœ๋ฅผ ์‚ดํŽด๋ณด์ž.
x→y๊ณ„๋กœ ๊ฐˆ ๋•Œ, Jacobian Matrix J์— ๋Œ€ํ•ด ์š”์†Œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:
ํ–‰๋ ฌ U์˜ ์ •๊ทœ์ง๊ต์„ฑ(orthonormality)์„ ์‚ฌ์šฉํ•˜๋ฉด J์˜ ์ œ๊ณฑ์€:
∴ |J|=1์ด๊ณ , ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์˜ ํ–‰๋ ฌ์‹ |Σ|์€ ๊ทธ ๊ณ ์œ ๊ฐ’๋“ค์˜ ๊ณฑ์ด๋ฏ€๋กœ:
yj ์ขŒํ‘œ๊ณ„์—์„œ์˜ Gaussian๋ถ„ํฌ
= ๋…๋ฆฝ๋œ D๊ฐœ์˜ ๋‹จ๋ณ€๋Ÿ‰ Gaussian๋ถ„ํฌ์˜ ๊ณฑ:

∴ eigen vector๋Š” ๊ฒฐํ•ฉํ™•๋ฅ ๋ถ„ํฌ๋ฅผ ์ƒˆ๋กœ์šด shift ๋ฐ rotated์ขŒํ‘œ๋กœ ์ •์˜.
์ด๋ฅผ ํ†ตํ•ด ๊ฒฐํ•ฉํ™•๋ฅ ๋ถ„ํฌ๊ฐ€ ๋…๋ฆฝ์ ์ธ ๋ถ„ํฌ์˜ ๊ณฑ์œผ๋กœ ๋ถ„ํ•ด๋œ๋‹ค.
→ y์ขŒํ‘œ๊ณ„ ๋ถ„ํฌ์˜ ์ ๋ถ„์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:
์ด๋Š” ๋‹ค๋ณ€๋Ÿ‰ ๊ฐ€์šฐ์‹œ์•ˆ N (x | μ,Σ)๊ฐ€ ์‹ค์ œ๋กœ ์ •๊ทœํ™”๋˜์–ด ์žˆ์Œ์„ ์˜๋ฏธํ•œ๋‹ค.

 


2.2  Moments

cf) ์š”์•ฝ: 1์ฐจ ๋ชจ๋ฉ˜ํŠธ = ํ‰๊ท  μ, 2์ฐจ๋ชจ๋ฉ˜ํŠธ = ๋ถ„์‚ฐ E[xxT]

์ด์ œ Gaussian๋ถ„ํฌ์˜ moments์™€, moments๋กœ μ์™€ Σ๋ฅผ ์•Œ์•„๋ณด์ž.
์œ„ ์‹์€ x์— ๋Œ€ํ•œ ๊ธฐ๋Œ“๊ฐ’ ์‹์ด๋ฉฐ, z = x - μ๋ฅผ ์‚ฌ์šฉํ•ด ๋ณ€์ˆ˜๋ฅผ ๋ณ€๊ฒฝํ–ˆ๋‹ค.

์ง€์ˆ˜๊ฐ€ z์˜ ๊ตฌ์„ฑ ์š”์†Œ์— ๋Œ€ํ•œ ์ง์ˆ˜ ํ•จ์ˆ˜, (-∞, ∞)์—์„œ ์ ๋ถ„์ด ์ˆ˜ํ–‰
→ (z + μ)์˜ ํ•ญ์€ ๋Œ€์นญ์— ์˜ํ•ด ์‚ฌ๋ผ์ง„๋‹ค.

 

์ด๋กœ์จ μ๋ฅผ Gaussian๋ถ„ํฌ์˜ ํ‰๊ท ์ด๋ผ ๋ถ€๋ฅธ๋‹ค.

โˆ™ Gaussian์˜ 1์ฐจ moments: μ (= ํ‰๊ท )


์ด์ œ Gaussian์˜ 2์ฐจ moments๋ฅผ ๊ณ ๋ คํ•ด๋ณด์ž.
cf) ๋‹จ์ผ ๋ณ€์ˆ˜์˜ ๊ฒฝ์šฐ E[x2]๊ฐ€ 2์ฐจ moments.
๋‹ค๋ณ€๋Ÿ‰ ๊ฐ€์šฐ์‹œ์•ˆ์˜ ๊ฒฝ์šฐ E[xixj]๋กœ ์ฃผ์–ด์ง€๋Š” D2์˜ 2์ฐจ moments๋กœ ํ–‰๋ ฌ E[xxT]๋ฅผ ํ˜•์„ฑ.
์ด ํ–‰๋ ฌ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์“ธ ์ˆ˜ ์žˆ๋‹ค:
์—ฌ๊ธฐ์„œ๋„ z = x - μ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ณ€์ˆ˜๋ฅผ ๋ณ€๊ฒฝ.
μzT ๋ฐ μTz๋ฅผ ํฌํ•จํ•˜๋Š” ๊ต์ฐจ ํ•ญ์€ ๋‹ค์‹œ ๋Œ€์นญ์— ์˜ํ•ด ์‚ฌ๋ผ์ง„๋‹ค.
μμT ํ•ญ์€ ์ƒ์ˆ˜์ด๋ฉฐ ์ •๊ทœํ™”๋œ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์ด๊ธฐ ๋•Œ๋ฌธ์— ์ ๋ถ„ ์ž์ฒด๋Š” 1์ด๋‹ค.

zzT๋ฅผ ํฌํ•จํ•˜๋Š” ํ•ญ์„ ๊ณ ๋ คํ•ด๋ณด๋ฉด, ๋‹ค์‹œ ํ•œ๋ฒˆ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์˜ ๊ณ ์œ ๋ฒกํ„ฐ ์ „๊ฐœ์‹์ธ (3.28)๊ณผ ๊ณ ์œ ๋ฒกํ„ฐ ์ง‘ํ•ฉ์˜ ์™„์„ฑ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์“ธ ์ˆ˜ ์žˆ๋‹ค:
์—ฌ๊ธฐ์„œ ์ค‘๊ฐ„ ๋ผ์ธ์˜ ์ ๋ถ„์€ i = j๊ฐ€ ์•„๋‹Œ ๊ฒฝ์šฐ์—๋Š” ๋Œ€์นญ์— ์˜ํ•ด ์‚ฌ๋ผ์ง€๋ฏ€๋กœ ๊ฒฐ๊ณผ์ ์œผ๋กœ ์•„๋ž˜ ์‹์„ ์–ป๋Š”๋‹ค.


๋‹จ์ผ ๋žœ๋ค ๋ณ€์ˆ˜์˜ ๋ถ„์‚ฐ์„ ์ •์˜ํ•  ๋•Œ ๋‘ ๋ฒˆ์งธ ๋ชจ๋ฉ˜ํŠธ๋ฅผ ๊ฐ€์ ธ๊ฐ€๊ธฐ ์ „์— ํ‰๊ท ์„ ๋บ์œผ๋ฏ€๋กœ
๋‹ค๋ณ€๋Ÿ‰ ๊ฒฝ์šฐ์—๋„ ํ‰๊ท ์„ ๋บ€ ์ฑ„๋กœ ์ •์˜๋œ ๋žœ๋ค ๋ฒกํ„ฐ x์˜ ๊ณต๋ถ„์‚ฐ์„ ๊ณ ๋ คํ•˜๋Š” ๊ฒƒ์ด ํŽธ๋ฆฌํ•˜๋‹ค:
ํŠน์ •ํ•œ ๊ฒฝ์šฐ์ธ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์˜ ๊ฒฝ์šฐ, E[x] = μ์™€ E[xxT]๊ฒฐ๊ณผ๋ฅผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜๋ฉด:
ํ–‰๋ ฌ Σ๊ฐ€ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์—์„œ x์˜ ๊ณต๋ถ„์‚ฐ์„ ์ง€๋ฐฐํ•˜๋ฏ€๋กœ ์ด๋ฅผ ๊ณต๋ถ„์‚ฐํ–‰๋ ฌ์ด๋ผํ•œ๋‹ค.

 


2.3 Limitations.

[Gaussian๋ถ„ํฌ์˜ ์ฃผ์š” ํ•œ๊ณ„์ ]:
์ผ๋ฐ˜ ๊ณต๋ถ„์‚ฐ ๋Œ€์นญํ–‰๋ ฌ Σ:
โˆ™ D(D + 1)/2๊ฐœ์˜ ๋…๋ฆฝ์ ์ธ ๋งค๊ฐœ ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง.
โˆ™ μ์—์„œ ๋˜ ๋‹ค๋ฅธ D๊ฐœ์˜ ๋…๋ฆฝ์ ์ธ ๋งค๊ฐœ ๋ณ€์ˆ˜๊ฐ€ ์กด์žฌ.
∴  ์ด D(D + 3)/2๊ฐœ์˜ ๋งค๊ฐœ ๋ณ€์ˆ˜๊ฐ€ ์กด์žฌ, ํ–‰๋ ฌ ์กฐ์ž‘ costโ‡ง

→ sol) Σ์˜ ์ œํ•œ๋œ ํ˜•ํƒœ์˜ ์‚ฌ์šฉ.

i) ๊ณต๋ถ„์‚ฐ ๋Œ€๊ฐํ–‰๋ ฌ์„ ๊ฐ–๋Š” ๊ฒฝ์šฐ( Σ = diagi2)) ์ด ๋ชจ๋ธ์—์„œ๋Š” ์ด 2D๊ฐœ์˜ ๋…๋ฆฝ์ ์ธ ๋งค๊ฐœ ๋ณ€์ˆ˜๊ฐ€ ์กด์žฌํ•˜๋ฉฐ, ํ•ด๋‹น ๋ชจ๋ธ์˜ ๋ฐ€๋„๋“ฑ๊ณ ์„ ์€ ์ถ•์— ์ •๋ ฌ๋œ ํƒ€์›ํ˜•์œผ๋กœ ์ฃผ์–ด์ง„๋‹ค. (b)์— ํ•ด๋‹น

ii) Σ์„ I ํ–‰๋ ฌ์— ๋น„๋ก€ํ•˜๋„๋ก ์ œํ•œํ•  ์ˆ˜๋„ ์žˆ๋Š”๋ฐ, ์ด๋ฅผ ๋“ฑ๋ฐฉ์„ฑ ๊ณต๋ถ„์‚ฐ์ด๋ผ๊ณ ํ•œ๋‹ค. (c)์— ํ•ด๋‹น
๋ชจ๋ธ์—์„œ D + 1๊ฐœ์˜ ๋…๋ฆฝ์ ์ธ ๋งค๊ฐœ ๋ณ€์ˆ˜๊ฐ€ ์ƒ์„ฑ๋˜๋ฉฐ ๋“ฑ๋ฐฉ์„ฑ ํ‘œ๋ฉด์˜ ๋“ฑ๊ณ ์„ ์ด ๋œ๋‹ค.
์ผ๋ฐ˜, ๋Œ€๊ฐ ๋ฐ ๋“ฑ๋ฐฉ์„ฑ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์˜ ์„ธ ๊ฐ€์ง€ ๊ฐ€๋Šฅ์„ฑ์€ ์•„๋ž˜๊ทธ๋ฆผ์— ์„ค๋ช…๋˜์–ด ์žˆ๋‹ค.
(a): ์ผ๋ฐ˜์ ์ธ gaussian๋ถ„ํฌ, (b): Diagonal์ธ gaussian๋ถ„ํฌ, (c): Identity matrix์ผ๋•Œ์˜ ๋ถ„ํฌ.


์žฅ์ ) ๋ถ„ํฌ์˜ ์ž์œ ๋„ ์ˆ˜๋ฅผ ์ œํ•œ, ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์˜ ์—ญ์„ ๋น ๋ฅด๊ฒŒ ๊ณ„์‚ฐ
๋‹จ์ )
โˆ™ ํ™•๋ฅ  ๋ฐ€๋„์˜ ํ˜•ํƒœ ๋ฐ ๋ฐ์ดํ„ฐ์˜ ํฅ๋ฏธ๋กœ์šด ์ƒ๊ด€ ๊ด€๊ณ„๋ฅผ ์ œํ•œ.
โˆ™ Gaussian๋ถ„ํฌ๋Š” ๊ทธ์ž์ฒด๋กœ ๋ณธ์งˆ์ ์ธ ๋‹จ์ผ์ตœ๋Œ“๊ฐ’(= uni-modal)
→ multi-modal distribution์— ์ข‹์€ ๊ทผ์‚ฌ์น˜ ์ œ๊ณต์ด ๋ถˆ๊ฐ€๋Šฅ. (= ์œ ์—ฐํ•˜์ง€ ์•Š์Œ.)
→ ๋‹ค๋งŒ ์ด๋Š” latent variable์˜ ๋„์ž…์œผ๋กœ ํ•ด๊ฒฐ๊ฐ€๋Šฅ.

2.4 Conditional distribution

๋‹ค๋ณ€๋Ÿ‰ Gaussian์˜ ์ฃผ์š”ํŠน์„ฑ:
๋‘ ๋ณ€์ˆ˜๊ฐ€ jointly Gaussian์ด๋ผ๋ฉด, ๋‹ค๋ฅธ ๊ฒƒ์„ ๊ธฐ์ค€์œผ๋กœ ํ•œ ์กฐ๊ฑด๋ถ€๋ถ„ํฌ์™€ ์ฃผ๋ณ€๋ถ„ํฌ๊ฐ€ Gaussian์ด๋ผ๋Š” ๊ฒƒ.


โ‘  ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ์˜ ๊ฒฝ์šฐ:

x ~ N (x|μ, Σ)์˜ D์ฐจ์› ๋ฒกํ„ฐ
x๋ฅผ ๋‘ ๋ถ€๋ถ„์ง‘ํ•ฉ xa์™€ xb๋กœ ๋ถ„ํ• ํ•˜๊ณ  ์ผ๋ฐ˜์„ฑ์„ ์žƒ์ง€ ์•Š์„ ๋•Œ,
xa๋ฅผ x์˜ ์ฒซ M๊ฐœ ๊ตฌ์„ฑ ์š”์†Œ๋กœ,
xb๋ฅผ ๋‚˜๋จธ์ง€ D - M๊ฐœ์˜ ๊ตฌ์„ฑ ์š”์†Œ๋กœ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ์šฐ์ธก๊ณผ ๊ฐ™๋‹ค.

๋˜ํ•œ ํ‰๊ท  ๋ฒกํ„ฐ μ์™€ ๊ณต๋ถ„์‚ฐํ–‰๋ ฌ Σ์˜ ํ•ด๋‹น ๋ถ„ํ• ์„ ์•„๋ž˜์™€ ๊ฐ™์ด ์ •์˜ํ•˜์ž.


๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์˜ ๋Œ€์นญ์„ฑ ΣT = Σ๋Š” ๋‹ค์Œ์„ ์˜๋ฏธํ•œ๋‹ค:
Σaa์™€ Σbb๊ฐ€ ๋Œ€์นญ์ด๋ฏ€๋กœ , Σba = ΣabT์ด๋‹ค.
๋งŽ์€ ์ƒํ™ฉ์—์„œ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์˜ ์—ญ์ธ ์ •๋ฐ€๋„ ํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ํŽธ๋ฆฌํ•˜๋‹ค:
precision matrix
์‹ค์ œ๋กœ Gaussian ๋ถ„ํฌ์˜ ๋ช‡ ๊ฐ€์ง€ ์†์„ฑ์€ ๊ณต๋ถ„์‚ฐ์„ ํ†ตํ•ด ๊ฐ€์žฅ ์ž์—ฐ์Šค๋ ˆ ํ‘œํ˜„.
๋‹ค๋ฅธ ์†์„ฑ์€ ์ •๋ฐ€๋„๋ฅผ ํ†ตํ•ด ๋” ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ๋ฅผ ๊ฐ€์ง€๋ฏ€๋กœ
์ •๋ฐ€๋„ ํ–‰๋ ฌ์˜ ๋ถ„ํ• ๋œ ํ˜•ํƒœ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
์ด๋•Œ, ๋ฒกํ„ฐ x์˜ ๋ถ„ํ•  x = [xa, xb]T์— ํ•ด๋‹นํ•œ๋‹ค.
์—ฌ๊ธฐ์„œ ๋Œ€์นญ ์—ญํ–‰๋ ฌ๋„ ๋Œ€์นญ์ด๋ฏ€๋กœ Λaa์™€ Λbb๊ฐ€ ๋Œ€์นญ์ด๊ณ  Λba = ΛabT์ด๋‹ค.



์œ ์˜์ :
 Λaa๊ฐ€ ๋‹จ์ˆœํžˆ Σaa์˜ ์—ญ์ด ์•„๋‹ˆ๋‹ค. (๋ถ„ํ• ๋œ ์—ญํ–‰๋ ฌ๊ณผ ๊ทธ ๋ถ„ํ• ์˜ ์—ญ์— ๋Œ€ํ•œ ๊ตฌ๋ถ„์ด ์ค‘์š”.)

ex) Gaussian๋ถ„ํฌ์˜ ์ง€์ˆ˜ํ•ญ์„ ์ •์˜ํ•˜๋Š” 2์ฐจ์‹์„ ๊ณ ๋ ค.
for. ์กฐ๊ฑด๋ถ€ Gaussian ๋ถ„ํฌ p(xa|xb)์˜ ํ‰๊ท ๊ณผ ๊ณต๋ถ„์‚ฐ์„ ์ฐพ๊ธฐ ์œ„ํ•ด
์ด๋•Œ, ๊ด€์ธก ๊ฐ’์œผ๋กœ xb๋ฅผ ๊ณ ์ •, ๊ฒฐ๊ณผ ์‹์„ ์ •๊ทœํ™”→ xa์— ๋Œ€ํ•œ ์œ ํšจํ•œ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์–ป์Œ
์œ„ ๋ฐฉ์‹์€ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ๋ฅผ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Œ์„ ํ™•๋ฅ ์˜ ๊ณฑ์…ˆ ๋ฒ•์น™์œผ๋กœ ์•Œ ์ˆ˜ ์žˆ๋‹ค.


๋ช…์‹œ์ ์œผ๋กœ ์ •๊ทœํ™”ํ•˜๋Š” ๋Œ€์‹ ์—๋Š” Gaussian๋ถ„ํฌ์˜ ์ง€์ˆ˜ํ•ญ์—์„œ ์™„์ „์ œ๊ณฑ์ˆ˜๋ฅผ ํ†ตํ•ด ๋” ํšจ์œจ์ ์œผ๋กœ ๊ณ ๋ คํ•˜์—ฌ ์ •๊ทœํ™” ๊ณ„์ˆ˜๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ผ๋ฐ˜์ ์ธ ์ด์ฐจํ˜•์‹์„ ์‚ฌ์šฉํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค:

xa์— ๋Œ€ํ•œ ํ•จ์ˆ˜๋กœ ๋ณผ ๋•Œ ์ด๋Š” ๋‹ค์‹œ ์ด์ฐจํ˜•์‹์ด๋ฏ€๋กœ ํ•ด๋‹น ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ p(xa|xb)๋Š” Gaussian์ด๋‹ค.
์ด ๋ถ„ํฌ๋Š” ๊ทธ ํ‰๊ท ๊ณผ ๊ณต๋ถ„์‚ฐ์— ์˜ํ•ด ์™„์ „ํžˆ ํŠน์„ฑํ™”๋˜๋ฏ€๋กœ ์œ„ ์‹์œผ๋กœ p(xa|xb)์˜ ํ‰๊ท ๊ณผ ๊ณต๋ถ„์‚ฐ์„ ์‹๋ณ„ํ•ด๋ณด์ž.

์ด๋ฅผ ๋ณดํ†ต "์™„์ „์ œ๊ณฑ์ˆ˜(Completing the Square)"๋ผ ํ•˜๋Š” Gaussian๋ถ„ํฌ์™€ ๊ด€๋ จ๋œ ์ผ๋ฐ˜์ ์ธ ๋„์‹์œผ๋กœ
์—ฌ๊ธฐ์„œ Gaussian์˜ ์ง€์ˆ˜ํ•ญ์—์„œ ์ง€์ •๋œ ๊ณ„์ˆ˜ํ–‰๋ ฌ์„ x์˜ ๊ณต๋ถ„์‚ฐ์—ญํ–‰๋ ฌ๋กœ ๊ฒฐ์ •ํ•ด์•ผ ํ•˜๋Š” ์ผ์ด๋ผ๊ณ  ํ•˜๋Š”๋ฐ,
์ด๋•Œ ๋ฌธ์ œ๋Š” ๊ทธ ๊ฒฐ๊ณผ๋กœ ํ‰๊ท ๊ณผ ๊ณต๋ถ„์‚ฐ์„ ์–ป๋Š” ๊ฒƒ์ด๋‹ค.

์ด๋Ÿฐ ๋ฌธ์ œ๋Š” ์ผ๋ฐ˜์ ์ธ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ N (x|μ, Σ)์˜ ์ง€์ˆ˜ํ•ญ์„ ์•„๋ž˜์ฒ˜๋Ÿผ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ๊ฐ„๋‹จํžˆ ํ•ด๊ฒฐ๊ฐ€๋Šฅํ•˜๋‹ค.
'const': x์™€ ๋…๋ฆฝ์ ์ธ ํ•ญ
Σ์˜ ๋Œ€์นญ์„ฑ์— ๋”ฐ๋ผ ์ผ๋ฐ˜์ ์ธ ์ด์ฐจ์‹์œผ๋กœ ์œ„ ์‹์ฒ˜๋Ÿผ ํ‘œํ˜„ํ•˜๋ฉด
์ฆ‰์‹œ x์˜ ์ด์ฐจํ•ญ์— ์žˆ๋Š” ๊ณ„์ˆ˜ํ–‰๋ ฌ์„ ๊ณต๋ถ„์‚ฐ ์—ญํ–‰๋ ฌ Σ-1๋กœ
x์˜ ์ผ์ฐจํ•ญ์˜ ๊ณ„์ˆ˜๋ฅผ Σ-1μ๋กœ ๋™์ผํ•˜๊ฒŒ ํ•  ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ μ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.


์ด์ œ ์ด ์ ˆ์ฐจ๋ฅผ ์กฐ๊ฑด๋ถ€ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ p(xa|xb)์— ์ ์šฉํ•˜์—ฌ ์ง€์ˆ˜ํ•ญ์ด ์•„๋ž˜์™€ ๊ฐ™์ด ์ฃผ์–ด์ง„ ๊ฒฝ์šฐ์˜ ๊ฒฐ๊ณผ๋ฅผ ์•Œ์•„๋ณด์ž:
์ด ๋ถ„ํฌ์˜ ํ‰๊ท ๊ณผ ๊ณต๋ถ„์‚ฐ์„ ๊ฐ๊ฐ μa|b์™€ Σa|b๋ผ ํ•˜์ž.
์œ„ ์‹์—์„œ ์ง€์ˆ˜ํ•ญ์˜ ์ด์ฐจํ˜•์‹์„ ๊ณ ๋ คํ•ด ๋ณด.
xb๋ฅผ ์ƒ์ˆ˜๋กœ ๊ฐ„์ฃผํ•  ๋•Œ ,xa์— ๋Œ€ํ•œ ์ด์ฐจํ•ญ์„ ๋ชจ๋‘ ์ถ”์ถœํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
์ด๋•Œ, p(xa|xb)์˜ ๊ณต๋ถ„์‚ฐ(์ •๋ฐ€๋„์˜ ์—ญ)์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
์ด์ œ xa์— ๋Œ€ํ•œ 1์ฐจํ•ญ์„ ๋ชจ๋‘ ํฌํ•จํ•˜๋Š” ์œ„ ์‹์˜ ๋ชจ๋“  ํ•ญ์„ ๊ณ ๋ คํ•ด๋ณด์ž: (์ด๋•Œ, ΛTba = Λab.)

์•„๋ž˜ ์ผ๋ฐ˜์ ์ธ ํ˜•ํƒœ ์‹์˜ ๋…ผ์˜์—์„œ ์ด ํ‘œํ˜„์˜ xa์— ๋Œ€ํ•œ ๊ณ„์ˆ˜๋Š” Σa|b-1μa|b์™€ ๊ฐ™์•„์•ผ ํ•˜๋ฏ€๋กœ ์•„๋ž˜์™€ ๊ฐ™๋‹ค:

์œ„ ๊ฒฐ๊ณผ๋Š” ์›๋ž˜ joint distribution, p(xa, xb)์˜ ๋ถ„ํ• ๋œ ์ •๋ฐ€๋„ ํ–‰๋ ฌ๋กœ ํ‘œํ˜„๋˜๋ฏ€๋กœ
ํ•ด๋‹น ๋ถ„ํ• ๋œ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์˜ ์šฉ์–ด๋กœ๋„ ํ‘œํ˜„๊ฐ€๋Šฅํ•˜๋‹ค.
์ด๋•Œ, ์•„๋ž˜์ฒ˜๋Ÿผ ๋ถ„ํ• ๋œ ์—ญํ–‰๋ ฌ์— ๋Œ€ํ•œ ๋‹ค์Œ ํ•ญ๋“ฑ์‹์„ ์‚ฌ์šฉํ•˜์ž:

์—ฌ๊ธฐ์„œ M์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค:

M-1์€ ์™ผ์ชฝ์—์žˆ๋Š” ํ–‰๋ ฌ์— ๋Œ€ํ•œ ํ–‰๋ ฌ D์— ๋Œ€ํ•œ Schur complement์ด๋‹ค.

์•„๋ž˜ ์ •์˜์— ๋”ฐ๋ผ ์œ„์˜ [A B C D]-1์— ์ ์šฉํ•˜๋ฉด,

๋‹ค์Œ์„ ์–ป๋Š”๋‹ค:



์ด๋•Œ, ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ p(xa|xb)์˜ ํ‰๊ท ๊ณผ ๊ณต๋ถ„์‚ฐ์— ๋Œ€ํ•œ ๋‹ค์Œ ์‹:



์ด์ œ, ๋„์ถœ๋œ ์•„๋ž˜ ๋‘ ์‹์„ ๋น„๊ตํ•ด๋ณด์ž:
์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ p(xa|xb)๋Š” ๋ถ„ํ• ๋œ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ ์šฉ์–ด๋กœ ํ‘œํ˜„๋  ๋•Œ, ๋” ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ๋ฅผ ๊ฐ€์ง์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.
์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ p(xa|xb)์˜ ํ‰๊ท ์ธ μa|b๋Š” xb์˜ ์„ ํ˜• ํ•จ์ˆ˜์ด๋ฉฐ
์œ„ ์‹์˜ ์•„๋ž˜ํ•ญ์—์„œ ์ฃผ์–ด์ง€๋Š” ๊ณต๋ถ„์‚ฐ์€ xb์™€ ๋…๋ฆฝ์ ์ด๋‹ค.
์ด๊ฒƒ์€ ์„ ํ˜• ๊ฐ€์šฐ์‹œ์•ˆ ๋ชจ๋ธ์˜ ์˜ˆ์ด๋‹ค.

2.5 Marginal distribution

if) ๊ฒฐํ•ฉ ๋ถ„ํฌ p(xa, xb)๊ฐ€ Gaussian →์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ p(xa|xb)๋„ Gaussian
์ด์ œ ์šฐ๋ฆฌ๋Š” ์ฃผ๋ณ€๋ถ„ํฌ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž.
์œ„ ์‹์—์„œ ์•Œ ์ˆ˜ ์žˆ๋“ฏ, ์ฃผ๋ณ€๋ถ„ํฌ ์—ญ์‹œ Gaussian์ด๋‹ค.
์ฆ‰, ์ด ๋ถ„ํฌ ๊ณ„์‚ฐ ์‹œ, ๊ฒฐํ•ฉ ๋ถ„ํฌ ์ง€์ˆ˜ํ•ญ์˜ ์ด์ฐจํ˜•์‹์— ์ค‘์ ์„ ๋‘์–ด ์ฃผ๋ณ€ ๋ถ„ํฌ p(xa)์˜ ํ‰๊ท ๊ณผ ๊ณต๋ถ„์‚ฐ์„ ์•Œ์•„๋ณด๊ธฐ์œ„ํ•ด ๋ถ„ํ• ๋œ ์ •๋ฐ€๋„ ํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•˜๋ฉด ์•„๋ž˜ ์‹๊ณผ ๊ฐ™๋‹ค:

์ด์ œ, xb์™€ ๊ด€๋ จ๋œ ํ•ญ์„ ๊ณ ๋ คํ•œ ํ›„, integration์„ ์šฉ์ดํ•˜๊ฒŒ ํ•˜๊ธฐ ์œ„ํ•ด ์™„์ „ํ•œ ์ œ๊ณฑ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์œผ๋กœ xb์— ๋Œ€ํ•ด integration์„ ํ•˜์ž. ์—ฌ๊ธฐ์„œ xb๋ฅผ ํฌํ•จํ•˜๋Š” ํ•ญ๋งŒ ์ถ”์ถœํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
 

์ด๋•Œ, m์€ ์ขŒ์ธก๊ณผ ๊ฐ™์ด ์ •์˜๋œ๋‹ค.

์ด๋ฅผ ํ†ตํ•ด xb์— ๋Œ€ํ•œ ์˜์กด์„ฑ์ด Gaussian๋ถ„ํฌ์˜ ํ‘œ์ค€ ์ด์ฐจํ˜•์‹์œผ๋กœ ํ‘œํ˜„๋˜์—ˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.
์ด๋Š” ์œ„ ์‹์˜ ์šฐํ•ญ ์ค‘ ์ฒซํ•ญ์— ํ•ด๋‹นํ•˜๋ฉฐ xb์— ์˜์กดํ•˜์ง€ ์•Š๋Š” ํ•ญ(๋‹ค๋งŒ xa์— ์˜์กด)์ด ์ถ”๊ฐ€์ ์œผ๋กœ ์กด์žฌํ•œ๋‹ค. 
๋”ฐ๋ผ์„œ ์ด ์ด์ฐจํ˜•์‹์˜ ์ง€์ˆ˜๋ฅผ ์ทจํ•˜๋ฉด ์œ„ ์‹์—์„œ ํ•„์š”ํ•œ xb์— ๋Œ€ํ•œ ์ ๋ถ„์€ ์•„๋ž˜ ์‹๊ณผ ๊ฐ™๋‹ค:
์ด ์ ๋ถ„์€ ์ •๊ทœํ™”๋˜์ง€ ์•Š์€ Gaussian์˜ ์ ๋ถ„์ด๋‹ค.
∴ ์ด ์‹์˜ ๊ฒฐ๊ณผ๋Š” ์ •๊ทœํ™” ๊ณ„์ˆ˜์˜ ์—ญ์ˆ˜๊ฐ€ ๋œ๋‹ค. 


Multivariate Gaussian๋ถ„ํฌ ์‹์—์„œ ์ฃผ์–ด์ง„ ์ •๊ทœํ™”๋œ Gaussianํ˜•ํƒœ์—์„œ ์ด ๊ณ„์ˆ˜๊ฐ€ ํ‰๊ท ๊ณผ ๋ฌด๊ด€ํ•˜๋ฉฐ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์˜ ํ–‰๋ ฌ์‹์—๋งŒ ์˜์กดํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ๊ณ  ์žˆ์œผ๋ฏ€๋กœ xb์— ๋Œ€ํ•œ ์™„์ „์ œ๊ณฑ์„ ํ†ตํ•ด xb๋ฅผ ์ ๋ถ„ํ•˜์—ฌ
Marginal distribution์‹์˜ ์ขŒ์ธกํ•ญ์˜ contribution ์ค‘ xa์— ์˜์กดํ•˜๋Š” ์œ ์ผํ•œ ํ•ญ์œผ๋กœ ๋‚จ๊ฒŒ๋œ๋‹ค.
์ด๋Š” ์œ„ ์‹์˜ ์˜ค๋ฅธ์ชฝ ๋งˆ์ง€๋ง‰ ํ•ญ์ด๋ฉฐ ์ด๋•Œ m์€ ์œ„์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค.
์ด ํ•ญ์„ ์ขŒ์ธก์‹์—์„œ ๋‚˜์˜จ xa์— ์˜์กดํ•˜๋Š” ๋‚˜๋จธ์ง€ ํ•ญ๋“ค๊ณผ ๊ฒฐํ•ฉํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค.




์ด๋•Œ, 'const'๋Š” xa์— ๋…๋ฆฝ์ ์ธ ์–‘์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.

์ด๋•Œ, ๊ณต๋ถ„์‚ฐ์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
์œ„ ๊ณต๋ถ„์‚ฐ์€ ๋ถ„ํ• ๋œ ์ •๋ฐ€๋„ ํ–‰๋ ฌ์„ ์ด์šฉํ•˜์—ฌ ํ‘œํ˜„๋˜๋Š”๋ฐ, ์šฐ๋ฆฌ๋Š” ๋ถ„ํ• ๋œ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์˜ ๋Œ€์‘ํ•˜๋Š” ๋ถ„ํ• ๋กœ ๋‹ค์‹œ ์“ธ ์ˆ˜ ์žˆ๋‹ค. 
์ด๋Ÿฌํ•œ ๋ถ„ํ• ๋œ ํ–‰๋ ฌ๋“ค์€ ์œ„์˜ ํ–‰๋ ฌ๊ณผ ๊ด€๋ จ๋˜์–ด์žˆ๋‹ค.


์ด์ œ, ์œ„์˜ ๊ด€๊ณ„์‹์„ ์ด์šฉํ•˜๋ฉด, ์•„๋ž˜ ์‹์„ ์–ป๋Š”๋‹ค:
๋”ฐ๋ผ์„œ ์ฃผ๋ณ€ ๋ถ„ํฌ p(xa)๊ฐ€ ์ฃผ์–ด์ง„ ํ‰๊ท ๊ณผ ๊ณต๋ถ„์‚ฐ์„ ๊ฐ€์ง€๊ฒŒ ๋จ์„ ์•„๋ž˜ ์‹์œผ๋กœ ์ง๊ด€์ ์œผ๋กœ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋‹ค:

์ฃผ๋ณ€ ๋ถ„ํฌ์˜ ๊ฒฝ์šฐ์—๋Š” ํ‰๊ท ๊ณผ ๊ณต๋ถ„์‚ฐ์ด ๋ถ„ํ• ๋œ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์˜ ์šฉ์–ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ€์žฅ ๊ฐ„๋‹จํ•˜๊ฒŒ ํ‘œํ˜„๋˜๋ฉฐ,
์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ์˜ ๊ฒฝ์šฐ์—๋Š” ๋ถ„ํ• ๋œ ์ •๋ฐ€๋„ ํ–‰๋ ฌ์ด ๋” ๊ฐ„๋‹จํ•œ ํ‘œํ˜„์„ ์–ป์„ ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค.
์šฐ๋ฆฌ๊ฐ€ ๋ถ„ํ• ๋œ ๊ฐ€์šฐ์‹œ์•ˆ์˜ ์ฃผ๋ณ€ ๋ฐ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์š”์•ฝ๋  ์ˆ˜ ์žˆ๋‹ค.
์ฃผ์–ด์ง„ ๊ฒฐํ•ฉ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ N (x|μ, Σ)๊ฐ€ ์žˆ๊ณ  Λ ≡ Σ-1 ๋ฐ ๋‹ค์Œ ๋ถ„ํ• ์„ ๊ฐ€์ง€๋ฉด, ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ๋Š” ์•„๋ž˜์™€ ๊ฐ™๊ณ :
์ฃผ๋ณ€ ๋ถ„ํฌ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค:


์šฐ๋ฆฌ๋Š” ์ด๋Ÿฌํ•œ ์กฐ๊ฑด๋ถ€ ๋ฐ ์ฃผ๋ณ€ ๋ถ„ํฌ์˜ ์•„์ด๋””์–ด๋ฅผ ๋‘ ๋ณ€์ˆ˜๋ฅผ ํฌํ•จํ•˜๋Š” ์˜ˆ์ œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค๋ณ€์ˆ˜ ๊ฐ€์šฐ์‹œ์•ˆ์— ๊ด€๋ จ๋œ ์กฐ๊ฑด๋ถ€ ๋ฐ ์ฃผ๋ณ€ ๋ถ„ํฌ๋ฅผ ์„ค๋ช…ํ•˜๋Š”๋ฐ, ์ด์— ๋Œ€ํ•ด ์•„๋ž˜๊ทธ๋ฆผ์—์„œ ํ™•์ธ๊ฐ€๋Šฅํ•˜๋‹ค.

 


2.6 Bayes' theorem

3.2.4 ๋ฐ 3.2.5 ์ ˆ์—์„œ๋Š” ์šฐ๋ฆฌ๊ฐ€ ๋ฒกํ„ฐ x๋ฅผ ๋‘ ํ•˜์œ„ ๋ฒกํ„ฐ x = (xa, xb)๋กœ ๋ถ„ํ• ํ•œ ๊ฐ€์šฐ์‹œ์•ˆ p(x)๋ฅผ ๊ณ ๋ คํ–ˆ๊ณ , 
์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ p(xa|xb) ๋ฐ ์ฃผ๋ณ€ ๋ถ„ํฌ p(xa)์— ๋Œ€ํ•œ ์‹์„ ์ฐพ์•˜์œผ๋ฏ€๋กœ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ p(xa|xb)์˜ ํ‰๊ท ์ด xb์˜ ์„ ํ˜• ํ•จ์ˆ˜์ž„์„ ์ฃผ๋ชฉํ–ˆ์—ˆ๋‹ค.

์ด์ œ ์ฃผ์–ด์ง„ Gaussian Marginal Distribution p(x)์™€ ๊ฐ€์šฐ์‹œ์•ˆ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ p(y|x)๋ฅผ ๊ฐ€์ •ํ•ด๋ณด์ž.
p(y|x)์˜ ํ‰๊ท ์€ x์˜ ์„ ํ˜• ํ•จ์ˆ˜์ด๊ณ , ๊ณต๋ถ„์‚ฐ์€ x์™€ ๋…๋ฆฝ์ธ ์„ ํ˜•-๊ฐ€์šฐ์‹œ์•ˆ ๋ชจ๋ธ์˜ ์˜ˆ์ด๋‹ค(Roweis์™€ Ghahramani, 1999).

์ด๋•Œ, ์ฃผ๋ณ€ ๋ถ„ํฌ p(y)์™€ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ p(x|y)๋ฅผ ์ฐพ์•„๋ณด์ž. 
์ด๋Š” ๋ช‡ ๊ฐ€์ง€ ์ข…๋ฅ˜์˜ ์ƒ์„ฑ ๋ชจ๋ธ์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๊ตฌ์กฐ์ด๋ฉฐ ์—ฌ๊ธฐ์—์„œ ์ผ๋ฐ˜์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์œ ๋„ํ•˜๋Š” ๊ฒƒ์ด ํŽธ๋ฆฌํ•˜๋‹ค.


์ฃผ๋ณ€ ๋ฐ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ๋ฅผ ์•„๋ž˜์ฒ˜๋Ÿผ ๊ฐ€์ •ํ–ˆ๋‹ค ํ•˜์ž:
์ด๋•Œ, μ, A, b๋Š” ํ‰๊ท ์„ ์กฐ์ ˆํ•˜๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜์ด๊ณ , Λ ๋ฐ L์€ ์ •๋ฐ€๋„ ํ–‰๋ ฌ์ด๋‹ค.
x์˜ ์ฐจ์›์ด M์ด๊ณ  y์˜ ์ฐจ์›์ด D์ด๋ฉด ํ–‰๋ ฌ A์˜ ํฌ๊ธฐ๋Š” D × M์ด๋‹ค.

๋จผ์ € x์™€ y์— ๋Œ€ํ•œ ๊ฒฐํ•ฉ ๋ถ„ํฌ๋ฅผ ์ฐพ์•„๋ณด๊ธฐ ์œ„ํ•ด z = [x, y]๋กœ ์ •์˜ํ•œ ํ›„, ๊ฒฐํ•ฉ๋ถ„ํฌ์˜ log๋ฅผ ์ทจํ•˜์ž:
(์ด๋•Œ, const๋Š” x์™€ y์— ๋Œ€ํ•ด ๋…๋ฆฝ์ ์ธ ํ•ญ)


์ด์ „๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ z์˜ ๊ตฌ์„ฑ ์š”์†Œ์— ๋Œ€ํ•œ ์ œ๊ณฑ ํ•จ์ˆ˜์ด๊ธฐ ๋•Œ๋ฌธ์— p(z)๋Š” ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์ž…๋‹ˆ๋‹ค. 

์ด ๊ฐ€์šฐ์‹œ์•ˆ์˜ ์ •๋ฐ€๋„๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค:

๋”ฐ๋ผ์„œ z์— ๋Œ€ํ•œ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์˜ ์ •๋ฐ€๋„ ํ–‰๋ ฌ์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
์ •๋ฐ€๋„ํ–‰๋ ฌ์— ์—ญ์„ ์ทจํ•จ์œผ๋กœ์จ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค:

์œ ์‚ฌํ•˜๊ฒŒ ์šฐ๋ฆฌ๋Š” z์— ๋Œ€ํ•œ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์˜ ํ‰๊ท ์„ ์ฐพ์„ ์ˆ˜ ์žˆ๋Š”๋ฐ,
lnp(z) ์‹์˜ ์„ ํ˜• ํ•ญ์„ ์‹๋ณ„ํ•˜์—ฌ ์ฃผ์–ด์ง„๋‹ค.
์ด๋Š” ์œ„ ์‹์—์„œ ์ฃผ์–ด์ง„ ๊ฒƒ๊ณผ ๊ฐ™๋‹ค.
๋‹ค๋ณ€์ˆ˜ ๊ฐ€์šฐ์‹œ์•ˆ์˜ ์ด์ฐจํ˜•์‹์— ๋Œ€ํ•œ ์™„์ „์ œ๊ณฑ ๊ฒฐ๊ณผ๋กœ ์–ป์€
์ด์ „์˜ ๊ฒฐ๊ณผ์ธ ์•„๋ž˜ ์‹์„ ์‚ฌ์šฉํ•ด๋ณด์ž.

์ด๋ฅผ ์ด์šฉํ•˜๋ฉด, z์˜ ํ‰๊ท ์€ ์•„๋ž˜ ์‹์œผ๋กœ ์ฃผ์–ด์ง„๋‹ค:


์ด์ œ, cov[z]๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด, ์•„๋ž˜ ์‹์„ ์–ป๋Š”๋‹ค:

์ด์ œ, x๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  y์— ๋Œ€ํ•ด ์ฃผ๋ณ€ ๋ถ„ํฌ p(y)์˜ ์‹์„ ์ฐพ์•„๋ณด์ž.
Gaussian Random Vector์˜ ๋ถ€๋ถ„์ง‘ํ•ฉ์— ๋Œ€ํ•œ ์ฃผ๋ณ€๋ถ„ํฌ → ๋ถ„ํ• ๋œ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์„ ์‚ฌ์šฉํ•˜์—ฌ ํŠนํžˆ ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ๋ฅผ ์ทจํ•  ์ˆ˜ ์žˆ๋‹ค.
์ข€ ๋” ๊ตฌ์ฒด์ ์œผ๋กœ, ํ‰๊ท ๊ณผ ๊ณต๋ถ„์‚ฐ์€ ๊ฐ๊ฐ ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
์—ฌ๊ธฐ์— ์•„๋ž˜ ์‹์„ ์‚ฌ์šฉํ•˜๋ฉด
์ฃผ๋ณ€ ๋ถ„ํฌ p(y)์˜ ํ‰๊ท ๊ณผ ๊ณต๋ถ„์‚ฐ์€ ์•„๋ž˜์™€ ๊ฐ™์ด ์ฃผ์–ด์ง„๋‹ค:


์ด ๊ฒฐ๊ณผ์˜ ํŠน๋ณ„ํ•œ ๊ฒฝ์šฐ๋Š” A = I์ธ ๊ฒฝ์šฐ๋กœ ์ฃผ๋ณ€ ๋ถ„ํฌ๋Š” ๋‘ ๊ฐ€์šฐ์‹œ์•ˆ์˜ ํ•ฉ์„ฑ์œผ๋กœ ์ถ•์†Œ๋˜๋ฉฐ,
์—ฌ๊ธฐ์„œ convolution์˜ ํ‰๊ท ์€ ๋‘ ๊ฐ€์šฐ์‹œ์•ˆ์˜ ํ‰๊ท ์˜ ํ•ฉ์ด๊ณ 
convolution์˜ ๊ณต๋ถ„์‚ฐ์€ ๊ทธ๋“ค์˜ ๊ณต๋ถ„์‚ฐ์˜ ํ•ฉ์ด๋‹ค.


๋งˆ์ง€๋ง‰์œผ๋กœ ์กฐ๊ฑด๋ถ€ p(x|y)์— ๋Œ€ํ•œ ํ‘œํ˜„์„ ์ฐพ์•„๋ณด์ž. 
์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ์— ๋Œ€ํ•œ ๊ฒฐ๊ณผ๋Š” ์ฃผ๋กœ ๋ถ„ํ• ๋œ ์ •๋ฐ€๋„ ํ–‰๋ ฌ์˜ ์šฉ์–ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ€์žฅ ์‰ฝ๊ฒŒ ํ‘œํ˜„๋œ๋‹ค.
์ด๋•Œ, ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ p(x|y)๊ฐ€ ์ฃผ์–ด์ง„ ๊ฒฝ์šฐ ํ‰๊ท  ๋ฐ ๊ณต๋ถ„์‚ฐ์€ ์•„๋ž˜์™€ ๊ฐ™์ด ์ฃผ์–ด์ง„๋‹ค:

์ด ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ์˜ ํ‰๊ฐ€๋Š” Bayes์˜ ์ •๋ฆฌ์˜ ํ•œ ์˜ˆ์‹œ๋กœ
์ด๋•Œ, p(x)๋ฅผ x์— ๋Œ€ํ•œ ์‚ฌ์ „ ๋ถ„ํฌ(prior)๋กœ ํ•ด์„๋œ๋‹ค.
๋ณ€์ˆ˜ y๊ฐ€ ๊ด€์ธก๋˜๋ฉด ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ p(x|y)๋Š” x์— ๋Œ€ํ•œ ์‚ฌํ›„ ๋ถ„ํฌ(posterior)์ด๋‹ค.
์ฃผ๋ณ€ ๋ฐ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ๋ฅผ ์ฐพ์€ ํ›„์—๋Š” ํšจ๊ณผ์ ์œผ๋กœ ๊ฒฐํ•ฉ ๋ถ„ํฌ p(z) = p(x)p(y|x)๋ฅผ p(x|y)p(y)์˜ ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚ธ๋‹ค.

[๊ฒฐ๊ณผ ์š”์•ฝ]
x์— ๋Œ€ํ•œ ์ฃผ๋ณ€ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์™€ x๊ฐ€ ์ฃผ์–ด์ง„ ๊ฒฝ์šฐ y์— ๋Œ€ํ•œ ์กฐ๊ฑด๋ถ€ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ๊ฐ€ ์•„๋ž˜์™€ ๊ฐ™์ด ์ฃผ์–ด์งˆ ๋•Œ:
y์˜ ์ฃผ๋ณ€ ๋ถ„ํฌ์™€ y๊ฐ€ ์ฃผ์–ด์ง„ ๊ฒฝ์šฐ x์˜ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค:

2.7 Maximum Likelihood

๋‹ค๋ณ€๋Ÿ‰ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ์—์„œ i.i.d์˜ {xn} Dataset: X = (x1,...,xN )T์™€, Log Likelihoodํ•จ์ˆ˜๊ฐ€ ์•„๋ž˜์™€ ๊ฐ™์ด ์ฃผ์–ด์งˆ ๋•Œ,
ํ•ด๋‹น ๋ถ„ํฌ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜์— ๋Œ€ํ•œ MLE๋ฅผ ์ง„ํ–‰ํ•ด๋ณด์ž.

๋จผ์ €, Likelihoodํ•จ์ˆ˜๋Š” Dataset์— ๋Œ€ํ•ด ์•„๋ž˜ ๋‘ ๊ฐ’์— ์˜์กดํ•œ๋‹ค.
์ด๋•Œ, ๋‘ ๊ฐ’์€ Gaussian Distribution์˜ Sufficient Statistics๋กœ ์•Œ๋ ค์ ธ์žˆ๋‹ค.
์ฐธ๊ณ ์‹ 1.
์ฐธ๊ณ ์‹ 1.์— ์˜ํ•ด μ์— ๋Œ€ํ•œ Log Likelihood๋„ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค:
MLE:
μ: ์ด ๋„ํ•จ์ˆ˜๋ฅผ 0์œผ๋กœ ์„ค์ •, ML์˜ ํ‰๊ท ์— ๋Œ€ํ•œ ํ•ด๋ฅผ ์–ป๋Š”๋‹ค. ์ตœ๋Œ€ ์šฐ๋„ ์ถ”์ •์˜ ํ‰๊ท ์— ๋Œ€ํ•œ ํ•ด๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค:
์ด๋Š” Dataset point์˜ ํ‰๊ท ๊ฐ’์ด๋‹ค.
Σ: Log Likelihoodํ•จ์ˆ˜์‹์„ Σ์— ๋Œ€ํ•ด ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ์€ ๋” ๋ณต์žกํ•˜๋‹ค.
๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ ๋ฐฉ๋ฒ•์€ ๋Œ€์นญ ์ œ์•ฝ ์กฐ๊ฑด์„ ๋ฌด์‹œํ•˜๊ณ  ๊ฒฐ๊ณผ์ ์ธ ํ•ด๊ฐ€ ์š”๊ตฌ๋˜๋Š” ๋Œ€๋กœ ๋Œ€์นญ์ธ์ง€๋ฅผ ๋ณด์—ฌ์ฃผ๋Š” ๊ฒƒ์ด๋‹ค.
[Magnus&Neudecker์˜ ๋Œ€์•ˆ์  ์œ ๋„๋ฐฉ๋ฒ•]: ๋ช…์‹œ์ ์œผ๋กœ ๋Œ€์นญ ๋ฐ ์–‘์˜ ์ •๋ถ€ํ˜ธ ์ œ์•ฝ ์กฐ๊ฑด์„ ๋ถ€๊ณผ.
๊ฒฐ๊ณผ๋Š” ์œ„์™€ ๊ฐ™์ด μ ๋ฐ Σ์— ๋Œ€ํ•œ ๊ฒฐํ•ฉ ์ตœ๋Œ€ํ™”์˜ ๊ฒฐ๊ณผ์ด๋ฏ€๋กœ μML์ด ํฌํ•จ๋˜์–ด ์žˆ๋‹ค. 
์ด๋•Œ, μML์€ ΣML์— ์˜์กดํ•˜์ง€ ์•Š์œผ๋ฏ€๋กœ ๋จผ์ € μML์„ ๊ณ„์‚ฐํ•œ ๋‹ค์Œ ์ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ΣML์„ ํ‰๊ฐ€ํ•ด์•ผํ•œ๋‹ค.
๋”ฐ๋ผ์„œ ML๊ฐ’์˜ ๊ธฐ๋Œ“๊ฐ’์„ ์‹ค์ œ๋ถ„ํฌํ•˜์—์„œ ๊ณ„์‚ฐํ•˜๋ฉด ์œ„์™€ ๊ฐ™๋‹ค.

[โ—๏ธ์œ ์˜ํ•  ์ โ—๏ธ]:
ํ‰๊ท ์— ๋Œ€ํ•œ MLE๊ธฐ๋Œ“๊ฐ’์€ ์‹ค์ œ ํ‰๊ท ๊ณผ ๊ฐ™์ง€๋งŒ,
๊ณต๋ถ„์‚ฐ์— ๋Œ€ํ•œ MLE ๊ธฐ๋Œ“๊ฐ’์ด ์‹ค์ œ ๊ฐ’๋ณด๋‹ค ์ž‘๊ธฐ ๋•Œ๋ฌธ์— ํŽธํ–ฅ๋˜์–ด ์žˆ๋‹ค๋Š” ๊ฒƒ.
์ด ํŽธํ–ฅ์„ ์ˆ˜์ •ํ•˜๋ ค๋ฉด ๋‹ค๋ฅธ ์ถ”์ •๋Ÿ‰์„ ์ •์˜ํ•˜๋ฉด ๋œ๋‹ค:

 


2.8 Sequential estimation

MLE๋Š” ์ „์ฒด Dataset์„ ํ•œ๋ฒˆ์— ๊ณ ๋ คํ•˜๋Š” ์ผ๊ด„์ฒ˜๋ฆฌ(batch)๋ฐฉ๋ฒ•์ด๋‹ค.
Sequential๋ฐฉ๋ฒ•์€ Data point๋ฅผ ํ•œ๋ฒˆ์— ํ•˜๋‚˜์”ฉ ์ฒ˜๋ฆฌ ํ›„ ๋ฒ„๋ฆฌ๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.

ํ‰๊ท  μ์— ๋Œ€ํ•œ ์ตœ๋Œ€ ์šฐ๋„ ์ถ”์ •์น˜์˜ ๊ฒฐ๊ณผ๋ฅผ ๊ณ ๋ คํ•ด๋ณด์ž:
μML(N):๊ด€์ธก๊ฐ’ N์„ ๊ธฐ๋ฐ˜ ํ‰๊ท .
์ด์ œ, ์ตœ์ข… datapoint xN์˜ contribution์„ ๋ถ„๋ฆฌํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
ํ•ด์„)
(N-1)๊ฐœ์˜ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ๊ด€์ธกํ•œ ํ›„, μ์„ μML(N −1)๋กœ ์ถ”์ •
์ด์ œ data point xN์„ ๊ด€์ธก → ์šฐ๋ฆฌ๋Š” ์˜ค๋ž˜๋œ ์ถ”์ •์น˜๋ฅผ '์—๋Ÿฌ ์‹ ํ˜ธ' (xN − μML(N−1))์˜ ๋ฐฉํ–ฅ์œผ๋กœ ์ž‘์€ ์–‘๋งŒํผ ์ด๋™ → ์ˆ˜์ •๋œ ์ถ”์ •์น˜ μML(N)๋ฅผ ์–ป์Œ.

์ด๋•Œ, N์ด ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ์—ฐ์†์ ์ธ data point์—์„œ์˜ contribution์ด ์ค„์–ด๋“ ๋‹ค๋Š” ์ ์— ์œ ์˜ํ•ด์•ผํ•œ๋‹ค.
์ฆ‰, data point์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ๊ฐ๊ฐ์˜ data point๊ฐ€ ์ „์ฒด ๊ฒฐ๊ณผ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์ด ์ž‘์•„์ง„๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

 


2.9 Mixtures of Gaussians

[Gaussian๋ถ„ํฌ์˜ ์ฃผ์š”ํ•œ๊ณ„]
์•„๋ž˜ Figure 3.6(a)์— ๋‚˜์™€ ์žˆ๋Š” ์˜ˆ์‹œ๋ฅผ ๋ณด์ž.
(Old Faithful Dataset: Yellowstone National Park์˜ Old Faithful ์ง€์˜ฅ ํ™”๊ตฌ์˜ ํญ๋ฐœ์„ 272๋ฒˆ ์ธก์ •ํ•œ ๋ฐ์ดํ„ฐ;
(๊ฐ€๋กœ ์ถ•): ํญ๋ฐœ์ง€์†์‹œ๊ฐ„, (์„ธ๋กœ ์ถ•): ๋‹ค์Œ ํญ๋ฐœ๊นŒ์ง€์˜ ์‹œ๊ฐ„)

์ด๋•Œ, Dataset์€ 2๊ฐœ์˜ cluster๋ฅผ ํ˜•์„ฑํ•˜๋Š”๋ฐ, ๋‹จ์ˆœ Gaussian๋ถ„ํฌ๋Š” ์ด ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉํ•  ์ˆ˜ ์—†๋‹ค.
2๊ฐœ์˜ Gaussian์„ ํ•ฉ์„ฑํ•œ ๊ฒƒ์ด ์ด Dataset๊ตฌ์กฐ๋ฅผ ํ›จ์”ฌ ๋” ์ž˜ ๋‚˜ํƒ€๋‚ผ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€ํ•˜๋Š”๋ฐ, ์ด๋Š” Figure 3.6(b)์—์„œ ํ™•์ธ๊ฐ€๋Šฅํ•˜๋‹ค.

ํ•ฉ์„ฑ Gaussian ๋ชจ๋ธ:
Gaussian์ฒ˜๋Ÿผ ๊ธฐ๋ณธ์ ์ธ ๋ถ„ํฌ์˜ ์„ ํ˜•์กฐํ•ฉ์œผ๋กœ ์ด๋ค„์ง„ ํ™•๋ฅ ์  ๋ชจ๋ธ.


๋ณด๋‹ค ์ผ๋ฐ˜์ ์œผ๋กœ ํ˜ผํ•ฉ ๋ชจ๋ธ์€ ์ด์ง„ ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๋ฒ ๋ฅด๋ˆ„์ด ๋ถ„ํฌ์˜ ํ˜ผํ•ฉ๊ณผ ๊ฐ™์ด ๋‹ค๋ฅธ ๋ถ„ํฌ์˜ ์„ ํ˜• ์กฐํ•ฉ์œผ๋กœ ๊ตฌ์„ฑ๋  ์ˆ˜ ์žˆ๋Š”๋ฐ,
Figure 3.7์—์„œ Gaussian์˜ ์„ ํ˜•์กฐํ•ฉ์ด ๋งค์šฐ ๋ณต์žกํ•œ ๋ฐ€๋„๋ฅผ ์ƒ์„ฑํ•จ์„ ํ™•์ธ๊ฐ€๋Šฅํ•˜๋‹ค:

โˆ™ ์ถฉ๋ถ„ํ•œ ์ˆ˜์˜ ๊ฐ€์šฐ์‹œ์•ˆ์„ ์‚ฌ์šฉํ•˜๊ณ 
โˆ™ ํ‰๊ท  ๋ฐ ๊ณต๋ถ„์‚ฐ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์„ ํ˜• ์กฐํ•ฉ์—์„œ์˜ ๊ณ„์ˆ˜๋ฅผ ์กฐ์ •
→ ๊ฑฐ์˜ ๋ชจ๋“  ์—ฐ์† ๋ถ„ํฌ๋ฅผ ์›ํ•˜๋Š” ์ •ํ™•๋„๋กœ ๊ทผ์‚ฌํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋”ฐ๋ผ์„œ ์•„๋ž˜์™€ ๊ฐ™์€ K๊ฐœ์˜ Gaussian๋ฐ€๋„์˜ ํ•ฉ์œผ๋กœ ํ‘œํ˜„๋˜๋Š” ํ˜•์‹์˜ Mixture Gaussian์„ ๊ณ ๋ ค๊ฐ€๋Šฅํ•˜๋‹ค.
๊ฐ ๊ฐ€์šฐ์‹œ์•ˆ ๋ฐ€๋„ N (x|μk , Σk )๋Š” ํ˜ผํ•ฉ์˜ ๊ตฌ์„ฑ ์š”์†Œ์ด๋ฉฐ ๊ฐ๊ฐ ์ž์ฒด์˜ ํ‰๊ท  μk ๋ฐ ๊ณต๋ถ„์‚ฐ Σk๋ฅผ ๊ฐ–๋Š”๋‹ค.
์•„๋ž˜ Figure 3.8์€ 3๊ฐ€์ง€ ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ์žˆ๋Š” 2์ฐจ์› Gaussian Mixture์˜ ๋“ฑ๊ณ ์„  ๋ฐ ํ‘œ๋ฉด์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

์ด๋•Œ, ์œ„ p(x) ์‹์˜ πk๋ฅผ ํ˜ผํ•ฉ ๊ณ„์ˆ˜๋ผ๊ณ ํ•˜๋Š”๋ฐ, ์ด ์‹์˜ ์–‘๋ณ€์„ x์— ๋Œ€ํ•ด ์ ๋ถ„ํ•˜๊ณ  p(x)์™€ ๊ฐœ๋ณ„ ๊ฐ€์šฐ์‹œ์•ˆ ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ๋ชจ๋‘ ์ •๊ทœํ™”๋˜์–ด ์žˆ๋‹ค๋Š” ์‚ฌ์‹ค์„ ๊ณ ๋ คํ•˜๋ฉด ์•„๋ž˜ ์‹์ด ๋œ๋‹ค:
N(x|μk , Σk) ≥ 0์ด๊ณ  ๋ชจ๋“  k์— ๋Œ€ํ•ด, πk ≥0์ด p(x) ≥ 0์˜ ์ถฉ๋ถ„์กฐ๊ฑด. 
์ด๋•Œ, ์ด ์กฐ๊ฑด์„ ์œ„ ์กฐ๊ฑด๊ณผ ๊ฒฐํ•ฉํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
๋”ฐ๋ผ์„œ ํ˜ผํ•ฉ ๊ณ„์ˆ˜๊ฐ€ ํ™•๋ฅ ๋กœ ํ•ด์„๋  ์ˆ˜ ์žˆ๋Š” ์กฐ๊ฑด์„ ์ถฉ์กฑ์‹œํ‚ค๊ณ  ํ˜ผํ•ฉ ๋ถ„ํฌ์˜ ์ด๋Ÿฌํ•œ ํ™•๋ฅ ์  ํ•ด์„์ด ๋งค์šฐ ๊ฐ•๋ ฅํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค.
ํ•ฉ๊ณผ ๊ณฑ์˜ ๋ฒ•์น™์—์„œ ์ฃผ๋ณ€ ๋ฐ€๋„๋Š” ์•„๋ž˜์™€ ๊ฐ™์€๋ฐ, ์ด๋Š” p(x)์‹๊ณผ ๊ฐ™์Œ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค:

์ด๋•Œ, πk = p(k)๋ฅผ k๋ฒˆ์งธ ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ์„ ํƒํ•  ์‚ฌ์ „ ํ™•๋ฅ ๋กœ ๋ณผ ์ˆ˜ ์žˆ๊ณ 
 N(x|μkk) = p(x|k)๋ฅผ k์— ์กฐ๊ฑด์„ ๋‘” x์˜ ํ™•๋ฅ ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋Š”๋ฐ,
์ด๋Š” posterior ํ™•๋ฅ  p(k|x) ๋˜๋Š” ์ฑ…์ž„์ด๋ผ๊ณ ๋„ ๋ถˆ๋ฆฌ๋Š” ์‚ฌํ›„ ํ™•๋ฅ ์ด๋ผ ํ•œ๋‹ค. 
Bayes' Theorem์— ๋”ฐ๋ฅด๋ฉด posterior๋Š” ์ด์™€ ๊ฐ™๋‹ค.

Gaussian Mixture๋Š” π, μ, Σ์— ์˜ํ•ด ๊ฒฐ์ •๋˜๋Š”๋ฐ, ์ด ๊ฐ’ ๊ฒฐ์ •๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜๋Š” MLE์ด๋‹ค.
(์ด๋•Œ π ≡ {π1,...,πK}, μ ≡ {μ1,...,μK}, ๋ฐ Σ ≡ {Σ1,...ΣK} ๋กœ ํ‘œ๊ธฐ๋จ.)


p(x)์—์„œ Log Likelihood๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ์ฃผ์–ด์ง„๋‹ค:
์ด๋•Œ, ๋‹จ๋ฒˆ์— single Gaussian๋ณด๋‹ค ํ›จ์”ฌ ๋ณต์žกํ•จ์„ ์•Œ ์ˆ˜ ์žˆ๊ธฐ์— ๋งค๊ฐœ ๋ณ€์ˆ˜์— ๋Œ€ํ•ด MLE์˜ ํ•ด๋Š” ๋” ์ด์ƒ ๋‹ซํžŒ ํ˜•ํƒœ์˜ ํ•ด๊ฐ€ ์•„๋‹ˆ๋‹ค. 

 

 

 

 

 

 

 

 

 

 

 

 

 


3.  Periodic Variables

prev.

Gaussian: ๊ธฐ๋ณธ ๊ณจ์กฐ๋กœ์จ ์ค‘์š”ํ•˜๊ธด ํ•˜๋‚˜ ์—ฐ์†ํ™•๋ฅ ๋ฐ€๋„๋ชจ๋ธ๋กœ์จ ๋ถ€์ ์ ˆํ•œ ์ƒํ™ฉ์ด ์กด์žฌ.
ex) ์ฃผ๊ธฐ์„ฑ์„ ๊ฐ–๋Š” ๋ณ€์ˆ˜์ผ ๋•Œ. (ex. ํ’ํ–ฅ, ๋‹ฌ๋ ฅ์‹œ๊ฐ„, ...)

์ด๋Ÿฐ ์ฃผ๊ธฐ์  ๋ณ€์ˆ˜์˜ ์–‘์€ ํŽธ์˜์„ฑ์„ ์œ„ํ•ด ๊ฐ๋„์ขŒํ‘œ(๊ทน์ขŒํ‘œ) 0 ≤ θ < 2π๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

์ด๋•Œ, ์ฃผ๊ธฐ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ๋ช…ํ™•ํ•˜๊ณ  ํŠน๋ณ„ํ•œ ์ ‘๊ทผ๋ฐฉ์‹์ด ํ•„์š”ํ•œ๋ฐ, 
Gaussian๊ฐ™์€ ์ „ํ†ต์ ์ธ ๋ถ„ํฌ์˜ ์ ์šฉ์˜ ์ ‘๊ทผ์€ ์›์ ์˜ ์ž„์˜์ ์ธ ์„ ํƒ์— ๊ฐ•ํ•˜๊ฒŒ ์˜์กดํ•˜๋Š” ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค:
ex) ์˜ˆ๋ฅผ ๋“ค์–ด θ1 = 1° ๋ฐ θ2 = 359°์—์„œ ๋‘ ๊ด€์ธก์น˜์— ๋Œ€ํ•ด ํ‘œ์ค€ ๋‹จ๋ณ€๋Ÿ‰ ๊ฐ€์šฐ์‹œ์•ˆ ๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ๋งŒ๋“ ๋‹ค๋ฉด
์›์ ์„ 0°: ํ‘œ๋ณธ ํ‰๊ท =180°, ํ‘œ์ค€ ํŽธ์ฐจ=179°
์›์ ์„ 180°: ํ‘œ๋ณธํ‰๊ท =0°, ํ‘œ์ค€ ํŽธ์ฐจ=1°

3.1 Von Mises distribution

์ฃผ๊ธฐ๋ณ€์ˆ˜ θ์˜ ๊ด€์ธก์น˜ Dataset D = {θ1, . . . , θN}์˜ ํ‰๊ท ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ์‚ดํŽด๋ณด์ž. (์ด๋•Œ, θ๋Š” ๋ผ๋””์•ˆ ๋‹จ์œ„๋กœ ์ธก์ •)
์ด๋ฏธ ๊ฐ„๋‹จํ•œ ํ‰๊ท ์ธ (θ1 + · · · + θN)/N์ด ์ขŒํ‘œ์— ๊ฐ•ํ•˜๊ฒŒ ์˜์กดํ•จ์„ ์œ„์—์„œ ๋ณด์˜€์œผ๋ฏ€๋กœ
ํ‰๊ท ์˜ ๋ถˆ๋ณ€ ์ธก์ •์„ ์ฐพ๊ธฐ์œ„ํ•ด ๊ด€์ธก์น˜๋ฅผ ๋‹จ์œ„์› ์œ„์˜ ์ ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
∴ ๋Œ€์‹  โˆฅxnโˆฅ = 1 (n = 1,...,N)์ธ ๋‘ ์ฐจ์› ๋‹จ์œ„ ๋ฒกํ„ฐ x1,...,xN๋กœ ์„ค๋ช…๋  ์ˆ˜ ์žˆ๋Š”๋ฐ, ์•„๋ž˜ ๊ทธ๋ฆผ์ฒ˜๋Ÿผ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค:
๋Œ€์‹  ์ด ๋ฒกํ„ฐ๋“ค {xn}์˜ ํ‰๊ท ์„ ๊ณ„์‚ฐํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
์ด์ œ, ์ด ํ‰๊ท ์˜ ํ•ด๋‹น ๊ฐ๋„ ห‰θ๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค.
๋ช…๋ฐฑํžˆ ์ด ์ •์˜๋Š” ๋‘˜ ์‚ฌ์ด(ํ‰๊ท ์˜ ์œ„์น˜, ๊ฐ๋„์ขŒํ‘œ์˜ ์›์ )๊ฐ€ ๋…๋ฆฝ์ ์ž„์„ ๋ณด์žฅํ•œ๋‹ค.

์ฃผ์˜ํ•  ์ :
x๊ฐ€ ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹จ์œ„์› ์•ˆ์— ์œ„์น˜ํ•œ๋‹ค๋Š” ๊ฒƒ.
๊ด€์ธก์น˜์˜ ์ง๊ต ์ขŒํ‘œ๋Š” xn = (cos θn, sin θn)์œผ๋กœ ์ฃผ์–ด์ง€๋ฉฐ,
์šฐ๋ฆฌ๋Š” ์ƒ˜ํ”Œ ํ‰๊ท ์˜ ์ง๊ต ์ขŒํ‘œ๋ฅผ x = (rcos ห‰θ, rsin ห‰θ)๋กœ ์“ธ ์ˆ˜ ์žˆ๋‹ค.
์ด๋ฅผ ์œ„ ํ‰๊ท  ห‰x์‹์— ๋Œ€์ž…ํ•˜๊ณ  x1 ๋ฐ x2 ์„ฑ๋ถ„์„ ๋™๋“ฑํ•˜๊ฒŒ ํ•˜๋ฉด ์•„๋ž˜ ๋“ฑ์‹์„ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋‹ค: 
์—ฌ๊ธฐ์— tan θ = sin θ/ cos θ ํ•ญ๋“ฑ์‹์„ ์‚ฌ์šฉํ•˜๋ฉด ห‰θ๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค:
์ด์ œ, ์ด ๊ฒฐ๊ณผ๊ฐ€ MLE๋กœ ์ž์—ฐ์Šค๋ ˆ ๋„์ถœ๋˜๋Š” ๊ฒƒ์„ ์‚ดํŽด๋ณด์ž.


 

Von Mises Distribution = ์›ํ˜• ์ •๊ทœ๋ถ„ํฌ

Von Mises๋ถ„ํฌ๋Š” Gaussian์˜ ์ฃผ๊ธฐ์ ์ผ๋ฐ˜ํ™” ๋ถ„ํฌ์ด๋‹ค.
๊ด€๋ก€์ ์œผ๋กœ ์ฃผ๊ธฐ=2π ๋ถ„ํฌ p(θ)๋ฅผ ๊ณ ๋ คํ•œ๋‹ค. θ์— ๋Œ€ํ•œ ์ •์˜๋œ ์–ด๋–ค ํ™•๋ฅ  ๋ฐ€๋„ p(θ)๋Š” ๋‹จ์ˆœํžˆ ๋น„์Œ์ˆ˜์ด๊ณ  1๋กœ ์ ๋ถ„๋˜์–ด์•ผ ํ•  ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ฃผ๊ธฐ์ ์ด์–ด์•ผํ•˜๋ฏ€๋กœ p(θ)๋Š” ์•„๋ž˜ 3์กฐ๊ฑด์„ ๋งŒ์กฑํ•ด์•ผ ํ•œ๋‹ค:
p(θ+2π)=p(θ)์— ๋”ฐ๋ผ p(θ + M2π) = p(θ)์ด๋ฉฐ ์—ฌ๊ธฐ์„œ M์€ ์ž„์˜์˜ ์ •์ˆ˜์ด๋‹ค.
์ด 3๊ฐ€์ง€์†์„ฑ์„ ๋งŒ์กฑํ•˜๋Š” Gaussian๊ณผ ์œ ์‚ฌํ•œ ๋ถ„ํฌ๋ฅผ ์‰ฝ๊ฒŒ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.


๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋‘ ๋ณ€์ˆ˜ x = (x1 , x2)์— ๋Œ€ํ•œ Gaussian๋ถ„ํฌ๋ฅผ ๊ณ ๋ คํ•˜์ž.
์ด๋•Œ, ํ‰๊ท  μ = (μ1, μ1)์ด๊ณ , ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ Σ = σ2I์ด๋ฉฐ, ์—ฌ๊ธฐ์„œ I ๋Š” 2 × 2 ํ•ญ๋“ฑ ํ–‰๋ ฌ์ด๋‹ค:
์ด๋•Œ, ์ƒ์ˆ˜ p(x)์˜ ๋“ฑ๊ณ ์„ ์€ ์›ํ˜•์œผ๋กœ ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™๋‹ค.

์ด์ œ ์ผ์ • ๋ฐ˜์ง€๋ฆ„์˜ ์› ์œ„์—์„œ์˜ ์ด ๋ถ„ํฌ๊ฐ’์„ ๊ณ ๋ คํ•ด ๋ณด์ž.
์ด ๋ถ„ํฌ๋Š” ๊ตฌ์„ฑ์— ๋”ฐ๋ผ ์ฃผ๊ธฐ์ ์ด์ง€๋งŒ ์ •๊ทœํ™”๋˜์ง€ ์•Š์„ ๊ฒƒ์ด๋‹ค.
์ด ๋ถ„ํฌ์˜ ํ˜•ํƒœ๋ฅผ ๊ฒฐ์ •ํ•˜๋ ค๋ฉด ์ง๊ต ์ขŒํ‘œ (x1, x2)์—์„œ ๊ทน์ขŒํ‘œ (r, θ)๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ
x1 = rcosθ, x2 = rsinθ๋กœ ์ž‘์„ฑํ•ด์•ผํ•˜๊ณ ,
๋˜ํ•œ ํ‰๊ท  μ๋ฅผ ๊ทน์ขŒํ‘œ๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ μ1 = r0 cosθ0, μ2 = r0 sinθ0๋กœ ์ž‘์„ฑํ•ด์•ผ ํ•œ๋‹ค.
๊ทธ ํ›„ ์ด๋Ÿฌํ•œ ๋ณ€ํ™˜์„ ์•„๋ž˜ ์ด์ฐจ์› Gaussian๋ถ„ํฌ์— ๋Œ€์ž…ํ•˜์ž.


์ด์ œ, ๋‹จ์œ„ ์› r = 1์—์„œ๋งŒ ๊ด€์‹ฌ์ด ์žˆ์œผ๋ฏ€๋กœ θ์— ๋Œ€ํ•œ ์˜์กด์„ฑ์—๋งŒ ์ฃผ์˜ํ•˜์ž.
Gaussian๋ถ„ํฌ์˜ ์ง€์ˆ˜์— ์ค‘์ ์„ ๋‘๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค:

 

์ด๋•Œ, 'const'๋Š” θ์— ๋…๋ฆฝ์ ์ธ ํ•ญ์ด๋‹ค.
๋˜ํ•œ, ์•„๋ž˜ ์‚ผ๊ฐํ•จ์ˆ˜ ํ•ญ๋“ฑ์‹์„ ์‚ฌ์šฉํ–ˆ๋‹ค:

์ด์ œ m = r02๋กœ ์ •์˜ํ•˜๋ฉด p(θ)์˜ ๋‹จ์œ„์› ์ƒ์˜ ๋ถ„ํฌ์— ๋Œ€ํ•œ ์ตœ์ข… ํ‘œํ˜„์„ ์–ป๋Š”๋‹ค:

์ด๊ฒƒ์ด ๋ฐ”๋กœ ํฐ ๋ฏธ์ œ์Šค ๋ถ„ํฌ ๋˜๋Š” ์›ํ˜• ์ •๊ทœ๋ถ„ํฌ๋ผ ๋ถˆ๋ฆฌ๋Š” ๋ถ„ํฌ์ด๋‹ค!


θ0: ๋ถ„ํฌ์˜ ํ‰๊ท , m: ์ง‘์ค‘(concentration) ๋งค๊ฐœ ๋ณ€์ˆ˜(โ‰’ Gaussian ์—ญ๋ถ„์‚ฐ(= ์ •๋ฐ€๋„))
I0(m): ์ •๊ทœํ™” ๊ณ„์ˆ˜(์ด๋Š” ์ฒซ ๋ฒˆ์งธ ์ข…๋ฅ˜์˜ ์ˆ˜์ •๋œ ๋ฒ ์…€ ํ•จ์ˆ˜๋กœ ์•Œ๋ ค์ ธ ์žˆ๋‹ค.)
์ด ํ•จ์ˆ˜๋Š” ํฐ m์— ๋Œ€ํ•ด์„œ๋Š” ๋ถ„ํฌ๊ฐ€ ๊ทผ์‚ฌ์ ์œผ๋กœ Gaussian์ด ๋œ๋‹ค.


Figure 3.11: ํฐ ๋ฏธ์ œ์Šค ๋ถ„ํฌ





์ด์ œ ํฐ ๋ฏธ์ œ์Šค ๋ถ„ํฌ์˜ ๋งค๊ฐœ ๋ณ€์ˆ˜ θ0 ๋ฐ m์— ๋Œ€ํ•œ MLE๊ฐ’์„ ๊ตฌํ•ด๋ณด์ž.
Log Likelihoodํ•จ์ˆ˜:
θ0์— ๋Œ€ํ•œ ๋„ํ•จ์ˆ˜๋ฅผ 0์œผ๋กœ ๋†“์œผ๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค.
θ0๋ฅผ ๊ตฌํ•˜๊ธฐ ์œ„ํ•ด ์‚ผ๊ฐ ํ•จ์ˆ˜ ํ•ญ๋“ฑ์‹ sin(A-B) = cosBsinA - cosAsinB๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด, ์•„๋ž˜ ๋“ฑ์‹์„ ์–ป๋Š”๋‹ค:
์ด๋Š” ์•ž์„œ ์ด์ฐจ์› ์นดํ…Œ์‹œ์•ˆ(Cartesian) ๊ณต๊ฐ„์—์„œ ๊ด€์ธก์น˜์˜ ํ‰๊ท ์œผ๋กœ ๋ณผ ๋•Œ ์–ป์€ ๊ฒฐ๊ณผ์ธ
์ž„์„ ์•Œ์•„์ฐจ๋ฆด ์ˆ˜ ์žˆ๋‹ค.

๋งˆ์ฐฌ๊ฐ€์ง€๋กœ Log Likelihoodํ•จ์ˆ˜๋ฅผ m์— ๋Œ€ํ•ด ์ตœ๋Œ€ํ™”ํ•˜๊ณ 
I0′ (m) = I1(m) (Abramowitz and Stegun, 1965)์„ ์‚ฌ์šฉํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
์ด๋•Œ, θ0ML์— ๋Œ€ํ•œ MLE ํ•ด๋กœ ๋Œ€์ฒดํ•˜๋ฉด, (θ ๋ฐ m์— ๋Œ€ํ•œ ํ•ฉ๋™ ์ตœ์ ํ™”):
ํ•จ์ˆ˜ A(m)์€ Figure 3.12์— ๋‚˜์™€์žˆ๋‹ค.
๋”ฐ๋ผ์„œ ์‚ผ๊ฐ ํ•จ์ˆ˜ ํ•ญ๋“ฑ์‹ cos(A-B)๋กœ A(mML)์˜ ์šฐํ•ญ์„ ์•„๋ž˜์ฒ˜๋Ÿผ ์‰ฝ๊ฒŒ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค:
์ด๋•Œ, ํ•จ์ˆ˜ A(m)์€ ์ˆซ์ž๋กœ ๋’ค์ง‘์„ ์ˆ˜ ์žˆ๋‹ค.

ํฐ ๋ฏธ์ œ์Šค ๋ถ„ํฌ์˜ ํ•œ ๊ฐ€์ง€ ํ•œ๊ณ„์ : ๋‹จ๋ด‰์„ฑ
๋‹ค์ค‘๋ชจ์–‘์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ฃผ๊ธฐ ๋ณ€์ˆ˜๋ฅผ ๋ชจ๋ธ๋งํ•˜๊ธฐ ์œ„ํ•ด์„œ
→ ํฐ ๋ฏธ์ œ์Šค ๋ถ„ํฌ์˜ ํ˜ผํ•ฉ์ฒด๋ฅผ ํ˜•์„ฑํ•จ์œผ๋กœ์จ, ์œ ์—ฐํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์–ป๋Š”๋‹ค.

 

 

 

 

 

 

 


4.  The Exponential Family

prev.

ํ˜ผํ•ฉ ๋ชจ๋ธ๋ฅผ ์ œ์™ธํ•˜๋ฉด, ์ด๋ฒˆ ์žฅ์—์„œ์˜ ๋ชจ๋“  ๋ถ„ํฌ๋“ค์„ "์ง€์ˆ˜์กฑ"์ด๋ผ ๋ถ€๋ฅธ๋‹ค.
์ง€์ˆ˜์กฑ์˜ ํŠน์„ฑ์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž.

x์— ๋Œ€ํ•œ ์ง€์ˆ˜์กฑ ๋ถ„ํฌ๋Š” ๋งค๊ฐœ ๋ณ€์ˆ˜ η๊ฐ€ ์ฃผ์–ด์ง„ ๊ฒฝ์šฐ ์•„๋ž˜ ๋ถ„ํฌ๋กœ ์ •์˜๋œ๋‹ค:
&eta;:๋ถ„ํฌ์˜ ์ž์—ฐ ๋งค๊ฐœ ๋ณ€์ˆ˜(natural parameters)
u(x): xํ•จ์ˆ˜
g(η): ๋ถ„ํฌ ์ •๊ทœํ™”(normalized) ๊ณ„์ˆ˜์ด๋ฏ€๋กœ ์•„๋ž˜๋ฅผ ๋งŒ์กฑ:

[Bernoulli Distribution]:

์œ„์™€ ๊ฐ™์ด ์ •์˜๋˜๋Š”๋ฐ, ์ด๋ฅผ μ์— ๋Œ€ํ•ด ํ’€๋ฉด ์•„๋ž˜ ์‹์„ ์–ป๋Š”๋ฐ, ์ด๋ฅผ Logistic Sigmoidํ•จ์ˆ˜๋ผ ๋ถ€๋ฅธ๋‹ค.

์–ป์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์—ฌ๊ธฐ์„œ (3.143)์€ ๋กœ์ง€์Šคํ‹ฑ ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜๋กœ ๋ถˆ๋ฆฝ๋‹ˆ๋‹ค.
๋”ฐ๋ผ์„œ Bernoulli ๋ถ„ํฌ์— 1 - σ(η) = σ(−η)๋ฅผ ์ด์šฉํ•˜๋ฉด, ํ‘œ์ค€ ํ‘œํ˜„์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค:

[Multinomial Distribution]:





์—ฌ๊ธฐ์„œ์˜ μk์‹์„ Softmaxํ•จ์ˆ˜ ํ˜น์€ ์ •๊ทœํ™”์ง€์ˆ˜(normalized exponential)๋ผ ๋ถ€๋ฅธ๋‹ค.


[Gaussian Distribution]:


 ๋•Œ๋กœ๋Š” u(x) = x๋ฅผ ํ†ตํ•ด ์ œํ•œ๋œ Gaussian์‚ฌ์šฉ์ด ๊ฐ€๋Šฅํ•˜๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์ด๋Š” f(x)๊ฐ€ ์ •๊ทœํ™”๋œ ๋ฐ€๋„์ผ ๋•Œ ์•„๋ž˜ ์‹๋„ ์ •๊ทœํ™”๋œ ๋ฐ€๋„๊ฐ€ ๋จ์„ ๊ณ ๋ คํ•˜๋ฉด, ๋‹ค์†Œ ์ผ๋ฐ˜ํ™” ๋  ์ˆ˜ ์žˆ๋‹ค:
s>0์˜ scale๋ณ€์ˆ˜
์ด๋ฅผ ๊ฒฐํ•ฉํ•˜๋ฉด ์•„๋ž˜ ํ˜•ํƒœ๋กœ ํ‘œํ˜„๋˜๋Š” ์ œํ•œ๋œ ์ง€์ˆ˜์กฑ ํด๋ž˜์Šค ์กฐ๊ฑด๋ถ€๋ฐ€๋„๋ฅผ ์–ป๋Š”๋‹ค.
์ฃผ์˜ํ•  ์ : ๊ฐ ํด๋ž˜์Šค๊ฐ€ ์ž์ฒด์˜ ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ฒกํ„ฐ λk๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์ง€๋งŒ
ํด๋ž˜์Šค๊ฐ€ ๋™์ผํ•œ ์Šค์ผ€์ผ ๋งค๊ฐœ๋ณ€์ˆ˜ s๋ฅผ ๊ณต์œ ํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•œ๋‹ค๋Š” ๊ฒƒ.

4.1  Sufficient statistics

MLE๋กœ ์ผ๋ฐ˜ ์ง€์ˆ˜์กฑ ์‹์˜ ๋งค๊ฐœ ๋ณ€์ˆ˜ ๋ฒกํ„ฐ η๋ฅผ ์ถ”์ •ํ•ด๋ณด์ž:

์‹ 2 ์–‘๋ณ€์„ η์— ๋Œ€ํ•ด ๋ฏธ๋ถ„:

์ดํ›„ ์‹ ์žฌ๋ฐฐ์—ดํ•˜๊ณ  ๋‹ค์‹œ ์‹ 2๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด:
์‹ 3

u(x)์˜ ๊ณต๋ถ„์‚ฐ: g(η)์˜ ์ด๊ณ„๋„ํ•จ์ˆ˜๋กœ ํ‘œํ˜„๊ฐ€๋Šฅ.
∴ ์ง€์ˆ˜์กฑ๋ถ„ํฌ ์ •๊ทœํ™” ์‹œ, ๊ฐ„๋‹จํ•œ ๋ฏธ๋ถ„์œผ๋กœ ๋ชจ๋ฉ˜ํŠธ๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ๋‹ค.


i.i.d์˜ dataset X = {x1 , . . . , xn}์— ๋Œ€ํ•œ Likelihoodํ•จ์ˆ˜:
lnp(X|η)์˜ η์— ๋Œ€ํ•œ gradient = 0์ด๋ผ ํ•˜๋ฉด, ์•„๋ž˜์™€ ๊ฐ™์€ ์กฐ๊ฑด์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค:
์‹ 4
์ด๋Š” ์›์น™์ ์œผ๋กœ ηML์„ ์–ป๊ธฐ ์œ„ํ•ด ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ์กฐ๊ฑด์œผ๋กœ
MLE์˜ ํ•ด๊ฐ€ ์‹1์˜ ์ถฉ๋ถ„ํ†ต๊ณ„๋Ÿ‰(sufficient statistics)์ธ ∑n u(xn)์„ ํ†ตํ•ด
๋ฐ์ดํ„ฐ ์ž์ฒด๋ฅผ ์ €์žฅํ•  ํ•„์š”๊ฐ€ ์—†๋‹ค๋Š” ์ ์— ์ฃผ๋ชฉํ•˜์ž.

์ด๋•Œ, N → ∞์˜ ๊ทนํ•œ์„ ๊ณ ๋ คํ•˜๋ฉด ์‹ 4์˜ ์˜ค๋ฅธ์ชฝ ํ•ญ์€ E[u(x)]๊ฐ€ ๋˜๋ฉฐ, 
์‹ 3๊ณผ ๋น„๊ตํ•˜์—ฌ ์ด ๊ทนํ•œ์—์„œ ηML์ด ์‹ค์ œ ๊ฐ’ η์™€ ๋™์ผํ•˜๊ฒŒ ๋จ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.

ex)
Bernoulli Distribution:
ํ•จ์ˆ˜ u(x)๋Š” x๋งŒ์œผ๋กœ ์ฃผ์–ด์ง€๋ฏ€๋กœ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ {xn}์˜ ํ•ฉ๋งŒ ์œ ์ง€ํ•˜๋ฉด ๋จ.

Gaussian Distribution:
u(x) = (x, x2)T์ด๋ฏ€๋กœ {xn} ๋ฐ {x2n}์˜ ํ•ฉ์„ ๋ชจ๋‘ ์œ ์ง€ํ•œ๋‹ค.

 

 

 


5. Nonparametric Methods

prev.

[๋ฐ€๋„๋ชจ๋ธ๋ง์— ๋Œ€ํ•œ ๋ชจ์ˆ˜์ (parametrix) ์ ‘๊ทผ]:
Dataset์—์„œ ๊ฒฐ์ •๋˜๋Š” ์†Œ์ˆ˜์˜ parameter๋“ค๋กœ ๊ทœ์ •๋˜๋Š” ํŠน์ •๊ธฐ๋Šฅ์ ํ˜•ํƒœ์˜ ํ™•๋ฅ ๋ถ„ํฌ๋ฅผ ์•Œ์•„๋ณด์ž.

์œ„ ์ ‘๊ทผ์˜ ์ค‘์š”ํ•œ ํ•œ๊ณ„์ :
์„ ํƒํ•œ ๋ฐ€๋„๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ถ„ํฌ์˜ ๋ชจํ˜•์œผ๋กœ๋ถ€ํ„ฐ ๋ฒ—์–ด๋‚  ์ˆ˜ ์žˆ์Œ.
→ ๋ถ€์ •ํ™•ํ•œ ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ์ดˆ๋ž˜ ๊ฐ€๋Šฅ.

ex) Multi-modal์˜ Data์ผ ๋•Œ, Gaussian์œผ๋กœ๋Š” ๋ถ„ํฌ์˜ ์ธก๋ฉด์„ ํฌ์ฐฉํ•˜๊ธฐ ํž˜๋“ค๋‹ค.
(โˆต Gaussian์€ uni-modality)
์ด์— ๋Œ€ํ•ด ๋ถ„ํฌ์˜ ํ˜•ํƒœ์— ๋Œ€ํ•œ ์ ์€ ๊ฐ€์ •์„ ํ•˜๋Š” ๋ฐ€๋„์ถ”์ •์˜ ๋ช‡๊ฐ€์ง€ ๋น„๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•(Histogram, KDE ๋“ฑ)์„ ๊ณ ๋ คํ•ด๋ณผ ๊ฒƒ์ด๋‹ค.

5.1  Histograms

๋‹จ์ผ ์—ฐ์† ๋ณ€์ˆ˜ x์— ๋Œ€ํ•œ histogram๋ฐ€๋„๋ชจ๋ธ์˜ ํŠน์„ฑ์„ ์‚ดํŽด๋ณด์ž.

ํ‘œ์ค€ ํžˆ์Šคํ† ๊ทธ๋žจ: x๋ฅผ ํญ โˆ†i๋กœ ๊ตฌ๋ถ„, ๋‹ค์Œ i๋ฒˆ์งธ bin์— ์†ํ•˜๋Š” x์˜ ๊ด€์ธก์น˜ ์ˆ˜ ni๋ฅผ count.
๐Ÿค” ์ด count๋ฅผ ์ •๊ทœํ™” ๋œ ํ™•๋ฅ  ๋ฐ€๋„๋กœ ๋ณ€ํ™˜ํ•˜๋ ค๋ฉด?
→ ๊ฐ„๋‹จํžˆ ์ด ๊ด€์ธก ์ˆ˜ N๊ณผ bin์˜ ํญ โˆ†i๋กœ ๋‚˜๋ˆ„์–ด ๊ฐ bin์— ๋Œ€ํ•œ ํ™•๋ฅ  ๊ฐ’์„ ์–ป๋Š”๋‹ค:
์ด๋•Œ, ∫p(x)dx = 1์ธ ๊ฒƒ์ด ์‰ฝ๊ฒŒ ํ™•์ธ๊ฐ€๋Šฅํ•˜๋ฉฐ, ์ข…์ข… bin์€ ๋™์ผํ•œ ํญ โˆ†i = โˆ†๋ฅผ ๊ฐ€์ง€๋„๋ก ์„ ํƒ๋œ๋‹ค.
cf) bins: ๋ง‰๋Œ€๊ธฐ ๊ฐœ์ˆ˜๋ฅผ ์˜๋ฏธ.
์œ„ ๊ทธ๋ฆผ์€ ํžˆ์Šคํ† ๊ทธ๋žจ ๋ฐ€๋„ ์ถ”์ •์˜ ์˜ˆ์‹œ๋กœ 
2๊ฐœ์˜ ํ˜ผํ•ฉ Gaussian์˜ ๋…น์ƒ‰ ๊ณก์„ ๋ถ„ํฌ์—์„œ Data ์ถ”์ถœ,
์„ธ ๊ฐ€์ง€ ๋‹ค๋ฅธ bin ํญ โˆ†์— ํ•ด๋‹นํ•˜๋Š” ํžˆ์Šคํ† ๊ทธ๋žจ ๋ฐ€๋„ ์ถ”์ •์˜ ์˜ˆ๊ฐ€ ํ‘œ์‹œ.
 โˆ™ โˆ†๊ฐ€ ๋งค์šฐ ์ž‘์€ ๊ฒฝ์šฐ: ๋ฐ€๋„ ๋ชจ๋ธ์€ ๋งค์šฐ ๋พฐ์กฑ = ๊ธฐ๋ณธ Dataset์— ์—†๋Š” ๊ตฌ์กฐ
 โˆ™ โˆ†๊ฐ€ ๋„ˆ๋ฌด ํฐ ๊ฒฝ์šฐ: ๋„ˆ๋ฌด ๋งค๋„๋Ÿฝ๊ณ  ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋…น์ƒ‰ ๊ณก์„ ์˜ ์ด์ค‘ ๋ชจ์–‘ ํŠน์„ฑ์„ ํฌ์ฐฉโŒ
 โˆ™ โˆ†์˜ ์ตœ์  ๊ฐ’์€ ์›์น™์ ์œผ๋กœ โˆ†์˜ ์ค‘๊ฐ„ ๊ฐ’์—์„œ ์–ป์–ด์ง„๋‹ค
์›์น™์ ์œผ๋กœ ํžˆ์Šคํ† ๊ทธ๋žจ ๋ฐ€๋„ ๋ชจ๋ธ์€ bin์˜ ๊ฐ€์žฅ์ž๋ฆฌ ์œ„์น˜์˜ ์„ ํƒ์—๋„ ์˜์กดํ•˜์ง€๋งŒ
์ด๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ bin ํญ โˆ†๋ณด๋‹ค ํ›จ์”ฌ ์ค‘์š”ํ•˜์ง€๋Š” ์•Š๋‹ค.

์žฅ๋‹จ์  (feat. ์ฐจ์›์˜ ์ €์ฃผ)

ํžˆ์Šคํ† ๊ทธ๋žจ ๋ฐฉ๋ฒ•์€ ํ›„์ˆ ๋˜๋Š” ๋ฐฉ๋ฒ•๋“ค๊ณผ ๋‹ค๋ฅธ ํŠน์„ฑ์„ ๊ฐ–๊ธฐ์— histogram๊ณ„์‚ฐ ์ดํ›„ Dataset์ž์ฒด๊ฐ€ ํ•„์š”์—†์–ด์ง„๋‹ค.
→ Dataset์ด ํฐ ๊ฒฝ์šฐ ์œ ๋ฆฌ & Data point๊ฐ€ ์ˆœ์ฐจ์ ์œผ๋กœ ๋„์ฐฉ ์‹œ ์‰ฝ๊ฒŒ ์ ์šฉ ๊ฐ€๋Šฅ.
→ ์ด๋Š” ๋น ๋ฅธ ์‹œ๊ฐํ™”์—๋Š” ์œ ๋ฆฌํ•˜๋‚˜ ๋Œ€๋ถ€๋ถ„์˜ ๋ฐ€๋„์ถ”์ •์‘์šฉ ์‹œ์—๋Š” ๋ถ€์ ํ•ฉํ•จ์„ ์˜๋ฏธ.


Prob) ์ถ”์ • ๋œ ๋ฐ€๋„๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑ ํ•œ ๊ธฐ๋ณธ ๋ถ„ํฌ์˜ ํŠน์„ฑ์ด ์•„๋‹Œ bin ๊ฐ€์žฅ์ž๋ฆฌ์— ์˜ํ•œ ์ด์‚ฐ์„ฑ์„ ๊ฐ–๋Š”๋‹ค๋Š” ๊ฒƒ.
Limit) ์ฐจ์›์— ๋”ฐ๋ฅธ ์Šค์ผ€์ผ๋ง:
D ์ฐจ์› ๊ณต๊ฐ„์˜ ๊ฐ ๋ณ€์ˆ˜๋ฅผ M ๊ฐœ์˜ bin์œผ๋กœ ๋‚˜๋ˆ„๋ฉด ์ด bin ์ˆ˜๋Š” MD.
D์™€์˜ ์ด ์ง€์ˆ˜์ ์ธ ์Šค์ผ€์ผ๋ง์€ ์ฐจ์›์˜ ์ €์ฃผ(Curse of dimensionality)์˜ ํ•œ ์˜ˆ์‹œ๋กœ ๊ณ ์ฐจ์› ๊ณต๊ฐ„์—์„œ ์ง€์—ญ ํ™•๋ฅ  ๋ฐ€๋„์˜ ์˜๋ฏธ ์žˆ๋Š” ์ถ”์ •์น˜๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ ์–‘์ด ๋ฐฉ๋Œ€ ํ•  ๊ฒƒ์ž„์„ ์˜๋ฏธํ•œ๋‹ค.


important Lesson)

โ‘  ํŠน์ • ์œ„์น˜์—์„œ ํ™•๋ฅ  ๋ฐ€๋„๋ฅผ ์ถ”์ •์‹œ, ํ•ด๋‹น ์ง€์ ์˜ ์ผ๋ถ€ ๊ทผ์ฒ˜์— ์žˆ๋Š” Data point๋ฅผ ๊ณ ๋ คํ•ด์•ผํ•จ.
์ด๋Ÿฐ locality๊ฐœ๋…์€ ์–ด๋–ค ์ข…๋ฅ˜์˜ ๊ฑฐ๋ฆฌ ์ธก์ •์„ ๊ฐ€์ •ํ•ด์•ผ ํ•จ์„ ์˜๋ฏธ. (ex) ์—ฌ๊ธฐ์„œ๋Š” ์œ ํด๋ฆฌ๋“œ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฐ€์ •.)
locality ์†์„ฑ์€ bin์— ์˜ํ•ด ์ •์˜, bin ํญ์€ local์˜์—ญ์˜ ๊ณต๊ฐ„๋ฒ”์œ„๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ์ž์—ฐ์Šค๋Ÿฌ์šด 'smoothing' ๋งค๊ฐœ ๋ณ€์ˆ˜๊ฐ€ ์กด์žฌ. 

โ‘ก ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์œผ๋ ค๋ฉด smoothign๋งค๊ฐœ ๋ณ€์ˆ˜์˜ ๊ฐ’์ด ๋„ˆ๋ฌด ํฌ์ง€ ์•Š์•„์•ผ ํ•˜๋ฉฐ ๋„ˆ๋ฌด ์ž‘์ง€ ์•Š์•„์•ผ ํ•œ๋‹ค.
๋‹คํ•ญ์‹์˜ ์ฐจ์ˆ˜ M ๋˜๋Š” ์ •๊ทœํ™” ๋งค๊ฐœ ๋ณ€์ˆ˜ ๊ฐ’ λ์ด ์ค‘๊ฐ„ ๊ฐ’์— ์ตœ์ ํ™”๋œ ๊ฒƒ๊ณผ ๋น„์Šท.
๊ทธ๋ ‡๊ธฐ์— Dimension Scaling์— ์ข€ ๋” ๋‚˜์€ 2๊ฐ€์ง€ nonparametric๊ธฐ์ˆ ์ธ Kernel Density์™€ K-NN์— ๋Œ€ํ•ด ์•Œ์•„๋ณด์ž.

5.2  Kernel Densities

๊ฐ€์ •์— ๋”ฐ๋ฅด๋ฉด ์–ด๋–ค ์•Œ๋ ค์ง€์ง€ ์•Š์€ ํ™•๋ฅ  ๋ฐ€๋„ p(x)์—์„œ D-์ฐจ์› ๊ณต๊ฐ„(์œ ํด๋ฆฌ๋“œ ๊ณต๊ฐ„์œผ๋กœ ๊ฐ€์ •.)์œผ๋กœ๋ถ€ํ„ฐ ๊ด€์ธก์น˜๊ฐ€ ์ถ”์ถœ๋˜๊ณ  p(x)์˜ ๊ฐ’์„ ์ถ”์ •ํ•ด๋ณด์ž. 
Locality์— ๋Œ€ํ•œ ์ด์ „ ๋…ผ์˜์—์„œ x๋ฅผ ํฌํ•จํ•˜๋Š” ์ž‘์€ ์˜์—ญ R์„ ๊ณ ๋ คํ•ด ๋ณผ ๋•Œ, ์ด ์˜์—ญ๊ณผ ์—ฐ๊ด€๋œ ํ™•๋ฅ  ์งˆ๋Ÿ‰์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค:

 

์ด์ œ p(x)์—์„œ ์ถ”์ถœ ๋œ N๊ฐœ์˜ ๊ด€์ธก์น˜๋กœ ๊ตฌ์„ฑ๋œ Dataset์„ ์ˆ˜์ง‘ํ–ˆ๋‹ค ๊ฐ€์ •ํ•˜์ž.
๊ฐ Data point๊ฐ€ R ์˜์—ญ ๋‚ด์— ์œ„์น˜ํ•  ํ™•๋ฅ  P๊ฐ€ ์žˆ์œผ๋ฏ€๋กœ
์˜์—ญ R ๋‚ด์— ์œ„์น˜ํ•œ ์ ์˜ ์ด ์ˆ˜ K๋Š” ์ดํ•ญ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅธ๋‹ค:
์ ์˜ ํ‰๊ท  ๋น„์œจ์ด E[K/N] = P์ด๊ณ , ์ด ์ฃผ๋ณ€์˜ ๋ถ„์‚ฐ์ด var[K/N] = P(1 - P)/N์ด๋ฏ€๋กœ
ํฐ N์— ๋Œ€ํ•ด์„œ ์ด ๋ถ„ํฌ๋Š” ํ‰๊ท  ์ฃผ๋ณ€์— ๋‚ ์นด๋กญ๊ฒŒ ํ”ผํฌ๋  ๊ฒƒ์ด๋ฏ€๋กœ ์•„๋ž˜์™€ ๊ฐ™๋‹ค:
๊ทธ๋Ÿฌ๋‚˜ ์˜์—ญ R์ด ํ™•๋ฅ  ๋ฐ€๋„ p(x)๊ฐ€ ๋Œ€๋žต์ ์œผ๋กœ ํ•ด๋‹น ์˜์—ญ ์ „์ฒด์—์„œ ์ƒ์ˆ˜์ผ ๋งŒํผ ์ถฉ๋ถ„ํžˆ ์ž‘๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋ฉด P โ‰ƒ p(x)V๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค. ์—ฌ๊ธฐ์„œ V๋Š” R์˜ ๋ถ€ํ”ผ์ด๋ฏ€๋กœ ์œ„์˜ K์— ๋Œ€ํ•œ ๋“ฑ์‹๊ณผ ์•„๋ž˜ P์— ๋Œ€ํ•œ ๋“ฑ์‹์„ ๊ฒฐํ•ฉํ•˜๋ฉด, 
๋ฐ€๋„ ์ถ”์ •์น˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ๋กœ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค:
์œ„์˜ p(x)์˜ ์œ ํšจ์„ฑ์€ R ์˜์—ญ์ด ๋ฐ€๋„๊ฐ€ ๋Œ€๋žต์ ์œผ๋กœ ํ•ด๋‹น ์˜์—ญ ์ „์ฒด์—์„œ ์ƒ์ˆ˜์ด๋ฉฐ
๋™์‹œ์— R ๋‚ด์— ๋–จ์–ด์ง€๋Š” ์ ์˜ ์ˆ˜ K๊ฐ€ ์ดํ•ญ ๋ถ„ํฌ๊ฐ€ ๋‚ ์นด๋กœ์šด ํ”ผํฌ๋ฅผ ๊ฐ€์ง€๋„๋ก ์ถฉ๋ถ„ํžˆ ํฌ๋‹ค๋Š” ๋‘ ๊ฐ€์ง€ ๋ชจ์ˆœ๋œ ๊ฐ€์ •์— ์˜์กดํ•œ๋‹ค.


์œ„์˜ p(x)๊ฒฐ๊ณผ๋ฅผ 2๊ฐ€์ง€ ๋ฐฉ๋ฒ•์œผ๋กœ ํ™œ์šฉ๊ฐ€๋Šฅํ•˜๋‹ค.
โ‘  Data์—์„œ V์˜ ๊ฐ’์„ ๊ฒฐ์ •→K์˜ ๊ฐ’์„ ์–ป๋Š” ๊ฒƒ์œผ๋กœ ๊ณ ์ •. (์ด๋Š” ์•„๋ž˜ 5.3์˜ K-NN๊ธฐ๋ฒ•์„ ๋„์ถœํ•œ๋‹ค)
โ‘ก ์šฐ๋ฆฌ๋Š” V๋ฅผ ๊ณ ์ •ํ•˜๊ณ  ๋ฐ์ดํ„ฐ์—์„œ K๋ฅผ ๊ฒฐ์ •. (์ด๋Š” ์ปค๋„ ์ ‘๊ทผ์„ ๋„์ถœํ•œ๋‹ค.)

K-NN๊ณผ Kernel๋ฐ€๋„ ๋ชจ๋‘ V๊ฐ€ N๊ณผ ํ•จ๊ป˜ ์ถ•์†Œ๋˜๊ณ  K๊ฐ€ N๊ณผ ํ•จ๊ป˜ ์ ์ ˆํ•œ ์†๋„๋กœ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ N → ∞๋กœ ์ˆ˜๋ ดํ•œ๋‹ค. (Duda ๋ฐ Hart, 1973).


๋จผ์ € Kernel๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ์ž์„ธํžˆ ์•Œ์•„๋ณด์ž.
์ผ๋‹จ ์˜์—ญ R์„ x๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ํ•œ ์ž‘์€ ์ดˆ์ž…๋ฐฉ(hypercube)์œผ๋กœ ์ทจํ•œ๋‹ค.
์ด ์˜์—ญ ๋‚ด์— ์žˆ๋Š” ์ ์˜ ์ˆ˜ K๋ฅผ ์„ธ๊ธฐ ์œ„ํ•ด ์•„๋ž˜์™€ ๊ฐ™์€ ํ•จ์ˆ˜๋ฅผ ์ •์˜ํ•˜๋Š” ๊ฒƒ์ด ํŽธ๋ฆฌํ•˜๋‹ค.
์œ„ ํ•จ์ˆ˜๋Š” ์›์ ์„ ์ค‘์‹ฌ์œผ๋กœ ํ•˜๋Š” ๋‹จ์œ„ ํ๋ธŒ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๊ฒƒ์œผ๋กœ ์ปค๋„ ํ•จ์ˆ˜์˜ ์˜ˆ์‹œ์ด๋ฉฐ
์ด ๋ฌธ๋งฅ์—์„œ๋Š” Parzen window๋ผ๊ณ ๋„ ํ•œ๋‹ค.
์œ„ ํ•จ์ˆ˜์—์„œ (x - xn)/h์˜ ์–‘์ด 1์ด ๋  ๊ฒƒ์ด๋ฉฐ, ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉด 0์ด ๋˜๋ฏ€๋กœ ์ด cube๋‚ด์˜ Data point ์ด ์ˆ˜๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค:

์ด ์‹์„ k(u)์— ๋Œ€์ž…ํ•˜๋ฉด x์—์„œ ์ถ”์ • ๋œ ๋ฐ€๋„์— ๋Œ€ํ•œ ์•„๋ž˜์™€ ๊ฐ™์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป๋Š”๋‹ค:

์ด๋•Œ, ์ฐจ์› D์—์„œ ํ•œ ๋ณ€์ด h์ธ ์ดˆ์ž…๋ฐฉ์˜ ๋ถ€ํ”ผ๋กœ V = hD๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ํ•จ์ˆ˜ k(u)์˜ ๋Œ€์นญ์„ฑ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด ๋ฐฉ์ •์‹์„ ์ด์ œ x๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ํ•˜๋Š” ๋‹จ์ผ ํ๋ธŒ ๋Œ€์‹  N ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ ์ค‘์‹ฌ์˜ N ํ๋ธŒ๋กœ ํ•ด์„ํ•  ์ˆ˜ ์žˆ๋‹ค.

์œ„์˜ ์ปค๋„ ๋ฐ€๋„ ์ถ”์ •๊ธฐ์‹ p(x)๋Š” ํžˆ์Šคํ† ๊ทธ๋žจ ๋ฐฉ๋ฒ•์ด ๊ฒช์—ˆ๋˜ ๋ฌธ์ œ(= ์ฆ‰ ํ๋ธŒ์˜ ๊ฒฝ๊ณ„์—์„œ์˜ ์ธ์œ„์ ์ธ ๋ถˆ์—ฐ์†์„ฑ ๋ฌธ์ œ์™€ ๋™์ผํ•œ ๋ฌธ์ œ)๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.
๋” ๋ถ€๋“œ๋Ÿฌ์šด ์ปค๋„ ํ•จ์ˆ˜๋ฅผ ์„ ํƒํ•˜๋ฉด ๋” ๋ถ€๋“œ๋Ÿฌ์šด ๋ฐ€๋„ ๋ชจ๋ธ์„ ์–ป์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํ”ํžˆ ์„ ํƒํ•˜๋Š” ๊ฒƒ์€ Gaussian์ด๋ฏ€๋กœ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ปค๋„ ๋ฐ€๋„ ๋ชจ๋ธ์ด ์ƒ์„ฑ๋œ๋‹ค:
์—ฌ๊ธฐ์„œ h๋Š” ๊ฐ€์šฐ์‹œ์•ˆ ๊ตฌ์„ฑ ์š”์†Œ์˜ ํ‘œ์ค€ ํŽธ์ฐจ์ด๋ฏ€๋กœ ์šฐ๋ฆฌ์˜ ๋ฐ€๋„ ๋ชจ๋ธ์€ ๊ฐ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ ์œ„์— ๊ฐ€์šฐ์‹œ์•ˆ์„ ๋ฐฐ์น˜ํ•˜๊ณ  ์ „์ฒด ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ ๊ธฐ์—ฌ๋ฅผ ํ•ฉ์‚ฐ ํ•œ ๋‹ค์Œ N์œผ๋กœ ๋‚˜๋ˆ„์–ด ๋ฐ€๋„๊ฐ€ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ์ •๊ทœํ™”๋œ๋‹ค.
์œ„ ๊ทธ๋ฆผ์—์„œ๋Š” ์ด ๋ชจ๋ธ ์œ„์˜ p(x)์‹์„ ํžˆ์Šคํ† ๊ทธ๋žจ์„ ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด ์ด์ „์— ์‚ฌ์šฉํ•œ Dataset์— ์ ์šฉํ•œ๋‹ค.

์ด๋ฅผ ํ†ตํ•ด h๊ฐ€ ํ‰ํ™œํ™” ๋งค๊ฐœ ๋ณ€์ˆ˜์˜ ์—ญํ• ์„ ํ•˜๋ฉฐ,
์ž‘์€ h์—์„œ์˜ ์žก์Œ ๊ฐ๋„์™€ ํฐ h์—์„œ์˜ ๊ณผ๋„ํ•œ ํ‰ํ™œํ™” ๊ฐ„์˜ ๊ท ํ˜•์„ ์œ ์ง€ํ•˜๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
์ฆ‰, h์˜ ์ตœ์ ํ™”๋Š” ๋ชจ๋ธ ๋ณต์žก์„ฑ ๋ฌธ์ œ๋กœ ํžˆ์Šคํ† ๊ทธ๋žจ ๋ฐ€๋„ ์ถ”์ •์—์„œ bin ํญ์˜ ์„ ํƒ์ด๋‚˜ ๊ณก์„  ๋งž์ถค์— ์‚ฌ์šฉ๋˜๋Š” ๋‹คํ•ญ์‹์˜ ์ฐจ์ˆ˜์™€ ์œ ์‚ฌํ•˜๋‹ค.

์œ„ p(x)์‹์— ์ปค๋„ ํ•จ์ˆ˜ k(u)๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ p(x)๋ฅผ ์„ ํƒํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ,
๊ฒฐ๊ณผ์ ์œผ๋กœ ์–ป์–ด์ง„ ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ์–ด๋””์—์„œ๋‚˜ ์Œ์ˆ˜๊ฐ€ ์•„๋‹ˆ๋ฉฐ 1๋กœ ์ ๋ถ„๋˜๋„๋กํ•˜๋Š” ์•„๋ž˜ ์กฐ๊ฑด์— ๋”ฐ๋ผ์•ผ ํ•œ๋‹ค.
p(x)์‹์— ์˜ํ•ด ์ฃผ์–ด์ง„ ๋ฐ€๋„ ๋ชจ๋ธ ํด๋ž˜์Šค๋ฅผ Kernel๋ฐ€๋„ ์ถ”์ •๊ธฐ ๋˜๋Š” Parzen ์ถ”์ •๊ธฐ๋ผ๊ณ ํ•œ๋‹ค.
[์žฅ์ ]: 'train' ๋‹จ๊ณ„์—์„œ ๊ณ„์‚ฐ์ด ํ•„์š”ํ•˜์ง€ ์•Š์•„ ์ €์žฅ์†Œ๋งŒ ํ•„์š”.
[๋‹จ์ ]: Datasetํฌ๊ธฐ๊ฐ€ ์„ ํ˜•์œผ๋กœ ์ฆ๊ฐ€, ํ‰๊ฐ€ ๋น„์šฉ์ด ํฌ๊ฒŒ ์ฆ๊ฐ€.

5.3  Nearest-neighbors

Kernel๊ธฐ๋ฐ˜์˜ ๋ฐ€๋„์ถ”์ •์˜ ๋‹จ์ : ํ•˜๋‚˜๋Š” ์ปค๋„ ํญ์„ ์ œ์–ดํ•˜๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜ h๊ฐ€ ๋ชจ๋“  ์ปค๋„์— ๋Œ€ํ•ด ์ผ์ •ํ•˜๊ฒŒ ๊ณ ์ •๋œ๋‹ค๋Š” ๊ฒƒ

๋ฐ์ดํ„ฐ ๋ฐ€๋„๊ฐ€ ๋†’์€ ์ง€์—ญ: ํฐ h ๊ฐ’์ด ๊ณผ๋„ํ•œ ์Šค๋ฌด๋”ฉ์„ ์œ ๋ฐœ→๋ฐ์ดํ„ฐ์—์„œ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๋Š” ๊ตฌ์กฐ๋ฅผ ํฌ์„.
Butโ—๏ธ h ๊ฐ’์„ ์ค„์ด๋ฉด: ๋ฐ์ดํ„ฐ ๊ณต๊ฐ„์˜ ๋ฐ€๋„๊ฐ€ ์ž‘์€ ๊ณณ์—์„œ๋Š” ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ์ถ”์ •๊ฐ’์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.
∴ h์˜ ์ตœ์  ์„ ํƒ์€ ๋ฐ์ดํ„ฐ ๊ณต๊ฐ„ ๋‚ด ์œ„์น˜์— ๋”ฐ๋ผ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ๋‹ค.
์ด ๋ฌธ์ œ๋Š” ๋ฐ€๋„ ์ถ”์ •์„ ์œ„ํ•œ Nearest Neighbors ๋ฐฉ๋ฒ•์œผ๋กœ ํ•ด๊ฒฐ๋œ๋‹ค.

๋”ฐ๋ผ์„œ ๋กœ์ปฌ ๋ฐ€๋„ ์ถ”์ •์— ๋Œ€ํ•œ ์ผ๋ฐ˜์ ์ธ ๊ฒฐ๊ณผ์ธ p(x) = K/NV ์‹์œผ๋กœ ๋Œ์•„๊ฐ€
V๋ฅผ ๊ณ ์ •ํ•˜๊ณ  ๋ฐ์ดํ„ฐ์—์„œ K์˜ ๊ฐ’์„ ๊ฒฐ์ •ํ•˜๋Š” ๋Œ€์‹ ์—,
๊ณ ์ •๋œ ๊ฐ’ K๋ฅผ ๊ฐ€์ง€๊ณ  V์˜ ์ ์ ˆํ•œ ๊ฐ’์„ ์ฐพ๊ธฐ ์œ„ํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

์ด๋ฅผ ์œ„ํ•ด x ์ฃผ๋ณ€์— ์œ„์น˜ํ•œ ์ž‘์€ ๊ตฌ๋ฅผ ๊ณ ๋ คํ•˜๊ณ 
ํ•ด๋‹น ๊ตฌ์— ์ •ํ™•ํžˆ K๊ฐœ์˜ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ ํฌํ•จ๋  ๋•Œ๊นŒ์ง€ ๊ตฌ์˜ ๋ฐ˜์ง€๋ฆ„์„ ์ฆ๊ฐ€์‹œํ‚จ ํ›„,
V๋ฅผ ํ•ด๋‹น ๊ตฌ์˜ ๋ถ€ํ”ผ๋กœ ์„ค์ •ํ•˜์—ฌ ๋ฐ€๋„ p(x)๋ฅผ ์ถ”์ •ํ•˜๋Š” ์ด ๊ธฐ์ˆ ์„ K-Nearest Neighbors๋ผ ํ•œ๋‹ค.
์œ„ ๊ทธ๋ฆผ์—์„œ๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜ K์˜ ์—ฌ๋Ÿฌ ์„ ํƒ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋™์ผํ•œ ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•ด Figures 3.13 ๋ฐ 3.14์—์„œ ์‚ฌ์šฉ๋œ ๊ฒƒ๊ณผ ๊ฐ™์ด ์„ค๋ช…๋˜์–ด ์žˆ.
K์˜ ๊ฐ’์ด ์ด์ œ ์Šค๋ฌด๋”ฉ์˜ ์ •๋„๋ฅผ ๊ฒฐ์ •ํ•˜๊ณ  K๊ฐ€ ๋„ˆ๋ฌด ํฌ์ง€ ์•Š๊ณ  ๋„ˆ๋ฌด ์ž‘์ง€ ์•Š์€ ์ตœ์ ์˜ ์„ ํƒ์ด ์žˆ์Œ์„ ๋‹ค์‹œ ํ™•์ธ๊ฐ€๋Šฅํ•˜๋‹ค.
K -NN์— ์˜ํ•ด ์ƒ์„ฑ๋œ ๋ชจ๋ธ์€ ์ „์ฒด ๊ณต๊ฐ„์— ๊ฑธ์ณ ํ†ตํ•ฉ๋˜์ง€ ์•Š์œผ๋ฏ€๋กœ ์‹ค์ œ๋กœ ๋ฐ€๋„ ๋ชจ๋ธ์€ ์•„๋‹ˆ๋‹ค.

์ด ์žฅ์„ ์ดํ›„, ๋ฐ€๋„ ์ถ”์ •์˜ K-์ตœ๊ทผ์ ‘ ์ด์›ƒ ๊ธฐ์ˆ ์„ classification task๋กœ ํ™•์žฅํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์‚ดํŽด๋ณผ ๊ฒƒ์ด๋‹ค.
์ด๋ฅผ ์œ„ํ•ด K-์ตœ๊ทผ์ ‘ ์ด์›ƒ ๋ฐ€๋„ ์ถ”์ • ๊ธฐ์ˆ ์„ ๊ฐ ํด๋ž˜์Šค์— ๋ณ„๋„๋กœ ์ ์šฉํ•˜๊ณ  ๋ฒ ์ด์ฆˆ ์ด๋ก ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

Nk ์ ์œผ๋กœ ๊ตฌ์„ฑ๋œ ํด๋ž˜์Šค Ck์˜ ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ์žˆ์„ ๋•Œ ์ƒˆ๋กœ์šด ์  x๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋ ค๋ฉด?
→ ํ•ด๋‹น ํด๋ž˜์Šค์— ๋Œ€ํ•œ K-NN์ถ”์ • ๊ธฐ์ˆ ์„ ์ ์šฉ, ๋ฒ ์ด์ฆˆ ์ด๋ก ์„ ์‚ฌ์šฉ.

 x๋ฅผ ํฌํ•จํ•˜๋Š” ์ •ํ™•ํžˆ K๊ฐœ์˜ ์ ์ด ํฌํ•จ ๋œ ๊ตฌ๋ฅผ ๊ทธ๋ฆฌ๋ฉด
์ด ๊ตฌ์˜ ๋ถ€ํ”ผ๋ฅผ V๋กœ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ ํด๋ž˜์Šค์™€ ๊ด€๋ จ๋œ ๋ฐ€๋„์˜ ์ถ”์ •์น˜๋ฅผ ์–ป๋Š”๋‹ค(3.187). 
๋น„์กฐ๊ฑด๋ถ€ ๋ฐ€๋„๋Š” (3.188)๋กœ ์ฃผ์–ด์ง€๊ณ  ํด๋ž˜์Šค ์‚ฌ์ „ ํ™•๋ฅ ์€ (3.189)๋กœ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค. 

์ด์ œ ๋ฒ ์ด์ฆˆ ์ด๋ก ์„ ์‚ฌ์šฉํ•˜์—ฌ (3.187), (3.188) ๋ฐ (3.189)๋ฅผ ๊ฒฐํ•ฉํ•ด ํด๋ž˜์Šค ์†Œ์†์˜ ์‚ฌํ›„ ํ™•๋ฅ (posterior)์„ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.

[Step 1]
์˜ค๋ถ„๋ฅ˜ ํ™•๋ฅ ์„ ์ตœ์†Œํ™”ํ•˜๋ ค๋ฉด ์ƒˆ๋กœ์šด ์  x๋ฅผ K-์ตœ๊ทผ์ ‘ ์ ์„ ์‹๋ณ„ํ•˜๊ณ 
๊ทธ ์ค‘์—์„œ ๋Œ€ํ‘œ์ž๊ฐ€ ๊ฐ€์žฅ ๋งŽ์€ ํด๋ž˜์ŠคKk/K์— ํ• ๋‹นํ•œ๋‹ค.

[Step 2]
๋”ฐ๋ผ์„œ ํ…Œ์ŠคํŠธ ํฌ์ธํŠธ๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋ ค๋ฉด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ K ๊ฐœ์˜ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ํฌ์ธํŠธ๋ฅผ ์‹๋ณ„ํ•˜๊ณ 
๊ทธ ์„ธํŠธ ์ค‘์—์„œ ๋Œ€ํ‘œ์ž๊ฐ€ ๊ฐ€์žฅ ๋งŽ์€ ํด๋ž˜์Šค์— ์ƒˆ๋กœ์šด ํฌ์ธํŠธ๋ฅผ ํ• ๋‹นํ•œ๋‹ค.

์ด๋•Œ, ๋™์ ์€ ์ž„์˜๋กœ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, K = 1์ธ ํŠน๋ณ„ํ•œ ๊ฒฝ์šฐ๋Š” Nearest Neighbor ๊ทœ์น™์ด๋ผ๊ณ ํ•˜๋ฉฐ
test point๋Š” ๋‹จ์ˆœํžˆ ํ›ˆ๋ จ ์„ธํŠธ์—์„œ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ํฌ์ธํŠธ์™€ ๋™์ผํ•œ ํด๋ž˜์Šค์— ํ• ๋‹น๋œ๋‹ค.
์ด๋Ÿฐ ๊ฐœ๋…์€ ์•„๋ž˜ ๊ทธ๋ฆผ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋‹ค:

(K = 1)์˜ K-NN classifier์˜ ์ฃผ์š”์ :
N → ∞์ผ๋•Œ์˜ ์˜ค๋ฅ˜์œจ*2 < ์ตœ์  ๋ถ„๋ฅ˜๊ธฐ์˜ ์ตœ์†Œ ์˜ค๋ฅ˜์œจ
์ด ์ตœ์ ์˜ classifier๋Š” ์‹ค์ œ ํด๋ž˜์Šค ๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค.(Cover and Hart, 1967)


์ง€๊ธˆ๊นŒ์ง€ K-NN๋ฐฉ๋ฒ•๊ณผ Kernel๋ฐ€๋„์ถ”์ •๊ธฐ์˜ ๋‹จ์ :
์ „์ฒด Train Dataset์„ ์ €์žฅํ•ด์•ผํ•˜๋ฏ€๋กœ Dataset์ด ํฌ๋ฉด Cost๊ฐ€ ๋งŽ์ด ๋ฐœ์ƒ.

์ด๋Ÿฌํ•œ ํšจ๊ณผ๋Š” (๊ทผ์‚ฌ์ ์ธ) ๊ทผ์ ‘ ์ด์›ƒ์„ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ์ฒด๊ณ„์ ์œผ๋กœ ๊ฒ€์ƒ‰ํ•˜์ง€ ์•Š๊ณ 
ํšจ์œจ์ ์œผ๋กœ ์ฐพ๊ธฐ ์œ„ํ•ด ํŠธ๋ฆฌ ๊ธฐ๋ฐ˜ ๊ฒ€์ƒ‰ ๊ตฌ์กฐ๋ฅผ ๊ตฌ์ถ•ํ•˜์—ฌ ์ƒ์‡„ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์ด๋Ÿฐ ๋น„๋ชจ์ˆ˜์  ๋ฐฉ๋ฒ•์€ ์—ฌ์ „ํžˆ ์‹ฌ๊ฐํ•œ ์ œ์•ฝ์ด ์žˆ๋‹ค.

๋ฐ˜๋ฉด ๊ฐ„๋‹จํ•œ ๋ชจ์ˆ˜์  ๋ชจ๋ธ์€ ํ‘œํ˜„ํ•  ์ˆ˜์žˆ๋Š” ๋ถ„ํฌ์˜ ํ˜•ํƒœ์— ์žˆ์–ด์„œ ๋งค์šฐ ์ œํ•œ์ ์ด๋ฏ€๋กœ ๋”ฐ๋ผ์„œ ๋งค์šฐ ์œ ์—ฐํ•˜๋ฉด์„œ๋„ ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์„ ํ›ˆ๋ จ ์„ธํŠธ์˜ ํฌ๊ธฐ์™€ ๋…๋ฆฝ์ ์œผ๋กœ ์ œ์–ดํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ€๋„ ๋ชจ๋ธ์„ ์ฐพ์•„์•ผ ํ•˜๋Š”๋ฐ, ์ด๋ฅผ ์œ„ํ•ด Deep Learning์„ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

 

 


cf. Hypothesis Testing (๊ฐ€์„ค ๊ฒ€์ •)

Statistical Hypothesis Testing

โˆ™ ํ†ต๊ณ„์  ๊ฐ€์„ค๊ฒ€์ •: ํ†ต๊ณ„์  ์ถ”๋ก ์˜ ์ผ์ข…์œผ๋กœ ๊ท€๋ฌด๊ฐ€์„ค๊ณผ ๋Œ€๋ฆฝ๊ฐ€์„ค๋กœ ๋‚˜ํƒ€๋‚ธ๋‹ค.
๋ชจ์ง‘๋‹จ์˜ ์‹ค์ œ ๊ฐ’์— ๋Œ€ํ•ด "ํ‘œ๋ณธ์ •๋ณด๋กœ ๊ฐ€์„ค์˜ ํ•ฉ๋‹น์„ฑ ์—ฌ๋ถ€๋ฅผ ๊ฒ€์ •ํ•˜๋Š” ๊ณผ์ •"



โˆ™ Null Hypothesis: ๊ท€๋ฌด๊ฐ€์„ค(H0)์€ ์ฒ˜์Œ๋ถ€ํ„ฐ ๋ฒ„๋ฆด ๊ฒƒ์„ ์˜ˆ์ƒํ•˜๋Š” ๊ฐ€์„ค.
→ ์˜๋ฏธ์—†๋Š” ๊ฒฝ์šฐ์˜ ๊ฐ€์„ค.

โˆ™ Alternative Hypothesis: ๋Œ€๋ฆฝ๊ฐ€์„ค(H1)์€ ๊ท€๋ฌด๊ฐ€์„ค์— ๋Œ€๋ฆฝ๋˜๋Š” ๋ช…์ œ.
 ๊ท€๋ฌด๊ฐ€์„ค์ฒ˜๋Ÿผ ๊ฒ€์ •์„ ์ง์ ‘์ˆ˜ํ–‰์ด ๋ถˆ๊ฐ€
→ ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•จ์œผ๋กœ์จ ๋ฐ˜์ฆ์˜ ๊ณผ์ •์„ ๊ฑฐ์ณ ์ฆ๋ช….

๊ฐ€์„ค๊ฒ€์ • ์˜ˆ์‹œ

ex) ์ „๊ตญ ๋งŒ 20์„ธ ์ด์ƒ์˜ ํ‰๊ท ํ‚ค๊ฐ€ 170cm๋ผ๋Š” ์ฃผ์žฅ์„ ํ†ต๊ณ„์ ์œผ๋กœ ๊ฒ€์ฆํ•˜์ž.


Step 1. H0, H1 ์„ค์ •.

โˆ™ Null Hypothesis: 20์„ธ ์ด์ƒ์˜ ์„ฑ์ธ๋‚จ์„ฑํ‰๊ท ํ‚ค๋Š” 170cm์™€ ๊ฐ™๋‹ค(= ์ฐจ์ด๊ฐ€ ์—†๋‹ค).
โˆ™ Alternative Hypothesis: 20์„ธ ์ด์ƒ์˜ ์„ฑ์ธ๋‚จ์„ฑํ‰๊ท ํ‚ค๋Š” 170cm์™€ ๋‹ค๋ฅด๋‹ค.

์ด์ œ, ์ˆ˜์ง‘๋œ ํ‘œ๋ณธ ๋ฐ์ดํ„ฐ๋กœ ๊ท€๋ฌด๊ฐ€์„ค์˜ accept/reject์—ฌ๋ถ€๋ฅผ ํŒ๋‹จํ•ด์•ผํ•œ๋‹ค.

Step 2. ์œ ์˜์ˆ˜์ค€(significance level) α ๊ฒฐ์ •.

accept / rejectํ•  "์œ ์˜์ˆ˜์ค€" ์„ค์ •. (๋ณดํ†ต 1%๋‚˜ 5% ์ฆ‰, α๊ฐ’์„ 0.01์ด๋‚˜ 0.05๋กœ ์„ค์ •.)
๋˜ํ•œ, ์–‘์ธก๊ฒ€์ •ํ•  ๊ฒƒ์ธ์ง€ ๋‹จ์ธก๊ฒ€์ •ํ•  ๊ฒƒ์ธ์ง€๋„ ์„ค์ •ํ•ด์•ผํ•œ๋‹ค. (์–‘์ธก์ผ ๋•Œ๋Š” α/2๊ฐ’์„ ์ ์šฉ.)

Step 3. ํ‘œ๋ณธ์ˆ˜์ง‘, ๊ฒ€์ •ํ†ต๊ณ„๋Ÿ‰๊ณ„์‚ฐ, p-value๊ณ„์‚ฐ.

ํ‘œ๋ณธ ์ˆ˜์ง‘ ํ›„, ๊ฒ€์ •ํ†ต๊ณ„๋Ÿ‰์„ ๊ณ„์‚ฐํ•œ๋‹ค.

[๊ฒ€์ •ํ†ต๊ณ„๋Ÿ‰; Test Statistics]: ์ˆ˜์ง‘๋ฐ์ดํ„ฐ๋กœ ๊ณ„์‚ฐํ•œ "ํ™•๋ฅ ๋ณ€์ˆ˜"
ex) ์ •๊ทœ๋ถ„ํฌ์˜ Z๊ฐ’.
์ด๋•Œ, Z๊ฐ’์€ ํ‘œ๋ณธ ์ˆ˜, ํ‘œ๋ณธ ํ‰๊ท , ํ‘œ๋ณธํ‘œ์ค€ํŽธ์ฐจ๋กœ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค.

[p-value]: ๊ฒ€์ •ํ†ต๊ณ„๋Ÿ‰์œผ๋กœ ๊ณ„์‚ฐ๋œ ํ™•๋ฅ 
์ฆ‰, ์ถ”์ถœํ•œ ํ‘œ๋ณธํ†ต๊ณ„๋Ÿ‰์ด ๋‚˜ํƒ€๋‚  ํ™•๋ฅ 
= ๊ท€๋ฌด๊ฐ€์„ค์„ acceptํ•  ์ง€ ์•ˆํ• ์ง€์˜ ํ™•๋ฅ .

์ด๋Ÿฐ ๊ฒ€์ •ํ†ต๊ณ„๋Ÿ‰์€ ๋ถ„ํฌํ•จ์ˆ˜์— ๋”ฐ๋ผ Z, t, F, ๊ญ“2ํ†ต๊ณ„๋Ÿ‰ ๋“ฑ์ด ์‚ฌ์šฉ๋  ์ˆ˜ ์žˆ๊ณ ,
์ด์— ์ƒ์‘ํ•˜๋Š” p-value(= ๊ฒ€์ •ํ†ต๊ณ„๋Ÿ‰์ด ๋‚˜์˜ฌ ํ™•๋ฅ )๋ฅผ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค.

Step 4. p-value ≤ α๋ฉด H0๊ธฐ๊ฐ, p-value > α ๋ฉด H0 ์ฑ„ํƒ.

Step 3์—์„œ ๊ณ„์‚ฐ๋œ p-value์™€ ์œ ์˜์ˆ˜์ค€ α๋ฅผ ๋น„๊ต.
if p_value < α:
    H1 accept
    
else:
    H0 accept


๋‹ค๋งŒ, p-value > α์ผ ๋•Œ, ๊ด€์ธกํ™•๋ฅ ์ด ์œ ์˜์ˆ˜์ค€๋ณด๋‹ค ํฌ๋‹ค๋Š” ๋œป์€ ๊ท€๋ฌด๊ฐ€์„ค๋ถ„ํฌ๋‚ด์—์„œ ํ‘œ๋ณธ์„ ์ถ”์ถœํ•˜๋‹ค ์šฐ์—ฐํžˆ ๋ฐœ์ƒํ•˜๋Š” ์ฐจ์ด๋ผ ๋ณผ ์ˆ˜ ์žˆ๊ธฐ์— ๊ท€๋ฌด๊ฐ€์„ค์„ ๊ธฐ๊ฐํ•  ์ˆ˜ ์—†๋Š” ๊ฒƒ์ด๋‹ค.



t-Test : ๋‘ Sample๊ทธ๋ฃน์˜ ํ‰๊ท  ๋น„๊ต.

โˆ™ t-Test:
t-๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š” ํ†ต๊ณ„์  ๊ฐ€์„ค๊ฒ€์ •๋ฒ•.
- ๊ท€๋ฌด๊ฐ€์„ค: ๋‘ ์ง‘๋‹จ ํ‰๊ท ์ด ๋™์ผ
- ๋Œ€๋ฆฝ๊ฐ€์„ค: ๋‘ ์ง‘๋‹จ ํ‰๊ท ์ด ๋‹ค๋ฆ„

โˆ™ t-Test ์ข…๋ฅ˜
- ๋‹จ์ผํ‘œ๋ณธ t-Test: ํ‘œ๋ณธ๊ณผ ๋ชจ์ง‘๋‹จ์˜ ํ‰๊ท ์ด ๋‹ค๋ฅธ์ง€๋ฅผ ํŒ๋‹ค.
- ๋…๋ฆฝ t-Test: ๋‘ ๋…๋ฆฝํ‘œ๋ณธ์˜ ํ‰๊ท ์„ ๋น„๊ต
- ๋Œ€์‘ํ‘œ๋ณธ t-Test: ๋™์ผํ‘œ๋ณธ๋Œ€์ƒ์œผ๋กœ ์ผ์ •์‹œ๊ฐ„๊ฐ„๊ฒฉ์œผ๋กœ 2๋ฒˆ data์ˆ˜์ง‘, ๋ฐ์ดํ„ฐํ‰๊ท ์˜ ์ฐจ์ด๋ฅผ ๊ฒ€์ฆ.


 

๊ญ“2-Test: ์ ํ•ฉ๋„โˆ™๋…๋ฆฝ์„ฑโˆ™๋™์งˆ์„ฑ ๊ฒ€์ •


โˆ™ ์ ํ•ฉ๋„ ๊ฒ€์ •(Goodness of fit)

1๊ฐœ ๋ณ€์ˆ˜์— ๋Œ€ํ•ด, ์ด ๋ณ€์ˆ˜๊ฐ€ ๊ธฐ๋Œ€๋˜๋Š” ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š”์ง€ ์•„๋‹Œ์ง€์— ๋Œ€ํ•œ ๊ฒ€์ •.

์ฆ‰, ์‹ค์ œ๋กœ ๊ด€์ธก๋œ ๊ฐ’๊ณผ ๊ณง ์ผ์–ด๋‚  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€ํ•˜๋Š” ๊ฐ’์„ ๋น„๊ตํ•˜๋Š” ๊ฒƒ.

์ฃผ์‚ฌ์œ„๋ฅผ 6๋ฒˆ ๋˜์ ธ 1์ž(์  ํ•œ ๊ฐœ), 2์ž(์  ๋‘ ๊ฐœ), 3์ž, 4์ž, 5์ž, 6์ž๊ฐ€ ๋‚˜์˜จ ๋น„์œจ์€

๊ท€๋ฌด๊ฐ€์„ค: ๋ณ€์ˆ˜ x์˜ ๊ด€์ธก๋ถ„ํฌ์™€ ๊ธฐ๋Œ€๋ถ„ํฌ๊ฐ€ ๊ฐ™๋‹ค.

๋Œ€๋ฆฝ๊ฐ€์„ค: ๋ณ€์ˆ˜ x์˜ ๊ด€์ธก๋ถ„ํฌ์™€ ๊ธฐ๋Œ€๋ถ„ํฌ๊ฐ€ ๋‹ค๋ฅด๋‹ค.

 



โˆ™ ๋…๋ฆฝ์„ฑ ๊ฒ€์ •(Test of Independence)

2๊ฐœ ๋ณ€์ˆ˜๊ฐ€ ์„œ๋กœ ์ƒ๊ด€์ด ์—†๊ณ  ๋…๋ฆฝ์ ์ด๋ผ๊ณ  ๊ธฐ๋Œ€.

์ฆ‰, ๊ด€์ฐฐ๋นˆ๋„์™€ ๋น„๊ตํ•ด ์„œ๋กœ ์—ฐ๊ด€๋˜์–ด ์žˆ๋Š”์ง€ ๊ธฐ๋Œ€๋นˆ๋„์˜ ์ง„์œ„ ์—ฌ๋ถ€๋ฅผ ํŒ๋‹จ.

โ€‹

[์˜ˆ 1]

๊ธฐ์นจ์•ฝ ๋ธŒ๋žœ๋“œ A B C.

150๋ช… ํ™˜์ž๋ฅผ ๋Œ€์ƒ์œผ๋กœ

๊ธฐ์นจ์•ฝ์˜ ํšจ๊ณผ๊ฐ€ ์žˆ๋Š”์ง€ ์—†๋Š”์ง€ ์ธก์ •

๊ท€๋ฌด๊ฐ€์„ค:  ๋ณ€์ˆ˜ x, y๋Š” ์„œ๋กœ ๋…๋ฆฝ

๋Œ€๋ฆฝ๊ฐ€์„ค:  ๋ณ€์ˆ˜ x, y๋Š” ๋…๋ฆฝ์ด ์•„๋‹˜

 






โˆ™ ๋™์งˆ์„ฑ ๊ฒ€์ •(Test of Homogeneity)

2๊ฐœ์˜ ๋ณ€์ˆ˜ ๊ด€๊ณ„๋ฅผ ๊ฒ€์ •ํ•˜๋Š” ๋…๋ฆฝ์„ฑ ๊ฒ€์ •์™€ ๋‹ฌ๋ฆฌ,

๋™์งˆ์„ฑ ๊ฒ€์ •์€ ๊ฐ ๊ทธ๋ฃน๋“ค์ด ๋™์งˆ์„ฑ์„ ๊ฐ€์ง„ ๊ฒƒ์ธ์ง€์— ๋Œ€ํ•œ ๊ฒ€์ •

โ€‹

[์˜ˆ]

๋‚จ์ž์™€ ์—ฌ์ž์˜ ํก์—ฐ์œจ ์ฐจ์ด์— ๋Œ€ํ•ด ํก์—ฐ ์กฐ์‚ฌ.

 

๊ท€๋ฌด๊ฐ€์„ค: ๋‚จ์ž์™€ ์—ฌ์ž์˜ ํก์—ฐ์œจ ํ™•๋ฅ ๋ถ„ํฌ๊ฐ€ ๋™์ผ

๋Œ€๋ฆฝ๊ฐ€์„ค: ๋‚จ์ž์™€ ์—ฌ์ž์˜ ํก์—ฐ์œจ ํ™•๋ฅ ๋ถ„ํฌ๊ฐ€ ๋‹ค๋ฆ„

 

 

์นด์ด์ œ๊ณฑ ๊ฒ€์ •์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์ „์— ๋‹ค์Œ ๊ฐ€์ •์ด ์ถฉ์กฑ๋˜์–ด ๊ฒ€์ •์ด ์œ ํšจํ•œ์ง€ ํ™•์ธํ•ด์•ผ ํ•œ๋‹ค.

โ€‹

1. ๋ฌด์ž‘์œ„

๋ฌด์ž‘์œ„ ํ‘œ๋ณธ ๋˜๋Š” ๋ฌด์ž‘์œ„ ์‹คํ—˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‘ ํ‘œ๋ณธ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘

โ€‹

2. ๋ฒ”์ฃผํ˜• / ์นดํ…Œ๊ณ ๋ฆฌ(categorical) ๋ฐ์ดํ„ฐ

๋ณ€์ˆ˜๋Š” ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ

โ€‹

์œ„ ์กฐ๊ฑด์ด ์ถฉ์กฑ๋˜๋ฉด ์นด์ด์ œ๊ณฑ ๊ฒ€์ •.


 

F-value์™€ ANOVA: ๋ถ„์‚ฐ ๋ถ„์„

ANOVA(Analysis of Variance)

ํ†ต๊ณ„ํ•™์—์„œ 2๊ฐœ ์ด์ƒ ๋‹ค์ˆ˜์˜ ์ง‘๋‹จ์„ ์„œ๋กœ ๋น„๊ตํ•  ๋•Œ

์ง‘๋‹จ์˜ ๋ถ„์‚ฐ, ์ด ํ‰๊ท , ๊ฐ ์ง‘๋‹จ์˜ ํ‰๊ท ์ฐจ์— ์˜ํ•ด ์ƒ๊ธด ์ง‘๋‹จ ๊ฐ„ ๋ถ„์‚ฐ์˜ ๋น„๊ต๋ฅผ ํ†ตํ•ด ๋งŒ๋“ค์–ด์ง„ f ๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•ด ๊ฐ€์„ค์„ ๊ฒ€์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•.

F-value: ์ž”์ฐจ ์˜ค์ฐจ๋กœ ์ธํ•œ ๋ถ„์‚ฐ๊ณผ ๊ทธ๋ฃนํ‰๊ท ์˜ ๋ถ„์‚ฐ์— ๋Œ€ํ•œ ๋น„์œจ๋กœ ๊ณ„์‚ฐํ•œ '๋ถ„์‚ฐ'์˜ ๋น„์œจ์„ ์ฒ™๋„๋กœ ์ด์šฉํ•œ๋‹ค.



ANOVA์˜ ๊ฐ€์„ค

๊ท€๋ฌด๊ฐ€์„ค(H0): ๋ชจ๋“  ์ƒ˜ํ”Œ ํ‰๊ท ์ด ๋™์ผ

๋Œ€๋ฆฝ๊ฐ€์„ค(Ha): ์ ์–ด๋„ 1๊ฐœ์˜ ์ƒ˜ํ”Œ ํ‰๊ท ์ด ๋‹ค๋ฆ„


[์˜ˆ]

7์ผ ๋™์•ˆ 4๋ช…์˜ ํŒ๋งค์›์˜ ํŒ๋งค๋ฅผ ๊ธฐ๋ก, ๊ฐ ํŒ๋งค์›์˜ ํ•˜๋ฃจ ํŒ๋งค๋Š” ์•„๋ž˜์™€ ๊ฐ™๋‹ค

โ€ป ์˜์—… ์‚ฌ์›๋“ค ์„œ๋กœ ๋‹ค๋ฅธ ์š”์ผ์˜ ํŒ๋งค ์ฐจ์ด๊ฐ€ ์žˆ๋Š”์ง€ ํŒ๋‹จ

 

d


๊ญ“2-Test: ์ ํ•ฉ๋„โˆ™๋…๋ฆฝ์„ฑโˆ™๋™์งˆ์„ฑ ๊ฒ€์ •

โˆ™ ์ ํ•ฉ๋„ ๊ฒ€์ •(Goodness of fit)

1๊ฐœ ๋ณ€์ˆ˜์— ๋Œ€ํ•ด, ์ด ๋ณ€์ˆ˜๊ฐ€ ๊ธฐ๋Œ€๋˜๋Š” ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋Š”์ง€ ์•„๋‹Œ์ง€์— ๋Œ€ํ•œ ๊ฒ€์ •.

์ฆ‰, ์‹ค์ œ๋กœ ๊ด€์ธก๋œ ๊ฐ’๊ณผ ๊ณง ์ผ์–ด๋‚  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€ํ•˜๋Š” ๊ฐ’์„ ๋น„๊ตํ•˜๋Š” ๊ฒƒ.

์ฃผ์‚ฌ์œ„๋ฅผ 6๋ฒˆ ๋˜์ ธ 1์ž(์  ํ•œ ๊ฐœ), 2์ž(์  ๋‘ ๊ฐœ), 3์ž, 4์ž, 5์ž, 6์ž๊ฐ€ ๋‚˜์˜จ ๋น„์œจ์€

๊ท€๋ฌด๊ฐ€์„ค: ๋ณ€์ˆ˜ x์˜ ๊ด€์ธก๋ถ„ํฌ์™€ ๊ธฐ๋Œ€๋ถ„ํฌ๊ฐ€ ๊ฐ™๋‹ค.

๋Œ€๋ฆฝ๊ฐ€์„ค: ๋ณ€์ˆ˜ x์˜ ๊ด€์ธก๋ถ„ํฌ์™€ ๊ธฐ๋Œ€๋ถ„ํฌ๊ฐ€ ๋‹ค๋ฅด๋‹ค.



โˆ™ ๋…๋ฆฝ์„ฑ ๊ฒ€์ •(Test of Independence)

2๊ฐœ ๋ณ€์ˆ˜๊ฐ€ ์„œ๋กœ ์ƒ๊ด€์ด ์—†๊ณ  ๋…๋ฆฝ์ ์ด๋ผ๊ณ  ๊ธฐ๋Œ€.

์ฆ‰, ๊ด€์ฐฐ๋นˆ๋„์™€ ๋น„๊ตํ•ด ์„œ๋กœ ์—ฐ๊ด€๋˜์–ด ์žˆ๋Š”์ง€ ๊ธฐ๋Œ€๋นˆ๋„์˜ ์ง„์œ„ ์—ฌ๋ถ€๋ฅผ ํŒ๋‹จ.

โ€‹

[์˜ˆ 1]

๊ธฐ์นจ์•ฝ ๋ธŒ๋žœ๋“œ A B C.

150๋ช… ํ™˜์ž๋ฅผ ๋Œ€์ƒ์œผ๋กœ

๊ธฐ์นจ์•ฝ์˜ ํšจ๊ณผ๊ฐ€ ์žˆ๋Š”์ง€ ์—†๋Š”์ง€ ์ธก์ •

๊ท€๋ฌด๊ฐ€์„ค:  ๋ณ€์ˆ˜ x, y๋Š” ์„œ๋กœ ๋…๋ฆฝ

๋Œ€๋ฆฝ๊ฐ€์„ค:  ๋ณ€์ˆ˜ x, y๋Š” ๋…๋ฆฝ์ด ์•„๋‹˜



โˆ™ ๋™์งˆ์„ฑ ๊ฒ€์ •(Test of Homogeneity)

2๊ฐœ์˜ ๋ณ€์ˆ˜ ๊ด€๊ณ„๋ฅผ ๊ฒ€์ •ํ•˜๋Š” ๋…๋ฆฝ์„ฑ ๊ฒ€์ •์™€ ๋‹ฌ๋ฆฌ,

๋™์งˆ์„ฑ ๊ฒ€์ •์€ ๊ฐ ๊ทธ๋ฃน๋“ค์ด ๋™์งˆ์„ฑ์„ ๊ฐ€์ง„ ๊ฒƒ์ธ์ง€์— ๋Œ€ํ•œ ๊ฒ€์ •

โ€‹

[์˜ˆ]

๋‚จ์ž์™€ ์—ฌ์ž์˜ ํก์—ฐ์œจ ์ฐจ์ด์— ๋Œ€ํ•ด ํก์—ฐ ์กฐ์‚ฌ.

 

๊ท€๋ฌด๊ฐ€์„ค: ๋‚จ์ž์™€ ์—ฌ์ž์˜ ํก์—ฐ์œจ ํ™•๋ฅ ๋ถ„ํฌ๊ฐ€ ๋™์ผ

๋Œ€๋ฆฝ๊ฐ€์„ค: ๋‚จ์ž์™€ ์—ฌ์ž์˜ ํก์—ฐ์œจ ํ™•๋ฅ ๋ถ„ํฌ๊ฐ€ ๋‹ค๋ฆ„

 

 

์นด์ด์ œ๊ณฑ ๊ฒ€์ •์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์ „์— ๋‹ค์Œ ๊ฐ€์ •์ด ์ถฉ์กฑ๋˜์–ด ๊ฒ€์ •์ด ์œ ํšจํ•œ์ง€ ํ™•์ธํ•ด์•ผ ํ•œ๋‹ค.

โ€‹

1. ๋ฌด์ž‘์œ„

๋ฌด์ž‘์œ„ ํ‘œ๋ณธ ๋˜๋Š” ๋ฌด์ž‘์œ„ ์‹คํ—˜์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‘ ํ‘œ๋ณธ์— ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘

โ€‹

2. ๋ฒ”์ฃผํ˜• / ์นดํ…Œ๊ณ ๋ฆฌ(categorical) ๋ฐ์ดํ„ฐ

๋ณ€์ˆ˜๋Š” ๋ฒ”์ฃผํ˜• ๋ฐ์ดํ„ฐ

โ€‹

์œ„ ์กฐ๊ฑด์ด ์ถฉ์กฑ๋˜๋ฉด ์นด์ด์ œ๊ณฑ ๊ฒ€์ •.


โˆ™ ๊ญ“2-test ์˜ˆ์ œ

์–ด๋–ค ๋™๋„ค์˜ ์ฃผ๋ฏผ 1,000๋ช…์˜ ํก์—ฐ ์—ฌ๋ถ€, ํ์•” ์—ฌ๋ถ€์— ๋”ฐ๋ฅธ ๋ถ„ํฌ(๊ด€์ฐฐ ๋นˆ๋„)๊ฐ€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค๊ณ  ํ•˜์ž. 

๊ด€์ฐฐ ๋นˆ๋„ ํก์—ฐ์ž ๋น„ํก์—ฐ์ž ์ดํ•ฉ
ํ์•” ํ™˜์ž 75 125 200
์ •์ƒ์ธ 225 575 800
์ดํ•ฉ 300 700 1000

์ด ํ‘œ๋ฅผ ๋ณด๊ณ  ํ์•” ํ™˜์ž๊ฐ€ ๋” ๋งŽ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋Š”์ง€์— ๋Œ€ํ•œ ๊ฒ€์ •์ด ์นด์ด ์ œ๊ณฑ ๊ฒ€์ •์ด๋‹ค. ์นด์ด ์ œ๊ณฑ ๊ฒ€์ •์„ ํ•˜๋Š” ๊ณผ์ •์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

1) ๊ธฐ๋Œ€ ๋นˆ๋„ ์‚ฐ์ถœ

2) ์นด์ด ์ œ๊ณฑ ๊ฒ€์ •๋Ÿ‰ ์‚ฐ์ถœ

3) ์ž์œ ๋„ ์‚ฐ์ถœ

4) p-value ๊ณ„์‚ฐ

 

 

1) ๊ธฐ๋Œ€ ๋นˆ๋„ ์‚ฐ์ถœ



2) ์นด์ด ์ œ๊ณฑ ๊ฒ€์ •๋Ÿ‰ ์‚ฐ์ถœ

 

 

 

์ด ๊ฐ’์„ ์ž˜ ์ƒ๊ฐํ•ด๋ณด๋ฉด, ๊ด€์ฐฐ ๋นˆ๋„์™€ ๊ธฐ๋Œ€ ๋นˆ๋„์˜ ์ฐจ์ด๊ฐ€ ํด์ˆ˜๋ก ์นด์ด ์ œ๊ณฑ ๊ฒ€์ •๋Ÿ‰์ด ์ปค์ง„๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ์ฆ‰, ์•„๋ฌด ๊ด€๋ จ์„ฑ์ด ์—†๋‹ค๊ณ  ๊ฐ€์ •ํ–ˆ์„ ๋•Œ ์˜ˆ์ƒ๋˜๋Š” ๊ธฐ๋Œ€ ๋นˆ๋„๋ณด๋‹ค ๋” ๋งŽ์€ ์–‘์ด ๊ด€์ฐฐ๋˜๊ฑฐ๋‚˜, ํ›จ์”ฌ ์ ์€ ์–‘์ด ๊ด€์ฐฐ๋œ๋‹ค๋ฉด ์นด์ด ์ œ๊ณฑ ๊ฒ€์ •๋Ÿ‰์ด ์ปค์ง„๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ๋”ฐ๋ผ์„œ ๋„ˆ๋ฌด๋‚˜๋„ ๋‹น์—ฐํ•œ ์†Œ๋ฆฌ์ง€๋งŒ, ์นด์ด ์ œ๊ณฑ ๊ฒ€์ •๋Ÿ‰์ด ํด์ˆ˜๋ก ์˜ˆ์ƒํ•˜์ง€ ๋ชปํ–ˆ๋˜ ๊ฒฐ๊ณผ๋ผ๋Š” ๋œป์ด๊ณ , ์œ ์˜๋ฏธํ•œ ๊ด€๋ จ์„ฑ์ด ์žˆ๋‹ค๋Š” ๋œป์ด๋‹ค.  (๋”ฐ๋ผ์„œ, ์นด์ด ์ œ๊ณฑ ๊ฒ€์ •๋Ÿ‰์ด ํด์ˆ˜๋ก p-value๊ฐ€ ์ž‘์•„์ง€๋Š” ๋ฐฉ์‹์˜ ๋””์ž์ธ์ด ํ•„์š”ํ•˜๋‹ค.)

 

3) ์ž์œ ๋„ ์‚ฐ์ถœ

์ž์œ ๋„=(์—ด์˜ ๊ฐœ์ˆ˜−1)×(ํ–‰์˜ ๊ฐœ์ˆ˜−1)=1




4) p-value ๊ณ„์‚ฐ

๋‹ค์Œ ๋‘ ๊ฐ€์ง€ ๊ณผ์ •์„ ์ƒ๊ฐํ•ด๋ณด๋„๋ก ํ•œ๋‹ค.

 i) ษ‘=0.05๋กœ ํ•˜์˜€์„ ๋•Œ ์œ ์˜๋ฏธํ•œ ๊ด€๋ จ์„ฑ์ด ์žˆ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?

์ž์œ ๋„๊ฐ€ 1์ธ ์นด์ด ์ œ๊ณฑ ๋ถ„ํฌ์—์„œ ์นด์ด ์ œ๊ณฑ ๊ฒ€์ •๋Ÿ‰์ด 0~3.84 ์‚ฌ์ด์ผ ๋•Œ ์ ๋ถ„ ๊ฐ’์ด 0.95๋‹ค. ์ฆ‰, ์•„๋ž˜ ๊ทธ๋ฆผ์—์„œ ๋นจ๊ฐ„์ƒ‰ ์˜์—ญ์˜ ๋ฉด์ ์ด 0.95, ํŒŒ๋ž€์ƒ‰ ์˜์—ญ์˜ ๋ฉด์ ์ด 0.05๋‹ค. ๋”ฐ๋ผ์„œ, ์ž์œ ๋„๊ฐ€ 1์ผ ๋•Œ, ์นด์ด ์ œ๊ณฑ ๊ฒ€์ •๋Ÿ‰์ด 0์—์„œ 3.84 ์‚ฌ์ด๋กœ ๊ด€์ฐฐ๋  ํ™•๋ฅ ์€ 95%๋ผ๋Š” ๋œป์ด๊ณ , ๋™์‹œ์— 3.84 ์ด์ƒ ๊ด€์ฐฐ๋  ํ™•๋ฅ ์€ 5%๋ผ๋Š” ๋œป์ด๋‹ค. ๊ทธ๋Ÿฌ๋ฏ€๋กœ, ์‚ฐ์ถœ๋œ ์นด์ด ์ œ๊ณฑ ๊ฒ€์ •๋Ÿ‰์ด 3.84๋ณด๋‹ค ํฌ๋ฉด ์œ ์˜๋ฏธํ•œ ๊ด€๋ จ์„ฑ์ด ์žˆ๋‹ค๋Š” ๊ฒƒ์ธ๋ฐ, ์œ„ ํ์•”-ํก์—ฐ์˜ ์นด์ด ์ œ๊ณฑ ๊ฒ€์ •๋Ÿ‰์€ 6.6964์˜€์œผ๋ฏ€๋กœ ์œ ์˜๋ฏธํ•œ ๊ด€๋ จ์„ฑ์ด ์žˆ๋‹ค๊ณ  ๊ฒฐ๋ก  ๋‚ด๋ฆด ์ˆ˜ ์žˆ๋‹ค.

 

ii) ๊ทธ๋ž˜์„œ p-value๊ฐ€ ๋ช‡์ธ๋ฐ?

0๋ถ€ํ„ฐ ์‚ฐ์ถœ๋œ ์นด์ด ์ œ๊ณฑ ๊ฒ€์ •๋Ÿ‰์ธ 6.6964๊นŒ์ง€์˜ ์ž์œ ๋„๊ฐ€ 1์ธ ์นด์ด ์ œ๊ณฑ ํ•จ์ˆ˜์˜ ์ ๋ถ„ ๊ฐ’(์•„๋ž˜ ๊ทธ๋ฆผ ์ดˆ๋ก์ƒ‰ ์˜์—ญ)์€ 0.9903394์ด๋‹ค. ๋”ฐ๋ผ์„œ p-value๋Š” 1์—์„œ ์ดˆ๋ก์ƒ‰ ์˜์—ญ ๋„“์ด๋ฅผ ๋บ€ 0.0097 (์•„๋ž˜ ๊ทธ๋ฆผ ๋ณด๋ผ์ƒ‰ ์˜์—ญ)์ด๋‹ค. ์ฆ‰, p-value๋Š” ์‚ฐ์ถœ๋œ ์นด์ด ์ œ๊ณฑ ๊ฒ€์ •๋Ÿ‰์—์„œ๋ถ€ํ„ฐ์˜ ์นด์ด ์ œ๊ณฑ ํ•จ์ˆ˜์˜ ์ ๋ถ„ ๊ฐ’์„ ์˜๋ฏธํ•œ๋‹ค.


 

๐Ÿง ์ •๋ฆฌ

โˆ™ 
ใ…‡

 

'Deep Learning : Vision System > Deep Learning(Christopher M.Bishop)' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[DL]00.๋ชฉ์ฐจ ๋ฐ ์ฑ… ์†Œ๊ฐœ.  (4) 2024.01.30
[DL]04. Single-layer Networks: Regression  (2) 2024.01.22
[DL]02. Probabilities  (1) 2024.01.14
[DL]01.The Deep Learning Revolution.  (2) 2023.12.23

+ Recent posts