๐ ๋ชฉ์ฐจ
1. Discrete Variables
2. The Multivariate Gaussian
3. Periodic Variables
4. The Exponential Family
5. Nonparametric Methods
cf. Hypothesis Testing
๐ง preview: Density Estimation
ํ๋ฅ ๋ถํฌ์ ๊ทธ ํน์ฑ์ ๋ํด ์์๋ณด๊ณ ์ ํ๋ค.
[ํ๋ฅ ๋ฐ๋ ์ถ์ : Density Estimation]
์ ํํ ๊ด์ธก๊ฐ ์งํฉ x1, . . . , xN์ด ์ฃผ์ด์ก์ ๋, ํ๋ฅ ๋ณ์ x์ ํ๋ฅ ๋ถํฌ p(x)๋ฅผ ๋ชจ๋ธ๋งํ๋ ๊ฒ
๊ธฐ๋ณธ์ ์ผ๋ก ๋ฐ๋์ถ์ ์ ๋ถ๊ท ํํ๋ฉฐ, ๋ฌดํํ ๋ง์ ํ๋ฅ ๋ถํฌ๊ฐ ์ ๋๋ ์ ์๊ธฐ์ ์ ์ ํ ๋ถํฌ๋ฅผ ์ ํํ๋ ๊ฒ์ด ๊ธฐ๊ณํ์ต์ fitting์ธก๋ฉด์์ ์ค์ํ๋ค ํ ์ ์๋ค.
[Main Interest]:
Gaussian Distribution with discrete variables
Maximum Likelihood
์ด๋, ๊ธฐ๋ณธ์ ์ผ๋ก ๊ด์ฐฐ๋ data๋ i.i.d๋ก ๊ฐ์ ํ๋ค.
[non-parametric density estimation]:
โ ๋งค๊ฐ ๋ณ์ ์ ๊ทผ๋ฒ์ ํ๊ณ์ : ํน์ ํ ๋ถํฌ์ ๊ธฐ๋ฅ ํํ๋ฅผ ๊ฐ์ ํ๋ค๋ ๊ฒ
→ ์ด๋ ํน์ ์์ฉ์ ๋ถ์ ์
→ ๋์์ ์ธ ์ ๊ทผ๋ฒ์ผ๋ก "๋น๋งค๊ฐ๋ณ์ ๋ฐ๋์ถ์ ๋ฒ" ์ฌ์ฉ:
Dataset์ ํฌ๊ธฐ์ ๋ฐ๋ผ ๋ถํฌ์ ํํ๊ฐ ๋ฌ๋ผ์ง๋ ๊ฒ์ผ๋ก ๋ถํฌํํ๊ฐ ์๋, "๋ชจ๋ธ๋ณต์ก์ฑ์ ์ ์ด"
ex) Histogram, nearest neighbors and kernels์ ๊ธฐ๋ฐํ 3๊ฐ์ง non-parametric๋ฐฉ๋ฒ์ ๋ํด ๊ณ ๋ ค.
โ ๋น๋งค๊ฐ ๋ณ์ ์ ๊ทผ๋ฒ์ ํ๊ณ์ : ๋ชจ๋ ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๋ค๋ ๊ฒ
โ Deep Learning:
๋งค๊ฐ ๋ณ์ ๋ชจ๋ธ(์ ์ฐํ ๋ถํฌ๋ฅผ ๊ณ ๋ คํ๋ ํจ์จ์ฑ) + ๋น๋งค๊ฐ ๋ณ์ ๋ฐฉ๋ฒ(์ผ๋ฐ์ฑ)
→ ๋ง์ง๋ง ๊ณ ์ ๋ ์์ ๋งค๊ฐ ๋ณ์๋ฅผ ๊ฐ์ง ์ ๊ฒฝ๋ง์ ๊ธฐ์ด, ๋ค์ํ ๋ถํฌ๋ฅผ ๊ณ ๋ ค.
1. Discrete Variables
1.1 Bernoulli distribution
์ด์งํ๋ฅ ๋ณ์ x ∈ {0, 1}์ ๋ํด, x = 1์ ํ๋ฅ ์ ๋งค๊ฐ ๋ณ์ μ์ด๋ผ ํ์.
x = 1์ ํ๋ฅ : p(x=1 | μ) = μ์ด๋ค. (0 ≤ μ ≤ 1).
x = 0์ ํ๋ฅ : p(x=0 | μ) = 1 − μ.
∴ x์ ๋ํ ํ๋ฅ ๋ถํฌ = ๋ฒ ๋ฅด๋์ด๋ถํฌ:
์ด ๋ถํฌ๊ฐ ์ ๊ทํ๋์ด ์๊ณ , ํ๊ท ๋ฐ ๋ถ์ฐ ์๋์ ๊ฐ๋ค:
Maximum Likelihood Estimation
[Bernoulli distribution์ likelihoodํจ์]
์ด์ x์ ๊ด์ธก๊ฐ์ผ๋ก ์ด๋ฃจ์ด์ง ๋ฐ์ดํฐ ์งํฉ D = {x1,...,xN}์ ๋ํด
μ์ ๋ํ ๊ด์ธก์น๊ฐ p(x|μ)์์ ๋ ๋ฆฝ์ ์ผ๋ก ์ถ์ถ๋์๋ค๋ ๊ฐ์ ํ์ ์๋์ ๊ฐ๋ค:
[Maximum Likelihood Estimation]
์ด์ , ์ด likelihoodํจ์ ์ต๋ํ๋ก μ๊ฐ์ ์ถ์ ํด๋ณด์.
์ likelihood of Bernoulli distribution ํจ์์ ํต์ฌ์ ๊ด์ธก์น x๊ฐ ∑x๋ฅผ ํตํด์๋ง ์์กดํ๋ค๋ ์ ์ด๋ค.
∴ ln p(D|μ)๋ฅผ μ์ ๋ํด ๋ฏธ๋ถํ์ฌ 0์ผ๋ก ๋์ผ๋ฉด MLE๊ฐ์ ์ป์ ์ ์๋ค:
์ด๋ฅผ μML๋ก ํ์ํ๋ฉฐ sample mean์ด๋ผ ํ๋ค.
1.2 Binomial distribution
Dataset size: N
binary variable: x
x์ ๊ด์ธก์น ์: m
์ด m์ ๋ํ ๋ถํฌ๋ฅผ ์ดํญ๋ถํฌ๋ผ ํ๋ฉฐ, ์ด๋ ์๋์ ๊ฐ๋ค:
์ฌ๊ธฐ์ (N m) ≡ N! / (N-m)!m!์ N๊ฐ์ ๋์ผํ ๊ฐ์ฒด ์ค์์ m๊ฐ์ ๊ฐ์ฒด๋ฅผ ๊ต์ฒด์์ด ์ ํํ๋ ๋ฐฉ๋ฒ์ ์์ด๋ค.
์๋ ๊ทธ๋ฆผ์ N = 10 , μ = 0.25์์ธ ์ดํญ๋ถํฌ ๊ทธ๋ํ์ด๋ค.
cf) ์ด ๊ฒฐ๊ณผ๋ ๋ฏธ์ ๋ถ์ ์ฌ์ฉํ์ฌ ์ง์ ์ฆ๋ช ํ ์๋ ์๋ค.
1.3 Multinomial distribution
์ด์ง๋ณ์: ๋ ์ค ํ๋๋ฅผ ๊ฐ๋ ์์ ์ค๋ช ์ ์ฌ์ฉ.
One-hot Encoding:
๋ค๋ง, ์ฐ๋ฆฐ K๊ฐ์ง ์ํ ์ค ํ๋๋ฅผ ๊ฐ๋ ์ด์ฐ๋ณ์์ ํจ์ฌ ๊ทผ์ ํจ.
์ด๋, ๋ณ์ํํ์ ์ํด 1-of-K scheme = "One-Hot Encoding" ๋ฐฉ๋ฒ์ด ์ฌ์ฉ๋จ.
์ด ๋ฐฉ๋ฒ์์ ๋ณ์๋ K์ฐจ์ ๋ฒกํฐ x์ ์ํด ๋ํ๋๋ฉฐ, ์ฌ๊ธฐ์ ์์ xk ์ค ํ๋๋ 1์ด ๋๊ณ ๋๋จธ์ง ์์๋ ๋ชจ๋ 0์ด ๋๋ค.
ex) K = 6์ด๊ณ ,๋ณ์์ ํน์ ๊ด์ธก์น๊ฐ x3 = 1์ ํด๋นํ๋ค๋ฉด?
xk = 1์ ํ๋ฅ ์ ๋งค๊ฐ ๋ณ์ μk๋ก ํ์ํ๋ฉด x์ ๋ถํฌ๋ p(x|μ)๋ก ์ฃผ์ด์ง๋ฉฐ, ์ฌ๊ธฐ์ μ = (μ1, . . . , μk)T์ด๋ค.
μk ≥ 0 ๋ฐ ∑k μk = 1 ์ ์ฝ์ ๋ฐ๋ฅผ ๋, ๋ถํฌ๋ ์๋์ ๊ฐ๋ค:
์ด ๋ถํฌ๋ Bernoulli๋ถํฌ๋ฅผ 2๊ฐ ์ด์์ ๊ฒฐ๊ณผ๋ก ์ผ๋ฐํ ํ ๊ฒ์ผ๋ก ๋ณผ ์ ์๋๋ฐ,
์ด ๋ถํฌ๊ฐ ์ ๊ทํ ๋์ด์์์ ์๋ ์์ผ๋ก ํ์ธ ๊ฐ๋ฅํ๋ค:
Sufficient Statistics (์ถฉ๋ถํต๊ณ๋):
์ด์ N๊ฐ์ ๋ ๋ฆฝ์ ์ธ ๊ด์ธก์น x1,...,xN์ ๋ฐ์ดํฐ ์งํฉ D์ ๋ํด Likelihoodํจ์ p(D|μ)๋ ์๋์ ๊ฐ๋ค:
์ด ์์์ Likelihoodํจ์๊ฐ N๊ฐ data point๋ฅผ ํตํด์๋ง K๊ฐ ์์ ๋ํ๋ด๋ ๊ฒ์
์ด ๋ถํฌ์ ๋ํ ์ถฉ๋ถํต๊ณ๋์ด๋ผ ํ๋ฉฐ ์๋์ ๊ฐ์ด ํํํ๋ค:
MLE with Lagrange multiplier:
์ด์ , μ์ ๋ํ MLE๋ฅผ ์ํด μk์ ๋ํ ln p(D|μ)๋ฅผ ์ต๋ํ๋ฅผ ํด์ผํ๋๋ฐ,
์ด๋ μk๋ ํฉ์ด 1์ด๋ผ๋ ์ ์ฝ ์กฐ๊ฑด์ ๊ณ ๋ คํด์ผํ๋ค.
์ด๋ ๋ผ๊ทธ๋์ง ์น์ λ๋ฅผ ์ฌ์ฉํ์ฌ ์ต๋ํ ๊ฐ๋ฅํ๋ค:
์ ์์์ μk์ ๋ํ ๋ํจ์๋ฅผ 0์ผ๋ก ๋์ผ๋ฉด:
์ด์ ์ ์์์ ์ ์ฝ ์กฐ๊ฑด ∑k μk = 1์ ๋์ ํ์ฌ ๋ผ๊ทธ๋์ง ์น์ λ๋ฅผ ๊ตฌํ ์ ์๋ค.
๋ฐ๋ผ์ ์ฐ๋ฆฌ๋ μk์ ๋ํ ์ต๋ ์ฐ๋ ํด๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ป๋๋ค:
Multinomial Distribution:
์์ μk๋ xk = 1์ธ ๊ฒฝ์ฐ์ ๊ด์ธก๊ฐ N์ ๋ํ ๋น์จ์ด๋ฉฐ,
์ด๋, μ์ ์ด ๊ด์ธก ์ N์ ๋ํ ์กฐ๊ฑด๋ถ m1, ..., mk์ ๊ฒฐํฉ ๋ถํฌ๋ ๊ณ ๋ คํ ์ ์๋๋ฐ ์ข์ธก ์์ ๋ฐ๋ฅด๋ฉด, ์ด ๊ฒฐํฉ๋ถํฌ๋ ์๋์ ๊ฐ๋ค.
์์ m์ ๋ํ ๊ฒฐํฉ๋ถํฌ๋ฅผ ๋คํญ๋ถํฌ, Multinomial Distribution์ด๋ผ ํ๋ค.
cf) ์ด์ง๋ณ์๋ ์ดํญ๋ถํฌ์ ์ํด ํํํ๊ฑฐ๋ K=2๋ก ๋๊ณ 1-of-2๋ณ์๋ก ํํ๊ฐ๋ฅํ๋ค.
cf) K≥2์ธ ๊ฒฝ์ฐ์ Multinoulli Distribution์ด๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค.
2. The Multivariate Gaussian
prev.
D์ฐจ์ ๋ฒกํฐ x์ ๋ํด ๋ค๋ณ๋ Gaussian๋ถํฌ๋ ์๋์ ๊ฐ๋ค:
μ: D์ฐจ์์ ํ๊ท ๋ฒกํฐ.
Σ: D × D ์ Covariance Matrix.
det Σ: Σ์ ํ๋ ฌ์.
Gaussian Distribution์ ์ต๋ ์ํธ๋กํผ, CLT ๋ฑ์์ ๋ง์ด ํ์ธํ ์ ์์๋ค. ์ด๋ ๋ค๋ณ๋์์๋ ์ฑ๋ฆฝํ๊ธฐ์ ์ด์ ๋ํด ์์๋ณด์.
2.1 Geometry of the Gaussian
Gaussian๋ถํฌ์ ๋ํด ๊ธฐํํ์ ์ผ๋ก ๊ณ ๋ คํด๋ณด์.
x์ ๋ํ ํจ์์ ์์กด์ฑ์ ์๋ 2์ฐจ ํํ๋ก ๋ํ๋๋ค:
โ: μ์์ x๊น์ง์ Mahalanobis Distance (cf. Σ=I ์ผ ๋, euclidean distance๋ก ์ถ์.)
Σ๊ฐ ๋์นญํ๋ ฌ์ผ ๋, ์์ค์ด ์๋ค.
์ด์ , Σ์ ๋ํ ๊ณ ์ ๋ฒกํฐ ๋ฐฉ์ ์์ ๊ณ ๋ คํ์: Σ๊ฐ ์ค์์ด๊ณ ๋์นญ ํ๋ ฌ์ด๋ฏ๋ก
โ eigen value๋ ์ค์
โ eigen vectors๋ orthonormal set์ ๋ง์กฑ.
(cf. orthonormal: ์ ๊ท์ง๊ต)
∴ Σ๋ ๊ณ ์ ๋ฒกํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์๊ณผ ๊ฐ์ ํํ๋ก ํํ๋ ์ ์๋ค: ๋ง์ฐฌ๊ฐ์ง๋ก ๊ณต๋ถ์ฐ ํ๋ ฌ์ inverse๋ ๋ค์๊ณผ ๊ฐ์ ํํ๋ก ํํ๋ ์ ์๋ค: Σ-1์ Mahalanobis Distance ์ ๊ณฑ์์ ๋์ ํ์: {yi}: ๊ธฐ์กด xi์ขํ์ ๋ํด shift ๋ฐ rotate๋ orthonormal vectors ui๋ก ์ ์๋ ์๋ก์ด ์ขํ๊ณ.
์ด์ , ๋ฒกํฐ y = (y1,...,yD)T๋ฅผ ํ์ฑํ๋ฉด ์ฌ๊ธฐ์ U๋ ํ์ด uiT๋ก ์ฃผ์ด์ง๋ ํ๋ ฌ๋ก. uiTuj = Iij์์ผ๋ก๋ถํฐ U๊ฐ orthogonal matrix์์ ์ ์ ์๋ค.
∴ Gaussian Density๋ โ2๊ฐ ์ผ์ ํ๋ฉด์์ผ ๋ ์ผ์ .
๋ชจ๋ ๊ณ ์ ๊ฐ λi๊ฐ ์์ → ์ด๋ฌํ โ2๋ ํ์์ฒด๋ฅผ ๋ํ๋.
์ด๋, ๊ทธ ์ค์ฌ์ μ์ ์์ผ๋ฉฐ ์ถ์ ui๋ฅผ ๋ฐ๋ผ ์ ๋ ฌ.
์ถ์ ๋ฐฉํฅ์ผ๋ก์ ์ค์ผ์ผ๋ง ์์๋ λi1/2๋ก ์ฃผ์ด์ง๋ค.
์ ๋ถํธ ํ๋ ฌ๊ณผ ๋ฐ์ ๋ถํธ ํ๋ ฌ
→ Gaussian๋ถํฌ๊ฐ ์ ์ ์๋๋ ค๋ฉด Σ์ ๋ชจ๋ ๊ณ ์ ๊ฐ λi๊ฐ ๋ฌด์กฐ๊ฑด ์์!
์ด๋, λ๊ฐ ๋ชจ๋ ์์์ธ ๋์นญํ๋ ฌ์ positive definite(์์ ์ ๋ถํธ)๋ผ ํ๋ค.
if not) ๋ถํฌ๊ฐ ์ฌ๋ฐ๋ฅด๊ฒ ์ ๊ทํโ
→ latent variable model์์ λi ์ค ํ๋ ์ด์์ด 0์ธ ๊ฒฝ์ฐ,
๋ถํฌ๋ ํน์ ์ฐจ์์ ๋ถ๋ถ ๊ณต๊ฐ์ผ๋ก ์ ํ๋๊ณ ํน์ดํ๊ฒ ๋๋๋ฐ,
๋ชจ๋ ๊ณ ์ ๊ฐ์ด ๋น์์์ธ ๊ณต๋ถ์ฐ ํ๋ ฌ์ positive semidefinite(์์ ๋ฐ์ ๋ถํธ)๋ผ ํ๋ค.
์ด์ yi์ ์ํด ์ ์๋ ์๋ก์ด ์ขํ๊ณ์ Gaussian๋ถํฌํํ๋ฅผ ์ดํด๋ณด์.
x→y๊ณ๋ก ๊ฐ ๋, Jacobian Matrix J์ ๋ํด ์์๋ ๋ค์๊ณผ ๊ฐ๋ค: ํ๋ ฌ U์ ์ ๊ท์ง๊ต์ฑ(orthonormality)์ ์ฌ์ฉํ๋ฉด J์ ์ ๊ณฑ์: ∴ |J|=1์ด๊ณ , ๊ณต๋ถ์ฐ ํ๋ ฌ์ ํ๋ ฌ์ |Σ|์ ๊ทธ ๊ณ ์ ๊ฐ๋ค์ ๊ณฑ์ด๋ฏ๋ก: ∴ yj ์ขํ๊ณ์์์ Gaussian๋ถํฌ
= ๋ ๋ฆฝ๋ D๊ฐ์ ๋จ๋ณ๋ Gaussian๋ถํฌ์ ๊ณฑ:
∴ eigen vector๋ ๊ฒฐํฉํ๋ฅ ๋ถํฌ๋ฅผ ์๋ก์ด shift ๋ฐ rotated์ขํ๋ก ์ ์.
์ด๋ฅผ ํตํด ๊ฒฐํฉํ๋ฅ ๋ถํฌ๊ฐ ๋ ๋ฆฝ์ ์ธ ๋ถํฌ์ ๊ณฑ์ผ๋ก ๋ถํด๋๋ค.
→ y์ขํ๊ณ ๋ถํฌ์ ์ ๋ถ์ ๋ค์๊ณผ ๊ฐ๋ค: ์ด๋ ๋ค๋ณ๋ ๊ฐ์ฐ์์ N (x | μ,Σ)๊ฐ ์ค์ ๋ก ์ ๊ทํ๋์ด ์์์ ์๋ฏธํ๋ค.
2.2 Moments
cf) ์์ฝ: 1์ฐจ ๋ชจ๋ฉํธ = ํ๊ท μ, 2์ฐจ๋ชจ๋ฉํธ = ๋ถ์ฐ E[xxT]
์ด์ Gaussian๋ถํฌ์ moments์, moments๋ก μ์ Σ๋ฅผ ์์๋ณด์. ์ ์์ x์ ๋ํ ๊ธฐ๋๊ฐ ์์ด๋ฉฐ, z = x - μ๋ฅผ ์ฌ์ฉํด ๋ณ์๋ฅผ ๋ณ๊ฒฝํ๋ค.
์ง์๊ฐ z์ ๊ตฌ์ฑ ์์์ ๋ํ ์ง์ ํจ์, (-∞, ∞)์์ ์ ๋ถ์ด ์ํ
→ (z + μ)์ ํญ์ ๋์นญ์ ์ํด ์ฌ๋ผ์ง๋ค.
์ด๋ก์จ μ๋ฅผ Gaussian๋ถํฌ์ ํ๊ท ์ด๋ผ ๋ถ๋ฅธ๋ค.
โ Gaussian์ 1์ฐจ moments: μ (= ํ๊ท )
์ด์ Gaussian์ 2์ฐจ moments๋ฅผ ๊ณ ๋ คํด๋ณด์.
cf) ๋จ์ผ ๋ณ์์ ๊ฒฝ์ฐ E[x2]๊ฐ 2์ฐจ moments.
๋ค๋ณ๋ ๊ฐ์ฐ์์์ ๊ฒฝ์ฐ E[xixj]๋ก ์ฃผ์ด์ง๋ D2์ 2์ฐจ moments๋ก ํ๋ ฌ E[xxT]๋ฅผ ํ์ฑ.
์ด ํ๋ ฌ์ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์๋ค: ์ฌ๊ธฐ์๋ z = x - μ๋ฅผ ์ฌ์ฉํ์ฌ ๋ณ์๋ฅผ ๋ณ๊ฒฝ.
μzT ๋ฐ μTz๋ฅผ ํฌํจํ๋ ๊ต์ฐจ ํญ์ ๋ค์ ๋์นญ์ ์ํด ์ฌ๋ผ์ง๋ค.
μμT ํญ์ ์์์ด๋ฉฐ ์ ๊ทํ๋ ๊ฐ์ฐ์์ ๋ถํฌ์ด๊ธฐ ๋๋ฌธ์ ์ ๋ถ ์์ฒด๋ 1์ด๋ค.
zzT๋ฅผ ํฌํจํ๋ ํญ์ ๊ณ ๋ คํด๋ณด๋ฉด, ๋ค์ ํ๋ฒ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ๊ณ ์ ๋ฒกํฐ ์ ๊ฐ์์ธ (3.28)๊ณผ ๊ณ ์ ๋ฒกํฐ ์งํฉ์ ์์ฑ์ ์ฌ์ฉํ์ฌ ๋ค์๊ณผ ๊ฐ์ด ์ธ ์ ์๋ค: ์ฌ๊ธฐ์ ์ค๊ฐ ๋ผ์ธ์ ์ ๋ถ์ i = j๊ฐ ์๋ ๊ฒฝ์ฐ์๋ ๋์นญ์ ์ํด ์ฌ๋ผ์ง๋ฏ๋ก ๊ฒฐ๊ณผ์ ์ผ๋ก ์๋ ์์ ์ป๋๋ค.
๋จ์ผ ๋๋ค ๋ณ์์ ๋ถ์ฐ์ ์ ์ํ ๋ ๋ ๋ฒ์งธ ๋ชจ๋ฉํธ๋ฅผ ๊ฐ์ ธ๊ฐ๊ธฐ ์ ์ ํ๊ท ์ ๋บ์ผ๋ฏ๋ก
๋ค๋ณ๋ ๊ฒฝ์ฐ์๋ ํ๊ท ์ ๋บ ์ฑ๋ก ์ ์๋ ๋๋ค ๋ฒกํฐ x์ ๊ณต๋ถ์ฐ์ ๊ณ ๋ คํ๋ ๊ฒ์ด ํธ๋ฆฌํ๋ค: ํน์ ํ ๊ฒฝ์ฐ์ธ ๊ฐ์ฐ์์ ๋ถํฌ์ ๊ฒฝ์ฐ, E[x] = μ์ E[xxT]๊ฒฐ๊ณผ๋ฅผ ํจ๊ป ์ฌ์ฉํ๋ฉด: ํ๋ ฌ Σ๊ฐ ๊ฐ์ฐ์์ ๋ถํฌ์์ x์ ๊ณต๋ถ์ฐ์ ์ง๋ฐฐํ๋ฏ๋ก ์ด๋ฅผ ๊ณต๋ถ์ฐํ๋ ฌ์ด๋ผํ๋ค.
2.3 Limitations.
[Gaussian๋ถํฌ์ ์ฃผ์ ํ๊ณ์ ]:
์ผ๋ฐ ๊ณต๋ถ์ฐ ๋์นญํ๋ ฌ Σ:
โ D(D + 1)/2๊ฐ์ ๋ ๋ฆฝ์ ์ธ ๋งค๊ฐ ๋ณ์๋ฅผ ๊ฐ์ง.
โ μ์์ ๋ ๋ค๋ฅธ D๊ฐ์ ๋ ๋ฆฝ์ ์ธ ๋งค๊ฐ ๋ณ์๊ฐ ์กด์ฌ.
∴ ์ด D(D + 3)/2๊ฐ์ ๋งค๊ฐ ๋ณ์๊ฐ ์กด์ฌ, ํ๋ ฌ ์กฐ์ costโง
→ sol) Σ์ ์ ํ๋ ํํ์ ์ฌ์ฉ.
i) ๊ณต๋ถ์ฐ ๋๊ฐํ๋ ฌ์ ๊ฐ๋ ๊ฒฝ์ฐ( Σ = diag(σi2)) ์ด ๋ชจ๋ธ์์๋ ์ด 2D๊ฐ์ ๋ ๋ฆฝ์ ์ธ ๋งค๊ฐ ๋ณ์๊ฐ ์กด์ฌํ๋ฉฐ, ํด๋น ๋ชจ๋ธ์ ๋ฐ๋๋ฑ๊ณ ์ ์ ์ถ์ ์ ๋ ฌ๋ ํ์ํ์ผ๋ก ์ฃผ์ด์ง๋ค. (b)์ ํด๋น
ii) Σ์ I ํ๋ ฌ์ ๋น๋กํ๋๋ก ์ ํํ ์๋ ์๋๋ฐ, ์ด๋ฅผ ๋ฑ๋ฐฉ์ฑ ๊ณต๋ถ์ฐ์ด๋ผ๊ณ ํ๋ค. (c)์ ํด๋น
๋ชจ๋ธ์์ D + 1๊ฐ์ ๋ ๋ฆฝ์ ์ธ ๋งค๊ฐ ๋ณ์๊ฐ ์์ฑ๋๋ฉฐ ๋ฑ๋ฐฉ์ฑ ํ๋ฉด์ ๋ฑ๊ณ ์ ์ด ๋๋ค.
์ผ๋ฐ, ๋๊ฐ ๋ฐ ๋ฑ๋ฐฉ์ฑ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ์ธ ๊ฐ์ง ๊ฐ๋ฅ์ฑ์ ์๋๊ทธ๋ฆผ์ ์ค๋ช ๋์ด ์๋ค.
์ฅ์ ) ๋ถํฌ์ ์์ ๋ ์๋ฅผ ์ ํ, ๊ณต๋ถ์ฐ ํ๋ ฌ์ ์ญ์ ๋น ๋ฅด๊ฒ ๊ณ์ฐ
๋จ์ )
โ ํ๋ฅ ๋ฐ๋์ ํํ ๋ฐ ๋ฐ์ดํฐ์ ํฅ๋ฏธ๋ก์ด ์๊ด ๊ด๊ณ๋ฅผ ์ ํ.
โ Gaussian๋ถํฌ๋ ๊ทธ์์ฒด๋ก ๋ณธ์ง์ ์ธ ๋จ์ผ์ต๋๊ฐ(= uni-modal)
→ multi-modal distribution์ ์ข์ ๊ทผ์ฌ์น ์ ๊ณต์ด ๋ถ๊ฐ๋ฅ. (= ์ ์ฐํ์ง ์์.)
→ ๋ค๋ง ์ด๋ latent variable์ ๋์ ์ผ๋ก ํด๊ฒฐ๊ฐ๋ฅ.
2.4 Conditional distribution
๋ค๋ณ๋ Gaussian์ ์ฃผ์ํน์ฑ:
๋ ๋ณ์๊ฐ jointly Gaussian์ด๋ผ๋ฉด, ๋ค๋ฅธ ๊ฒ์ ๊ธฐ์ค์ผ๋ก ํ ์กฐ๊ฑด๋ถ๋ถํฌ์ ์ฃผ๋ณ๋ถํฌ๊ฐ Gaussian์ด๋ผ๋ ๊ฒ.
โ ์กฐ๊ฑด๋ถ ๋ถํฌ์ ๊ฒฝ์ฐ:
x ~ N (x|μ, Σ)์ D์ฐจ์ ๋ฒกํฐ
x๋ฅผ ๋ ๋ถ๋ถ์งํฉ xa์ xb๋ก ๋ถํ ํ๊ณ ์ผ๋ฐ์ฑ์ ์์ง ์์ ๋,
xa๋ฅผ x์ ์ฒซ M๊ฐ ๊ตฌ์ฑ ์์๋ก,
xb๋ฅผ ๋๋จธ์ง D - M๊ฐ์ ๊ตฌ์ฑ ์์๋ก ๊ฐ์ง ์ ์์ผ๋ฏ๋ก ์ฐ์ธก๊ณผ ๊ฐ๋ค.
๋ํ ํ๊ท ๋ฒกํฐ μ์ ๊ณต๋ถ์ฐํ๋ ฌ Σ์ ํด๋น ๋ถํ ์ ์๋์ ๊ฐ์ด ์ ์ํ์.
๊ณต๋ถ์ฐ ํ๋ ฌ์ ๋์นญ์ฑ ΣT = Σ๋ ๋ค์์ ์๋ฏธํ๋ค:
Σaa์ Σbb๊ฐ ๋์นญ์ด๋ฏ๋ก , Σba = ΣabT์ด๋ค.
๋ง์ ์ํฉ์์ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ์ญ์ธ ์ ๋ฐ๋ ํ๋ ฌ์ ์ฌ์ฉํ๋ ๊ฒ์ด ํธ๋ฆฌํ๋ค: ์ค์ ๋ก Gaussian ๋ถํฌ์ ๋ช ๊ฐ์ง ์์ฑ์ ๊ณต๋ถ์ฐ์ ํตํด ๊ฐ์ฅ ์์ฐ์ค๋ ํํ.
๋ค๋ฅธ ์์ฑ์ ์ ๋ฐ๋๋ฅผ ํตํด ๋ ๊ฐ๋จํ ํํ๋ฅผ ๊ฐ์ง๋ฏ๋ก
์ ๋ฐ๋ ํ๋ ฌ์ ๋ถํ ๋ ํํ๋ ์๋์ ๊ฐ๋ค: ์ด๋, ๋ฒกํฐ x์ ๋ถํ x = [xa, xb]T์ ํด๋นํ๋ค.
์ฌ๊ธฐ์ ๋์นญ ์ญํ๋ ฌ๋ ๋์นญ์ด๋ฏ๋ก Λaa์ Λbb๊ฐ ๋์นญ์ด๊ณ Λba = ΛabT์ด๋ค.
์ ์์ :
Λaa๊ฐ ๋จ์ํ Σaa์ ์ญ์ด ์๋๋ค. (๋ถํ ๋ ์ญํ๋ ฌ๊ณผ ๊ทธ ๋ถํ ์ ์ญ์ ๋ํ ๊ตฌ๋ถ์ด ์ค์.)
ex) Gaussian๋ถํฌ์ ์ง์ํญ์ ์ ์ํ๋ 2์ฐจ์์ ๊ณ ๋ ค.
for. ์กฐ๊ฑด๋ถ Gaussian ๋ถํฌ p(xa|xb)์ ํ๊ท ๊ณผ ๊ณต๋ถ์ฐ์ ์ฐพ๊ธฐ ์ํด
์ด๋, ๊ด์ธก ๊ฐ์ผ๋ก xb๋ฅผ ๊ณ ์ , ๊ฒฐ๊ณผ ์์ ์ ๊ทํ→ xa์ ๋ํ ์ ํจํ ํ๋ฅ ๋ถํฌ๋ฅผ ์ป์
์ ๋ฐฉ์์ ์กฐ๊ฑด๋ถ ๋ถํฌ๋ฅผ ํ๊ฐํ ์ ์์์ ํ๋ฅ ์ ๊ณฑ์ ๋ฒ์น์ผ๋ก ์ ์ ์๋ค.
๋ช ์์ ์ผ๋ก ์ ๊ทํํ๋ ๋์ ์๋ Gaussian๋ถํฌ์ ์ง์ํญ์์ ์์ ์ ๊ณฑ์๋ฅผ ํตํด ๋ ํจ์จ์ ์ผ๋ก ๊ณ ๋ คํ์ฌ ์ ๊ทํ ๊ณ์๋ฅผ ์ป์ ์ ์๋๋ฐ, ์ผ๋ฐ์ ์ธ ์ด์ฐจํ์์ ์ฌ์ฉํ๋ฉด ์๋์ ๊ฐ๋ค:
xa์ ๋ํ ํจ์๋ก ๋ณผ ๋ ์ด๋ ๋ค์ ์ด์ฐจํ์์ด๋ฏ๋ก ํด๋น ์กฐ๊ฑด๋ถ ๋ถํฌ p(xa|xb)๋ Gaussian์ด๋ค.
์ด ๋ถํฌ๋ ๊ทธ ํ๊ท ๊ณผ ๊ณต๋ถ์ฐ์ ์ํด ์์ ํ ํน์ฑํ๋๋ฏ๋ก ์ ์์ผ๋ก p(xa|xb)์ ํ๊ท ๊ณผ ๊ณต๋ถ์ฐ์ ์๋ณํด๋ณด์.
์ด๋ฅผ ๋ณดํต "์์ ์ ๊ณฑ์(Completing the Square)"๋ผ ํ๋ Gaussian๋ถํฌ์ ๊ด๋ จ๋ ์ผ๋ฐ์ ์ธ ๋์์ผ๋ก
์ฌ๊ธฐ์ Gaussian์ ์ง์ํญ์์ ์ง์ ๋ ๊ณ์ํ๋ ฌ์ x์ ๊ณต๋ถ์ฐ์ญํ๋ ฌ๋ก ๊ฒฐ์ ํด์ผ ํ๋ ์ผ์ด๋ผ๊ณ ํ๋๋ฐ,
์ด๋ ๋ฌธ์ ๋ ๊ทธ ๊ฒฐ๊ณผ๋ก ํ๊ท ๊ณผ ๊ณต๋ถ์ฐ์ ์ป๋ ๊ฒ์ด๋ค.
์ด๋ฐ ๋ฌธ์ ๋ ์ผ๋ฐ์ ์ธ ๊ฐ์ฐ์์ ๋ถํฌ N (x|μ, Σ)์ ์ง์ํญ์ ์๋์ฒ๋ผ ์ฌ์ฉํ ์ ์์ผ๋ฏ๋ก ๊ฐ๋จํ ํด๊ฒฐ๊ฐ๋ฅํ๋ค. Σ์ ๋์นญ์ฑ์ ๋ฐ๋ผ ์ผ๋ฐ์ ์ธ ์ด์ฐจ์์ผ๋ก ์ ์์ฒ๋ผ ํํํ๋ฉด
์ฆ์ x์ ์ด์ฐจํญ์ ์๋ ๊ณ์ํ๋ ฌ์ ๊ณต๋ถ์ฐ ์ญํ๋ ฌ Σ-1๋ก
x์ ์ผ์ฐจํญ์ ๊ณ์๋ฅผ Σ-1μ๋ก ๋์ผํ๊ฒ ํ ์ ์์ผ๋ฏ๋ก μ๋ฅผ ์ป์ ์ ์๋ค.
์ด์ ์ด ์ ์ฐจ๋ฅผ ์กฐ๊ฑด๋ถ ๊ฐ์ฐ์์ ๋ถํฌ p(xa|xb)์ ์ ์ฉํ์ฌ ์ง์ํญ์ด ์๋์ ๊ฐ์ด ์ฃผ์ด์ง ๊ฒฝ์ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์์๋ณด์:
์ด ๋ถํฌ์ ํ๊ท ๊ณผ ๊ณต๋ถ์ฐ์ ๊ฐ๊ฐ μa|b์ Σa|b๋ผ ํ์.
์ ์์์ ์ง์ํญ์ ์ด์ฐจํ์์ ๊ณ ๋ คํด ๋ณด.
xb๋ฅผ ์์๋ก ๊ฐ์ฃผํ ๋ ,xa์ ๋ํ ์ด์ฐจํญ์ ๋ชจ๋ ์ถ์ถํ๋ฉด ์๋์ ๊ฐ๋ค: ์ด๋, p(xa|xb)์ ๊ณต๋ถ์ฐ(์ ๋ฐ๋์ ์ญ)์ ์๋์ ๊ฐ๋ค: ์ด์ xa์ ๋ํ 1์ฐจํญ์ ๋ชจ๋ ํฌํจํ๋ ์ ์์ ๋ชจ๋ ํญ์ ๊ณ ๋ คํด๋ณด์: (์ด๋, ΛTba = Λab.)
์๋ ์ผ๋ฐ์ ์ธ ํํ ์์ ๋ ผ์์์ ์ด ํํ์ xa์ ๋ํ ๊ณ์๋ Σa|b-1μa|b์ ๊ฐ์์ผ ํ๋ฏ๋ก ์๋์ ๊ฐ๋ค:
์ ๊ฒฐ๊ณผ๋ ์๋ joint distribution, p(xa, xb)์ ๋ถํ ๋ ์ ๋ฐ๋ ํ๋ ฌ๋ก ํํ๋๋ฏ๋ก
ํด๋น ๋ถํ ๋ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ์ฉ์ด๋ก๋ ํํ๊ฐ๋ฅํ๋ค.
์ด๋, ์๋์ฒ๋ผ ๋ถํ ๋ ์ญํ๋ ฌ์ ๋ํ ๋ค์ ํญ๋ฑ์์ ์ฌ์ฉํ์:์ฌ๊ธฐ์ M์ ์๋์ ๊ฐ๋ค:
M-1์ ์ผ์ชฝ์์๋ ํ๋ ฌ์ ๋ํ ํ๋ ฌ D์ ๋ํ Schur complement์ด๋ค.
์๋ ์ ์์ ๋ฐ๋ผ ์์ [A B C D]-1์ ์ ์ฉํ๋ฉด,
๋ค์์ ์ป๋๋ค:
์ด๋, ์กฐ๊ฑด๋ถ ๋ถํฌ p(xa|xb)์ ํ๊ท ๊ณผ ๊ณต๋ถ์ฐ์ ๋ํ ๋ค์ ์:
์ด์ , ๋์ถ๋ ์๋ ๋ ์์ ๋น๊ตํด๋ณด์:
์กฐ๊ฑด๋ถ ๋ถํฌ p(xa|xb)๋ ๋ถํ ๋ ๊ณต๋ถ์ฐ ํ๋ ฌ ์ฉ์ด๋ก ํํ๋ ๋, ๋ ๊ฐ๋จํ ํํ๋ฅผ ๊ฐ์ง์ ์ ์ ์๋ค.
์กฐ๊ฑด๋ถ ๋ถํฌ p(xa|xb)์ ํ๊ท ์ธ μa|b๋ xb์ ์ ํ ํจ์์ด๋ฉฐ
์ ์์ ์๋ํญ์์ ์ฃผ์ด์ง๋ ๊ณต๋ถ์ฐ์ xb์ ๋ ๋ฆฝ์ ์ด๋ค.
์ด๊ฒ์ ์ ํ ๊ฐ์ฐ์์ ๋ชจ๋ธ์ ์์ด๋ค.
2.5 Marginal distribution
if) ๊ฒฐํฉ ๋ถํฌ p(xa, xb)๊ฐ Gaussian →์กฐ๊ฑด๋ถ ๋ถํฌ p(xa|xb)๋ Gaussian
์ด์ ์ฐ๋ฆฌ๋ ์ฃผ๋ณ๋ถํฌ์ ๋ํด ์์๋ณด๋๋ก ํ์.
์ ์์์ ์ ์ ์๋ฏ, ์ฃผ๋ณ๋ถํฌ ์ญ์ Gaussian์ด๋ค.
์ฆ, ์ด ๋ถํฌ ๊ณ์ฐ ์, ๊ฒฐํฉ ๋ถํฌ ์ง์ํญ์ ์ด์ฐจํ์์ ์ค์ ์ ๋์ด ์ฃผ๋ณ ๋ถํฌ p(xa)์ ํ๊ท ๊ณผ ๊ณต๋ถ์ฐ์ ์์๋ณด๊ธฐ์ํด ๋ถํ ๋ ์ ๋ฐ๋ ํ๋ ฌ์ ์ฌ์ฉํ๋ฉด ์๋ ์๊ณผ ๊ฐ๋ค:
์ด์ , xb์ ๊ด๋ จ๋ ํญ์ ๊ณ ๋ คํ ํ, integration์ ์ฉ์ดํ๊ฒ ํ๊ธฐ ์ํด ์์ ํ ์ ๊ณฑ์ ์ํํ๋ ๊ฒ์ผ๋ก xb์ ๋ํด integration์ ํ์. ์ฌ๊ธฐ์ xb๋ฅผ ํฌํจํ๋ ํญ๋ง ์ถ์ถํ๋ฉด ์๋์ ๊ฐ๋ค:
์ด๋, m์ ์ข์ธก๊ณผ ๊ฐ์ด ์ ์๋๋ค.
์ด๋ฅผ ํตํด xb์ ๋ํ ์์กด์ฑ์ด Gaussian๋ถํฌ์ ํ์ค ์ด์ฐจํ์์ผ๋ก ํํ๋์์์ ์ ์ ์๋ค.
์ด๋ ์ ์์ ์ฐํญ ์ค ์ฒซํญ์ ํด๋นํ๋ฉฐ xb์ ์์กดํ์ง ์๋ ํญ(๋ค๋ง xa์ ์์กด)์ด ์ถ๊ฐ์ ์ผ๋ก ์กด์ฌํ๋ค.
๋ฐ๋ผ์ ์ด ์ด์ฐจํ์์ ์ง์๋ฅผ ์ทจํ๋ฉด ์ ์์์ ํ์ํ xb์ ๋ํ ์ ๋ถ์ ์๋ ์๊ณผ ๊ฐ๋ค: ์ด ์ ๋ถ์ ์ ๊ทํ๋์ง ์์ Gaussian์ ์ ๋ถ์ด๋ค.
∴ ์ด ์์ ๊ฒฐ๊ณผ๋ ์ ๊ทํ ๊ณ์์ ์ญ์๊ฐ ๋๋ค.
Multivariate Gaussian๋ถํฌ ์์์ ์ฃผ์ด์ง ์ ๊ทํ๋ Gaussianํํ์์ ์ด ๊ณ์๊ฐ ํ๊ท ๊ณผ ๋ฌด๊ดํ๋ฉฐ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ํ๋ ฌ์์๋ง ์์กดํ๋ค๋ ๊ฒ์ ์๊ณ ์์ผ๋ฏ๋ก xb์ ๋ํ ์์ ์ ๊ณฑ์ ํตํด xb๋ฅผ ์ ๋ถํ์ฌ
Marginal distribution์์ ์ข์ธกํญ์ contribution ์ค xa์ ์์กดํ๋ ์ ์ผํ ํญ์ผ๋ก ๋จ๊ฒ๋๋ค.
์ด๋ ์ ์์ ์ค๋ฅธ์ชฝ ๋ง์ง๋ง ํญ์ด๋ฉฐ ์ด๋ m์ ์์ ๊ฐ์ต๋๋ค.
์ด ํญ์ ์ข์ธก์์์ ๋์จ xa์ ์์กดํ๋ ๋๋จธ์ง ํญ๋ค๊ณผ ๊ฒฐํฉํ๋ฉด ์๋์ ๊ฐ๋ค.
์ด๋, 'const'๋ xa์ ๋ ๋ฆฝ์ ์ธ ์์ ๋ํ๋ธ๋ค.
์ด๋, ๊ณต๋ถ์ฐ์ ์๋์ ๊ฐ๋ค: ์ ๊ณต๋ถ์ฐ์ ๋ถํ ๋ ์ ๋ฐ๋ ํ๋ ฌ์ ์ด์ฉํ์ฌ ํํ๋๋๋ฐ, ์ฐ๋ฆฌ๋ ๋ถํ ๋ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ๋์ํ๋ ๋ถํ ๋ก ๋ค์ ์ธ ์ ์๋ค. ์ด๋ฌํ ๋ถํ ๋ ํ๋ ฌ๋ค์ ์์ ํ๋ ฌ๊ณผ ๊ด๋ จ๋์ด์๋ค.
์ด์ , ์์ ๊ด๊ณ์์ ์ด์ฉํ๋ฉด, ์๋ ์์ ์ป๋๋ค:
๋ฐ๋ผ์ ์ฃผ๋ณ ๋ถํฌ p(xa)๊ฐ ์ฃผ์ด์ง ํ๊ท ๊ณผ ๊ณต๋ถ์ฐ์ ๊ฐ์ง๊ฒ ๋จ์ ์๋ ์์ผ๋ก ์ง๊ด์ ์ผ๋ก ์ดํดํ ์ ์๋ค:
์ฃผ๋ณ ๋ถํฌ์ ๊ฒฝ์ฐ์๋ ํ๊ท ๊ณผ ๊ณต๋ถ์ฐ์ด ๋ถํ ๋ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ์ฉ์ด๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ฅ ๊ฐ๋จํ๊ฒ ํํ๋๋ฉฐ,
์กฐ๊ฑด๋ถ ๋ถํฌ์ ๊ฒฝ์ฐ์๋ ๋ถํ ๋ ์ ๋ฐ๋ ํ๋ ฌ์ด ๋ ๊ฐ๋จํ ํํ์ ์ป์ ์ ์๋๋ก ํ๋ค.
์ฐ๋ฆฌ๊ฐ ๋ถํ ๋ ๊ฐ์ฐ์์์ ์ฃผ๋ณ ๋ฐ ์กฐ๊ฑด๋ถ ๋ถํฌ์ ๋ํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ์ด ์์ฝ๋ ์ ์๋ค.
์ฃผ์ด์ง ๊ฒฐํฉ ๊ฐ์ฐ์์ ๋ถํฌ N (x|μ, Σ)๊ฐ ์๊ณ Λ ≡ Σ-1 ๋ฐ ๋ค์ ๋ถํ ์ ๊ฐ์ง๋ฉด, ์๋์ ๊ฐ๋ค: ์กฐ๊ฑด๋ถ ๋ถํฌ๋ ์๋์ ๊ฐ๊ณ : ์ฃผ๋ณ ๋ถํฌ๋ ์๋์ ๊ฐ๋ค:
์ฐ๋ฆฌ๋ ์ด๋ฌํ ์กฐ๊ฑด๋ถ ๋ฐ ์ฃผ๋ณ ๋ถํฌ์ ์์ด๋์ด๋ฅผ ๋ ๋ณ์๋ฅผ ํฌํจํ๋ ์์ ๋ฅผ ์ฌ์ฉํ์ฌ ๋ค๋ณ์ ๊ฐ์ฐ์์์ ๊ด๋ จ๋ ์กฐ๊ฑด๋ถ ๋ฐ ์ฃผ๋ณ ๋ถํฌ๋ฅผ ์ค๋ช ํ๋๋ฐ, ์ด์ ๋ํด ์๋๊ทธ๋ฆผ์์ ํ์ธ๊ฐ๋ฅํ๋ค.
2.6 Bayes' theorem
3.2.4 ๋ฐ 3.2.5 ์ ์์๋ ์ฐ๋ฆฌ๊ฐ ๋ฒกํฐ x๋ฅผ ๋ ํ์ ๋ฒกํฐ x = (xa, xb)๋ก ๋ถํ ํ ๊ฐ์ฐ์์ p(x)๋ฅผ ๊ณ ๋ คํ๊ณ ,
์กฐ๊ฑด๋ถ ๋ถํฌ p(xa|xb) ๋ฐ ์ฃผ๋ณ ๋ถํฌ p(xa)์ ๋ํ ์์ ์ฐพ์์ผ๋ฏ๋ก ์กฐ๊ฑด๋ถ ๋ถํฌ p(xa|xb)์ ํ๊ท ์ด xb์ ์ ํ ํจ์์์ ์ฃผ๋ชฉํ์๋ค.
์ด์ ์ฃผ์ด์ง Gaussian Marginal Distribution p(x)์ ๊ฐ์ฐ์์ ์กฐ๊ฑด๋ถ ๋ถํฌ p(y|x)๋ฅผ ๊ฐ์ ํด๋ณด์.
p(y|x)์ ํ๊ท ์ x์ ์ ํ ํจ์์ด๊ณ , ๊ณต๋ถ์ฐ์ x์ ๋ ๋ฆฝ์ธ ์ ํ-๊ฐ์ฐ์์ ๋ชจ๋ธ์ ์์ด๋ค(Roweis์ Ghahramani, 1999).
์ด๋, ์ฃผ๋ณ ๋ถํฌ p(y)์ ์กฐ๊ฑด๋ถ ๋ถํฌ p(x|y)๋ฅผ ์ฐพ์๋ณด์.
์ด๋ ๋ช ๊ฐ์ง ์ข ๋ฅ์ ์์ฑ ๋ชจ๋ธ์์ ๋ฐ์ํ๋ ๊ตฌ์กฐ์ด๋ฉฐ ์ฌ๊ธฐ์์ ์ผ๋ฐ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ ๋ํ๋ ๊ฒ์ด ํธ๋ฆฌํ๋ค.
์ฃผ๋ณ ๋ฐ ์กฐ๊ฑด๋ถ ๋ถํฌ๋ฅผ ์๋์ฒ๋ผ ๊ฐ์ ํ๋ค ํ์:
์ด๋, μ, A, b๋ ํ๊ท ์ ์กฐ์ ํ๋ ๋งค๊ฐ๋ณ์์ด๊ณ , Λ ๋ฐ L์ ์ ๋ฐ๋ ํ๋ ฌ์ด๋ค.
x์ ์ฐจ์์ด M์ด๊ณ y์ ์ฐจ์์ด D์ด๋ฉด ํ๋ ฌ A์ ํฌ๊ธฐ๋ D × M์ด๋ค.
๋จผ์ x์ y์ ๋ํ ๊ฒฐํฉ ๋ถํฌ๋ฅผ ์ฐพ์๋ณด๊ธฐ ์ํด z = [x, y]๋ก ์ ์ํ ํ, ๊ฒฐํฉ๋ถํฌ์ log๋ฅผ ์ทจํ์:
(์ด๋, const๋ x์ y์ ๋ํด ๋ ๋ฆฝ์ ์ธ ํญ)
์ด์ ๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก z์ ๊ตฌ์ฑ ์์์ ๋ํ ์ ๊ณฑ ํจ์์ด๊ธฐ ๋๋ฌธ์ p(z)๋ ๊ฐ์ฐ์์ ๋ถํฌ์ ๋๋ค.
์ด ๊ฐ์ฐ์์์ ์ ๋ฐ๋๋ ์๋์ ๊ฐ๋ค:
๋ฐ๋ผ์ z์ ๋ํ ๊ฐ์ฐ์์ ๋ถํฌ์ ์ ๋ฐ๋ ํ๋ ฌ์ ์๋์ ๊ฐ๋ค:
์ ๋ฐ๋ํ๋ ฌ์ ์ญ์ ์ทจํจ์ผ๋ก์จ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ์ฐพ์ ์ ์๋ค:
์ ์ฌํ๊ฒ ์ฐ๋ฆฌ๋ z์ ๋ํ ๊ฐ์ฐ์์ ๋ถํฌ์ ํ๊ท ์ ์ฐพ์ ์ ์๋๋ฐ,
lnp(z) ์์ ์ ํ ํญ์ ์๋ณํ์ฌ ์ฃผ์ด์ง๋ค.
์ด๋ ์ ์์์ ์ฃผ์ด์ง ๊ฒ๊ณผ ๊ฐ๋ค.
๋ค๋ณ์ ๊ฐ์ฐ์์์ ์ด์ฐจํ์์ ๋ํ ์์ ์ ๊ณฑ ๊ฒฐ๊ณผ๋ก ์ป์
์ด์ ์ ๊ฒฐ๊ณผ์ธ ์๋ ์์ ์ฌ์ฉํด๋ณด์.
์ด๋ฅผ ์ด์ฉํ๋ฉด, z์ ํ๊ท ์ ์๋ ์์ผ๋ก ์ฃผ์ด์ง๋ค:
์ด์ , cov[z]๋ฅผ ์ฌ์ฉํ๋ฉด, ์๋ ์์ ์ป๋๋ค:
์ด์ , x๋ฅผ ์ ๊ฑฐํ๊ณ y์ ๋ํด ์ฃผ๋ณ ๋ถํฌ p(y)์ ์์ ์ฐพ์๋ณด์.
Gaussian Random Vector์ ๋ถ๋ถ์งํฉ์ ๋ํ ์ฃผ๋ณ๋ถํฌ → ๋ถํ ๋ ๊ณต๋ถ์ฐ ํ๋ ฌ์ ์ฌ์ฉํ์ฌ ํนํ ๊ฐ๋จํ ํํ๋ฅผ ์ทจํ ์ ์๋ค.
์ข ๋ ๊ตฌ์ฒด์ ์ผ๋ก, ํ๊ท ๊ณผ ๊ณต๋ถ์ฐ์ ๊ฐ๊ฐ ์๋์ ๊ฐ๋ค: ์ฌ๊ธฐ์ ์๋ ์์ ์ฌ์ฉํ๋ฉด
์ฃผ๋ณ ๋ถํฌ p(y)์ ํ๊ท ๊ณผ ๊ณต๋ถ์ฐ์ ์๋์ ๊ฐ์ด ์ฃผ์ด์ง๋ค:
์ด ๊ฒฐ๊ณผ์ ํน๋ณํ ๊ฒฝ์ฐ๋ A = I์ธ ๊ฒฝ์ฐ๋ก ์ฃผ๋ณ ๋ถํฌ๋ ๋ ๊ฐ์ฐ์์์ ํฉ์ฑ์ผ๋ก ์ถ์๋๋ฉฐ,
์ฌ๊ธฐ์ convolution์ ํ๊ท ์ ๋ ๊ฐ์ฐ์์์ ํ๊ท ์ ํฉ์ด๊ณ
convolution์ ๊ณต๋ถ์ฐ์ ๊ทธ๋ค์ ๊ณต๋ถ์ฐ์ ํฉ์ด๋ค.
๋ง์ง๋ง์ผ๋ก ์กฐ๊ฑด๋ถ p(x|y)์ ๋ํ ํํ์ ์ฐพ์๋ณด์.
์กฐ๊ฑด๋ถ ๋ถํฌ์ ๋ํ ๊ฒฐ๊ณผ๋ ์ฃผ๋ก ๋ถํ ๋ ์ ๋ฐ๋ ํ๋ ฌ์ ์ฉ์ด๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ฅ ์ฝ๊ฒ ํํ๋๋ค.
์ด๋, ์กฐ๊ฑด๋ถ ๋ถํฌ p(x|y)๊ฐ ์ฃผ์ด์ง ๊ฒฝ์ฐ ํ๊ท ๋ฐ ๊ณต๋ถ์ฐ์ ์๋์ ๊ฐ์ด ์ฃผ์ด์ง๋ค:
์ด ์กฐ๊ฑด๋ถ ๋ถํฌ์ ํ๊ฐ๋ Bayes์ ์ ๋ฆฌ์ ํ ์์๋ก
์ด๋, p(x)๋ฅผ x์ ๋ํ ์ฌ์ ๋ถํฌ(prior)๋ก ํด์๋๋ค.
๋ณ์ y๊ฐ ๊ด์ธก๋๋ฉด ์กฐ๊ฑด๋ถ ๋ถํฌ p(x|y)๋ x์ ๋ํ ์ฌํ ๋ถํฌ(posterior)์ด๋ค.
์ฃผ๋ณ ๋ฐ ์กฐ๊ฑด๋ถ ๋ถํฌ๋ฅผ ์ฐพ์ ํ์๋ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉ ๋ถํฌ p(z) = p(x)p(y|x)๋ฅผ p(x|y)p(y)์ ํํ๋ก ๋ํ๋ธ๋ค.
[๊ฒฐ๊ณผ ์์ฝ]
x์ ๋ํ ์ฃผ๋ณ ๊ฐ์ฐ์์ ๋ถํฌ์ x๊ฐ ์ฃผ์ด์ง ๊ฒฝ์ฐ y์ ๋ํ ์กฐ๊ฑด๋ถ ๊ฐ์ฐ์์ ๋ถํฌ๊ฐ ์๋์ ๊ฐ์ด ์ฃผ์ด์ง ๋:
y์ ์ฃผ๋ณ ๋ถํฌ์ y๊ฐ ์ฃผ์ด์ง ๊ฒฝ์ฐ x์ ์กฐ๊ฑด๋ถ ๋ถํฌ๋ ์๋์ ๊ฐ๋ค:
2.7 Maximum Likelihood
๋ค๋ณ๋ ๊ฐ์ฐ์์ ๋ถํฌ์์ i.i.d์ {xn} Dataset: X = (x1,...,xN )T์, Log Likelihoodํจ์๊ฐ ์๋์ ๊ฐ์ด ์ฃผ์ด์ง ๋,
ํด๋น ๋ถํฌ์ ๋งค๊ฐ๋ณ์์ ๋ํ MLE๋ฅผ ์งํํด๋ณด์.
๋จผ์ , Likelihoodํจ์๋ Dataset์ ๋ํด ์๋ ๋ ๊ฐ์ ์์กดํ๋ค.
์ด๋, ๋ ๊ฐ์ Gaussian Distribution์ Sufficient Statistics๋ก ์๋ ค์ ธ์๋ค.
์ฐธ๊ณ ์ 1.์ ์ํด μ์ ๋ํ Log Likelihood๋ํจ์๋ ๋ค์๊ณผ ๊ฐ๋ค:
MLE:
μ: ์ด ๋ํจ์๋ฅผ 0์ผ๋ก ์ค์ , ML์ ํ๊ท ์ ๋ํ ํด๋ฅผ ์ป๋๋ค. ์ต๋ ์ฐ๋ ์ถ์ ์ ํ๊ท ์ ๋ํ ํด๋ฅผ ์ป์ ์ ์๋ค:
์ด๋ Dataset point์ ํ๊ท ๊ฐ์ด๋ค.
Σ: Log Likelihoodํจ์์์ Σ์ ๋ํด ์ต๋ํํ๋ ๊ฒ์ ๋ ๋ณต์กํ๋ค.
๊ฐ์ฅ ๊ฐ๋จํ ๋ฐฉ๋ฒ์ ๋์นญ ์ ์ฝ ์กฐ๊ฑด์ ๋ฌด์ํ๊ณ ๊ฒฐ๊ณผ์ ์ธ ํด๊ฐ ์๊ตฌ๋๋ ๋๋ก ๋์นญ์ธ์ง๋ฅผ ๋ณด์ฌ์ฃผ๋ ๊ฒ์ด๋ค.
→ [Magnus&Neudecker์ ๋์์ ์ ๋๋ฐฉ๋ฒ]: ๋ช ์์ ์ผ๋ก ๋์นญ ๋ฐ ์์ ์ ๋ถํธ ์ ์ฝ ์กฐ๊ฑด์ ๋ถ๊ณผ.
๊ฒฐ๊ณผ๋ ์์ ๊ฐ์ด μ ๋ฐ Σ์ ๋ํ ๊ฒฐํฉ ์ต๋ํ์ ๊ฒฐ๊ณผ์ด๋ฏ๋ก μML์ด ํฌํจ๋์ด ์๋ค.
์ด๋, μML์ ΣML์ ์์กดํ์ง ์์ผ๋ฏ๋ก ๋จผ์ μML์ ๊ณ์ฐํ ๋ค์ ์ด๋ฅผ ์ฌ์ฉํ์ฌ ΣML์ ํ๊ฐํด์ผํ๋ค.
๋ฐ๋ผ์ ML๊ฐ์ ๊ธฐ๋๊ฐ์ ์ค์ ๋ถํฌํ์์ ๊ณ์ฐํ๋ฉด ์์ ๊ฐ๋ค.
[โ๏ธ์ ์ํ ์ โ๏ธ]:
ํ๊ท ์ ๋ํ MLE๊ธฐ๋๊ฐ์ ์ค์ ํ๊ท ๊ณผ ๊ฐ์ง๋ง,
๊ณต๋ถ์ฐ์ ๋ํ MLE ๊ธฐ๋๊ฐ์ด ์ค์ ๊ฐ๋ณด๋ค ์๊ธฐ ๋๋ฌธ์ ํธํฅ๋์ด ์๋ค๋ ๊ฒ.
์ด ํธํฅ์ ์์ ํ๋ ค๋ฉด ๋ค๋ฅธ ์ถ์ ๋์ ์ ์ํ๋ฉด ๋๋ค:
2.8 Sequential estimation
MLE๋ ์ ์ฒด Dataset์ ํ๋ฒ์ ๊ณ ๋ คํ๋ ์ผ๊ด์ฒ๋ฆฌ(batch)๋ฐฉ๋ฒ์ด๋ค.
Sequential๋ฐฉ๋ฒ์ Data point๋ฅผ ํ๋ฒ์ ํ๋์ฉ ์ฒ๋ฆฌ ํ ๋ฒ๋ฆฌ๋ ๋ฐฉ๋ฒ์ด๋ค.
ํ๊ท μ์ ๋ํ ์ต๋ ์ฐ๋ ์ถ์ ์น์ ๊ฒฐ๊ณผ๋ฅผ ๊ณ ๋ คํด๋ณด์:
μML(N):๊ด์ธก๊ฐ N์ ๊ธฐ๋ฐ ํ๊ท .
์ด์ , ์ต์ข datapoint xN์ contribution์ ๋ถ๋ฆฌํ๋ฉด ์๋์ ๊ฐ๋ค: ํด์)
(N-1)๊ฐ์ ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ๊ด์ธกํ ํ, μ์ μML(N −1)๋ก ์ถ์
์ด์ data point xN์ ๊ด์ธก → ์ฐ๋ฆฌ๋ ์ค๋๋ ์ถ์ ์น๋ฅผ '์๋ฌ ์ ํธ' (xN − μML(N−1))์ ๋ฐฉํฅ์ผ๋ก ์์ ์๋งํผ ์ด๋ → ์์ ๋ ์ถ์ ์น μML(N)๋ฅผ ์ป์.
์ด๋, N์ด ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ฐ์์ ์ธ data point์์์ contribution์ด ์ค์ด๋ ๋ค๋ ์ ์ ์ ์ํด์ผํ๋ค.
์ฆ, data point์๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ๊ฐ๊ฐ์ data point๊ฐ ์ ์ฒด ๊ฒฐ๊ณผ์ ๋ฏธ์น๋ ์ํฅ์ด ์์์ง๋ค๋ ๊ฒ์ด๋ค.
2.9 Mixtures of Gaussians
[Gaussian๋ถํฌ์ ์ฃผ์ํ๊ณ]
์๋ Figure 3.6(a)์ ๋์ ์๋ ์์๋ฅผ ๋ณด์.
(Old Faithful Dataset: Yellowstone National Park์ Old Faithful ์ง์ฅ ํ๊ตฌ์ ํญ๋ฐ์ 272๋ฒ ์ธก์ ํ ๋ฐ์ดํฐ;
(๊ฐ๋ก ์ถ): ํญ๋ฐ์ง์์๊ฐ, (์ธ๋ก ์ถ): ๋ค์ ํญ๋ฐ๊น์ง์ ์๊ฐ)
์ด๋, Dataset์ 2๊ฐ์ cluster๋ฅผ ํ์ฑํ๋๋ฐ, ๋จ์ Gaussian๋ถํฌ๋ ์ด ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉํ ์ ์๋ค.
2๊ฐ์ Gaussian์ ํฉ์ฑํ ๊ฒ์ด ์ด Dataset๊ตฌ์กฐ๋ฅผ ํจ์ฌ ๋ ์ ๋ํ๋ผ ๊ฒ์ผ๋ก ๊ธฐ๋ํ๋๋ฐ, ์ด๋ Figure 3.6(b)์์ ํ์ธ๊ฐ๋ฅํ๋ค.
ํฉ์ฑ Gaussian ๋ชจ๋ธ:
Gaussian์ฒ๋ผ ๊ธฐ๋ณธ์ ์ธ ๋ถํฌ์ ์ ํ์กฐํฉ์ผ๋ก ์ด๋ค์ง ํ๋ฅ ์ ๋ชจ๋ธ.
๋ณด๋ค ์ผ๋ฐ์ ์ผ๋ก ํผํฉ ๋ชจ๋ธ์ ์ด์ง ๋ณ์์ ๋ํ ๋ฒ ๋ฅด๋์ด ๋ถํฌ์ ํผํฉ๊ณผ ๊ฐ์ด ๋ค๋ฅธ ๋ถํฌ์ ์ ํ ์กฐํฉ์ผ๋ก ๊ตฌ์ฑ๋ ์ ์๋๋ฐ,
Figure 3.7์์ Gaussian์ ์ ํ์กฐํฉ์ด ๋งค์ฐ ๋ณต์กํ ๋ฐ๋๋ฅผ ์์ฑํจ์ ํ์ธ๊ฐ๋ฅํ๋ค:
โ ์ถฉ๋ถํ ์์ ๊ฐ์ฐ์์์ ์ฌ์ฉํ๊ณ
โ ํ๊ท ๋ฐ ๊ณต๋ถ์ฐ๋ฟ๋ง ์๋๋ผ ์ ํ ์กฐํฉ์์์ ๊ณ์๋ฅผ ์กฐ์
→ ๊ฑฐ์ ๋ชจ๋ ์ฐ์ ๋ถํฌ๋ฅผ ์ํ๋ ์ ํ๋๋ก ๊ทผ์ฌํํ ์ ์๋ค.
๋ฐ๋ผ์ ์๋์ ๊ฐ์ K๊ฐ์ Gaussian๋ฐ๋์ ํฉ์ผ๋ก ํํ๋๋ ํ์์ Mixture Gaussian์ ๊ณ ๋ ค๊ฐ๋ฅํ๋ค.
๊ฐ ๊ฐ์ฐ์์ ๋ฐ๋ N (x|μk , Σk )๋ ํผํฉ์ ๊ตฌ์ฑ ์์์ด๋ฉฐ ๊ฐ๊ฐ ์์ฒด์ ํ๊ท μk ๋ฐ ๊ณต๋ถ์ฐ Σk๋ฅผ ๊ฐ๋๋ค.
์๋ Figure 3.8์ 3๊ฐ์ง ๊ตฌ์ฑ ์์๊ฐ ์๋ 2์ฐจ์ Gaussian Mixture์ ๋ฑ๊ณ ์ ๋ฐ ํ๋ฉด์ ๋ณผ ์ ์๋ค.
์ด๋, ์ p(x) ์์ πk๋ฅผ ํผํฉ ๊ณ์๋ผ๊ณ ํ๋๋ฐ, ์ด ์์ ์๋ณ์ x์ ๋ํด ์ ๋ถํ๊ณ p(x)์ ๊ฐ๋ณ ๊ฐ์ฐ์์ ๊ตฌ์ฑ ์์๊ฐ ๋ชจ๋ ์ ๊ทํ๋์ด ์๋ค๋ ์ฌ์ค์ ๊ณ ๋ คํ๋ฉด ์๋ ์์ด ๋๋ค:
N(x|μk , Σk) ≥ 0์ด๊ณ ๋ชจ๋ k์ ๋ํด, πk ≥0์ด p(x) ≥ 0์ ์ถฉ๋ถ์กฐ๊ฑด.
์ด๋, ์ด ์กฐ๊ฑด์ ์ ์กฐ๊ฑด๊ณผ ๊ฒฐํฉํ๋ฉด ์๋์ ๊ฐ๋ค:
๋ฐ๋ผ์ ํผํฉ ๊ณ์๊ฐ ํ๋ฅ ๋ก ํด์๋ ์ ์๋ ์กฐ๊ฑด์ ์ถฉ์กฑ์ํค๊ณ ํผํฉ ๋ถํฌ์ ์ด๋ฌํ ํ๋ฅ ์ ํด์์ด ๋งค์ฐ ๊ฐ๋ ฅํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
ํฉ๊ณผ ๊ณฑ์ ๋ฒ์น์์ ์ฃผ๋ณ ๋ฐ๋๋ ์๋์ ๊ฐ์๋ฐ, ์ด๋ p(x)์๊ณผ ๊ฐ์์ ๋ณผ ์ ์๋ค:
์ด๋, πk = p(k)๋ฅผ k๋ฒ์งธ ๊ตฌ์ฑ ์์๋ฅผ ์ ํํ ์ฌ์ ํ๋ฅ ๋ก ๋ณผ ์ ์๊ณ
N(x|μk,Σk) = p(x|k)๋ฅผ k์ ์กฐ๊ฑด์ ๋ x์ ํ๋ฅ ๋ก ๋ณผ ์ ์๋๋ฐ,
์ด๋ posterior ํ๋ฅ p(k|x) ๋๋ ์ฑ ์์ด๋ผ๊ณ ๋ ๋ถ๋ฆฌ๋ ์ฌํ ํ๋ฅ ์ด๋ผ ํ๋ค.
Gaussian Mixture๋ π, μ, Σ์ ์ํด ๊ฒฐ์ ๋๋๋ฐ, ์ด ๊ฐ ๊ฒฐ์ ๋ฐฉ๋ฒ ์ค ํ๋๋ MLE์ด๋ค.
(์ด๋ π ≡ {π1,...,πK}, μ ≡ {μ1,...,μK}, ๋ฐ Σ ≡ {Σ1,...ΣK} ๋ก ํ๊ธฐ๋จ.)
p(x)์์ Log Likelihood๋ ์๋์ ๊ฐ์ด ์ฃผ์ด์ง๋ค:
์ด๋, ๋จ๋ฒ์ single Gaussian๋ณด๋ค ํจ์ฌ ๋ณต์กํจ์ ์ ์ ์๊ธฐ์ ๋งค๊ฐ ๋ณ์์ ๋ํด MLE์ ํด๋ ๋ ์ด์ ๋ซํ ํํ์ ํด๊ฐ ์๋๋ค.
3. Periodic Variables
prev.
Gaussian: ๊ธฐ๋ณธ ๊ณจ์กฐ๋ก์จ ์ค์ํ๊ธด ํ๋ ์ฐ์ํ๋ฅ ๋ฐ๋๋ชจ๋ธ๋ก์จ ๋ถ์ ์ ํ ์ํฉ์ด ์กด์ฌ.
ex) ์ฃผ๊ธฐ์ฑ์ ๊ฐ๋ ๋ณ์์ผ ๋. (ex. ํํฅ, ๋ฌ๋ ฅ์๊ฐ, ...)
์ด๋ฐ ์ฃผ๊ธฐ์ ๋ณ์์ ์์ ํธ์์ฑ์ ์ํด ๊ฐ๋์ขํ(๊ทน์ขํ) 0 ≤ θ < 2π๋ฅผ ์ฌ์ฉํ๋ค.
์ด๋, ์ฃผ๊ธฐ๋ณ์์ ๋ํ ๋ช ํํ๊ณ ํน๋ณํ ์ ๊ทผ๋ฐฉ์์ด ํ์ํ๋ฐ,
Gaussian๊ฐ์ ์ ํต์ ์ธ ๋ถํฌ์ ์ ์ฉ์ ์ ๊ทผ์ ์์ ์ ์์์ ์ธ ์ ํ์ ๊ฐํ๊ฒ ์์กดํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํ๊ธฐ ๋๋ฌธ์ด๋ค:
ex) ์๋ฅผ ๋ค์ด θ1 = 1° ๋ฐ θ2 = 359°์์ ๋ ๊ด์ธก์น์ ๋ํด ํ์ค ๋จ๋ณ๋ ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ์ฌ์ฉํ์ฌ ๋ชจ๋ธ์ ๋ง๋ ๋ค๋ฉด
์์ ์ 0°: ํ๋ณธ ํ๊ท =180°, ํ์ค ํธ์ฐจ=179°
์์ ์ 180°: ํ๋ณธํ๊ท =0°, ํ์ค ํธ์ฐจ=1°
3.1 Von Mises distribution
์ฃผ๊ธฐ๋ณ์ θ์ ๊ด์ธก์น Dataset D = {θ1, . . . , θN}์ ํ๊ท ์ ํ๊ฐํ๋ ๋ฌธ์ ๋ฅผ ์ดํด๋ณด์. (์ด๋, θ๋ ๋ผ๋์ ๋จ์๋ก ์ธก์ )
์ด๋ฏธ ๊ฐ๋จํ ํ๊ท ์ธ (θ1 + · · · + θN)/N์ด ์ขํ์ ๊ฐํ๊ฒ ์์กดํจ์ ์์์ ๋ณด์์ผ๋ฏ๋ก
ํ๊ท ์ ๋ถ๋ณ ์ธก์ ์ ์ฐพ๊ธฐ์ํด ๊ด์ธก์น๋ฅผ ๋จ์์ ์์ ์ ์ผ๋ก ๋ณผ ์ ์๋ค.
∴ ๋์ โฅxnโฅ = 1 (n = 1,...,N)์ธ ๋ ์ฐจ์ ๋จ์ ๋ฒกํฐ x1,...,xN๋ก ์ค๋ช ๋ ์ ์๋๋ฐ, ์๋ ๊ทธ๋ฆผ์ฒ๋ผ ๋ํ๋ผ ์ ์๋ค: ๋์ ์ด ๋ฒกํฐ๋ค {xn}์ ํ๊ท ์ ๊ณ์ฐํ๋ฉด ์๋์ ๊ฐ๋ค:
์ด์ , ์ด ํ๊ท ์ ํด๋น ๊ฐ๋ หθ๋ฅผ ์ฐพ์ ์ ์๋ค.
๋ช ๋ฐฑํ ์ด ์ ์๋ ๋ ์ฌ์ด(ํ๊ท ์ ์์น, ๊ฐ๋์ขํ์ ์์ )๊ฐ ๋ ๋ฆฝ์ ์์ ๋ณด์ฅํ๋ค.
์ฃผ์ํ ์ :
x๊ฐ ์ผ๋ฐ์ ์ผ๋ก ๋จ์์ ์์ ์์นํ๋ค๋ ๊ฒ.
๊ด์ธก์น์ ์ง๊ต ์ขํ๋ xn = (cos θn, sin θn)์ผ๋ก ์ฃผ์ด์ง๋ฉฐ,
์ฐ๋ฆฌ๋ ์ํ ํ๊ท ์ ์ง๊ต ์ขํ๋ฅผ x = (rcos หθ, rsin หθ)๋ก ์ธ ์ ์๋ค.
์ด๋ฅผ ์ ํ๊ท หx์์ ๋์ ํ๊ณ x1 ๋ฐ x2 ์ฑ๋ถ์ ๋๋ฑํ๊ฒ ํ๋ฉด ์๋ ๋ฑ์์ ๋์ถํ ์ ์๋ค: ์ฌ๊ธฐ์ tan θ = sin θ/ cos θ ํญ๋ฑ์์ ์ฌ์ฉํ๋ฉด หθ๋ฅผ ๊ตฌํ ์ ์๋ค:
์ด์ , ์ด ๊ฒฐ๊ณผ๊ฐ MLE๋ก ์์ฐ์ค๋ ๋์ถ๋๋ ๊ฒ์ ์ดํด๋ณด์.
Von Mises Distribution = ์ํ ์ ๊ท๋ถํฌ
Von Mises๋ถํฌ๋ Gaussian์ ์ฃผ๊ธฐ์ ์ผ๋ฐํ ๋ถํฌ์ด๋ค.
๊ด๋ก์ ์ผ๋ก ์ฃผ๊ธฐ=2π ๋ถํฌ p(θ)๋ฅผ ๊ณ ๋ คํ๋ค. θ์ ๋ํ ์ ์๋ ์ด๋ค ํ๋ฅ ๋ฐ๋ p(θ)๋ ๋จ์ํ ๋น์์์ด๊ณ 1๋ก ์ ๋ถ๋์ด์ผ ํ ๋ฟ๋ง ์๋๋ผ ์ฃผ๊ธฐ์ ์ด์ด์ผํ๋ฏ๋ก p(θ)๋ ์๋ 3์กฐ๊ฑด์ ๋ง์กฑํด์ผ ํ๋ค: p(θ+2π)=p(θ)์ ๋ฐ๋ผ p(θ + M2π) = p(θ)์ด๋ฉฐ ์ฌ๊ธฐ์ M์ ์์์ ์ ์์ด๋ค.
์ด 3๊ฐ์ง์์ฑ์ ๋ง์กฑํ๋ Gaussian๊ณผ ์ ์ฌํ ๋ถํฌ๋ฅผ ์ฝ๊ฒ ์ป์ ์ ์๋ค.
๋ค์๊ณผ ๊ฐ์ด ๋ ๋ณ์ x = (x1 , x2)์ ๋ํ Gaussian๋ถํฌ๋ฅผ ๊ณ ๋ คํ์.
์ด๋, ํ๊ท μ = (μ1, μ1)์ด๊ณ , ๊ณต๋ถ์ฐ ํ๋ ฌ Σ = σ2I์ด๋ฉฐ, ์ฌ๊ธฐ์ I ๋ 2 × 2 ํญ๋ฑ ํ๋ ฌ์ด๋ค: ์ด๋, ์์ p(x)์ ๋ฑ๊ณ ์ ์ ์ํ์ผ๋ก ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ๋ค.
์ด์ ์ผ์ ๋ฐ์ง๋ฆ์ ์ ์์์์ ์ด ๋ถํฌ๊ฐ์ ๊ณ ๋ คํด ๋ณด์.
์ด ๋ถํฌ๋ ๊ตฌ์ฑ์ ๋ฐ๋ผ ์ฃผ๊ธฐ์ ์ด์ง๋ง ์ ๊ทํ๋์ง ์์ ๊ฒ์ด๋ค.
์ด ๋ถํฌ์ ํํ๋ฅผ ๊ฒฐ์ ํ๋ ค๋ฉด ์ง๊ต ์ขํ (x1, x2)์์ ๊ทน์ขํ (r, θ)๋ก ๋ณํํ์ฌ
x1 = rcosθ, x2 = rsinθ๋ก ์์ฑํด์ผํ๊ณ ,
๋ํ ํ๊ท μ๋ฅผ ๊ทน์ขํ๋ก ๋ณํํ์ฌ μ1 = r0 cosθ0, μ2 = r0 sinθ0๋ก ์์ฑํด์ผ ํ๋ค.
๊ทธ ํ ์ด๋ฌํ ๋ณํ์ ์๋ ์ด์ฐจ์ Gaussian๋ถํฌ์ ๋์ ํ์.
์ด์ , ๋จ์ ์ r = 1์์๋ง ๊ด์ฌ์ด ์์ผ๋ฏ๋ก θ์ ๋ํ ์์กด์ฑ์๋ง ์ฃผ์ํ์.
Gaussian๋ถํฌ์ ์ง์์ ์ค์ ์ ๋๋ฉด ์๋์ ๊ฐ๋ค:์ด๋, 'const'๋ θ์ ๋ ๋ฆฝ์ ์ธ ํญ์ด๋ค.
๋ํ, ์๋ ์ผ๊ฐํจ์ ํญ๋ฑ์์ ์ฌ์ฉํ๋ค:
์ด์ m = r0/σ2๋ก ์ ์ํ๋ฉด p(θ)์ ๋จ์์ ์์ ๋ถํฌ์ ๋ํ ์ต์ข ํํ์ ์ป๋๋ค:
์ด๊ฒ์ด ๋ฐ๋ก ํฐ ๋ฏธ์ ์ค ๋ถํฌ ๋๋ ์ํ ์ ๊ท๋ถํฌ๋ผ ๋ถ๋ฆฌ๋ ๋ถํฌ์ด๋ค!
θ0: ๋ถํฌ์ ํ๊ท , m: ์ง์ค(concentration) ๋งค๊ฐ ๋ณ์(โ Gaussian ์ญ๋ถ์ฐ(= ์ ๋ฐ๋))
I0(m): ์ ๊ทํ ๊ณ์(์ด๋ ์ฒซ ๋ฒ์งธ ์ข ๋ฅ์ ์์ ๋ ๋ฒ ์ ํจ์๋ก ์๋ ค์ ธ ์๋ค.)
์ด ํจ์๋ ํฐ m์ ๋ํด์๋ ๋ถํฌ๊ฐ ๊ทผ์ฌ์ ์ผ๋ก Gaussian์ด ๋๋ค.
Figure 3.11: ํฐ ๋ฏธ์ ์ค ๋ถํฌ
์ด์ ํฐ ๋ฏธ์ ์ค ๋ถํฌ์ ๋งค๊ฐ ๋ณ์ θ0 ๋ฐ m์ ๋ํ MLE๊ฐ์ ๊ตฌํด๋ณด์.
Log Likelihoodํจ์: θ0์ ๋ํ ๋ํจ์๋ฅผ 0์ผ๋ก ๋์ผ๋ฉด ์๋์ ๊ฐ๋ค. θ0๋ฅผ ๊ตฌํ๊ธฐ ์ํด ์ผ๊ฐ ํจ์ ํญ๋ฑ์ sin(A-B) = cosBsinA - cosAsinB๋ฅผ ์ฌ์ฉํ๋ฉด, ์๋ ๋ฑ์์ ์ป๋๋ค: ์ด๋ ์์ ์ด์ฐจ์ ์นดํ ์์(Cartesian) ๊ณต๊ฐ์์ ๊ด์ธก์น์ ํ๊ท ์ผ๋ก ๋ณผ ๋ ์ป์ ๊ฒฐ๊ณผ์ธ ์์ ์์์ฐจ๋ฆด ์ ์๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก Log Likelihoodํจ์๋ฅผ m์ ๋ํด ์ต๋ํํ๊ณ
I0′ (m) = I1(m) (Abramowitz and Stegun, 1965)์ ์ฌ์ฉํ๋ฉด ์๋์ ๊ฐ๋ค: ์ด๋, θ0ML์ ๋ํ MLE ํด๋ก ๋์ฒดํ๋ฉด, (θ ๋ฐ m์ ๋ํ ํฉ๋ ์ต์ ํ): ํจ์ A(m)์ Figure 3.12์ ๋์์๋ค.
๋ฐ๋ผ์ ์ผ๊ฐ ํจ์ ํญ๋ฑ์ cos(A-B)๋ก A(mML)์ ์ฐํญ์ ์๋์ฒ๋ผ ์ฝ๊ฒ ๊ณ์ฐํ ์ ์๋ค: ์ด๋, ํจ์ A(m)์ ์ซ์๋ก ๋ค์ง์ ์ ์๋ค.
ํฐ ๋ฏธ์ ์ค ๋ถํฌ์ ํ ๊ฐ์ง ํ๊ณ์ : ๋จ๋ด์ฑ
๋ค์ค๋ชจ์์ ์ฒ๋ฆฌํ ์ ์๋ ์ฃผ๊ธฐ ๋ณ์๋ฅผ ๋ชจ๋ธ๋งํ๊ธฐ ์ํด์
→ ํฐ ๋ฏธ์ ์ค ๋ถํฌ์ ํผํฉ์ฒด๋ฅผ ํ์ฑํจ์ผ๋ก์จ, ์ ์ฐํ ํ๋ ์์ํฌ๋ฅผ ์ป๋๋ค.
4. The Exponential Family
prev.
ํผํฉ ๋ชจ๋ธ๋ฅผ ์ ์ธํ๋ฉด, ์ด๋ฒ ์ฅ์์์ ๋ชจ๋ ๋ถํฌ๋ค์ "์ง์์กฑ"์ด๋ผ ๋ถ๋ฅธ๋ค.
์ง์์กฑ์ ํน์ฑ์ ๋ํด ์์๋ณด์.
x์ ๋ํ ์ง์์กฑ ๋ถํฌ๋ ๋งค๊ฐ ๋ณ์ η๊ฐ ์ฃผ์ด์ง ๊ฒฝ์ฐ ์๋ ๋ถํฌ๋ก ์ ์๋๋ค: u(x): xํจ์
g(η): ๋ถํฌ ์ ๊ทํ(normalized) ๊ณ์์ด๋ฏ๋ก ์๋๋ฅผ ๋ง์กฑ:
[Bernoulli Distribution]:
์์ ๊ฐ์ด ์ ์๋๋๋ฐ, ์ด๋ฅผ μ์ ๋ํด ํ๋ฉด ์๋ ์์ ์ป๋๋ฐ, ์ด๋ฅผ Logistic Sigmoidํจ์๋ผ ๋ถ๋ฅธ๋ค.
์ป์ ์ ์์ผ๋ฉฐ, ์ฌ๊ธฐ์ (3.143)์ ๋ก์ง์คํฑ ์๊ทธ๋ชจ์ด๋ ํจ์๋ก ๋ถ๋ฆฝ๋๋ค.
๋ฐ๋ผ์ Bernoulli ๋ถํฌ์ 1 - σ(η) = σ(−η)๋ฅผ ์ด์ฉํ๋ฉด, ํ์ค ํํ์ ์๋์ ๊ฐ๋ค:
[Multinomial Distribution]:
์ฌ๊ธฐ์์ μk์์ Softmaxํจ์ ํน์ ์ ๊ทํ์ง์(normalized exponential)๋ผ ๋ถ๋ฅธ๋ค.
[Gaussian Distribution]:
๋๋ก๋ u(x) = x๋ฅผ ํตํด ์ ํ๋ Gaussian์ฌ์ฉ์ด ๊ฐ๋ฅํ๋ค.
๊ทธ๋ฌ๋ ์ด๋ f(x)๊ฐ ์ ๊ทํ๋ ๋ฐ๋์ผ ๋ ์๋ ์๋ ์ ๊ทํ๋ ๋ฐ๋๊ฐ ๋จ์ ๊ณ ๋ คํ๋ฉด, ๋ค์ ์ผ๋ฐํ ๋ ์ ์๋ค: ์ด๋ฅผ ๊ฒฐํฉํ๋ฉด ์๋ ํํ๋ก ํํ๋๋ ์ ํ๋ ์ง์์กฑ ํด๋์ค ์กฐ๊ฑด๋ถ๋ฐ๋๋ฅผ ์ป๋๋ค. ์ฃผ์ํ ์ : ๊ฐ ํด๋์ค๊ฐ ์์ฒด์ ๋งค๊ฐ๋ณ์ ๋ฒกํฐ λk๋ฅผ ๊ฐ์ง๊ณ ์์ง๋ง
ํด๋์ค๊ฐ ๋์ผํ ์ค์ผ์ผ ๋งค๊ฐ๋ณ์ s๋ฅผ ๊ณต์ ํ๋ค๊ณ ๊ฐ์ ํ๋ค๋ ๊ฒ.
4.1 Sufficient statistics
MLE๋ก ์ผ๋ฐ ์ง์์กฑ ์์ ๋งค๊ฐ ๋ณ์ ๋ฒกํฐ η๋ฅผ ์ถ์ ํด๋ณด์:
์ 2 ์๋ณ์ η์ ๋ํด ๋ฏธ๋ถ:
์ดํ ์ ์ฌ๋ฐฐ์ดํ๊ณ ๋ค์ ์ 2๋ฅผ ์ฌ์ฉํ๋ฉด:
u(x)์ ๊ณต๋ถ์ฐ: g(η)์ ์ด๊ณ๋ํจ์๋ก ํํ๊ฐ๋ฅ.
∴ ์ง์์กฑ๋ถํฌ ์ ๊ทํ ์, ๊ฐ๋จํ ๋ฏธ๋ถ์ผ๋ก ๋ชจ๋ฉํธ๋ฅผ ์ฐพ์ ์ ์๋ค.
i.i.d์ dataset X = {x1 , . . . , xn}์ ๋ํ Likelihoodํจ์:
lnp(X|η)์ η์ ๋ํ gradient = 0์ด๋ผ ํ๋ฉด, ์๋์ ๊ฐ์ ์กฐ๊ฑด์ ์ป์ ์ ์๋ค:
์ด๋ ์์น์ ์ผ๋ก ηML์ ์ป๊ธฐ ์ํด ํด๊ฒฐํ ์ ์๋ ์กฐ๊ฑด์ผ๋ก
MLE์ ํด๊ฐ ์1์ ์ถฉ๋ถํต๊ณ๋(sufficient statistics)์ธ ∑n u(xn)์ ํตํด
๋ฐ์ดํฐ ์์ฒด๋ฅผ ์ ์ฅํ ํ์๊ฐ ์๋ค๋ ์ ์ ์ฃผ๋ชฉํ์.
์ด๋, N → ∞์ ๊ทนํ์ ๊ณ ๋ คํ๋ฉด ์ 4์ ์ค๋ฅธ์ชฝ ํญ์ E[u(x)]๊ฐ ๋๋ฉฐ,
์ 3๊ณผ ๋น๊ตํ์ฌ ์ด ๊ทนํ์์ ηML์ด ์ค์ ๊ฐ η์ ๋์ผํ๊ฒ ๋จ์ ์ ์ ์๋ค.
ex)
Bernoulli Distribution:
ํจ์ u(x)๋ x๋ง์ผ๋ก ์ฃผ์ด์ง๋ฏ๋ก ๋ฐ์ดํฐ ํฌ์ธํธ {xn}์ ํฉ๋ง ์ ์งํ๋ฉด ๋จ.
Gaussian Distribution:
u(x) = (x, x2)T์ด๋ฏ๋ก {xn} ๋ฐ {x2n}์ ํฉ์ ๋ชจ๋ ์ ์งํ๋ค.
5. Nonparametric Methods
prev.
[๋ฐ๋๋ชจ๋ธ๋ง์ ๋ํ ๋ชจ์์ (parametrix) ์ ๊ทผ]:
Dataset์์ ๊ฒฐ์ ๋๋ ์์์ parameter๋ค๋ก ๊ท์ ๋๋ ํน์ ๊ธฐ๋ฅ์ ํํ์ ํ๋ฅ ๋ถํฌ๋ฅผ ์์๋ณด์.
์ ์ ๊ทผ์ ์ค์ํ ํ๊ณ์ :
์ ํํ ๋ฐ๋๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ๋ถํฌ์ ๋ชจํ์ผ๋ก๋ถํฐ ๋ฒ์ด๋ ์ ์์.
→ ๋ถ์ ํํ ์์ธก ์ฑ๋ฅ์ ์ด๋ ๊ฐ๋ฅ.
ex) Multi-modal์ Data์ผ ๋, Gaussian์ผ๋ก๋ ๋ถํฌ์ ์ธก๋ฉด์ ํฌ์ฐฉํ๊ธฐ ํ๋ค๋ค.
(โต Gaussian์ uni-modality)
์ด์ ๋ํด ๋ถํฌ์ ํํ์ ๋ํ ์ ์ ๊ฐ์ ์ ํ๋ ๋ฐ๋์ถ์ ์ ๋ช๊ฐ์ง ๋น๋ชจ์์ ๋ฐฉ๋ฒ(Histogram, KDE ๋ฑ)์ ๊ณ ๋ คํด๋ณผ ๊ฒ์ด๋ค.
5.1 Histograms
๋จ์ผ ์ฐ์ ๋ณ์ x์ ๋ํ histogram๋ฐ๋๋ชจ๋ธ์ ํน์ฑ์ ์ดํด๋ณด์.
ํ์ค ํ์คํ ๊ทธ๋จ: x๋ฅผ ํญ โi๋ก ๊ตฌ๋ถ, ๋ค์ i๋ฒ์งธ bin์ ์ํ๋ x์ ๊ด์ธก์น ์ ni๋ฅผ count.
๐ค ์ด count๋ฅผ ์ ๊ทํ ๋ ํ๋ฅ ๋ฐ๋๋ก ๋ณํํ๋ ค๋ฉด?
→ ๊ฐ๋จํ ์ด ๊ด์ธก ์ N๊ณผ bin์ ํญ โi๋ก ๋๋์ด ๊ฐ bin์ ๋ํ ํ๋ฅ ๊ฐ์ ์ป๋๋ค:
์ด๋, ∫p(x)dx = 1์ธ ๊ฒ์ด ์ฝ๊ฒ ํ์ธ๊ฐ๋ฅํ๋ฉฐ, ์ข ์ข bin์ ๋์ผํ ํญ โi = โ๋ฅผ ๊ฐ์ง๋๋ก ์ ํ๋๋ค.
cf) bins: ๋ง๋๊ธฐ ๊ฐ์๋ฅผ ์๋ฏธ.
์ ๊ทธ๋ฆผ์ ํ์คํ ๊ทธ๋จ ๋ฐ๋ ์ถ์ ์ ์์๋ก
2๊ฐ์ ํผํฉ Gaussian์ ๋ น์ ๊ณก์ ๋ถํฌ์์ Data ์ถ์ถ,
์ธ ๊ฐ์ง ๋ค๋ฅธ bin ํญ โ์ ํด๋นํ๋ ํ์คํ ๊ทธ๋จ ๋ฐ๋ ์ถ์ ์ ์๊ฐ ํ์.
โ โ๊ฐ ๋งค์ฐ ์์ ๊ฒฝ์ฐ: ๋ฐ๋ ๋ชจ๋ธ์ ๋งค์ฐ ๋พฐ์กฑ = ๊ธฐ๋ณธ Dataset์ ์๋ ๊ตฌ์กฐ
โ โ๊ฐ ๋๋ฌด ํฐ ๊ฒฝ์ฐ: ๋๋ฌด ๋งค๋๋ฝ๊ณ ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ น์ ๊ณก์ ์ ์ด์ค ๋ชจ์ ํน์ฑ์ ํฌ์ฐฉโ
โ โ์ ์ต์ ๊ฐ์ ์์น์ ์ผ๋ก โ์ ์ค๊ฐ ๊ฐ์์ ์ป์ด์ง๋ค
์์น์ ์ผ๋ก ํ์คํ ๊ทธ๋จ ๋ฐ๋ ๋ชจ๋ธ์ bin์ ๊ฐ์ฅ์๋ฆฌ ์์น์ ์ ํ์๋ ์์กดํ์ง๋ง
์ด๋ ์ผ๋ฐ์ ์ผ๋ก bin ํญ โ๋ณด๋ค ํจ์ฌ ์ค์ํ์ง๋ ์๋ค.
์ฅ๋จ์ (feat. ์ฐจ์์ ์ ์ฃผ)
ํ์คํ ๊ทธ๋จ ๋ฐฉ๋ฒ์ ํ์ ๋๋ ๋ฐฉ๋ฒ๋ค๊ณผ ๋ค๋ฅธ ํน์ฑ์ ๊ฐ๊ธฐ์ histogram๊ณ์ฐ ์ดํ Dataset์์ฒด๊ฐ ํ์์์ด์ง๋ค.
→ Dataset์ด ํฐ ๊ฒฝ์ฐ ์ ๋ฆฌ & Data point๊ฐ ์์ฐจ์ ์ผ๋ก ๋์ฐฉ ์ ์ฝ๊ฒ ์ ์ฉ ๊ฐ๋ฅ.
→ ์ด๋ ๋น ๋ฅธ ์๊ฐํ์๋ ์ ๋ฆฌํ๋ ๋๋ถ๋ถ์ ๋ฐ๋์ถ์ ์์ฉ ์์๋ ๋ถ์ ํฉํจ์ ์๋ฏธ.
Prob) ์ถ์ ๋ ๋ฐ๋๊ฐ ๋ฐ์ดํฐ๋ฅผ ์์ฑ ํ ๊ธฐ๋ณธ ๋ถํฌ์ ํน์ฑ์ด ์๋ bin ๊ฐ์ฅ์๋ฆฌ์ ์ํ ์ด์ฐ์ฑ์ ๊ฐ๋๋ค๋ ๊ฒ.
Limit) ์ฐจ์์ ๋ฐ๋ฅธ ์ค์ผ์ผ๋ง:
D ์ฐจ์ ๊ณต๊ฐ์ ๊ฐ ๋ณ์๋ฅผ M ๊ฐ์ bin์ผ๋ก ๋๋๋ฉด ์ด bin ์๋ MD.
D์์ ์ด ์ง์์ ์ธ ์ค์ผ์ผ๋ง์ ์ฐจ์์ ์ ์ฃผ(Curse of dimensionality)์ ํ ์์๋ก ๊ณ ์ฐจ์ ๊ณต๊ฐ์์ ์ง์ญ ํ๋ฅ ๋ฐ๋์ ์๋ฏธ ์๋ ์ถ์ ์น๋ฅผ ์ป๊ธฐ ์ํด ํ์ํ ๋ฐ์ดํฐ ์์ด ๋ฐฉ๋ ํ ๊ฒ์์ ์๋ฏธํ๋ค.
important Lesson)
โ ํน์ ์์น์์ ํ๋ฅ ๋ฐ๋๋ฅผ ์ถ์ ์, ํด๋น ์ง์ ์ ์ผ๋ถ ๊ทผ์ฒ์ ์๋ Data point๋ฅผ ๊ณ ๋ คํด์ผํจ.
์ด๋ฐ locality๊ฐ๋ ์ ์ด๋ค ์ข ๋ฅ์ ๊ฑฐ๋ฆฌ ์ธก์ ์ ๊ฐ์ ํด์ผ ํจ์ ์๋ฏธ. (ex) ์ฌ๊ธฐ์๋ ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ๋ฅผ ๊ฐ์ .)
locality ์์ฑ์ bin์ ์ํด ์ ์, bin ํญ์ local์์ญ์ ๊ณต๊ฐ๋ฒ์๋ฅผ ๋ํ๋ด๋ ์์ฐ์ค๋ฌ์ด 'smoothing' ๋งค๊ฐ ๋ณ์๊ฐ ์กด์ฌ.
โก ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ผ๋ ค๋ฉด smoothign๋งค๊ฐ ๋ณ์์ ๊ฐ์ด ๋๋ฌด ํฌ์ง ์์์ผ ํ๋ฉฐ ๋๋ฌด ์์ง ์์์ผ ํ๋ค.
๋คํญ์์ ์ฐจ์ M ๋๋ ์ ๊ทํ ๋งค๊ฐ ๋ณ์ ๊ฐ λ์ด ์ค๊ฐ ๊ฐ์ ์ต์ ํ๋ ๊ฒ๊ณผ ๋น์ท.
๊ทธ๋ ๊ธฐ์ Dimension Scaling์ ์ข ๋ ๋์ 2๊ฐ์ง nonparametric๊ธฐ์ ์ธ Kernel Density์ K-NN์ ๋ํด ์์๋ณด์.
5.2 Kernel Densities
๊ฐ์ ์ ๋ฐ๋ฅด๋ฉด ์ด๋ค ์๋ ค์ง์ง ์์ ํ๋ฅ ๋ฐ๋ p(x)์์ D-์ฐจ์ ๊ณต๊ฐ(์ ํด๋ฆฌ๋ ๊ณต๊ฐ์ผ๋ก ๊ฐ์ .)์ผ๋ก๋ถํฐ ๊ด์ธก์น๊ฐ ์ถ์ถ๋๊ณ p(x)์ ๊ฐ์ ์ถ์ ํด๋ณด์.
Locality์ ๋ํ ์ด์ ๋ ผ์์์ x๋ฅผ ํฌํจํ๋ ์์ ์์ญ R์ ๊ณ ๋ คํด ๋ณผ ๋, ์ด ์์ญ๊ณผ ์ฐ๊ด๋ ํ๋ฅ ์ง๋์ ์๋์ ๊ฐ๋ค:
์ด์ p(x)์์ ์ถ์ถ ๋ N๊ฐ์ ๊ด์ธก์น๋ก ๊ตฌ์ฑ๋ Dataset์ ์์งํ๋ค ๊ฐ์ ํ์.
๊ฐ Data point๊ฐ R ์์ญ ๋ด์ ์์นํ ํ๋ฅ P๊ฐ ์์ผ๋ฏ๋ก
์์ญ R ๋ด์ ์์นํ ์ ์ ์ด ์ K๋ ์ดํญ ๋ถํฌ๋ฅผ ๋ฐ๋ฅธ๋ค: ์ ์ ํ๊ท ๋น์จ์ด E[K/N] = P์ด๊ณ , ์ด ์ฃผ๋ณ์ ๋ถ์ฐ์ด var[K/N] = P(1 - P)/N์ด๋ฏ๋ก
ํฐ N์ ๋ํด์ ์ด ๋ถํฌ๋ ํ๊ท ์ฃผ๋ณ์ ๋ ์นด๋กญ๊ฒ ํผํฌ๋ ๊ฒ์ด๋ฏ๋ก ์๋์ ๊ฐ๋ค: ๊ทธ๋ฌ๋ ์์ญ R์ด ํ๋ฅ ๋ฐ๋ p(x)๊ฐ ๋๋ต์ ์ผ๋ก ํด๋น ์์ญ ์ ์ฒด์์ ์์์ผ ๋งํผ ์ถฉ๋ถํ ์๋ค๊ณ ๊ฐ์ ํ๋ฉด P โ p(x)V๋ก ํํํ ์ ์๋ค. ์ฌ๊ธฐ์ V๋ R์ ๋ถํผ์ด๋ฏ๋ก ์์ K์ ๋ํ ๋ฑ์๊ณผ ์๋ P์ ๋ํ ๋ฑ์์ ๊ฒฐํฉํ๋ฉด, ๋ฐ๋ ์ถ์ ์น๋ ๋ค์๊ณผ ๊ฐ์ ํํ๋ก ์ป์ ์ ์๋ค: ์์ p(x)์ ์ ํจ์ฑ์ R ์์ญ์ด ๋ฐ๋๊ฐ ๋๋ต์ ์ผ๋ก ํด๋น ์์ญ ์ ์ฒด์์ ์์์ด๋ฉฐ
๋์์ R ๋ด์ ๋จ์ด์ง๋ ์ ์ ์ K๊ฐ ์ดํญ ๋ถํฌ๊ฐ ๋ ์นด๋ก์ด ํผํฌ๋ฅผ ๊ฐ์ง๋๋ก ์ถฉ๋ถํ ํฌ๋ค๋ ๋ ๊ฐ์ง ๋ชจ์๋ ๊ฐ์ ์ ์์กดํ๋ค.
์์ p(x)๊ฒฐ๊ณผ๋ฅผ 2๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ํ์ฉ๊ฐ๋ฅํ๋ค.
โ Data์์ V์ ๊ฐ์ ๊ฒฐ์ →K์ ๊ฐ์ ์ป๋ ๊ฒ์ผ๋ก ๊ณ ์ . (์ด๋ ์๋ 5.3์ K-NN๊ธฐ๋ฒ์ ๋์ถํ๋ค)
โก ์ฐ๋ฆฌ๋ V๋ฅผ ๊ณ ์ ํ๊ณ ๋ฐ์ดํฐ์์ K๋ฅผ ๊ฒฐ์ . (์ด๋ ์ปค๋ ์ ๊ทผ์ ๋์ถํ๋ค.)
K-NN๊ณผ Kernel๋ฐ๋ ๋ชจ๋ V๊ฐ N๊ณผ ํจ๊ป ์ถ์๋๊ณ K๊ฐ N๊ณผ ํจ๊ป ์ ์ ํ ์๋๋ก ์ฆ๊ฐํจ์ ๋ฐ๋ผ N → ∞๋ก ์๋ ดํ๋ค. (Duda ๋ฐ Hart, 1973).
๋จผ์ Kernel๋ฐฉ๋ฒ์ ๋ํด ์์ธํ ์์๋ณด์.
์ผ๋จ ์์ญ R์ x๋ฅผ ์ค์ฌ์ผ๋ก ํ ์์ ์ด์ ๋ฐฉ(hypercube)์ผ๋ก ์ทจํ๋ค.
์ด ์์ญ ๋ด์ ์๋ ์ ์ ์ K๋ฅผ ์ธ๊ธฐ ์ํด ์๋์ ๊ฐ์ ํจ์๋ฅผ ์ ์ํ๋ ๊ฒ์ด ํธ๋ฆฌํ๋ค. ์ ํจ์๋ ์์ ์ ์ค์ฌ์ผ๋ก ํ๋ ๋จ์ ํ๋ธ๋ฅผ ๋ํ๋ด๋ ๊ฒ์ผ๋ก ์ปค๋ ํจ์์ ์์์ด๋ฉฐ
์ด ๋ฌธ๋งฅ์์๋ Parzen window๋ผ๊ณ ๋ ํ๋ค.
์ ํจ์์์ (x - xn)/h์ ์์ด 1์ด ๋ ๊ฒ์ด๋ฉฐ, ๊ทธ๋ ์ง ์์ผ๋ฉด 0์ด ๋๋ฏ๋ก ์ด cube๋ด์ Data point ์ด ์๋ ์๋์ ๊ฐ๋ค:์ด ์์ k(u)์ ๋์ ํ๋ฉด x์์ ์ถ์ ๋ ๋ฐ๋์ ๋ํ ์๋์ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ์ป๋๋ค:
์ด๋, ์ฐจ์ D์์ ํ ๋ณ์ด h์ธ ์ด์ ๋ฐฉ์ ๋ถํผ๋ก V = hD๋ฅผ ์ฌ์ฉํ๋ฉฐ, ํจ์ k(u)์ ๋์นญ์ฑ์ ์ฌ์ฉํ์ฌ ์ด ๋ฐฉ์ ์์ ์ด์ x๋ฅผ ์ค์ฌ์ผ๋ก ํ๋ ๋จ์ผ ํ๋ธ ๋์ N ๋ฐ์ดํฐ ํฌ์ธํธ ์ค์ฌ์ N ํ๋ธ๋ก ํด์ํ ์ ์๋ค.
์์ ์ปค๋ ๋ฐ๋ ์ถ์ ๊ธฐ์ p(x)๋ ํ์คํ ๊ทธ๋จ ๋ฐฉ๋ฒ์ด ๊ฒช์๋ ๋ฌธ์ (= ์ฆ ํ๋ธ์ ๊ฒฝ๊ณ์์์ ์ธ์์ ์ธ ๋ถ์ฐ์์ฑ ๋ฌธ์ ์ ๋์ผํ ๋ฌธ์ )๊ฐ ๋ฐ์ํ๋ค.
๋ ๋ถ๋๋ฌ์ด ์ปค๋ ํจ์๋ฅผ ์ ํํ๋ฉด ๋ ๋ถ๋๋ฌ์ด ๋ฐ๋ ๋ชจ๋ธ์ ์ป์ ์ ์์ผ๋ฉฐ, ํํ ์ ํํ๋ ๊ฒ์ Gaussian์ด๋ฏ๋ก ๋ค์๊ณผ ๊ฐ์ ์ปค๋ ๋ฐ๋ ๋ชจ๋ธ์ด ์์ฑ๋๋ค:
์ฌ๊ธฐ์ h๋ ๊ฐ์ฐ์์ ๊ตฌ์ฑ ์์์ ํ์ค ํธ์ฐจ์ด๋ฏ๋ก ์ฐ๋ฆฌ์ ๋ฐ๋ ๋ชจ๋ธ์ ๊ฐ ๋ฐ์ดํฐ ํฌ์ธํธ ์์ ๊ฐ์ฐ์์์ ๋ฐฐ์นํ๊ณ ์ ์ฒด ๋ฐ์ดํฐ ์ธํธ์์ ๊ธฐ์ฌ๋ฅผ ํฉ์ฐ ํ ๋ค์ N์ผ๋ก ๋๋์ด ๋ฐ๋๊ฐ ์ฌ๋ฐ๋ฅด๊ฒ ์ ๊ทํ๋๋ค. ์ ๊ทธ๋ฆผ์์๋ ์ด ๋ชจ๋ธ ์์ p(x)์์ ํ์คํ ๊ทธ๋จ์ ์ ์ฉํ๊ธฐ ์ํด ์ด์ ์ ์ฌ์ฉํ Dataset์ ์ ์ฉํ๋ค.
์ด๋ฅผ ํตํด h๊ฐ ํํํ ๋งค๊ฐ ๋ณ์์ ์ญํ ์ ํ๋ฉฐ,
์์ h์์์ ์ก์ ๊ฐ๋์ ํฐ h์์์ ๊ณผ๋ํ ํํํ ๊ฐ์ ๊ท ํ์ ์ ์งํ๋ ๊ฒ์ ๋ณผ ์ ์๋ค.
์ฆ, h์ ์ต์ ํ๋ ๋ชจ๋ธ ๋ณต์ก์ฑ ๋ฌธ์ ๋ก ํ์คํ ๊ทธ๋จ ๋ฐ๋ ์ถ์ ์์ bin ํญ์ ์ ํ์ด๋ ๊ณก์ ๋ง์ถค์ ์ฌ์ฉ๋๋ ๋คํญ์์ ์ฐจ์์ ์ ์ฌํ๋ค.
์ p(x)์์ ์ปค๋ ํจ์ k(u)๋ฅผ ์ฌ์ฉํ์ฌ p(x)๋ฅผ ์ ํํ ์ ์์ผ๋ฉฐ,
๊ฒฐ๊ณผ์ ์ผ๋ก ์ป์ด์ง ํ๋ฅ ๋ถํฌ๊ฐ ์ด๋์์๋ ์์๊ฐ ์๋๋ฉฐ 1๋ก ์ ๋ถ๋๋๋กํ๋ ์๋ ์กฐ๊ฑด์ ๋ฐ๋ผ์ผ ํ๋ค. p(x)์์ ์ํด ์ฃผ์ด์ง ๋ฐ๋ ๋ชจ๋ธ ํด๋์ค๋ฅผ Kernel๋ฐ๋ ์ถ์ ๊ธฐ ๋๋ Parzen ์ถ์ ๊ธฐ๋ผ๊ณ ํ๋ค.
[์ฅ์ ]: 'train' ๋จ๊ณ์์ ๊ณ์ฐ์ด ํ์ํ์ง ์์ ์ ์ฅ์๋ง ํ์.
[๋จ์ ]: Datasetํฌ๊ธฐ๊ฐ ์ ํ์ผ๋ก ์ฆ๊ฐ, ํ๊ฐ ๋น์ฉ์ด ํฌ๊ฒ ์ฆ๊ฐ.
5.3 Nearest-neighbors
Kernel๊ธฐ๋ฐ์ ๋ฐ๋์ถ์ ์ ๋จ์ : ํ๋๋ ์ปค๋ ํญ์ ์ ์ดํ๋ ๋งค๊ฐ๋ณ์ h๊ฐ ๋ชจ๋ ์ปค๋์ ๋ํด ์ผ์ ํ๊ฒ ๊ณ ์ ๋๋ค๋ ๊ฒ
๋ฐ์ดํฐ ๋ฐ๋๊ฐ ๋์ ์ง์ญ: ํฐ h ๊ฐ์ด ๊ณผ๋ํ ์ค๋ฌด๋ฉ์ ์ ๋ฐ→๋ฐ์ดํฐ์์ ์ถ์ถํ ์ ์๋ ๊ตฌ์กฐ๋ฅผ ํฌ์.
Butโ๏ธ h ๊ฐ์ ์ค์ด๋ฉด: ๋ฐ์ดํฐ ๊ณต๊ฐ์ ๋ฐ๋๊ฐ ์์ ๊ณณ์์๋ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ์ถ์ ๊ฐ์ ์ป์ ์ ์๋ค.
∴ h์ ์ต์ ์ ํ์ ๋ฐ์ดํฐ ๊ณต๊ฐ ๋ด ์์น์ ๋ฐ๋ผ ๋ค๋ฅผ ์ ์๋ค.
์ด ๋ฌธ์ ๋ ๋ฐ๋ ์ถ์ ์ ์ํ Nearest Neighbors ๋ฐฉ๋ฒ์ผ๋ก ํด๊ฒฐ๋๋ค.
๋ฐ๋ผ์ ๋ก์ปฌ ๋ฐ๋ ์ถ์ ์ ๋ํ ์ผ๋ฐ์ ์ธ ๊ฒฐ๊ณผ์ธ p(x) = K/NV ์์ผ๋ก ๋์๊ฐ
V๋ฅผ ๊ณ ์ ํ๊ณ ๋ฐ์ดํฐ์์ K์ ๊ฐ์ ๊ฒฐ์ ํ๋ ๋์ ์,
๊ณ ์ ๋ ๊ฐ K๋ฅผ ๊ฐ์ง๊ณ V์ ์ ์ ํ ๊ฐ์ ์ฐพ๊ธฐ ์ํด ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค.
์ด๋ฅผ ์ํด x ์ฃผ๋ณ์ ์์นํ ์์ ๊ตฌ๋ฅผ ๊ณ ๋ คํ๊ณ
ํด๋น ๊ตฌ์ ์ ํํ K๊ฐ์ ๋ฐ์ดํฐ ํฌ์ธํธ๊ฐ ํฌํจ๋ ๋๊น์ง ๊ตฌ์ ๋ฐ์ง๋ฆ์ ์ฆ๊ฐ์ํจ ํ,
V๋ฅผ ํด๋น ๊ตฌ์ ๋ถํผ๋ก ์ค์ ํ์ฌ ๋ฐ๋ p(x)๋ฅผ ์ถ์ ํ๋ ์ด ๊ธฐ์ ์ K-Nearest Neighbors๋ผ ํ๋ค. ์ ๊ทธ๋ฆผ์์๋ ๋งค๊ฐ๋ณ์ K์ ์ฌ๋ฌ ์ ํ์ ์ฌ์ฉํ์ฌ ๋์ผํ ๋ฐ์ดํฐ ์ธํธ์ ๋ํด Figures 3.13 ๋ฐ 3.14์์ ์ฌ์ฉ๋ ๊ฒ๊ณผ ๊ฐ์ด ์ค๋ช ๋์ด ์.
K์ ๊ฐ์ด ์ด์ ์ค๋ฌด๋ฉ์ ์ ๋๋ฅผ ๊ฒฐ์ ํ๊ณ K๊ฐ ๋๋ฌด ํฌ์ง ์๊ณ ๋๋ฌด ์์ง ์์ ์ต์ ์ ์ ํ์ด ์์์ ๋ค์ ํ์ธ๊ฐ๋ฅํ๋ค.
K -NN์ ์ํด ์์ฑ๋ ๋ชจ๋ธ์ ์ ์ฒด ๊ณต๊ฐ์ ๊ฑธ์ณ ํตํฉ๋์ง ์์ผ๋ฏ๋ก ์ค์ ๋ก ๋ฐ๋ ๋ชจ๋ธ์ ์๋๋ค.
์ด ์ฅ์ ์ดํ, ๋ฐ๋ ์ถ์ ์ K-์ต๊ทผ์ ์ด์ ๊ธฐ์ ์ classification task๋ก ํ์ฅํ๋ ๋ฐฉ๋ฒ์ ์ดํด๋ณผ ๊ฒ์ด๋ค.
์ด๋ฅผ ์ํด K-์ต๊ทผ์ ์ด์ ๋ฐ๋ ์ถ์ ๊ธฐ์ ์ ๊ฐ ํด๋์ค์ ๋ณ๋๋ก ์ ์ฉํ๊ณ ๋ฒ ์ด์ฆ ์ด๋ก ์ ์ฌ์ฉํฉ๋๋ค.
Nk ์ ์ผ๋ก ๊ตฌ์ฑ๋ ํด๋์ค Ck์ ๋ฐ์ดํฐ ์ธํธ๊ฐ ์์ ๋ ์๋ก์ด ์ x๋ฅผ ๋ถ๋ฅํ๋ ค๋ฉด?
→ ํด๋น ํด๋์ค์ ๋ํ K-NN์ถ์ ๊ธฐ์ ์ ์ ์ฉ, ๋ฒ ์ด์ฆ ์ด๋ก ์ ์ฌ์ฉ.
x๋ฅผ ํฌํจํ๋ ์ ํํ K๊ฐ์ ์ ์ด ํฌํจ ๋ ๊ตฌ๋ฅผ ๊ทธ๋ฆฌ๋ฉด
์ด ๊ตฌ์ ๋ถํผ๋ฅผ V๋ก ์ฌ์ฉํ์ฌ ๊ฐ ํด๋์ค์ ๊ด๋ จ๋ ๋ฐ๋์ ์ถ์ ์น๋ฅผ ์ป๋๋ค(3.187).
๋น์กฐ๊ฑด๋ถ ๋ฐ๋๋ (3.188)๋ก ์ฃผ์ด์ง๊ณ ํด๋์ค ์ฌ์ ํ๋ฅ ์ (3.189)๋ก ์ฃผ์ด์ง๋๋ค.
์ด์ ๋ฒ ์ด์ฆ ์ด๋ก ์ ์ฌ์ฉํ์ฌ (3.187), (3.188) ๋ฐ (3.189)๋ฅผ ๊ฒฐํฉํด ํด๋์ค ์์์ ์ฌํ ํ๋ฅ (posterior)์ ์ป์ ์ ์๋ค.
[Step 1]
์ค๋ถ๋ฅ ํ๋ฅ ์ ์ต์ํํ๋ ค๋ฉด ์๋ก์ด ์ x๋ฅผ K-์ต๊ทผ์ ์ ์ ์๋ณํ๊ณ
๊ทธ ์ค์์ ๋ํ์๊ฐ ๊ฐ์ฅ ๋ง์ ํด๋์คKk/K์ ํ ๋นํ๋ค.
[Step 2]
๋ฐ๋ผ์ ํ ์คํธ ํฌ์ธํธ๋ฅผ ๋ถ๋ฅํ๋ ค๋ฉด ํ๋ จ ๋ฐ์ดํฐ ์ธํธ์์ K ๊ฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ํฌ์ธํธ๋ฅผ ์๋ณํ๊ณ
๊ทธ ์ธํธ ์ค์์ ๋ํ์๊ฐ ๊ฐ์ฅ ๋ง์ ํด๋์ค์ ์๋ก์ด ํฌ์ธํธ๋ฅผ ํ ๋นํ๋ค.
์ด๋, ๋์ ์ ์์๋ก ํด๊ฒฐํ ์ ์๋๋ฐ, K = 1์ธ ํน๋ณํ ๊ฒฝ์ฐ๋ Nearest Neighbor ๊ท์น์ด๋ผ๊ณ ํ๋ฉฐ
test point๋ ๋จ์ํ ํ๋ จ ์ธํธ์์ ๊ฐ์ฅ ๊ฐ๊น์ด ํฌ์ธํธ์ ๋์ผํ ํด๋์ค์ ํ ๋น๋๋ค.
์ด๋ฐ ๊ฐ๋ ์ ์๋ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ค:
(K = 1)์ K-NN classifier์ ์ฃผ์์ :
N → ∞์ผ๋์ ์ค๋ฅ์จ*2 < ์ต์ ๋ถ๋ฅ๊ธฐ์ ์ต์ ์ค๋ฅ์จ
์ด ์ต์ ์ classifier๋ ์ค์ ํด๋์ค ๋ถํฌ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค.(Cover and Hart, 1967)
์ง๊ธ๊น์ง K-NN๋ฐฉ๋ฒ๊ณผ Kernel๋ฐ๋์ถ์ ๊ธฐ์ ๋จ์ :
์ ์ฒด Train Dataset์ ์ ์ฅํด์ผํ๋ฏ๋ก Dataset์ด ํฌ๋ฉด Cost๊ฐ ๋ง์ด ๋ฐ์.
์ด๋ฌํ ํจ๊ณผ๋ (๊ทผ์ฌ์ ์ธ) ๊ทผ์ ์ด์์ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ๊ฒ์ํ์ง ์๊ณ
ํจ์จ์ ์ผ๋ก ์ฐพ๊ธฐ ์ํด ํธ๋ฆฌ ๊ธฐ๋ฐ ๊ฒ์ ๊ตฌ์กฐ๋ฅผ ๊ตฌ์ถํ์ฌ ์์ํ ์ ์์ง๋ง, ์ด๋ฐ ๋น๋ชจ์์ ๋ฐฉ๋ฒ์ ์ฌ์ ํ ์ฌ๊ฐํ ์ ์ฝ์ด ์๋ค.
๋ฐ๋ฉด ๊ฐ๋จํ ๋ชจ์์ ๋ชจ๋ธ์ ํํํ ์์๋ ๋ถํฌ์ ํํ์ ์์ด์ ๋งค์ฐ ์ ํ์ ์ด๋ฏ๋ก ๋ฐ๋ผ์ ๋งค์ฐ ์ ์ฐํ๋ฉด์๋ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ ํ๋ จ ์ธํธ์ ํฌ๊ธฐ์ ๋ ๋ฆฝ์ ์ผ๋ก ์ ์ดํ ์ ์๋ ๋ฐ๋ ๋ชจ๋ธ์ ์ฐพ์์ผ ํ๋๋ฐ, ์ด๋ฅผ ์ํด Deep Learning์ ํ์ฉํ ์ ์๋ค.
cf. Hypothesis Testing (๊ฐ์ค ๊ฒ์ )
Statistical Hypothesis Testing
โ ํต๊ณ์ ๊ฐ์ค๊ฒ์ : ํต๊ณ์ ์ถ๋ก ์ ์ผ์ข ์ผ๋ก ๊ท๋ฌด๊ฐ์ค๊ณผ ๋๋ฆฝ๊ฐ์ค๋ก ๋ํ๋ธ๋ค.
๋ชจ์ง๋จ์ ์ค์ ๊ฐ์ ๋ํด "ํ๋ณธ์ ๋ณด๋ก ๊ฐ์ค์ ํฉ๋น์ฑ ์ฌ๋ถ๋ฅผ ๊ฒ์ ํ๋ ๊ณผ์ "
โ Null Hypothesis: ๊ท๋ฌด๊ฐ์ค(H0)์ ์ฒ์๋ถํฐ ๋ฒ๋ฆด ๊ฒ์ ์์ํ๋ ๊ฐ์ค.
→ ์๋ฏธ์๋ ๊ฒฝ์ฐ์ ๊ฐ์ค.
โ Alternative Hypothesis: ๋๋ฆฝ๊ฐ์ค(H1)์ ๊ท๋ฌด๊ฐ์ค์ ๋๋ฆฝ๋๋ ๋ช ์ .
→ ๊ท๋ฌด๊ฐ์ค์ฒ๋ผ ๊ฒ์ ์ ์ง์ ์ํ์ด ๋ถ๊ฐ
→ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํจ์ผ๋ก์จ ๋ฐ์ฆ์ ๊ณผ์ ์ ๊ฑฐ์ณ ์ฆ๋ช .
๊ฐ์ค๊ฒ์ ์์
ex) ์ ๊ตญ ๋ง 20์ธ ์ด์์ ํ๊ท ํค๊ฐ 170cm๋ผ๋ ์ฃผ์ฅ์ ํต๊ณ์ ์ผ๋ก ๊ฒ์ฆํ์.
Step 1. H0, H1 ์ค์ .
โ Null Hypothesis: 20์ธ ์ด์์ ์ฑ์ธ๋จ์ฑํ๊ท ํค๋ 170cm์ ๊ฐ๋ค(= ์ฐจ์ด๊ฐ ์๋ค).
โ Alternative Hypothesis: 20์ธ ์ด์์ ์ฑ์ธ๋จ์ฑํ๊ท ํค๋ 170cm์ ๋ค๋ฅด๋ค.
์ด์ , ์์ง๋ ํ๋ณธ ๋ฐ์ดํฐ๋ก ๊ท๋ฌด๊ฐ์ค์ accept/reject์ฌ๋ถ๋ฅผ ํ๋จํด์ผํ๋ค.
Step 2. ์ ์์์ค(significance level) α ๊ฒฐ์ .
accept / rejectํ "์ ์์์ค" ์ค์ . (๋ณดํต 1%๋ 5% ์ฆ, α๊ฐ์ 0.01์ด๋ 0.05๋ก ์ค์ .)
๋ํ, ์์ธก๊ฒ์ ํ ๊ฒ์ธ์ง ๋จ์ธก๊ฒ์ ํ ๊ฒ์ธ์ง๋ ์ค์ ํด์ผํ๋ค. (์์ธก์ผ ๋๋ α/2๊ฐ์ ์ ์ฉ.)
Step 3. ํ๋ณธ์์ง, ๊ฒ์ ํต๊ณ๋๊ณ์ฐ, p-value๊ณ์ฐ.
ํ๋ณธ ์์ง ํ, ๊ฒ์ ํต๊ณ๋์ ๊ณ์ฐํ๋ค.
[๊ฒ์ ํต๊ณ๋; Test Statistics]: ์์ง๋ฐ์ดํฐ๋ก ๊ณ์ฐํ "ํ๋ฅ ๋ณ์"
ex) ์ ๊ท๋ถํฌ์ Z๊ฐ.
์ด๋, Z๊ฐ์ ํ๋ณธ ์, ํ๋ณธ ํ๊ท , ํ๋ณธํ์คํธ์ฐจ๋ก ๊ตฌํ ์ ์๋ค.
[p-value]: ๊ฒ์ ํต๊ณ๋์ผ๋ก ๊ณ์ฐ๋ ํ๋ฅ
์ฆ, ์ถ์ถํ ํ๋ณธํต๊ณ๋์ด ๋ํ๋ ํ๋ฅ
= ๊ท๋ฌด๊ฐ์ค์ acceptํ ์ง ์ํ ์ง์ ํ๋ฅ .
์ด๋ฐ ๊ฒ์ ํต๊ณ๋์ ๋ถํฌํจ์์ ๋ฐ๋ผ Z, t, F, ๊ญ2ํต๊ณ๋ ๋ฑ์ด ์ฌ์ฉ๋ ์ ์๊ณ ,
์ด์ ์์ํ๋ p-value(= ๊ฒ์ ํต๊ณ๋์ด ๋์ฌ ํ๋ฅ )๋ฅผ ๊ณ์ฐํ ์ ์๋ค.
Step 4. p-value ≤ α๋ฉด H0๊ธฐ๊ฐ, p-value > α ๋ฉด H0 ์ฑํ.
Step 3์์ ๊ณ์ฐ๋ p-value์ ์ ์์์ค α๋ฅผ ๋น๊ต.
if p_value < α: H1 accept else: H0 accept
๋ค๋ง, p-value > α์ผ ๋, ๊ด์ธกํ๋ฅ ์ด ์ ์์์ค๋ณด๋ค ํฌ๋ค๋ ๋ป์ ๊ท๋ฌด๊ฐ์ค๋ถํฌ๋ด์์ ํ๋ณธ์ ์ถ์ถํ๋ค ์ฐ์ฐํ ๋ฐ์ํ๋ ์ฐจ์ด๋ผ ๋ณผ ์ ์๊ธฐ์ ๊ท๋ฌด๊ฐ์ค์ ๊ธฐ๊ฐํ ์ ์๋ ๊ฒ์ด๋ค.
t-Test : ๋ Sample๊ทธ๋ฃน์ ํ๊ท ๋น๊ต.
โ t-Test:
t-๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋ ํต๊ณ์ ๊ฐ์ค๊ฒ์ ๋ฒ.
- ๊ท๋ฌด๊ฐ์ค: ๋ ์ง๋จ ํ๊ท ์ด ๋์ผ
- ๋๋ฆฝ๊ฐ์ค: ๋ ์ง๋จ ํ๊ท ์ด ๋ค๋ฆ
โ t-Test ์ข ๋ฅ
- ๋จ์ผํ๋ณธ t-Test: ํ๋ณธ๊ณผ ๋ชจ์ง๋จ์ ํ๊ท ์ด ๋ค๋ฅธ์ง๋ฅผ ํ๋ค.
- ๋ ๋ฆฝ t-Test: ๋ ๋ ๋ฆฝํ๋ณธ์ ํ๊ท ์ ๋น๊ต
- ๋์ํ๋ณธ t-Test: ๋์ผํ๋ณธ๋์์ผ๋ก ์ผ์ ์๊ฐ๊ฐ๊ฒฉ์ผ๋ก 2๋ฒ data์์ง, ๋ฐ์ดํฐํ๊ท ์ ์ฐจ์ด๋ฅผ ๊ฒ์ฆ.
๊ญ2-Test: ์ ํฉ๋โ๋ ๋ฆฝ์ฑโ๋์ง์ฑ ๊ฒ์
โ ์ ํฉ๋ ๊ฒ์ (Goodness of fit)
1๊ฐ ๋ณ์์ ๋ํด, ์ด ๋ณ์๊ฐ ๊ธฐ๋๋๋ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋์ง ์๋์ง์ ๋ํ ๊ฒ์ .
์ฆ, ์ค์ ๋ก ๊ด์ธก๋ ๊ฐ๊ณผ ๊ณง ์ผ์ด๋ ๊ฒ์ผ๋ก ๊ธฐ๋ํ๋ ๊ฐ์ ๋น๊ตํ๋ ๊ฒ.
์ฃผ์ฌ์๋ฅผ 6๋ฒ ๋์ ธ 1์(์ ํ ๊ฐ), 2์(์ ๋ ๊ฐ), 3์, 4์, 5์, 6์๊ฐ ๋์จ ๋น์จ์
๊ท๋ฌด๊ฐ์ค: ๋ณ์ x์ ๊ด์ธก๋ถํฌ์ ๊ธฐ๋๋ถํฌ๊ฐ ๊ฐ๋ค.
๋๋ฆฝ๊ฐ์ค: ๋ณ์ x์ ๊ด์ธก๋ถํฌ์ ๊ธฐ๋๋ถํฌ๊ฐ ๋ค๋ฅด๋ค.
โ ๋ ๋ฆฝ์ฑ ๊ฒ์ (Test of Independence)
2๊ฐ ๋ณ์๊ฐ ์๋ก ์๊ด์ด ์๊ณ ๋ ๋ฆฝ์ ์ด๋ผ๊ณ ๊ธฐ๋.
์ฆ, ๊ด์ฐฐ๋น๋์ ๋น๊ตํด ์๋ก ์ฐ๊ด๋์ด ์๋์ง ๊ธฐ๋๋น๋์ ์ง์ ์ฌ๋ถ๋ฅผ ํ๋จ.
โ
[์ 1]
๊ธฐ์นจ์ฝ ๋ธ๋๋ A B C.
150๋ช ํ์๋ฅผ ๋์์ผ๋ก
๊ธฐ์นจ์ฝ์ ํจ๊ณผ๊ฐ ์๋์ง ์๋์ง ์ธก์
๊ท๋ฌด๊ฐ์ค: ๋ณ์ x, y๋ ์๋ก ๋ ๋ฆฝ
๋๋ฆฝ๊ฐ์ค: ๋ณ์ x, y๋ ๋ ๋ฆฝ์ด ์๋
โ ๋์ง์ฑ ๊ฒ์ (Test of Homogeneity)
2๊ฐ์ ๋ณ์ ๊ด๊ณ๋ฅผ ๊ฒ์ ํ๋ ๋ ๋ฆฝ์ฑ ๊ฒ์ ์ ๋ฌ๋ฆฌ,
๋์ง์ฑ ๊ฒ์ ์ ๊ฐ ๊ทธ๋ฃน๋ค์ด ๋์ง์ฑ์ ๊ฐ์ง ๊ฒ์ธ์ง์ ๋ํ ๊ฒ์
โ
[์]
๋จ์์ ์ฌ์์ ํก์ฐ์จ ์ฐจ์ด์ ๋ํด ํก์ฐ ์กฐ์ฌ.
๊ท๋ฌด๊ฐ์ค: ๋จ์์ ์ฌ์์ ํก์ฐ์จ ํ๋ฅ ๋ถํฌ๊ฐ ๋์ผ
๋๋ฆฝ๊ฐ์ค: ๋จ์์ ์ฌ์์ ํก์ฐ์จ ํ๋ฅ ๋ถํฌ๊ฐ ๋ค๋ฆ
์นด์ด์ ๊ณฑ ๊ฒ์ ์ ์ํํ๊ธฐ ์ ์ ๋ค์ ๊ฐ์ ์ด ์ถฉ์กฑ๋์ด ๊ฒ์ ์ด ์ ํจํ์ง ํ์ธํด์ผ ํ๋ค.
โ
1. ๋ฌด์์
๋ฌด์์ ํ๋ณธ ๋๋ ๋ฌด์์ ์คํ์ ์ฌ์ฉํ์ฌ ๋ ํ๋ณธ์ ๋ํ ๋ฐ์ดํฐ๋ฅผ ์์ง
โ
2. ๋ฒ์ฃผํ / ์นดํ ๊ณ ๋ฆฌ(categorical) ๋ฐ์ดํฐ
๋ณ์๋ ๋ฒ์ฃผํ ๋ฐ์ดํฐ
โ
์ ์กฐ๊ฑด์ด ์ถฉ์กฑ๋๋ฉด ์นด์ด์ ๊ณฑ ๊ฒ์ .
F-value์ ANOVA: ๋ถ์ฐ ๋ถ์
ANOVA(Analysis of Variance)
ํต๊ณํ์์ 2๊ฐ ์ด์ ๋ค์์ ์ง๋จ์ ์๋ก ๋น๊ตํ ๋
์ง๋จ์ ๋ถ์ฐ, ์ด ํ๊ท , ๊ฐ ์ง๋จ์ ํ๊ท ์ฐจ์ ์ํด ์๊ธด ์ง๋จ ๊ฐ ๋ถ์ฐ์ ๋น๊ต๋ฅผ ํตํด ๋ง๋ค์ด์ง f ๋ถํฌ๋ฅผ ์ฌ์ฉํด ๊ฐ์ค์ ๊ฒ์ ํ๋ ๋ฐฉ๋ฒ.
F-value: ์์ฐจ ์ค์ฐจ๋ก ์ธํ ๋ถ์ฐ๊ณผ ๊ทธ๋ฃนํ๊ท ์ ๋ถ์ฐ์ ๋ํ ๋น์จ๋ก ๊ณ์ฐํ '๋ถ์ฐ'์ ๋น์จ์ ์ฒ๋๋ก ์ด์ฉํ๋ค.
ANOVA์ ๊ฐ์ค
๊ท๋ฌด๊ฐ์ค(H0): ๋ชจ๋ ์ํ ํ๊ท ์ด ๋์ผ
๋๋ฆฝ๊ฐ์ค(Ha): ์ ์ด๋ 1๊ฐ์ ์ํ ํ๊ท ์ด ๋ค๋ฆ
โป ์์ ์ฌ์๋ค ์๋ก ๋ค๋ฅธ ์์ผ์ ํ๋งค ์ฐจ์ด๊ฐ ์๋์ง ํ๋จ
[์]7์ผ ๋์ 4๋ช ์ ํ๋งค์์ ํ๋งค๋ฅผ ๊ธฐ๋ก, ๊ฐ ํ๋งค์์ ํ๋ฃจ ํ๋งค๋ ์๋์ ๊ฐ๋ค
d
๊ญ2-Test: ์ ํฉ๋โ๋ ๋ฆฝ์ฑโ๋์ง์ฑ ๊ฒ์
โ ์ ํฉ๋ ๊ฒ์ (Goodness of fit)
1๊ฐ ๋ณ์์ ๋ํด, ์ด ๋ณ์๊ฐ ๊ธฐ๋๋๋ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด๋์ง ์๋์ง์ ๋ํ ๊ฒ์ .
์ฆ, ์ค์ ๋ก ๊ด์ธก๋ ๊ฐ๊ณผ ๊ณง ์ผ์ด๋ ๊ฒ์ผ๋ก ๊ธฐ๋ํ๋ ๊ฐ์ ๋น๊ตํ๋ ๊ฒ.
์ฃผ์ฌ์๋ฅผ 6๋ฒ ๋์ ธ 1์(์ ํ ๊ฐ), 2์(์ ๋ ๊ฐ), 3์, 4์, 5์, 6์๊ฐ ๋์จ ๋น์จ์
๊ท๋ฌด๊ฐ์ค: ๋ณ์ x์ ๊ด์ธก๋ถํฌ์ ๊ธฐ๋๋ถํฌ๊ฐ ๊ฐ๋ค.
๋๋ฆฝ๊ฐ์ค: ๋ณ์ x์ ๊ด์ธก๋ถํฌ์ ๊ธฐ๋๋ถํฌ๊ฐ ๋ค๋ฅด๋ค.
โ ๋ ๋ฆฝ์ฑ ๊ฒ์ (Test of Independence)
2๊ฐ ๋ณ์๊ฐ ์๋ก ์๊ด์ด ์๊ณ ๋ ๋ฆฝ์ ์ด๋ผ๊ณ ๊ธฐ๋.
์ฆ, ๊ด์ฐฐ๋น๋์ ๋น๊ตํด ์๋ก ์ฐ๊ด๋์ด ์๋์ง ๊ธฐ๋๋น๋์ ์ง์ ์ฌ๋ถ๋ฅผ ํ๋จ.
โ
[์ 1]
๊ธฐ์นจ์ฝ ๋ธ๋๋ A B C.
150๋ช ํ์๋ฅผ ๋์์ผ๋ก
๊ธฐ์นจ์ฝ์ ํจ๊ณผ๊ฐ ์๋์ง ์๋์ง ์ธก์
๊ท๋ฌด๊ฐ์ค: ๋ณ์ x, y๋ ์๋ก ๋ ๋ฆฝ
๋๋ฆฝ๊ฐ์ค: ๋ณ์ x, y๋ ๋ ๋ฆฝ์ด ์๋
โ ๋์ง์ฑ ๊ฒ์ (Test of Homogeneity)
2๊ฐ์ ๋ณ์ ๊ด๊ณ๋ฅผ ๊ฒ์ ํ๋ ๋ ๋ฆฝ์ฑ ๊ฒ์ ์ ๋ฌ๋ฆฌ,
๋์ง์ฑ ๊ฒ์ ์ ๊ฐ ๊ทธ๋ฃน๋ค์ด ๋์ง์ฑ์ ๊ฐ์ง ๊ฒ์ธ์ง์ ๋ํ ๊ฒ์
โ
[์]
๋จ์์ ์ฌ์์ ํก์ฐ์จ ์ฐจ์ด์ ๋ํด ํก์ฐ ์กฐ์ฌ.
๊ท๋ฌด๊ฐ์ค: ๋จ์์ ์ฌ์์ ํก์ฐ์จ ํ๋ฅ ๋ถํฌ๊ฐ ๋์ผ
๋๋ฆฝ๊ฐ์ค: ๋จ์์ ์ฌ์์ ํก์ฐ์จ ํ๋ฅ ๋ถํฌ๊ฐ ๋ค๋ฆ
์นด์ด์ ๊ณฑ ๊ฒ์ ์ ์ํํ๊ธฐ ์ ์ ๋ค์ ๊ฐ์ ์ด ์ถฉ์กฑ๋์ด ๊ฒ์ ์ด ์ ํจํ์ง ํ์ธํด์ผ ํ๋ค.
โ
1. ๋ฌด์์
๋ฌด์์ ํ๋ณธ ๋๋ ๋ฌด์์ ์คํ์ ์ฌ์ฉํ์ฌ ๋ ํ๋ณธ์ ๋ํ ๋ฐ์ดํฐ๋ฅผ ์์ง
โ
2. ๋ฒ์ฃผํ / ์นดํ ๊ณ ๋ฆฌ(categorical) ๋ฐ์ดํฐ
๋ณ์๋ ๋ฒ์ฃผํ ๋ฐ์ดํฐ
โ
์ ์กฐ๊ฑด์ด ์ถฉ์กฑ๋๋ฉด ์นด์ด์ ๊ณฑ ๊ฒ์ .
โ ๊ญ2-test ์์
์ด๋ค ๋๋ค์ ์ฃผ๋ฏผ 1,000๋ช ์ ํก์ฐ ์ฌ๋ถ, ํ์ ์ฌ๋ถ์ ๋ฐ๋ฅธ ๋ถํฌ(๊ด์ฐฐ ๋น๋)๊ฐ ๋ค์๊ณผ ๊ฐ๋ค๊ณ ํ์.
๊ด์ฐฐ ๋น๋ ํก์ฐ์ ๋นํก์ฐ์ ์ดํฉ ํ์ ํ์ 75 125 200 ์ ์์ธ 225 575 800 ์ดํฉ 300 700 1000 ์ด ํ๋ฅผ ๋ณด๊ณ ํ์ ํ์๊ฐ ๋ ๋ง๋ค๊ณ ํ ์ ์๋์ง์ ๋ํ ๊ฒ์ ์ด ์นด์ด ์ ๊ณฑ ๊ฒ์ ์ด๋ค. ์นด์ด ์ ๊ณฑ ๊ฒ์ ์ ํ๋ ๊ณผ์ ์ ๋ค์๊ณผ ๊ฐ๋ค.
1) ๊ธฐ๋ ๋น๋ ์ฐ์ถ
2) ์นด์ด ์ ๊ณฑ ๊ฒ์ ๋ ์ฐ์ถ
3) ์์ ๋ ์ฐ์ถ
4) p-value ๊ณ์ฐ
1) ๊ธฐ๋ ๋น๋ ์ฐ์ถ
2) ์นด์ด ์ ๊ณฑ ๊ฒ์ ๋ ์ฐ์ถ
์ด ๊ฐ์ ์ ์๊ฐํด๋ณด๋ฉด, ๊ด์ฐฐ ๋น๋์ ๊ธฐ๋ ๋น๋์ ์ฐจ์ด๊ฐ ํด์๋ก ์นด์ด ์ ๊ณฑ ๊ฒ์ ๋์ด ์ปค์ง๋ค๋ ๊ฒ์ ์ ์ ์๋ค. ์ฆ, ์๋ฌด ๊ด๋ จ์ฑ์ด ์๋ค๊ณ ๊ฐ์ ํ์ ๋ ์์๋๋ ๊ธฐ๋ ๋น๋๋ณด๋ค ๋ ๋ง์ ์์ด ๊ด์ฐฐ๋๊ฑฐ๋, ํจ์ฌ ์ ์ ์์ด ๊ด์ฐฐ๋๋ค๋ฉด ์นด์ด ์ ๊ณฑ ๊ฒ์ ๋์ด ์ปค์ง๋ค๋ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ๋๋ฌด๋๋ ๋น์ฐํ ์๋ฆฌ์ง๋ง, ์นด์ด ์ ๊ณฑ ๊ฒ์ ๋์ด ํด์๋ก ์์ํ์ง ๋ชปํ๋ ๊ฒฐ๊ณผ๋ผ๋ ๋ป์ด๊ณ , ์ ์๋ฏธํ ๊ด๋ จ์ฑ์ด ์๋ค๋ ๋ป์ด๋ค. (๋ฐ๋ผ์, ์นด์ด ์ ๊ณฑ ๊ฒ์ ๋์ด ํด์๋ก p-value๊ฐ ์์์ง๋ ๋ฐฉ์์ ๋์์ธ์ด ํ์ํ๋ค.)
3) ์์ ๋ ์ฐ์ถ
์์ ๋=(์ด์ ๊ฐ์−1)×(ํ์ ๊ฐ์−1)=1
4) p-value ๊ณ์ฐ
๋ค์ ๋ ๊ฐ์ง ๊ณผ์ ์ ์๊ฐํด๋ณด๋๋ก ํ๋ค.
i) ษ=0.05๋ก ํ์์ ๋ ์ ์๋ฏธํ ๊ด๋ จ์ฑ์ด ์๋ค๊ณ ํ ์ ์๋๊ฐ?
์์ ๋๊ฐ 1์ธ ์นด์ด ์ ๊ณฑ ๋ถํฌ์์ ์นด์ด ์ ๊ณฑ ๊ฒ์ ๋์ด 0~3.84 ์ฌ์ด์ผ ๋ ์ ๋ถ ๊ฐ์ด 0.95๋ค. ์ฆ, ์๋ ๊ทธ๋ฆผ์์ ๋นจ๊ฐ์ ์์ญ์ ๋ฉด์ ์ด 0.95, ํ๋์ ์์ญ์ ๋ฉด์ ์ด 0.05๋ค. ๋ฐ๋ผ์, ์์ ๋๊ฐ 1์ผ ๋, ์นด์ด ์ ๊ณฑ ๊ฒ์ ๋์ด 0์์ 3.84 ์ฌ์ด๋ก ๊ด์ฐฐ๋ ํ๋ฅ ์ 95%๋ผ๋ ๋ป์ด๊ณ , ๋์์ 3.84 ์ด์ ๊ด์ฐฐ๋ ํ๋ฅ ์ 5%๋ผ๋ ๋ป์ด๋ค. ๊ทธ๋ฌ๋ฏ๋ก, ์ฐ์ถ๋ ์นด์ด ์ ๊ณฑ ๊ฒ์ ๋์ด 3.84๋ณด๋ค ํฌ๋ฉด ์ ์๋ฏธํ ๊ด๋ จ์ฑ์ด ์๋ค๋ ๊ฒ์ธ๋ฐ, ์ ํ์-ํก์ฐ์ ์นด์ด ์ ๊ณฑ ๊ฒ์ ๋์ 6.6964์์ผ๋ฏ๋ก ์ ์๋ฏธํ ๊ด๋ จ์ฑ์ด ์๋ค๊ณ ๊ฒฐ๋ก ๋ด๋ฆด ์ ์๋ค.
ii) ๊ทธ๋์ p-value๊ฐ ๋ช์ธ๋ฐ?
0๋ถํฐ ์ฐ์ถ๋ ์นด์ด ์ ๊ณฑ ๊ฒ์ ๋์ธ 6.6964๊น์ง์ ์์ ๋๊ฐ 1์ธ ์นด์ด ์ ๊ณฑ ํจ์์ ์ ๋ถ ๊ฐ(์๋ ๊ทธ๋ฆผ ์ด๋ก์ ์์ญ)์ 0.9903394์ด๋ค. ๋ฐ๋ผ์ p-value๋ 1์์ ์ด๋ก์ ์์ญ ๋์ด๋ฅผ ๋บ 0.0097 (์๋ ๊ทธ๋ฆผ ๋ณด๋ผ์ ์์ญ)์ด๋ค. ์ฆ, p-value๋ ์ฐ์ถ๋ ์นด์ด ์ ๊ณฑ ๊ฒ์ ๋์์๋ถํฐ์ ์นด์ด ์ ๊ณฑ ํจ์์ ์ ๋ถ ๊ฐ์ ์๋ฏธํ๋ค.
๐ง ์ ๋ฆฌ
โ
ใ
'Deep Learning : Vision System > Deep Learning(Christopher M.Bishop)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[DL]00.๋ชฉ์ฐจ ๋ฐ ์ฑ ์๊ฐ. (4) | 2024.01.30 |
---|---|
[DL]04. Single-layer Networks: Regression (2) | 2024.01.22 |
[DL]02. Probabilities (1) | 2024.01.14 |
[DL]01.The Deep Learning Revolution. (2) | 2023.12.23 |