๐Ÿ“Œ ๋ชฉ์ฐจ

1. Linear Regression
2. Decision Theory

3. Bias-Variance Trade-off

 

๐Ÿง  preview: Linear Regression

Linear Regression์˜ ๊ธฐ๋ณธ๊ฐœ๋… ์ค‘ ์ผ๋ถ€๋ฅผ ์•Œ์•„๋ณด๊ณ ์ž ํ•œ๋‹ค.
์ด์ „ ์žฅ์—์„œ ๋‹คํ•ญ์‹๊ณก์„  fitting๋งฅ๋ฝ์—์„œ ๊ฐ„๋‹จํžˆ ๋‹ค๋ค˜์—ˆ๋‹ค.

Linear Regression๋ชจ๋ธ์€ ํ•™์Šต๊ฐ€๋Šฅํ•œ parameter๋ฅผ ๊ฐ–๋Š” Single Layer ์‹ ๊ฒฝ๋ง์œผ๋กœ
๋น„๋ก ๋‹จ์ผ ๋ ˆ์ด์–ด ์‹ ๊ฒฝ๋ง์ด ์‹ค์ œ ์‘์šฉ์—์„œ๋Š” ๋งค์šฐ ์ œํ•œ์ ์ผ์ง€๋ผ๋„,
์ด๋“ค์€ ๊ฐ„๋‹จํ•œ ๋ถ„์„์  ํŠน์„ฑ์„ ๊ฐ–๊ธฐ์— ํ›„์† ์žฅ์—์„œ ์‹ฌ์ธต์‹ ๊ฒฝ๋ง์— ๋Œ€ํ•œ ๋…ผ์˜๋ฅผ ์œ„ํ•ด ํ•ต์‹ฌ ๊ฐœ๋…์„ ์•Œ์•„๋ณด์ž.

 

 

 

 

 

 


1. Linear Regression

prev.

ํšŒ๊ท€์˜ ๋ชฉํ‘œ๋Š” D-์ฐจ์› ๋ฒกํ„ฐ x์˜ ๊ฐ’์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ํ•˜๋‚˜ ์ด์ƒ์˜ ์—ฐ์†์ ์ธ ๋ชฉํ‘œ ๋ณ€์ˆ˜ t์˜ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ๋Š” N๊ฐœ์˜ ๊ด€์ธก์น˜ {xn}, ์—ฌ๊ธฐ์„œ n = 1, . . . , N ๋ฐ ํ•ด๋‹นํ•˜๋Š” ๋ชฉํ‘œ ๊ฐ’ {tn}์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ๊ต์œก ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ์ฃผ์–ด์ง€๋ฉฐ, ๋ชฉํ‘œ๋Š” x์˜ ์ƒˆ๋กœ์šด ๊ฐ’์— ๋Œ€ํ•œ t์˜ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ด๋ฅผ ์œ„ํ•ด ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์—์„œ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ฒกํ„ฐ w๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ•จ์ˆ˜ y(x, w)๋ฅผ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. ํšŒ๊ท€์— ๋Œ€ํ•œ ๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ ๋ชจ๋ธ์€ ์ž…๋ ฅ ๋ณ€์ˆ˜๋“ค์˜ ์„ ํ˜• ์กฐํ•ฉ์„ ํฌํ•จํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค: y(x, w) = w0 + w1x1 + ... + wDxD (4.1), ์—ฌ๊ธฐ์„œ x = (x1, . . . , x1)T์ž…๋‹ˆ๋‹ค.

๋•Œ๋กœ๋Š” ์ด ํ˜•ํƒœ์˜ ๋ชจ๋ธ์„ ํŠน๋ณ„ํžˆ ์„ ํ˜• ํšŒ๊ท€๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์˜ ์ฃผ์š” ํŠน์„ฑ์€ w0, ..., wD ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ์„ ํ˜• ํ•จ์ˆ˜์ž„์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๋Š” ๋˜ํ•œ ์ž…๋ ฅ ๋ณ€์ˆ˜ xi์˜ ์„ ํ˜• ํ•จ์ˆ˜์ด๊ธฐ๋„ ํ•˜๋ฉฐ, ์ด๋Š” ๋ชจ๋ธ์— ์ค‘์š”ํ•œ ์ œํ•œ์„ ๋ถ€์—ฌํ•ฉ๋‹ˆ๋‹ค.

 

1.1  Bias Functions

์šฐ๋ฆฌ๋Š” (4.1)๋กœ ์ •์˜๋œ ๋ชจ๋ธ ํด๋ž˜์Šค๋ฅผ ํ™•์žฅํ•จ์œผ๋กœ์จ ์ž…๋ ฅ ๋ณ€์ˆ˜์˜ ๊ณ ์ • ๋น„์„ ํ˜• ํ•จ์ˆ˜์˜ ์„ ํ˜• ๊ฒฐํ•ฉ์„ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ์˜ ๊ฒƒ์ž…๋‹ˆ๋‹ค. (4.2) ์—ฌ๊ธฐ์„œ φj (x)๋Š” ๊ธฐ์ € ํ•จ์ˆ˜๋ผ๊ณ  ๋ถˆ๋ฆฝ๋‹ˆ๋‹ค. ์ง€์ˆ˜ j์˜ ์ตœ๋Œ€๊ฐ’์„ M - 1๋กœ ํ‘œ์‹œํ•˜๋ฉด์ด ๋ชจ๋ธ์˜ ์ด ๋งค๊ฐœ ๋ณ€์ˆ˜ ์ˆ˜๋Š” M์ด ๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋งค๊ฐœ ๋ณ€์ˆ˜ w0๋Š” ๋ฐ์ดํ„ฐ์—์„œ ์ž„์˜์˜ ๊ณ ์ • ์˜คํ”„์…‹์„ ํ—ˆ์šฉํ•˜๋ฉฐ ๋•Œ๋กœ๋Š” ํŽธํ–ฅ ๋งค๊ฐœ ๋ณ€์ˆ˜๋ผ๊ณ ๋„ ํ•ฉ๋‹ˆ๋‹ค (ํ†ต๊ณ„์  ์˜๋ฏธ์˜ ํŽธํ–ฅ๊ณผ ํ˜ผ๋™ํ•ด์„œ๋Š” ์•ˆ ๋จ). ์ข…์ข… ํŽธ์˜์ƒ ๊ฐ’์ด φ0(x) = 1์ธ ์ถ”๊ฐ€์ ์ธ ๋”๋ฏธ ๊ธฐ์ € ํ•จ์ˆ˜๋ฅผ ์ •์˜ํ•˜์—ฌ (4.2)๊ฐ€ (4.3)์ด ๋˜๋„๋ก ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ w = (w0, ..., wM-1)T ๋ฐ φ = (φ0, ..., φM-1)T์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋ชจ๋ธ (4.3)์„ Figure 4.1์— ๋‚˜ํƒ€๋‚ธ ๊ฒƒ์ฒ˜๋Ÿผ ์‹ ๊ฒฝ๋ง ๋‹ค์ด์–ด๊ทธ๋žจ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋น„์„ ํ˜• ๊ธฐ์ € ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ํ•จ์ˆ˜ y(x, w)๊ฐ€ ์ž…๋ ฅ ๋ฒกํ„ฐ x์˜ ๋น„์„ ํ˜• ํ•จ์ˆ˜๊ฐ€ ๋  ์ˆ˜ ์žˆ๋„๋ก ํ—ˆ์šฉํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ (4.2) ํ˜•ํƒœ์˜ ํ•จ์ˆ˜๋Š” w์— ๋Œ€ํ•ด ์„ ํ˜•์ด๋ผ๊ณ  ๋ถˆ๋ฆฝ๋‹ˆ๋‹ค. ์ด ๋งค๊ฐœ ๋ณ€์ˆ˜์˜ ์„ ํ˜•์„ฑ์€ ์ด๋Ÿฌํ•œ ๋ชจ๋ธ ํด๋ž˜์Šค์˜ ๋ถ„์„์„ ํฌ๊ฒŒ ๋‹จ์ˆœํ™”์‹œํ‚ค๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด๊ฒƒ์€ ๋ช‡ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ์ œํ•œ๋„ ์•ผ๊ธฐํ•ฉ๋‹ˆ๋‹ค. ๋”ฅ ๋Ÿฌ๋‹์˜ ์ถœํ˜„ ์ด์ „์— ๋จธ์‹  ๋Ÿฌ๋‹์—์„œ๋Š” ์ž…๋ ฅ ๋ณ€์ˆ˜ x์˜ ๊ณ ์ •๋œ ์ „์ฒ˜๋ฆฌ ๋˜๋Š” ํŠน์„ฑ ์ถ”์ถœ์ด๋ผ๊ณ ๋„ ํ•˜๋Š” {φj (x)} ๊ธฐ์ € ํ•จ์ˆ˜ ์„ธํŠธ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ๋ชฉํ‘œ๋Š” ๊ฒฐ๊ณผ ํ•™์Šต ์ž‘์—…์„ ๊ฐ„๋‹จํ•œ ๋„คํŠธ์›Œํฌ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ์ถฉ๋ถ„ํžˆ ๊ฐ•๋ ฅํ•œ ๊ธฐ์ € ํ•จ์ˆ˜ ์„ธํŠธ๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ๋ถˆํ–‰ํžˆ๋„ ๊ฐ„๋‹จํ•œ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ ์ด์™ธ์˜ ๊ฒƒ์—๋Š” ์ ํ•ฉํ•œ ๊ธฐ์ € ํ•จ์ˆ˜๋ฅผ ์ˆ˜๋™์œผ๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ์€ ๋งค์šฐ ์–ด๋ ค์› ์Šต๋‹ˆ๋‹ค. ๋”ฅ ๋Ÿฌ๋‹์€ ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ ์ž์ฒด์—์„œ ๋ฐ์ดํ„ฐ์˜ ํ•„์š”ํ•œ ๋น„์„ ํ˜• ๋ณ€ํ™˜์„ ํ•™์Šตํ•จ์œผ๋กœ์จ ์ด ๋ฌธ์ œ๋ฅผ ํ”ผํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด๋ฏธ ๋‹คํ•ญ์‹์„ ์‚ฌ์šฉํ•œ ๊ณก์„  ํ”ผํŒ…์„ ํ†ตํ•ด ํšŒ๊ท€ ๋ฌธ์ œ์˜ ์˜ˆ๋ฅผ ๋งŒ๋‚ฌ์Šต๋‹ˆ๋‹ค. ๋‹คํ•ญ์‹ ํ•จ์ˆ˜ (1.1)์€ x๊ฐ€ ๋‹จ์ผ ์ž…๋ ฅ ๋ณ€์ˆ˜์ด๊ณ  ๊ธฐ์ € ํ•จ์ˆ˜๊ฐ€ φj (x) = xj๋กœ ์ •์˜๋˜๋Š” ๊ฒฝ์šฐ (4.3)์˜ ํ˜•ํƒœ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์ € ํ•จ์ˆ˜์˜ ์—ฌ๋Ÿฌ ๊ฐ€๋Šฅํ•œ ์„ ํƒ์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด (4.4) ์—ฌ๊ธฐ์„œ μj๋Š” ์ž…๋ ฅ ๊ณต๊ฐ„์—์„œ ๊ธฐ์ € ํ•จ์ˆ˜์˜ ์œ„์น˜๋ฅผ ์ง€๋ฐฐํ•˜๊ณ  ๋งค๊ฐœ ๋ณ€์ˆ˜ s๋Š” ๊ณต๊ฐ„์  ๊ทœ๋ชจ๋ฅผ ์ง€๋ฐฐํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒƒ๋“ค์€ ์ผ๋ฐ˜์ ์œผ๋กœ '๊ฐ€์šฐ์‹œ์•ˆ' ๊ธฐ์ € ํ•จ์ˆ˜๋ผ๊ณ  ๋ถˆ๋ฆฌ์ง€๋งŒ ํ™•๋ฅ ์  ํ•ด์„์„ ๊ฐ–์ถ”์–ด์•ผ ํ•˜๋Š” ๊ฒƒ์€ ์•„๋‹™๋‹ˆ๋‹ค. ํŠนํžˆ ์ •๊ทœํ™” ๊ณ„์ˆ˜๋Š” ์ค‘์š”ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ธฐ์ € ํ•จ์ˆ˜๋Š” ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋งค๊ฐœ ๋ณ€์ˆ˜ wj์— ์˜ํ•ด ๊ณฑํ•ด์ง€๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋˜ ๋‹ค๋ฅธ ๊ฐ€๋Šฅํ•œ ๊ธฐ์ € ํ•จ์ˆ˜ ์„ ํƒ์€ (4.5)์™€ ๊ฐ™์€ ์‹œ๊ทธ๋ชจ์ด๋“œ ๊ธฐ์ € ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ σ(a)๋Š” (4.6)์œผ๋กœ ์ •์˜๋œ ๋กœ์ง€์Šคํ‹ฑ ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์ž…๋‹ˆ๋‹ค. ๋™๋“ฑํ•˜๊ฒŒ ๋กœ์ง€์Šคํ‹ฑ ์‹œ๊ทธ๋ชจ์ด๋“œ์™€ ๊ด€๋ จ์ด ์žˆ๋Š” ํƒ„์  ํŠธ ๊ธฐ์ € ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์™œ๋ƒํ•˜๋ฉด tanh(a) = 2σ(2a) - 1์ด๊ธฐ ๋•Œ๋ฌธ์— ๋กœ์ง€์Šคํ‹ฑ ์‹œ๊ทธ๋ชจ์ด๋“œ ํ•จ์ˆ˜์˜ ์ผ๋ฐ˜์ ์ธ ์„ ํ˜• ์กฐํ•ฉ์€ ์ž…๋ ฅ-์ถœ๋ ฅ ํ•จ์ˆ˜์˜ ๋™์ผํ•œ ํด๋ž˜์Šค๋ฅผ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. Figure 4.2์—์„œ ์ด๋Ÿฌํ•œ ๊ธฐ์ € ํ•จ์ˆ˜์˜ ๋‹ค์–‘ํ•œ ์„ ํƒ์ง€๊ฐ€ ์„ค๋ช…๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ ๋‹ค๋ฅธ ๊ฐ€๋Šฅํ•œ ๊ธฐ์ € ํ•จ์ˆ˜ ์„ ํƒ์€ ์‚ผ๊ฐ ํ•จ์ˆ˜์˜ ํ™•์žฅ์ธ ํ‘ธ๋ฆฌ์— ๊ธฐ์ €์ž…๋‹ˆ๋‹ค. ๊ฐ ๊ธฐ์ € ํ•จ์ˆ˜๋Š” ํŠน์ • ์ฃผํŒŒ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ ๋ฌดํ•œํ•œ ๊ณต๊ฐ„ ๋ฒ”์œ„๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด์— ์ž…๋ ฅ ๊ณต๊ฐ„์˜ ์œ ํ•œํ•œ ์˜์—ญ์— ๊ตญํ•œ๋œ ๊ธฐ์ € ํ•จ์ˆ˜๋Š” ๋‹ค์–‘ํ•œ ๊ณต๊ฐ„ ์ฃผํŒŒ์ˆ˜๋กœ ์ด๋ฃจ์–ด์ ธ์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์‹ ํ˜ธ ์ฒ˜๋ฆฌ ์‘์šฉ์—์„œ๋Š” ๊ณต๊ฐ„๊ณผ ์ฃผํŒŒ์ˆ˜ ๋ชจ๋‘์— ๊ตญํ•œ๋œ ๊ธฐ์ € ํ•จ์ˆ˜๋ฅผ ๊ณ ๋ คํ•˜๋Š” ๊ฒƒ์ด ํ”ํžˆ ์žˆ์œผ๋ฉฐ ์ด๋Š” ์›จ์ด๋ธ”๋ฆฟ (Wavelets)์ด๋ผ๋Š” ํ•จ์ˆ˜ ํด๋ž˜์Šค๋กœ ์ด์–ด์ง‘๋‹ˆ๋‹ค(Ogden, 1997; Mallat, 1999; Vidakovic, 1999). ์ด๋“ค์€ ๋˜ํ•œ ๋‹จ์ˆœํ™”๋ฅผ ์œ„ํ•ด ์ƒํ˜ธ ์ง๊ต๋กœ ์ •์˜๋ฉ๋‹ˆ๋‹ค. ์›จ์ด๋ธ”๋ฆฟ์€ ์ž…๋ ฅ ๊ฐ’์ด ์‹œ๊ฐ„ ์ˆœ์„œ์˜ ์—ฐ์†์ ์ธ ์‹œ๊ฐ„ ์ ์ด๊ฑฐ๋‚˜ ์ด๋ฏธ์ง€์˜ ํ”ฝ์…€๊ณผ ๊ฐ™์€ ์ •๊ทœ ๊ฒฉ์ž ์œ„์— ์žˆ๋Š” ๊ฒฝ์šฐ์— ๊ฐ€์žฅ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด ์žฅ์˜ ๋Œ€๋ถ€๋ถ„์˜ ํ† ๋ก ์€ ๊ธฐ์ € ํ•จ์ˆ˜ ์„ธํŠธ์˜ ์„ ํƒ๊ณผ ๊ด€๋ จ์ด ์—†์œผ๋ฉฐ, ํŠน๋ณ„ํ•œ ๊ธฐ์ € ํ•จ์ˆ˜ ํ˜•ํƒœ๋ฅผ ์ง€์ •ํ•˜์ง€ ์•Š๊ฒ ์Šต๋‹ˆ๋‹ค. ์ˆ˜์น˜์  ์„ค๋ช…์„ ์œ„ํ•œ ๊ฒƒ์„ ์ œ์™ธํ•˜๊ณ  ํ‘œ๊ธฐ๋ฒ•์„ ๊ฐ„๋‹จํ•˜๊ฒŒ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ์—ฌ๊ธฐ์—์„œ๋Š” ๋‹จ์ผ ๋Œ€์ƒ ๋ณ€์ˆ˜ t์˜ ๊ฒฝ์šฐ์— ์ค‘์ ์„ ๋‘˜ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ฐ„๋‹จํžˆ ์—ฌ๋Ÿฌ ๋Œ€์ƒ ๋ณ€์ˆ˜๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ์ˆ˜์ • ์‚ฌํ•ญ์„ ๊ฐ„๋žตํžˆ ์†Œ๊ฐœํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

1.2  Likelihood Function

์šฐ๋ฆฌ๋Š” ๋ฐ์ดํ„ฐ์— ๋‹คํ•ญ ํ•จ์ˆ˜๋ฅผ ๋งž์ถ”๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ œ๊ณฑํ•ฉ ์˜ค์ฐจ ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ–ˆ์œผ๋ฉฐ, ๋˜ํ•œ ์ด ์˜ค์ฐจ ํ•จ์ˆ˜๋ฅผ ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ ๋ชจ๋ธ์„ ๊ฐ€์ •ํ•œ ์ตœ๋Œ€ ์šฐ๋„ ํ•ด๋ฒ•์œผ๋กœ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์ด์ œ ์ด ํ† ๋ก ์œผ๋กœ ๋Œ์•„๊ฐ€ ์ตœ์†Œ ์ œ๊ณฑ ๋ฐฉ๋ฒ•๊ณผ ์ตœ๋Œ€ ์šฐ๋„์™€์˜ ๊ด€๊ณ„๋ฅผ ๋” ์ž์„ธํžˆ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ์ด์ „๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋Œ€์ƒ ๋ณ€์ˆ˜ t๊ฐ€ ๊ฒฐ์ •๋ก ์  ํ•จ์ˆ˜ y(x, w)์— ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ๊ฐ€ ์ฒจ๊ฐ€๋œ ํ˜•ํƒœ๋กœ ์ฃผ์–ด์ง„๋‹ค๊ณ  ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค. (4.7)์ด๊ณ , ์—ฌ๊ธฐ์„œ ε๋Š” ํ‰๊ท ์ด 0์ด๊ณ  ๋ถ„์‚ฐ์ด σ2์ธ ๊ฐ€์šฐ์‹œ์•ˆ ๋žœ๋ค ๋ณ€์ˆ˜์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ (4.8)๋กœ ์“ธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์ œ ์ž…๋ ฅ๊ฐ’ X = {x1, ..., x1}๊ณผ ํ•ด๋‹นํ•˜๋Š” ๋Œ€์ƒ ๊ฐ’ t1 ..., t1์˜ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ๊ณ ๋ คํ•ด ๋ด…์‹œ๋‹ค. ๋Œ€์ƒ ๋ณ€์ˆ˜ {tn}์„ t๋กœ ๋‚˜ํƒ€๋‚ด๋Š”๋ฐ, ์—ฌ๊ธฐ์„œ ์„œ์ฒด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹จ์ผ ๋‹ค๋ณ€๋Ÿ‰ ๋Œ€์ƒ์˜ ๋‹จ์ผ ๊ด€์ธก๊ฐ’๊ณผ ๊ตฌ๋ณ„ํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ (4.8) ๋ถ„ํฌ์—์„œ ๋…๋ฆฝ์ ์œผ๋กœ ์ถ”์ถœ๋œ๋‹ค๋Š” ๊ฐ€์ •์„ ํ•˜๋ฉด ๋งค๊ฐœ๋ณ€์ˆ˜ w์™€ σ2์— ๋Œ€ํ•œ ์šฐ๋„ ํ•จ์ˆ˜์˜ ํ‘œํ˜„์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. (4.9)์ด๋ฉฐ, ์—ฌ๊ธฐ์„œ (4.3)์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋„ ํ•จ์ˆ˜์— ๋Œ€ํ•œ ์ž์—ฐ๋กœ๊ทธ๋ฅผ ์ทจํ•˜๊ณ , ๋‹จ์ผ ๋ณ€์ˆ˜ ๊ฐ€์šฐ์‹œ์•ˆ์— ๋Œ€ํ•œ ํ‘œ์ค€ ํ˜•์‹(2.49)์„ ์‚ฌ์šฉํ•˜๋ฉด (4.10)์ด๋ผ๋Š” ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์ œ๊ณฑํ•ฉ ์˜ค์ฐจ ํ•จ์ˆ˜๋Š” (4.11)์— ์˜ํ•ด ์ •์˜๋ฉ๋‹ˆ๋‹ค. (4.10)์˜ ์ฒซ ๋‘ ํ•ญ์€ w๋ฅผ ๊ฒฐ์ •ํ•  ๋•Œ ์ƒ์ˆ˜๋กœ ์ฒ˜๋ฆฌ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์•ž์„œ ๋ณธ ๊ฒƒ์ฒ˜๋Ÿผ ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ ๋ถ„ํฌ ํ•˜์—์„œ ์šฐ๋„ ํ•จ์ˆ˜๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ์€ ์ œ๊ณฑํ•ฉ ์˜ค์ฐจ ํ•จ์ˆ˜ (4.11)๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒƒ๊ณผ ๋™๋“ฑํ•ฉ๋‹ˆ๋‹ค.

1.3  Maximum Likelihood

์šฐ๋ฆฌ๊ฐ€ ์šฐ๋„ ํ•จ์ˆ˜๋ฅผ ์ž‘์„ฑํ•œ ํ›„, ์ตœ๋Œ€ ์šฐ๋„๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ w์™€ σ2๋ฅผ ๊ฒฐ์ •ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋จผ์ € w์— ๋Œ€ํ•œ ์ตœ๋Œ€ํ™”๋ฅผ ๊ณ ๋ คํ•ด ๋ด…์‹œ๋‹ค. ๋กœ๊ทธ ์šฐ๋„ ํ•จ์ˆ˜ (4.10)์˜ w์— ๋Œ€ํ•œ ๊ธฐ์šธ๊ธฐ๋Š” (4.12) ํ˜•ํƒœ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ์ด ๊ธฐ์šธ๊ธฐ๋ฅผ ์ œ๋กœ๋กœ ์„ค์ •ํ•˜๋ฉด (4.13)์ด ๋ฉ๋‹ˆ๋‹ค. w์— ๋Œ€ํ•ด ํ’€์–ด์ฃผ๋ฉด (4.14)๊ฐ€ ๋˜๋Š”๋ฐ, ์ด๋Š” ์ตœ์†Œ ์ œ๊ณฑ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์ •๊ทœ ๋ฐฉ์ •์‹์œผ๋กœ ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ Φ๋Š” N×M ํ–‰๋ ฌ๋กœ, ๋””์ž์ธ ํ–‰๋ ฌ์ด๋ผ๊ณ  ๋ถˆ๋ฆฌ๋ฉฐ ๊ทธ ์›์†Œ๋Š” Φnj = φj(xn)๋กœ ์ฃผ์–ด์ง€๋ฏ€๋กœ (4.15)์ž…๋‹ˆ๋‹ค. ์–‘์ด (4.16)์€ Moore-Penrose ์œ ์‚ฌ ์—ญํ–‰๋ ฌ(Moore–Penrose pseudo-inverse)๋กœ ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค (Rao and Mitra, 1971; Golub and Van Loan, 1996).

์ด๋Š” ์ •์‚ฌ๊ฐํ˜•์ด ์•„๋‹Œ ํ–‰๋ ฌ์— ๋Œ€ํ•œ ํ–‰๋ ฌ ์—ญํ–‰๋ ฌ์˜ ๊ฐœ๋…์„ ์ผ๋ฐ˜ํ™”ํ•œ ๊ฒƒ์œผ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ Φ๊ฐ€ ์ •์‚ฌ๊ฐํ˜•์ด๊ณ  ๊ฐ€์—ญ์ ์ด๋ฉด ์„ฑ์งˆ (AB)−1 = B−1A−1์„ ์‚ฌ์šฉํ•˜์—ฌ Φ† ≡ Φ−1์ž„์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ์‹œ์ ์—์„œ ํŽธํ–ฅ ๋งค๊ฐœ ๋ณ€์ˆ˜ w0์˜ ์—ญํ• ์— ๋Œ€ํ•œ ์–ด๋–ค ํ†ต์ฐฐ๋ ฅ์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŽธํ–ฅ ๋งค๊ฐœ ๋ณ€์ˆ˜๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๋งŒ๋“ค๋ฉด ์˜ค์ฐจ ํ•จ์ˆ˜ (4.11)๋Š” (4.17)์ด ๋ฉ๋‹ˆ๋‹ค. w0์— ๋Œ€ํ•œ ๋„ํ•จ์ˆ˜๋ฅผ 0์œผ๋กœ ์„ค์ •ํ•˜๊ณ  w0์— ๋Œ€ํ•ด ํ’€๋ฉด (4.18)์ด ๋˜๋ฉฐ ์—ฌ๊ธฐ์„œ (4.19)๋ฅผ ์ •์˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ํŽธํ–ฅ w0์€ ๋Œ€์ƒ ๊ฐ’์˜ ํ‰๊ท ๊ณผ ๊ธฐ์ € ํ•จ์ˆ˜ ๊ฐ’์˜ ๊ฐ€์ค‘ ํ‰๊ท  ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ๋ณด์ƒํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ๋˜ํ•œ ๋ถ„์‚ฐ σ2์— ๋Œ€ํ•œ ๋กœ๊ทธ ์šฐ๋„ ํ•จ์ˆ˜ (4.10)๋ฅผ ์ตœ๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” (4.20)์„ ์ฃผ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ๋ถ„์‚ฐ ๋งค๊ฐœ ๋ณ€์ˆ˜์˜ ์ตœ๋Œ€ ์šฐ๋„ ๊ฐ’์€ ํšŒ๊ท€ ํ•จ์ˆ˜ ์ฃผ๋ณ€์˜ ๋Œ€์ƒ ๊ฐ’์˜ ์ž”์ฐจ ๋ถ„์‚ฐ์— ์˜ํ•ด ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค.

 

1.4  Geometry of Least Squares

์ด ์‹œ์ ์—์„œ ์ตœ์†Œ ์ œ๊ณฑ ํ•ด๋ฒ•์˜ ๊ธฐํ•˜ํ•™์  ํ•ด์„์„ ๊ณ ๋ คํ•˜๋Š” ๊ฒƒ์ด ์œ ์ตํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด tn์œผ๋กœ ์ฃผ์–ด์ง„ N ์ฐจ์› ๊ณต๊ฐ„์„ ๊ณ ๋ คํ•˜๋ฉด t = (t1, ..., tN)T๋Š” ์ด ๊ณต๊ฐ„์˜ ๋ฒกํ„ฐ์ž…๋‹ˆ๋‹ค. ๊ฐ ๊ธฐ์ € ํ•จ์ˆ˜ φj(xn), N ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ์—์„œ ๊ณ„์‚ฐ๋œ ๊ฒƒ,์€ ๋˜ํ•œ ๋™์ผํ•œ ๊ณต๊ฐ„์— ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ์œผ๋ฉฐ ์ด๋ฅผ φj๋กœ ํ‘œ์‹œํ•ฉ๋‹ˆ๋‹ค. Figure 4.3์—์„œ ์„ค๋ช…๋œ ๊ฒƒ์ฒ˜๋Ÿผ φj๋Š” Φ์˜ j๋ฒˆ์งธ ์—ด์— ํ•ด๋‹นํ•˜๋ฉฐ, φ(xn)์€ Φ์˜ nth ํ–‰์˜ ์ „์น˜์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์ € ํ•จ์ˆ˜์˜ ์ˆ˜ M์ด ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ ์ˆ˜ N๋ณด๋‹ค ์ž‘์€ ๊ฒฝ์šฐ, M ๊ฐœ์˜ ๋ฒกํ„ฐ φj(xn)๋Š” ์ฐจ์›์ด M์ธ ์„ ํ˜• ๋ถ€๋ถ„ ๊ณต๊ฐ„ S๋ฅผ ๊ตฌ์„ฑํ•ฉ๋‹ˆ๋‹ค. y๋ฅผ n = 1, ..., N์ผ ๋•Œ y(xn, w)๋กœ ์ฃผ์–ด์ง„ N ์ฐจ์› ๋ฒกํ„ฐ๋กœ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค. y๋Š” ๋ฒกํ„ฐ φj์˜ ์ž„์˜์˜ ์„ ํ˜• ์กฐํ•ฉ์ด๋ฏ€๋กœ M ์ฐจ์› ๋ถ€๋ถ„ ๊ณต๊ฐ„ ์–ด๋””์—๋“  ์œ„์น˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ œ๊ณฑํ•ฉ ์˜ค์ฐจ (4.11)๋Š” ๋”ฐ๋ผ์„œ y์™€ t ์‚ฌ์ด์˜ ์ œ๊ณฑ ์œ ํด๋ฆฌ๋“œ ๊ฑฐ๋ฆฌ์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค(1/2์˜ ๋ฐฐ์ˆ˜๋ฅผ ์ œ์™ธํ•˜๊ณ ). ๋”ฐ๋ผ์„œ w์— ๋Œ€ํ•œ ์ตœ์†Œ ์ œ๊ณฑ ํ•ด๋ฒ•์€ subspace S ๋‚ด์— ์œ„์น˜ํ•˜๊ณ  t์— ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด y์˜ ์„ ํƒ์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค. ์ง๊ด€์ ์œผ๋กœ Figure 4.3์—์„œ ์ด ํ•ด๋ฒ•์ด t๋ฅผ subspace S๋กœ์˜ ์ˆ˜์ง ํˆฌ์˜์— ํ•ด๋‹นํ•จ์„ ์˜ˆ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์‹ค์ œ๋กœ ΦwML๋กœ y์— ๋Œ€ํ•œ ํ•ด๋ฒ•์ด ์ฃผ์–ด์ง€๊ณ  ์ด๊ฒƒ์ด ์ˆ˜์ง ํˆฌ์˜์˜ ํ˜•ํƒœ๋ฅผ ์ทจํ•จ์„ ํ™•์ธํ•จ์œผ๋กœ์จ ์‰ฝ๊ฒŒ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ์ •๊ทœ ๋ฐฉ์ •์‹์˜ ์ง์ ‘์ ์ธ ํ•ด๋ฒ•์€ ΦTΦ๊ฐ€ ํŠน์ด์— ๊ฐ€๊นŒ์šธ ๋•Œ ์ˆ˜์น˜์ ์ธ ์–ด๋ ค์›€์„ ์•ผ๊ธฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋‘ ๊ฐœ ์ด์ƒ์˜ ๊ธฐ์ € ๋ฒกํ„ฐ φj๊ฐ€ ๊ณต์„ ์„ฑ์„ ๋„๊ฑฐ๋‚˜ ๊ฑฐ์˜ ๊ณต์„ ์„ฑ์„ ๋Œ ๋•Œ ๊ฒฐ๊ณผ์ ์ธ ๋งค๊ฐœ๋ณ€์ˆ˜ ๊ฐ’์€ ํฐ ํฌ๊ธฐ๋ฅผ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ๋‹ค๋ฃฐ ๋•Œ ์ด๋Ÿฌํ•œ ๊ทผ์ ‘ํ•œ ํ‡ดํ™”๋Š” ํ”ํ•˜์ง€ ์•Š์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์ธ ์ˆ˜์น˜์ ์ธ ์–ด๋ ค์›€์€ ํŠน์ด ๊ฐ’ ๋ถ„ํ•ด ๋˜๋Š” SVD (Deisenroth, Faisal, and Ong, 2020) ๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์—ฌ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ •๊ทœํ™” ํ•ญ์„ ์ถ”๊ฐ€ํ•˜๋ฉด ํ–‰๋ ฌ์ด ํ‡ดํ™”๊ฐ€ ์žˆ๋”๋ผ๋„ ํŠน์ดํ•˜์ง€ ์•Š์Œ์ด ๋ณด์žฅ๋ฉ๋‹ˆ๋‹ค.

 

1.5  Sequential Learning

์ตœ๋Œ€ ์šฐ๋„ ํ•ด๋ฒ•(4.14)์€ ์ „์ฒด ํ›ˆ๋ จ ์„ธํŠธ๋ฅผ ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•˜๋Š” ์ผ๊ด„ ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•์œผ๋กœ ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•ด ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋งŽ์ด ๋“ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์„ธํŠธ๊ฐ€ ์ถฉ๋ถ„ํžˆ ํฌ๋‹ค๋ฉด, ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ ํ•˜๋‚˜์”ฉ ๊ณ ๋ ค๋˜๊ณ  ๊ฐ ์ œ์‹œ ํ›„์— ๋ชจ๋ธ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์—…๋ฐ์ดํŠธ๋˜๋Š” ์ˆœ์ฐจ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ธ ์ˆœ์ฐจ ์•Œ๊ณ ๋ฆฌ์ฆ˜, ๋˜๋Š” ์˜จ๋ผ์ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€์น˜ ์žˆ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ˆœ์ฐจ ํ•™์Šต์€ ๋ฐ์ดํ„ฐ ๊ด€์ธก์ด ์—ฐ์†์ ์œผ๋กœ ๋ฐœ์ƒํ•˜๊ณ  ๋ชจ๋“  ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๊ฐ€ ๋ณผ ๋•Œ๊นŒ์ง€ ์˜ˆ์ธก์ด ์ด๋ฃจ์–ด์ ธ์•ผ ํ•˜๋Š” ์‹ค์‹œ๊ฐ„ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์—๋„ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•, ๋˜๋Š” ์ˆœ์ฐจ ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ•์ด๋ผ๊ณ ๋„ ์•Œ๋ ค์ง„ ๊ธฐ์ˆ ์„ ์ ์šฉํ•˜์—ฌ ์ˆœ์ฐจ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ค์ฐจ ํ•จ์ˆ˜๊ฐ€ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ์— ๋Œ€ํ•œ ํ•ฉ์ธ ๊ฒฝ์šฐ E = ∑nEn, ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ n์ด ์ œ์‹œ๋œ ํ›„ ํ™•๋ฅ ์  ๊ฒฝ์‚ฌ ํ•˜๊ฐ•๋ฒ• ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ (4.21)์„ ์‚ฌ์šฉํ•˜์—ฌ ๋งค๊ฐœ๋ณ€์ˆ˜ ๋ฒกํ„ฐ w๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ τ๋Š” ๋ฐ˜๋ณต ํšŸ์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, η๋Š” ์ ์ ˆํžˆ ์„ ํƒ๋œ ํ•™์Šต ์†๋„ ๋งค๊ฐœ๋ณ€์ˆ˜์ž…๋‹ˆ๋‹ค. w์˜ ๊ฐ’์€ ์–ด๋–ค ์‹œ์ž‘ ๋ฒกํ„ฐ w(0)๋กœ ์ดˆ๊ธฐํ™”๋ฉ๋‹ˆ๋‹ค. ์ œ๊ณฑ ์˜ค์ฐจ ํ•จ์ˆ˜ (4.11)์˜ ๊ฒฝ์šฐ ์ด๋Š” (4.22)๋ฅผ ์ฃผ์–ด์ง€๋ฉฐ, ์—ฌ๊ธฐ์„œ φn = φ(xn)์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์ตœ์†Œ ํ‰๊ท  ์ œ๊ณฑ ๋˜๋Š” LMS ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค.

 

1.6  Regularized Least Squares

๊ณผ์ ํ•ฉ์„ ์ œ์–ดํ•˜๊ธฐ ์œ„ํ•ด ์˜ค์ฐจ ํ•จ์ˆ˜์— ์ •๊ทœํ™” ํ•ญ์„ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฐœ๋…์„ ์ด์ „์— ์†Œ๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ์ตœ์†Œํ™”ํ•ด์•ผ ํ•˜๋Š” ์ด ์˜ค์ฐจ ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค (4.23), ์—ฌ๊ธฐ์„œ λ๋Š” ์ •๊ทœํ™” ๊ณ„์ˆ˜๋กœ ๋ฐ์ดํ„ฐ ์ข…์†์  ์˜ค์ฐจ ED(w)์™€ ์ •๊ทœํ™” ํ•ญ EW(w)์˜ ์ƒ๋Œ€์  ์ค‘์š”์„ฑ์„ ์ œ์–ดํ•ฉ๋‹ˆ๋‹ค. ์ •๊ทœํ™” ํ•ญ์˜ ๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ ํ˜•ํƒœ ์ค‘ ํ•˜๋‚˜๋Š” ๊ฐ€์ค‘์น˜ ๋ฒกํ„ฐ ์š”์†Œ๋“ค์˜ ์ œ๊ณฑ์˜ ํ•ฉ์œผ๋กœ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค (4.24). ๋งŒ์•ฝ ์šฐ๋ฆฌ๊ฐ€ ๋˜ํ•œ (4.25)์— ์ฃผ์–ด์ง„ ์ œ๊ณฑ ํ•ฉ ์˜ค์ฐจ ํ•จ์ˆ˜๋ฅผ ๊ณ ๋ คํ•œ๋‹ค๋ฉด, ์ „์ฒด ์˜ค์ฐจ ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์•„์ง‘๋‹ˆ๋‹ค (4.26). ํ†ต๊ณ„์—์„œ ์ด ์ •๊ทœํ™” ํ•ญ์€ ๋งค๊ฐœ๋ณ€์ˆ˜ ๊ฐ’์„ ์ œ๋กœ๋กœ ์ˆ˜์ถ•์‹œํ‚ค๊ธฐ ๋•Œ๋ฌธ์— ๋งค๊ฐœ๋ณ€์ˆ˜ ์ˆ˜์ถ• ๋ฐฉ๋ฒ•์˜ ํ•œ ์˜ˆ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๊ฒƒ์€ ์˜ค์ฐจ ํ•จ์ˆ˜๊ฐ€ ์—ฌ์ „ํžˆ w์˜ ์ด์ฐจ ํ•จ์ˆ˜๋กœ ์œ ์ง€๋˜๋Š” ์žฅ์ ์ด ์žˆ์œผ๋ฉฐ, ๋”ฐ๋ผ์„œ ๊ทธ ์ •ํ™•ํ•œ ์ตœ์†Œํ™” ๊ฐ’์€ ๋‹ซํžŒ ํ˜•์‹์œผ๋กœ ์ฐพ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ (4.26)์˜ w์— ๋Œ€ํ•œ ๊ธฐ์šธ๊ธฐ๋ฅผ ์ œ๋กœ๋กœ ์„ค์ •ํ•˜๊ณ  ์ด์ „๊ณผ ๊ฐ™์ด w์— ๋Œ€ํ•ด ํ•ด๊ฒฐํ•˜๋ฉด (4.27)์„ ์–ป์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ตœ์†Œ์ œ๊ณฑ ์†”๋ฃจ์…˜ (4.14)์˜ ๊ฐ„๋‹จํ•œ ํ™•์žฅ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

 

1.7  Multiple Outputs

์ง€๊ธˆ๊นŒ์ง€ ๋‹จ์ผ ๋Œ€์ƒ ๋ณ€์ˆ˜ t๊ฐ€ ์žˆ๋Š” ์ƒํ™ฉ์„ ๊ณ ๋ คํ–ˆ์Šต๋‹ˆ๋‹ค. ์–ด๋–ค ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์—์„œ๋Š” K > 1 ๋Œ€์ƒ ๋ณ€์ˆ˜๋ฅผ ์˜ˆ์ธกํ•˜๊ณ  ์‹ถ์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋“ค์€ ๋Œ€์ƒ ๋ฒกํ„ฐ t = (t1 , . . . , tk )T๋กœ ํ†ต์นญํ•ฉ๋‹ˆ๋‹ค. ๊ฐ t ๊ตฌ์„ฑ ์š”์†Œ์— ๋Œ€ํ•ด ๋‹ค๋ฅธ ๊ธฐ์ € ํ•จ์ˆ˜ ์ง‘ํ•ฉ์„ ๋„์ž…ํ•˜์—ฌ ์—ฌ๋Ÿฌ ๋…๋ฆฝ์ ์ธ ํšŒ๊ท€ ๋ฌธ์ œ๋กœ ์ง„ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋” ์ผ๋ฐ˜์ ์ธ ์ ‘๊ทผ ๋ฐฉ์‹์€ ๋Œ€์ƒ ๋ฒกํ„ฐ์˜ ๋ชจ๋“  ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐ ๋™์ผํ•œ ๊ธฐ์ € ํ•จ์ˆ˜ ์ง‘ํ•ฉ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋กœ ์ธํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜•ํƒœ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค (4.28), ์—ฌ๊ธฐ์„œ y๋Š” K ์ฐจ์› ์—ด ๋ฒกํ„ฐ์ด๊ณ , W๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜์˜ M × K ํ–‰๋ ฌ์ด๋ฉฐ, φ(x)๋Š” ์ด์ „๊ณผ ๊ฐ™์ด ์š”์†Œ๊ฐ€ φj(x)์ธ M ์ฐจ์› ์—ด ๋ฒกํ„ฐ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค์‹œ ํ•œ ๊ณ„์ธต์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ ์‹ ๊ฒฝ๋ง์œผ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Figure 4.4์— ํ‘œ์‹œ๋œ ๊ฒƒ์ฒ˜๋Ÿผ์ž…๋‹ˆ๋‹ค. ๋Œ€์ƒ ๋ฒกํ„ฐ์˜ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ๋ฅผ ํ˜•์‹ (4.29)์˜ ๋“ฑ๋ฐฉ์„ฑ ๊ฐ€์šฐ์‹œ์•ˆ์œผ๋กœ ์ทจํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด ๋ด…์‹œ๋‹ค. t1, . . . , t1์˜ ๊ด€์ธก์น˜ ์„ธํŠธ๊ฐ€ ์žˆ๋‹ค๋ฉด ์ด๋ฅผ tTn์ด ์ฃผ์–ด์ง€๋Š” ํ–‰๋ ฌ T๋กœ ๊ฒฐํ•ฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํฌ๊ธฐ๊ฐ€ N × K์ธ ํ–‰๋ ฌ X๋กœ x1, ..., xN์˜ ์ž…๋ ฅ ๋ฒกํ„ฐ๋ฅผ ๊ฒฐํ•ฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ๋กœ๊ทธ์šฐ๋„ ํ•จ์ˆ˜๋Š” (4.30)์œผ๋กœ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค. ์ด์ „๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ W์— ๋Œ€ํ•ด ์ด ํ•จ์ˆ˜๋ฅผ ์ตœ๋Œ€ํ™”ํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Š” (4.31)์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์ž…๋ ฅ ํŠน์ง• ๋ฒกํ„ฐ φ(x1 ), . . . , φ(xN )์„ ํ–‰๋ ฌ Φ๋กœ ๊ฒฐํ•ฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ๋Œ€์ƒ ๋ณ€์ˆ˜ tk์— ๋Œ€ํ•ด ์ด ๊ฒฐ๊ณผ๋ฅผ ์กฐ์‚ฌํ•˜๋ฉด (4.32)๊ฐ€ ๋‚˜์˜ค๋ฉฐ, ์—ฌ๊ธฐ์„œ tk๋Š” n = 1, . . . N์˜ ๊ตฌ์„ฑ ์š”์†Œ tnk๋ฅผ ๊ฐ–๋Š” N ์ฐจ์› ์—ด ๋ฒกํ„ฐ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ํšŒ๊ท€ ๋ฌธ์ œ์˜ ํ•ด๊ฒฐ์€ ์„œ๋กœ ๋‹ค๋ฅธ ๋Œ€์ƒ ๋ณ€์ˆ˜ ๊ฐ„์— ๋ถ„๋ฆฌ๋˜๋ฉฐ ๋ชจ๋“  ๋ฒกํ„ฐ wk์— ๊ณต์œ ๋˜๋Š” ๋‹จ์ผ ์˜์‚ฌ ์—ญํ–‰๋ ฌ ํ–‰๋ ฌ Φ†๋งŒ ๊ณ„์‚ฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ์ž„์˜์˜ ๊ณต๋ถ„์‚ฐ ํ–‰๋ ฌ์„ ๊ฐ–๋Š” ์ผ๋ฐ˜์ ์ธ ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ ๋ถ„ํฌ๋กœ์˜ ํ™•์žฅ์€ ๊ฐ„๋‹จํ•ฉ๋‹ˆ๋‹ค. ๋‹ค์‹œ ํ•œ ๋ฒˆ K ๊ฐœ์˜ ๋…๋ฆฝ์ ์ธ ํšŒ๊ท€ ๋ฌธ์ œ๋กœ ๋ถ„๋ฆฌ๋ฉ๋‹ˆ๋‹ค. ์ด ๊ฒฐ๊ณผ๋Š” W ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ ๋ถ„ํฌ์˜ ํ‰๊ท ๋งŒ์„ ์ •์˜ํ•˜๊ณ  ์žˆ์œผ๋ฉฐ, ๋‹ค๋ณ€๋Ÿ‰ ๊ฐ€์šฐ์‹œ์•ˆ์˜ ํ‰๊ท ์— ๋Œ€ํ•œ ์ตœ๋Œ€ ์šฐ๋„ ์†”๋ฃจ์…˜์ด ๊ณต๋ถ„์‚ฐ๊ณผ ๋…๋ฆฝ์ ์ด๋ผ๋Š” ์‚ฌ์‹ค์„ ์•Œ๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์˜ˆ์ƒ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์ด์ œ๋ถ€ํ„ฐ๋Š” ํŽธ์˜์ƒ ๋‹จ์ผ ๋Œ€์ƒ ๋ณ€์ˆ˜ t๋งŒ์„ ๊ณ ๋ คํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 


2. Decision Theory

prev.

์šฐ๋ฆฌ๋Š” ํšŒ๊ท€ ์ž‘์—…์„ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ  ๋ถ„ํฌ p(t|x)๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์ •์˜ํ–ˆ์œผ๋ฉฐ, ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์˜ ํŠน์ • ํ˜•ํƒœ๋กœ๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜ w์— ์˜ํ•ด ์กฐ์ ˆ๋˜๋Š” x-์˜์กด์  ํ‰๊ท  y(x, w)๊ณผ ๋งค๊ฐœ๋ณ€์ˆ˜ σ2์— ์˜ํ•œ ๋ถ„์‚ฐ์„ ๊ฐ€์ง€๋Š” ๊ฐ€์šฐ์‹œ์•ˆ(4.8)์„ ์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค. w์™€ σ2๋Š” ์ตœ๋Œ€์šฐ๋„๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ์ดํ„ฐ์—์„œ ํ•™์Šต๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ (4.33)์œผ๋กœ ํ‘œํ˜„๋˜๋Š” ์˜ˆ์ธก ๋ถ„ํฌ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. ์˜ˆ์ธก ๋ถ„ํฌ๋Š” ์ƒˆ๋กœ์šด ์ž…๋ ฅ x์— ๋Œ€ํ•œ t์˜ ๊ฐ’์— ๋Œ€ํ•œ ๋ถˆํ™•์‹ค์„ฑ์„ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋งŽ์€ ์‹ค์šฉ์ ์ธ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์—์„œ๋Š” ์ „์ฒด ๋ถ„ํฌ๋ฅผ ๋ฐ˜ํ™˜ํ•˜๋Š” ๋Œ€์‹  ํŠน์ • ๊ฐ’์„ ์˜ˆ์ธกํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ํŠน์ • ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•˜๋Š” ๊ฒฝ์šฐ์ž…๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์ข…์–‘์„ ์น˜๋ฃŒํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ์‚ฌ์„ ์˜ ์ตœ์  ๋ ˆ๋ฒจ์„ ๊ฒฐ์ •ํ•˜๋ ค๋ฉด ๋ชจ๋ธ์ด ๋ฐฉ์‚ฌ์„  ์šฉ๋Ÿ‰์— ๋Œ€ํ•œ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์˜ˆ์ธกํ•˜๊ณ , ๊ทธ ๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํŠน์ • ์šฉ๋Ÿ‰์„ ๊ฒฐ์ •ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๊ฒฝ์šฐ ์šฐ๋ฆฌ์˜ ์ž‘์—…์€ ์ฒซ ๋ฒˆ์งธ ๋‹จ๊ณ„์—์„œ๋Š” ์ถ”๋ก  ๋‹จ๊ณ„๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค. ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ๋Š” ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์˜ˆ์ธก ๋ถ„ํฌ p(t|x)๋ฅผ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ๋‘ ๋ฒˆ์งธ ๋‹จ๊ณ„๋Š” ์˜์‚ฌ ๊ฒฐ์ • ๋‹จ๊ณ„๋กœ, ์ด ์˜ˆ์ธก ๋ถ„ํฌ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ผ์ • ๊ธฐ์ค€์— ๋”ฐ๋ผ ์ตœ์ ์˜ ํŠน์ • ๊ฐ’์„ f(x)๋กœ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ์˜ˆ์ธก ๋ถ„ํฌ p(t|x)์™€ f์— ์˜์กดํ•˜๋Š” ์†์‹ค ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ง๊ด€์ ์œผ๋กœ ์šฐ๋ฆฌ๋Š” ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ์˜ ํ‰๊ท ์„ ์„ ํƒํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ f(x) = y(x,w_ML)์„ ์‚ฌ์šฉํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ์ง๊ด€์ด ์–ด๋–ค ๊ฒฝ์šฐ์—๋Š” ๋งž์„ ์ˆ˜ ์žˆ์ง€๋งŒ, ๋‹ค๋ฅธ ์ƒํ™ฉ์—์„œ๋Š” ๋งค์šฐ ๋‚˜์œ ๊ฒฐ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ด๊ฒƒ์ด ์–ธ์ œ ์ ์šฉ๋˜๋ฉฐ ์–ด๋–ค ๊ฐ€์ • ํ•˜์—์„œ ์ ์šฉ๋˜๋Š”์ง€๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ์ด๋ฅผ ๊ณต์‹ํ™”ํ•˜๋Š” ๊ฒƒ์ด ์œ ์šฉํ•˜๋ฉฐ, ์ด๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์˜์‚ฌ ๊ฒฐ์ • ์ด๋ก ์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ์˜ˆ์ธก์— ๋Œ€ํ•œ ์ตœ์ ๊ฐ’ f(x)๋ฅผ ์„ ํƒํ•  ๋•Œ ์‹ค์ œ ๊ฐ’์ด t์ผ ๋•Œ ์ผ์ข…์˜ ํŒจ๋„ํ‹ฐ ๋˜๋Š” ๋น„์šฉ์ด ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ์ด๋Š” ์†์‹ค๋กœ ๋‚˜ํƒ€๋‚ด๋ฉฐ L(t, f(x))๋กœ ํ‘œ๊ธฐํ•ฉ๋‹ˆ๋‹ค. ๋ฌผ๋ก  ์šฐ๋ฆฌ๋Š” t์˜ ์‹ค์ œ ๊ฐ’์„ ๋ชจ๋ฅด๊ธฐ ๋•Œ๋ฌธ์— L ์ž์ฒด๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋Œ€์‹  (4.34)์—์„œ ์ฃผ์–ด์ง„ ๊ฒƒ์ฒ˜๋Ÿผ ์ž…๋ ฅ๊ณผ ๋Œ€์ƒ ๋ณ€์ˆ˜์˜ ๊ฒฐํ•ฉ ๋ถ„ํฌ p(x, t)์— ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ ํ‰๊ท  ๋˜๋Š” ๊ธฐ๋Œ€ ์†์‹ค์„ ์ตœ์†Œํ™”ํ•ฉ๋‹ˆ๋‹ค. ํšŒ๊ท€ ๋ฌธ์ œ์—์„œ ์ผ๋ฐ˜์ ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์†์‹ค ํ•จ์ˆ˜์˜ ์„ ํƒ์€ L(t, f(x)) = {f(x) - t}2๋กœ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค. ์ด ๊ฒฝ์šฐ ๊ธฐ๋Œ€ ์†์‹ค์€ (4.35)๋กœ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. E[L]์„ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๋Š” f(x)๋ฅผ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์™„์ „ํžˆ ์œ ์—ฐํ•œ ํ•จ์ˆ˜ f(x)๋ฅผ ๊ฐ€์ •ํ•œ๋‹ค๋ฉด, ์šฐ๋ฆฌ๋Š” ๋ฏธ๋ถ„ ๊ฐ€๋ณ€์˜ ๊ณ„์‚ฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฅผ ํ˜•์‹์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. (4.36)์œผ๋กœ ์ฃผ์–ด์ง„ ๊ฒฐ๊ณผ๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. f(x)์— ๋Œ€ํ•ด ํ’€์–ด๋‚˜๊ฐ€๊ณ  ํ™•๋ฅ ์˜ ํ•ฉ๊ณผ ๊ณฑ ๊ทœ์น™์„ ์‚ฌ์šฉํ•˜์—ฌ (4.37)์„ ์–ป์Šต๋‹ˆ๋‹ค. ์ด๋Š” x์— ๋Œ€ํ•œ ์กฐ๊ฑด๋ถ€ ํ‰๊ท ์ด๋ฉฐ ํšŒ๊ท€ ํ•จ์ˆ˜๋กœ ์•Œ๋ ค์ ธ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ฒฐ๊ณผ๋Š” Figure 4.5์—์„œ ์„ค๋ช…๋œ ๊ฒƒ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๋‹ค๋ณ€์ˆ˜ ๋Œ€์ƒ ๋ณ€์ˆ˜๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋ฒกํ„ฐ t๋กœ ํ™•์žฅํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด ๊ฒฝ์šฐ ์ตœ์  ํ•ด๋Š” ์กฐ๊ฑด๋ถ€ ํ‰๊ท  fโ‹†(x) = E[t|x]์ž…๋‹ˆ๋‹ค. ๊ฐ€์šฐ์‹œ์•ˆ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ์˜ ๊ฒฝ์šฐ (4.8) ํ˜•ํƒœ๋กœ, ์กฐ๊ฑด๋ถ€ ํ‰๊ท ์€ ๋‹จ์ˆœํžˆ (4.38)์ž…๋‹ˆ๋‹ค. (4.37)๋ฅผ ์œ ๋„ํ•˜๋Š” ๋˜ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•์œผ๋กœ๋Š” ํšŒ๊ท€ ๋ฌธ์ œ์˜ ๋ณธ์งˆ์„ ๋” ์ž˜ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐฉ์‹์œผ๋กœ ์œ ๋„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ตœ์  ํ•ด๊ฐ€ ์กฐ๊ฑด๋ถ€ ๊ธฐ๋Œ€๊ฐ’์ธ ์ง€์‹์„ ๋ฐ”ํƒ•์œผ๋กœ ์ œ๊ณฑ ํ•ญ์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ™•์žฅํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. {f(x) - t}2 = {f(x) - E[t|x] + E[t|x] - t}2 = {f(x) - E[t|x]}2 + 2{f(x) - E[t|x]}{E[t|x] - t} + {E[t|x] - t}2 ํ‘œ๊ธฐ๋ฅผ ๋‹จ์ˆœํ•˜๊ฒŒ ์œ ์ง€ํ•˜๊ธฐ ์œ„ํ•ด E[t|x]๋ฅผ Et[t|x]๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์†์‹ค ํ•จ์ˆ˜ (4.35)์— ๋Œ€์ž…ํ•˜๊ณ  t์— ๋Œ€ํ•œ ์ ๋ถ„์„ ์ˆ˜ํ–‰ํ•˜๋ฉด ๊ต์ฐจ ํ•ญ์ด ์—†์–ด์ง€๊ณ  ์†์‹ค ํ•จ์ˆ˜๋ฅผ (4.39) ํ˜•ํƒœ๋กœ ์–ป์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ๊ฒฐ์ •ํ•˜๋ ค๋Š” ํ•จ์ˆ˜ f(x)๋Š” ์ฒซ ๋ฒˆ์งธ ํ•ญ ์—๋งŒ ๋‚˜ํƒ€๋‚˜๋ฉฐ, ์ด ํ•ญ์€ f(x)๊ฐ€ E[t|x]์™€ ๊ฐ™์„ ๋•Œ ์ตœ์†Œํ™”๋ฉ๋‹ˆ๋‹ค. ์ด ๊ฒฝ์šฐ ์ด ํ•ญ์€ ์—†์–ด์ง‘๋‹ˆ๋‹ค. ์ด๋Š” ์šฐ๋ฆฌ๊ฐ€ ์ด์ „์— ์œ ๋„ํ•œ ๊ฒฐ๊ณผ์ผ ๋ฟ์ด๋ฉฐ, ์ตœ์ ์˜ ์ตœ์†Œ์ œ๊ณฑ ์˜ˆ์ธก์ž๋Š” ์กฐ๊ฑด๋ถ€ ํ‰๊ท ์œผ๋กœ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค. ๋‘ ๋ฒˆ์งธ ํ•ญ์€ x์— ๋Œ€ํ•ด ํ‰๊ท ํ™”๋œ t์˜ ๋ถ„ํฌ์˜ ๋ถ„์‚ฐ์ด๋ฉฐ ๋Œ€์ƒ ๋ฐ์ดํ„ฐ์˜ ๋‚ด์žฌ์  ๋ณ€๋™์„ฑ์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ ์†์‹ค ํ•จ์ˆ˜์˜ ๊ธฐ๋ณธ ์ตœ์†Ÿ๊ฐ’์œผ๋กœ ๊ฐ„์ฃผ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ œ๊ณฑ ์†์‹ค์€ ํšŒ๊ท€๋ฅผ ์œ„ํ•œ ์†์‹ค ํ•จ์ˆ˜์˜ ์œ ์ผํ•œ ์„ ํƒ์ด ์•„๋‹™๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์šฐ๋ฆฌ๋Š” ์ œ๊ณฑ ์†์‹ค์˜ ๊ฐ„๋‹จํ•œ ์ผ๋ฐ˜ํ™” ์ค‘ ํ•˜๋‚˜์ธ ๋ฏผ์ฝ”ํ”„์Šคํ‚ค ์†์‹ค์„ ๊ฐ„๋‹จํžˆ ๊ฒ€ํ† ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ๊ธฐ๋Œ€๊ฐ’์€ (4.40)์œผ๋กœ ์ฃผ์–ด์ง€๋ฉฐ q = 2์˜ ๊ฒฝ์šฐ ์˜ˆ์ƒ๋œ ์ œ๊ณฑ ์†์‹ค๋กœ ๊ฐ์†Œํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๋Ÿฌ q ๊ฐ’์— ๋Œ€ํ•œ f - t์— ๋Œ€ํ•ด |f - t|q ํ•จ์ˆ˜๋Š” Figure 4.6์—์„œ ํ”Œ๋กœํŒ…๋ฉ๋‹ˆ๋‹ค. E[Lq]์˜ ์ตœ์†Ÿ๊ฐ’์€ q = 2์˜ ๊ฒฝ์šฐ ์กฐ๊ฑด๋ถ€ ํ‰๊ท , q = 1์˜ ๊ฒฝ์šฐ ์กฐ๊ฑด๋ถ€ ์ค‘์•™๊ฐ’ ๋ฐ q → 0์˜ ๊ฒฝ์šฐ ์กฐ๊ฑด๋ถ€ ๋ชจ๋“œ์ž…๋‹ˆ๋‹ค. ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ ๊ฐ€์ •์€ x๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ t์˜ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ๊ฐ€ ๋‹จ์ผ ๋ชจ์–‘์ž„์„ ์˜๋ฏธํ•˜๋ฉฐ, ์ด๋Š” ์ผ๋ถ€ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์—๋Š” ๋ถ€์ ์ ˆํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ฒฝ์šฐ ์ œ๊ณฑ ์†์‹ค์€ ๋งค์šฐ ๋‚˜์œ ๊ฒฐ๊ณผ๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ์œผ๋ฉฐ ๋” ์ •๊ตํ•œ ์ ‘๊ทผ ๋ฐฉ์‹์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์šฐ๋ฆฌ๋Š” ๊ฐ€์šฐ์‹œ์•ˆ์˜ ํ˜ผํ•ฉ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์ค‘ ๋ชจ๋“œ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ๋ฅผ ๋งŒ๋“ค์–ด ์ด๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์—ญ ๋ฌธ์ œ์˜ ํ•ด๊ฒฐ์—์„œ ์ž์ฃผ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ์ด ์„น์…˜์—์„œ๋Š” ํšŒ๊ท€ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์˜์‚ฌ ๊ฒฐ์ • ์ด๋ก ์— ์ค‘์ ์„ ๋‘์—ˆ์œผ๋ฉฐ, ๋‹ค์Œ ์žฅ์—์„œ๋Š” ๋ถ„๋ฅ˜ ์ž‘์—…์— ๋Œ€ํ•œ ์œ ์‚ฌํ•œ ๊ฐœ๋…์„ ๊ฐœ๋ฐœํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 


3.  Bias-Variance Trade-off

prev.

์ง€๊ธˆ๊นŒ์ง€ ํšŒ๊ท€์— ๋Œ€ํ•œ ์„ ํ˜• ๋ชจ๋ธ์— ๋Œ€ํ•œ ๋…ผ์˜์—์„œ ์šฐ๋ฆฌ๋Š” ๊ธฐ์ € ํ•จ์ˆ˜์˜ ํ˜•ํƒœ์™€ ๊ฐœ์ˆ˜๊ฐ€ ๋ชจ๋‘ ์ฃผ์–ด์ง„ ๊ฒƒ์œผ๋กœ ๊ฐ€์ •ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ตœ๋Œ€์šฐ๋„๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋ฐ์ดํ„ฐ ์„ธํŠธ ํฌ๊ธฐ๊ฐ€ ์ œํ•œ๋œ ๊ฒฝ์šฐ ๋ณต์žกํ•œ ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚ฌ ๋•Œ ์‹ฌ๊ฐํ•œ ๊ณผ์ ํ•ฉ์ด ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์•˜์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๊ณผ์ ํ•ฉ์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ๊ธฐ์ € ํ•จ์ˆ˜์˜ ๊ฐœ์ˆ˜๋ฅผ ์ œํ•œํ•˜๋ฉด ๋ชจ๋ธ์ด ๋ฐ์ดํ„ฐ์˜ ํฅ๋ฏธ๋กœ์šด ๊ฒฝํ–ฅ์„ ์บก์ฒ˜ํ•˜๋Š” ์œ ์—ฐ์„ฑ์ด ์ œํ•œ๋˜๋Š” ๋ถ€์ž‘์šฉ์ด ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ๋งŽ์€ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ์— ๋Œ€ํ•œ ๊ณผ์ ํ•ฉ์„ ์ œ์–ดํ•˜๋Š” ์ •๊ทœํ™” ํ•ญ์ด ์žˆ๋”๋ผ๋„ ์ •๊ทœํ™” ๊ณ„์ˆ˜ λ์— ์ ์ ˆํ•œ ๊ฐ’์„ ์–ด๋–ป๊ฒŒ ๊ฒฐ์ •ํ• ์ง€์— ๋Œ€ํ•œ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€์ค‘์น˜ ๋ฒกํ„ฐ w ๋ฐ ์ •๊ทœํ™” ๊ณ„์ˆ˜ λ์— ๋Œ€ํ•œ ์ •๊ทœํ™”๋œ ์˜ค๋ฅ˜ ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ํ•ด๋ฅผ ์ฐพ๋Š” ๊ฒƒ์€ ๋ถ„๋ช…ํžˆ ์˜ณ์ง€ ์•Š์€ ์ ‘๊ทผ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์™œ๋ƒํ•˜๋ฉด ์ด๋Š” λ = 0์˜ ์ •๊ทœํ™”๋˜์ง€ ์•Š์€ ํ•ด๋กœ ์ด์–ด์ง€๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

๋ชจ๋ธ ๋ณต์žก์„ฑ ๋ฌธ์ œ์— ๋Œ€ํ•œ ๋นˆ๋„์ฃผ์˜์  ๊ด€์ ์ธ ํŽธํ–ฅ-๋ถ„์‚ฐ ๊ท ํ˜•์„ ๊ณ ๋ คํ•˜๋Š” ๊ฒƒ์ด ์œ ์ตํ•ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด ๊ฐœ๋…์„ ์„ ํ˜• ๊ธฐ์ € ํ•จ์ˆ˜ ๋ชจ๋ธ์˜ ๋งฅ๋ฝ์—์„œ ์†Œ๊ฐœํ•  ๊ฒƒ์ด๋ฉฐ, ์—ฌ๊ธฐ์„œ ๊ฐ„๋‹จํ•œ ์˜ˆ์ œ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์•„์ด๋””์–ด๋ฅผ ์„ค๋ช…ํ•˜๊ธฐ๊ฐ€ ์‰ฝ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์ด ๋…ผ์˜๋Š” ๋งค์šฐ ์ผ๋ฐ˜์ ์œผ๋กœ ์ ์šฉ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค๋งŒ, ์˜ค๋ฒ„ํ”ผํŒ…์€ ์‹ค์ œ๋กœ ์ตœ๋Œ€์šฐ๋„์˜ ๋ถˆํ–‰ํ•œ ์†์„ฑ์ด๋ฉฐ ๋ฒ ์ด์ง€์•ˆ ํ™˜๊ฒฝ์—์„œ ๋งค๊ฐœ๋ณ€์ˆ˜์— ๋Œ€ํ•œ ์ฃผ๋ณ€ํ™”๋ฅผ ์ˆ˜ํ–‰ํ•  ๋•Œ๋Š” ๋ฐœ์ƒํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค(Bishop, 2006).

์šฐ๋ฆฌ๊ฐ€ ํšŒ๊ท€ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์˜์‚ฌ ๊ฒฐ์ • ์ด๋ก ์„ ๋…ผ์˜ํ•  ๋•Œ ์šฐ๋ฆฌ๋Š” ๋‹ค์–‘ํ•œ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ๊ณ ๋ คํ–ˆ๊ณ , ๊ฐ๊ฐ์€ ์กฐ๊ฑด๋ถ€ ๋ถ„ํฌ p(t|x)๊ฐ€ ์ฃผ์–ด์ง„ ๊ฒฝ์šฐ์— ๋Œ€์‘ํ•˜๋Š” ์ตœ์ ์˜ ์˜ˆ์ธก์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ์ธ๊ธฐ ์žˆ๋Š” ์„ ํƒ์€ ์ œ๊ณฑ ์†์‹ค ํ•จ์ˆ˜์ด๋ฉฐ, ์ด ๊ฒฝ์šฐ ์ตœ์ ์˜ ์˜ˆ์ธก์€ ์กฐ๊ฑด๋ถ€ ๊ธฐ๋Œ€์น˜๋กœ ์ฃผ์–ด์ง€๋ฉฐ, ์ด๋ฅผ h(x)๋กœ ํ‘œ์‹œํ•˜๊ณ  (4.41)๋กœ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ธฐ๋Œ€๋˜๋Š” ์ œ๊ณฑ ์†์‹ค์€ (4.42) ํ˜•ํƒœ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‘ ๋ฒˆ์งธ ํ•ญ์€ f(x)์— ๋…๋ฆฝ์ ์ธ ์ธํŠธ๋ฆฐ์ง ๋ฐ์ดํ„ฐ ๋…ธ์ด์ฆˆ์—์„œ ๋ฐœ์ƒํ•˜๋ฉฐ ์˜ˆ์ƒ ์†์‹ค์˜ ์ตœ์†Ÿ๊ฐ’์ž…๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ ํ•ญ์€ ํ•จ์ˆ˜ f(x)์˜ ์„ ํƒ์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋ฉฐ ์ด ํ•ญ์„ ์ตœ์†Œํ™”ํ•˜๋Š” f(x)์˜ ํ•ด๋ฅผ ์ฐพ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด ํ•ญ์ด ์Œ์ด ์•„๋‹ˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด ํ•ญ์˜ ๊ฐ€์žฅ ์ž‘์€ ๊ฐ’์€ 0์ž…๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๊ฐ€ ๋ฌดํ•œํ•œ ๋ฐ์ดํ„ฐ ๊ณต๊ธ‰์ด ์žˆ๋‹ค๋ฉด (๊ทธ๋ฆฌ๊ณ  ๋ฌดํ•œํ•œ ๊ณ„์‚ฐ ์ž์›์ด ์žˆ๋‹ค๋ฉด) ์›ํ•˜๋Š” ์ •๋„์˜ ์ •ํ™•๋„๋กœ ํšŒ๊ท€ ํ•จ์ˆ˜ h(x)๋ฅผ ์›์น™์ ์œผ๋กœ ์ฐพ์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๊ฒƒ์ด f(x)์— ๋Œ€ํ•œ ์ตœ์ ์˜ ์„ ํƒ์ผ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ์‹ค์ œ๋กœ๋Š” ์œ ํ•œํ•œ ์ˆ˜์˜ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ N๋งŒ ํฌํ•จ๋œ ๋ฐ์ดํ„ฐ ์„ธํŠธ D๊ฐ€ ์žˆ๊ณ , ๋”ฐ๋ผ์„œ ์šฐ๋ฆฌ๋Š” ํšŒ๊ท€ ํ•จ์ˆ˜ h(x)๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์•Œ ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ๋งŒ์•ฝ ๋งค๊ฐœ ๋ณ€์ˆ˜ ๋ฒกํ„ฐ w์— ์˜ํ•ด ์ง€๋ฐฐ๋˜๋Š” ํ•จ์ˆ˜๋กœ h(x)๋ฅผ ๋ชจ๋ธ๋งํ•œ๋‹ค๋ฉด ๋ฒ ์ด์ง€์•ˆ ๊ด€์ ์—์„œ๋Š” ๋ชจ๋ธ์˜ ๋ถˆํ™•์‹ค์„ฑ์ด w์— ๋Œ€ํ•œ ์‚ฌํ›„ ๋ถ„ํฌ๋ฅผ ํ†ตํ•ด ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋นˆ๋„์ฃผ์˜์  ์ฒ˜๋ฆฌ๋Š” ๋ฐ์ดํ„ฐ ์„ธํŠธ D๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ w์˜ ์  ์ถ”์ •์น˜๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ์ด ์ถ”์ •์น˜์˜ ๋ถˆํ™•์‹ค์„ฑ์„ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์‚ฌ๊ณ  ์‹คํ—˜์„ ํ†ตํ•ด ํ•ด์„ํ•˜๋ ค๊ณ  ์‹œ๋„ํ•ฉ๋‹ˆ๋‹ค. N ํฌ๊ธฐ์˜ ๊ฐ ๋…๋ฆฝ์ ์œผ๋กœ ์ถ”์ถœ๋œ ๋ฐ์ดํ„ฐ ์„ธํŠธ D๊ฐ€ ๋ถ„ํฌ p(t, x)์—์„œ ๋…๋ฆฝ์ ์œผ๋กœ ๊ทธ๋ ค์ง„ ๊ฒƒ์œผ๋กœ ๊ฐ€์ •ํ•ฉ๋‹ˆ๋‹ค. ํŠน์ • ๋ฐ์ดํ„ฐ ์„ธํŠธ D์— ๋Œ€ํ•ด ์šฐ๋ฆฌ์˜ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‹คํ–‰ํ•˜๊ณ  ์˜ˆ์ธก ํ•จ์ˆ˜ f(x; D)๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์•™์ƒ๋ธ”์˜ ๋‹ค๋ฅธ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋Š” ๋‹ค๋ฅธ ํ•จ์ˆ˜๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ œ๊ณฑ ์†์‹ค์˜ ๋‹ค๋ฅธ ๊ฐ’๋“ค์„ ์–ป๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ํŠน์ • ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์„ฑ๋Šฅ์€ ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ์ด๋Ÿฌํ•œ ์•™์ƒ๋ธ”์— ๋Œ€ํ•œ ํ‰๊ท ์„ ์ทจํ•จ์œผ๋กœ์จ ํ‰๊ฐ€๋ฉ๋‹ˆ๋‹ค. (4.42)์˜ ์ฒซ ๋ฒˆ์งธ ํ•ญ์˜ ์ ๋ถ„ ํ”ผ๊ฐ์ด N ํฌ๊ธฐ์˜ ํŠน์ • ๋ฐ์ดํ„ฐ ์„ธํŠธ D์— ๋Œ€ํ•ด (4.43)์˜ ํ˜•ํƒœ๋ฅผ ์ทจํ•ฉ๋‹ˆ๋‹ค. ์ด ์–‘์€ ํŠน์ • ๋ฐ์ดํ„ฐ ์„ธํŠธ D์— ๋”ฐ๋ผ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ๋ฐ์ดํ„ฐ ์„ธํŠธ ์•™์ƒ๋ธ”์—์„œ ์ด๋ฅผ ํ‰๊ท ์„ ์ทจํ•ฉ๋‹ˆ๋‹ค. ์ค‘๊ด„ํ˜ธ ์•ˆ์— ED[f(x; D)]๋ฅผ ๋”ํ•˜๊ณ  ๋นผ๋ฉด์„œ ํ™•์žฅํ•˜๋ฉด (4.44)๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์ œ D์— ๋Œ€ํ•œ ์ด ํ‘œํ˜„์‹์˜ ๊ธฐ๋Œ€๊ฐ’์„ ์ทจํ•˜๊ณ  ์ตœ์ข… ํ•ญ์ด ์‚ฌ๋ผ์ง€๊ฒŒ ํ•˜

๋ฉด (4.45)๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. f(x; D)์™€ ํšŒ๊ท€ ํ•จ์ˆ˜ h(x) ๊ฐ„์˜ ์˜ˆ์ƒ ์ œ๊ณฑ ์ฐจ์ด๋Š” ๋‘ ํ•ญ์˜ ํ•ฉ์œผ๋กœ ํ‘œํ˜„๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ฒซ ๋ฒˆ์งธ ํ•ญ์€ ์ œ๊ณฑ ๋ฐ”์ด์–ด์Šค๋ผ๊ณ  ๋ถˆ๋ฆฌ๋ฉฐ ๋ชจ๋“  ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•œ ํ‰๊ท  ์˜ˆ์ธก์ด ์›ํ•˜๋Š” ํšŒ๊ท€ ํ•จ์ˆ˜์—์„œ ์–ผ๋งˆ๋‚˜ ๋‹ค๋ฅธ์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๋‘ ๋ฒˆ์งธ ํ•ญ์€ ๋ถ„์‚ฐ์ด๋ผ๊ณ  ๋ถˆ๋ฆฌ๋ฉฐ ๊ฐœ๋ณ„ ๋ฐ์ดํ„ฐ ์„ธํŠธ์— ๋Œ€ํ•œ ์†”๋ฃจ์…˜์ด ํ‰๊ท  ์ฃผ๋ณ€์—์„œ ์–ผ๋งˆ๋‚˜ ๋‹ค๋ฅธ์ง€๋ฅผ ์ธก์ •ํ•˜๋ฉฐ ๋”ฐ๋ผ์„œ f(x; D) ํ•จ์ˆ˜๊ฐ€ ํŠน์ • ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ํŠน์ • ์„ ํƒ์— ๋ฏผ๊ฐํ•œ ์ •๋„๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์ •์˜๋ฅผ ์ง€์ง€ํ•˜๋Š” ๋ช‡ ๊ฐ€์ง€ ์ง๊ด€์„ ๊ณง ๊ฐ„๋‹จํ•œ ์˜ˆ์ œ๋ฅผ ํ†ตํ•ด ๊ณ ๋ คํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ง€๊ธˆ๊นŒ์ง€ x์˜ ๋‹จ์ผ ์ž…๋ ฅ ๊ฐ’์„ ๊ณ ๋ คํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ํ™•์žฅ์„ (4.42)๋กœ ๋˜๋Œ๋ฆฌ๋ฉด ๊ธฐ๋Œ€ ์ œ๊ณฑ ์†์‹ค์˜ ๋‹ค์Œ ๋ถ„ํ•ด๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. (4.46), ์—ฌ๊ธฐ์„œ (4.47 ~ 4.49)์ด๊ณ  ์ด์ œ ๋ฐ”์ด์–ด์Šค ๋ฐ ๋ถ„์‚ฐ ์šฉ์–ด๋Š” ํ†ตํ•ฉ๋œ ์–‘์œผ๋กœ ์ฐธ์กฐ๋ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๋Š” ๊ธฐ๋Œ€ ์†์‹ค์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒƒ์ธ๋ฐ, ์ด๋Š” (์ œ๊ณฑ) ๋ฐ”์ด์–ด์Šค, ๋ถ„์‚ฐ ๋ฐ ์ƒ์ˆ˜ ๋…ธ์ด์ฆˆ ํ•ญ์˜ ํ•ฉ์œผ๋กœ ๋ถ„ํ•ด๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋ณด๊ฒŒ ๋  ๊ฒƒ์ฒ˜๋Ÿผ ๋ฐ”์ด์–ด์Šค์™€ ๋ถ„์‚ฐ ๊ฐ„์—๋Š” ํŠธ๋ ˆ์ด๋“œ ์˜คํ”„๊ฐ€ ์žˆ์œผ๋ฉฐ, ๋งค์šฐ ์œ ์—ฐํ•œ ๋ชจ๋ธ์€ ๋‚ฎ์€ ๋ฐ”์ด์–ด์Šค์™€ ๋†’์€ ๋ถ„์‚ฐ์„ ๊ฐ€์ง€๋ฉฐ, ๋น„๊ต์  ๊ฐ•๊ฑดํ•œ ๋ชจ๋ธ์€ ๋†’์€ ๋ฐ”์ด์–ด์Šค์™€ ๋‚ฎ์€ ๋ถ„์‚ฐ์„ ๊ฐ€์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ตœ์ ์˜ ์˜ˆ์ธก ๋Šฅ๋ ฅ์„ ๊ฐ€์ง„ ๋ชจ๋ธ์€ ๋ฐ”์ด์–ด์Šค์™€ ๋ถ„์‚ฐ ๊ฐ„์˜ ์ตœ์ƒ์˜ ๊ท ํ˜•์„ ์ฐพ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ์•ž์„œ ์†Œ๊ฐœํ•œ ์‚ฌ์ธ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ๊ณ ๋ คํ•˜์—ฌ ์„ค๋ช…๋ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ์šฐ๋ฆฌ๋Š” N = 25 ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ํฌํ•จํ•˜๋Š” ๊ฐ๊ฐ 100 ๊ฐœ์˜ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ๋…๋ฆฝ์ ์œผ๋กœ ์ƒ์„ฑํ•˜๊ณ  ์‚ฌ์ธ ๊ณก์„  h(x) = sin(2πx)์—์„œ๋ถ€ํ„ฐ์ž…๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ์„ธํŠธ๋Š” l = 1,...,L๋กœ ์ƒ‰์ธ๋˜๋ฉฐ, ์—ฌ๊ธฐ์„œ L = 100์ž…๋‹ˆ๋‹ค. ๊ฐ ๋ฐ์ดํ„ฐ ์„ธํŠธ D(l)์— ๋Œ€ํ•ด ์ด 25 ๊ฐœ์˜ ๋งค๊ฐœ ๋ณ€์ˆ˜๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ์œ„ํ•ด M = 24 ๊ฐœ์˜ ๊ฐ€์šฐ์‹œ์•ˆ ๊ธฐ์ € ํ•จ์ˆ˜์™€ ์ƒ์ˆ˜ '๋ฐ”์ด์–ด์Šค' ๊ธฐ์ € ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ์„ ์ ํ•ฉ์‹œํ‚ต๋‹ˆ๋‹ค. ์ •๊ทœํ™”๋œ ์˜ค๋ฅ˜ ํ•จ์ˆ˜ (4.26)๋ฅผ ์ตœ์†Œํ™”ํ•จ์œผ๋กœ์จ ์˜ˆ์ธก ํ•จ์ˆ˜ f(l)(x)๋ฅผ ์–ป์Šต๋‹ˆ๋‹ค. Figure 4.7์— ํ‘œ์‹œ๋œ ๊ฒƒ์ฒ˜๋Ÿผ ์ƒ๋‹จ ํ–‰์€ ๋‚ฎ์€ ๋ถ„์‚ฐ(์™ผ์ชฝ ๊ทธ๋ฆผ์—์„œ ๋นจ๊ฐ„ ๊ณก์„ ์ด ์œ ์‚ฌํ•˜๊ฒŒ ๋ณด์ด๊ธฐ ๋•Œ๋ฌธ)๊ณผ ๋†’์€ ๋ฐ”์ด์–ด์Šค(์˜ค๋ฅธ์ชฝ ๊ทธ๋ฆผ์—์„œ ๋‘ ๊ณก์„ ์ด ๋งค์šฐ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ)๋ฅผ ๊ฐ€์ง„ ์ •๊ทœํ™” ๊ณ„์ˆ˜ λ์˜ ํฐ ๊ฐ’์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด์— ์•„๋ž˜ ํ–‰์€ λ๊ฐ€ ์ž‘์€ ๊ฒฝ์šฐ๋กœ ํฐ ๋ถ„์‚ฐ(์™ผ์ชฝ ๊ทธ๋ฆผ์—์„œ ๋นจ๊ฐ„ ๊ณก์„  ๊ฐ„์˜ ๋†’์€ ๋ณ€๋™์„ฑ์œผ๋กœ ๋‚˜ํƒ€๋‚จ)๊ณผ ๋‚ฎ์€ ๋ฐ”์ด์–ด์Šค(ํ‰๊ท  ๋ชจ๋ธ ์ ํ•ฉ๊ณผ ์›๋ž˜ ์‚ฌ์ธ ํ•จ์ˆ˜ ๊ฐ„์˜ ์ข‹์€ ์ ํ•ฉ์ด ๋‚˜ํƒ€๋‚จ)๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

๋ณต์žกํ•œ ๋ชจ๋ธ์— ๋Œ€ํ•œ M = 25์˜ ์—ฌ๋Ÿฌ ํ•ด๋ฅผ ํ‰๊ท ํ•˜๋Š” ๊ฒฐ๊ณผ๋Š” ํšŒ๊ท€ ํ•จ์ˆ˜์— ๋งค์šฐ ์ž˜ ๋งž๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚˜๋ฉฐ, ์ด๋Š” ํ‰๊ท ํ™”๊ฐ€ ์œ ์ตํ•œ ์ ˆ์ฐจ์ผ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ๊ฐ€์ค‘ ํ‰๊ท ํ™”๋Š” ๋ฒ ์ด์ง€์•ˆ ์ ‘๊ทผ์˜ ํ•ต์‹ฌ์— ๋†“์—ฌ ์žˆ์œผ๋‚˜, ์ด ํ‰๊ท ํ™”๋Š” ๋งค๊ฐœ๋ณ€์ˆ˜์˜ ์‚ฌํ›„ ๋ถ„ํฌ์— ๋Œ€ํ•œ ๊ฒƒ์ด๋ฉฐ ๋‹ค์ˆ˜์˜ ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ์— ๋Œ€ํ•œ ๊ฒƒ์€ ์•„๋‹™๋‹ˆ๋‹ค. ์ด ์˜ˆ์ œ์— ๋Œ€ํ•ด ํŽธํ–ฅ-๋ถ„์‚ฐ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋ฅผ ์–‘์ ์œผ๋กœ ์กฐ์‚ฌํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ํ‰๊ท  ์˜ˆ์ธก์€ (4.50)์—์„œ ์ถ”์ •๋˜๋ฉฐ, ๊ทธ๋Ÿฐ ๋‹ค์Œ ํ†ตํ•ฉ ์ œ๊ณฑ ํŽธํ–ฅ๊ณผ ํ†ตํ•ฉ ๋ถ„์‚ฐ์€ (4.51~4.52)์—์„œ ์ฃผ์–ด์ง‘๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ x์— ๋Œ€ํ•œ ์ ๋ถ„์€ ๋ถ„ํฌ p(x)๋กœ ๊ฐ€์ค‘๋œ ์ƒํƒœ์—์„œ ํ•ด๋‹น ๋ถ„ํฌ์—์„œ ๋ฝ‘์€ ๋ฐ์ดํ„ฐ ํฌ์ธํŠธ๋ฅผ ํ†ตํ•œ ์œ ํ•œํ•œ ํ•ฉ์œผ๋กœ ๊ทผ์‚ฌํ™”๋ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ์–‘์€ Figure 4.8์—์„œ ln λ์˜ ํ•จ์ˆ˜๋กœ ํ”Œ๋กœํŒ…๋ฉ๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” λ์˜ ์ž‘์€ ๊ฐ’๋“ค์ด ๊ฐ ๊ฐœ๋ณ„ ๋ฐ์ดํ„ฐ ์„ธํŠธ์˜ ๋…ธ์ด์ฆˆ์— ๋ฏผ๊ฐํ•˜๊ฒŒ ์กฐ์ •๋˜์–ด ํฐ ๋ถ„์‚ฐ์„ ์ดˆ๋ž˜ํ•˜๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ, ํฐ λ ๊ฐ’์€ ๊ฐ€์ค‘์น˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ œ๋กœ๋กœ ๋Œ์–ด๋‹น๊ฒจ ํฐ ํŽธํ–ฅ์„ ์ดˆ๋ž˜ํ•ฉ๋‹ˆ๋‹ค. ํŽธํ–ฅ-๋ถ„์‚ฐ ๋ถ„ํ•ด๋Š” ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ์˜ ์•™์ƒ๋ธ”์— ๋Œ€ํ•œ ํ‰๊ท ์— ๊ธฐ์ดˆํ•˜๋ฏ€๋กœ ์‹ค์ œ๋กœ๋Š” ๋‹จ์ผ ๊ด€์ธก๋œ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋งŒ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ฃผ์–ด์ง„ ํฌ๊ธฐ์˜ ๋…๋ฆฝ์ ์ธ ๊ต์œก ์„ธํŠธ๊ฐ€ ๋งŽ๋‹ค๋ฉด ์ด๋ฅผ ๋‹จ์ผ ํฐ ๊ต์œก ์„ธํŠธ๋กœ ๊ฒฐํ•ฉํ•˜๋Š” ๊ฒƒ์ด ๋” ์ข‹์„ ๊ฒƒ์ด๋ฉฐ, ๋ฌผ๋ก  ์ฃผ์–ด์ง„ ๋ชจ๋ธ ๋ณต์žก์„ฑ์— ๋Œ€ํ•œ ์˜ค๋ฒ„ํ• ์ˆ˜์ค€์„ ๊ฐ์†Œ์‹œํ‚ฌ ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํŽธํ–ฅ-๋ถ„์‚ฐ ๋ถ„ํ•ด๋Š” ์ข…์ข… ๋ชจ๋ธ ๋ณต์žก์„ฑ ๋ฌธ์ œ์— ๋Œ€ํ•œ ์œ ์šฉํ•œ ํ†ต์ฐฐ์„ ์ œ๊ณตํ•˜๋ฉฐ, ์ด ์žฅ์—์„œ๋Š” ํšŒ๊ท€ ๋ฌธ์ œ์˜ ๊ด€์ ์—์„œ ์†Œ๊ฐœํ–ˆ์ง€๋งŒ ๊ทผ๋ณธ์ ์ธ ์ง๊ด€์€ ๊ด‘๋ฒ”์œ„ํ•œ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

 

 

 

 

 

 

๐Ÿง ์ •๋ฆฌ

โˆ™ 
ใ…‡

 

'Deep Learning : Vision System > Deep Learning(Christopher M.Bishop)' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[DL]00.๋ชฉ์ฐจ ๋ฐ ์ฑ… ์†Œ๊ฐœ.  (4) 2024.01.30
[DL]03. Standard Distributions  (2) 2024.01.22
[DL]02. Probabilities  (1) 2024.01.14
[DL]01.The Deep Learning Revolution.  (2) 2023.12.23

+ Recent posts