๐Ÿ“Œ ๋ชฉ์ฐจ

1. The Impact of Deep Learning
2. A Tutorial Example

3. A Brief History of Machine Learning

 

 


1. The Impact of Deep Learning

preview
Deep Learning์€ ์ƒ๋‹นํžˆ ๊ฐ•๋ ฅํ•˜๊ณ  ๋‹ค๋ชฉ์ ์„ ์œ„ํ•ด data๋กœ๋ถ€ํ„ฐ ํ•™์Šต๋œ๋‹ค.
๋˜ํ•œ, ์š”์ฆ˜์—๋Š” AI์™€ Machine Learning์ด๋ผ๋Š” ์šฉ์–ด๊ฐ€ ์„œ๋กœ ๋Œ€์ฒด๋˜์–ด ์‚ฌ์šฉ๋œ๋‹ค.

๊พธ์ค€ํ•œ ๋ฐœ์ „์œผ๋กœ ์ธํ•ด AGI๋Š” ๋งค์šฐ ๊ธ‰๊ฒฉํ•œ ๋ฐœ์ „์„ ์ด๋ฃฉํ–ˆ๋Š”๋ฐ, ํŠนํžˆ LLM์€ ๋งค์šฐ ๋‘๋“œ๋Ÿฌ์ง„ ๋Šฅ๋ ฅ์„ ๋ณด์ธ๋‹ค.
์ฆ‰, LLM์€ AGI๋กœ ๊ฐ€๋Š” ๊ธธ์˜ ํšจ์‹œ๋ผ ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

๋ณธ๋ฌธ ์˜ˆ์ œ
์ฃผ ๋‚ด์šฉ: "๊ธฐ์กด ์ผ์ƒ์˜ ๋ฌธ์ œ๋“ค" → ์ง์ ‘ algorithm์„ ์งœ์„œ ํ’€๊ธฐ์—๋Š” ๋ฌธ์ œ๊ฐ€ ๋‚œํ•ดํ•˜์˜€์Œ.
โ—๏ธDeep Learning์„ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ์ด๋ฅผ ํ•ด๊ฒฐ.
(by. ๋งŽ์€ ์–‘์˜ training set ํ™•๋ณด, ์ด๋ฅผ training(=learning)์‹œํ‚ด์œผ๋กœ์จ ๋ชจ๋ธ์ด ๋ฌธ์ œ๋ฅผ ํ’€๊ฒŒํ•จ.)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


2. A Tutorial Example

input(training set): x1, . . . , xN
target set: t1, . . . , tN

๋ชฉํ‘œ: ์ƒˆ๋กœ์šด x์— ๋Œ€ํ•ด t๊ฐ’์„ ์ž˜ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ = generalization

 

Linear Models
Linear Model๋“ค์€ ์„ ํ˜•์ ์ธ unknown parameter๋ผ๋Š” ์ค‘์š”ํ•œ ํŠน์ง•์ด ์žˆ์„ ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ "์ค‘์š”ํ•œ ํ•œ๊ณ„์ "๋˜ํ•œ ์กด์žฌ.

 

Error Function
training data์— ๋‹คํ•ญ์‹์„ fitting์‹œ์ผœ error function์„ ์ตœ์†Œํ™” ์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

 

Model Complexity
์ด๋•Œ, Model์˜ M(๋‹คํ•ญ์‹ ์ฐจ์ˆ˜)๋ฅผ ๊ณ ๋ฅด๋Š” ๊ฒƒ์€ ๋‚จ์•„์žˆ๋Š” ์ค‘์š”ํ•œ ๊ณผ์ œ์ด๋‹ค.
M์˜ ๊ฐ’์— ๋”ฐ๋ผ model์ด overfitting์ด ๋  ์ˆ˜๋„, underfitting์ด ๋  ์ˆ˜๋„ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.
์ด๋•Œ, Overfitting์ด ๋ณดํ†ต ์ฃผ์š”ํ•œ ๋ฌธ์ œ์ด๊ธฐ ๋•Œ๋ฌธ์— Regularization์„ Lossํ•ญ์— ๋„์ž…ํ•œ๋‹ค.

 

Regularization
์œ„์˜ Loss function์€ L2 Regularizeํ•ญ์„ ์ถ”๊ฐ€ํ•œ ๊ฒƒ์œผ๋กœ
๊ฐ€ ์„ฑ๋ฆฝํ•˜๋ฉฐ,  λ๊ณ„์ˆ˜๋Š” regularizeํ•ญ๊ณผ MSEํ•ญ ๊ฐ„์˜ ์ƒ๋Œ€์  ์ค‘์š”์„ฑ์„ ๊ฒฐ์ •ํ•˜๋Š” ์ƒ๊ด€๊ณ„์ˆ˜(coefficient)๋กœ Loss function์— penalty๋ฅผ ์คŒ์œผ๋กœ์จ overfitting์˜ ์ •๋„๋ฅผ ๊ฒฐ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

Model Selection
λ๋Š” w ๊ฒฐ์ •์„ ์œ„ํ•ด J(w)๋ฅผ ์ตœ์†Œํ™”ํ•˜๋Š” ๋™์•ˆ ๊ณ ์ •๋˜๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์ด์ง€๋งŒ
๋‹จ์ˆœํžˆ w์™€ λ์— ๋Œ€ํ•ด ์—๋Ÿฌ ํ•จ์ˆ˜๋ฅผ ์ตœ์†Œํ™”ํ•ด λ → 0์œผ๋กœ ์ˆ˜๋ ดํ•˜๊ฒŒ ๋˜๋ฉด, error๊ฐ’์ด ์ž‘์€ ๊ณผ์ ํ•ฉ๋œ ๋ชจ๋ธ์ด ๋˜์–ด๋ฒ„๋ฆด ์ˆ˜ ์žˆ๋‹ค.
๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ๋‹จ์ˆœํžˆ M์— ๋Œ€ํ•œ trainingset์˜ ์˜ค์ฐจ๋ฅผ ์ตœ์ ํ™”ํ•˜๋ฉด M์˜ ๊ฐ’์ด ์ปค์ง€๊ณ  ๊ณผ์ ํ•ฉ ๋  ์ˆ˜ ์žˆ๋‹ค.
๋”ฐ๋ผ์„œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ ์ ˆํ•œ ๊ฐ’์„ ์ฐพ๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์„ ์ฐพ์•„์•ผ ํ•œ๋‹ค.

์œ„์˜ ๊ฒฐ๊ณผ๋Š” ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ ธ์™€ train-valid-split๋ฐฉ๋ฒ•์„ ์ œ์•ˆํ•œ๋‹ค.
trainset์œผ๋กœ w๋ฅผ ๊ฒฐ์ •ํ•˜๊ณ  validset์—์„œ ๊ฐ€์žฅ ๋‚ฎ์€ ์˜ค์ฐจ๋ฅผ ๊ฐ–๋Š” ๋ชจ๋ธ์„ ์„ ํƒํ•œ๋‹ค.
๊ทธ๋Ÿฌ๋‚˜ ์ œํ•œ๋œ ํฌ๊ธฐ์˜ dataset๋ฅผ ์‚ฌ์šฉํ•ด ๋ชจ๋ธ์„ ์—ฌ๋Ÿฌ ๋ฒˆ ์„ค๊ณ„ํ•˜๋ฉด, validset์— ๊ณผ์ ํ•ฉ๋  ์ˆ˜ ์žˆ๊ธฐ์—
๋งˆ์ง€๋ง‰์œผ๋กœ ์„ ํƒ๋œ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ์„ธ ๋ฒˆ์งธ ํ…Œ์ŠคํŠธ ์„ธํŠธ๋ฅผ ์œ ์ง€ํ•ด์•ผ ํ•  ์ˆ˜๋„ ์žˆ๋‹ค.

โˆ™ Cross Validation
์ผ๋ถ€ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์—์„œ๋Š” ํ›ˆ๋ จ ๋ฐ ํ…Œ์ŠคํŠธ์šฉ ๋ฐ์ดํ„ฐ์˜ ์ œ๊ณต์ด ์ œํ•œ๋  ์ˆ˜ ์žˆ๋‹ค.
์ข‹์€ ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜๋ ค๋ฉด ๊ฐ€๋Šฅํ•œ ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ›ˆ๋ จํ•ด์•ผ ํ•˜์ง€๋งŒ validset์ด ๋„ˆ๋ฌด ์ž‘์œผ๋ฉด ์˜ˆ์ธก ์„ฑ๋Šฅ์˜ ์ƒ๋Œ€์ ์œผ๋กœ ๋…ธ์ด์ฆˆ๊ฐ€ ๋งŽ์€ ์ถ”์ •์น˜๋ฅผ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋‹ค.
์ด๋Ÿฌํ•œ ๋”œ๋ ˆ๋งˆ์˜ ํ•ด๊ฒฐ์ฑ… ์ค‘ ํ•˜๋‚˜๋Š” ์•„๋ž˜ ๊ทธ๋ฆผ์—์„œ ์„ค๋ช…๋œ ๊ต์ฐจ ๊ฒ€์ฆ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด๋‹ค.
์ด๋ฅผ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ (S - 1)/S์˜ ๋น„์œจ๋กœ ํ›ˆ๋ จ์— ํ™œ์šฉํ•ด ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋‹ค.

โˆ™ 'leave-one-out' ๊ธฐ๋ฒ•
ํŠนํžˆ๋‚˜ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•œ ๊ฒฝ์šฐ, datapoint์˜ ์ด ์ˆ˜์ธ N๊ณผ ๊ฐ™์€ ๊ฒฝ์šฐ์ธ S = N์„ ๊ณ ๋ คํ•˜๋Š” ๊ฒƒ. 


๊ต์ฐจ ๊ฒ€์ฆ์˜ ์ฃผ์š” ๋‹จ์ :
โˆ™ S์˜ ๋ฐฐ์ˆ˜๋กœ ํ•™์Šต ์‹คํ–‰ ํšŸ์ˆ˜๊ฐ€ ์ฆ๊ฐ€๋˜์–ด, ์ž์ฒด์ ์œผ๋กœ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋งŽ์ด ๋“œ๋Š” ๋ชจ๋ธ์—์„œ ๋ฌธ์ œ๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ.
โˆ™ ๋‹จ์ผ ๋ชจ๋ธ์— ์—ฌ๋Ÿฌ ๋ณต์žก์„ฑ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์žˆ์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ์ด๋Ÿฐ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์˜ ์„ค์ •์„ ์กฐํ•ฉํ•˜๋Š” ๊ฒƒ์€ ์ง€์ˆ˜์ ์œผ๋กœ ๋งŽ์€ ํ•™์Šต ์‹คํ–‰ ํšŸ์ˆ˜๋ฅผ ์š”๊ตฌ.

 

 

 

 

 

 

 

 

 

 

 

 

 

 


3.  A Brief History of Machine Learning

Step 1. single neuron์€ ์„ ํ˜•๊ฒฐํ•ฉ(Linear Combination)์œผ๋กœ ์ƒ์„ฑ๋จ
Step 2. ์ƒ์„ฑ๋œ single neuron์— non-linear function์œผ๋กœ transform.

์ด๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋ฉด ์•„๋ž˜์™€ ๊ฐ™๋‹ค.
์ด๋•Œ, a๋ผ๋Š” ๊ฐ’์€ pre-activation์ด๋ผ ๋ถˆ๋ฆฌ๋ฉฐ, 
f(.)๋Š” activation funtion์ด๋ผ ๋ถˆ๋ฆฌ๊ณ  y๋Š” activation์ด๋ผ ๋ถˆ๋ฆฐ๋‹ค.

 

Backpropagation 
MLP์—์„œ ์ค‘๊ฐ„ ์ธต์˜ ๋…ธ๋“œ๋Š” hidden unit์ด๋ผ ํ•˜๋Š”๋ฐ, ์ด๋Š” trainset์— ๋‚˜ํƒ€๋‚˜์ง€ ์•Š๋Š” ๊ฐ’์ด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.
(trainset์€ input๊ณผ output๊ฐ’๋งŒ ์ œ๊ณตํ•˜๊ธฐ ๋•Œ๋ฌธ.)

์—ฌ๋Ÿฌ ์ธต์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ€์ง„ ์‹ ๊ฒฝ๋ง์„ ํ•™์Šตํ•˜๋Š” ๋Šฅ๋ ฅ์€ 1980๋…„๋Œ€ ์ค‘๋ฐ˜์ฏค๋ถ€ํ„ฐ ๋‹ค์‹œ ๊ด€์‹ฌ์ด ์ฆํญ๋˜๋Š” ๊ณ„๊ธฐ๊ฐ€ ๋˜์—ˆ๋Š”๋ฐ, ํŠนํžˆ, ํ™•๋ฅ  ์ด๋ก ๊ณผ ํ†ต๊ณ„ํ•™์—์„œ์˜ ์•„์ด๋””์–ด๊ฐ€ ์‹ ๊ฒฝ๋ง๊ณผ ๋จธ์‹  ๋Ÿฌ๋‹์—์„œ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค๋Š” ๊ฒƒ์ด ์ธ์‹๋˜์—ˆ๋‹ค.
ํ•™์Šต์—์„œ์˜ ๋ฐฐ๊ฒฝ ๊ฐ€์ •๋“ค, ์‚ฌ์ „ ์ง€์‹์ด๋‚˜ ๊ท€๋‚ฉ์  ํŽธํ–ฅ์œผ๋กœ ๋ถˆ๋ฆฌ๊ธฐ๋„ ํ•˜๋Š” ๊ฒƒ๋“ค์ด ํฌํ•จ๋  ์ˆ˜ ์žˆ์Œ์„ ํ•œ ๊ฐ€์ง€ ์ค‘์š”ํ•œ ํ†ต์ฐฐ์€ ๋งํ•ด์ค€๋‹ค.
์ด๋Ÿฌํ•œ ๊ฐ€์ •๋“ค์€ ๋ช…์‹œ์ ์œผ๋กœ ํ†ตํ•ฉ๋  ์ˆ˜ ์žˆ๋Š”๋ฐ, ์˜ˆ๋ฅผ ๋“ค์–ด ํ”ผ๋ถ€ ๋ณ‘๋ณ€์˜ ๋ถ„๋ฅ˜๊ฐ€ ์ด๋ฏธ์ง€ ๋‚ด ๋ณ‘๋ณ€์˜ ์œ„์น˜์— ์˜์กดํ•˜์ง€ ์•Š๋„๋ก ์‹ ๊ฒฝ๋ง์˜ ๊ตฌ์กฐ๋ฅผ ์„ค๊ณ„ํ•  ์ˆ˜ ์žˆ๋‹ค. ๋˜๋Š” ๋ชจ๋ธ์˜ ์ˆ˜ํ•™์  ํ˜•ํƒœ๋‚˜ ํ›ˆ๋ จ ๋ฐฉ์‹์œผ๋กœ๋ถ€ํ„ฐ ๋ฐœ์ƒํ•˜๋Š” ์•”๋ฌต์ ์ธ ๊ฐ€์ • ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.



โ—๏ธBackpropagation ์‚ฌ์šฉ์ด์œ ?
๋ชจ๋ธ์€ ์ˆ˜์ฒœ์–ต๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ฐ€์ง€๋ฉฐ, Loss function์€ ์ด๋Ÿฐ parameter๋“ค์˜ ๋†’์€ ๋น„์„ ํ˜•ํ•จ์ˆ˜์ผ ๊ฒƒ์ด๊ธฐ์—
โˆ™ Loss function์„ ๋‹ซํžŒ ํ˜•ํƒœ(e.g ์„ ํ˜• ํšŒ๊ท€)๋กœ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ

โˆ™ ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•œ Loss function์˜ ๋„ํ•จ์ˆ˜(= ∂J(w) / ∂w)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ
๋ฐ˜๋ณต์ ์ธ ์ตœ์ ํ™” ๊ธฐ์ˆ (= Backpropagation Algorithm)์„ ํ†ตํ•ด ์ตœ์†Œํ™”ํ•ด์•ผ ํ•œ๋‹ค.
์ด๋Ÿฌํ•œ ๋ชจ๋“  ๊ณผ์ •์€ ์ „๋ฌธ์ ์ธ ์ปดํ“จํŒ… ํ•˜๋“œ์›จ์–ด๊ฐ€ ํ•„์š”ํ•˜๋ฉฐ ์ƒ๋‹นํ•œ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๋“ค ์ˆ˜ ์žˆ๋‹ค.

 

Deep Networks
๋งŽ์€ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ€์ง„ ์‹ ๊ฒฝ๋ง์„ '์‹ฌ์ธต ์‹ ๊ฒฝ๋ง(deep neural networks)'์ด๋ผ๊ณ  ํ•˜๋ฉฐ, ์ด๋Ÿฌํ•œ ์‹ ๊ฒฝ๋ง์— ์ค‘์ ์„ ๋‘” ๊ธฐ๊ณ„ ํ•™์Šต์˜ ํ•˜์œ„ ๋ถ„์•ผ๋ฅผ '๋”ฅ ๋Ÿฌ๋‹(deep learning)'์ด๋ผ ํ•œ๋‹ค(LeCun, Bengio, and Hinton, 2015).
์œ„ ๊ทธ๋ฆผ์€ ์ตœ์ฒจ๋‹จ ์‹ ๊ฒฝ๋ง์„ ํ›ˆ๋ จํ•˜๊ธฐ ์œ„ํ•ด ํ•„์š”ํ•œ ์—ฐ์‚ฐ ์ฃผ๊ธฐ์˜ ์ฆ๊ฐ€๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ์—ฐ์‚ฐ ์ฃผ๊ธฐ์˜ ๋‘ ๊ฐ€์ง€ ๊ตฌ๋ถ„๋œ ์„ฑ์žฅ ๋‹จ๊ณ„๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
์ˆ˜์ง ์ถ•์€ ์ง€์ˆ˜์  ์Šค์ผ€์ผ์„ ๊ฐ€์ง€๋ฉฐ (petaflop/s-days) ๋‹จ์œ„๋กœ ํ‘œ์‹œ๋œ๋‹ค.
โˆ™petaflop: 1015(์ฒœ ์กฐ)๊ฐœ์˜ ๋ถ€๋™ ์†Œ์ˆ˜์  ์—ฐ์‚ฐ
โˆ™petaflop/s-days: ์ดˆ๋‹น ํ•˜๋‚˜์˜ ํ”ผํƒ€ํ”Œ๋กญ์„ ์˜๋ฏธ.
petaflop/s-days์€ 24์‹œ๊ฐ„ ๋™์•ˆ ํ”ผํƒ€ํ”Œ๋กญ/์ดˆ์˜ ์†๋„๋กœ ๊ณ„์‚ฐ๋˜๊ณ , ๋Œ€๋žต 1020๊ฐœ์˜ ๋ถ€๋™ ์†Œ์ˆ˜์  ์—ฐ์‚ฐ์„ ๋‚˜ํƒ€๋‚ด๋ฉฐ, ๊ทธ๋ž˜ํ”„์˜ ์ตœ์ƒ๋‹จ์€ ์ธ์ƒ์ ์ธ 1024๊ฐœ์˜ ๋ถ€๋™ ์†Œ์ˆ˜์  ์—ฐ์‚ฐ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค. ๊ทธ๋ž˜ํ”„์˜ ์ง์„ ์€ ์ง€์ˆ˜์  ์„ฑ์žฅ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.

ํ˜์‹ ์ ์ธ ์•„ํ‚คํ…์ฒ˜ ๊ฐœ์„ ์ด๋‚˜ ๋” ์ •๊ตํ•œ ํ˜•ํƒœ์˜ ๊ท€๋‚ฉ์  ํŽธํ–ฅ์„ ํฌํ•จํ•˜๋Š” ๊ฒฝ์šฐ
์ฆ‰, ๋ชจ๋ธ์ด ํŠน์ •ํ•œ ๊ฐ€์ •์ด๋‚˜ ์„ ํ–‰ ์ง€์‹์„ ์‚ฌ์šฉํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ํ•ด์„
 --> ์„ฑ๋Šฅ ํ–ฅ์ƒ


โˆ™ ํ‘œํ˜„ ํ•™์Šต(representation learning)
์‹ฌ์ธต ์‹ ๊ฒฝ๋ง์˜ ์ˆจ๊ฒจ์ง„ ๋ ˆ์ด์–ด ์—ญํ• 
์‹ ๊ฒฝ๋ง์ด ์ž…๋ ฅ ๋ฐ์ดํ„ฐ๋ฅผ ์˜๋ฏธ ์žˆ๋Š” ์ƒˆ๋กœ์šด ํ‘œํ˜„์œผ๋กœ ๋ณ€ํ™˜, ๋งˆ์ง€๋ง‰์ธต์ด ํ•ด๊ฒฐํ•ด์•ผ ํ•  ํ›จ์”ฌ ๋” ์‰ฌ์šด ๋ฌธ์ œ๋ฅผ ๋งŒ๋“ค์–ด๋‚ธ๋‹ค(Bengio, Courville, and Vincent, 2012).
์ด๋Ÿฌํ•œ ๋‚ด๋ถ€ ํ‘œํ˜„์€ ์ „์ด ํ•™์Šต์„ ํ†ตํ•ด ๊ด€๋ จ๋œ ๋ฌธ์ œ์˜ ํ•ด๊ฒฐ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•  ์ˆ˜ ์žˆ๋‹ค.

โˆ™ Foundation Models
์—ฌ๋Ÿฌ ๊ฐ€์ง€ downstream ์ž‘์—…์— ์ ํ•ฉํ•˜๊ฒŒ ์กฐ์ •๋˜๊ฑฐ๋‚˜ ์„ธ๋ถ€ ์กฐ์ •๋  ์ˆ˜ ์žˆ๋Š” ํฐ ์‹ ๊ฒฝ๋ง
๋„“์€ ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ–๋„๋ก ๋Œ€๊ทœ๋ชจ์ด๊ณ  ์ด์งˆ์ ์ธ ๋ฐ์ดํ„ฐ ์„ธํŠธ๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค(Bommasani et al., 2021).


โˆ™ ๊ทœ๋ชจ ์ด์™ธ ๋ฐฉ๋ฒ•์„ ์ด์šฉํ•œ ๋ฐœ์ „.
๊ทœ๋ชจ ํ™•์žฅ ์™ธ์—๋„ ๋”ฅ ๋Ÿฌ๋‹์˜ ์„ฑ๊ณต์— ๋„์›€์ด ๋œ ๋‹ค๋ฅธ ๋ฐœ์ „ ์‚ฌํ•ญ๋“ค์ด ์žˆ์—ˆ๋Š”๋ฐ, ์˜ˆ๋ฅผ ๋“ค์–ด, ๋‹จ์ˆœํ•œ ์‹ ๊ฒฝ๋ง์—์„œ ๊นŠ์€ ์‹ ๊ฒฝ๋ง์˜ ์—ฐ์†์ ์ธ ์ธต์„ ํ†ตํ•ด ์—ญ์ „ํŒŒ๋ ์ˆ˜๋ก ํ›ˆ๋ จ ์‹ ํ˜ธ๊ฐ€ ์•ฝํ•ด์ง€๋Š” ํ˜„์ƒ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ž”์ฐจ ์—ฐ๊ฒฐ(residual connections)์„ ๋„์ž…(He et al., 2015a).

๋˜ ๋‹ค๋ฅธ ์ฃผ์š” ๋ฐœ์ „๋ฐฉ๋ฒ•: by coding:
์—ญ์ „ํŒŒ๋ฅผ ์ˆ˜ํ–‰ํ•˜์—ฌ ์˜ค๋ฅ˜ ํ•จ์ˆ˜์˜ ๊ทธ๋ž˜๋””์–ธํŠธ๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ์ฝ”๋“œ = loss.backward()
→ ์ˆœ๋ฐฉํ–ฅ ์ „ํŒŒ๋ฅผ ์ง€์ •ํ•˜๋Š” ์ฝ”๋“œ์—์„œ ์ž๋™์œผ๋กœ ์ƒ์„ฑํ•˜๋Š” ์ž๋™ ๋ฏธ๋ถ„ ๋ฐฉ๋ฒ•์˜ ๋„์ž…. = autograd ๋‚ด์žฅ.
 

torch.autograd ์— ๋Œ€ํ•œ ๊ฐ„๋‹จํ•œ ์†Œ๊ฐœ

torch.autograd ๋Š” ์‹ ๊ฒฝ๋ง ํ•™์Šต์„ ์ง€์›ํ•˜๋Š” PyTorch์˜ ์ž๋™ ๋ฏธ๋ถ„ ์—”์ง„์ž…๋‹ˆ๋‹ค. ์ด ๋‹จ์›์—์„œ๋Š” autograd๊ฐ€ ์‹ ๊ฒฝ๋ง ํ•™์Šต์„ ์–ด๋–ป๊ฒŒ ๋•๋Š”์ง€์— ๋Œ€ํ•œ ๊ฐœ๋…์  ์ดํ•ด๋ฅผ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐฐ๊ฒฝ(Background): ์‹ ๊ฒฝ๋ง(NN; Neur

tutorials.pytorch.kr

 

 

๐Ÿง ์ •๋ฆฌ

โˆ™ LLM ← AGI๋กœ ๊ฐ€๋Š” ํšจ์‹œ.

โˆ™ Deep Learning์˜ ๋ชฉํ‘œ:
Generalization์ด ์ž˜ ๋˜๋„๋ก ํ•˜๋Š” Universal Approximation์ด ๋ชฉํ‘œ, 
์ด๋ฅผ ์œ„ํ•ด ์ ์ ˆํ•œ model์˜ ์ฐจ์ˆ˜ M์„ ์ฐพ๋Š”๊ฒƒ์ด ๋ชฉํ‘œ. (over/underfitting๋ฌธ์ œ)


์ด๋•Œ, input๊ณผ output์ œ์™ธ, trainset์— ์•ˆ๋‚˜ํƒ€๋‚˜๋Š” ๊ฐ’์„ hidden unit์ด๋ผ ํ•จ.

โˆ™ ํ™•๋ฅ ๋ก ๊ณผ ํ†ต๊ณ„ํ•™์ด ์ค‘์š”ํ•œ ์ด์œ ?
ํ•™์Šต์—์„œ prior, posterior, inductive bias ๋“ฑ์˜ ํฌํ•จ๊ฐ€๋Šฅ์„ฑ์œผ๋กœ ์ธํ•ด ๋ชจ๋ธ์ด ์ž˜ ์ž‘๋™ํ•˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ์Œ.
๋ฌผ๋ก , ์ •๊ตํ•œํ˜•ํƒœ์˜ inductive bias๋ฅผ ํฌํ•จํ•˜๋ฉด ๋ชจ๋ธ์ด ํŠน์ • ๊ฐ€์ •์ด๋‚˜ ์„ ํ–‰์ง€์‹์œผ๋กœ ๋ฐ์ดํ„ฐ ํ•ด์„์„ ํ•˜์—ฌ ์„ฑ๋Šฅํ–ฅ์ƒ๋„ ๊ฐ€๋Šฅํ•จ.


โˆ™ Representation Learning?
hidden layer์˜ ์—ญํ• , ๋ฌธ์ œํ•ด๊ฒฐ์„ ๋” ์‰ฝ๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ.
input์„ "์œ ์˜๋ฏธํ•œ ์ƒˆ๋กœ์šด ํ‘œํ˜„์œผ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๊ฒƒ."


โ—๏ธBackpropagation ์‚ฌ์šฉ์ด์œ ?
Loss function=์ˆ˜์ฒœ์–ต๊ฐœ parameter์˜ ๋†’์€ ๋น„์„ ํ˜•ํ•จ์ˆ˜์ผ ๊ฒƒ์ด๊ธฐ์—
โˆ™ Loss function์„ ๋‹ซํžŒ ํ˜•ํƒœ(e.g ์„ ํ˜• ํšŒ๊ท€)๋กœ ์ตœ์†Œํ™”ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ
โˆ™ ํŒŒ๋ผ๋ฏธํ„ฐ์— ๋Œ€ํ•œ Loss function์˜ ๋„ํ•จ์ˆ˜(= ∂J(w) / ∂w) ๊ธฐ๋ฐ˜,
๋ฐ˜๋ณต์ ์ธ ์ตœ์ ํ™” ๊ธฐ์ˆ (= Backpropagation Algorithm)์„ ํ†ตํ•ด ์ตœ์†Œํ™” ์ง„ํ–‰.

 

'Deep Learning : Vision System > Deep Learning(Christopher M.Bishop)' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹ค๋ฅธ ๊ธ€

[DL]00.๋ชฉ์ฐจ ๋ฐ ์ฑ… ์†Œ๊ฐœ.  (4) 2024.01.30
[DL]04. Single-layer Networks: Regression  (2) 2024.01.22
[DL]03. Standard Distributions  (2) 2024.01.22
[DL]02. Probabilities  (1) 2024.01.14

+ Recent posts