๐ ๋ชฉ์ฐจ
1. The Impact of Deep Learning
2. A Tutorial Example
3. A Brief History of Machine Learning
1. The Impact of Deep Learning
preview
Deep Learning์ ์๋นํ ๊ฐ๋ ฅํ๊ณ ๋ค๋ชฉ์ ์ ์ํด data๋ก๋ถํฐ ํ์ต๋๋ค.
๋ํ, ์์ฆ์๋ AI์ Machine Learning์ด๋ผ๋ ์ฉ์ด๊ฐ ์๋ก ๋์ฒด๋์ด ์ฌ์ฉ๋๋ค.
๊พธ์คํ ๋ฐ์ ์ผ๋ก ์ธํด AGI๋ ๋งค์ฐ ๊ธ๊ฒฉํ ๋ฐ์ ์ ์ด๋ฃฉํ๋๋ฐ, ํนํ LLM์ ๋งค์ฐ ๋๋๋ฌ์ง ๋ฅ๋ ฅ์ ๋ณด์ธ๋ค.
์ฆ, LLM์ AGI๋ก ๊ฐ๋ ๊ธธ์ ํจ์๋ผ ํ ์ ์๋ค.
๋ณธ๋ฌธ ์์
์ฃผ ๋ด์ฉ: "๊ธฐ์กด ์ผ์์ ๋ฌธ์ ๋ค" → ์ง์ algorithm์ ์ง์ ํ๊ธฐ์๋ ๋ฌธ์ ๊ฐ ๋ํดํ์์.
โ๏ธDeep Learning์ ์ฌ์ฉํจ์ผ๋ก์จ ์ด๋ฅผ ํด๊ฒฐ.
(by. ๋ง์ ์์ training set ํ๋ณด, ์ด๋ฅผ training(=learning)์ํด์ผ๋ก์จ ๋ชจ๋ธ์ด ๋ฌธ์ ๋ฅผ ํ๊ฒํจ.)
2. A Tutorial Example
input(training set): x1, . . . , xN
target set: t1, . . . , tN
๋ชฉํ: ์๋ก์ด x์ ๋ํด t๊ฐ์ ์ ์์ธกํ๋ ๊ฒ = generalization
Linear Models
Linear Model๋ค์ ์ ํ์ ์ธ unknown parameter๋ผ๋ ์ค์ํ ํน์ง์ด ์์ ๋ฟ๋ง ์๋๋ผ "์ค์ํ ํ๊ณ์ "๋ํ ์กด์ฌ.
Error Function
training data์ ๋คํญ์์ fitting์์ผ error function์ ์ต์ํ ์ํฌ ์ ์๋ค.
Model Complexity
์ด๋, Model์ M(๋คํญ์ ์ฐจ์)๋ฅผ ๊ณ ๋ฅด๋ ๊ฒ์ ๋จ์์๋ ์ค์ํ ๊ณผ์ ์ด๋ค.
M์ ๊ฐ์ ๋ฐ๋ผ model์ด overfitting์ด ๋ ์๋, underfitting์ด ๋ ์๋ ์๊ธฐ ๋๋ฌธ์ด๋ค.
์ด๋, Overfitting์ด ๋ณดํต ์ฃผ์ํ ๋ฌธ์ ์ด๊ธฐ ๋๋ฌธ์ Regularization์ Lossํญ์ ๋์ ํ๋ค.
Regularization
์์ Loss function์ L2 Regularizeํญ์ ์ถ๊ฐํ ๊ฒ์ผ๋ก
๊ฐ ์ฑ๋ฆฝํ๋ฉฐ, λ๊ณ์๋ regularizeํญ๊ณผ MSEํญ ๊ฐ์ ์๋์ ์ค์์ฑ์ ๊ฒฐ์ ํ๋ ์๊ด๊ณ์(coefficient)๋ก Loss function์ penalty๋ฅผ ์ค์ผ๋ก์จ overfitting์ ์ ๋๋ฅผ ๊ฒฐ์ ํ ์ ์๋ค.
Model Selection
λ๋ w ๊ฒฐ์ ์ ์ํด J(w)๋ฅผ ์ต์ํํ๋ ๋์ ๊ณ ์ ๋๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ด์ง๋ง
๋จ์ํ w์ λ์ ๋ํด ์๋ฌ ํจ์๋ฅผ ์ต์ํํด λ → 0์ผ๋ก ์๋ ดํ๊ฒ ๋๋ฉด, error๊ฐ์ด ์์ ๊ณผ์ ํฉ๋ ๋ชจ๋ธ์ด ๋์ด๋ฒ๋ฆด ์ ์๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก ๋จ์ํ M์ ๋ํ trainingset์ ์ค์ฐจ๋ฅผ ์ต์ ํํ๋ฉด M์ ๊ฐ์ด ์ปค์ง๊ณ ๊ณผ์ ํฉ ๋ ์ ์๋ค.
๋ฐ๋ผ์ ํ์ดํผํ๋ผ๋ฏธํฐ์ ์ ์ ํ ๊ฐ์ ์ฐพ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ์ฐพ์์ผ ํ๋ค.
์์ ๊ฒฐ๊ณผ๋ ๊ฐ๋ฅํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ train-valid-split๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
trainset์ผ๋ก w๋ฅผ ๊ฒฐ์ ํ๊ณ validset์์ ๊ฐ์ฅ ๋ฎ์ ์ค์ฐจ๋ฅผ ๊ฐ๋ ๋ชจ๋ธ์ ์ ํํ๋ค.
๊ทธ๋ฌ๋ ์ ํ๋ ํฌ๊ธฐ์ dataset๋ฅผ ์ฌ์ฉํด ๋ชจ๋ธ์ ์ฌ๋ฌ ๋ฒ ์ค๊ณํ๋ฉด, validset์ ๊ณผ์ ํฉ๋ ์ ์๊ธฐ์
๋ง์ง๋ง์ผ๋ก ์ ํ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด ์ธ ๋ฒ์งธ ํ ์คํธ ์ธํธ๋ฅผ ์ ์งํด์ผ ํ ์๋ ์๋ค.
โ Cross Validation
์ผ๋ถ ์์ฉ ํ๋ก๊ทธ๋จ์์๋ ํ๋ จ ๋ฐ ํ ์คํธ์ฉ ๋ฐ์ดํฐ์ ์ ๊ณต์ด ์ ํ๋ ์ ์๋ค.
์ข์ ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ค๋ฉด ๊ฐ๋ฅํ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ จํด์ผ ํ์ง๋ง validset์ด ๋๋ฌด ์์ผ๋ฉด ์์ธก ์ฑ๋ฅ์ ์๋์ ์ผ๋ก ๋ ธ์ด์ฆ๊ฐ ๋ง์ ์ถ์ ์น๋ฅผ ์ ๊ณตํ ์ ์๋ค.
์ด๋ฌํ ๋๋ ๋ง์ ํด๊ฒฐ์ฑ ์ค ํ๋๋ ์๋ ๊ทธ๋ฆผ์์ ์ค๋ช ๋ ๊ต์ฐจ ๊ฒ์ฆ์ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค.
์ด๋ฅผ ํตํด ๋ฐ์ดํฐ์ (S - 1)/S์ ๋น์จ๋ก ํ๋ จ์ ํ์ฉํด ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ฑ๋ฅ์ ํ๊ฐํ ์ ์๋ค.
โ 'leave-one-out' ๊ธฐ๋ฒ
ํนํ๋ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ๊ฒฝ์ฐ, datapoint์ ์ด ์์ธ N๊ณผ ๊ฐ์ ๊ฒฝ์ฐ์ธ S = N์ ๊ณ ๋ คํ๋ ๊ฒ.
๊ต์ฐจ ๊ฒ์ฆ์ ์ฃผ์ ๋จ์ :
โ S์ ๋ฐฐ์๋ก ํ์ต ์คํ ํ์๊ฐ ์ฆ๊ฐ๋์ด, ์์ฒด์ ์ผ๋ก ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋๋ ๋ชจ๋ธ์์ ๋ฌธ์ ๊ฐ ๋ ์ ์๋ค๋ ๊ฒ.
โ ๋จ์ผ ๋ชจ๋ธ์ ์ฌ๋ฌ ๋ณต์ก์ฑ ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ์์ ์ ์์ผ๋ฉฐ, ์ด๋ฐ ํ์ดํผํ๋ผ๋ฏธํฐ๋ค์ ์ค์ ์ ์กฐํฉํ๋ ๊ฒ์ ์ง์์ ์ผ๋ก ๋ง์ ํ์ต ์คํ ํ์๋ฅผ ์๊ตฌ.
3. A Brief History of Machine Learning
Step 1. single neuron์ ์ ํ๊ฒฐํฉ(Linear Combination)์ผ๋ก ์์ฑ๋จ
Step 2. ์์ฑ๋ single neuron์ non-linear function์ผ๋ก transform.
์ด๋ฅผ ์ํ์ ์ผ๋ก ํํํ๋ฉด ์๋์ ๊ฐ๋ค.
์ด๋, a๋ผ๋ ๊ฐ์ pre-activation์ด๋ผ ๋ถ๋ฆฌ๋ฉฐ,
f(.)๋ activation funtion์ด๋ผ ๋ถ๋ฆฌ๊ณ y๋ activation์ด๋ผ ๋ถ๋ฆฐ๋ค.
Backpropagation
MLP์์ ์ค๊ฐ ์ธต์ ๋ ธ๋๋ hidden unit์ด๋ผ ํ๋๋ฐ, ์ด๋ trainset์ ๋ํ๋์ง ์๋ ๊ฐ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
(trainset์ input๊ณผ output๊ฐ๋ง ์ ๊ณตํ๊ธฐ ๋๋ฌธ.)
์ฌ๋ฌ ์ธต์ ๊ฐ์ค์น๋ฅผ ๊ฐ์ง ์ ๊ฒฝ๋ง์ ํ์ตํ๋ ๋ฅ๋ ฅ์ 1980๋ ๋ ์ค๋ฐ์ฏค๋ถํฐ ๋ค์ ๊ด์ฌ์ด ์ฆํญ๋๋ ๊ณ๊ธฐ๊ฐ ๋์๋๋ฐ, ํนํ, ํ๋ฅ ์ด๋ก ๊ณผ ํต๊ณํ์์์ ์์ด๋์ด๊ฐ ์ ๊ฒฝ๋ง๊ณผ ๋จธ์ ๋ฌ๋์์ ์ค์ํ ์ญํ ์ ํ๋ค๋ ๊ฒ์ด ์ธ์๋์๋ค.
ํ์ต์์์ ๋ฐฐ๊ฒฝ ๊ฐ์ ๋ค, ์ฌ์ ์ง์์ด๋ ๊ท๋ฉ์ ํธํฅ์ผ๋ก ๋ถ๋ฆฌ๊ธฐ๋ ํ๋ ๊ฒ๋ค์ด ํฌํจ๋ ์ ์์์ ํ ๊ฐ์ง ์ค์ํ ํต์ฐฐ์ ๋งํด์ค๋ค.
์ด๋ฌํ ๊ฐ์ ๋ค์ ๋ช ์์ ์ผ๋ก ํตํฉ๋ ์ ์๋๋ฐ, ์๋ฅผ ๋ค์ด ํผ๋ถ ๋ณ๋ณ์ ๋ถ๋ฅ๊ฐ ์ด๋ฏธ์ง ๋ด ๋ณ๋ณ์ ์์น์ ์์กดํ์ง ์๋๋ก ์ ๊ฒฝ๋ง์ ๊ตฌ์กฐ๋ฅผ ์ค๊ณํ ์ ์๋ค. ๋๋ ๋ชจ๋ธ์ ์ํ์ ํํ๋ ํ๋ จ ๋ฐฉ์์ผ๋ก๋ถํฐ ๋ฐ์ํ๋ ์๋ฌต์ ์ธ ๊ฐ์ ํํ๋ก ๋ํ๋ ์ ์์ต๋๋ค.
โ๏ธBackpropagation ์ฌ์ฉ์ด์ ?
๋ชจ๋ธ์ ์์ฒ์ต๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ฉฐ, Loss function์ ์ด๋ฐ parameter๋ค์ ๋์ ๋น์ ํํจ์์ผ ๊ฒ์ด๊ธฐ์
โ Loss function์ ๋ซํ ํํ(e.g ์ ํ ํ๊ท)๋ก ์ต์ํํ๋ ๊ฒ์ด ์๋๋ผ
โ ํ๋ผ๋ฏธํฐ์ ๋ํ Loss function์ ๋ํจ์(= ∂J(w) / ∂w)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก
๋ฐ๋ณต์ ์ธ ์ต์ ํ ๊ธฐ์ (= Backpropagation Algorithm)์ ํตํด ์ต์ํํด์ผ ํ๋ค.
์ด๋ฌํ ๋ชจ๋ ๊ณผ์ ์ ์ ๋ฌธ์ ์ธ ์ปดํจํ ํ๋์จ์ด๊ฐ ํ์ํ๋ฉฐ ์๋นํ ๊ณ์ฐ ๋น์ฉ์ด ๋ค ์ ์๋ค.
Deep Networks
๋ง์ ๊ฐ์ค์น๋ฅผ ๊ฐ์ง ์ ๊ฒฝ๋ง์ '์ฌ์ธต ์ ๊ฒฝ๋ง(deep neural networks)'์ด๋ผ๊ณ ํ๋ฉฐ, ์ด๋ฌํ ์ ๊ฒฝ๋ง์ ์ค์ ์ ๋ ๊ธฐ๊ณ ํ์ต์ ํ์ ๋ถ์ผ๋ฅผ '๋ฅ ๋ฌ๋(deep learning)'์ด๋ผ ํ๋ค(LeCun, Bengio, and Hinton, 2015).
์ ๊ทธ๋ฆผ์ ์ต์ฒจ๋จ ์ ๊ฒฝ๋ง์ ํ๋ จํ๊ธฐ ์ํด ํ์ํ ์ฐ์ฐ ์ฃผ๊ธฐ์ ์ฆ๊ฐ๋ฅผ ๋ํ๋ด๋ฉฐ, ์ฐ์ฐ ์ฃผ๊ธฐ์ ๋ ๊ฐ์ง ๊ตฌ๋ถ๋ ์ฑ์ฅ ๋จ๊ณ๋ฅผ ๋ณด์ฌ์ค๋ค.
์์ง ์ถ์ ์ง์์ ์ค์ผ์ผ์ ๊ฐ์ง๋ฉฐ (petaflop/s-days) ๋จ์๋ก ํ์๋๋ค.
โpetaflop: 1015(์ฒ ์กฐ)๊ฐ์ ๋ถ๋ ์์์ ์ฐ์ฐ
โpetaflop/s-days: ์ด๋น ํ๋์ ํผํํ๋กญ์ ์๋ฏธ.
petaflop/s-days์ 24์๊ฐ ๋์ ํผํํ๋กญ/์ด์ ์๋๋ก ๊ณ์ฐ๋๊ณ , ๋๋ต 1020๊ฐ์ ๋ถ๋ ์์์ ์ฐ์ฐ์ ๋ํ๋ด๋ฉฐ, ๊ทธ๋ํ์ ์ต์๋จ์ ์ธ์์ ์ธ 1024๊ฐ์ ๋ถ๋ ์์์ ์ฐ์ฐ์ ๋ํ๋ธ๋ค. ๊ทธ๋ํ์ ์ง์ ์ ์ง์์ ์ฑ์ฅ์ ๋ํ๋ธ๋ค.
ํ์ ์ ์ธ ์ํคํ ์ฒ ๊ฐ์ ์ด๋ ๋ ์ ๊ตํ ํํ์ ๊ท๋ฉ์ ํธํฅ์ ํฌํจํ๋ ๊ฒฝ์ฐ
์ฆ, ๋ชจ๋ธ์ด ํน์ ํ ๊ฐ์ ์ด๋ ์ ํ ์ง์์ ์ฌ์ฉํด ๋ฐ์ดํฐ๋ฅผ ํด์ --> ์ฑ๋ฅ ํฅ์
โ ํํ ํ์ต(representation learning)
์ฌ์ธต ์ ๊ฒฝ๋ง์ ์จ๊ฒจ์ง ๋ ์ด์ด ์ญํ
์ ๊ฒฝ๋ง์ด ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์๋ฏธ ์๋ ์๋ก์ด ํํ์ผ๋ก ๋ณํ, ๋ง์ง๋ง์ธต์ด ํด๊ฒฐํด์ผ ํ ํจ์ฌ ๋ ์ฌ์ด ๋ฌธ์ ๋ฅผ ๋ง๋ค์ด๋ธ๋ค(Bengio, Courville, and Vincent, 2012).
์ด๋ฌํ ๋ด๋ถ ํํ์ ์ ์ด ํ์ต์ ํตํด ๊ด๋ จ๋ ๋ฌธ์ ์ ํด๊ฒฐ์ ๊ฐ๋ฅํ๊ฒ ํ ์ ์๋ค.
โ Foundation Models
์ฌ๋ฌ ๊ฐ์ง downstream ์์ ์ ์ ํฉํ๊ฒ ์กฐ์ ๋๊ฑฐ๋ ์ธ๋ถ ์กฐ์ ๋ ์ ์๋ ํฐ ์ ๊ฒฝ๋ง
๋์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๊ฐ๋๋ก ๋๊ท๋ชจ์ด๊ณ ์ด์ง์ ์ธ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ํ์ฉํ ์ ์๋ค(Bommasani et al., 2021).
โ ๊ท๋ชจ ์ด์ธ ๋ฐฉ๋ฒ์ ์ด์ฉํ ๋ฐ์ .
๊ท๋ชจ ํ์ฅ ์ธ์๋ ๋ฅ ๋ฌ๋์ ์ฑ๊ณต์ ๋์์ด ๋ ๋ค๋ฅธ ๋ฐ์ ์ฌํญ๋ค์ด ์์๋๋ฐ, ์๋ฅผ ๋ค์ด, ๋จ์ํ ์ ๊ฒฝ๋ง์์ ๊น์ ์ ๊ฒฝ๋ง์ ์ฐ์์ ์ธ ์ธต์ ํตํด ์ญ์ ํ๋ ์๋ก ํ๋ จ ์ ํธ๊ฐ ์ฝํด์ง๋ ํ์์ ํด๊ฒฐํ๊ธฐ ์ํด ์์ฐจ ์ฐ๊ฒฐ(residual connections)์ ๋์ (He et al., 2015a).
๋ ๋ค๋ฅธ ์ฃผ์ ๋ฐ์ ๋ฐฉ๋ฒ: by coding:
์ญ์ ํ๋ฅผ ์ํํ์ฌ ์ค๋ฅ ํจ์์ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ๋ ์ฝ๋ = loss.backward()
→ ์๋ฐฉํฅ ์ ํ๋ฅผ ์ง์ ํ๋ ์ฝ๋์์ ์๋์ผ๋ก ์์ฑํ๋ ์๋ ๋ฏธ๋ถ ๋ฐฉ๋ฒ์ ๋์ . = autograd ๋ด์ฅ.
๐ง ์ ๋ฆฌ
โ LLM ← AGI๋ก ๊ฐ๋ ํจ์.
โ Deep Learning์ ๋ชฉํ:
Generalization์ด ์ ๋๋๋ก ํ๋ Universal Approximation์ด ๋ชฉํ,
์ด๋ฅผ ์ํด ์ ์ ํ model์ ์ฐจ์ M์ ์ฐพ๋๊ฒ์ด ๋ชฉํ. (over/underfitting๋ฌธ์ )
โ ํ๋ฅ ๋ก ๊ณผ ํต๊ณํ์ด ์ค์ํ ์ด์ ?
ํ์ต์์ prior, posterior, inductive bias ๋ฑ์ ํฌํจ๊ฐ๋ฅ์ฑ์ผ๋ก ์ธํด ๋ชจ๋ธ์ด ์ ์๋ํ์ง ๋ชปํ ์ ์์.
๋ฌผ๋ก , ์ ๊ตํํํ์ inductive bias๋ฅผ ํฌํจํ๋ฉด ๋ชจ๋ธ์ด ํน์ ๊ฐ์ ์ด๋ ์ ํ์ง์์ผ๋ก ๋ฐ์ดํฐ ํด์์ ํ์ฌ ์ฑ๋ฅํฅ์๋ ๊ฐ๋ฅํจ.
โ Representation Learning?
hidden layer์ ์ญํ , ๋ฌธ์ ํด๊ฒฐ์ ๋ ์ฝ๊ฒ ๋ง๋๋ ๊ฒ.
input์ "์ ์๋ฏธํ ์๋ก์ด ํํ์ผ๋ก ๋ณํํ๋ ๊ฒ."
โ๏ธBackpropagation ์ฌ์ฉ์ด์ ?
Loss function=์์ฒ์ต๊ฐ parameter์ ๋์ ๋น์ ํํจ์์ผ ๊ฒ์ด๊ธฐ์
โ Loss function์ ๋ซํ ํํ(e.g ์ ํ ํ๊ท)๋ก ์ต์ํํ๋ ๊ฒ์ด ์๋๋ผ
โ ํ๋ผ๋ฏธํฐ์ ๋ํ Loss function์ ๋ํจ์(= ∂J(w) / ∂w) ๊ธฐ๋ฐ,
๋ฐ๋ณต์ ์ธ ์ต์ ํ ๊ธฐ์ (= Backpropagation Algorithm)์ ํตํด ์ต์ํ ์งํ.
'Deep Learning : Vision System > Deep Learning(Christopher M.Bishop)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[DL]00.๋ชฉ์ฐจ ๋ฐ ์ฑ ์๊ฐ. (4) | 2024.01.30 |
---|---|
[DL]04. Single-layer Networks: Regression (2) | 2024.01.22 |
[DL]03. Standard Distributions (2) | 2024.01.22 |
[DL]02. Probabilities (1) | 2024.01.14 |