๐ ๋ชฉ์ฐจ
1. The Impact of Deep Learning
2. A Tutorial Example
3. A Brief History of Machine Learning
1. The Impact of Deep Learning
preview
Deep Learning์ ์๋นํ ๊ฐ๋ ฅํ๊ณ ๋ค๋ชฉ์ ์ ์ํด data๋ก๋ถํฐ ํ์ต๋๋ค.
๋ํ, ์์ฆ์๋ AI์ Machine Learning์ด๋ผ๋ ์ฉ์ด๊ฐ ์๋ก ๋์ฒด๋์ด ์ฌ์ฉ๋๋ค.
๊พธ์คํ ๋ฐ์ ์ผ๋ก ์ธํด AGI๋ ๋งค์ฐ ๊ธ๊ฒฉํ ๋ฐ์ ์ ์ด๋ฃฉํ๋๋ฐ, ํนํ LLM์ ๋งค์ฐ ๋๋๋ฌ์ง ๋ฅ๋ ฅ์ ๋ณด์ธ๋ค.
์ฆ, LLM์ AGI๋ก ๊ฐ๋ ๊ธธ์ ํจ์๋ผ ํ ์ ์๋ค.
๋ณธ๋ฌธ ์์
์ฃผ ๋ด์ฉ: "๊ธฐ์กด ์ผ์์ ๋ฌธ์ ๋ค" → ์ง์ algorithm์ ์ง์ ํ๊ธฐ์๋ ๋ฌธ์ ๊ฐ ๋ํดํ์์.
โ๏ธDeep Learning์ ์ฌ์ฉํจ์ผ๋ก์จ ์ด๋ฅผ ํด๊ฒฐ.
(by. ๋ง์ ์์ training set ํ๋ณด, ์ด๋ฅผ training(=learning)์ํด์ผ๋ก์จ ๋ชจ๋ธ์ด ๋ฌธ์ ๋ฅผ ํ๊ฒํจ.)
2. A Tutorial Example
input(training set): x1, . . . , xN
target set: t1, . . . , tN
๋ชฉํ: ์๋ก์ด x์ ๋ํด t๊ฐ์ ์ ์์ธกํ๋ ๊ฒ = generalization
Linear ModelsLinear Model๋ค์ ์ ํ์ ์ธ unknown parameter๋ผ๋ ์ค์ํ ํน์ง์ด ์์ ๋ฟ๋ง ์๋๋ผ "์ค์ํ ํ๊ณ์ "๋ํ ์กด์ฌ.
Error Functiontraining data์ ๋คํญ์์ fitting์์ผ error function์ ์ต์ํ ์ํฌ ์ ์๋ค.
Model Complexity
์ด๋, Model์ M(๋คํญ์ ์ฐจ์)๋ฅผ ๊ณ ๋ฅด๋ ๊ฒ์ ๋จ์์๋ ์ค์ํ ๊ณผ์ ์ด๋ค.M์ ๊ฐ์ ๋ฐ๋ผ model์ด overfitting์ด ๋ ์๋, underfitting์ด ๋ ์๋ ์๊ธฐ ๋๋ฌธ์ด๋ค.
์ด๋, Overfitting์ด ๋ณดํต ์ฃผ์ํ ๋ฌธ์ ์ด๊ธฐ ๋๋ฌธ์ Regularization์ Lossํญ์ ๋์ ํ๋ค.
Regularization์์ Loss function์ L2 Regularizeํญ์ ์ถ๊ฐํ ๊ฒ์ผ๋ก
๊ฐ ์ฑ๋ฆฝํ๋ฉฐ, λ๊ณ์๋ regularizeํญ๊ณผ MSEํญ ๊ฐ์ ์๋์ ์ค์์ฑ์ ๊ฒฐ์ ํ๋ ์๊ด๊ณ์(coefficient)๋ก Loss function์ penalty๋ฅผ ์ค์ผ๋ก์จ overfitting์ ์ ๋๋ฅผ ๊ฒฐ์ ํ ์ ์๋ค.
Model Selection
λ๋ w ๊ฒฐ์ ์ ์ํด J(w)๋ฅผ ์ต์ํํ๋ ๋์ ๊ณ ์ ๋๋ ํ์ดํผํ๋ผ๋ฏธํฐ์ด์ง๋ง
๋จ์ํ w์ λ์ ๋ํด ์๋ฌ ํจ์๋ฅผ ์ต์ํํด λ → 0์ผ๋ก ์๋ ดํ๊ฒ ๋๋ฉด, error๊ฐ์ด ์์ ๊ณผ์ ํฉ๋ ๋ชจ๋ธ์ด ๋์ด๋ฒ๋ฆด ์ ์๋ค.
๋ง์ฐฌ๊ฐ์ง๋ก ๋จ์ํ M์ ๋ํ trainingset์ ์ค์ฐจ๋ฅผ ์ต์ ํํ๋ฉด M์ ๊ฐ์ด ์ปค์ง๊ณ ๊ณผ์ ํฉ ๋ ์ ์๋ค.
๋ฐ๋ผ์ ํ์ดํผํ๋ผ๋ฏธํฐ์ ์ ์ ํ ๊ฐ์ ์ฐพ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ ์ฐพ์์ผ ํ๋ค.
์์ ๊ฒฐ๊ณผ๋ ๊ฐ๋ฅํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ train-valid-split๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
trainset์ผ๋ก w๋ฅผ ๊ฒฐ์ ํ๊ณ validset์์ ๊ฐ์ฅ ๋ฎ์ ์ค์ฐจ๋ฅผ ๊ฐ๋ ๋ชจ๋ธ์ ์ ํํ๋ค.
๊ทธ๋ฌ๋ ์ ํ๋ ํฌ๊ธฐ์ dataset๋ฅผ ์ฌ์ฉํด ๋ชจ๋ธ์ ์ฌ๋ฌ ๋ฒ ์ค๊ณํ๋ฉด, validset์ ๊ณผ์ ํฉ๋ ์ ์๊ธฐ์
๋ง์ง๋ง์ผ๋ก ์ ํ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด ์ธ ๋ฒ์งธ ํ ์คํธ ์ธํธ๋ฅผ ์ ์งํด์ผ ํ ์๋ ์๋ค.
โ Cross Validation
์ผ๋ถ ์์ฉ ํ๋ก๊ทธ๋จ์์๋ ํ๋ จ ๋ฐ ํ ์คํธ์ฉ ๋ฐ์ดํฐ์ ์ ๊ณต์ด ์ ํ๋ ์ ์๋ค.
์ข์ ๋ชจ๋ธ์ ๊ตฌ์ถํ๋ ค๋ฉด ๊ฐ๋ฅํ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ จํด์ผ ํ์ง๋ง validset์ด ๋๋ฌด ์์ผ๋ฉด ์์ธก ์ฑ๋ฅ์ ์๋์ ์ผ๋ก ๋ ธ์ด์ฆ๊ฐ ๋ง์ ์ถ์ ์น๋ฅผ ์ ๊ณตํ ์ ์๋ค.
์ด๋ฌํ ๋๋ ๋ง์ ํด๊ฒฐ์ฑ ์ค ํ๋๋ ์๋ ๊ทธ๋ฆผ์์ ์ค๋ช ๋ ๊ต์ฐจ ๊ฒ์ฆ์ ์ฌ์ฉํ๋ ๊ฒ์ด๋ค.
์ด๋ฅผ ํตํด ๋ฐ์ดํฐ์ (S - 1)/S์ ๋น์จ๋ก ํ๋ จ์ ํ์ฉํด ๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ์ฑ๋ฅ์ ํ๊ฐํ ์ ์๋ค.
โ 'leave-one-out' ๊ธฐ๋ฒ
ํนํ๋ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ ๊ฒฝ์ฐ, datapoint์ ์ด ์์ธ N๊ณผ ๊ฐ์ ๊ฒฝ์ฐ์ธ S = N์ ๊ณ ๋ คํ๋ ๊ฒ.
๊ต์ฐจ ๊ฒ์ฆ์ ์ฃผ์ ๋จ์ :
โ S์ ๋ฐฐ์๋ก ํ์ต ์คํ ํ์๊ฐ ์ฆ๊ฐ๋์ด, ์์ฒด์ ์ผ๋ก ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋๋ ๋ชจ๋ธ์์ ๋ฌธ์ ๊ฐ ๋ ์ ์๋ค๋ ๊ฒ.
โ ๋จ์ผ ๋ชจ๋ธ์ ์ฌ๋ฌ ๋ณต์ก์ฑ ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ์์ ์ ์์ผ๋ฉฐ, ์ด๋ฐ ํ์ดํผํ๋ผ๋ฏธํฐ๋ค์ ์ค์ ์ ์กฐํฉํ๋ ๊ฒ์ ์ง์์ ์ผ๋ก ๋ง์ ํ์ต ์คํ ํ์๋ฅผ ์๊ตฌ.
3. A Brief History of Machine Learning
Step 1. single neuron์ ์ ํ๊ฒฐํฉ(Linear Combination)์ผ๋ก ์์ฑ๋จ
Step 2. ์์ฑ๋ single neuron์ non-linear function์ผ๋ก transform.
์ด๋ฅผ ์ํ์ ์ผ๋ก ํํํ๋ฉด ์๋์ ๊ฐ๋ค.์ด๋, a๋ผ๋ ๊ฐ์ pre-activation์ด๋ผ ๋ถ๋ฆฌ๋ฉฐ,
f(.)๋ activation funtion์ด๋ผ ๋ถ๋ฆฌ๊ณ y๋ activation์ด๋ผ ๋ถ๋ฆฐ๋ค.
Backpropagation
MLP์์ ์ค๊ฐ ์ธต์ ๋ ธ๋๋ hidden unit์ด๋ผ ํ๋๋ฐ, ์ด๋ trainset์ ๋ํ๋์ง ์๋ ๊ฐ์ด๊ธฐ ๋๋ฌธ์ด๋ค.
(trainset์ input๊ณผ output๊ฐ๋ง ์ ๊ณตํ๊ธฐ ๋๋ฌธ.)
์ฌ๋ฌ ์ธต์ ๊ฐ์ค์น๋ฅผ ๊ฐ์ง ์ ๊ฒฝ๋ง์ ํ์ตํ๋ ๋ฅ๋ ฅ์ 1980๋ ๋ ์ค๋ฐ์ฏค๋ถํฐ ๋ค์ ๊ด์ฌ์ด ์ฆํญ๋๋ ๊ณ๊ธฐ๊ฐ ๋์๋๋ฐ, ํนํ, ํ๋ฅ ์ด๋ก ๊ณผ ํต๊ณํ์์์ ์์ด๋์ด๊ฐ ์ ๊ฒฝ๋ง๊ณผ ๋จธ์ ๋ฌ๋์์ ์ค์ํ ์ญํ ์ ํ๋ค๋ ๊ฒ์ด ์ธ์๋์๋ค.
ํ์ต์์์ ๋ฐฐ๊ฒฝ ๊ฐ์ ๋ค, ์ฌ์ ์ง์์ด๋ ๊ท๋ฉ์ ํธํฅ์ผ๋ก ๋ถ๋ฆฌ๊ธฐ๋ ํ๋ ๊ฒ๋ค์ด ํฌํจ๋ ์ ์์์ ํ ๊ฐ์ง ์ค์ํ ํต์ฐฐ์ ๋งํด์ค๋ค.
์ด๋ฌํ ๊ฐ์ ๋ค์ ๋ช ์์ ์ผ๋ก ํตํฉ๋ ์ ์๋๋ฐ, ์๋ฅผ ๋ค์ด ํผ๋ถ ๋ณ๋ณ์ ๋ถ๋ฅ๊ฐ ์ด๋ฏธ์ง ๋ด ๋ณ๋ณ์ ์์น์ ์์กดํ์ง ์๋๋ก ์ ๊ฒฝ๋ง์ ๊ตฌ์กฐ๋ฅผ ์ค๊ณํ ์ ์๋ค. ๋๋ ๋ชจ๋ธ์ ์ํ์ ํํ๋ ํ๋ จ ๋ฐฉ์์ผ๋ก๋ถํฐ ๋ฐ์ํ๋ ์๋ฌต์ ์ธ ๊ฐ์ ํํ๋ก ๋ํ๋ ์ ์์ต๋๋ค.
โ๏ธBackpropagation ์ฌ์ฉ์ด์ ?
๋ชจ๋ธ์ ์์ฒ์ต๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง๋ฉฐ, Loss function์ ์ด๋ฐ parameter๋ค์ ๋์ ๋น์ ํํจ์์ผ ๊ฒ์ด๊ธฐ์
โ Loss function์ ๋ซํ ํํ(e.g ์ ํ ํ๊ท)๋ก ์ต์ํํ๋ ๊ฒ์ด ์๋๋ผ
โ ํ๋ผ๋ฏธํฐ์ ๋ํ Loss function์ ๋ํจ์(= ∂J(w) / ∂w)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก
๋ฐ๋ณต์ ์ธ ์ต์ ํ ๊ธฐ์ (= Backpropagation Algorithm)์ ํตํด ์ต์ํํด์ผ ํ๋ค.
์ด๋ฌํ ๋ชจ๋ ๊ณผ์ ์ ์ ๋ฌธ์ ์ธ ์ปดํจํ ํ๋์จ์ด๊ฐ ํ์ํ๋ฉฐ ์๋นํ ๊ณ์ฐ ๋น์ฉ์ด ๋ค ์ ์๋ค.
Deep Networks
๋ง์ ๊ฐ์ค์น๋ฅผ ๊ฐ์ง ์ ๊ฒฝ๋ง์ '์ฌ์ธต ์ ๊ฒฝ๋ง(deep neural networks)'์ด๋ผ๊ณ ํ๋ฉฐ, ์ด๋ฌํ ์ ๊ฒฝ๋ง์ ์ค์ ์ ๋ ๊ธฐ๊ณ ํ์ต์ ํ์ ๋ถ์ผ๋ฅผ '๋ฅ ๋ฌ๋(deep learning)'์ด๋ผ ํ๋ค(LeCun, Bengio, and Hinton, 2015).์ ๊ทธ๋ฆผ์ ์ต์ฒจ๋จ ์ ๊ฒฝ๋ง์ ํ๋ จํ๊ธฐ ์ํด ํ์ํ ์ฐ์ฐ ์ฃผ๊ธฐ์ ์ฆ๊ฐ๋ฅผ ๋ํ๋ด๋ฉฐ, ์ฐ์ฐ ์ฃผ๊ธฐ์ ๋ ๊ฐ์ง ๊ตฌ๋ถ๋ ์ฑ์ฅ ๋จ๊ณ๋ฅผ ๋ณด์ฌ์ค๋ค.
์์ง ์ถ์ ์ง์์ ์ค์ผ์ผ์ ๊ฐ์ง๋ฉฐ (petaflop/s-days) ๋จ์๋ก ํ์๋๋ค.
โpetaflop: 1015(์ฒ ์กฐ)๊ฐ์ ๋ถ๋ ์์์ ์ฐ์ฐ
โpetaflop/s-days: ์ด๋น ํ๋์ ํผํํ๋กญ์ ์๋ฏธ.
petaflop/s-days์ 24์๊ฐ ๋์ ํผํํ๋กญ/์ด์ ์๋๋ก ๊ณ์ฐ๋๊ณ , ๋๋ต 1020๊ฐ์ ๋ถ๋ ์์์ ์ฐ์ฐ์ ๋ํ๋ด๋ฉฐ, ๊ทธ๋ํ์ ์ต์๋จ์ ์ธ์์ ์ธ 1024๊ฐ์ ๋ถ๋ ์์์ ์ฐ์ฐ์ ๋ํ๋ธ๋ค. ๊ทธ๋ํ์ ์ง์ ์ ์ง์์ ์ฑ์ฅ์ ๋ํ๋ธ๋ค.
ํ์ ์ ์ธ ์ํคํ ์ฒ ๊ฐ์ ์ด๋ ๋ ์ ๊ตํ ํํ์ ๊ท๋ฉ์ ํธํฅ์ ํฌํจํ๋ ๊ฒฝ์ฐ
์ฆ, ๋ชจ๋ธ์ด ํน์ ํ ๊ฐ์ ์ด๋ ์ ํ ์ง์์ ์ฌ์ฉํด ๋ฐ์ดํฐ๋ฅผ ํด์ --> ์ฑ๋ฅ ํฅ์
โ ํํ ํ์ต(representation learning)
์ฌ์ธต ์ ๊ฒฝ๋ง์ ์จ๊ฒจ์ง ๋ ์ด์ด ์ญํ
์ ๊ฒฝ๋ง์ด ์ ๋ ฅ ๋ฐ์ดํฐ๋ฅผ ์๋ฏธ ์๋ ์๋ก์ด ํํ์ผ๋ก ๋ณํ, ๋ง์ง๋ง์ธต์ด ํด๊ฒฐํด์ผ ํ ํจ์ฌ ๋ ์ฌ์ด ๋ฌธ์ ๋ฅผ ๋ง๋ค์ด๋ธ๋ค(Bengio, Courville, and Vincent, 2012).
์ด๋ฌํ ๋ด๋ถ ํํ์ ์ ์ด ํ์ต์ ํตํด ๊ด๋ จ๋ ๋ฌธ์ ์ ํด๊ฒฐ์ ๊ฐ๋ฅํ๊ฒ ํ ์ ์๋ค.
โ Foundation Models
์ฌ๋ฌ ๊ฐ์ง downstream ์์ ์ ์ ํฉํ๊ฒ ์กฐ์ ๋๊ฑฐ๋ ์ธ๋ถ ์กฐ์ ๋ ์ ์๋ ํฐ ์ ๊ฒฝ๋ง
๋์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ๊ฐ๋๋ก ๋๊ท๋ชจ์ด๊ณ ์ด์ง์ ์ธ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ํ์ฉํ ์ ์๋ค(Bommasani et al., 2021).
โ ๊ท๋ชจ ์ด์ธ ๋ฐฉ๋ฒ์ ์ด์ฉํ ๋ฐ์ .
๊ท๋ชจ ํ์ฅ ์ธ์๋ ๋ฅ ๋ฌ๋์ ์ฑ๊ณต์ ๋์์ด ๋ ๋ค๋ฅธ ๋ฐ์ ์ฌํญ๋ค์ด ์์๋๋ฐ, ์๋ฅผ ๋ค์ด, ๋จ์ํ ์ ๊ฒฝ๋ง์์ ๊น์ ์ ๊ฒฝ๋ง์ ์ฐ์์ ์ธ ์ธต์ ํตํด ์ญ์ ํ๋ ์๋ก ํ๋ จ ์ ํธ๊ฐ ์ฝํด์ง๋ ํ์์ ํด๊ฒฐํ๊ธฐ ์ํด ์์ฐจ ์ฐ๊ฒฐ(residual connections)์ ๋์ (He et al., 2015a).
๋ ๋ค๋ฅธ ์ฃผ์ ๋ฐ์ ๋ฐฉ๋ฒ: by coding:
์ญ์ ํ๋ฅผ ์ํํ์ฌ ์ค๋ฅ ํจ์์ ๊ทธ๋๋์ธํธ๋ฅผ ๊ณ์ฐํ๋ ์ฝ๋ = loss.backward()
→ ์๋ฐฉํฅ ์ ํ๋ฅผ ์ง์ ํ๋ ์ฝ๋์์ ์๋์ผ๋ก ์์ฑํ๋ ์๋ ๋ฏธ๋ถ ๋ฐฉ๋ฒ์ ๋์ . = autograd ๋ด์ฅ.
torch.autograd ์ ๋ํ ๊ฐ๋จํ ์๊ฐ
torch.autograd ๋ ์ ๊ฒฝ๋ง ํ์ต์ ์ง์ํ๋ PyTorch์ ์๋ ๋ฏธ๋ถ ์์ง์ ๋๋ค. ์ด ๋จ์์์๋ autograd๊ฐ ์ ๊ฒฝ๋ง ํ์ต์ ์ด๋ป๊ฒ ๋๋์ง์ ๋ํ ๊ฐ๋ ์ ์ดํด๋ฅผ ํ ์ ์์ต๋๋ค. ๋ฐฐ๊ฒฝ(Background): ์ ๊ฒฝ๋ง(NN; Neur
tutorials.pytorch.kr
๐ง ์ ๋ฆฌ
โ LLM ← AGI๋ก ๊ฐ๋ ํจ์.
โ Deep Learning์ ๋ชฉํ:
Generalization์ด ์ ๋๋๋ก ํ๋ Universal Approximation์ด ๋ชฉํ,
์ด๋ฅผ ์ํด ์ ์ ํ model์ ์ฐจ์ M์ ์ฐพ๋๊ฒ์ด ๋ชฉํ. (over/underfitting๋ฌธ์ )์ด๋, input๊ณผ output์ ์ธ, trainset์ ์๋ํ๋๋ ๊ฐ์ hidden unit์ด๋ผ ํจ.
โ ํ๋ฅ ๋ก ๊ณผ ํต๊ณํ์ด ์ค์ํ ์ด์ ?
ํ์ต์์ prior, posterior, inductive bias ๋ฑ์ ํฌํจ๊ฐ๋ฅ์ฑ์ผ๋ก ์ธํด ๋ชจ๋ธ์ด ์ ์๋ํ์ง ๋ชปํ ์ ์์.
๋ฌผ๋ก , ์ ๊ตํํํ์ inductive bias๋ฅผ ํฌํจํ๋ฉด ๋ชจ๋ธ์ด ํน์ ๊ฐ์ ์ด๋ ์ ํ์ง์์ผ๋ก ๋ฐ์ดํฐ ํด์์ ํ์ฌ ์ฑ๋ฅํฅ์๋ ๊ฐ๋ฅํจ.
โ Representation Learning?
hidden layer์ ์ญํ , ๋ฌธ์ ํด๊ฒฐ์ ๋ ์ฝ๊ฒ ๋ง๋๋ ๊ฒ.
input์ "์ ์๋ฏธํ ์๋ก์ด ํํ์ผ๋ก ๋ณํํ๋ ๊ฒ."
โ๏ธBackpropagation ์ฌ์ฉ์ด์ ?
Loss function=์์ฒ์ต๊ฐ parameter์ ๋์ ๋น์ ํํจ์์ผ ๊ฒ์ด๊ธฐ์
โ Loss function์ ๋ซํ ํํ(e.g ์ ํ ํ๊ท)๋ก ์ต์ํํ๋ ๊ฒ์ด ์๋๋ผ
โ ํ๋ผ๋ฏธํฐ์ ๋ํ Loss function์ ๋ํจ์(= ∂J(w) / ∂w) ๊ธฐ๋ฐ,
๋ฐ๋ณต์ ์ธ ์ต์ ํ ๊ธฐ์ (= Backpropagation Algorithm)์ ํตํด ์ต์ํ ์งํ.
'Deep Learning : Vision System > Deep Learning(Christopher M.Bishop)' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[DL]00.๋ชฉ์ฐจ ๋ฐ ์ฑ ์๊ฐ. (4) | 2024.01.30 |
---|---|
[DL]04. Single-layer Networks: Regression (2) | 2024.01.22 |
[DL]03. Standard Distributions (2) | 2024.01.22 |
[DL]02. Probabilities (1) | 2024.01.14 |