๐Ÿง ๋ชฉ์ฐจ

1์žฅ Highlights of Linear Algebra
1.1 ํ–‰๋ ฌ A์˜ ์—ด์„ ์ด์šฉํ•œ ๊ณฑ์…ˆ Ax
1.2 ํ–‰๋ ฌ ๊ณฑ์…ˆ AB
1.3 ๋„ค ๊ฐ€์ง€ ๊ธฐ๋ณธ ๋ถ€๋ถ„๊ณต๊ฐ„ (4 Fundamential Subspaces)
1.4 ์†Œ๊ฑฐ๋ฒ•๊ณผ A=LU
1.5 ์ง๊ตํ–‰๋ ฌ๊ณผ ๋ถ€๋ถ„๊ณต๊ฐ„
1.6 ๊ณ ์œณ๊ฐ’๊ณผ ๊ณ ์œ ๋ฒกํ„ฐ
1.7 ๋Œ€์นญ์ธ ์–‘์˜ ์ •๋ถ€ํ˜ธ ํ–‰๋ ฌ (Symmetric Positive Definite Matrices)
1.8 ํŠน์ž‡๊ฐ’ ๋ถ„ํ•ด(SVD)์—์„œ ํŠน์ž‡๊ฐ’๊ณผ ํŠน์ด๋ฒกํ„ฐ
1.9 ์ฃผ์„ฑ๋ถ„๊ณผ ์ตœ์ ์˜ ๋‚ฎ์€ ๋žญํฌ ํ–‰๋ ฌ
1.10 ๋ ˆ์ผ๋ฆฌ(Rayleigh) ๋ชซ๊ณผ ์ผ๋ฐ˜ํ™”๋œ ๊ณ ์œณ๊ฐ’
1.11 ๋ฒกํ„ฐ, ํ•จ์ˆ˜, ํ–‰๋ ฌ์˜ Norm
1.12 ํ–‰๋ ฌ๊ณผ ํ…์„œ์˜ ๋ถ„ํ•ด : ์–‘๊ณผ ํฌ์†Œ (Positive & Sparse)


2์žฅ Computations with Large Matrices
2.1 ์ˆ˜์น˜์„ ํ˜•๋Œ€์ˆ˜ํ•™
2.2 ๋„ค ๊ฐ€์ง€ ์ตœ์†Œ์ œ๊ณฑ
2.3 ์—ด๊ณต๊ฐ„์˜ ์„ธ ๊ฐ€์ง€ ๊ธฐ์ €
2.4 ์ž„์˜ํ™” ์„ ํ˜•๋Œ€์ˆ˜ํ•™


3์žฅ Low Rank and Compressed Sensing
3.1 A์˜ ๋ณ€ํ™”์— ๋”ฐ๋ฅธ A^{-1}์˜ ๋ณ€ํ™”
3.2 ๊ณ ์œณ๊ฐ’ ์ธํ„ฐ๋ ˆ์ด์‹ฑ๊ณผ ๋‚ฎ์€ ๋žญํฌ ์‹ ํ˜ธ
3.3 ๊ธ‰๊ฒฉํžˆ ๊ฐ์†Œํ•˜๋Š” ํŠน์ž‡๊ฐ’
3.4 l²+l¹์— ๋Œ€ํ•œ ๋ถ„ํ•ด ์•Œ๊ณ ๋ฆฌ์ฆ˜
3.5 ์••์ถ• ์„ผ์‹ฑ๊ณผ ํ–‰๋ ฌ์™„์„ฑ


4์žฅ Special Matrices
4.1 ํ‘ธ๋ฆฌ์— ๋ณ€ํ™˜ : ์ด์‚ฐ๊ณผ ์—ฐ์†์„ฑ
4.2 ์ด๋™ํ–‰๋ ฌ๊ณผ ์ˆœํ™˜ํ–‰๋ ฌ
4.3 ํฌ๋กœ๋„ค์ปค ๊ณฑ Aโ“งB
4.4 ํฌ๋กœ๋„ค์ปค ํ•ฉ์„ ํ†ตํ•œ ์‚ฌ์ธ๊ณผ ์ฝ”์‚ฌ์ธ ๋ณ€ํ™˜
4.5 ํ‡ดํ”Œ๋ฆฌ์ธ  ํ–‰๋ ฌ๊ณผ ์ด๋™ ๋ถˆ๋ณ€ ํ•„ํ„ฐ
4.6 ๊ทธ๋ž˜ํ”„์™€ ๋ผํ”Œ๋ผ์‹œ์•ˆ ๊ทธ๋ฆฌ๊ณ  ํ‚ค๋ฅดํžˆํ˜ธํ”„์˜ ๋ฒ•์น™
4.7 ์ŠคํŽ™ํŠธ๋Ÿผ ๋ฐฉ๋ฒ•๊ณผ K-ํ‰๊ท ์„ ์ด์šฉํ•œ ๊ตฐ์ง‘ํ™”
4.8 ๋žญํฌ 1 ํ–‰๋ ฌ์™„์„ฑ
4.9 ์ง๊ต ํ”„๋กœํฌ๋ฃจ์Šคํ…Œ์Šค ๋ฌธ์ œ
4.10 ๊ฑฐ๋ฆฌํ–‰๋ ฌ


5์žฅ Probability and Statistics
5.1 ํ‰๊ท , ๋ถ„์‚ฐ, ํ™•๋ฅ 
5.2 ํ™•๋ฅ ๋ถ„ํฌ
5.3 ๋ชจ๋ฉ˜ํŠธ์ƒ์„ฑํ•จ์ˆ˜, ๋ˆ„์ ์ƒ์„ฑํ•จ์ˆ˜, ํ†ต๊ณ„ ๋ถ€๋“ฑ์‹
5.4 ๊ณต๋ถ„์‚ฐํ–‰๋ ฌ๊ณผ ๊ฒฐํ•ฉํ™•๋ฅ 
5.5 ๋‹ค๋ณ€๋Ÿ‰ ์ •๊ทœ๋ถ„ํฌ์™€ ๊ฐ€์ค‘์ตœ์†Œ์ œ๊ณฑ
5.6 ๋งˆ๋ฅด์ฝ”ํ”„ ์—ฐ์‡„


6์žฅ Optimization
6.1 ์ตœ์†Ÿ๊ฐ’ ๋ฌธ์ œ : ๋ณผ๋ก์„ฑ๊ณผ ๋‰ดํ„ด ๋ฐฉ๋ฒ•
6.2 ๋ผ๊ทธ๋ž‘์ฃผ ์Šน์ˆ˜์™€ ๋น„์šฉ ๋„ํ•จ์ˆ˜
6.3 ์„ ํ˜• ๊ณ„ํš๋ฒ•, ๊ฒŒ์ž„์ด๋ก , ์Œ๋Œ€์„ฑ
6.4 ์ตœ์†Ÿ๊ฐ’์œผ๋กœ ํ–ฅํ•˜๋Š” ๊ฒฝ์‚ฌํ•˜๊ฐ•
6.5 ํ™•๋ฅ ์  ๊ฒฝ์‚ฌํ•˜๊ฐ•๊ณผ ADAM


7์žฅ Learning from Data
7.1 ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง์˜ ๊ตฌ์กฐ
7.2 ํ•ฉ์„ฑ๊ณฑ ์‹ ๊ฒฝ๋ง
7.3 ์˜ค์ฐจ์—ญ์ „ํŒŒ์™€ ์—ฐ์‡„๋ฒ•์น™
7.4 ์ดˆ๋งค๊ฐœ๋ณ€์ˆ˜ : ์ˆ™๋ช…์  ๊ฒฐ์ •
7.5 ๋จธ์‹ ๋Ÿฌ๋‹ ์„ธ๊ณ„

 

 

 

 

 

 

๐Ÿง Purpose

๐Ÿ˜ถ ์ด ์ฑ…์˜ ๋ชฉํ‘œ
1. Data Science์˜ ์ฃผ์š” ๋ฐฉ๋ฒ•๋ก ๊ณผ ์•„์ด๋””์–ด๋ฅผ ์ •๋ฆฌ
2. 1.์„ ์–ด๋–ป๊ฒŒ ์„ ํ˜•๋Œ€์ˆ˜ํ•™์œผ๋กœ ํ‘œํ˜„ํ•  ์ง€ ํ•™์Šต
3. 1.์„ ์–ด๋–ป๊ฒŒ ์„ค๋ช…ํ•  ์ง€ ํ•™์Šต

 

๐Ÿง Basic for Machine Learning

๐Ÿ˜ถ ML & DL
๋จธ์‹ ๋Ÿฌ๋‹์—์„œ ์„ ํ˜•๋Œ€์ˆ˜ํ•™, ํ™•๋ฅ ํ†ต๊ณ„, ์ตœ์ ํ™”๋Š” ๋งˆ์น˜ ๋Œ€๋“ค๋ณด์™€ ๊ฐ™๋‹ค.
๋ณธ ์ฑ…์€ train data๋ฅผ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋ถ„๋ฅ˜, ์ฒ˜์Œ๋ณด๋Š” data๊นŒ์ง€ ๋ถ„๋ฅ˜ํ•˜๋Š” "learning function"๊ตฌ์„ฑ์ด ๋ชฉํ‘œ
๋ณดํ†ต ์ด๋Ÿฐ learning function ๊ตฌ์„ฑ์„ ํ•˜๋Š” ๋ฐฉ์‹ ์ค‘ ์š”์ฆ˜ ๊ฐ€์žฅ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ๊ฒƒ์ด ๋ฐ”๋กœ "Deep Learning"์ด๋‹ค.


๐Ÿ˜ถ Linear & Nonlinear Activation
- Linear์˜ ๊ฐ€์žฅ ํฐ ์˜ˆ์‹œ ์ค‘ Affine function์˜ ๊ฒฝ์šฐ, ๋น ๋ฅด๊ฒŒ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜์ง€๋งŒ ๊ทธ ์ž์ฒด๋กœ๋Š” ๋„ˆ๋ฌด ๋‹จ์ˆœํ•˜๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ๋‹ค.
์ฆ‰, ์„ ํ˜•์„ฑ์ด๋ž€ ๋งค์šฐ ์ œํ•œ์ด ํฐ ์กฐ๊ฑด์ด๋‹ค.

- Nonlinear๋Š” ์ž…๋ ฅ๋ฒกํ„ฐ v์˜ ์„ฑ๋ถ„์„ ์ œ๊ณฑ(norm2)ํ•˜๋Š” ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚œ๋‹ค.


๐Ÿ˜ถ Neural Network & F(v)์˜ ๊ตฌ์กฐ
๋”ฅ๋Ÿฌ๋‹ ๊ตฌ์„ฑ ํ•จ์ˆ˜ F(v) = L(R(L(R(...(Lv)))))์˜  ํ˜•ํƒœ์ด๋‹ค.
 - ์ด๋•Œ, F๋Š” ํ•จ์ˆ˜ R๊ณผ Affineํ•จ์ˆ˜์ธ Lv = Av + b ๊ฐ„์˜ ํ•ฉ์„ฑํ•จ์ˆ˜์ด๋‹ค.
 - A์™€ b๋Š” F์˜ ๊ฐ€์ค‘์น˜๋กœ ํ–‰๋ ฌ๋กœ ํ‘œํ˜„๋˜๋ฉฐ, train data๋กœ ํ•™์Šต๋œ๋‹ค.
์ด๋•Œ, train data์˜ ํŠน์„ฑ์„ ๋ฝ‘๊ธฐ์œ„ํ•ด ๊ฐ€์ค‘์น˜๋ฅผ ๊ณ„์‚ฐ, ์ด๋•Œ ๊ฐ€์ค‘์น˜๋Š” ํ–‰๋ ฌ์„ฑ๋ถ„์ด๋ฉฐ ๋ฏธ๋ถ„์ ๋ถ„ํ•™์˜ "ํŽธ๋ฏธ๋ถ„"์„ ์ด์šฉํ•ด ํ˜„์žฌ ๊ฐ€์ค‘์น˜๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐฉํ–ฅ์„ ์ œ์‹œํ•œ๋‹ค.

 - ์ธต์ด ๋งŽ์•„์งˆ์ˆ˜๋ก F(v)์˜ ์ •ํ™•๋„๊ฐ€ ์˜ฌ๋ผ๊ฐ„๋‹ค.


cf. stochastic(=random)์ด๋ผ๋Š” ํ‘œํ˜„์€ ์„ฑ๊ณต์ด ํ™•์‹ค์„ฑ์ด ์•„๋‹Œ ํ™•๋ฅ ์— ์ขŒ์šฐ๋จ์„ ์˜๋ฏธํ•œ๋‹ค.
์ฆ‰, ํฐ ์ˆ˜์˜ ๋ฒ•์น™์€ ํฐ ํ•จ์ˆ˜์˜ ๋ฒ•์น™์œผ๋กœ ํ™•์žฅ๋˜๋ฉฐ ๋งŒ์•ฝ ๋ชจ๋ธ๊ตฌ์กฐ๊ฐ€ ์ž˜ ์„ค๊ณ„๋˜๊ณ  parameter๊ฐ€ ์ž˜ ๊ณ„์‚ฐ๋œ๋‹ค๋ฉด ์„ฑ๊ณตํ•  ํ™•๋ฅ ์ด ๋†’์Œ์„ ๋Œ€๋ณ€ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

์„ ํ˜•๋Œ€์ˆ˜ ์‘์šฉ ์‹œ, ๊ฐ€์žฅ ๊ธฐ๋ณธ์ ์ด๊ณ  ์ค‘์š”ํ•œ ๊ฐœ๋…์ด ๋˜๋Š” 5๊ฐ€์ง€ ๋ฌธ์ œ

1. Ax = b (๋งŒ์กฑํ•˜๋Š” x๊ฐ’ ๊ตฌํ•˜๊ธฐ)
2. Ax = λx (๋งŒ์กฑํ•˜๋Š” x์™€ λ๊ฐ’ ๊ตฌํ•˜๊ธฐ)
 - x์™€ λ๊ฐ’์„
 ์•ˆ๋‹ค๋ฉด, ๋‹จ์ˆœ ์„ ํ˜•๋ฌธ์ œ๋กœ ๋ณ€ํ•˜๊ธฐ์— ์–ด๋–ค ์„ ํ˜•๋ฌธ์ œ๋ผ๋„ ํ’€ ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค.

3. Av = σu (๋งŒ์กฑํ•˜๋Š” v, u, σ๊ฐ’ ๊ตฌํ•˜๊ธฐ)
 - SVD๋Š” ๊ฐ€์žฅ ๊ฐ„๋‹จํ•œ ํ‘œํ˜„์˜ σuvT๋ฅผ ์ฐพ์œผ๋ฉฐ, Data Science๋Š” SVD์—์„œ ์„ ํ˜•๋Œ€์ˆ˜ํ•™๊ณผ ์—ฐ๊ฒฐ๋œ๋‹ค.
 - ์ด๋•Œ, σuvT๋ฅผ ์ฐพ๋Š” ๊ฒƒ์€ PCA์˜ ๋ชฉ์ ์ด ๋œ๋‹ค.

4. argmin( ||Ax||² / ||x||² )
5. Factor A (A๋ฅผ ์—ด๊ณผ ํ–‰์˜ ๊ณฑ์œผ๋กœ ๋ถ„ํ•ดํ•˜๊ธฐ)
 - ์ตœ์†Œ์ œ๊ณฑ(least squares)์—์„œ ์ตœ์ ์˜ xฬ‚์„ ๊ตฌํ•˜๊ณ ,
 - PCA์—์„œ ์ฃผ์„ฑ๋ถ„์ธ vโ‚์„ ๊ณ„์‚ฐํ•˜๋Š”๊ฒƒ์€ fitting์˜ ๋Œ€์ˆ˜์  ๋ฌธ์ œ์ด๋‹ค.

cf. column space, null space, Eigen vector, SVD, Least Squares, Fourier transform, LASSO(in ํ†ต๊ณ„ํ•™)

+ Recent posts