๐ถ ์ด๋ก (Abstract)
- ์ต์ฒจ๋จ์ฑ๋ฅ์ ๋ฌ์ฑํ๊ธฐ ์ํด Rectified activation units (rectifiers)๋ ํ์์ ์ด๋ค.
2๊ฐ์ง ๊ด์ ์์ image classification์ rectifier์ ๊ฒฝ๋ง์ ๋์ ํ๋ค.
โ Parametric Rectified Linear Unit (PReLU)
- overfitting์ ์ ์ ์ํ. &. ๊ฑฐ์ ๊ณ์ฐ์ ๋น์ฉ์ด 0์ ์๋ ด
- Leaky ReLU์ฒ๋ผ ์์ ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๋์
- ๋ค๋ง ์ฐจ์ด์ ์ Leaky ReLU์ฒ๋ผ ๊ณ ์ ๋ ๊ธฐ์ธ๊ธฐ๊ฐ ์๋, ๊ธฐ์ธ๊ธฐ์ ํ์ต์ด ๊ฐ๋ฅํ๋ค.
- ์ด๋ ์ ๊ฒฝ๋ง์ด ๊ฐ ๋ด๋ฐ์ ๋ํด ์ต์ ์ ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ํ์ตํ ์ ์์์ ์๋ฏธ
โก Rectifier non-linearity๋ฅผ ํนํ๋ ๊ณ ๋ คํ๋ ๊ฐ๋ ฅํ ์ด๊ธฐํ๋ฐฉ๋ฒ์ ๋์ถ
- ์ด๋ฐ ๋ฐฉ๋ฒ๋ค์ ํตํด ๋ ๊น๊ณ ๋์ ์ ๊ฒฝ๋ง๊ณผ ๋งค์ฐ ๊น์ rectified model์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
PReLU์ ๊ธฐ์ดํ์ฌ ๋งค์ฐ ๋์ ๊ฒฐ๊ณผ๋ค์ ๋ฌ์ฑํ๋ฉฐ ์ธ๊ฐ์์ค์ ์ฑ๋ฅ์ ๋ฅ๊ฐํ๋ ์ฑ๊ณผ๋ฅผ ์ป์๋ค.
1. ์๋ก (Introduction)
• CNN์ ๋ค์ํ ์๊ฐ์ ์ธ์์์ ์์ ํจ๊ณผ์ ์์ ์ฆ๋ช ํ์๋ค.
์ธ์๋ถ๋ฅ์ ๋ํด ์ฑ๋ฅํฅ์์ ์์ฒญ๋ ์ฆ๊ฑฐ์ ๋ํด ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ๋ํ ์ ๋ต์ ์ํด, 2๊ฐ์ง ๊ธฐ์ ์ ๊ฐ์ด๋๋ผ์ธ์ ์ ์ํ๋ค.
โ ์ฆ๊ฐ๋ ๋ณต์ก์ฑ, ํ๋๋ width, ๋ ์์ stride, ์๋ก์ด non-linear activation, ์ ๊ตํ ์ธต ์ค๊ณ๋ก training data๋ฅผ fitํ๋ค.
โก ๋ฐ๋๋ก ํจ๊ณผ์ ์ธ ์ ๊ทํ(regularization), ๊ณต๊ฒฉ์ ์ธ ๋ฐ์ดํฐ๊ฐํ ๋ฐ ๋๊ท๋ชจ data๋ก ๋ ๋์ ์ผ๋ฐํ(generalization)์ด ๋ฌ์ฑ๋๋ค.
- ์ด๋ฐ ๋ฐ์ ๊ณผ์ ์์, rectifier neuron, ์๋ฅผ ๋ค์ด ReLU๋ ์ต๊ทผ ์ฌ์ธต์ ๊ฒฝ๋ง ์ฑ๊ณต์ ํต์ฌ ์ค ํ๋์ด๋ค.
์ด๋ training์์ ์๋ ด์ ๊ฐ์ํํ๊ณ ๊ธฐ์กด์ "S์ unit"๋ณด๋ค ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
- ๋ณธ ๋ ผ๋ฌธ์์๋ ํนํ ์ ๋ฅ๊ธฐ(rectifier)์ ์ํด ๊ตฌ๋๋๋ 2๊ฐ์ง ์ธก๋ฉด์์ ์ ๊ฒฝ๋ง์ ์กฐ์ฌํ๋ค.
โ PReLU: ReLU์ ์๋ก์ด generalization
- ์ด ํ์ฑํ ํจ์๋ ์ ๋ฅ๊ธฐ์ ๋งค๊ฐ๋ณ์๋ฅผ ์ ์๋ ฅ์๊ฒ ํ์ตํ๊ณ ๋ฌด์ํ ์๋ ์๋ ์ถ๊ฐ์ ์ธ ๊ณ์ฐ์ผ๋ก ์ ํ๋๋ฅผ ํฅ์์ํจ๋ค.
โก ๋งค์ฐ๊น์ rectified๋ชจ๋ธ ํ๋ จ์ ์ด๋ ค์
- ์ ๋ฅ๊ธฐ์ ๋น์ ํ์ฑ(ReLU / PReLU)๋ฅผ ๋ช ์์ ์ผ๋ก ๋ชจ๋ธ๋ง, ์ด๋ก ์ ์ด๊ธฐํ๋ฐฉ๋ฒ์ ๋์ถ.
- ์ฒ์๋ถํฐ ์ง์ ํ๋ จ๋ ์ฌ์ธต์ ๊ฒฝ๋ง์ ์๋ ด์ ๋์ ๊ฐ๋ ฅํ ์ ๊ฒฝ๋ง๊ตฌ์กฐ์ ํ์์ด ๊ฐ๋ฅํ ์ ์ฐ์ฑํ๋ณด๊ฐ ๊ฐ๋ฅ.
- ์ฐ๋ฆฐ ์ง๊ธ๊น์ง ๋ณด๊ณ ๋ ๋ฐ์ ์ํ๋ฉด, ์ฒ์์ผ๋ก ์ธ๊ฐ์์ค์ ์ธ์(5.1%)์ ๋์ด์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ง๋ค์ด๋๋ค.
2. Approach
2.1. Parametric Rectifiers. (PReLU)
• Definition
- ๊ณต์๋ถ์์ ํ๋ฉด, activation function์ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.์ด๋, yi๋ i๋ฒ์งธ channel์ ๋น์ ํํ์ฑํํจ์ f์ ์ ๋ ฅ๊ฐ์ด๋ค.
ai์ i๋ ๋ค์ํ channel์ ๊ฑธ์ณ ๋น์ ํํ์ฑํํจ์(nonlinear activation)๋ฅผ ํ์ฉํ๋ค๋ ๊ฒ์ ๋ํ๋ธ๋ค.
ai = 0์ผ ๋, ์ด๊ฒ์ ReLU๊ฐ ๋๋ค.
์ด๋, ai๊ฐ ํ์ต๊ฐ๋ฅํ ํ๋ผ๋ฏธํฐ๋ผ๋ฉด, Eqn.(1)์์ ์ธ๊ธํ ๋ฐ์ ๊ฐ์ด Parametric ReLU๊ฐ ๋๋ค.
๋ํ ์์ ์์ ์๋์ ์๊ณผ ๋์น์ด๋ค.๋ง์ฝ ai๊ฐ ์๊ณ ๊ณ ์ ๋ ๊ฐ์ด๋ผ๋ฉด, PReLU๋ LReLU, ์ฆ Leaky ReLU๊ฐ ๋๋ค. (ai = 0.01)
- LReLU๋ zero gradient ์ฆ, ๊ธฐ์ธ๊ธฐ๊ฐ 0์ด ๋๋ ๊ฒ์ ํผํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ค.
๋ค๋ง, LReLU๊ฐ ReLU์ ๋นํด ์ ํ๋์ ๋ฏธ์น๋ ์ํฅ์ด ๋ฏธ๋ฏธํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.[Rectifier nonlinearities improve neural network acoustic models. In ICML, 2013.]
[PReLU]
- LReLU์ ๋ฌ๋ฆฌ, ์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ๋ PReLU์ ๊ฒฝ์ฐ, ๋งค์ฐ ์์ extra parameter๋ฅผ ์ฌ์ฉํ๋ค.
- ์ด๋, extra parameter์ = channel์ ์ ์ฒด ์์ด๊ธฐ์ ์ด ๊ฐ์ค์น ์๋ฅผ ๊ณ ๋ คํ๋ฉด ๋ฌด์ํ ๋งํ๋ค.
[channel-shared variant]
- ์์ activation function๊ณต์์์ ๊ณ์๋ ํ์ธต์ ๋ชจ๋ channel๊ณผ ๊ณต์ ๋๋ค.
- ์ด๋ฐ ๋ณํ์ ๊ฐ ์ธต์ ํ๋์ extra parameter๋ง ๋์ ํ๋ค.
• Optimization
- PReLU๋ ์ญ์ ํ๋ก ํ๋ จ๋๊ณ , ๋ค๋ฅธ ์ธต๊ณผ ๋๋ฑํ๊ฒ ์ต์ ํ๋๋ค.
- {ai} ๊ณต์์ update์ chain-rule์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ฉฐ ํ๋์ ์ธต์ ํด๋นํ๋ ai์ ๊ธฐ์ธ๊ธฐ ๊ณต์์ ์๋์ ๊ฐ๋ค.- ฦ์ ๋ชฉ์ ํจ์(objective function)์ ์๋ฏธํ๋ฉฐํ๋ค.
- ์์ ์์ ์ฌ์ธต์ผ๋ก๋ถํฐ์ ๊ธฐ์ธ๊ธฐ์ ํ (gradient propagate)๋ฅผ ๋ํ๋ด๋๋ฐ, ํ์ฑํํจ์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ์๋ฏธ ์์ด๋ค.
• Comparision Experiments
- ์ฐ๋ฆฌ๋ 14๊ฐ์ ๊ฐ์ค์น ๋ ์ด์ด๋ฅผ ์ฌ์ฉํ์ฌ ๊น์ง๋ง ํจ์จ์ ์ธ ๋ชจ๋ธ์ ๋ํด ๋น๊ต๋ฅผ ์ํํ๋ค.(ํ 1)
์ด ๋ชจ๋ธ์ด ์คํ์ ์คํ ๊ฐ๋ฅํ๊ฒ ํ ๋ฟ๋ง ์๋๋ผ ๋งค์ฐ ์ฌ์ธต์ ์ธ ๋ชจ๋ธ์ ๋ฒ์ฃผ๋ฅผ ๋ํ๋ด๊ธฐ์ ์ถฉ๋ถํ๊ธฐ์ ์ ํํ๋ค.
- ๊ธฐ๋ณธ์ ์ผ๋ก, ์ปจ๋ณผ๋ฃจ์ (convolutional) ๊ณ์ธต๊ณผ ์ฒ์ ๋ ๊ฐ์ FC.layer์ ์ ์ฉ๋ ReLU๋ก ์ด ๋ชจ๋ธ์ ํ๋ จ์ํจ๋ค.
10-view testing์ ์ฌ์ฉํด ImageNet 2012์์ top-1 and top-5 error๋ 33.82% ๋ฐ 13.34%์ด๋ค(ํ 2).
- ๊ทธํ ๋ชจ๋ ReLU๋ฅผ PReLU๋ก ๋์ฒดํ์ฌ ๋์ผํ ์ํคํ ์ฒ๋ฅผ ์ฒ์๋ถํฐ trainingํ๋ค(ํ 2).
top-1 error๋ 32.64%๋ก ๊ฐ์ํ๋ฉฐ ์ด๋ ๊ธฐ์กด์ ReLU์ ๋นํด 1.2% ์ฆ๊ฐํ ๊ฒ์ด๋ค.
ํ 2๋ channel-wise / channel-shared PReLU๊ฐ ์๋ก ๋น์ทํ ์ฑ๋ฅ์ ๋ฐํํจ์ ๋ณด์ฌ์ค๋ค.
channel-shared PReLU์ ๊ฒฝ์ฐ ReLU์ ๋น๊ตํ์ฌ 13๊ฐ์ ์ถ๊ฐ์ ์ธ extra parameter๋ง ๋์ ํ๋ค.
๊ทธ๋ฌ๋ ์ด ์์ ์์ extra-parameter๋ ๊ธฐ์กด์ ๋นํด 1.1%๋งํผ ๋ฐ์ด๋์์ ์ ์ฆ๋๋ ์ค์ํ ์ญํ ์ ํ๋ค.
์ด๋ ํ์ฑํ ํจ์์ ๊ผด์ ์ ์๋ ฅ์๊ฒ ํ์ตํ๋ ๊ฒ์ ์ค์์ฑ์ ์๋ฏธํ๋ค.
- ํ 1์ ๋ํ ๊ฐ ๊ณ์ธต์ ๋ํ PReLU์ ํ์ต๋ ๊ณ์๋ฅผ ๋ณด์ฌ์ค๋ค.
ํ 1์๋ ๋ ๊ฐ์ง ํฅ๋ฏธ๋ก์ด ํ์์ด ์๋ค.
โ ์ฒซ์งธ, conv1์ ๊ณ์๋ 0๋ณด๋ค ์๊ฐ๋ณด๋ค ํฐ (0.681 ๋ฐ 0.596)๊ฐ์ ๊ฐ๋๋ค.
- conv1์ filter๋ edge ๋ฐ texture detector ๊ฐ์ Gabor ์ ์ฌ ํํฐ๊ฐ ๋๋ถ๋ถ์ด๋ค
- ์ฆ, ํ์ต๋ ๊ฒฐ๊ณผ๋ filter์ positive / negative response๊ฐ ๋ชจ๋ ๋ฐ์๋จ์ ๋ณด์ฌ์ค๋ค.
- ์ ํ๋ ์์ filter(์: 64)๋ฅผ ๊ณ ๋ คํ ๋, ์ด๋ ์ ์์ค์ ์ ๋ณด๋ฅผ ํ์ฉํ๋ ๋ ๊ฒฝ์ ์ ์ธ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ์๊ฐํ๋ค.
โก ๋์งธ, channel-wise์ ๊ฒฝ์ฐ, ์ผ๋ฐ์ ์ผ๋ก deeper conv.layer๋ ๋ ์์ ๊ณ์๋ฅผ ๊ฐ๋๋ค.
- ์ด๋ activation์ด ์ ์ ๋ ๊น์ ๊ณณ์์ ์ ์ง์ ์ผ๋ก "๋ ๋น์ ํ์ "์ด ๋๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
- ์ฆ, ํ์ต๋ ๋ชจ๋ธ์ ์ด๊ธฐ ๋จ๊ณ์์ ๋ ๋ง์ ์ ๋ณด๋ฅผ ์ ์งํ๋ ๊ฒฝํฅ์ด ์๊ณ ๋ ๊น์ ๋จ๊ณ์์ ๋ ์ฐจ๋ณํ๋๋ค.
2.2. Initialization of Filter Weights for Rectifiers. (deep rectifier net)
• Foward Propagation Case
• Back Propagation Case
• Discussions
• Comparision with "Xavier" Initialization
2.3. Architectures
์์ ์กฐ์ฌ๋ ๋ค์์ Architecture์ ๋ํ ์ค๊ณ์ง์นจ์ ์ ๊ณตํ๋ค.
- ์ฐ๋ฆฌ์ baseline์ (ํ 3)์ 19์ธต ๋ชจ๋ธ(A)์ด๋ค. ๋ ๋์ ๋น๊ต๋ฅผ ์ํด, ๋ํ VGG-19์ ๋์ดํ๋ค.
์ฐ๋ฆฌ์ ๋ชจ๋ธ A๋ VGG-19์์ ๋ค์๊ณผ ๊ฐ์ด ์์ ๋๋ค.
i) ์ฒซ ๋ฒ์งธ ์ธต์์ filter size = 7×7์ strides = 2๋ฅผ ์ฌ์ฉ.
ii) ๊ฐ์ฅ ํฐ 2๊ฐ์ ํน์ง๋งต(224, 112)์ ๋ค๋ฅธ 3๊ฐ์ conv.layer๋ฅผ ๋ ์์ ํน์ง๋งต(56, 28, 14)์ผ๋ก ์ด๋
์ด๋, ์๊ฐ ๋ณต์ก๋(ํ 3, ๋ง์ง๋ง ํ)๋ ๋ ๊น์์ธต์ด ๋ ๋ง์ filter๋ฅผ ๊ฐ๊ธฐ์ ๊ฑฐ์ ๋ณํ์ง ์๋๋ค.
iii) ์ฒซ FC.layer ์ด์ ์ ๊ณต๊ฐ ํผ๋ผ๋ฏธ๋ ํ๋ง, (SPP)์ ์ฌ์ฉํ๋ค.
์ด๋, ํผ๋ผ๋ฏธ๋๋ ์ด 63๊ฐ์ bins์ ๋ํด bin์ ์๊ฐ 7×7, 3×3, 2×2, 1×1์ธ 4๊ฐ์ level์ ๊ฐ๋๋ค.
- ์ฐ๋ฆฌ์ ๋ชจ๋ธ A๊ฐ VGG์ ๋ณด๊ณ ํ VGG-19์ ๊ฒฐ๊ณผ๋ณด๋ค ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
๋ค๋ง, ์ฐ๋ฆฌ์ ๋ชจ๋ธ A๊ฐ VGG-19๋ณด๋ค ๋ ๋์ ์ํคํ ์ฒ๋ผ๋ ์ฆ๊ฑฐ๋ ์๋ค๋ ๊ฒ์ ์ฃผ๋ชฉํ ํ์๊ฐ ์๋ค.
๋ ์ ์ ๊ท๋ชจ์ ํ๋๋ฅผ ์ฌ์ฉํ ์ด์ ์คํ์์, ์ฐ๋ฆฌ๋ ๋ชจ๋ธ A์ (SPP ๋ฐ ์ด๊ธฐํ์) ์ฌํ๋ VGG-19๊ฐ ๋น๊ต ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๊ด์ฐฐํ๋ค.
A ๋ชจ๋ธ์ ์ฌ์ฉํ๋ ์ฃผ๋ ๋ชฉ์ ์ ๋ ๋น ๋ฅธ ์คํ์๋๋ฅผ ์ํ ๊ฒ์ด๋ค.
์๊ฐ ๋ณต์ก๋๊ฐ ๋์ผํ ๋, ํฐ ํน์ง๋งต์ conv.layer์ ์ค์ ์คํ ์๊ฐ์ ์์ ํน์ง๋งต์ conv.layer๋ณด๋ค ๋๋ฆฌ๋ค.
4 GPU์ ๊ตฌํ์์ ๋ชจ๋ธ A๋ mini-batch๋น 2.6์ด(128),
์ฌํ๋ VGG-19๋ 4๊ฐ์ Nvidia K20 GPU์์ 3.0์ด ๊ฑธ๋ ธ๋ค.
- ํ 3์์, ๋ชจ๋ธ B๋ A์ ๋ ๊น์ ๋ฒ์ ์ผ๋ก ์ธ ๊ฐ์ extra conv.layer๋ฅผ ๊ฐ๋๋ค.
์ฐ๋ฆฌ์ ๋ชจ๋ธ C๋ B์ ๋ ๋์ ๋ฒ์ (filter๊ฐ ๋ ๋ง์)์ผ๋ก width๋ ๋ณต์ก์ฑ์ ์๋นํ ์ฆ๊ฐ์ํจ๋ค.
์ด๋, ์๊ฐ ๋ณต์ก๋๋ B์ ์ฝ 2.3๋ฐฐ์ด๋ค(ํ 3, ๋ง์ง๋ง ํ).
4๊ฐ์ K20 GPU์์ A/B๋ฅผ ๊ต์กํ๊ฑฐ๋ 8๊ฐ์ K40 GPU์์ C๋ฅผ ๊ต์กํ๋ ๋ฐ ์ฝ 3-4์ฃผ๊ฐ ๊ฑธ๋ฆฐ๋ค.
- ๊น์ด๊ฐ ๋ ๊น์ด์ง ๋ชจ๋ธ์ ์ ํ๋๊ฐ ๊ฐ์ํ๊ฑฐ๋ ์ฌ์ง์ด ์ ํ(degradation)๋๊ธฐ ๋๋ฌธ์ ๊น์ด ๋์ ๋ชจ๋ธ์ ํญ(width)์ ๋๋ฆฐ๋ค.
์๊ท๋ชจ ๋ชจ๋ธ์ ๋ํ ์ต๊ทผ ์คํ์์, ๊น์ด๋ฅผ ๊ณต๊ฒฉ์ ์ผ๋ก ์ฆ๊ฐ์ํค๋ฉด ํฌํ๋๊ฑฐ๋ ์ ํ๋๊ฐ ์ ํ๋๋ค๋ ๊ฒ์ด ๋ฐํ์ก๋ค.
VGG ๋ ผ๋ฌธ์์, 16, 19์ธต ๋ชจ๋ธ์ ๋น๊ต์ ์ฑ๋ฅ์ด ์ข์ง๋ง
[M.D.Zeiler, M.Ranzato, R.Monga et. al]์ ์์ฑ ์ธ์ ์ฐ๊ตฌ์์, ๋ฅ ๋ชจ๋ธ์ 8๊ฐ ์ด์์ ์จ๊ฒจ์ง ๋ ์ด์ด(๋ชจ๋ fc)๋ฅผ ์ฌ์ฉํ ๋ ์ฑ๋ฅ์ด ์ ํ๋์๋๋ฐ, ์ฐ๋ฆฌ๋ ImageNet์ ๋ ํฐ ๋ชจ๋ธ์์๋ ์ ์ฌํ ์ ํ๊ฐ ๋ฐ์ํ ์ ์๋ค๊ณ ์ถ์ธกํ๋ค.
์ผ๋ถ์ ๊ทน๋๋ก ์ฌ์ธต์ ์ธ ๋ชจ๋ธ์ training์์(ํ 3์ B์ 3~9๊ฐ์ ๋ ์ด์ด๊ฐ ์ถ๊ฐ๋จ) training ๋ฐ test error rate๊ฐ ์ฒ์ 20epoch์์ ๋ชจ๋ ์ ํ๋์์์ ๋ฐ๊ฒฌํ๋ค
(๋ค๋ง, ์ ํ๋ ์๊ฐ์ผ๋ก ๋๊น์ง ์คํ๋์ง ์์๊ธฐ์ ์ด๋ฐ ํฌ๊ณ ์ง๋์น๊ฒ ์ฌ์ธต์ ์ธ ๋ชจ๋ธ์ด ๊ถ๊ทน์ ์ผ๋ก ์ ํ๋ ๊ฒ์ด๋ผ๋ ํ์คํ ์ฆ๊ฑฐ๋ ์์ง์ ์๋ค).
์ด๋ฐ ์ฑ๋ฅ ์ ํ์ ๊ฐ๋ฅ์ฑ์ผ๋ก ๋ํ ๋ชจ๋ธ์ ๊น์ด๋ฅผ ๋ ์ด์ ์ฆ๊ฐ์ํค์ง ์๊ธฐ๋ก ์ ํํ๋ค.
- ๋ฐ๋ฉด, ์๊ท๋ชจ dataset์ ๋ํ ์ต๊ทผ์ ์ฐ๊ตฌ๋ conv.layer์ parameter์๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ ์ ํ๋๊ฐ ํฅ์๋์ด์ผ ํ๋ค๊ณ ์ ์ํ๋๋ฐ, ์ด ์ซ์๋ ๊น์ด์ ๋๋น์ ๋ฐ๋ผ ๋ฌ๋ผ์ง๋ค.
๊ทธ๋์ ์ฐ๋ฆฌ๋ ๋ ๋์ ์ฉ๋์ ๋ชจ๋ธ์ ์ป๊ธฐ ์ํด conv.layer์ width๋ฅผ ๋๋ ธ๋ค.
- ํ 3์ ๋ชจ๋ ๋ชจ๋ธ์ ๋งค์ฐ ํฌ์ง๋ง, ์ฌ๊ฐํ overfitting์ ๊ด์ฐฐ๋์ง ์์๋๋ฐ, ์๋์์ ๋งํ ๊ฒ ์ฒ๋ผ ์ ์ฒด training์ ๊ฑธ์ณ ์ฌ์ฉ๋๋ ๊ณต๊ฒฉ์ ์ธ data augmentation ๋๋ถ์ด๋ผ ์๊ฐํ๋ค..
3. Implementation Details
• Training
- ์ฐ๋ฆฌ์ ํ๋ จ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ถ๋ถ [AlexNet, VGGNet ๋ฑ]์ ๋ฐ๋ฅธ๋ค.
resize๋ image(shorter side is s, ํฝ์ ๋น ํ๊ท ์ ์ฐจ๊ฐ ์งํ๋ 224x224 crop์ด ๋ฌด์์๋ก ์ํ๋ง๋จ)
scale์ VGG์ ๋์ค๋ [256, 512] ๋ฒ์์์ ๋ฌด์์๋ก jittering ๋๋ค.
ํ๋ณธ์ ์ ๋ฐ์ด ๋ฌด์์๋ก horizontal flip์ด ์งํ๋๊ณ ์์๋ ๋ณ๊ฒฝ๋๋ค.
- ๋ฏธ์ธ ์กฐ์ (fine-tuning) ์ค์๋ง scale jittering์ ์ ์ฉํ๋ VGG์ ๋ฌ๋ฆฌ training์ ์์๋ถํฐ ์ ์ฉํ๋ค.
๋ํ, ์์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ ๊น์ ๋ชจ๋ธ์ ์ด๊ธฐํํ๋ VGG์ ๋ฌ๋ฆฌ,
2.2์ ์ ์ค๋ช ๋ ์ด๊ธฐํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ฌ ๋งค์ฐ ๊น์ ๋ชจ๋ธ์ ์ง์ ํ๋ จํ๋ค(Eqn.(14) ๋ฐฉ์ ์์ ์ฌ์ฉ).
training์ ์์๋ถํฐ ๋๊น์ง poor local optima๋ฅผ ํผํ ์ ์์ด์ ์ ํ๋๋ฅผ ํฅ์์ํค๋ ๋ฐ ๋์์ด ๋ ์ ์์๋ค.
[์ค์ํ ๋๋จธ์ง hyper parameter ์ค์ ]
weight decay = 5e-4 (= 0.0005)
momentum = 0.9์ด๋ค.
Dropout(0.5)๋ ์ฒ์ ๋ ๊ฐ์ FC.layer์์๋ง ์ฌ์ฉ.
mini-batch size = 128๋ก ๊ณ ์ .
learning rate = 1e-2, 1e-3 ๋ฐ 1e-4์ผ๋ก ์ค๋ฅ๊ฐ ๋ฐ์ํ ๋ ์ ํ.
๋ชจ๋ธ ๋ณ ์ด epoch์๋ ์ฝ 80.
• Testing
- ์ฐ๋ฆฌ๋ SPP-net ๋ ผ๋ฌธ์์ ์ฌ์ฉ๋ "ํน์ง๋งต์ ๋ํ multi-view test" ์ ๋ต์ ์ฌ์ฉํ๋ค.
VGG์ฒ๋ผ ๊ณ ๋ฐ๋์ sliding window ๋ฐฉ์์ ์ฌ์ฉํด ์ด ์ ๋ต์ ์ถ๊ฐ๋ก ๊ฐ์ ํ๋ค.
โ ๋จผ์ resize๋ ์ ์ฒด image์ conv.layer๋ฅผ ์ ์ฉ, ์ต์ข conv.ํน์ง๋งต์ ์ป๋๋ค.
- ํน์ง๋งต์์ ๊ฐ 14x14 window๋ SPP-layer๋ฅผ ์ฌ์ฉํด Poolingํ๋ค.
โก ๊ทธ ํ, FC.layer๊ฐ Pooling๋ ํน์ง์ ์ ์ฉ๋์ด score๋ฅผ ๊ณ์ฐํ๋ค.
- ์ด๋ horizontal flip image์์๋ ์ํ๋๋ค.
- ๋ชจ๋ ๊ณ ๋ฐ๋์ sliding window score๋ ํ๊ท ํ๋๋ฉฐ ๊ทธ ํ ์ฌ๋ฌ scale๋ก ๊ฒฐ๊ณผ๋ฅผ ์ถ๊ฐ๋ก ๊ฒฐํฉํ๋ค.
• Multi-GPU Implementation
- ์ฐ๋ฆฌ๋ ์ฌ๋ฌ GPU์ ๋ํ ๋ณ๋ ฌ ํ๋ จ์ ์ํด AlexNet๋ฐฉ์์ ๊ฐ๋จํ ๋ณํ์ ์ฑํํ๋ค.
conv.layer์ "๋ฐ์ดํฐ ๋ณ๋ ฌํ (data parallelism)"๋ฅผ ์ฑํํ๋ค.
GPU๋ค์ ์ 1 FC์ธต ์ด์ ์ ๋๊ธฐํ๋๋๋ฉฐ, FC์ธต์ ์์ ํ, ์ญ์ ํ๊ฐ ๋จ์ผ GPU์์ ์ํ๋ฉ๋๋ค.
์ฆ, FC์ธต์ ๊ณ์ฐ์ ๋ณ๋ ฌํํ์ง ์์ต๋๋ค. (FC์ธต์ ์๊ฐ์ ๋น์ฉ์ด ๋ฎ๊ธฐ์ ๋ณ๋ ฌํ๊ฐ ํ์๊ฐ ์๋ค.)
์ด๋ AlexNet์ "๋ชจ๋ธ ๋ณ๋ ฌํ"๋ณด๋ค ๋ ๊ฐ๋จํ ๊ตฌํ์ผ๋ก ์ด์ด์ง๋ค.
๊ฒ๋ค๊ฐ, ๋ชจ๋ธ ๋ณ๋ ฌํ๋ ํํฐ ์๋ต์ ํต์ ์ผ๋ก ์ธํด ์ผ๋ถ ์ค๋ฒํค๋๋ฅผ ์ด๋ํ๋ฉฐ, ๋จ์ผ GPU์์ FC์ธต์ ๊ณ์ฐํ๋ ๊ฒ๋ณด๋ค ๋น ๋ฅด์ง ์๋ค.
- ์ฐ๋ฆฌ๋ ์นดํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ์์ ์ ๋ํด ์์ ์๊ณ ๋ฆฌ์ฆ์ ๊ตฌํํ๋ฉฐ ์ ํ๋๊ฐ ๋จ์ด์ง ์ ์๊ธฐ์ mini-batch size(128)๋ฅผ ๋๋ฆฌ์ง ์๋๋ค.
๋ณธ ๋ ผ๋ฌธ์์๋ ๋ํ ๋ชจ๋ธ์ ๊ฒฝ์ฐ, 4๊ฐ์ GPU๋ฅผ ์ฌ์ฉํ์ฌ 3.8๋ฐฐ์ ์๋ ํฅ์๊ณผ 8๊ฐ์ GPU๋ฅผ ์ฌ์ฉํ์ฌ 6.0๋ฐฐ์ ์๋ ํฅ์์ ๊ด์ฐฐํ๋ค.
4.Experiments on ImageNet
• Comparision between ReLU. &. PReLU
- ํ 4๋ ๋ํ ๋ชจ๋ธ A์์ ReLU์ PReLU๋ฅผ ๋น๊ตํ๋ค. ์ด๋, channel-wise๋ฒ์ ์ PReLU๋ฅผ ์ฌ์ฉํ๋ค.
๊ณต์ ํ ๋น๊ต๋ฅผ ์ํด ReLU/PReLU ๋ชจ๋ธ์ ๋์ผํ ์ด epoch ์๋ฅผ ์ฌ์ฉํด training๋๋ฉฐ learning rate๋ ๋์ผํ epoch์๋ฅผ ์คํํ ํ ์ ํ๋๋ค.
- ํ 4๋ ์ธ ๊ฐ์ง scale์ multi-scale๊ฐ์ ์กฐํฉ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
jittering range[256, 512]์ ์์ ์ ์๊ธฐ ๋๋ฌธ์ ์ต๊ณ ์ single scale์ 384์ด๋ค.
multi-scale ์กฐํฉ์ ๊ฒฝ์ฐ, PReLU๋ ReLU์ ๋นํด top-1 ์ค๋ฅ๋ฅผ 1.05%, top-5 ์ค๋ฅ๋ฅผ 0.23% ๊ฐ์์ํจ๋ค.
์ด๋ ํ 2์ ํ 4์ ๊ฒฐ๊ณผ๋ ์ผ๊ด๋๊ฒ PReLU๊ฐ ์ํ ๋ฐ ๋ํ ๋ชจ๋ธ์ ๋ชจ๋ ํฅ์์ํด์ ๋ณด์ฌ์ค๋ค.
์ด๋, ์ด๋ฌํ ํฅ์์ ๊ณ์ฐ ๋น์ฉ์ด ๊ฑฐ์ ์์ด ์ป์ด์ง๋ค.
• Comparision of Single-model Results
- ๋ค์์ผ๋ก ๋จ์ผ ๋ชจ๋ธ ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ๋ค.
๋จผ์ ํ 5์์ 10-view test result๋ฅผ ๋ณด์ฌ์ฃผ๋๋ฐ, ์ฌ๊ธฐ์ ๊ฐ view๋ 224-crop์ด๋ค.
VGG-16์ 10-view result๋ test๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ต๊ณ ์ ๊ฒฐ๊ณผ๋ 7.38%์ด๋ค(ํ 5).
- ํ 6์ multi-scale and multi-view๋ dense test๋ฅผ ์ฌ์ฉํด ์ป์ Single-model ๊ฒฐ๊ณผ์ ๋น๊ต๋ฅผ ๋ณด์ฌ์ค๋ค.
๊ฒฐ๊ณผ๋ MSRA๋ก ํ์๋๋ฉฐ ๊ธฐ๋ณธ ๋ชจ๋ธ(A+ReLU, 6.51%)์ VGG-19์ ๋ํด ๋ณด๊ณ ๋ ์ต๊ณ ์ ๊ธฐ์กด ๋จ์ผ ๋ชจ๋ธ ๊ฒฐ๊ณผ์ธ 7.1%๋ณด๋ค ์ด๋ฏธ ์๋นํ ์ข์ผ๋ฉฐ ์ด๋ฌํ ์ด๋์ด ์ฃผ๋ก ์์ ๋ชจ๋ธ์ ์ฌ์ ํ๋ จํ ํ์๊ฐ ์๋ ์ข ๋จ ๊ฐ ํ๋ จ ๋๋ฌธ์ด๋ผ๊ณ ์๊ฐํ๋ค.
- ๋ํ, ์ฐ๋ฆฌ์ ์ต๊ณ ๋จ์ผ ๋ชจ๋ธ(C, PReLU)์ 5.71%์ top-5 error๋ฅผ ๊ฐ๋๋ฐ, ์ด ๊ฒฐ๊ณผ๋ ์ด์ ์ ๋ชจ๋ ๋ค์ค ๋ชจ๋ธ ๊ฒฐ๊ณผ๋ณด๋ค ํจ์ฌ ๋ ์ฐ์ํ๋ค(ํ 7).
A+PReLU์ B+PReLU๋ฅผ ๋น๊ตํ๋ฉด, ์ฐ๋ฆฌ๋ 19์ธต ๋ชจ๋ธ๊ณผ 22์ธต ๋ชจ๋ธ์ด ๋น๊ต์ ์ฑ๋ฅ์ด ์ข๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
๋ฐ๋ฉด์ ํญ์ ๋๋ฆฌ๋ฉด(C vs. B, ํ 6) ์ ํ๋๊ฐ ํฅ์๋ ์ ์๋๋ฐ, ์ด๋ ๋ชจ๋ธ์ด ์ถฉ๋ถํ ๊น์ผ๋ฉด ํญ์ด ์ ํ๋์ ํ์ ์์๊ฐ ๋๋ค๋ ๊ฒ์ ์์ฌํ๋ค.
• Comparision of Multi-model Results
- ์ฐ๋ฆฌ๋ ํ 6์ ๋ชจ๋ธ์ ํฌํจํ์ฌ 6๊ฐ์ ๋ชจ๋ธ์ ๊ฒฐํฉํ๋ค.
๋น๋ถ๊ฐ ์ฐ๋ฆฌ๋ Architecture C๋ง์ผ๋ก ๋ชจ๋ธ์ ํ๋ จํ์ผ๋ฉฐ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ C๋ณด๋ค ์๋นํ ๊ฒฉ์ฐจ์ ๋ฎ์ ์ ํ๋๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
์ฐ๋ฆฌ๋ ๋ ์ ์ ์์ ๊ฐ๋ ฅํ ๋ชจ๋ธ์ ์ฌ์ฉํจ์ผ๋ก์จ ๋ ๋์ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์๋ค๊ณ ์ถ์ธกํ๋ค.
- ๋ค์ค ๋ชจ๋ธ ๊ฒฐ๊ณผ๋ ํ 7์ ๋์ ์๋๋ฐ, ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ testset์์ 4.94%์ top-5 error๋ฅผ ๊ฐ๋๋ค.
testset์ label์ด ๊ฒ์๋์ง ์์์ ILSVRC ์๋ฒ์ ์ํด ํ๊ฐ๋๋ค.
์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ ~26%์ ์๋์ ๊ฐ์ ์ ๋ํ๋ด๋ ILSVRC 2014 ์ฐ์น์(GoogLeNet, 6.66%)๋ณด๋ค 1.7% ๋ ์ข๋ค.
์ด๋ ๋ํ ์ต๊ทผ ๊ฒฐ๊ณผ์ ๋นํด ์๋์ ์ผ๋ก ์ต๋ 17%์ ๊ฐ์ ๋์๋ค(Baidu, 5.98%).
• Analysis of Results
- ๊ทธ๋ฆผ 4๋ ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ผ๋ก ์ฑ๊ณต์ ์ผ๋ก ๋ถ๋ฅ๋ ๋ช ๊ฐ์ง validation image์ ์๋ฅผ ๋ณด์ฌ์ค๋ค.
์ ํํ๊ฒ ์์ธก๋ label ์ธ์๋ top-5 ๊ฒฐ๊ณผ์ ๋ค๋ฅธ ๋ค ๊ฐ์ง ์์ธก์๋ ์ฃผ์๋ฅผ ๊ธฐ์ธ์ธ๋ค.
์ด ๋ค ๊ฐ์ label ์ค ์ผ๋ถ๋ ๋ค๋ฅธ object์ multi-object image์ด๋ค.
์๋ฅผ ๋ค์ด, "๋ง-์นดํธ" ์ด๋ฏธ์ง(๊ทธ๋ฆผ 4, ํ 1, ์ฝ 1)๋ "mini-bus"๋ฅผ ํฌํจํ๊ณ ์๊ณ ๋ฆฌ์ฆ์ ์ํด ์ธ์๋๋ค.
์ด ๋ค ๊ฐ์ง label ์ค ์ผ๋ถ๋ ์ ์ฌํ class ์ฌ์ด์ ๋ถํ์ค์ฑ ๋๋ฌธ์ด๋ค.
์๋ฅผ ๋ค์ด, "coucal" ์ด๋ฏธ์ง(๊ทธ๋ฆผ 4, ํ 2, ์ฝ 1)๋ ๋ค๋ฅธ ์กฐ๋ฅ ์ข ์ ๋ผ๋ฒจ์ ์์ธกํ๋ค.
- ๊ทธ๋ฆผ 6์ testset์ ๊ฒฐ๊ณผ(ํ๊ท 4.94%)์ ํด๋์ค๋น top-5 error๋ฅผ ์ค๋ฆ์ฐจ์์ผ๋ก ํ์ํ๋ค.
์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ 113๊ฐ ํด๋์ค์์ top-5 error๊ฐ 0๊ฐ๋ก ์ด ํด๋์ค์ ์ด๋ฏธ์ง๋ ๋ชจ๋ ์ฌ๋ฐ๋ฅด๊ฒ ๋ถ๋ฅ๋๋ค.
top-5 error ๊ฐ์ฅ ๋์ 3๊ฐ ๊ณ์ธต์ 'letter opener'(49%), 'spotlight'(38%), 'restaurant'(36%)์ด๋ค.
์ด ์ค๋ฅ๋ multiple/small object๋ large class๋ด์ ๋ถ์ฐ(variance)์ผ๋ก ์ธํด ๋ฐ์ํ๋ค.
๊ทธ๋ฆผ 5๋ ์ด ์ธ ํด๋์ค์์ ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ ์ํด ์๋ชป ๋ถ๋ฅ๋ ์ผ๋ถ ์์ ์ด๋ฏธ์ง๋ฅผ ๋ณด์ฌ์ค๋ค.
๋จ, ์์ธก๋ ๋ ์ด๋ธ ์ค ์ผ๋ถ๋ ์ฌ์ ํ ์๋ฏธ๊ฐ ์๋ค.
- ๊ทธ๋ฆผ 7์์, ์ฐ๋ฆฌ๋ ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ(ํ๊ท 4.94%)์ ILSVRC 2014(ํ๊ท 8.06%)์์ ์ฐ๋ฆฌ์ ๊ฒฝ์ ๊ฒฐ๊ณผ(ํ๊ท 8.06%) ์ฌ์ด์ top-5 error rate์ class ๋น ์ฐจ์ด๋ฅผ ๋ณด์ฌ์ค๋ค. error rate์ 824๊ฐ ํด๋์ค์์ ๊ฐ์ํ๊ณ 127๊ฐ ํด๋์ค์์ ๋ณ๊ฒฝ๋์ง ์์ผ๋ฉฐ 49๊ฐ ํด๋์ค์์ ์ฆ๊ฐํ๋ค.
• Comparision with Human Performance from [https://arxiv.org/abs/1409.0575]
- Russakovsky์ ์ฐ๊ตฌ๋ ์ธ๊ฐ์ ์ฑ๋ฅ์ด ImageNet์์ 5.1%์ top-5 error๋ฅผ ๋ฌ์ฑํ๋คํ๋ค.
์ด๋ ๊ด๋ จ ํด๋์ค์ ์กด์ฌ๋ฅผ ๋ ์ ์๊ธฐ ์ํด validation image์ ๋ํด ์ ์๊ณ ์๋ ์ธ๊ฐ์ ์ํด ๋ฌ์ฑ๋๋ค.
test image์ ์ฃผ์์ ๋ฌ ๋ ์ธ๊ฐ์๊ฒ ํน๋ณํ ์ธํฐํ์ด์ค๊ฐ ์ ๊ณต๋๋ฉฐ, ๊ฐ ํด๋์ค ์ ๋ชฉ์๋ 13๊ฐ์ extra train image row๊ฐ ํจ๊ป ์ ๊ณต๋๋ค.
- ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ(4.94%)๋ ๋ณด๊ณ ๋ ์ธ๊ฐ ์์ค์ ์ฑ๊ณผ๋ฅผ ์ด๊ณผํ๋ค.
์ฐ๋ฆฌ๊ฐ ์๋ ํ, ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๋ ์ด ์๊ฐ์ ์ธ์ ๊ณผ์ ์์ ์ธ๊ฐ์ ๋ฅ๊ฐํ๋ ์ต์ด์ ๋ฐํ๋ ์ฌ๋ก์ด๋ค.
fine-grained recognition ๋ฐ class uwareness์ ์ธ๊ฐ์ ์ค๋ฅ์ 2๊ฐ์ง ์ฃผ์ ์ ํ์ด๋ค.
Russakovsky์ ์ฐ๊ตฌ์ ๋ฐ๋ฅด๋ฉด, ์๊ณ ๋ฆฌ์ฆ์ fine-grained recognition(์: ๋ฐ์ดํฐ ์ธํธ์์ 120์ข ์ ๊ฐ)์์ ๋ ๋์ ์์ ์ ์ํํ ์ ์๋ค.
๊ทธ๋ฆผ 4์ ๋ ๋ฒ์งธ ํ์ "coucal", "komondor" ๋ฐ "yellow lady's slipper"์ ๊ฐ์ด ์ฐ๋ฆฌ์ ๋ฐฉ๋ฒ์ผ๋ก ์ฑ๊ณต์ ์ผ๋ก ์ธ์๋ ๋ช ๊ฐ์ง ์ธ๋ฐํ(fine-grained) ๋ฌผ์ฒด์ ์๋ฅผ ๋ณด์ฌ์ค๋ค.
์ธ๊ฐ์ ์ด ๋ฌผ์ฒด๋ค์ ์, ๊ฐ, ๊ฝ์ผ๋ก ์ฝ๊ฒ ์ธ์ํ ์ ์์ง๋ง, ๋๋ถ๋ถ์ ์ธ๊ฐ์ด ๊ทธ๋ค์ ์ข ์ ๋งํ๋ ๊ฒ์ ์ฌ์ํ ์ผ์ด ์๋๋ค.
๋ถ์ ์ ์ธ ์ธก๋ฉด์์, ์ฐ๋ฆฌ์ ์๊ณ ๋ฆฌ์ฆ์ ํนํ ๋ฌธ๋งฅ ์ดํด ๋๋ ๋์ ์์ค์ ์ง์์ด ํ์ํ ๊ฒฝ์ฐ(์: ๊ทธ๋ฆผ 5์ "spotlight" ์ด๋ฏธ์ง)์ ์ฌ์ ํ ์ธ๊ฐ์๊ฒ๋ ์ด๋ ต์ง ์์ ๊ฒฝ์ฐ์๋ ์ค์๋ฅผ ํ๋ค.
- ์ฐ๋ฆฌ์ ์๊ณ ๋ฆฌ์ฆ์ ์ด ํน์ dataset์์ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ์ฐ์ถํ์ง๋ง, ์ด๊ฒ์ด ์ผ๋ฐ์ ์ผ๋ก ๋ฌผ์ฒด ์ธ์์์ ์ธ๊ฐ์ ๋น์ ์ ๋ฅ๊ฐํ๋ค๋ ๊ฒ์ ๋ํ๋ด์ง ์๋๋ค.
Pascal VOC ๊ณผ์ ๊ฐ์ ๊ธฐ๋ณธ์ ์ธ Object category(์ฆ, ์ผ์ ์ํ์์ ์ผ๋ฐ์ ์ธ ๊ฐ์ฒด ๋๋ ๊ฐ๋ )๋ฅผ ์ธ์ํ ๋, ๊ธฐ๊ณ๋ ์ฌ์ ํ ์ธ๊ฐ์๊ฒ ์ฌ์ํ ๊ฒฝ์ฐ์๋ ๋ช ๋ฐฑํ ์ค๋ฅ๋ฅผ ๊ฐ์ง๊ณ ์๋ค.
๊ทธ๋ผ์๋ ๋ถ๊ตฌํ๊ณ , ์ฐ๋ฆฌ๋ ์ฐ๋ฆฌ์ ๊ฒฐ๊ณผ๊ฐ ์๊ฐ์ ์ธ์์์ ์ธ๊ฐ ์์ค์ ์ฑ๋ฅ๊ณผ ์ผ์นํ๋ ๊ธฐ๊ณ ์๊ณ ๋ฆฌ๋ฌ์ ์์ฒญ๋ ์ ์ฌ๋ ฅ์ ๋ณด์ฌ์ค๋ค๊ณ ๋ฏฟ๋๋ค
๐ง ๋ ผ๋ฌธ ๊ฐ์_์ค์๊ฐ๋ ํต์ฌ ์์ฝ
"Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification"
Rectified Linear Unit, ์ผ๋ช ReLU์ ๋ํด ์ฌ์ธต์ ์ผ๋ก ํ๊ตฌํ ํ ReLU๋ฅผ ์๊ฐํ๋ ์ฐ๊ตฌ ๋ ผ๋ฌธ์ผ๋ก ์ด ๋ ผ๋ฌธ์ ReLU์ ๊ทธ ๋ณํ ํจ์๋ค ์ฆ, ๋นํฌํ ๋น์ ํ์ฑ(non-saturating non-linearity)์ ํจ์๋ค์ ์ฌ์ฉ์ ์ ์ํ๋ค.
[ํต์ฌ ๊ฐ๋ ]
1. ์ด ๋ ผ๋ฌธ์์๋ Sigmoid๋ tanh ๊ฐ์ ๋ค๋ฅธ ํฌํ ๋น์ ํ์ฑ(saturating non-linearity) ํ์ฑํ ํจ์์ ๋นํด ์ฌ์ธต ์ ๊ฒฝ๋ง ํ๋ จ์ ๊ฐ์ ํ๋ ๊ฒ์ผ๋ก ๋ฐํ์ง ReLU(Rectified Linear Unit) ํ์ฑํ ํจ์๋ฅผ ์๊ฐํ๋ค.
2. ์ด ๋ ผ๋ฌธ์ ReLU๋ฅผ ์ฌ์ฉํ๋ฉด ๋ค๋ฅธ ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ๋ ์ ๊ฒฝ๋ง์ ๋นํด ๊ต์ก ์ค์ ๋ ๋น ๋ฅธ ์๋ ด, ImageNet classification ์์ ์์ ๋ ๋์ ์ผ๋ฐํ(generalization) ์ฑ๋ฅ, ๋ ๋ฎ์ ์ค๋ฅ์จ๋ก ์ด์ด์ง ์ ์์์ ๋ณด์ฌ์ฃผ์๋ค
3. ๋๋กญ์์ ์ ๊ทํ ๋ฐ ๋ฐฐ์น ์ ๊ทํ๋ฅผ ํฌํจํ์ฌ ํ๋ จ ํ๋ก์ธ์ค์ ๋ํ ๋ช ๊ฐ์ง ์์ ์ฌํญ์ ์ ์ํ์ฌ ์ฌ์ธต ์ ๊ฒฝ๋ง์ ์ฑ๋ฅ์ ๋์ฑ ํฅ์์์ผฐ๋ค.
4. ReLU, Dropout ๋ฐ Batch Normalization์ ์กฐํฉ์ ์ฌ์ธต ์ ๊ฒฝ๋ง์ ๊ตฌ์ถํ๊ธฐ ์ํ ์ผ๋ฐ์ ์ธ ๋ฐฉ๋ฒ์ด ๋์์ผ๋ฉฐ ์ดํ ๋ง์ ์์ ์์ ์ฌ์ฉ๋์๋ค.
5. ์ด ๋ ผ๋ฌธ์ ๋ณด๋ค ๊ฐ๋ ฅํ๊ณ ํจ์จ์ ์ธ ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๊ตฌ์ถํ๊ธฐ ์ํ ๋ก๋๋งต์ ์ ๊ณตํ์ฌ ์ฌ์ธต ์ ๊ฒฝ๋ง ํ๋ จ์ ์ํ ํ์ฑํ ํจ์ ๋ฐ ๊ธฐํ ๊ธฐ์ ์ ์ค์์ฑ์ ๋ณด์ฌ์ฃผ์๋ค.
์ ๋ฐ์ ์ผ๋ก "Delving Deep into Rectifiers" ๋ ผ๋ฌธ์ ๋ฅ ๋ฌ๋์ ์ต์ ๊ธฐ์ ์ ๋ฐ์ ์ํค๋ ๋ฐ ์ค์ํ ์ญํ ์ ํ์ผ๋ฉฐ ์ด ๋ถ์ผ์ ์ง์์ ์ธ ์ํฅ์ ๋ฏธ์ณค๋ค.