๐Ÿ˜ถ ์ดˆ๋ก (Abstract)

- ์ตœ์ฒจ๋‹จ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด Rectified activation units (rectifiers)๋Š” ํ•„์ˆ˜์ ์ด๋‹ค.
2๊ฐ€์ง€ ๊ด€์ ์—์„œ image classification์— rectifier์‹ ๊ฒฝ๋ง์„ ๋„์ž…ํ•œ๋‹ค.

โ‘  Parametric Rectified Linear Unit (PReLU)
  - overfitting์˜ ์ ์€ ์œ„ํ—˜. &. ๊ฑฐ์˜ ๊ณ„์‚ฐ์ ๋น„์šฉ์ด 0์— ์ˆ˜๋ ด
  - Leaky ReLU์ฒ˜๋Ÿผ ์ž‘์€ ์Œ์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ๋„์ž…
  - ๋‹ค๋งŒ ์ฐจ์ด์ ์€ Leaky ReLU์ฒ˜๋Ÿผ ๊ณ ์ •๋œ ๊ธฐ์šธ๊ธฐ๊ฐ€ ์•„๋‹Œ, ๊ธฐ์šธ๊ธฐ์˜ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋‹ค.
  - ์ด๋Š” ์‹ ๊ฒฝ๋ง์ด ๊ฐ ๋‰ด๋Ÿฐ์— ๋Œ€ํ•ด ์ตœ์ ์˜ ์Œ์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธ

โ‘ก Rectifier non-linearity๋ฅผ ํŠนํžˆ๋‚˜ ๊ณ ๋ คํ•˜๋Š” ๊ฐ•๋ ฅํ•œ ์ดˆ๊ธฐํ™”๋ฐฉ๋ฒ•์˜ ๋„์ถœ
  - ์ด๋Ÿฐ ๋ฐฉ๋ฒ•๋“ค์„ ํ†ตํ•ด ๋” ๊นŠ๊ณ  ๋„“์€ ์‹ ๊ฒฝ๋ง๊ณผ ๋งค์šฐ ๊นŠ์€ rectified model์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค.

PReLU์— ๊ธฐ์ดˆํ•˜์—ฌ ๋งค์šฐ ๋†’์€ ๊ฒฐ๊ณผ๋“ค์„ ๋‹ฌ์„ฑํ•˜๋ฉฐ ์ธ๊ฐ„์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๊ณผ๋ฅผ ์–ป์—ˆ๋‹ค.

 

 

1. ์„œ๋ก  (Introduction)

 CNN์€ ๋‹ค์–‘ํ•œ ์‹œ๊ฐ์  ์ธ์‹์ž‘์—…์—์„œ ํšจ๊ณผ์ ์ž„์„ ์ฆ๋ช…ํ•˜์˜€๋‹ค.
์ธ์‹๋ถ„๋ฅ˜์— ๋Œ€ํ•ด ์„ฑ๋Šฅํ–ฅ์ƒ์˜ ์—„์ฒญ๋‚œ ์ฆ๊ฑฐ์— ๋Œ€ํ•ด ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ์— ๋Œ€ํ•œ ์ „๋žต์„ ์œ„ํ•ด, 2๊ฐ€์ง€ ๊ธฐ์ˆ ์  ๊ฐ€์ด๋“œ๋ผ์ธ์„ ์ œ์‹œํ•œ๋‹ค.

โ‘  ์ฆ๊ฐ€๋œ ๋ณต์žก์„ฑ, ํ™•๋Œ€๋œ width, ๋” ์ž‘์€ stride, ์ƒˆ๋กœ์šด non-linear activation, ์ •๊ตํ•œ ์ธต ์„ค๊ณ„๋กœ training data๋ฅผ fitํ•œ๋‹ค.
โ‘ก ๋ฐ˜๋Œ€๋กœ ํšจ๊ณผ์ ์ธ ์ •๊ทœํ™”(regularization), ๊ณต๊ฒฉ์ ์ธ ๋ฐ์ดํ„ฐ๊ฐ•ํ™” ๋ฐ ๋Œ€๊ทœ๋ชจ data๋กœ ๋” ๋‚˜์€ ์ผ๋ฐ˜ํ™”(generalization)์ด ๋‹ฌ์„ฑ๋œ๋‹ค.

- ์ด๋Ÿฐ ๋ฐœ์ „๊ณผ์ •์—์„œ, rectifier neuron, ์˜ˆ๋ฅผ ๋“ค์–ด ReLU๋Š” ์ตœ๊ทผ ์‹ฌ์ธต์‹ ๊ฒฝ๋ง ์„ฑ๊ณต์˜ ํ•ต์‹ฌ ์ค‘ ํ•˜๋‚˜์ด๋‹ค.
์ด๋Š” training์—์„œ ์ˆ˜๋ ด์„ ๊ฐ€์†ํ™”ํ•˜๊ณ  ๊ธฐ์กด์˜ "S์ž unit"๋ณด๋‹ค ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.

- ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ํŠนํžˆ ์ •๋ฅ˜๊ธฐ(rectifier)์— ์˜ํ•ด ๊ตฌ๋™๋˜๋Š” 2๊ฐ€์ง€ ์ธก๋ฉด์—์„œ ์‹ ๊ฒฝ๋ง์„ ์กฐ์‚ฌํ•œ๋‹ค.
โ‘  PReLU: ReLU์˜ ์ƒˆ๋กœ์šด generalization
  - ์ด ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋Š” ์ •๋ฅ˜๊ธฐ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ์ ์‘๋ ฅ์žˆ๊ฒŒ ํ•™์Šตํ•˜๊ณ  ๋ฌด์‹œํ•  ์ˆ˜๋„ ์žˆ๋Š” ์ถ”๊ฐ€์ ์ธ ๊ณ„์‚ฐ์œผ๋กœ ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚จ๋‹ค.

โ‘ก ๋งค์šฐ๊นŠ์€ rectified๋ชจ๋ธ ํ›ˆ๋ จ์˜ ์–ด๋ ค์›€

  - ์ •๋ฅ˜๊ธฐ์˜ ๋น„์„ ํ˜•์„ฑ(ReLU / PReLU)๋ฅผ ๋ช…์‹œ์ ์œผ๋กœ ๋ชจ๋ธ๋ง, ์ด๋ก ์  ์ดˆ๊ธฐํ™”๋ฐฉ๋ฒ•์„ ๋„์ถœ.
  - ์ฒ˜์Œ๋ถ€ํ„ฐ ์ง์ ‘ ํ›ˆ๋ จ๋œ ์‹ฌ์ธต์‹ ๊ฒฝ๋ง์˜ ์ˆ˜๋ ด์„ ๋„์™€ ๊ฐ•๋ ฅํ•œ ์‹ ๊ฒฝ๋ง๊ตฌ์กฐ์˜ ํƒ์ƒ‰์ด ๊ฐ€๋Šฅํ•œ ์œ ์—ฐ์„ฑํ™•๋ณด๊ฐ€ ๊ฐ€๋Šฅ.


- ์šฐ๋ฆฐ ์ง€๊ธˆ๊นŒ์ง€ ๋ณด๊ณ ๋œ ๋ฐ”์— ์˜ํ•˜๋ฉด, ์ฒ˜์Œ์œผ๋กœ ์ธ๊ฐ„์ˆ˜์ค€์˜ ์ธ์‹(5.1%)์„ ๋„˜์–ด์„œ๋Š” ๊ฒฐ๊ณผ๋ฅผ ๋งŒ๋“ค์–ด๋ƒˆ๋‹ค.

 

 

2. Approach

2.1. Parametric Rectifiers. (PReLU)

 Definition
- ๊ณต์‹๋ถ„์„์„ ํ•˜๋ฉด, activation function์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ •์˜ํ•œ๋‹ค.

์ด๋•Œ, yi๋Š” i๋ฒˆ์งธ channel์˜ ๋น„์„ ํ˜•ํ™œ์„ฑํ™”ํ•จ์ˆ˜ f์˜ ์ž…๋ ฅ๊ฐ’์ด๋‹ค.
ai์˜ i๋Š” ๋‹ค์–‘ํ•œ channel์— ๊ฑธ์ณ ๋น„์„ ํ˜•ํ™œ์„ฑํ™”ํ•จ์ˆ˜(nonlinear activation)๋ฅผ ํ—ˆ์šฉํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.

ai = 0์ผ ๋•Œ, ์ด๊ฒƒ์€ ReLU๊ฐ€ ๋œ๋‹ค.
์ด๋•Œ, ai๊ฐ€ ํ•™์Šต๊ฐ€๋Šฅํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ผ๋ฉด, Eqn.(1)์—์„œ ์–ธ๊ธ‰ํ•œ ๋ฐ”์™€ ๊ฐ™์ด Parametric ReLU๊ฐ€ ๋œ๋‹ค.

๋˜ํ•œ ์œ„์˜ ์‹์€ ์•„๋ž˜์˜ ์‹๊ณผ ๋™์น˜์ด๋‹ค.

๋งŒ์•ฝ ai๊ฐ€ ์ž‘๊ณ  ๊ณ ์ •๋œ ๊ฐ’์ด๋ผ๋ฉด, PReLU๋Š” LReLU, ์ฆ‰ Leaky ReLU๊ฐ€ ๋œ๋‹ค. (ai = 0.01)
- LReLU๋Š” zero gradient ์ฆ‰, ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์ด ๋˜๋Š” ๊ฒƒ์„ ํ”ผํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋œ๋‹ค.
๋‹ค๋งŒ, LReLU๊ฐ€ ReLU์— ๋น„ํ•ด ์ •ํ™•๋„์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์ด ๋ฏธ๋ฏธํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค€๋‹ค.[Rectifier nonlinearities improve neural network acoustic models. In ICML, 2013.]

[PReLU]
- LReLU์™€ ๋‹ฌ๋ฆฌ, ์šฐ๋ฆฌ๊ฐ€ ์‚ฌ์šฉํ•˜๋Š” PReLU์˜ ๊ฒฝ์šฐ, ๋งค์šฐ ์ž‘์€ extra parameter๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.
- ์ด๋•Œ, extra parameter์ˆ˜ = channel์˜ ์ „์ฒด ์ˆ˜์ด๊ธฐ์— ์ด ๊ฐ€์ค‘์น˜ ์ˆ˜๋ฅผ ๊ณ ๋ คํ•˜๋ฉด ๋ฌด์‹œํ• ๋งŒํ•˜๋‹ค.

[channel-shared variant]
- ์œ„์˜ activation function๊ณต์‹์—์„œ ๊ณ„์ˆ˜๋Š” ํ•œ์ธต์˜ ๋ชจ๋“  channel๊ณผ ๊ณต์œ ๋œ๋‹ค.
- ์ด๋Ÿฐ ๋ณ€ํ˜•์€ ๊ฐ ์ธต์— ํ•˜๋‚˜์˜ extra parameter๋งŒ ๋„์ž…ํ•œ๋‹ค.




• Optimization 

- PReLU๋Š” ์—ญ์ „ํŒŒ๋กœ ํ›ˆ๋ จ๋˜๊ณ , ๋‹ค๋ฅธ ์ธต๊ณผ ๋™๋“ฑํ•˜๊ฒŒ ์ตœ์ ํ™”๋œ๋‹ค.
- {ai} ๊ณต์‹์˜ update์€ chain-rule์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•˜๋ฉฐ ํ•˜๋‚˜์˜ ์ธต์— ํ•ด๋‹นํ•˜๋Š” ai์˜ ๊ธฐ์šธ๊ธฐ ๊ณต์‹์€ ์•„๋ž˜์™€ ๊ฐ™๋‹ค.
- ฦ์€ ๋ชฉ์ ํ•จ์ˆ˜(objective function)์„ ์˜๋ฏธํ•˜๋ฉฐํ•œ๋‹ค.

- ์œ„์˜ ์‹์€ ์‹ฌ์ธต์œผ๋กœ๋ถ€ํ„ฐ์˜ ๊ธฐ์šธ๊ธฐ์ „ํŒŒ (gradient propagate)๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š”๋ฐ, ํ™œ์„ฑํ™”ํ•จ์ˆ˜์˜ ๊ธฐ์šธ๊ธฐ๋ฅผ ์˜๋ฏธ ์‹์ด๋‹ค.






 Comparision Experiments

 - ์šฐ๋ฆฌ๋Š” 14๊ฐœ์˜ ๊ฐ€์ค‘์น˜ ๋ ˆ์ด์–ด๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊นŠ์ง€๋งŒ ํšจ์œจ์ ์ธ ๋ชจ๋ธ์— ๋Œ€ํ•ด ๋น„๊ต๋ฅผ ์ˆ˜ํ–‰ํ–ˆ๋‹ค.(ํ‘œ 1)
์ด ๋ชจ๋ธ์ด ์‹คํ—˜์„ ์‹คํ˜„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•  ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ๋งค์šฐ ์‹ฌ์ธต์ ์ธ ๋ชจ๋ธ์˜ ๋ฒ”์ฃผ๋ฅผ ๋‚˜ํƒ€๋‚ด๊ธฐ์— ์ถฉ๋ถ„ํ•˜๊ธฐ์— ์„ ํƒํ•œ๋‹ค.


- ๊ธฐ๋ณธ์ ์œผ๋กœ, ์ปจ๋ณผ๋ฃจ์…˜(convolutional) ๊ณ„์ธต๊ณผ ์ฒ˜์Œ ๋‘ ๊ฐœ์˜ FC.layer์— ์ ์šฉ๋œ ReLU๋กœ ์ด ๋ชจ๋ธ์„ ํ›ˆ๋ จ์‹œํ‚จ๋‹ค.
10-view testing์„ ์‚ฌ์šฉํ•ด ImageNet 2012์—์„œ top-1 and top-5 error
๋Š” 33.82% ๋ฐ 13.34%์ด๋‹ค(ํ‘œ 2).

- ๊ทธํ›„ ๋ชจ๋“  ReLU๋ฅผ PReLU๋กœ ๋Œ€์ฒดํ•˜์—ฌ ๋™์ผํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ฒ˜์Œ๋ถ€ํ„ฐ trainingํ•œ๋‹ค(ํ‘œ 2).
top-1 error๋Š” 32.64%๋กœ ๊ฐ์†Œํ•˜๋ฉฐ ์ด๋Š” ๊ธฐ์กด์˜ ReLU์— ๋น„ํ•ด 1.2% ์ฆ๊ฐ€ํ•œ ๊ฒƒ์ด๋‹ค.
ํ‘œ 2๋Š” channel-wise / channel-shared PReLU๊ฐ€ ์„œ๋กœ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•จ์„ ๋ณด์—ฌ์ค€๋‹ค.
channel-shared PReLU์˜ ๊ฒฝ์šฐ ReLU์™€ ๋น„๊ตํ•˜์—ฌ 13๊ฐœ์˜ ์ถ”๊ฐ€์ ์ธ extra parameter๋งŒ ๋„์ž…ํ•œ๋‹ค.
๊ทธ๋Ÿฌ๋‚˜ ์ด ์ž‘์€ ์ˆ˜์˜ extra-parameter๋Š” ๊ธฐ์กด์— ๋น„ํ•ด 1.1%๋งŒํผ ๋›ฐ์–ด๋„˜์Œ์„ ์ž…์ฆ๋˜๋Š” ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค.
์ด๋Š” ํ™œ์„ฑํ™” ํ•จ์ˆ˜์˜ ๊ผด์„ ์ ์‘๋ ฅ์žˆ๊ฒŒ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์˜ ์ค‘์š”์„ฑ์„ ์˜๋ฏธํ•œ๋‹ค.


- ํ‘œ 1์€ ๋˜ํ•œ ๊ฐ ๊ณ„์ธต์— ๋Œ€ํ•œ PReLU์˜ ํ•™์Šต๋œ ๊ณ„์ˆ˜๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
ํ‘œ 1์—๋Š” ๋‘ ๊ฐ€์ง€ ํฅ๋ฏธ๋กœ์šด ํ˜„์ƒ์ด ์žˆ๋‹ค.

โ‘  ์ฒซ์งธ, conv1์˜ ๊ณ„์ˆ˜๋Š” 0๋ณด๋‹ค ์ƒ๊ฐ๋ณด๋‹ค ํฐ (0.681 ๋ฐ 0.596)๊ฐ’์„ ๊ฐ–๋Š”๋‹ค.
  - conv1์˜ filter๋Š” edge ๋ฐ texture detector ๊ฐ™์€ Gabor ์œ ์‚ฌ ํ•„ํ„ฐ๊ฐ€ ๋Œ€๋ถ€๋ถ„์ด๋‹ค
  - ์ฆ‰, ํ•™์Šต๋œ ๊ฒฐ๊ณผ๋Š” filter์˜ positive / negative response๊ฐ€ ๋ชจ๋‘ ๋ฐ˜์˜๋จ์„ ๋ณด์—ฌ์ค€๋‹ค.
  - ์ œํ•œ๋œ ์ˆ˜์˜ filter(์˜ˆ: 64)๋ฅผ ๊ณ ๋ คํ•  ๋•Œ, ์ด๋Š” ์ €์ˆ˜์ค€์˜ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜๋Š” ๋” ๊ฒฝ์ œ์ ์ธ ๋ฐฉ๋ฒ•์ด๋ผ๊ณ  ์ƒ๊ฐํ•œ๋‹ค.

โ‘ก ๋‘˜์งธ, channel-wise์˜ ๊ฒฝ์šฐ, ์ผ๋ฐ˜์ ์œผ๋กœ deeper conv.layer๋Š” ๋” ์ž‘์€ ๊ณ„์ˆ˜๋ฅผ ๊ฐ–๋Š”๋‹ค.
  - ์ด๋Š” activation์ด ์ ์  ๋” ๊นŠ์€ ๊ณณ์—์„œ ์ ์ง„์ ์œผ๋กœ "๋” ๋น„์„ ํ˜•์ "์ด ๋œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•œ๋‹ค.
  - ์ฆ‰, ํ•™์Šต๋œ ๋ชจ๋ธ์€ ์ดˆ๊ธฐ ๋‹จ๊ณ„์—์„œ ๋” ๋งŽ์€ ์ •๋ณด๋ฅผ ์œ ์ง€ํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ๊ณ  ๋” ๊นŠ์€ ๋‹จ๊ณ„์—์„œ ๋” ์ฐจ๋ณ„ํ™”๋œ๋‹ค.

 

 

2.2. Initialization of Filter Weights for Rectifiers. (deep rectifier net)


 Foward Propagation Case


 Back Propagation Case


 Discussions
 





 Comparision with "Xavier" Initialization

 

 

2.3. Architectures

์œ„์˜ ์กฐ์‚ฌ๋Š” ๋‹ค์Œ์˜ Architecture์— ๋Œ€ํ•œ ์„ค๊ณ„์ง€์นจ์„ ์ œ๊ณตํ•œ๋‹ค. 

- ์šฐ๋ฆฌ์˜ baseline์€ (ํ‘œ 3)์˜ 19์ธต ๋ชจ๋ธ(A)์ด๋‹ค. ๋” ๋‚˜์€ ๋น„๊ต๋ฅผ ์œ„ํ•ด, ๋˜ํ•œ VGG-19์„ ๋‚˜์—ดํ•œ๋‹ค.
์šฐ๋ฆฌ์˜ ๋ชจ๋ธ A๋Š” VGG-19์—์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ˆ˜์ •๋œ๋‹ค.
  i) ์ฒซ ๋ฒˆ์งธ ์ธต์—์„œ filter size = 7×7์™€ strides = 2๋ฅผ ์‚ฌ์šฉ.
  ii) ๊ฐ€์žฅ ํฐ 2๊ฐœ์˜ ํŠน์ง•๋งต(224, 112)์˜ ๋‹ค๋ฅธ 3๊ฐœ์˜ conv.layer๋ฅผ ๋” ์ž‘์€ ํŠน์ง•๋งต(56, 28, 14)์œผ๋กœ ์ด๋™
      ์ด๋•Œ, ์‹œ๊ฐ„ ๋ณต์žก๋„(ํ‘œ 3, ๋งˆ์ง€๋ง‰ ํ–‰)๋Š” ๋” ๊นŠ์€์ธต์ด ๋” ๋งŽ์€ filter๋ฅผ ๊ฐ–๊ธฐ์— ๊ฑฐ์˜ ๋ณ€ํ•˜์ง€ ์•Š๋Š”๋‹ค.
  iii) ์ฒซ FC.layer ์ด์ „์— ๊ณต๊ฐ„ ํ”ผ๋ผ๋ฏธ๋“œ ํ’€๋ง, (SPP)์„ ์‚ฌ์šฉํ•œ๋‹ค.
      ์ด๋•Œ, ํ”ผ๋ผ๋ฏธ๋“œ๋Š” ์ด 63๊ฐœ์˜ bins์— ๋Œ€ํ•ด bin์˜ ์ˆ˜๊ฐ€ 7×7, 3×3, 2×2, 1×1์ธ 4๊ฐœ์˜ level์„ ๊ฐ–๋Š”๋‹ค.


- ์šฐ๋ฆฌ์˜ ๋ชจ๋ธ A๊ฐ€ VGG์— ๋ณด๊ณ ํ•œ VGG-19์˜ ๊ฒฐ๊ณผ๋ณด๋‹ค ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.
๋‹ค๋งŒ, ์šฐ๋ฆฌ์˜ ๋ชจ๋ธ A๊ฐ€ VGG-19๋ณด๋‹ค ๋” ๋‚˜์€ ์•„ํ‚คํ…์ฒ˜๋ผ๋Š” ์ฆ๊ฑฐ๋Š” ์—†๋‹ค๋Š” ๊ฒƒ์„ ์ฃผ๋ชฉํ•  ํ•„์š”๊ฐ€ ์žˆ๋‹ค.
๋” ์ ์€ ๊ทœ๋ชจ์˜ ํ™•๋Œ€๋ฅผ ์‚ฌ์šฉํ•œ ์ด์ „ ์‹คํ—˜์—์„œ, ์šฐ๋ฆฌ๋Š” ๋ชจ๋ธ A์™€ (SPP ๋ฐ ์ดˆ๊ธฐํ™”์™€) ์žฌํ˜„๋œ VGG-19๊ฐ€ ๋น„๊ต ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฒƒ์„ ๊ด€์ฐฐํ–ˆ๋‹ค.
A ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋Š” ์ฃผ๋œ ๋ชฉ์ ์€ ๋” ๋น ๋ฅธ ์‹คํ–‰์†๋„๋ฅผ ์œ„ํ•œ ๊ฒƒ์ด๋‹ค.
์‹œ๊ฐ„ ๋ณต์žก๋„๊ฐ€ ๋™์ผํ•  ๋•Œ, ํฐ ํŠน์ง•๋งต์˜ conv.layer์˜ ์‹ค์ œ ์‹คํ–‰ ์‹œ๊ฐ„์€ ์ž‘์€ ํŠน์ง•๋งต์˜ conv.layer๋ณด๋‹ค ๋А๋ฆฌ๋‹ค.
4 GPU์˜ ๊ตฌํ˜„์—์„œ ๋ชจ๋ธ A๋Š” mini-batch๋‹น 2.6์ดˆ(128),
์žฌํ˜„๋œ VGG-19๋Š” 4๊ฐœ์˜ Nvidia K20 GPU์—์„œ 3.0์ดˆ ๊ฑธ๋ ธ๋‹ค.


- ํ‘œ 3์—์„œ, ๋ชจ๋ธ B๋Š” A์˜ ๋” ๊นŠ์€ ๋ฒ„์ „์œผ๋กœ ์„ธ ๊ฐœ์˜ extra conv.layer๋ฅผ ๊ฐ–๋Š”๋‹ค.
์šฐ๋ฆฌ์˜ ๋ชจ๋ธ C๋Š” B์˜ ๋” ๋„“์€ ๋ฒ„์ „(filter๊ฐ€ ๋” ๋งŽ์Œ)์œผ๋กœ width๋Š” ๋ณต์žก์„ฑ์„ ์ƒ๋‹นํžˆ ์ฆ๊ฐ€์‹œํ‚จ๋‹ค.
์ด๋•Œ, ์‹œ๊ฐ„ ๋ณต์žก๋„๋Š” B์˜ ์•ฝ 2.3๋ฐฐ์ด๋‹ค(ํ‘œ 3, ๋งˆ์ง€๋ง‰ ํ–‰).
4๊ฐœ์˜ K20 GPU์—์„œ A/B๋ฅผ ๊ต์œกํ•˜๊ฑฐ๋‚˜ 8๊ฐœ์˜ K40 GPU์—์„œ C๋ฅผ ๊ต์œกํ•˜๋Š” ๋ฐ ์•ฝ 3-4์ฃผ๊ฐ€ ๊ฑธ๋ฆฐ๋‹ค.


- ๊นŠ์ด๊ฐ€ ๋” ๊นŠ์–ด์ง„ ๋ชจ๋ธ์€ ์ •ํ™•๋„๊ฐ€ ๊ฐ์†Œํ•˜๊ฑฐ๋‚˜ ์‹ฌ์ง€์–ด ์ €ํ•˜(degradation)๋˜๊ธฐ ๋•Œ๋ฌธ์— ๊นŠ์ด ๋Œ€์‹  ๋ชจ๋ธ์˜ ํญ(width)์„ ๋Š˜๋ฆฐ๋‹ค.
์†Œ๊ทœ๋ชจ ๋ชจ๋ธ์— ๋Œ€ํ•œ ์ตœ๊ทผ ์‹คํ—˜์—์„œ, ๊นŠ์ด๋ฅผ ๊ณต๊ฒฉ์ ์œผ๋กœ ์ฆ๊ฐ€์‹œํ‚ค๋ฉด ํฌํ™”๋˜๊ฑฐ๋‚˜ ์ •ํ™•๋„๊ฐ€ ์ €ํ•˜๋œ๋‹ค๋Š” ๊ฒƒ์ด ๋ฐํ˜€์กŒ๋‹ค.
VGG ๋…ผ๋ฌธ์—์„œ, 16, 19์ธต ๋ชจ๋ธ์€ ๋น„๊ต์  ์„ฑ๋Šฅ์ด ์ข‹์ง€๋งŒ 
[M.D.Zeiler, M.Ranzato, R.Monga et. al]์˜ ์Œ์„ฑ ์ธ์‹ ์—ฐ๊ตฌ์—์„œ, ๋”ฅ ๋ชจ๋ธ์€ 8๊ฐœ ์ด์ƒ์˜ ์ˆจ๊ฒจ์ง„ ๋ ˆ์ด์–ด(๋ชจ๋‘ fc)๋ฅผ ์‚ฌ์šฉํ•  ๋•Œ ์„ฑ๋Šฅ์ด ์ €ํ•˜๋˜์—ˆ๋Š”๋ฐ, ์šฐ๋ฆฌ๋Š” ImageNet์˜ ๋” ํฐ ๋ชจ๋ธ์—์„œ๋„ ์œ ์‚ฌํ•œ ์ €ํ•˜๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ถ”์ธกํ•œ๋‹ค.

์ผ๋ถ€์˜ ๊ทน๋„๋กœ ์‹ฌ์ธต์ ์ธ ๋ชจ๋ธ์˜ training์—์„œ(ํ‘œ 3์˜ B์— 3~9๊ฐœ์˜ ๋ ˆ์ด์–ด๊ฐ€ ์ถ”๊ฐ€๋จ) training ๋ฐ test error rate๊ฐ€ ์ฒ˜์Œ 20epoch์—์„œ ๋ชจ๋‘ ์ €ํ•˜๋˜์—ˆ์Œ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค
(๋‹ค๋งŒ, ์ œํ•œ๋œ ์‹œ๊ฐ„์œผ๋กœ ๋๊นŒ์ง€ ์‹คํ–‰๋˜์ง€ ์•Š์•˜๊ธฐ์— ์ด๋Ÿฐ ํฌ๊ณ  ์ง€๋‚˜์น˜๊ฒŒ ์‹ฌ์ธต์ ์ธ ๋ชจ๋ธ์ด ๊ถ๊ทน์ ์œผ๋กœ ์ €ํ•˜๋  ๊ฒƒ์ด๋ผ๋Š” ํ™•์‹คํ•œ ์ฆ๊ฑฐ๋Š” ์•„์ง์€ ์—†๋‹ค).
์ด๋Ÿฐ ์„ฑ๋Šฅ ์ €ํ•˜์˜ ๊ฐ€๋Šฅ์„ฑ์œผ๋กœ ๋Œ€ํ˜• ๋ชจ๋ธ์˜ ๊นŠ์ด๋ฅผ ๋” ์ด์ƒ ์ฆ๊ฐ€์‹œํ‚ค์ง€ ์•Š๊ธฐ๋กœ ์„ ํƒํ–ˆ๋‹ค.


- ๋ฐ˜๋ฉด, ์†Œ๊ทœ๋ชจ dataset์— ๋Œ€ํ•œ ์ตœ๊ทผ์˜ ์—ฐ๊ตฌ๋Š” conv.layer์˜ parameter์ˆ˜๊ฐ€ ์ฆ๊ฐ€ํ•จ์— ๋”ฐ๋ผ ์ •ํ™•๋„๊ฐ€ ํ–ฅ์ƒ๋˜์–ด์•ผ ํ•œ๋‹ค๊ณ  ์ œ์•ˆํ•˜๋Š”๋ฐ, ์ด ์ˆซ์ž๋Š” ๊นŠ์ด์™€ ๋„ˆ๋น„์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง„๋‹ค.
๊ทธ๋ž˜์„œ ์šฐ๋ฆฌ๋Š” ๋” ๋†’์€ ์šฉ๋Ÿ‰์˜ ๋ชจ๋ธ์„ ์–ป๊ธฐ ์œ„ํ•ด conv.layer์˜ width๋ฅผ ๋Š˜๋ ธ๋‹ค.

- ํ‘œ 3์˜ ๋ชจ๋“  ๋ชจ๋ธ์€ ๋งค์šฐ ํฌ์ง€๋งŒ, ์‹ฌ๊ฐํ•œ overfitting์€ ๊ด€์ฐฐ๋˜์ง€ ์•Š์•˜๋Š”๋ฐ, ์•„๋ž˜์—์„œ ๋งํ•  ๊ฒƒ ์ฒ˜๋Ÿผ ์ „์ฒด training์— ๊ฑธ์ณ ์‚ฌ์šฉ๋˜๋Š” ๊ณต๊ฒฉ์ ์ธ data augmentation ๋•๋ถ„์ด๋ผ ์ƒ๊ฐํ•œ๋‹ค..

 

 

 

 

 

3. Implementation Details

  Training
 - ์šฐ๋ฆฌ์˜ ํ›ˆ๋ จ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋Œ€๋ถ€๋ถ„ [AlexNet, VGGNet ๋“ฑ]์„ ๋”ฐ๋ฅธ๋‹ค.
 resize๋œ image(shorter side is s, ํ”ฝ์…€๋‹น ํ‰๊ท ์˜ ์ฐจ๊ฐ€ ์ง„ํ–‰๋œ 224x224 crop์ด ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋ง๋จ) 
 scale์€ VGG์— ๋‚˜์˜ค๋Š” [256, 512] ๋ฒ”์œ„์—์„œ ๋ฌด์ž‘์œ„๋กœ jittering ๋œ๋‹ค.
 ํ‘œ๋ณธ์˜ ์ ˆ๋ฐ˜์ด ๋ฌด์ž‘์œ„๋กœ horizontal flip์ด ์ง„ํ–‰๋˜๊ณ  ์ƒ‰์ƒ๋„ ๋ณ€๊ฒฝ๋œ๋‹ค.



 - ๋ฏธ์„ธ ์กฐ์ •(fine-tuning) ์ค‘์—๋งŒ scale jittering์„ ์ ์šฉํ•˜๋Š” VGG์™€ ๋‹ฌ๋ฆฌ training์˜ ์‹œ์ž‘๋ถ€ํ„ฐ ์ ์šฉํ•œ๋‹ค.
๋˜ํ•œ, ์–•์€ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋” ๊นŠ์€ ๋ชจ๋ธ์„ ์ดˆ๊ธฐํ™”ํ•˜๋Š” VGG์™€ ๋‹ฌ๋ฆฌ, 
2.2์ ˆ์— ์„ค๋ช…๋œ ์ดˆ๊ธฐํ™” ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ๋งค์šฐ ๊นŠ์€ ๋ชจ๋ธ์„ ์ง์ ‘ ํ›ˆ๋ จํ•œ๋‹ค(Eqn.(14) ๋ฐฉ์ •์‹์„ ์‚ฌ์šฉ).
training์˜ ์‹œ์ž‘๋ถ€ํ„ฐ ๋๊นŒ์ง€ poor local optima๋ฅผ ํ”ผํ•  ์ˆ˜ ์žˆ์–ด์„œ ์ •ํ™•๋„๋ฅผ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๋ฐ ๋„์›€์ด ๋  ์ˆ˜ ์žˆ์—ˆ๋‹ค.



[์ค‘์š”ํ•œ ๋‚˜๋จธ์ง€ hyper parameter ์„ค์ •]
weight decay = 5e-4 (= 0.0005)
momentum = 0.9์ด๋‹ค.
Dropout(0.5)๋Š” ์ฒ˜์Œ ๋‘ ๊ฐœ์˜ FC.layer์—์„œ๋งŒ ์‚ฌ์šฉ.
mini-batch size = 128๋กœ ๊ณ ์ •.
learning rate = 1e-2, 1e-3 ๋ฐ 1e-4์œผ๋กœ ์˜ค๋ฅ˜๊ฐ€ ๋ฐœ์ƒํ•  ๋•Œ ์ „ํ™˜.
๋ชจ๋ธ ๋ณ„ ์ด epoch์ˆ˜๋Š” ์•ฝ 80.


 Testing
 - ์šฐ๋ฆฌ๋Š” SPP-net ๋…ผ๋ฌธ์—์„œ ์‚ฌ์šฉ๋œ "ํŠน์ง•๋งต์— ๋Œ€ํ•œ multi-view test" ์ „๋žต์„ ์‚ฌ์šฉํ•œ๋‹ค.
VGG์ฒ˜๋Ÿผ ๊ณ ๋ฐ€๋„์˜ sliding window ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ด ์ด ์ „๋žต์„ ์ถ”๊ฐ€๋กœ ๊ฐœ์„ ํ•œ๋‹ค.


โ‘  ๋จผ์ € resize๋œ ์ „์ฒด image์— conv.layer๋ฅผ ์ ์šฉ, ์ตœ์ข… conv.ํŠน์ง•๋งต์„ ์–ป๋Š”๋‹ค.
  - ํŠน์ง•๋งต์—์„œ ๊ฐ 14x14 window๋Š” SPP-layer๋ฅผ ์‚ฌ์šฉํ•ด Poolingํ•œ๋‹ค. 

โ‘ก ๊ทธ ํ›„, FC.layer๊ฐ€ Pooling๋œ ํŠน์ง•์— ์ ์šฉ๋˜์–ด score๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค.
  - ์ด๋Š” horizontal flip image์—์„œ๋„ ์ˆ˜ํ–‰๋œ๋‹ค.
  - ๋ชจ๋“  ๊ณ ๋ฐ€๋„์˜ sliding window score๋Š” ํ‰๊ท ํ™”๋˜๋ฉฐ ๊ทธ ํ›„ ์—ฌ๋Ÿฌ scale๋กœ ๊ฒฐ๊ณผ๋ฅผ ์ถ”๊ฐ€๋กœ ๊ฒฐํ•ฉํ•œ๋‹ค.


 Multi-GPU Implementation
 - ์šฐ๋ฆฌ๋Š” ์—ฌ๋Ÿฌ GPU์— ๋Œ€ํ•œ ๋ณ‘๋ ฌ ํ›ˆ๋ จ์„ ์œ„ํ•ด AlexNet๋ฐฉ์‹์˜ ๊ฐ„๋‹จํ•œ ๋ณ€ํ˜•์„ ์ฑ„ํƒํ•œ๋‹ค.
conv.layer์— "๋ฐ์ดํ„ฐ ๋ณ‘๋ ฌํ™” (data parallelism)"๋ฅผ ์ฑ„ํƒํ•œ๋‹ค.
GPU๋“ค์€ ์ œ1 FC์ธต ์ด์ „์— ๋™๊ธฐํ™”๋œ๋˜๋ฉฐ, FC์ธต์˜ ์ˆœ์ „ํŒŒ, ์—ญ์ „ํŒŒ๊ฐ€ ๋‹จ์ผ GPU์—์„œ ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค.
์ฆ‰, FC์ธต์˜ ๊ณ„์‚ฐ์„ ๋ณ‘๋ ฌํ™”ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. (FC์ธต์˜ ์‹œ๊ฐ„์  ๋น„์šฉ์ด ๋‚ฎ๊ธฐ์— ๋ณ‘๋ ฌํ™”๊ฐ€ ํ•„์š”๊ฐ€ ์—†๋‹ค.)
์ด๋Š” AlexNet์˜ "๋ชจ๋ธ ๋ณ‘๋ ฌํ™”"๋ณด๋‹ค ๋” ๊ฐ„๋‹จํ•œ ๊ตฌํ˜„์œผ๋กœ ์ด์–ด์ง„๋‹ค.
๊ฒŒ๋‹ค๊ฐ€, ๋ชจ๋ธ ๋ณ‘๋ ฌํ™”๋Š” ํ•„ํ„ฐ ์‘๋‹ต์˜ ํ†ต์‹ ์œผ๋กœ ์ธํ•ด ์ผ๋ถ€ ์˜ค๋ฒ„ํ—ค๋“œ๋ฅผ ์ดˆ๋ž˜ํ•˜๋ฉฐ, ๋‹จ์ผ GPU์—์„œ FC์ธต์„ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋น ๋ฅด์ง€ ์•Š๋‹ค.


 - ์šฐ๋ฆฌ๋Š” ์นดํŽ˜ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์˜ ์ˆ˜์ •์— ๋Œ€ํ•ด ์œ„์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๊ตฌํ˜„ํ•˜๋ฉฐ ์ •ํ™•๋„๊ฐ€ ๋–จ์–ด์งˆ ์ˆ˜ ์žˆ๊ธฐ์— mini-batch size(128)๋ฅผ ๋Š˜๋ฆฌ์ง€ ์•Š๋Š”๋‹ค.
๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๋Œ€ํ˜• ๋ชจ๋ธ์˜ ๊ฒฝ์šฐ, 4๊ฐœ์˜ GPU๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 3.8๋ฐฐ์˜ ์†๋„ ํ–ฅ์ƒ๊ณผ 8๊ฐœ์˜ GPU๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ 6.0๋ฐฐ์˜ ์†๋„ ํ–ฅ์ƒ์„ ๊ด€์ฐฐํ–ˆ๋‹ค.

 

 

4.Experiments on ImageNet


 Comparision between ReLU. &. PReLU
 - ํ‘œ 4๋Š” ๋Œ€ํ˜• ๋ชจ๋ธ A์—์„œ ReLU์™€ PReLU๋ฅผ ๋น„๊ตํ•œ๋‹ค. ์ด๋•Œ, channel-wise๋ฒ„์ „์— PReLU๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.
๊ณต์ •ํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด ReLU/PReLU ๋ชจ๋ธ์€ ๋™์ผํ•œ ์ด epoch ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•ด training๋˜๋ฉฐ learning rate๋„ ๋™์ผํ•œ epoch์ˆ˜๋ฅผ ์‹คํ–‰ํ•œ ํ›„ ์ „ํ™˜๋œ๋‹ค.


 - ํ‘œ 4๋Š” ์„ธ ๊ฐ€์ง€ scale์™€ multi-scale๊ฐ„์˜ ์กฐํ•ฉ์˜ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
 jittering range[256, 512]์— ์žˆ์„ ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ตœ๊ณ ์˜ single scale์€ 384์ด๋‹ค.
multi-scale ์กฐํ•ฉ์˜ ๊ฒฝ์šฐ, PReLU๋Š” ReLU์— ๋น„ํ•ด top-1 ์˜ค๋ฅ˜๋ฅผ 1.05%, top-5 ์˜ค๋ฅ˜๋ฅผ 0.23% ๊ฐ์†Œ์‹œํ‚จ๋‹ค.
์ด๋Š” ํ‘œ 2์™€ ํ‘œ 4์˜ ๊ฒฐ๊ณผ๋Š” ์ผ๊ด€๋˜๊ฒŒ PReLU๊ฐ€ ์†Œํ˜• ๋ฐ ๋Œ€ํ˜• ๋ชจ๋ธ์„ ๋ชจ๋‘ ํ–ฅ์ƒ์‹œํ‚ด์„ ๋ณด์—ฌ์ค€๋‹ค.
์ด๋•Œ, ์ด๋Ÿฌํ•œ ํ–ฅ์ƒ์€ ๊ณ„์‚ฐ ๋น„์šฉ์ด ๊ฑฐ์˜ ์—†์ด ์–ป์–ด์ง„๋‹ค.





 Comparision of Single-model Results
 - ๋‹ค์Œ์œผ๋กœ ๋‹จ์ผ ๋ชจ๋ธ ๊ฒฐ๊ณผ๋ฅผ ๋น„๊ตํ•œ๋‹ค.
๋จผ์ € ํ‘œ 5์—์„œ 10-view test result๋ฅผ ๋ณด์—ฌ์ฃผ๋Š”๋ฐ, ์—ฌ๊ธฐ์„œ ๊ฐ view๋Š” 224-crop์ด๋‹ค.
VGG-16์˜ 10-view result๋Š” test๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ตœ๊ณ ์˜ ๊ฒฐ๊ณผ๋Š” 7.38%์ด๋‹ค(ํ‘œ 5). 


 - ํ‘œ 6์€ multi-scale and multi-view๋‚˜ dense 
test๋ฅผ ์‚ฌ์šฉํ•ด ์–ป์€ Single-model ๊ฒฐ๊ณผ์˜ ๋น„๊ต๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
๊ฒฐ๊ณผ๋Š” MSRA๋กœ ํ‘œ์‹œ๋˜๋ฉฐ ๊ธฐ๋ณธ ๋ชจ๋ธ(A+ReLU, 6.51%)์€ VGG-19์— ๋Œ€ํ•ด ๋ณด๊ณ ๋œ ์ตœ๊ณ ์˜ ๊ธฐ์กด ๋‹จ์ผ ๋ชจ๋ธ ๊ฒฐ๊ณผ์ธ 7.1%๋ณด๋‹ค ์ด๋ฏธ ์ƒ๋‹นํžˆ ์ข‹์œผ๋ฉฐ ์ด๋Ÿฌํ•œ ์ด๋“์ด ์ฃผ๋กœ ์–•์€ ๋ชจ๋ธ์„ ์‚ฌ์ „ ํ›ˆ๋ จํ•  ํ•„์š”๊ฐ€ ์—†๋Š” ์ข…๋‹จ ๊ฐ„ ํ›ˆ๋ จ ๋•Œ๋ฌธ์ด๋ผ๊ณ  ์ƒ๊ฐํ•œ๋‹ค.


 - ๋˜ํ•œ, ์šฐ๋ฆฌ์˜ ์ตœ๊ณ  ๋‹จ์ผ ๋ชจ๋ธ(C, PReLU)์€ 5.71%์˜ top-5 error๋ฅผ ๊ฐ–๋Š”๋ฐ, ์ด ๊ฒฐ๊ณผ๋Š” ์ด์ „์˜ ๋ชจ๋“  ๋‹ค์ค‘ ๋ชจ๋ธ ๊ฒฐ๊ณผ๋ณด๋‹ค ํ›จ์”ฌ ๋” ์šฐ์ˆ˜ํ•˜๋‹ค(ํ‘œ 7).
A+PReLU์™€ B+PReLU๋ฅผ  ๋น„๊ตํ•˜๋ฉด, ์šฐ๋ฆฌ๋Š” 19์ธต ๋ชจ๋ธ๊ณผ 22์ธต ๋ชจ๋ธ์ด ๋น„๊ต์  ์„ฑ๋Šฅ์ด ์ข‹๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค.
๋ฐ˜๋ฉด์— ํญ์„ ๋Š˜๋ฆฌ๋ฉด(C vs. B, ํ‘œ 6) ์ •ํ™•๋„๊ฐ€ ํ–ฅ์ƒ๋  ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด๋Š” ๋ชจ๋ธ์ด ์ถฉ๋ถ„ํžˆ ๊นŠ์œผ๋ฉด ํญ์ด ์ •ํ™•๋„์˜ ํ•„์ˆ˜ ์š”์†Œ๊ฐ€ ๋œ๋‹ค๋Š” ๊ฒƒ์„ ์‹œ์‚ฌํ•œ๋‹ค.





 Comparision of Multi-model Results
 - ์šฐ๋ฆฌ๋Š” ํ‘œ 6์˜ ๋ชจ๋ธ์„ ํฌํ•จํ•˜์—ฌ 6๊ฐœ์˜ ๋ชจ๋ธ์„ ๊ฒฐํ•ฉํ•œ๋‹ค.
๋‹น๋ถ„๊ฐ„ ์šฐ๋ฆฌ๋Š” Architecture C๋งŒ์œผ๋กœ ๋ชจ๋ธ์„ ํ›ˆ๋ จํ–ˆ์œผ๋ฉฐ ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์€ C๋ณด๋‹ค ์ƒ๋‹นํ•œ ๊ฒฉ์ฐจ์˜ ๋‚ฎ์€ ์ •ํ™•๋„๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.
์šฐ๋ฆฌ๋Š” ๋” ์ ์€ ์ˆ˜์˜ ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ ๋” ๋‚˜์€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ถ”์ธกํ•œ๋‹ค.


 - ๋‹ค์ค‘ ๋ชจ๋ธ ๊ฒฐ๊ณผ๋Š” ํ‘œ 7์— ๋‚˜์™€ ์žˆ๋Š”๋ฐ, ์šฐ๋ฆฌ์˜ ๊ฒฐ๊ณผ๋Š”  testset์—์„œ 4.94%์˜ top-5 error๋ฅผ ๊ฐ–๋Š”๋‹ค.
testset์˜ label์ด ๊ฒŒ์‹œ๋˜์ง€ ์•Š์•„์„œ ILSVRC ์„œ๋ฒ„์— ์˜ํ•ด ํ‰๊ฐ€๋œ๋‹ค.
์šฐ๋ฆฌ์˜ ๊ฒฐ๊ณผ๋Š” ~26%์˜ ์ƒ๋Œ€์  ๊ฐœ์„ ์„ ๋‚˜ํƒ€๋‚ด๋Š” ILSVRC 2014 ์šฐ์Šน์ž‘(GoogLeNet, 6.66%)๋ณด๋‹ค 1.7% ๋” ์ข‹๋‹ค.
์ด๋Š” ๋˜ํ•œ ์ตœ๊ทผ ๊ฒฐ๊ณผ์— ๋น„ํ•ด ์ƒ๋Œ€์ ์œผ๋กœ ์ตœ๋Œ€ 17%์˜ ๊ฐœ์„ ๋˜์—ˆ๋‹ค(Baidu, 5.98%).





 Analysis of Results
 - ๊ทธ๋ฆผ 4๋Š” ์šฐ๋ฆฌ์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ์„ฑ๊ณต์ ์œผ๋กœ ๋ถ„๋ฅ˜๋œ ๋ช‡ ๊ฐ€์ง€ validation image์˜ ์˜ˆ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธก๋œ label ์™ธ์—๋„ top-5 ๊ฒฐ๊ณผ์˜ ๋‹ค๋ฅธ ๋„ค ๊ฐ€์ง€ ์˜ˆ์ธก์—๋„ ์ฃผ์˜๋ฅผ ๊ธฐ์šธ์ธ๋‹ค.
์ด ๋„ค ๊ฐœ์˜ label ์ค‘ ์ผ๋ถ€๋Š” ๋‹ค๋ฅธ object์˜ multi-object image์ด๋‹ค.
์˜ˆ๋ฅผ ๋“ค์–ด, "๋ง-์นดํŠธ" ์ด๋ฏธ์ง€(๊ทธ๋ฆผ 4, ํ–‰ 1, ์ฝœ 1)๋Š” "mini-bus"๋ฅผ ํฌํ•จํ•˜๊ณ  ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์˜ํ•ด ์ธ์‹๋œ๋‹ค.
์ด ๋„ค ๊ฐ€์ง€ label ์ค‘ ์ผ๋ถ€๋Š” ์œ ์‚ฌํ•œ class ์‚ฌ์ด์˜ ๋ถˆํ™•์‹ค์„ฑ ๋•Œ๋ฌธ์ด๋‹ค.
์˜ˆ๋ฅผ ๋“ค์–ด, "coucal" ์ด๋ฏธ์ง€(๊ทธ๋ฆผ 4, ํ–‰ 2, ์ฝœ 1)๋Š” ๋‹ค๋ฅธ ์กฐ๋ฅ˜ ์ข…์˜ ๋ผ๋ฒจ์„ ์˜ˆ์ธกํ–ˆ๋‹ค.


 - ๊ทธ๋ฆผ 6์€ testset์˜ ๊ฒฐ๊ณผ(ํ‰๊ท  4.94%)์˜ ํด๋ž˜์Šค๋‹น top-5 error๋ฅผ ์˜ค๋ฆ„์ฐจ์ˆœ์œผ๋กœ ํ‘œ์‹œํ•œ๋‹ค.
์šฐ๋ฆฌ์˜ ๊ฒฐ๊ณผ๋Š” 113๊ฐœ ํด๋ž˜์Šค์—์„œ top-5 error๊ฐ€ 0๊ฐœ๋กœ ์ด ํด๋ž˜์Šค์˜ ์ด๋ฏธ์ง€๋Š” ๋ชจ๋‘ ์˜ฌ๋ฐ”๋ฅด๊ฒŒ ๋ถ„๋ฅ˜๋œ๋‹ค.
top-5 error ๊ฐ€์žฅ ๋†’์€ 3๊ฐœ ๊ณ„์ธต์€ 'letter opener'(49%), 'spotlight'(38%), 'restaurant'(36%)์ด๋‹ค.
์ด ์˜ค๋ฅ˜๋Š” multiple/small object๋‚˜ large class๋‚ด์˜ ๋ถ„์‚ฐ(variance)์œผ๋กœ ์ธํ•ด ๋ฐœ์ƒํ•œ๋‹ค.
๊ทธ๋ฆผ 5๋Š” ์ด ์„ธ ํด๋ž˜์Šค์—์„œ ์šฐ๋ฆฌ์˜ ๋ฐฉ๋ฒ•์— ์˜ํ•ด ์ž˜๋ชป ๋ถ„๋ฅ˜๋œ ์ผ๋ถ€ ์˜ˆ์‹œ ์ด๋ฏธ์ง€๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
๋‹จ, ์˜ˆ์ธก๋œ ๋ ˆ์ด๋ธ” ์ค‘ ์ผ๋ถ€๋Š” ์—ฌ์ „ํžˆ ์˜๋ฏธ๊ฐ€ ์žˆ๋‹ค.


 - ๊ทธ๋ฆผ 7์—์„œ, ์šฐ๋ฆฌ๋Š” ์šฐ๋ฆฌ์˜ ๊ฒฐ๊ณผ(ํ‰๊ท  4.94%)์™€ ILSVRC 2014(ํ‰๊ท  8.06%)์—์„œ ์šฐ๋ฆฌ์˜ ๊ฒฝ์Ÿ ๊ฒฐ๊ณผ(ํ‰๊ท  8.06%) ์‚ฌ์ด์˜ top-5 error rate์˜ class ๋‹น ์ฐจ์ด๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. error rate์€ 824๊ฐœ ํด๋ž˜์Šค์—์„œ ๊ฐ์†Œํ•˜๊ณ  127๊ฐœ ํด๋ž˜์Šค์—์„œ ๋ณ€๊ฒฝ๋˜์ง€ ์•Š์œผ๋ฉฐ 49๊ฐœ ํด๋ž˜์Šค์—์„œ ์ฆ๊ฐ€ํ•œ๋‹ค.




 Comparision with Human Performance from [https://arxiv.org/abs/1409.0575]
 - Russakovsky์˜ ์—ฐ๊ตฌ๋Š” ์ธ๊ฐ„์˜ ์„ฑ๋Šฅ์ด ImageNet์—์„œ 5.1%์˜ top-5 error๋ฅผ ๋‹ฌ์„ฑํ•œ๋‹คํ–ˆ๋‹ค.
์ด๋Š” ๊ด€๋ จ ํด๋ž˜์Šค์˜ ์กด์žฌ๋ฅผ ๋” ์ž˜ ์•Œ๊ธฐ ์œ„ํ•ด validation image์— ๋Œ€ํ•ด ์ž˜ ์•Œ๊ณ ์žˆ๋Š” ์ธ๊ฐ„์— ์˜ํ•ด ๋‹ฌ์„ฑ๋œ๋‹ค.
test image์— ์ฃผ์„์„ ๋‹ฌ ๋•Œ ์ธ๊ฐ„์—๊ฒŒ ํŠน๋ณ„ํ•œ ์ธํ„ฐํŽ˜์ด์Šค๊ฐ€ ์ œ๊ณต๋˜๋ฉฐ, ๊ฐ ํด๋ž˜์Šค ์ œ๋ชฉ์—๋Š” 13๊ฐœ์˜ extra train image row๊ฐ€ ํ•จ๊ป˜ ์ œ๊ณต๋œ๋‹ค.


 - ์šฐ๋ฆฌ์˜ ๊ฒฐ๊ณผ(4.94%)๋Š” ๋ณด๊ณ ๋œ ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ์„ฑ๊ณผ๋ฅผ ์ดˆ๊ณผํ•œ๋‹ค.
์šฐ๋ฆฌ๊ฐ€ ์•„๋Š” ํ•œ, ์šฐ๋ฆฌ์˜ ๊ฒฐ๊ณผ๋Š” ์ด ์‹œ๊ฐ์  ์ธ์‹ ๊ณผ์ œ์—์„œ ์ธ๊ฐ„์„ ๋Šฅ๊ฐ€ํ•˜๋Š” ์ตœ์ดˆ์˜ ๋ฐœํ‘œ๋œ ์‚ฌ๋ก€์ด๋‹ค.
fine-grained recognition ๋ฐ class uwareness์€ ์ธ๊ฐ„์˜ ์˜ค๋ฅ˜์˜ 2๊ฐ€์ง€ ์ฃผ์š” ์œ ํ˜•์ด๋‹ค.
Russakovsky์˜ ์—ฐ๊ตฌ์— ๋”ฐ๋ฅด๋ฉด, ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ fine-grained recognition(์˜ˆ: ๋ฐ์ดํ„ฐ ์„ธํŠธ์—์„œ 120์ข…์˜ ๊ฐœ)์—์„œ ๋” ๋‚˜์€ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋‹ค.
๊ทธ๋ฆผ 4์˜ ๋‘ ๋ฒˆ์งธ ํ–‰์€ "coucal", "komondor" ๋ฐ "yellow lady's slipper"์™€ ๊ฐ™์ด ์šฐ๋ฆฌ์˜ ๋ฐฉ๋ฒ•์œผ๋กœ ์„ฑ๊ณต์ ์œผ๋กœ ์ธ์‹๋œ ๋ช‡ ๊ฐ€์ง€ ์„ธ๋ฐ€ํ•œ(fine-grained) ๋ฌผ์ฒด์˜ ์˜ˆ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค.
์ธ๊ฐ„์€ ์ด ๋ฌผ์ฒด๋“ค์„ ์ƒˆ, ๊ฐœ, ๊ฝƒ์œผ๋กœ ์‰ฝ๊ฒŒ ์ธ์‹ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๋Œ€๋ถ€๋ถ„์˜ ์ธ๊ฐ„์ด ๊ทธ๋“ค์˜ ์ข…์„ ๋งํ•˜๋Š” ๊ฒƒ์€ ์‚ฌ์†Œํ•œ ์ผ์ด ์•„๋‹ˆ๋‹ค.
๋ถ€์ •์ ์ธ ์ธก๋ฉด์—์„œ, ์šฐ๋ฆฌ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ํŠนํžˆ ๋ฌธ๋งฅ ์ดํ•ด ๋˜๋Š” ๋†’์€ ์ˆ˜์ค€์˜ ์ง€์‹์ด ํ•„์š”ํ•œ ๊ฒฝ์šฐ(์˜ˆ: ๊ทธ๋ฆผ 5์˜ "spotlight" ์ด๋ฏธ์ง€)์— ์—ฌ์ „ํžˆ ์ธ๊ฐ„์—๊ฒŒ๋Š” ์–ด๋ ต์ง€ ์•Š์€ ๊ฒฝ์šฐ์—๋„ ์‹ค์ˆ˜๋ฅผ ํ•œ๋‹ค.


- ์šฐ๋ฆฌ์˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ด ํŠน์ • dataset์—์„œ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ์‚ฐ์ถœํ•˜์ง€๋งŒ, ์ด๊ฒƒ์ด ์ผ๋ฐ˜์ ์œผ๋กœ ๋ฌผ์ฒด ์ธ์‹์—์„œ ์ธ๊ฐ„์˜ ๋น„์ „์„ ๋Šฅ๊ฐ€ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋‚˜ํƒ€๋‚ด์ง€ ์•Š๋Š”๋‹ค.
Pascal VOC ๊ณผ์ œ ๊ฐ™์€ ๊ธฐ๋ณธ์ ์ธ Object category(์ฆ‰, ์ผ์ƒ ์ƒํ™œ์—์„œ ์ผ๋ฐ˜์ ์ธ ๊ฐ์ฒด ๋˜๋Š” ๊ฐœ๋…)๋ฅผ ์ธ์‹ํ•  ๋•Œ, ๊ธฐ๊ณ„๋Š” ์—ฌ์ „ํžˆ ์ธ๊ฐ„์—๊ฒŒ ์‚ฌ์†Œํ•œ ๊ฒฝ์šฐ์—๋„ ๋ช…๋ฐฑํ•œ ์˜ค๋ฅ˜๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค.
๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ์šฐ๋ฆฌ๋Š” ์šฐ๋ฆฌ์˜ ๊ฒฐ๊ณผ๊ฐ€ ์‹œ๊ฐ์  ์ธ์‹์—์„œ ์ธ๊ฐ„ ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ๊ณผ ์ผ์น˜ํ•˜๋Š” ๊ธฐ๊ณ„ ์•Œ๊ณ ๋ฆฌ๋“ฌ์˜ ์—„์ฒญ๋‚œ ์ž ์žฌ๋ ฅ์„ ๋ณด์—ฌ์ค€๋‹ค๊ณ  ๋ฏฟ๋Š”๋‹ค







 

 

 

๐Ÿง ๋…ผ๋ฌธ ๊ฐ์ƒ_์ค‘์š”๊ฐœ๋… ํ•ต์‹ฌ ์š”์•ฝ

"Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification"
Rectified Linear Unit, ์ผ๋ช… ReLU์— ๋Œ€ํ•ด ์‹ฌ์ธต์ ์œผ๋กœ ํƒ๊ตฌํ•œ ํ›„ ReLU๋ฅผ ์†Œ๊ฐœํ•˜๋Š” ์—ฐ๊ตฌ ๋…ผ๋ฌธ์œผ๋กœ ์ด ๋…ผ๋ฌธ์€ ReLU์™€ ๊ทธ ๋ณ€ํ˜• ํ•จ์ˆ˜๋“ค ์ฆ‰, ๋น„ํฌํ™” ๋น„์„ ํ˜•์„ฑ(non-saturating non-linearity)์˜ ํ•จ์ˆ˜๋“ค์˜ ์‚ฌ์šฉ์„ ์ œ์•ˆํ•œ๋‹ค.

 

[ํ•ต์‹ฌ ๊ฐœ๋…]

1. ์ด ๋…ผ๋ฌธ์—์„œ๋Š” Sigmoid๋‚˜ tanh ๊ฐ™์€ ๋‹ค๋ฅธ ํฌํ™” ๋น„์„ ํ˜•์„ฑ(saturating non-linearity) ํ™œ์„ฑํ™” ํ•จ์ˆ˜์— ๋น„ํ•ด ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง ํ›ˆ๋ จ์„ ๊ฐœ์„ ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ๋ฐํ˜€์ง„ ReLU(Rectified Linear Unit) ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์†Œ๊ฐœํ–ˆ๋‹ค.

2. ์ด ๋…ผ๋ฌธ์€ ReLU๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋‹ค๋ฅธ ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ์‹ ๊ฒฝ๋ง์— ๋น„ํ•ด ๊ต์œก ์ค‘์— ๋” ๋น ๋ฅธ ์ˆ˜๋ ด, ImageNet classification ์ž‘์—…์—์„œ ๋” ๋‚˜์€ ์ผ๋ฐ˜ํ™”(generalization) ์„ฑ๋Šฅ, ๋” ๋‚ฎ์€ ์˜ค๋ฅ˜์œจ๋กœ ์ด์–ด์งˆ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค

3. ๋“œ๋กญ์•„์›ƒ ์ •๊ทœํ™” ๋ฐ ๋ฐฐ์น˜ ์ •๊ทœํ™”๋ฅผ ํฌํ•จํ•˜์—ฌ ํ›ˆ๋ จ ํ”„๋กœ์„ธ์Šค์— ๋Œ€ํ•œ ๋ช‡ ๊ฐ€์ง€ ์ˆ˜์ • ์‚ฌํ•ญ์„ ์ œ์•ˆํ•˜์—ฌ ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง์˜ ์„ฑ๋Šฅ์„ ๋”์šฑ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค.

4. ReLU, Dropout ๋ฐ Batch Normalization์˜ ์กฐํ•ฉ์€ ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง์„ ๊ตฌ์ถ•ํ•˜๊ธฐ ์œ„ํ•œ ์ผ๋ฐ˜์ ์ธ ๋ฐฉ๋ฒ•์ด ๋˜์—ˆ์œผ๋ฉฐ ์ดํ›„ ๋งŽ์€ ์ž‘์—…์—์„œ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค.

5. ์ด ๋…ผ๋ฌธ์€ ๋ณด๋‹ค ๊ฐ•๋ ฅํ•˜๊ณ  ํšจ์œจ์ ์ธ ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์˜ ๊ตฌ์ถ•ํ•˜๊ธฐ ์œ„ํ•œ ๋กœ๋“œ๋งต์„ ์ œ๊ณตํ•˜์—ฌ ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง ํ›ˆ๋ จ์„ ์œ„ํ•œ ํ™œ์„ฑํ™” ํ•จ์ˆ˜ ๋ฐ ๊ธฐํƒ€ ๊ธฐ์ˆ ์˜ ์ค‘์š”์„ฑ์„ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.

์ „๋ฐ˜์ ์œผ๋กœ "Delving Deep into Rectifiers" ๋…ผ๋ฌธ์€ ๋”ฅ ๋Ÿฌ๋‹์˜ ์ตœ์‹  ๊ธฐ์ˆ ์„ ๋ฐœ์ „์‹œํ‚ค๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ–ˆ์œผ๋ฉฐ ์ด ๋ถ„์•ผ์— ์ง€์†์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์ณค๋‹ค.

 

 

+ Recent posts