๐ง ๋ ผ๋ฌธ ํด์ ๋ฐ ์์ฝ
๐ถ ์ด๋ก (Abstract)
- NLP๋ถ์ผ์์ transformer๊ฐ ์ฌ์ค์ standardํ์์ง๋ง, vision์์๋ ๋งค์ฐ ๋๋ฌผ๊ฒ ์ฌ์ฉ๋์๋ค.
Vision์์๋ attention ์ฌ์ฉ ์, CNN๊ณผ ํผํฉํด ์ฌ์ฉํ๊ฑฐ๋ ์ ์ฒด๊ตฌ์กฐ์์ ๋ช๊ฐ์ ๊ตฌ์ฑ์์๋ง ๋์ฒด๋๋ ๋ฐฉ์์ผ๋ก ์ฌ์ฉ๋์ด ์๋ค.
๋ณธ ์ฐ๊ตฌ๋ CNN์ ์์กดํ๋ ๊ฒ์ด ๋ถํ์ํ๋ฉฐ ์ค์ง transformer๋ง์ผ๋ก image patch๋ค์ sequence๋ฅผ ์ ์ฉํด image classification task์ ๋งค์ฐ ์ ๋์ํจ์ ์คํ์ ์ผ๋ก ์ฆ๋ช ํ์๋ค.
๋ง์ dataset์ pre-trainํ ํ small~midsize์ ์ด๋ฏธ์ง ์ธ์ bench mark dataset์ ์ ์ดํ์ต ์, ์ฌํ CNN๋ณด๋ค ViT๊ฐ ์๊ตฌ๊ณ์ฐ๋์ ์ ์ผ๋ฉด์๋ S.O.T.A๋ฅผ ๋ณด์ฌ์ค๋ค.
1. ์๋ก (Introduction)
- "Self-Attention"๊ธฐ๋ฐ ๊ตฌ์กฐ ํนํ๋ Transformer[Vaswani2017]๋ NLP task์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ฉฐ ๊ฐ์ฅ ์ง๋ฐฐ์ ์ด๊ณ ๋๋ฆฌ ์ฌ์ฉ๋๋ ๋ฐฉ์์ ๋งค์ฐ ๊ธด text์ ๋ํ pre-train ์ดํ ์๊ณ ๊ตฌ์ฒด์ ์ธ task์ dataset์ fine-tuningํ๋ ๊ฒ์ด๋ค.
transformer์ ํน์ง ์ค ํ๋์ธ ๊ณ์ฐ์ ํจ์จ์ฑ๊ณผ ํ์ฅ์ฑ ๋๋ถ์ ์ ๋ก์๋ ํฌ๊ธฐ(100์ต๊ฐ ์ด์์ parameter)์ model์ ํ์ตํ ์ ์๋ค๋ ์ ์ด๋ค. (model๊ณผ dataset ํฌ๊ธฐ์ ์ฆ๊ฐ์๋ ์ฑ๋ฅ์ด saturating๋์ง ์์)
- ๋ค๋ง computer vision์์๋ CNN๋ฐฉ์์ด ์ง๋ฐฐ์ ์ผ๋ก ๋จ์์์ด์ NLP์ ์ฑ๊ณต์ ์๊ฐ์ ์ป์ด CNN์ "Self-Attention"์ ํฉ์น๋ ค๋ ์คํ, Conv.layer๋ฅผ ๋ชจ๋ self-attention์ผ๋ก ๋์ฒดํ๋ ๋ฑ์ด ์ด๋ฃจ์ด์ก๋ค.
ํ์์ ๊ฒฝ์ฐ, ์ด๋ก ์ ์ผ๋ก๋ ํจ์จ์ ์ด์ง๋ง attention์ ๋ ํนํ ๊ณ์ฐ๋ฉ์ปค๋์ฆ์ผ๋ก ํจ์จ์ ์ฌ์ฉ์ด ์ด๋ ต๋ค.
(โต image ์ ์ฒด๋ฅผ ํ๋ฒ์ ๋ฃ๋ ์ฐ์ฐ >>> ๋จ์ด vector์ ๋ํ ์ฐ์ฐ)
๊ทธ๋ ๊ธฐ์ ResNet๊ฐ์ ๋ชจ๋ธ๋ค์ด Large-Scale image์์ S.O.T.A๋ก ๋จ์์๋ค.
- ๋ณธ ์ฐ๊ตฌ๋ NLP์ฑ๊ณต์ ์๊ฐ์ ๋ฐ์ standard transformer architecture์ ๊ตฌ์กฐ๋ฅผ ์กฐ๊ธ ์์ ํ, image์ ์ง์ ์ ์ฉํ๋ ์คํ์ ์งํํ์๋ค.
์ด๋ฅผ ์ํด image๋ฅผ patch๋ก ๋๋๊ณ , ์ด patch๋ค์ linear embedding์ sequence๋ฅผ transformer์ input์ผ๋ก ์ง์ด ๋ฃ๋๋ค.
(patch๋ NLP์ transformer์์ token(word)๊ณผ ๋์ผํ๊ฒ ๋ค๋ฃจ์ด ์ง์ ์๋ฏธํ๋ค.)
- ํ๋ จ ์, ImageNet๊ณผ ๊ฐ์ ์ค๊ฐํฌ๊ธฐ์ dataset์ ๋ํด ๊ฐํ ๊ท์ ํ(regularization)์์ด๋ ๋น์ทํ ํฌ๊ธฐ์ ResNet๊ณผ ๊ฐ์ ๊ตฌ์กฐ์ ๋ชจ๋ธ๋ค์ ๋นํด ์ ํ๋๊ฐ ๋จ์ด์ก๋ค.
์ด์ ๋ํด CNN์ ๋ด์ฌ๋ inductive biases๊ฐ ์์ผ๋ Transformer๋ ๋ด์ฌ๋ inductive biases์ ๋ถ์กฑ์ผ๋ก ์ถฉ๋ถํ์ง ๋ชปํ ์์ dataset์ ๋ํ ํ๋ จ์ ๋ชจ๋ธ์ ์ผ๋ฐํ์ฑ๋ฅ์ด ์ข์ง ์์ ๊ฒ์ด๋ผ ์์ธก ํ์๋ค.
- ๋ค๋ง, 14M~300M์ ๋์ ๋๊ท๋ชจ์ dataset์ ๊ฒฝ์ฐ, inductive biases๋ฅผ ์ฐ์ด๋๋ฌ๋ฒ๋ฆด ์ ์์์ ์ฐ๊ตฌ์ง์ ํ์ธํ๋ค.
ViT๊ฐ ์ถฉ๋ถํ ํฐ dataset์ pre-train๋ ํ ๋ ์์ dataset์ ๋ํด transfer learning์ด ์ด๋ฃจ์ด์ง๊ฒ ๋ ๋, ๊ธฐ์กด์ S.O.T.A๋ชจ๋ธ๋ค์ ์ฑ๋ฅ๊ณผ ๋น์ทํ๊ฑฐ๋ ๋ ๋ฅ๊ฐํ๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค.
cf) the best model reaches the accuracy of 88.55% on ImageNet, 90.72% on ImageNet-ReaL, 94.55% on CIFAR-100, and 77.63% on the VTAB suite of 19 tasks.
2. Related Work
- Transformer[Vaswani2017]๋ NLP๋ถ์ผ์ ๊ธฐ๊ณ๋ฒ์ญ์์ S.O.T.A๋ฐฉ๋ฒ์ด ๋์์ผ๋ฉฐ, Large Transformer๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ ๋งค์ฐ ํฐ ๋ง๋ญ์น(corpora)์ pre-trainํ ํ task์ ๋ชฉ์ ์ ์ ์ดํ์ต(fine-tuning)์ ์งํํ๋ค : BERT[Devlin2019]๋ "Denoising Self-Supervised pre-training task"๋ก ์ฌ์ฉํ๊ณ GPT[Radford2018, 2019, Brown2020]๋ "Language modeling pre-train task"๋ก ํ์ฉํ๋ค.
- image์ ๋ํ Naiveํ "Self-Attention" ์ ์ฉ์ ๊ฐ pixel์ด ๋ค๋ฅธ ๋ชจ๋ pixel์ ์ฃผ๋ชฉ(attend)ํ ๊ฒ์ ์๊ตฌํ๋ค.
(= ํ๋์ pixel์ embedding ์, ๋ค๋ฅธ pixel๋ embedding์ ์ฐธ์ฌํ ๊ฒ์ด ์๊ตฌ๋๋ค๋ ์๋ฏธ)
pixel์์์ 2์ฐจ์ ์ธ ๊ณ์ฐ๋ณต์ก๋๋ฅผ ์ผ๊ธฐํ๋ฉฐ ์ด๋ก ์ธํด ๋ค์ํ input size๋ก ํ์ฅ๋๋ ๊ฒ์ด ์ด๋ ต๋ค.
์ฆ, image processing์ transformer๋ฅผ ์ ์ฉํ๋ ค๋ฉด ๋ช๊ฐ์ง ๊ทผ์ฌ(approximation)๊ฐ ํ์ํ๋ค.
โ local self-attention
โ sparse attention
โ ๋ค์ํ ํฌ๊ธฐ์ block์ scale attention ์ ์ฉ
์ด๋ฐ specialized attention๊ตฌ์กฐ๋ค์ computer vision ๋ถ์ผ์์ ๊ด์ฐฎ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์ง๋ง ํจ์จ์ ๊ตฌํ์ ์ํด์๋ ๋ณต์กํ engineering์ด ํ์ํ๋ค.
- self-attention์ ์ด์ฉํด feature map์ augmentationํ๊ฑฐ๋ CNN์ output์ attention์ ์ถ๊ฐ์ ์ผ๋ก ์ฌ์ฉํ๋ ๋ฑ CNN๊ณผ self-attention์ ์ตํฉํ๋ ค๋ ๋ง์ ์ฐ๊ตฌ๋ ์ด๋ฃจ์ด ์ก๋ค.
- ๋ณธ ์ฐ๊ตฌ์ ๊ฐ์ฅ ๊ด๋ จ์๋ ๋ชจ๋ธ์ Cordonnier2020๋ ผ๋ฌธ์์ ์๊ฐ๋ ๋ชจ๋ธ๋ก input image์์ 2×2 ํฌ๊ธฐ์ patch๋ฅผ ์ถ์ถํ์ฌ top์ full self-attention์ ์ ์ฉํ๋ค. ViT์ ๋น์ทํ์ง๋ง ViT๋ ๋ ์ถ๊ฐ์ ์ธ ์ฆ๋ช ์ ์งํํ๋๋ฐ, ๋๊ท๋ชจ pre-training์ ํ๋ฒํ transformer๊ฐ S.O.T.A์ ๊ฒฝ์๋ ฅ ์๊ฒ ํ๋ค.
์ถ๊ฐ์ ์ผ๋ก Cordonnier2020๋ ผ๋ฌธ์ ๋ชจ๋ธ์ 2×2 piexl์ด๋ผ๋ ์์ ํฌ๊ธฐ์ patch๋ฅผ ์ฌ์ฉํ๋๋ฐ, ์ด๋ small-resolution image์๋ง ์ ์ฉ๊ฐ๋ฅํ๋ค๋ ๋จ์ ์ด ์กด์ฌํ๋ค. (์ฐ๋ฆฌ๋ medium-resolution image๋ฅผ ๋ค๋ฃจ์ง๋ง...)
- ์ต๊ทผ์ ๋๋ค๋ฅธ ๊ด๋ จ์๋ ๋ชจ๋ธ์ iGPT[Chen2020]๋ก iGPT๋ image์ resolution๊ณผ color space๋ฅผ ์ค์ธ ํ pixel๋ค์ transformer๋ฅผ ์ ์ฉํ ์์ฑ๋ชจ๋ธ๋ก์จ "Unsupervised"๋ฐฉ์์ผ๋ก ํ๋ จ๋์๊ณ ์ด๋ฅผ ํตํด ์ป์ด์ง representation์ classification์ ์ํด ์ ์ดํ์ต์ด๋ ์ ํ์ ์ผ๋ก ํ์๋ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ์์๋ก ํ์ฉ ์ ImageNet์์ ์ต๋ ์ ํ๋ 72%๋ก ๋ํ๋๋ค.
- ๋ณธ ์ฐ๊ตฌ๋ ์ถ๊ฐ์ ์ผ๋ก ๊ธฐ์กด ImageNet๋ณด๋ค ๋ ๋ง์ image๋ฅผ ๋ณด์ ํ ์ธ์๋ฐ์ดํฐ์ ์ ํ์ฉํ ์ฐ๊ตฌ์ ์ฐ์ฅ์ ์ผ๋ก CNN์ ์ฑ๋ฅ์ด dataset size์ ๋ฐ๋ผ ์ด๋ป๊ฒ ๋ฌ๋ผ์ง๋ ์ง์ ๋ํ ์ฐ๊ตฌ์ ๋๊ท๋ชจ dataset(ImageNet-21K, JFT-300M)์ ๋ํ CNN์ ์ ์ดํ์ต์ ๋ํด ๊ฒฝํ์ ํ๊ตฌ๋ ์งํํ๋ค. (์ด์ ์ฐ๊ตฌ์ ๋ฌ๋ฆฌ ResNet์ด ์๋ Transformer๋ฅผ ์ฌ์ฉํ์ฌ.)
3. Method
- model ์ค๊ณ์์ ๊ธฐ์กด Transformer[Vaswani2017]๋ฅผ ๊ฐ๋ฅํ ๊ทผ์ ํ๊ฒ ๊ตฌ์ฑํ์ผ๋ฉฐ, ์ด๋ ์ฝ๊ฒ ํ์ฅ๊ฐ๋ฅํ NLP transformer ๊ตฌ์กฐ์ ๋ํ ์ด์ ๊ณผ ํจ์จ์ ์ธ ๊ตฌํ์ด ๊ฐ๋ฅํ๋ค๋ ์ด์ ์ด ๋์ด ๋ณ๋์ ์ค์ ์์ด ๋ฐ๋ก ์ฌ์ฉํ ์ ์๊ฒ ๋๋ค.
3.1 Vision Transformer (ViT)
- ๊ธฐ์กด์ Transformer๋ token embedding์ 1D sequence๋ฅผ input์ผ๋ก ๋ฐ๋๋ค.
- BERT์ [CLS]token์ฒ๋ผ embedding๋ patch๋ค์ ๊ฐ์ฅ ์์ ํ๋์ learnableํ class token embedding vector๋ฅผ ์ถ๊ฐํ๋ค.
- Position Embedding์ image์ ์์น์ ๋ณด๋ฅผ ์ ์งํ๊ธฐ ์ํด patch embedding ์ trainableํ position embeddings๊ฐ ๋ํด์ง๋ค.
image๋ฅผ ์ํด ๊ฐ์ ๋ 2D-aware position embedding์ ์ฌ์ฉํด ๋ณด์์ง๋ง 1D Position Embedding๊ณผ์ ์ ์๋ฏธํ ์ฑ๋ฅํฅ์์ด ์์ด์ "1D Position Embedding"์ ์ฌ์ฉํ๋ค. (Appendix D.4)
์ด๋ ๊ฒ embedding๋ ๋ฒกํฐ๋ค์ sequence๋ฅผ encoder์ ์ ๋ ฅ์ ๋ฃ๋๋ค.
- Transformer์ Encoder๋ถ๋ถ์ Multi-Head Attention(์ 2,3)์ธต๋ค๊ณผ MLP๊ฐ ๊ต์ฐจ๋ก ๊ตฌ์ฑ๋๋๋ฐ, ์ด๋ ํ๋์ image์ด๋๋ผ๋ ์ฐจ์์ ์ชผ๊ฐ ๋ค multi-head๋ฅผ ๊ด์ฐฐํ๋ ํ์์ ๋ณผ ์ ์๋ค.
3.2 Fine-tuning. &. Higher Resolution
4. Experiments
์ฐ๊ตฌ์ง๋ค์ ResNet, ViT, ๊ทธ๋ฆฌ๊ณ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ representation learning capabilities๋ฅผ ํ๊ฐํ๋ค. ๊ฐ ๋ชจ๋ธ์ด ์๊ตฌํ๋ ๋ฐ์ดํฐ์ ์์์ ํ์ ํ๊ธฐ ์ํด ๋ค์ํ ์ฌ์ด์ฆ์ ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ์ ํ๋ จ์ ์งํํ๊ณ ๋ง์ ๋ฒค์น๋งํฌ ํ ์คํฌ์ ๋ํด ํ๊ฐ ์ค์ํ๋ค.
ViT๊ฐ ๋ชจ๋ธ์ ์ฌ์ ํ๋ จ ์ฐ์ฐ ๋๋น ์ฑ๋ฅ ๋ถ๋ถ์์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค๋ณด๋ค ๋ ๋ฎ์ pre-training ๋น์ฉ์ผ๋ก ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค. ๋ง์ง๋ง์ผ๋ก self-supervised๋ฅผ ์ด์ฉํ ์์ ์คํ์ ์ํํด ViT๊ฐ self-supervised์์๋ ๊ฐ๋ฅ์ฑ์ด ์์์ ๋ณด์๋ค.
4.1 Setup
โDatasets
- ๋ชจ๋ธ ํ์ฅ์ฑ(scalability)์ ์กฐ์ฌํ๊ธฐ ์ํด
1,000๊ฐ class์ 1.3M image๊ฐ ์๋ ILSVRC-2012 ImageNet dataset,
21,000 class์ 14M image๊ฐ ์๋ superset ImageNet-21k(Deng2009),
18,000 class์ 303M์ ๊ณ ํด์๋ image์ JFT(Sun2017)๋ฅผ ์ฌ์ฉ.
[Kolesnikov2020]์ ์ด์ด downstream task์ testset์ ํตํด pre-training dataset์ ์ค๋ณต ์ ๊ฑฐ.
์ด dataset์ ๋ํด ํ๋ จ๋ ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ ์ฌ๋ฌ benchmark์ ์ ์ดํ์ต์ ์งํํ๋ค:
์๋ณธ ์ ํจ์ฑ ๊ฒ์ฌ ๋ผ๋ฒจ๊ณผ ์ ๋ฆฌ๋ ReaL ๋ผ๋ฒจ์ ImageNet(Beyer2020), CIFAR-10/100(Krizhevsky2009), Oxford-IIIT Pets(Parkhi2012) ๋ฐ Oxford Flowers-102(Nilsback & Ziserman, 2008).
์ด๋, dataset์ ์ ์ฒ๋ฆฌ๊ณผ์ ์ [Kolesnikov2020]๋ฅผ ๋ฐ๋ฅธ๋ค.
- ๋ํ 19๊ฐ ์์ VTAB classification suite(Zhai 2019)์ ๋ํด์๋ ํ๊ฐํ๋ค.
VTAB๋ task๋น 1,000๊ฐ์ training example๋ค์ ์ฌ์ฉํด ๋ค์ํ task์ ๋ํด ๋ฎ์ data transfer๋ฅผ ํ๊ฐํ๋ค.
task๋ 3๊ฐ์ง๋ก ๋ถ๋ฅ๋๋ค: Natural(Pets, CIFAR), Specialized(์๋ฃ, ์์ฑ์ฌ์ง), Structured(localization๊ฐ์ ๊ธฐํํ์ ์ดํด๊ฐ ํ์ํ ์์ )
โModel Variants
- ํ 1์ ์์ฝ๋ ๊ฒ์ฒ๋ผ BERT(Devlin 2019)์ ์ฌ์ฉ๋ ViT ๊ตฌ์กฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก BERT์์ "Base" ๋ฐ "Large" ๋ชจ๋ธ์ ์ง์ ์ฑํํ๊ณ ๋ ํฐ "Huge" ๋ชจ๋ธ์ ์ถ๊ฐํ๋ค. ํ์ ์์๋ ๋ชจ๋ธ์ ํฌ๊ธฐ์ ์ ๋ ฅ patchํฌ๊ธฐ๋ฅผ ๋ํ๋ด๊ธฐ ์ํด ๊ฐ๋ตํ ํ๊ธฐ๋ฒ์ ์ฌ์ฉ.
ex) ViT-L/16์ 16 × 16์ input patch size๋ฅผ ๊ฐ๋ "Large" variant๋ฅผ ์๋ฏธ.
Transformer์ ์ํ์ค ๊ธธ์ด๋ ํจ์น ํฌ๊ธฐ์ ์ ๊ณฑ์ ๋ฐ๋น๋กํ๋ฏ๋ก ํจ์น ํฌ๊ธฐ๊ฐ ์์ ๋ชจ๋ธ์ ๊ณ์ฐ ๋น์ฉ์ด ๋ ๋ง์ด ๋ ๋ค.
- ๊ธฐ๋ณธ CNN์ ๊ฒฝ์ฐ ResNet์ ์ฌ์ฉํ๋ค.
๋ค๋ง, Batch Normalization(Ioffe & Szegedy, 2015)๋์ Group Normalization(Wu & He, 2018)์ผ๋ก ๋ฐ๊พธ๊ณ ํ์คํ๋ Convolution(Qiao 2019)์ ์ฌ์ฉํ๋ค.
์ด ์์ ์ transfer๋ฅผ ๊ฐ์ ํ๋ฉฐ[Kolesnikov2020], ์ด๋ฅผ "ResNet(BiT)๋ผ ๋ถ๋ฅธ๋ค.
hybrid ์, ์ฐ๋ฆฌ๋ ์ค๊ฐ feature map์ ํ๋์ "pixel"์ patch ํฌ๊ธฐ๋ก ViT์ ์ ๋ฌํ๋ค. ๋ค๋ฅธ ์ํ์ค ๊ธธ์ด๋ฅผ ์คํํ๊ธฐ ์ํด
(i) ์ผ๋ฐ ResNet50์ 4๋จ๊ณ output์ ๊ฐ์ ธ์ค๊ฑฐ๋
(ii) 4๋จ๊ณ ์ ๊ฑฐ, 3๋จ๊ณ์ ๋์ผํ ์์ ๋ ์ด์ด(์ด ๋ ์ด์ด ์ ์ ์ง)๋ฅผ ๋ฐฐ์นํ๊ณ ์ด ํ์ฅ๋ 3๋จ๊ณ ์ถ๋ ฅ์ ๊ฐ์ ธ์จ๋ค.
์ด๋, (ii)๋ฅผ ์ฌ์ฉํ๋ฉด sequence ๊ธธ์ด๊ฐ 4๋ฐฐ ๋ ๊ธธ์ด์ง๊ณ ViT ๋ชจ๋ธ์ ๋น์ฉ์ด ๋ ๋ง์์ง๋ค.
โTraining. &. Fine-tuning
- ResNet์ ํฌํจ, ๋ชจ๋ ๋ชจ๋ธ์ Adam(Kingma & Ba, 2015)์ ์ฌ์ฉํ๋ค. (β1 = 0.9, β2 = 0.999)
batch=4096์ผ๋ก ํ๋ จํ๊ณ ๋ชจ๋ ๋ชจ๋ธ์ transfer์ ์ ์ฉํ 0.1์ด๋ผ๋ ๋์ weight_decay๋ฅผ ์ ์ฉํ๋ค.
(Appendix D.1์ ์ผ๋ฐ์ ์ธ ๊ดํ๊ณผ ๋ฌ๋ฆฌ Adam์ด ResNets์ฉ SGD๋ณด๋ค ์ฝ๊ฐ ๋ ์ ์๋ํจ์ ๋ณด์ฌ์ค๋ค).
linear Learning rate warmup๊ณผ decay๋ฅผ ์ฌ์ฉํ๋ค. (detail์ Appendix B.1์ ์ฐธ์กฐ)
์ ์ดํ์ต ์, ์ด๋๋์ด ์๋ SGD, batch=512๋ฅผ ๋ชจ๋ ๋ชจ๋ธ์ ๋ํด Appendix B.1.1์ ์๊ฐ๋ ๊ฒ์ฒ๋ผ ์ฌ์ฉํ๋ค.
ํ 2์ ImageNet ๊ฒฐ๊ณผ์ ๊ฒฝ์ฐ ViT-L/16์ ๊ฒฝ์ฐ 512, ViT-H/14์ ๊ฒฝ์ฐ 518๋ก ๋ฏธ์ธ ์กฐ์ ํ์ผ๋ฉฐ ํ๊ท ๊ณ์ 0.9999999๋ก [Polyak & Juditsky 1992]๋ฅผ ์ฌ์ฉํ๋ค(Ramachan 2019, 2020).
โMetric
- few-shot์ด๋ ์ ์ดํ์ต ์ ํ๋๋ฅผ ํตํด downstream dataset์ ๋ํ ๊ฒฐ๊ณผ์ ๋ํด ์ค๋ช ํ๋ค.
์ ์ดํ์ต ์ ํ๋๋ ๊ฐ dataset์ ์ ์ดํ์ตํ ์ดํ ๊ฐ ๋ชจ๋ธ์ ์ฑ๋ฅ์ captureํ๋ค.
few-shot์ ์ ํ๋๋ train image์ ํํ์ {-1,1}K ํ์ ๋ฒกํฐ์ ๋งคํํ ์ ๊ทํ๋ ์ต์ ์ ๊ณฑ ํ๊ท(MLE) ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ์ฌ ์ป์ ์ ์๋ค. ์ด ๊ณต์์ ์ฌ์ฉํ๋ฉด ํ์ํ(closed form)์ผ๋ก ์ ํํ ์๋ฃจ์ ์ ๋ณต๊ตฌํ ์ ์์ต๋๋ค.
์ฃผ๋ก ์ ์ดํ์ต์ ์ฑ๋ฅ์ ์ค์ ์ ๋์ง๋ง, ์ ์ดํ์ต๋น์ฉ์ด ๋๋ฌด ๋ง์ด๋ค์ด์ ์ ์ํ ํ๊ฐ๋ฅผ ์ํด ์ ํ ํจ์ท ์ ํ๋๋ฅผ ์ฌ์ฉํ๊ธฐ๋ ํ๋ค.
4.2 Comparision to S.O.T.A
- ๋จผ์ ๊ฐ์ฅ ํฐ ๋ชจ๋ธ์ธ ViT-H/14 ๋ฐ ViT-L/16์ ์ต์ CNN๊ณผ ๋น๊ตํ๋ค.
์ฒซ ๋ฒ์งธ ๋น๊ตํ ์ ์ ๋๊ท๋ชจ ResNets๋ก ๊ฐ๋ ๋ ์ ์ก ํ์ต์ ์ํํ๋ Big Transfer(BiT)์ด๋ค.
๋ ๋ฒ์งธ๋ Noisy Student(Xie 2020)์ผ๋ก, ๋ ์ด๋ธ์ด ์ ๊ฑฐ๋ ์ํ์์ ImageNet ๋ฐ JFT-300M์์ ์ค์ง๋ ํ์ต์ ์ฌ์ฉํ์ฌ ํ๋ จ๋ ๋๊ท๋ชจ EfficientNet์ด๋ค.
- ํ 2์ ๊ฒฐ๊ณผ๋ JFT-300M์์ pre-train๋ ์์ ViT-L/16 ๋ชจ๋ธ์ ๋ชจ๋ ์์ ์์ BiT-L์ ๋ฅ๊ฐํ๋ ๋์์ ํ๋ จ์ ํจ์ฌ ์ ์ ๊ณ์ฐ ๋ฆฌ์์ค๋ฅผ ํ์๋ก ํจ์ ๋ณด์ฌ์ค๋ค.
๋ํ ๋ชจ๋ธ์ธ ViT-H/14๋ ํนํ ImageNet, CIFAR-100 ๋ฐ VTAB suite ๋ฑ ๊น๋ค๋ก์ด dataset์์ ์ฑ๋ฅ์ ๋์ฑ ํฅ์์ํจ๋ค.
ํฅ๋ฏธ๋ก์ด ์ ์, ์ด ๋ชจ๋ธ์ ์ด์ ๊ธฐ์ ๋ณด๋ค pre-train์ ํจ์ฌ ์ ์ ์๊ฐ์ด ์์๋์๋ค.
ํ์ง๋ง pre-train์ ํจ์จ์ฑ์ architecture์ ์ ํ๋ฟ๋ง ์๋๋ผ training schedule, optimizer, weight_decay ๋ฑ ๊ฐ์ ๋ค๋ฅธ parameter์๋ ์ํฅ์ ๋ฐ์ ์ ์๋ค๋ ์ ์ ์ฃผ๋ชฉํ๋ค.
Section 4.4์์๋ ๋ค์ํ architecture์ ๋ํ ์ฑ๋ฅ๊ณผ computing์ ๋ํด ์ ์ด๋ ์ฐ๊ตฌ๋ฅผ ์ ๊ณตํ๋ค.
- ๋ง์ง๋ง์ผ๋ก, ImageNet-21k dataset์ผ๋ก pre-train๋ ViT-L/16 ๋ชจ๋ธ์ ๋๋ถ๋ถ์ dataset์์๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ฐํํ๋ฉด์ pre-train์ ํ์ํ ๋ฆฌ์์ค๋ ๋ ์ ์ต๋๋ค. ์ฝ 30์ผ ๋ด์ 8๊ฐ์ ์ฝ์ด๊ฐ ์๋ ํ์ค ํด๋ผ์ฐ๋ TPUv3๋ฅผ ์ฌ์ฉํ์ฌ ๊ต์ก๋ ์ ์๋ค.
- ๊ทธ๋ฆผ 2๋ VTAB task๋ฅผ ๊ฐ ๊ทธ๋ฃน์ผ๋ก ๋ถํดํ๊ณ , ์ด benchmark์ ์ด์ S.O.T.A ๋ฐฉ๋ฒ์ธ BiT, VIVI - ImageNet ๋ฐ Youtube์์ ๊ณต๋ ๊ต์ก๋ ResNet(Tschannen 2020) ๋ฐ S4L - ImageNet์์ supervised ๋ฐ semi-supervised ํ์ต(Zhai 2019)๊ณผ ๋น๊ตํ๋ค. ViT-H/14๋ Natural ๋ฐ Structure task์์ BiT-R152x4 ๋ฐ ๊ธฐํ ๋ฐฉ๋ฒ์ ๋ฅ๊ฐํ๋๋ฐ, Specialized์์ ์์ ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ ์ฌํ๋ค.
4.3 Pre-training Data Requirements
- ViT๋ ๋๊ท๋ชจ JFT-300M dataset์์ pre-train ์ ์ฑ๋ฅ์ด ์ฐ์ํ๋ฉฐ ResNet๋ณด๋ค Inductive bias๊ฐ ์ ๋ค.
๊ทธ๋ ๋ค๋ฉด dataset์ ํฌ๊ธฐ๋ ์ผ๋ง๋ ์ค์ํ ๊น? ์ ๋ํด 2๊ฐ์ง ์คํ์ ์งํํ๋ค.
โ ํฌ๊ธฐ๊ฐ ์ฆ๊ฐํ๋ dataset์ ๋ํด ViT ๋ชจ๋ธ์ pre-trainํ๋ค: ImageNet, ImageNet-21k ๋ฐ JFT-300M.
์๊ท๋ชจ dataset์ ์ฑ๋ฅ์ ํฅ์์ํค๊ธฐ ์ํด weight_decay, dropout, label-smoothing์ด๋ผ๋ 3๊ฐ์ง ๊ธฐ๋ณธ์ ์ธ Regularization parameter๋ค์ ์ต์ ํํ๋ค. ๊ทธ๋ฆผ 3์ ImageNet์ pre-train๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค
cf. (๋ค๋ฅธ dataset์ ๋ํ ๊ฒฐ๊ณผ๋ ํ 5์ ๋์ ์๋ค).
ImageNet pre-train๋ชจ๋ธ๋ ์ ์ดํ์ต๋์ด์์ผ๋ ImageNet์์๋ ๋ค์ ์ ์ดํ์ต์ด ์งํ๋๋ค. (์ ์ดํ์ต ์ ํด์๋๊ฐ ๋์์ง๋ฉด ์ฑ๋ฅ์ด ํฅ์๋๊ธฐ ๋๋ฌธ).
๊ฐ์ฅ ์์ dataset์ธ ImageNet์์ pre-train ์, ViT-Large ๋ชจ๋ธ์ (moderate) regularization์๋ ๋ถ๊ตฌํ๊ณ ViT-Base ๋ชจ๋ธ์ ๋นํด ์ฑ๋ฅ์ด ๋จ์ด์ง๋ค. JFT-300M๋ง ์์ผ๋ฉด ๋ ํฐ ๋ชจ๋ธ์ ์ด์ ์ ์ต๋ํ ๋๋ฆด ์ ์๋๋ฐ, ๊ทธ๋ฆผ 3์ ๋ํ ๋ค์ํ ํฌ๊ธฐ์ BiT ๋ชจ๋ธ์ด ์ฐจ์งํ๋ ์ฑ๋ฅ ์์ญ์ ๋ณด์ฌ์ค๋ค. BiT CNN์ ImageNet์์ ViT๋ฅผ ๋ฅ๊ฐํ์ง๋ง dataset์ด ํด์๋ก ViT๊ฐ ์์๋ ๊ฒ์ ์ ์ ์๋ค.
โก 9M, 30M ๋ฐ 90M์ ๋๋ค ํ์ ์งํฉ๊ณผ ์ ์ฒด JFT-300M dataset์ ๋ํ ๋ชจ๋ธ์ ๊ต์กํ๋ค.
์ด๋, ๋ ์์ ํ์ ์งํฉ์ ๋ํด ์ถ๊ฐ์ ์ธ ์ ๊ทํ๋ฅผ ์ํํ์ง ์๊ณ ๋ชจ๋ ์ค์ ์ ๋ํด ๋์ผํ hyper-parameter๋ฅผ ์ฌ์ฉํ๋ค.
์ด ๋ฐฉ์์ผ๋ก, regularization์ ํจ๊ณผ๊ฐ ์๋๋ผ ๋ณธ์ง์ ์ธ ๋ชจ๋ธ ํน์ฑ์ ํ๊ฐํฉ๋๋ค.
ํ์ง๋ง, Early Stop์ ์ฌ์ฉํ๊ณ , training ์ค ๋ฌ์ฑํ ์ต๊ณ ์ validation accuracy๋ฅผ ์๋ ค์ค๋ค.
๊ณ์ฐ์ ์ ์ฝํ๊ธฐ ์ํด ์ ์ฒด์ ์ ์ดํ์ต ์ ํ๋ ๋์ few-shot linear accuracy๋ฅผ ์๋ ค์ฃผ๋ฉฐ, ์ด๋ ๊ทธ๋ฆผ 4์๋ ๊ฒฐ๊ณผ๊ฐ ๋์ ์๋ค. ViT๋ ์๊ท๋ชจ dataset์์ ๋น์ทํ ๊ณ์ฐ ๋น์ฉ์ผ๋ก ResNet๋ณด๋ค ๋ ์ ํฉํ๋ค.
ex) ViT-B/32๋ ResNet50๋ณด๋ค ์ฝ๊ฐ ๋น ๋ฅด๋ค.
9M ํ์ ์งํฉ์์๋ ์ฑ๋ฅ์ด ํจ์ฌ ๋จ์ด์ง์ง๋ง 90M+ ํ์ ์งํฉ์์๋ ์ฑ๋ฅ์ด ๋ ์ฐ์ํ๋ฐ, ResNet152x2 ๋ฐ ViT-L/16์ ๋ํด์๋ ๋ง์ฐฌ๊ฐ์ง์ด๋ค. ์ด ๊ฒฐ๊ณผ๋ Convolution์ Inductive Bias๊ฐ ์์ dataset์ ์ ์ฉํ๋ค๋ ์ง๊ด์ ๊ฐํํ๋ค.
ํ์ง๋ง, ํฐ dataset์ ๊ฒฝ์ฐ ๊ด๋ จ ํจํด์ ๋ฐ์ดํฐ์์ ์ง์ ํ์ตํ๋ ๊ฒ๋ง์ผ๋ก๋ ์ถฉ๋ถํ๊ณ , ์ฌ์ง์ด ์ ์ฉํ๋ค.
4.4. Scaling Study
- JFT-300M์ transfer ์ฑ๋ฅ์ ํ๊ฐํ์ฌ ๋ค์ํ ๋ชจ๋ธ์ ๋ํด ์ ์ด๋ scaling ์ฐ๊ตฌ๋ฅผ ์งํํ๋ค.
์ด ์ค์ ์์ ๋ฐ์ดํฐ ํฌ๊ธฐ๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ณ๋ชฉ ํ์์ ์ผ์ผํค์ง ์์ผ๋ฉฐ, ๊ฐ ๋ชจ๋ธ์ accuracy/pre-train cost๋ฅผ ํ๊ฐํ๋ค.
model set์ ๋ค์๊ณผ ๊ฐ๋ค.
- 7 epochs์ ๋ํด ์ฌ์ ํ๋ จ๋ ResNets(R50x1, R50x2 R101x1, R152x1, R152x2, R152x2)
- 7 epochs์ ๋ํด ์ฌ์ ํ๋ จ๋ R16 ๋ฐ R1450
- 14 epochs์ ๋ํด ์ฌ์ ํ๋ จ๋ R152x2 ๋ฐ R200x3
- 14 epochs์ ๋ํด ์ฌ์ ํ๋ จ๋ ViT-B/32, B/16, L/32, L/16
- 14 epochs์ ๋ํด ์ฌ์ ํ๋ จ๋ R50+ViT-L/16
(hybrid์ ๊ฒฝ์ฐ ๋ชจ๋ธ ์ด๋ฆ ๋ ์ซ์๋ patch size๊ฐ ์๋, ResNet ๋ฐฑ๋ณธ์ ์ด downsampling๋น์จ์ ๋ํ๋ธ๋ค).
- ๊ทธ๋ฆผ 5์๋ ์ด ์ฌ์ ๊ต์ก ๊ณ์ฐ ๋๋น ์ด์ ์ฑ๋ฅ์ด ๋์ ์๋ค(compute detail: Appendix D.5 ; model๋ณ detail: Appendix์ ํ 6).
์ด์ ๋ํด ๋ช ๊ฐ์ง ํจํด์ ๊ด์ฐฐํ ์ ์๋ค:
i) ViT๋ accuracy/computing ์ ์ถฉ์์ ResNets๋ฅผ ์๋ํ๋ค. ViT๋ ๋์ผํ ์ฑ๋ฅ์ ์ป๊ธฐ ์ํด ์ฝ 2~4๋ฐฐ ์ ์ ์ปดํจํ ์ ์ฌ์ฉํ๋ค(ํ๊ท 5๊ฐ ์ด์์ dataset).
ii) hybrid๋ ์ ์ computing์ผ๋ก ViT๋ฅผ ์ฝ๊ฐ ๋ฅ๊ฐํ๋, ๋ ํฐ ๋ชจ๋ธ์์๋ ๊ทธ ์ฐจ์ด๊ฐ ์ฌ๋ผ์ง๋ค.
์ด ๊ฒฐ๊ณผ๋ Convolution์ local feature processing์ด ๋ชจ๋ ํฌ๊ธฐ์์ ViT๋ฅผ ์ง์ํ ๊ฒ์ผ๋ก ์์ํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ค์ ๋๋ผ์ด ๊ฒฐ๊ณผ๋ผ ํ ์ ์๋ค.
iii) ViT๋ ์๋ํ ๋ฒ์ ๋ด์์ ํฌํ๋์ง ์๋ ๊ฒ์ผ๋ก ๋ํ๋ ํฅํ ํ์ฅ ๋ ธ๋ ฅ์ ๋๊ธฐ๋ฅผ ์ค๋ค.
4.5. Inspecting Vision Transformer
- ViT๋ image data์ฒ๋ฆฌ๋ฐฉ๋ฒ์ดํด๋ฅผ ์ํด internal-representation์ ๋ถ์ํ๋ค.
ViT์ ์ฒซ์ธต์ flattened patch๋ฅผ ๋ฎ์ ์ฐจ์์ ๊ณต๊ฐ(Eq.1)์ผ๋ก linearly projectํ๋ค.
๊ทธ๋ฆผ 7(์ผ์ชฝ)์ ํ์ต๋ embedding filter์ ์ฃผ์ ๊ตฌ์ฑ์์๋ฅผ ๋ณด์ฌ์ค๋ค. ๊ตฌ์ฑ์์๋ ๊ฐ patch๋ด fine-structure๋ฅผ ๋ฎ์ ์ฐจ์์ผ๋ก ํํํ๊ธฐ ์ํ ๊ทธ๋ด๋ฏํ ๊ธฐ๋ณธํจ์์ ์ ์ฌํ๋ค.
- ํฌ์ํ ํ, ํ์ต๋ position embedding์ด patch์ representation์ ์ถ๊ฐ๋๋ค.
๊ทธ๋ฆผ 7(๊ฐ์ด๋ฐ)์ ๋ชจ๋ธ์ด position embedding์ ์ ์ฌ์ฑ์์ image๋ด distance๋ฅผ encodingํ๋ ๋ฐฉ๋ฒ์ ํ์ตํ๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
์ฆ, ๋ ๊ฐ๊น์ด patch๋ ๋ ์ ์ฌํ position embedding์ ๊ฐ๋ ๊ฒฝํฅ์ด ์๋ค.
- ๋ํ ํ-์ด(row-column) ๊ตฌ์กฐ๊ฐ ๋ํ๋๋ค. ๋์ผํ ํ/์ด์ ์๋ ํจ์น๋ ์ ์ฌํ ์๋ฒ ๋ฉ์ ๊ฐ๋๋ค.
- ๋ง์ง๋ง์ผ๋ก, sinํ์ ๊ตฌ์กฐ๋ ๋๋๋ก ๋ ํฐ grid(Appendix D)์ apparentํ๋ฐ, position embedding์ด 2D-image topology๋ฅผ ํํํ๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ด๋ค๋ ๊ฒ์ ์ง์ ์ค๊ณ๋ 2D-aware embedding์ด ๊ฐ์ ๋์ง ์๋ ์ด์ ๋ฅผ ์ค๋ช ํ๋ค.(Appendix D.4)
- Self-Attention์ ํตํด ViT๋ ์ ์ฒด์ ์ผ๋ก ์ ๋ณด๋ฅผ ํตํฉํ ์ ์๋๋ฐ, ๊ฐ์ฅ ๋ฎ์ ์ธต์์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋ค. ์ฐ๊ตฌ์๋ค์ ์ ๊ฒฝ๋ง์ด ์ด ์์ฉ๋ ฅ์ ์ด๋์ ๋๊น์ง ์ฌ์ฉํ๋์ง ์กฐ์ฌํ๋ค.
ํนํ attention weight๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ ๋ณด๊ฐ ํตํฉ๋๋ image space์ average distance๋ฅผ ๊ณ์ฐํ๋ค(๊ทธ๋ฆผ 7, ์ค๋ฅธ์ชฝ).
์ด "attention distance"๋ CNN์ receptive field size์ ๋น์ทํ๋ค.
- ์ฐ๊ตฌ์๋ค์ ์ผ๋ถ head๊ฐ ์ด๋ฏธ ๋ฎ์ ์ธต์ ์๋ ๋๋ถ๋ถ์ image์ ์ฃผ๋ชฉ์ ํ๋๊ฒ์ ๋ฐ๊ฒฌ, ์ ๋ณด๋ฅผ globalํ๊ฒ ํตํฉํ๋ ํน์ง์ด ๋ชจ๋ธ์ ์ค์ ๋ก ์ฌ์ฉ๋๋๊ฒ์ ๋ณด์ฌ์ค๋ค. ๋ค๋ฅธ attention heads๋ ๋ฎ์ ์ธต์์ ์ผ๊ด๋๊ฒ attention distance๊ฐ ์๋ค. ์ด๋ ๊ฒ ๊ณ ๋๋ก localํ๊ฒ ๋ attention์ transformer(๊ทธ๋ฆผ 7, ์ค๋ฅธ์ชฝ)์ด์ ์ ResNet์ ์ ์ฉํ๋ hybrid ๋ชจ๋ธ์์ ๋ ๋๋๋ฌ์ง๋ฉฐ, ์ด๋ CNN์ ์ด๊ธฐ convolution์ธต๊ณผ ์ ์ฌํ ๊ธฐ๋ฅ์ ์ํํ ์ ์์์ ๋ณด์ฌ์ค๋ค.
๋ํ ์ ๊ฒฝ๋ง์ ๊น์ด์ ๋ฐ๋ผ attention distance๊ฐ ์ฆ๊ฐํ๋๋ฐ, Globalํ๊ฒ ๋ชจ๋ธ์ด clasification๊ณผ ์๋ฏธ๋ก ์ (semantically)์ผ๋ก ๊ด๋ จ์ด ์๋ image์ ์์ญ์ ์ฃผ๋ชฉํจ์ ๋ฐ๊ฒฌํ ์ ์๋ค. (๊ทธ๋ฆผ 6).
4.6. Self-Supervision
- Transformer๋ NLP ์์ ์์ ์ธ์์ ์ธ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์ง๋ง, ๊ทธ๋ค์ ์ฑ๊ณต์ ๋๋ถ๋ถ์ ๋ฐ์ด๋ ํ์ฅ์ฑ๋ฟ๋ง ์๋๋ผ ๋๊ท๋ชจ self-supervised pretraining(Devlin 2019; Radford 2018)์์ ๋น๋กฏ๋ฉ๋๋ค. ๋ํ BERT์์ ์ฌ์ฉ๋๋ masked language modeling task๋ฅผ ๋ชจ๋ฐฉํด self-supervision์ ์ํ masked patch prediction์ ๋ํ ์๋น ํ์์ ์ํํ๋ค.
"Self-supervised pre-training"์ ํตํด, ์ฐ๋ฆฌ์ ์์ ViT-B/16 ๋ชจ๋ธ์ ImageNet์์ 79.9%์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๊ณ , ์ฒ์๋ถํฐ ๊ต์ก์ ๋ํด 2%์ ์๋นํ ๊ฐ์ ์ ์ด๋ฃจ๋, ์ฌ์ ํ supervised pre-training์ ๋นํด 4% ๋ค๋จ์ด์ ธ ์์ต๋๋ค. Appendix B.1.2์๋ ์ถ๊ฐ detail์ด ์กด์ฌํ๋ค.
5. Conclusion
- ์ฐ๊ตฌ์ง๋ค์ image ์ธ์์ ๋ํ transformer์ ์ง์ ์ ์ธ ์ ์ฉ์ ํ๊ตฌํ๋ฉฐ ์ด์ ์ ์ฐ๊ตฌ๋ค์์ computer vision์ "self-attention"์ ์ฌ์ฉํ ๊ฒ๊ณผ ๋ฌ๋ฆฌ ์ด๊ธฐ patch์์ฑ์ ์ ์ธํ๊ณ image๋ณ inductive biases๋ฅผ architecture์ ๋์ ํ์ง ์๋๋ค.
๋์ , image๋ฅผ ์ผ๋ จ์ patch๋ก ํด์ํด ๊ธฐ๋ณธ Transformer์ Encoder๋ก ์ฒ๋ฆฌํ๋ค.
์ด๋ ๋จ์ํ์ง๋ง ํ์ฅ๊ฐ๋ฅํ๊ธฐ์ ๋๊ท๋ชจ dataset์ ๋ํ pre-train๊ณผ ๊ฒฐํฉํ๊ฒ ๋๋ฉด ๋งค์ฐ ์ ์๋ํ๋ค.
๋ฐ๋ผ์ ViT๋ ๋ง์ S.O.T.A๋ชจ๋ธ๊ณผ ๋น์ทํ๊ฑฐ๋ ๋ฅ๊ฐํ์ง๋ง pre-train์ ์๋์ ์ผ๋ก cheapํ๊ฒ ์๋ํ๋ค.
- ๋ณธ ์ฐ๊ตฌ์ ์ด๋ฐ ์์ด์ ์ธ ๊ฒฐ๊ณผ๋ ๊ณ ๋ฌด์ ์ด๋ผ ํ ์ ์์ผ๋ ๋ง์ ๊ณผ์ ๊ฐ ์ฌ์ ํ ๋จ์์๋๋ฐ,
โ Detection, Segmentation ๋ฑ์ Computer Vision์ ์ ์ฉํ๋ ๊ฒ๊ณผ
โก "Self-Supervised pre-training"์ ๋ํ ๋ฐฉ๋ฒ์ ์ฐพ๋ ๊ฒ์ด๋ค.
์ฐ๋ฆฌ์ ์ด ์ด๊ธฐ์คํ์ "Self-Supervised pre-training"์ ๊ฐ์ ์ ๋ณด์ฌ์ฃผ๊ธด ํ์ง๋ง ๋๊ท๋ชจ "Supervised pre-training"๋ณด๋ค๋ ์ฌ์ ํ ํฐ ๊ฒฉ์ฐจ๊ฐ ์กด์ฌํ๊ธฐ์ ViT์ ์ถ๊ฐ์ ์ธ ํ์ฅ์ ์ฑ๋ฅํฅ์์ ์ฌ์ง๋ฅผ ๋ณด์ฌ์ค๋ค.
๐ถ ๋ถ๋ก (Appendix)
[A] Multi-Head Self Attention
[B] Experiment Details
์ด๋ฅผ ์ํด, training set์ ์์ ๋ถ๋ถ์ validation set์ผ๋ก ์ค์ ํ๋ค. (CIFAR์ 2%, ImageNet์ 1%)ResNet์ ๊ฒฝ์ฐ, [Kolesnikov2020]์ ๋ฐ๋ฅด๋ฉฐ ๋ชจ๋ fine-tuning ์คํ์ 384 resolution์์ ์คํ๋๋ค.
[Kolesnikov2020]์ ๋ฐ๋ฅด๋ฉด, training๊ณผ ๋ค๋ฅธ resolution์ผ๋ก fine-tuning์ ํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด๋ค.
[C] Additional Results
๋ ผ๋ฌธ์ ์ ์๋ ์์น์ ํด๋นํ๋ ์ธ๋ถ ๊ฒฐ๊ณผ๋ก ํ 5๋ ๋ ผ๋ฌธ์ ๊ทธ๋ฆผ 3์ ํด๋นํ๋ฉฐ ํฌ๊ธฐ๊ฐ ์ฆ๊ฐํ๋ dataset์์ ์ฌ์ ํ๋ จ๋ ๋ค์ํ ViT ๋ชจ๋ธ์ ์ ์ดํ์ต ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค: ImageNet, ImageNet-21k ๋ฐ JFT-300M.
ํ 6์ ๋ ผ๋ฌธ์ ๊ทธ๋ฆผ 5์ ํด๋นํ๋ฉฐ ๋ค์ํ ํฌ๊ธฐ์ ViT, ResNet ๋ฐ ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ์ ์ ์ก ์ฑ๋ฅ๊ณผ ์ฌ์ ๊ต์ก์ ์์ ๊ณ์ฐ ๋น์ฉ์ ๋ณด์ฌ์ค๋ค.
[D] Additional Analyses