https://arxiv.org/abs/2202.10054
0. 핵심 & Main Contribution + 후기
FT의 장점: downstream task로 학습 시, feature extractor와 Linear head 모두 잘 adapt시킬 수 있다.
증명) ID acc가 높음
단점) feature distortion으로 인해 OOD acc가 낮아짐.
주장) 저자는 특정 상황에서 Fine-Tuning이 Linear Probing보다 좀 더 낮은 정확도를 보이는 경우가 있음.
❗️이는 ID와 OOD간의 분포적 차이가 큰 경우에 발생
원인) Fine-Tuning 시, Distorted Pretrain Feature 때문에 발생한다함.
1. Earlty Stopping doesn't mitigate(완화) feature distortion
✔️ FT는 In-Distribution에 overfitting하는 것
✔️ LP보다 성능이 좋지 않았음.
2. ID-OOD features get distorted from Fine-Tuning
✔️ 정량적 측정: Living-17로 FT한 후와 전의 feature간의 Euclidean거리측정
✔️ ID: 0.0188 > OOD: 0.0167
✔️ 즉, ID보다 distortion이 더 적음을 정량적인 측정으로 확인.
✔️ 특히 LP-FT의 경우, 그 차이가 20배 작게 나옴으로써 이론의 타당성을 보임.
3. Feature Distortion: Pretrained features must be good & ID-OOD far apart
✔️ Feature Quality
∙ MoCo-v1 pretrained 이후 Living-17 FT&LP한 경우:
∙ OOD Acc: FT > LP
✔️ ID ≈ OOD
∙ CIFAR-10 & CIFAR-10.1
∙ OOD Acc: FT > LP
1. Feature Distortion은 FT에 의해 발생 + OOD_Acc를 낮추는 현상을 유발.
2. OOD data에 대한 Robustness를 위해:
✔️ Feature distortion없이 feature들을 보존하는 것이 중요
3. LP-FT는 ID와 OOD Acc간의 trade-off를 완화하는 한 방법.4. Limitations:
✔️ 증명과정에서 non-linear activation이 빠진 점.
✔️ Layer별로 LR을 다르게 하는 경우를 상정해 증명X
✔️ explicit regularization의 효과를 고려X
1. Intro
Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution
🤔i) Fine-Tuning 이란?
Transfer Learning연구분야의 하나의 기법.
Transfer Learning: 어떤 문제의 해결지식과 연관된 다른 문제를 풀 때 사용하는 research problem
- Fine-Tuning: Updates all parameters of model
- Linear Probing: Updates only the parameters of the last linear layer
🤔ii) Out-of-Distribution (OOD)이란?
본 논문의 OOD는 Abnormaly Detection의 하위분야 OOD와는 다른 개념.
본 논문의 OOD: Fine-Tuning 학습시 접하지 못한 Data Distribution (class는 동일, 수집방법이 다른 경우.)
ex) CIFAR-10과 STL
주장) 저자는 특정 상황에서 Fine-Tuning이 Linear Probing보다 좀 더 낮은 정확도를 보이는 경우가 있음.
❗️이는 ID와 OOD간의 분포적 차이가 큰 경우에 발생
원인) Fine-Tuning 시, Distorted Pretrain Feature 때문에 발생한다함.
2. Theory
🤔 성능하락 발생 이유 ?
∙ why..? & when..?
1. Feature의 왜곡:
Feature Extractor를 거친 후, Representation에서 ID subspace안에서만 바뀌며,
그에 직교하는 subspace상으로는 변하지 않는다. (= gradient=0 = feature가 추출되도록 학습이 불가능함)
이때, Fine-Tuning 학습이 진행되면서 ID Subspace의 방향의 gradient ≠ 0 이기에
Feature Distortion이 발생하며, 이는 더 높은 OOD error를 유발한다.
좌측, 우측 모두 ID방향의 정사형은 모두 같음을 볼 수 있음
우측, Fine-Tuning의 경우, ID-subspace의 직교방향으로는 변하지 않음을 알 수 있음.
즉, Feature Extractor를 학습시키면 ID subspace와 평행하게 update가 됨을 알 수 있으며, 이때 Feature distortion이 발생함이 관찰된다.
즉, 저자는 Fine-Tuning의 OOD err의 lower bounded를 정의.
𝜑는 optimal head와 initial head가 얼마나 정렬되어 있는지 측정하는 값.
cos: 유사도를 계산.
ⲉ : pretrained feature의 quality를 의미 (optimal하다면, 0)
🌟 LP-FT (Linear Probing then Fine-Tuning)
저자는 이런 Feature Distortion의 해결책으로 LP-FT를 제안.
FT의 장점: downstream task로 학습 시, feature extractor와 Linear head 모두 잘 adapt시킬 수 있다.
증명) ID acc가 높음
단점) feature distortion으로 인해 OOD acc가 낮아짐.
앞선 이론에 따르면, alignment err 𝜑가 FT에서 매우 큼.
처음 random값으로 초기화 시 𝜑2로 초기에 커지게 되면,
Linear head와 feature extractor간의 gradient coupling으로 Feature Distortion이 발생하게 되는 것.
Sol) 저자는 이를 해결하기 위해 𝜑를 initialization할 때, 작은 값으로 하는 것으로 생각.
❗️ 그 방법으로 단순히 Linear Probing으로 head를 intialization하고, 그 후 Fine-Tuning을 해버리는 것으로 생각.다만, SOTA성능은 아니고, 자신들의 이론이 참임을 증명하기 위한 방법론.
3. Experiments
Training Method:
1. Fine-Tuning:
✔️ cos LR schedule
✔️ batch_size: 64
✔️ early_stopping & choose best lr using ID val_dataset
2. Linear Probing:
✔️ train L2 Regularized Logistic Regression classifier
✔️ select best L2 Regularization hyperparameter using ID val_acc
다만, ID와 OOD간의 Distribution이 크지 않은 CIFAR-10과 ImageNet간의 경우에는 성능역전현상이 발생X
🌟 실험 후, feature distortion 이론 결과:
1. Earlty Stopping doesn't mitigate(완화) feature distortion
✔️ FT는 In-Distribution에 overfitting하는 것
✔️ LP보다 성능이 좋지 않았음.
2. ID-OOD features get distorted from Fine-Tuning
✔️ 정량적 측정: Living-17로 FT한 후와 전의 feature간의 Euclidean거리측정
✔️ ID: 0.0188 > OOD: 0.0167
✔️ 즉, ID보다 distortion이 더 적음을 정량적인 측정으로 확인.
✔️ 특히 LP-FT의 경우, 그 차이가 20배 작게 나옴으로써 이론의 타당성을 보임.
3. Feature Distortion: Pretrained features must be good & ID-OOD far apart
✔️ Feature Quality
∙ MoCo-v1 pretrained 이후 Living-17 FT&LP한 경우:
∙ OOD Acc: FT > LP
✔️ ID ≈ OOD
∙ CIFAR-10 & CIFAR-10.1
∙ OOD Acc: FT > LP
4. Conclusion
Summary:
1. Feature Distortion은 FT에 의해 발생 + OOD_Acc를 낮추는 현상을 유발.
2. OOD data에 대한 Robustness를 위해:
✔️ Feature distortion없이 feature들을 보존하는 것이 중요
3. LP-FT는 ID와 OOD Acc간의 trade-off를 완화하는 한 방법.
4. Limitations:
✔️ 증명과정에서 non-linear activation이 빠진 점.
✔️ Layer별로 LR을 다르게 하는 경우를 상정해 증명X
✔️ explicit regularization의 효과를 고려X
'짧.논.리(Short.Paper.Review) > DL.Fundamental' 카테고리의 다른 글
[SPR.DL]: KAN (Kolmogorov–Arnold Networks) (0) | 2024.06.02 |
---|---|
[SPR.DL]: Scaling Laws for AR Generative Models (1) | 2024.04.21 |