FT의 장점: downstream task로 학습 시, feature extractor와 Linear head 모두 잘 adapt시킬 수 있다. 증명) ID acc가 높음 단점) feature distortion으로 인해 OOD acc가 낮아짐.
주장) 저자는 특정 상황에서 Fine-Tuning이 Linear Probing보다 좀 더 낮은 정확도를 보이는 경우가 있음. ❗️이는 ID와 OOD간의 분포적 차이가 큰 경우에 발생
원인) Fine-Tuning 시, Distorted Pretrain Feature 때문에 발생한다함.
1. Earlty Stopping doesn't mitigate(완화) feature distortion ✔️ FT는 In-Distribution에 overfitting하는 것 ✔️ LP보다 성능이 좋지 않았음.
2. ID-OOD features get distorted from Fine-Tuning ✔️ 정량적 측정: Living-17로 FT한 후와 전의 feature간의 Euclidean거리측정 ✔️ ID: 0.0188 > OOD: 0.0167 ✔️ 즉, ID보다 distortion이 더 적음을 정량적인 측정으로 확인. ✔️ 특히 LP-FT의 경우, 그 차이가 20배 작게 나옴으로써 이론의 타당성을 보임.
3. Feature Distortion: Pretrained features must be good & ID-OOD far apart ✔️ Feature Quality ∙ MoCo-v1 pretrained 이후 Living-17 FT&LP한 경우: ∙ OOD Acc: FT > LP
✔️ ID ≈ OOD ∙ CIFAR-10 & CIFAR-10.1 ∙ OOD Acc: FT > LP
1. Feature Distortion은 FT에 의해 발생 + OOD_Acc를 낮추는 현상을 유발.
2. OOD data에 대한 Robustness를 위해: ✔️ Feature distortion없이 feature들을 보존하는 것이 중요
3. LP-FT는 ID와 OOD Acc간의 trade-off를 완화하는 한 방법.4. Limitations: ✔️ 증명과정에서 non-linear activation이 빠진 점. ✔️ Layer별로 LR을 다르게 하는 경우를 상정해 증명X ✔️ explicit regularization의 효과를 고려X
1. Intro
Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution
🤔i) Fine-Tuning 이란?
Transfer Learning연구분야의 하나의 기법. Transfer Learning: 어떤 문제의 해결지식과 연관된 다른 문제를 풀 때 사용하는 research problem - Fine-Tuning: Updates all parameters of model - Linear Probing: Updates only the parameters of the last linear layer
🤔ii) Out-of-Distribution (OOD)이란?
본 논문의 OOD는 Abnormaly Detection의 하위분야 OOD와는 다른 개념. 본 논문의 OOD: Fine-Tuning 학습시 접하지 못한 Data Distribution (class는 동일, 수집방법이 다른 경우.) ex) CIFAR-10과 STL
주장) 저자는 특정 상황에서 Fine-Tuning이 Linear Probing보다 좀 더 낮은 정확도를 보이는 경우가 있음. ❗️이는 ID와 OOD간의 분포적 차이가 큰 경우에 발생
원인)Fine-Tuning 시, Distorted Pretrain Feature 때문에 발생한다함.
2. Theory
🤔 성능하락 발생 이유 ?
∙ why..? & when..?
1. Feature의 왜곡: Feature Extractor를 거친 후, Representation에서 ID subspace안에서만 바뀌며, 그에 직교하는 subspace상으로는 변하지 않는다. (= gradient=0 = feature가 추출되도록 학습이 불가능함)
이때, Fine-Tuning 학습이 진행되면서 ID Subspace의 방향의 gradient ≠ 0 이기에 Feature Distortion이 발생하며, 이는 더 높은 OOD error를 유발한다. v: linear head, B: Feature Extractor좌측, 우측 모두 ID방향의 정사형은 모두 같음을 볼 수 있음 우측, Fine-Tuning의 경우, ID-subspace의 직교방향으로는 변하지 않음을 알 수 있음. 즉, Feature Extractor를 학습시키면 ID subspace와 평행하게 update가 됨을 알 수 있으며, 이때 Feature distortion이 발생함이 관찰된다.
즉, 저자는 Fine-Tuning의 OOD err의 lower bounded를 정의.
𝜑는 optimal head와 initial head가 얼마나 정렬되어 있는지 측정하는 값.
cos: 유사도를 계산.
ⲉ : pretrained feature의 quality를 의미 (optimal하다면, 0)
🌟 LP-FT (Linear Probing then Fine-Tuning)
저자는 이런 Feature Distortion의 해결책으로 LP-FT를 제안. FT의 장점:downstream task로 학습 시, feature extractor와 Linear head 모두 잘 adapt시킬 수 있다. 증명)ID acc가 높음 단점)feature distortion으로 인해 OOD acc가 낮아짐.
앞선 이론에 따르면, alignment err𝜑가 FT에서 매우 큼. 처음 random값으로 초기화 시𝜑2로 초기에 커지게 되면, Linear head와 feature extractor간의 gradient coupling으로 Feature Distortion이 발생하게 되는 것.
Sol) 저자는 이를 해결하기 위해𝜑를 initialization할 때, 작은 값으로 하는 것으로 생각. ❗️ 그 방법으로 단순히 Linear Probing으로 head를 intialization하고, 그 후 Fine-Tuning을 해버리는 것으로 생각.
다만, SOTA성능은 아니고, 자신들의 이론이 참임을 증명하기 위한 방법론.
3. Experiments
Training Method:
1. Fine-Tuning: ✔️ cos LR schedule ✔️ batch_size: 64 ✔️ early_stopping & choose best lr using ID val_dataset
2. Linear Probing: ✔️ train L2 Regularized Logistic Regression classifier ✔️ select best L2 Regularization hyperparameter using ID val_acc ID AccOOD Acc
다만, ID와 OOD간의 Distribution이 크지 않은 CIFAR-10과 ImageNet간의 경우에는 성능역전현상이 발생X
🌟 실험 후, feature distortion 이론 결과:
1. Earlty Stopping doesn't mitigate(완화) feature distortion ✔️ FT는 In-Distribution에 overfitting하는 것 ✔️ LP보다 성능이 좋지 않았음.
2. ID-OOD features get distorted from Fine-Tuning ✔️ 정량적 측정: Living-17로 FT한 후와 전의 feature간의 Euclidean거리측정 ✔️ ID: 0.0188 > OOD: 0.0167 ✔️ 즉, ID보다 distortion이 더 적음을 정량적인 측정으로 확인. ✔️ 특히 LP-FT의 경우, 그 차이가 20배 작게 나옴으로써 이론의 타당성을 보임.
3. Feature Distortion: Pretrained features must be good & ID-OOD far apart ✔️ Feature Quality ∙ MoCo-v1 pretrained 이후 Living-17 FT&LP한 경우: ∙ OOD Acc: FT > LP
✔️ ID ≈ OOD ∙ CIFAR-10 & CIFAR-10.1 ∙ OOD Acc: FT > LP
4. Conclusion
Summary:
1. Feature Distortion은 FT에 의해 발생 + OOD_Acc를 낮추는 현상을 유발.
2. OOD data에 대한 Robustness를 위해: ✔️ Feature distortion없이 feature들을 보존하는 것이 중요
3. LP-FT는 ID와 OOD Acc간의 trade-off를 완화하는 한 방법.
4. Limitations: ✔️ 증명과정에서 non-linear activation이 빠진 점. ✔️ Layer별로 LR을 다르게 하는 경우를 상정해 증명X ✔️ explicit regularization의 효과를 고려X