https://arxiv.org/abs/2202.10054

 

Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution

When transferring a pretrained model to a downstream task, two popular methods are full fine-tuning (updating all the model parameters) and linear probing (updating only the last linear layer -- the "head"). It is well known that fine-tuning leads to bette

arxiv.org

 

0. 핵심 & Main Contribution + 후기

FT의 장점: downstream task로 학습 시, feature extractor와 Linear head 모두 잘 adapt시킬 수 있다.
증명) ID acc가 높음
단점) feature distortion으로 인해 OOD acc가 낮아짐.

주장) 저자는 특정 상황에서 Fine-Tuning이 Linear Probing보다 좀 더 낮은 정확도를 보이는 경우가 있음.
❗️이는 ID와 OOD간의 분포적 차이가 큰 경우에 발생

원인) Fine-Tuning 시, Distorted Pretrain Feature 때문에 발생한다함.



1. Earlty Stopping doesn't mitigate(완화) feature distortion
  ✔️ FT는 In-Distribution에 overfitting하는 것
  ✔️ LP보다 성능이 좋지 않았음.

2. ID-OOD features get distorted from Fine-Tuning
  ✔️ 정량적 측정: Living-17로 FT한 후와 전의 feature간의 Euclidean거리측정
  ✔️ ID: 0.0188 > OOD: 0.0167 
  ✔️ 즉, ID보다 distortion이 더 적음을 정량적인 측정으로 확인.
  ✔️ 특히 LP-FT의 경우, 그 차이가 20배 작게 나옴으로써 이론의 타당성을 보임.

3. Feature Distortion: Pretrained features must be good & ID-OOD far apart
  ✔️ Feature Quality
    ∙ MoCo-v1 pretrained 이후 Living-17 FT&LP한 경우:
    ∙ OOD Acc: FT > LP

  ✔️ ID ≈ OOD
    ∙ CIFAR-10 & CIFAR-10.1
    ∙ OOD Acc: FT > LP



1. Feature Distortion은 FT에 의해 발생 + OOD_Acc를 낮추는 현상을 유발.

2. OOD data에 대한 Robustness를 위해: 
  ✔️ Feature distortion없이 feature들을 보존하는 것이 중요

3. LP-FT는 ID와 OOD Acc간의 trade-off를 완화하는 한 방법.4. Limitations:
  ✔️ 증명과정에서 non-linear activation이 빠진 점.
  ✔️ Layer별로 LR을 다르게 하는 경우를 상정해 증명X
  ✔️ explicit regularization의 효과를 고려X

 

 

 

 

 

1. Intro

Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution

🤔i) Fine-Tuning 이란?

Transfer Learning연구분야의 하나의 기법.
Transfer Learning: 어떤 문제의 해결지식과 연관된 다른 문제를 풀 때 사용하는 research problem
  - Fine-Tuning: Updates all parameters of model
  - Linear Probing: Updates only the parameters of the last linear layer

🤔ii) Out-of-Distribution (OOD)이란?

본 논문의 OOD는 Abnormaly Detection의 하위분야 OOD와는 다른 개념.
본 논문의 OOD: Fine-Tuning 학습시 접하지 못한 Data Distribution (class는 동일, 수집방법이 다른 경우.)
ex) CIFAR-10과 STL

 

주장) 저자는 특정 상황에서 Fine-Tuning Linear Probing보다 좀 더 낮은 정확도를 보이는 경우가 있음.
❗️이는 ID와 OOD간의 분포적 차이가 큰 경우에 발생

원인) Fine-Tuning 시, Distorted Pretrain Feature 때문에 발생한다함.

 

 

 

2. Theory

🤔 성능하락 발생 이유 ?

∙ why..?   &   when..?

1. Feature의 왜곡:
Feature Extractor를 거친 후, Representation에서 ID subspace안에서만 바뀌며,
그에 직교하는 subspace상으로는 변하지 않는다. (= gradient=0 = feature가 추출되도록 학습이 불가능함)

이때, Fine-Tuning 학습이 진행되면서 ID Subspace의 방향의 gradient ≠ 0 이기에
Feature Distortion이 발생하며, 이는 더 높은 OOD error를 유발한다.
v: linear head,  B: Feature Extractor
좌측, 우측 모두 ID방향의 정사형은 모두 같음을 볼 수 있음
우측, Fine-Tuning의 경우, ID-subspace의 직교방향으로는 변하지 않음을 알 수 있음.
즉, Feature Extractor를 학습시키면 ID subspace와 평행하게 update가 됨을 알 수 있으며, 이때 Feature distortion이 발생함이 관찰된다.


즉, 저자는 Fine-Tuning의 OOD err의 lower bounded를 정의.

𝜑는 optimal head와 initial head가 얼마나 정렬되어 있는지 측정하는 값.

cos: 유사도를 계산.

ⲉ : pretrained feature의 quality를 의미 (optimal하다면, 0)

🌟  LP-FT (Linear Probing then Fine-Tuning)

저자는 이런 Feature Distortion의 해결책으로 LP-FT를 제안.
FT의 장점: downstream task로 학습 시, feature extractor와 Linear head 모두 잘 adapt시킬 수 있다.
증명) ID acc가 높음
단점) feature distortion으로 인해 OOD acc가 낮아짐.

앞선 이론에 따르면, alignment err 𝜑가 FT에서 매우 큼.
처음 random값으로 초기화 시 𝜑2로 초기에 커지게 되면,
Linear head와 feature extractor간의 gradient coupling으로 Feature Distortion이 발생하게 되는 것.

Sol) 저자는 이를 해결하기 위해 𝜑를 initialization할 때, 작은 값으로 하는 것으로 생각.
❗️ 그 방법으로 단순히 Linear Probing으로 head를 intialization하고, 그 후 Fine-Tuning을 해버리는 것으로 생각.

다만, SOTA성능은 아니고, 자신들의 이론이 참임을 증명하기 위한 방법론.

 

 

 

 

3. Experiments


Training Method:

1. Fine-Tuning:
  ✔️ cos LR schedule
  ✔️ batch_size: 64
  ✔️ early_stopping & choose best lr using ID val_dataset

2. Linear Probing:

  ✔️ train L2 Regularized Logistic Regression classifier
  ✔️ select best L2 Regularization hyperparameter using ID val_acc
ID Acc
OOD Acc
다만, ID와 OOD간의 Distribution이 크지 않은 CIFAR-10과 ImageNet간의 경우에는 성능역전현상이 발생X




🌟 실험 후, feature distortion 이론 결과:

1. Earlty Stopping doesn't mitigate(완화) feature distortion
  ✔️ FT는 In-Distribution에 overfitting하는 것
  ✔️ LP보다 성능이 좋지 않았음.

2. ID-OOD features get distorted from Fine-Tuning
  ✔️ 정량적 측정: Living-17로 FT한 후와 전의 feature간의 Euclidean거리측정
  ✔️ ID: 0.0188 > OOD: 0.0167 
  ✔️ 즉, ID보다 distortion이 더 적음을 정량적인 측정으로 확인.
  ✔️ 특히 LP-FT의 경우, 그 차이가 20배 작게 나옴으로써 이론의 타당성을 보임.

3. Feature Distortion: Pretrained features must be good & ID-OOD far apart
  ✔️ Feature Quality
    ∙ MoCo-v1 pretrained 이후 Living-17 FT&LP한 경우:
    ∙ OOD Acc: FT > LP

  ✔️ ID ≈ OOD
    ∙ CIFAR-10 & CIFAR-10.1
    ∙ OOD Acc: FT > LP

 

 

 

 

 

 

4. Conclusion

Summary:

1. Feature DistortionFT에 의해 발생 + OOD_Acc를 낮추는 현상을 유발.

2. OOD data에 대한 Robustness를 위해:
  ✔️ Feature distortion없이 feature들을 보존하는 것이 중요

3. LP-FT는 ID와 OOD Acc간의 trade-off를 완화하는 한 방법.

4. Limitations:
  ✔️ 증명과정에서 non-linear activation이 빠진 점.
  ✔️ Layer별로 LR을 다르게 하는 경우를 상정해 증명X
  ✔️ explicit regularization의 효과를 고려X

+ Recent posts