Survey Paper

∙ Deep Domain Adaptive Object Detection: a Survey (IEEE 2020)

∙ Unsupervised Domain Adaptation of Object Detectors: A Survey (IEEE 2023)

 

 

 

Conference Paper

Domain Adaptive Faster R-CNN for Object Detection in the Wild (CVPR 2018)

 Abstract

일반적으로 Detection시, trainingset과 testset이 동일한 분포일 것이라 가정. 즉, 분포가 달라지면 성능이 떨어질 수 밖에 없음

🧐 저자의 제안:

Detection에서 cross-domain 강화에 초점.
2개의 Domain Shift를 다룬다.
  i) Img수준의 변화 --ex) style, 조명 등
  ii) Instance수준의 변화 --ex) 객체외관, 크기 등

SOTA인 Faster R-CNN을 사용,

위에서 말한 2개의 DAC(Domain Adaptation Component)를 삽입해 Domain불일치를 감소시킴


2개의 DAC의 경우, H-Divergence이론에 기반, 적대적 훈련방식으로 Domain Classifier를 학습해 구현.
(
To address the domain shift, we incorporate two do- main adaptation components on image level and instance level into the Faster R-CNN model to minimize the H- divergence between two domains.)


서로다른 Domain Classifier는 일관성규제를 통해 강화되어 RPN학습에 사용

Dataset: Cityscapes, KITTI, SIM10K 등


 

 Image-level. vs. Instance-level Alignment

이미지 수준과 인스턴스 수준 Adaptation의 영향을 더 자세히 분석하기 위해 KITTI → Cityscapes에서 scale변화실험 수행.
Scale 변화 = 모든 인스턴스와 배경에 영향을 미치는 전역적인 변환


tgt img scale변화 → scale불일치 시 vanilla-Faster R-CNN(ex. non-adapt비적응)의 성능이 크게감소.

두 adaptation에 대해 scale변화에 대한 견고성: Imgae > Instance

저자의 설계: 전역 도메인 변화가 주로 Image-level의 조정으로 해결.
Instance-level은 불일치를 최소화하기 위해 사용되며, 심각한 전역 도메인 변화가 발생할 때 Instance 제안의 위치 결정 오류가 증가하기 때문.

그럼에도 불구하고 두 방법을 모두 사용하는 것이 모든 스케일에서 최상의 결과를 얻습니다. 
cf) Scale이 증가할수록 성능↑




 Conclusion





새로운 Domain에도 추가적인 Labeling한 Data없이 잘 탐지할 수 있음.

2가지 방식을 제안.
  i) Img수준의 Adaptation Component
  ii) Instance수준의 Adaptation Component

위의 Adaptation Component는 H-Divergence의 적대적훈련에 기반.

Consistency Regularizer는 추가적으로 Domain에 불변한 RPN을 학습하기 위해 적용됨.


 

 

 

 

 

 

 

 

 

Progressive Domain Adaptation for Object Detection (WACV 2020)

 Abstract


다른 Domain에 적용은 Image의 Distribution이 다르기에 일반화가 쉽지 않다. Domain Adaptation은 존재하는 label을 testing data에 target하는 것이지만, 매우 challengeable하다.


🧐 저자의 제안:

중간 도메인(Intermediate Domain)을 활용.
도메인 간 차이를 줄이고 점진적으로 더 쉬운 적응 하위 작업들을 해결하는 방법.

[중간도메인]
Src를 translate→Tgt을 모방해 구축
Domain Shift문제해결을 위해 feature수준의 분포를 맞추도록 "Adversarial Learning"을 수행.

추가적으로 중간 Domain의 불균형한 img품질을 다루기 위해 weighted task Loss가 적용됨.



 

Progressive Domain Adaptation Framework




 Conclusion


Src→Tgt 이미지로의 변환에 대해 Intermediate Domain을 추가해 Domain Gap간의 교량역할을 진행.

Intermediate Domain 과정:
i) Src에서 중간 Domain으로 Adapt
ii) Tgt Domain에 이를 적응시킴.
∴ Adapt Sub-task를 점진적으로 해결.

Weighted Loss:
Image화질이 불균형한 intermediate domain을 위해 도입

우리의 방법은 많은 시나리오에 적용가능함.

 

 

 

 

Unsupervised Domain Adaptive Object Detection using Forward-Backward Cyclic Adaptation (ACCV 2020)

 Abstract


FBC(Forward-Backward Cyclic) Training으로 Unsupervised Domain Adaptation을 소개한다.

But❗️주변특성분포 조정만은 class조건부분포를 조정하는것까지 보장❌
→ Domain Discrepancy를 더 크게만듬.

따라서 저자가 Instance-level Adapt를 위해 category-level semantic에 대한 Domain불변성을 학습하는 것을 목표로 한다.
 기울기가 유사한 두 Domain이라면, 한 Domain만을 학습시킴으로써 다른 Domain의 학습을 향상시킬 수 있음을 의미.


🧐 저자의 제안:

즉, Gradient조정을 위해 FBC Adaptation을 제안.
 ∙ Forward: Tgt→Src으로의 적응을 계산
 ∙ Backward: SrcTgt으로의 적응을 계산

이 과정을 반복적으로 수행.

Adversarial Training으로 Image-level 조정을 위해 Low-level feature를 강조.


다만, 두 도메인에서 잘 되더라도 Tgt에서 안될 수 있다.
이를 위해 2가지 Regularization방법을 도입, Domain다양성을 강조.
 i) Src에서 최대 Entropy규제로 확실한 Src-specific학습에 penalty
 ii) Tgt에서 최소 Entropy규제로 Tgt-specific학습을 유도.


 





 Conclusion


Label이 없는 Tgt Domain문제(= Unsupervised Learning)에 대해 FBC라는 방법을 제시:

FBC: Gradient방향이 비슷한 Src와 Tgt에 대해 category수준 semantic의 Domain불변성을 학습할 수 있을 것이라는 직관에 기반.
Adversarial Training을 통한 Local feature조정은 전체적인 Image-level의 Domain불변성학습을 위해 수행.

Entropy규제: 확실한 Source-specific학습에 penalty, Tgt-specific유도를 위해 Domain다양성을 제약.

 

 

 

 

 

 Domain Contrast for Domain Adaptive Object Detection (IEEE 2020)

 Abstract

🧐 저자의 제안:

 DA Detector훈련을 위해 대조적학습에서 영감을 받아 "간단하지만 효과적인 Domain Contrast; DC"를 제안.

[DC]:
transferred model의 오류한계최소화 관점에서 유도됨.

DC는 plug-and-play방식의 Cross-Domain Contrast손실로 구현되었으며 이 손실을 최소화함으로써 DC는 Domain의 Class Imbalance문제를 완화한다.


 


 Conclusion

[DC]:
transferred model의 오류한계최소화 관점에서 유도됨.

DC는 plug-and-play방식의 Cross-Domain Contrast손실로 구현되었으며 이 손실을 최소화함으로써 DC는 Domain의 Class Imbalance문제를 완화한다.

 

 

 

 

 


∙ One-Shot Unsupervised Domain Adaptation for Object Detection (IEEE 2020)

 Abstract

UDA(Unsupervised Domain Adaptation)의 문제점:
label이 있는 Src Data 필요.
Unlabeled인 Tgt Data가 "많이"필요
또한, Classification에서만 UDA방법론들이 발전해왔었음.

🧐 저자의 제안:

단지 1개의 Unlabeled Tgt sample만 있으면 됨.
OSFA(One-Shot Feature Alignment)알고리즘은 수준의 Src, Tgt feature을 맞추기 위해 제안됨:
낮은 층의 CNN의 feature map의 평균활성화를 맞춰 Domain Shift를 줄인다.




위쪽)SSD  //  아래쪽) Conv1_1, Conv1_2, Pool1 3개로 구성.

 


 Conclusion




단지 하나의 Unlabeled Tgt sample만 필요.
→ 이를 위해 OSFA가 제안됨.

OSFA는 저차원의 Src,Tgt feature Domain을 맞추기 위해 제안된 알고리즘.

이 방법론은 Tgt sample선택에 상관없이 좋은 DA결과를 보이며, Domain Shift를 성공적으로 줄일 수 있었음.

 

 

 

 


∙ Multi-Source Domain Adaptation for Object Detection (ICCV 2021)

 Abstract

transfer-learning에 초점을 맞춰 UDA를 학습하려는 시도에도 불구하고 간단한 Src Domain의 문제는 일반적인 시나리오를 무시해버려 안좋은 성능이 나온다.

🧐 저자의 제안:

Domain불변성향상 및 식별력유지를 동시에 이루기 위해 통합된 Faster R-CNN기반 framework인 "Divide-and-Merge Spindle Network"; DMSN을 제안한다.

[DMSN]:
- 계층적 Src Subnet: 저/고수준의 특성에 각각 강한 alignment, 약한 alignment를 수행하기위한 계층적 alignment전략을 수행.

- Pseudo Tgt Subnet: 여러 Src Subnet을 가중합, Pseudo Tgt Subnet의 최적매개변수를 근사화하기 위한 새로운 학습알고리즘.

- RPN을 위한 consistency규제: 각 서브넷이 보다 추상적인 불변성을 학습.



 


 Conclusion


DMSN이라는 프레임워크를 개발.

계층적구조로 저∙고차원의 특징을 결합, 독립적인 Subnet에서 지도학습을통해 각 Src특성을 보존.

Pseudo subnet: 서로다른 Src subnet의 지수이동평균 매개변수로 update


 

 

 

 

∙ SimROD: A Simple Adaptation Method for Robust Object Detection (ICCV 2021) 

 Abstract

 

🧐 저자의 제안:

 Simple Robust Object Detection, 일명 SimROD는 난제라 꼽히는 domain shift, psuedo-label noise를 극복하였다.

이를 위해 아래 새로운 메커니즘을 통합한다:
∙ Domain중심 데이터증강
 점진적인 self-labeling adaptation과정
  teacher-guided fine-tuning


이 방법을 사용하면 모델구조변경, 합성데이터생성을 하지않아도 대상 domain sample을 활용해 객체탐지모델을 적응시킬 수 있다.





 Conclusion


우리의 간단한 방법은
i) 새로운 도메인 중심의 데이터 증강
ii) teacher-guided 의사 라벨 정제 절차를 통해
모델을 점진적으로 적응시킵니다.

이는 작은 모델부터 큰 모델까지 향상을 이뤘으며
저수준의 이미지 손상부터 고수준의 cross-domain이나 스타일적 차이까지 다양한 종류의 도메인 이동을 완화할 수 있다.

연구 중에 저자는 점진적 적응이 왜 작동되며 ii)가 모델 적응에 어떻게 도움이 되는지에 대한 통찰을 얻었습니다. 

 

 

 

 

A Free Lunch for Unsupervised Domain Adaptive Object Detection without Source Data (AAAI 2021)

No Free Lunch from Deep Learning이라는 말이 있을만큼 No Free Lunch라는 말은 유명한데... 이를 정면으로 반박하고 Free Lunch라고 표현한걸 봐서는 매우 자신이 있다는 말로 해석된다?

 Abstract

UDA는 Src, Tgt에 자유롭게 접근, Domain간 격차를 줄이기위해 함께 훈련한다 "가정"한다.→실제시나리오에는 실전적X

🧐 저자의 제안:

이로인해 Unlabeled Src Data로부터 Tgt에 최적화하는 방향이 주목받게 되었고, 이를 위해 저자는 SFOD(Source Data-Free Domain Adaptive Object Detection)프레임워크를 제안

[SFOD]: Src Data없이도 DA탐지를 가능하게 하며, 이는 Noise있는 Label로 학습하는 것으로 모델링한다.

일반적으로 Src에서 pretrained모델을 활용, Tgt의 가짜라벨생성을 한다.

하지만 Tgt Domain라벨이 없으면, 이런 가짜라벨생성에 대한 평가가 어렵다.



→ SED(Self-Entropy Descent)라는 평가지표 도입!


SED: 가짜라벨에 대해 적절한 신뢰임계값결정을 위해 도입한 metric



다만, 완전히 깨끗한 라벨을 얻는 것은 여전히 어려움을 겪고 있는데,
실험결과 생성된 노이즈가 있는 라벨에서 거짓 음성이 지배적임을 발견.

개선을 위해 FN mining이 도움이 되며, Mosaic와 같은 데이터 증강을 통해 FN시뮬레이션을 용이하게 한다.





 Conclusion

UDA_OD를 위한 새로운 학습 패러다임인 SFOD를 제안한다.

이는 Src Data를 직접사용하는 대신,
Src Domain에서 사전훈련된 모델만을 활용,
Supervision signal을 제공
하는 것이 핵심이다.

이는 noise가 있는 Label로 학습하는 관점에서 해결가능하다 보는데, 많은 Src data기반방법을 넘기도 하지만

Noise Label(FP,FN)을 완전히 제거하는 것에 대해 Unsupervised 방식이 매우 어렵다는점을 인정해야한다.

 

 

 

 

 

 

 


∙ Multi-Granularity Alignment Domain Adaptation for Object Detection (CVPR 2022)

 Abstract

DAOD는 Src와 Tgt간의 독특한 data분포로 난제이다.

🧐 저자의 제안:

Domain불변성학습을 위해 통합된 다중 해상도 정렬 기반의 OD-framework를 제안.
이를 위해 pixel∙instancecategory수준의 서로 다른 해상도 관점 간의 종속성을 동시에 인코딩해 두 도메인을 정렬합니다.

백본 네트워크에서 pixel-level feature map기반, Omni-Scale Gated Fusion 모듈을 개발,
스케일에 민감한 Conv로 instance의 구분력 있는 표현을 집계→ 견고한 다중 스케일 객체 검출을 유도.

동시에, 다중 해상도 판별자가 서로 다른 해상도(픽셀, 인스턴스 및 카테고리)가 어느 도메인에서 왔는지 식별하도록 제안.

특히, 다른 카테고리에서의 인스턴스 구분력 뿐만 아니라 두 도메인 간의 카테고리 일관성도 활용합니다.

다양한 도메인 적응 시나리오에서 실험을 수행하여 FCOS 기반의 앵커 프리 방식과 Faster R-CNN 기반의 앵커 기반 방식을 다양한 백본으로 사용한 상태에서 저자의 프레임워크의 효과를 입증.

 

 


 Conclusion



이 연구에서는 픽셀, 인스턴스 및 카테고리 수준의 다중 해상도 정보 간의 종속성을 인코딩하여 Src 도메인과 Tgt 도메인의 feature 분포를 더 정확하게 정렬했다.

특히, 제안된 omni-scale gated fusion 모듈은 가장 타당한 Conv로 다중 스케일 피쳐 맵에서의 instance feature를 활용할 수 있다.

다중 해상도판별자는 두 도메인에서 다른 카테고리의 인스턴스를 구별할 수 있다. 

 

 

 

 


Cross-domain adaptive teacher for object detection (CVPR 2022)

 Abstract

annotation이 달린 Src와 annotation이 없는 Tgt간의 Domain Gap을 줄이기위해 DA를 다루며
유명한 Semi-Supervised학습법인
Teacher-Student프레임워크(teacher model이 만든 유사라벨로 지도학습)는 cross-domain에서 좋은 성능.
다만 아래 2가지 취약점이 존재.
i) Domain Shift
ii) 많은 저품질유사라벨 생성 (ex. FP)

🧐 저자의 제안:

이 취약점완화를 위해 Adaptive Teacher; AT를 사용:
∙ Domain Adversarial Learning
weak-strong Data Augmentation
를 사용하는 teacher-student framework

∙ Domain Adversarial Learning:
  student모델에서 feature-level 적대적훈련
→ Src와 Tgt간의 유사한 분포를 공유하게함
Student모델이 Domain불변성을 생성하게함

 weak-strong Data Augmentation
 Teacher model: Tgt에서 data생성
 Student model: 양쪽에서 data생성
두 모델간의 상호학습(mutual learning)진행.
Teacher모델이 Src에 편향되어 학습되는걸 방지.





 


 Conclusion


Cross-Domain을 위해 AT라는 새로운 프레임워크를 제안.

Tgt 도메인 Teacher 모델과
Cross-domain Student 모델을 통해
Framework는 mutual-learning으로
Tgt Domain에서 올바른 라벨생성이 가능.

적절한 증강 전략과 적대적 학습을 사용한 학습 파이프라인 설계는 Teacher 및 Student 모델 양쪽에서 Src Domain에 편향되는걸 해결.

 

 

 

 


ConfMix: Unsupervised Domain Adaptation for Object Detection via Confidence-based Mixing (WACV 2023)

 Abstract

UDA: Detect instance의 annotation이 없는 새로운 Tgt Domain에서 Src Domain으로 훈련된 모델을 적응시키는 것.

🧐 저자의 제안:

이전의 여타방법들과 달리 저자는 ConfMix를 제안:
처음으로 적응형 검출기 학습을 위해
region-level 탐지 confidence기반 샘플혼합 전략.

가장 확실한 pseudo detection과 대응되는
Tgt 샘플의 local region을 Src와 혼합,
추가적인 consistency loss요소를 적용,
점진적으로 Tgt분포에 적응시킴

영역에 대한 confidence 점수를 확실히 정하기 위해,
검출기 의존적인 신뢰도와 Bbox 불확실성을 모두 반영하는 (신뢰도 점수 / pseudo detection)을 활용.

더불어, training 기간에 따라 느슨함~엄격함 방식으로
변화하는 신뢰 지표를 사용; 유사 Tgt Detection을 점진적으로 필터링하는 새로운 가짜 라벨링 체계를 제안.






 Conclusion


ConfMix: 신뢰도 기반 혼합 방법
이 방법은 Src에서 훈련된 detector를 비지도 방식으로
Tgt에 적응시키기 위한 것

<혼합방식>:
Tgt img의 가장 확실한 가상검출영역 + Src img
이는 샘플 데이터 확장을 위한 region-level전략

<Adaptation방법>:
pseudo detection에 대한 consistency loss 사용.

<Tgt에서의 성능개선 및 자연스러운 전환을 위해>:
점진적으로 신뢰도 지표를 제한하는 점진적 가짜 라벨링 체계 (progressive pseudo labelling scheme)사용.

 

 

 

 

 

 

ShadowSense: Unsupervised Domain Adaptation and Feature Fusion for Shadow-Agnostic Tree Crown Detection From RGB-Thermal Drone Imagery (WACV 2024)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Journal Paper

Object detection based on semi-supervised domain adaptation for imbalanced domain resources (Machine Vision and Applications 31 2020)

 Abstract

Keywords의 Self-place가 아닌, Self-paced이다.


Src Detector는 "불균형/일관성없는 Domain Shift"로 Tgt이 적은곳에 완벽히 일치❌

🧐 저자의 제안:

appearance & semantic level의 Domain Shift Adaptation을 위한 "Semi-supervised Detector"를 제안한다.
이를 위해 2가지 구성요소가 제안:
∙ instance와 batch normalization이 있는 Appearance 적응신경망 
판별기 손실 re-weighting하는 semantic 적응 신경망
   (불균형한 scale의 두 Domain간의 feature alignment(정렬)향상)


Self-paced training: 쉬운 것부터 어려운 것까지 점진적으로 Tgt도메인에서 유사라벨을 생성





 Conclusion



완전히 라벨링된 Domain → Image수준 라벨링만 있는 Domain으로 강건한 Detector를 설계.

특히, Src와 Tgt이미지 간의 Domain Shift문제를
Appearance & Semantic수준의 alignment로 해결했다.

또한 semantic level adapt과정 중 아래 2가지 문제가 발생.
∙ Scale불균형
∙ Vanishing Problem.
이를 위해 standard adversarial 신경망이 개발, 어려운 클래스 샘플에 초점.
더불어, Self-paced학습법을 도입, 성능개선. 

 

 

 

+ Recent posts