실해석학 및 근사이론에서 Kolmogorov-Arnold Representation Theorem (or Superposition Theorem)는 모든 다변량 연속함수 f: [0,1]n→R 를 단일변수의 연속함수의 두 인수 덧셈 중첩(superposition)으로 표현될 수 있다고 한다. 해당 이론은 더 제한된 Hilbert의 13번째 문제를 풀었기에, 기존 Hilbert의 13번째 문제는 당연한 추론이 가능하다.
Kolmogorov-Arnold의 연구는 f가 다변량 연속 함수라면 f는 단변량 연속 함수와 덧셈의 이항 연산의 유한한 구성으로 쓰여질 수 있다는 것을 확립했는데, 좀 더 구체적으로 살펴보면 다음과 같다: 즉, 진정한 다변량 함수는 합뿐임을 알 수 있다.
2. History
Kolmogorov-Arnold Representation Theorem(KART)는 Hilbert의 13번째 문제와 밀접한 관련이 있다. cf) Hilbert의 13번째 문제란, 1900년 국제파리수학자회의에서 제시한 23문제중 하나로 일반 고차방정식의 해법에 관한 문제임. 이때, 4차 방정식의 해는 근호와 산술 연산만으로 계산할 수 있지만, 고차 방정식의 경우 일반적인 대수적 연산으로는 해를 구할 수 없다.
[Tschirnhaus Transformation]: 일반적인 대수방정식을 특정형태로 변환가능
n차 방정식에 대해, n < 7인 경우: 두 변수의 함수로 표현가능 n ≥ 7인 경우: n-4개 변수의 함수로 표현가능
특히나 n = 7인 경우, 해는 아래와 같은 방정식의 해의 조합으로 표현될 수 있다:
Hilbert의 추측에 따르면, 7차 이상의 일반 방정식은 두 변수의 연속 함수의 조합으로 표현할 수 없다고 하였다. 이는 다차원 함수를 낮은 차원의 함수들의 중첩으로 나타내는 것과 관련이 있음을 시사한다. 기계 학습 분야에서 이 정리는 MLP의 보편 근사 정리(universal approximation)와 유사한 역할을 함.
3. Variants (활용)
4. Limitation
① 복소수 다변량함수에 대해서는 일반적으로 적용❌
② 내부함수가 매끄럽지 않고 'wild behavior(예측불가능한 행동)'로 인해 표현을 실제 응용에 제한.
Summary
고차 방정식의 경우 일반적인 대수적 연산으로는 해를 구할 수 없음. → [Tschirnhaus Transformation]:일반적인 대수방정식을 특정형태로 변환가능
n차 방정식에 대해, n < 7인 경우: 두 변수의 함수로 표현가능 n ≥ 7인 경우: n-4개 변수의 함수로 표현가능
특히나 n = 7인 경우, 해는 아래와 같은 방정식의 해의 조합으로 표현될 수 있다:
7차 이상의 일반 방정식은 두 변수의 연속 함수의 조합으로 표현할 수 없음. = 다차원 함수를 낮은 차원의 함수들의 중첩으로 나타내는 것과 관련이 있음 기계 학습 분야: MLP의 보편 근사 정리(universal approximation)와 유사한 역할.
🤔Main Contribution
1.
21개의nchmark.
[Summary]:
입.
🤔 논문 읽기! by. Andrew Ng.
① Title / Abstract / Figure 및 Experiment 1~2개
∙ Title:
KAN: Kolmogorov-Arnold Networks
MLP의 보편 근사 정리(universal approximation)와 유사한 역할을 하는 Kolmogorov-Arnold Representation Theorem을 기반으로 하는 것을 알 수 있음.
∙ Abstract:
[MLP vs KAN]:
MLP: nodes("neurons")에 고정된 활성화 함수를 갖고있음. KAN: edges("weights")에 학습 가능한 활성화 함수를 가지고 있음. 또한, KAN에는 선형 가중치가 전혀 없는데, 모든 w는 스플라인으로 매개변수화된 단변량 함수로 대체된다.
KAN이 정확도와 해석 가능성 측면에서 MLP를 능가한다는 것을 보여주는데, 정확도를 위해 훨씬 작은 KAN은 데이터 피팅 및 PDE 해결에서 훨씬 큰 MLP와 비슷하거나 더 나은 정확도를 달성할 수 있으며, 이론적 및 경험적으로 KAN은 MLP보다 더 빠른 신경 스케일링 법칙을 가지고 있다.
솔직히 2023년 5월에 해당 아이디어 관련, activation을 학습해서 가장 적절한 activation function을 배치할 수는 없을까? 라는 아이디어를 떠올려서 연구하려했던 생각이 있었는데, 이런 Background도 없었고, 그때 당시에는 구현능력도 떨어졌었기에 현재 이 논문을 읽으면서 많이 아쉽긴 했다.
cf) Background & 용어설명: Kolmogorov-Arnold
고차 방정식의 경우 일반적인 대수적 연산으로는 해를 구할 수 없음. →[Tschirnhaus Transformation]:일반적인 대수방정식을 특정형태로 변환가능
n차 방정식에 대해, n < 7인 경우: 두 변수의 함수로 표현가능 n ≥ 7인 경우: n-4개 변수의 함수로 표현가능
특히나 n = 7인 경우, 해는 아래와 같은 방정식의 해의 조합으로 표현될 수 있다:
7차 이상의 일반 방정식은 두 변수의 연속 함수의 조합으로 표현할 수 없음. =다차원 함수를 낮은 차원의 함수들의 중첩으로 나타내는 것과 관련이 있음 기계 학습 분야:MLP의 보편 근사 정리(universal approximation)와 유사한 역할.
② Intro / Discussion/ Figure / Related Works Skim(속독)
∙ Introduction:
[MLP]
MLP는 Full Connected Feedforward Neural Net으로완전 연결 전방향 신경망으로 보편적 근사 정리(universal approximation theorem)에 의해 보장된 표현력 덕분에 비선형 함수를 근사하기 위한 기본 모델이다.
[🤔 MLP is the best nonlinear regressors?]
MLP는 널리 사용되고 있지만, 몇 가지 중요한 단점이 있다: Transformers에서 MLP가 거의 모든 non-embedding parameters를 소비함. 주로 해석 가능성 측면에서 attention layers에 비해 덜 해석 가능하다.
[KANs: Kolmogorov-Arnold Networks]
MLP: 보편적 근사 정리에 영감을 받았으며, MLP가 노드(“뉴런”)에 고정된 활성화 함수를 배치함. KAN: MLP와 마찬가지로 KAN도 완전 연결 구조를 가지고 있으며, Kolmogorov-Arnold 표현 정리에 영감을 받음. KAN은 엣지(“가중치”)에 학습 가능한 활성화 함수를 배치함. → 선형 가중치 행렬이 전혀 없음 → 각 가중치 매개변수는 학습 가능한 1D 함수로 대체됨. → KAN의 노드는 들어오는 신호를 단순히 합산하며, 비선형성을 적용하지 않음.
[KAN is Cost Expensive?]
MLP의 가중치 매개변수가 KAN의 스플라인 함수로 대체되므로, KAN이 매우 비쌀 것이라는 걱정이 있을 수 있음. 다행히도 KAN은 일반적으로 MLP보다 훨씬 작은 계산 그래프를 사용함. ex) PDE(편미분) 풀이: KAN(2-Layer width-10)은 MLP(4-Layer width-100)보다 100배 더 정확하고(10-7 대 10-5 MSE), 100배 더 매개변수 효율적(102 대 104 매개변수).
[선행 연구 & Main Contribution]
대부분의 작업은 원래의 Depth-2 Width-(2n + 1)표현에 머물렀으며, train을 위해 최신 기술(예: 역전파)을 활용할 기회❌.
Main Contribution: Kolmogorov-Arnold 표현을 임의의 폭과 깊이로 일반화하여 오늘날의 딥러닝 세계에서 다시 활력을 불어넣고 맥락화하는 것 또한, KAN의 정확성과 해석 가능성 덕분에 AI + 과학의 기초 모델로서의 잠재적 역할을 강조하는 광범위한 실험을 사용하는 것.
KAN은 수학적으로 우아한 해석에도 불구하고, 단지 스플라인과 MLP의 조합일 뿐입니다. 스플라인: 저차원 함수에 대해 정확 / 로컬에서 조정하기 쉬움 / 서로 다른 해상도 간 전환이 가능. 다만, 구성 구조를 활용할 수 없기 때문에(= 외부자유도❌) 심각한 차원의 저주(COD) 문제를 가지고 있다.
MLP는 COD 문제가 덜하지만, 저차원에서는 스플라인보다 덜 정확함. MLP는 일반화된 덧셈구조를 잠재적으로 학습가능하지만 ReLU로 인해 exp와 sin함수를 근사화하는데 매우 비효율적임. 예를들어, 우측같은 고차원 스플라인 함수는 COD로 인해 큰 N에 대해 실패한다. 대조적으로 KAN은 구성구조와 단변량함수를 모두 매우 잘 학습하기에 MLP를 큰 차이로 능가한다.
[함수를 정확하게 학습하려면?]
구성 구조(외부 자유도)를 학습하고 단변량 함수(내부 자유도)를 잘 근사해야 함. - 외부적으로는 MLP와 유사하여 기능을 학습할 수 있고, - 내부적으로는 스플라인과 유사하여 학습된 기능을 최적화할 수 있음.
2장: KAN의 아키텍처와 수학적 기초를 소개하고, KAN을 해석 가능하게 만드는 네트워크 단순화 기법을 소개하며, KAN을 점점 더 정확하게 만드는 그리드 확장 기법을 소개. 3장: KAN이 데이터 적합 및 PDE 풀이에서 MLP보다 더 정확함을 보여줌. 4장: KAN이 해석 가능하며 과학적 발견에 사용할 수 있음을 보여줌. 5장: 관련 연구를 요약. 6장: 광범위한 영향과 미래 방향을 논의하면서 결론. 코드는 https://github.com/KindXiaoming/pykan 사용할 수 있으며, pip install pykan을 통해 설치할 수 있다.
이에 대해 매력적인일반화된 Kolmogorov-Arnold 정리는 Depth-2 Composition너머의 “더깊은” Kolmogorov-Arnold 표현을정의하고활성화함수의매끄러움을깊이와관련시킬수있음을 시사한다. 가설적으로, 원래의 (Depth-2) Kolmogorov-Arnold 표현에서는매끄럽게표현할수없는함수들이 Depth-3 또는그이상의표현으로매끄럽게표현될수있다. 우리는이 “Kolmogorov-Arnold 깊이” 개념을사용하여함수클래스를특성화할수있을까?
[알고리즘적 측면]
1. 정확성: 아키텍처설계및훈련에서여러선택지가충분히조사되지않았기때문에대안이정확성을더욱향상시킬수 있음. 예를들어, 스플라인활성화함수는 radial basis함수또는 local kernel로대체될수 있으며, Adaptive Grid전략이사용될수있다.
2. 효율성:KAN이 느리게 실행되는 주요 이유중하나는다른 활성화 함수가 배치 계산(큰 데이터를 동일한 함수로 처리)을 활용❌. 실제로, 활성화함수가모두동일한경우(MLP)와모두다른경우(KAN) 사이를보간하여활성화함수를여러그룹(multi-head)으로묶을수있는데, 여기서그룹내의구성원은동일한활성화함수를공유합니다.
3. KAN과 MLP의 하이브리드: KAN은 MLP와 비교할 때 두 가지 주요 차이점이 있다: (i). 활성화 함수가 노드가 아닌 엣지에 배치됩니다. (ii). 활성화 함수가 고정된 것이 아닌, 학습 가능함. KAN의 이점을 설명하기 위해 어떤 변화가 더 중요한지 알아보기 위해, Appendix B에서 (ii)를 갖춘 모델을 연구한 예비 결과를 제시한다. 즉, 활성화 함수는 학습 가능하지만 (i)를 갖추지 않은 모델, 즉 활성화 함수가 노드에 위치한 모델이며, 더 나아가 고정된 활성화 함수(MLP처럼)를 가지지만 엣지에 위치한 모델(KAN처럼)을 구성할 수도 있다.
4. 적응성: 스플라인 기저 함수의 본질적인 locality 덕분에, 우리는 KAN의 설계 및 훈련에서 적응성을 도입하여 정확도와 효율성을 모두 향상시킬 수 있다.
Kolmogorov-Arnold 정리(KAT)와신경망간의 관계는 완전히 새로운 것은 아님. 다만, 내부함수의 pathological behavior(비정상적 행동)으로 KAT가 유망하지 않게 보였음.
[대부분의 이전연구들] 2-layer width-(2n+1) 신경망에 머물렀음. (= 표현력이 제한적, 역전파개념 이전에 연구가 많이들 진행되었었음.) ∴ 대부분연구들이 제한적&인위적 toy 실험에 머물렀었음.
[Contribution]: 1. 신경망을 임의의 폭과 깊이로 일반화 2. 현재의 딥러닝흐름에 재활성화 & 맥락화 3. AI + Science의 기반모델(foundation model)로서의 잠재적인 역할을 강조.
Neural Scaling Laws (NSLs)
[NSL이란?] 모델크기, 데이터, 계산등에대해 test Loss가거듭제곱법칙으로나타나는현상. NSL의기원은여전히불가사의하지만, 아래와 같은 유력이론이 존재: ∙ intrinsic dimensionality ∙ quantization of tasks ∙ resource theory ∙ random features ∙ compositional sparsity ∙ maximuarity [본 논문의 Contribution]: Smooth Kolmogorov-Arnold 표현을갖는고차원함수가 1차원함수(이는기대할수있는최고의경계)처럼스케일링될수있음. 즉,가장 빠른 스케일링 지수를 보장해서 신경망의 스케일링법칙에새로운 관점을 가져옴.
Machanistic Interpretability (MI)
MI는신경망의내부작동을기계적으로이해하려는신흥분야; 수동MI연구 / 능동MI연구로 나뉨. 본 논문은 모델과 훈련 방법이 설계상 해석 가능한 두 번째 범주에속함.
Learnable Activations
신경망에서학습가능한활성화함수의아이디어는기계학습에서 완전히 새로운 것이 아님. 학습가능한활성화함수는미분가능한방식으로학습되거나 이산적으로검색됨. 활성화함수는 다음과 같이 매개변수화됨: 다항식, 스플라인, sigmoid linear unit, neural net
3.4절에서 KAN이 PDE를해결할때 PDE 손실을부과하기위해 MLP를사용하는패러다임을대체할수있음을보여줌. PDE 해결을위한 Deep Ritz Method, PINNs, 연산자학습방법의솔루션맵을학습하는 Fourier Neural Operator, PINOs, DeepONet을참조하며, 언급된 모든 네트워크에서 MLP를 KAN으로 대체할 가능성이 있음.
AI for Mathematics
4.3절처럼, AI는 최근 매듭 이론(Knot Theory)의 여러 문제에 적용된다. 여기에는매듭이풀린매듭인지리본매듭인지를감지하고, 매듭불변량을예측하고그들사이의관계를발견하는작업이포함된다.
수학및이론물리학의데이터세트에대한데이터과학응용프로그램요약은 [90, 91]을참조하고, 이러한분야에서 ML 기술을사용하여엄격한결과를얻는방법에대한아이디어는 [92]를참조하십시오.
[90] Fabian Ruehle. Data science applications to string theory. Phys. Rept., 839:1–117, 2020.
[91] Y.H. He. Machine Learning in Pure Mathematics and Theoretical Physics. G - Reference,Information and Interdisciplinary Subjects Series. World Scientific, 2023.
[92] Sergei Gukov, James Halverson, and Fabian Ruehle. Rigor with machine learning from field theory to the poincaréconjecture. Nature Reviews Physics, 2024.
③ Main Method, Math , etc 이해안되는 것 → Skim or Skip
∙ KAN
다층퍼셉트론(MLP)은보편적근사정리에영감을받았습니다. 반면, 우리는 Kolmogorov-Arnold 표현정리에초점을맞추어, Kolmogorov-Arnold 네트워크(KAN)라는새로운유형의신경망을제안합니다. 2.1절에서는 Kolmogorov-Arnold 정리를검토하여 2.2절에서 Kolmogorov-Arnold 네트워크의설계에영감을줍니다. 2.3절에서는 KAN의표현력과신경스케일링법칙에대한이론적보장을제공합니다. 2.4절에서는 KAN을점점더정확하게만드는그리드확장기법을제안합니다. 2.5절에서는 KAN을해석가능하게만드는단순화기법을제안합니다.
Kolmogorov-Arnold Representation theorem
Vladimir Arnold와 Andrey Kolmogorov는 f가유계영역에서다변수연속함수인경우, f를단일변수의연속함수와덧셈이항연산의유한합성으로표현할수있음을입증했습니다. 더구체적으로, 매끄러운
함수에대해,
여기서 φq,p:[0,1]→R 및 Φ𝑞:𝑅→𝑅Φq:R→R입니다. 어떤의미에서는모든다변수함수가단변수함수와합으로작성될수있기때문에진정한다변수함수는덧셈뿐임을보여주었습니다. 이는기계학습에있어고차원함수를학습하는것이다항식수의 1D 함수를학습하는것으로귀결되므로큰희소식일수있습니다. 그러나이러한 1D 함수들이매끄럽지않거나심지어프랙탈일수있기때문에실제로학습하기어려울수있습니다. 이러한병리학적특성때문에 Kolmogorov-Arnold 표현정리는기계학습에서이론적으로는타당하지만실질적으로는쓸모없다고여겨졌습니다.
그러나우리는 Kolmogorov-Arnold 정리가기계학습에유용할것이라는점에대해더낙관적입니다. 첫째, 우리는은닉층에서 2n+1개의항을가지는 2층비선형성을가지는원래의방정식(2.1)에고수할필요가없습니다. 네트워크를임의의폭과깊이로일반화할것입니다. 둘째, 과학과일상생활에서대부분의함수는종종매끄럽고희소한구성구조를가지며, 이는매끄러운 Kolmogorov-Arnold 표현을촉진할수있습니다. 여기서철학은물리학자들의사고방식과가깝습니다. 물리학자들은최악의경우보다일반적인경우에더관심을가집니다. 결국, 우리의물리적세계와기계학습작업은물리학과기계학습이유용하거나일반화가능하게만들기위해구조를가져야합니다.
KAN Architecture
지도 학습 작업에서 입력-출력 쌍 (𝑥𝑖,𝑦𝑖)(xi,yi)가 주어졌을 때, 모든 데이터 포인트에 대해 𝑦𝑖≈𝑓(𝑥𝑖)yi≈f(xi)를 만족하는 f를 찾는 것이 목표입니다. 방정식 (2.1)은 적절한 단변량 함수 𝜑𝑞,𝑝φq,p와 Φ𝑞Φq를 찾으면 된다는 것을 의미합니다. 이는 방정식 (2.1)을 명시적으로 매개변수화하는 신경망을 설계하도록 영감을 줍니다. 학습할 모든 함수가 단변량 함수이므로, 각 1D 함수를 B-스플라인 곡선으로 매개변수화하고, 국소 B-스플라인 기저 함수의 학습 가능한 계수를 사용합니다. 이제 KAN의 프로토타입이 있으며, 그 계산 그래프는 방정식 (2.1)에 의해 정확하게 지정됩니다.
기본적으로, KAN 계층은 𝑛𝑖𝑛nin-차원 입력과 𝑛𝑜𝑢𝑡nout-차원 출력을 가지는 1D 함수의 행렬로 정의될 수 있습니다. Kolmogorov-Arnold 정리에서는 내부 함수가 𝑛𝑖𝑛=𝑛nin=n 및 𝑛𝑜𝑢𝑡=2𝑛+1nout=2n+1을 가지는 KAN 계층을 형성하고, 외부 함수는 𝑛𝑖𝑛=2𝑛+1nin=2n+1 및 𝑛𝑜𝑢𝑡=1nout=1을 가지는 KAN 계층을 형성합니다. 따라서 방정식 (2.1)에서의 Kolmogorov-Arnold 표현은 두 KAN 계층의 합성으로 구성됩니다. 이제 더 깊은 Kolmogorov-Arnold 표현이 무엇을 의미하는지 명확해졌습니다: 더 많은 KAN 계층을 쌓으면 됩니다.
일반 KAN 네트워크는 L 계층의 합성으로 구성됩니다: 입력 벡터 𝑥0∈𝑅𝑛0x0∈Rn0가 주어졌을 때, KAN의 출력은 다음과 같습니다:
KAN 계층의 모양은 정수 배열 [𝑛0,𝑛1,⋅⋅⋅,𝑛𝐿][n0,n1,⋅⋅⋅,nL]로 표현됩니다. 각 계층에서 (l, i)-뉴런의 활성화 값은 𝑥𝑙,𝑖xl,i로 표시됩니다. 계층 l과 l+1 사이에는 𝑛𝑙⋅𝑛𝑙+1nl⋅nl+1 활성화 함수가 있으며, 활성화 함수는 𝜑𝑙,𝑗,𝑖φl,j,i로 표시됩니다. (l, i)-뉴런과 (l+1, j)-뉴런을 연결하는 활성화 함수의 사전 활성화 값은 단순히 𝑥𝑙,𝑖xl,i이며, 후 활성화 값은 𝑥~𝑙,𝑗,𝑖≡𝜑𝑙,𝑗,𝑖(𝑥𝑙,𝑖)x~l,j,i≡φl,j,i(xl,i)입니다. (l+1, j)-뉴런의 활성화 값은 모든 들어오는 후 활성화 값의 합입니다:
MLP와 KAN의 주요 차이점은 MLP는 선형 변환과 비선형성을 별도로 취급하는 반면, KAN은 이를 모두 비선형 함수로 통합하여 처리한다는 점입니다. KAN은 모든 연산이 미분 가능하므로 역전파로 훈련할 수 있습니다【40†source】.
KAN's Approximation Abilities and Scaling Laws
2층 폭-(2n + 1) 표현은 매끄럽지 않을 수 있습니다. 그러나 더 깊은 표현은 매끄러운 활성화를 제공할 수 있습니다. 예를 들어, 4변수 함수 𝑓(𝑥1,𝑥2,𝑥3,𝑥4)=exp(sin(x12+x22)+sin(x32+x42)) 는 3층 [4, 2, 1, 1] KAN으로 매끄럽게 표현될 수 있지만, 매끄러운 활성화로 2층 KAN으로는 표현되지 않을 수 있습니다. 우리는 활성화의 매끄러움을 가정하지만, 표현은 임의의 폭과 깊이를 가질 수 있도록 허용합니다.
Theorem 2.1에 따르면, 매끄러운 Kolmogorov-Arnold 표현이 존재하면, KAN은 차원의 저주를 극복할 수 있으며, 이는 고차원 함수를 구성 구조와 단변량 함수로 나눌 수 있기 때문입니다. 이는 데이터 적합 및 PDE 해결에서 KAN이 MLP보다 훨씬 우수한 성능을 보임을 의미합니다.
For Accuracy: Grid Extension
원칙적으로, 스플라인은 그리드를 세밀하게 만들어 목표 함수를 임의로 정확하게 근사할 수 있습니다. 이 좋은 특징은 KAN이 상속합니다. 반면, MLP는 "세분화" 개념이 없습니다. KAN은 적은 매개변수로 먼저 훈련하고, 스플라인 그리드를 세밀하게 만들어 더 많은 매개변수를 가지는 KAN으로 확장할 수 있습니다. 이는 더 큰 모델을 처음부터 다시 훈련할 필요 없이 가능합니다.
그리드 확장 수행 방법 1D 함수 f를 유한한 구간 [a, b]에서 B-스플라인으로 근사하려면, coarse-grained 그리드와 fine-grained 그리드를 사용하여 f를 나타냅니다. coarse-grained 그리드에서의 f는 B-스플라인 기저 함수의 선형 조합으로 표현됩니다. fine-grained 그리드에서의 f는 새로운 B-스플라인 기저 함수의 선형 조합으로 표현됩니다. 이때, coarse-grained 그리드의 매개변수를 fine-grained 그리드의 매개변수로 최소 제곱 알고리즘을 사용하여 초기화합니다.
이 방법을 사용하여, KAN은 더 작은 네트워크로 시작하여 더 큰 네트워크로 확장할 수 있습니다. 이는 KAN이 매우 효율적이고 효과적으로 정확성을 높일 수 있음을 보여줍니다.
For Interpretability: Simplifying KANs and Making them interactive
KAN을 데이터셋 구조에 가장 잘 맞추는 모양을 선택하는 방법을 모르는 경우, 충분히 큰 KAN에서 시작하여 희소성 정규화를 사용하여 훈련한 후 가지치기를 통해 작은 서브 네트워크로 단순화합니다. 이러한 가지치기된 KAN은 비 가지치기된 KAN보다 훨씬 더 해석 가능합니다. KAN을 최대한 해석 가능하게 만들기 위해 몇 가지 단순화 기법을 제안합니다.
이섹션에서는 KANs가해석가능하고상호작용할수있음을보여줍니다. 우리는 KANs를합성작업(4.1절및 4.2절)뿐만아니라실제과학연구에도적용해보고자합니다. KANs가매듭이론(4.3절)과응축물질물리학의상전이경계(4.4절)에서매우비정상적인관계를 (재)발견할수있음을증명합니다. KANs는그정확성(이전섹션)과해석가능성(이섹션) 덕분에 AI + 과학의기초모델이될수있습니다.
#### 4.1 지도학습장난감데이터셋
우리는먼저 KANs가기호수식에서구성적구조를밝히는능력을조사합니다. 여섯가지예가아래나열되어있으며, 해당 KANs는 Figure 4.1에시각화되어있습니다. KANs는이수식들에존재하는구성적구조를밝히고, 올바른단변량함수를학습할수있습니다.
이로써 KANs가매듭이론과응축물질물리학에서새로운과학적발견을돕는유용한도구가될수있음을증명합니다 .
cf) Acknowledgement
cf) Appendix.
A. KAN의 기능들
Table 7은사용자가유용하게사용할수있는일반적인기능들을포함합니다.
B. Learnable Activation Networks (LANs)
B.1 Architecture
KAN 외에도, 스플라인으로 매개변수화된 학습 가능한 활성화 함수가 있는 거의 MLP와 유사한 또 다른 유형의 네트워크(LAN)를 제안했습니다. KAN은 표준 MLP와 비교하여 두 가지 주요 변경 사항이 있습니다: (1) 활성화 함수가 고정되지 않고 학습 가능하며; (2) 활성화 함수가 노드가 아닌 엣지에 배치됩니다. 이 두 요소를 분리하기 위해, 노드에 여전히 학습 가능한 활성화 함수가 있는 학습 가능한 활성화 네트워크(LAN)를 제안합니다. 이는 Figure B.1에 나와 있습니다.
폭 N, 깊이 L, 그리드 포인트 수 G인 LAN의 경우, 매개변수의 수는 N^2L + NLG입니다. 여기서 N^2L은 가중치 행렬의 매개변수 수, NLG는 스플라인 활성화 함수의 매개변수 수를 나타냅니다. 일반적으로 G ≪ N이기 때문에 NLG ≪ N^2L입니다. LAN은 MLP와 유사하므로 사전 훈련된 MLP에서 초기화하고 학습 가능한 활성화 함수를 허용하여 미세 조정할 수 있습니다. 예제로는 LAN을 사용하여 SIREN을 개선하는 것이 Section B.3에 제시되어 있습니다.
**LAN과 KAN의 비교:**
LAN의 장점:
1. LAN은 개념적으로 KAN보다 더 단순합니다. 표준 MLP에 더 가깝습니다(유일한 변경 사항은 활성화 함수가 학습 가능해진 것입니다).
2. LAN은 KAN보다 더 잘 확장됩니다. LAN/KAN은 각각 노드/엣지에 학습 가능한 활성화 함수를 가지므로, LAN/KAN의 활성화 매개변수는 모델 폭 N에 따라 각각 N/N^2로 확장됩니다.
LAN의 단점:
1. LAN은 해석 가능성이 떨어집니다(가중치 행렬은 MLP와 마찬가지로 해석하기 어렵습니다).
2. LAN은 KAN보다 덜 정확한 것으로 보이지만 여전히 MLP보다는 더 정확합니다. LAN도 스플라인으로 매개변수화된 활성화 함수가 있는 경우 그리드 확장을 허용합니다.
B.2 LAN interpretability results
Figure B.1: 장난감 예제 f(x, y) = exp(sin(πx)+y^2)에 대한 학습 가능한 활성화 네트워크(LAN)의 훈련
Figure B.2: 합성 예제에서의 LAN. LAN은 매우 해석 가능성이 없는 것으로 보입니다. 우리는 가중치 행렬이 너무 많은 자유도를 남긴다고 추측합니다.
저희는 그림 B.2에서 LAN의 예비 해석 가능성 결과를 제시합니다. KAN이 완벽하게 해석 가능한 그림 4.1의 동일한 예에서 LAN은 가중치 행렬의 존재로 인해 훨씬 덜 해석 가능해 보입니다. 첫째, 가중치 행렬은 학습 가능한 활성화 함수보다 쉽게 해석할 수 없습니다. 둘째, 가중치 행렬은 너무 많은 자유도를 가져와 학습 가능한 활성화 함수를 너무 제약하지 않게 만듭니다. LAN에 대한 예비 결과는 선형 가중치 행렬을 제거하는 것이 (KAN과 같이 가장자리에 학습 가능한 활성화를 가짐으로써) 해석 가능성에 필요하다는 것을 의미하는 것으로 보입니다.
B.3 Fitting Images(LAN)
암시적 신경 표현은 이미지를 2D 함수 f(x,y)로 보고, 여기서 픽셀 값 f는 픽셀 x와 y의 두 좌표에 대한 함수입니다. 이미지를 압축하기 위해 이러한 암시적 신경 표현(f는 신경망)은 거의 원본 이미지 품질을 유지하면서 매개 변수를 인상적으로 압축할 수 있습니다. 사이렌[96]은 함수 f에 맞추기 위해 주기적인 활성화 함수가 있는 MLP를 사용할 것을 제안했습니다. LAN에서 허용되는 다른 활성화 함수를 고려하는 것은 당연합니다. 그러나 LAN 활성화를 원활하게 초기화하지만 사이렌에는 고주파 기능이 필요하기 때문에 LAN은 즉시 작동하지 않습니다. LAN의 각 활성화 함수는 기본 함수와 스플라인 함수(즉, φ(x) = b(x) + 스플라인(x)의 합)이며, b(x)는 사이렌에서와 동일한 설정으로 사인 함수로 설정하지만 스플라인(x)은 훈련할 수 있도록 합니다. MLP와 LAN 모두의 모양은 [2,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,1]입니다. 학습률 10-3이 있는 5000 단계와 학습률 10-4가 있는 5000 단계에 대해 Adam 최적화기인 배치 크기 4096으로 학습합니다. 그림 B.3에서 볼 수 있듯이 활성화 함수를 미세 조정할 수 있는 LAN의 유연성으로 인해 LAN(orange)이 MLP(파란색)보다 더 높은 PSNR을 달성할 수 있습니다. 저희는 MLP에서 LAN을 초기화하고 더 나은 PSNR을 위해 LAN(녹색)을 추가로 미세 조정하는 것도 가능하다는 것을 보여줍니다. 저희는 실험에서 G = 5를 선택했기 때문에 추가 파라미터 증가는 원래 파라미터보다 약 G/N = 5/128 ≈ 4%입니다.
C. 하이퍼파라미터 의존성
Figure C.1에서는 f(x, y) = exp(sin(πx) + y^2) 사례에서 하이퍼파라미터의 효과를 보여줍니다. 해석 가능한 그래프를 얻기 위해 활성화 함수의 수를 가능한 한 적게(이상적으로 3개) 유지하고자 합니다.
1. 활성화 함수 수를 줄이기 위해 엔트로피 페널티가 필요합니다. 엔트로피 페널티가 없으면 중복된 함수가 많이 발생합니다.
2. 결과는 랜덤 시드에 따라 달라질 수 있습니다. 운이 나쁜 시드를 사용할 경우, 가지치기된 네트워크가 필요 이상으로 클 수 있습니다.
3. 전체 페널티 강도 λ는 희소성을 효과적으로 제어합니다.
4. 그리드 수 G는 해석 가능성에 미묘한 영향을 미칩니다. G가 너무 작으면 각 활성화 함수가 표현력이 떨어지기 때문에 네트워크가 앙상블 전략을 사용하여 해석이 어려워집니다.
5. 조각별 다항식 차수 k는 해석 가능성에 미묘한 영향을 미칩니다. 그러나 이 장난감 예제에서는 랜덤 시드처럼 명확한 패턴을 보이지 않습니다.
D. Feynman KANs
섹션 3.3의 파인만 데이터셋에 대한 더 많은 결과를 포함합니다.
Figure D.1은 각 파인만 데이터셋에 대한 KAN과 MLP의 파레토 프론티어를 보여줍니다.
Figure D.3 및 D.2는 각 파인만 방정식 맞춤 작업에 대한 최소 KAN(테스트 RMSE < 10−2 제약 조건) 및 최상의 KAN(가장 낮은 테스트 RMSE 손실)을 시각화합니다.
E. 그리드 크기에 대한 주석
PDE 및 회귀 작업 모두에서, 훈련 데이터를 균일 그리드에서 선택할 때, 그리드 크기가 큰 수준(한 방향에서 다른 훈련 포인트와 비교 가능한 크기)으로 업데이트될 때 훈련 손실이 갑자기 증가하는 현상이 나타납니다. 이는 고차원에서 B-스플라인의 구현과 관련이 있을 수 있으며 추가 조사가 필요합니다.
F. 특수 함수용 KAN
섹션 3.2의 특수 함수 데이터셋에 대한 더 많은 결과를 포함합니다.
Figure F.2와 F.1은 각 특수 함수 맞춤 작업에 대한 최소 KAN(테스트 RMSE < 10−2 제약 조건) 및 최상의 KAN(가장 낮은 테스트 RMSE 손실)을 시각화합니다.
21개의 Semantic category에 대한 고품질 point별 annotation을 제공하는 대규모 악천후 point cloud Benchmark.
2. PointDR
향후 전천후조건에서 3DSS연구 및 Benchmark에 활용가능한 point cloud domain randomization의 baseline
3. Leveraging SemanticSTF
SemanticSTF를 활용해 아래 2가지 까다로운 작업에서 활용.
① Domain Adaptive 3DSS: DA를 3DSS에 적용한 첫 사례.
② Domain Generalization 3DSS
cf) Leveraging = 효과적으로 활용하다 (leverage는 지렛대를 활용하다라는 의미로 효과적으로 활용함을 의미함..)
[Summary]:
① Level-5 자율주행을 위해 악조건 point cloud에서의 일반화모델(= Robust한 전천후 3DSS모델) 학습이 목표.
이를 위해 악천후 날씨에서의 Robust point cloud parsing을 위한 밀도높은 3DSS point-wise annotation Dataset이 필요.
→ SemanticSTF Benchmark를 제공.
② Robust한 전천후 3DSS모델가 필요한데, 2가지 문제점이 존재함. (perturbation invariant해야함.)
Problem 1) LiDAR point cloud는 sparse, incomplete, 기하학적 변형 및 의미론적 모호성의 영향을 받음. Problem 2) 눈보라, 빛방울 등으로 인해 악천후에서 더 많은 Noise가 도입됨
③ Sol) PointDR: Domain Randomization Technique의 한 방식.
목표 1) 다양한 기상조건에서 동일한 범주의 point를 안정적으로 표현 목표 2) 범주간의 구별가능한 강력한 3D Representation을 학습.
④ PointDR설계방식:
i) Geometry Style Randomization: 다양한 공간 증강하에 point cloud의기하학적 분포를 확장. ii) Embedding Aggregation: 무작위로 증강된 point cloud의 encoded embedding을 집계하기 위해contrastive learning을 도입.
🤔 논문 읽기! by. Andrew Ng.
① Title / Abstract / Figure 및 Experiment 1~2개
∙ Title:
3D Semantic Segmentation in the Wild: Learning Generalized Models for Adverse-Condition Point Clouds
3D Semantic Segmentation을 활용. 악조건 point cloud에서의 일반화모델 학습이 목표인 것을 알 수 있음.
∙ Abstract:
[개념] Robust Point Cloud Parsing:
전천후 환경에서 level-5의 자율주행에 매우 중요함.
[선행 연구]
다만, 기존 Benchmark는 정상날씨에서 포착된 Point Cloud였음.
[본 연구]:
1. SemanticSTF Dataset
Robust Point Cloud Parsing을 위해 밀도높은 point-level(= point-wise) annotation 및 악천후의 3DSS를 연구하기 위한 SemanticSTF Dataset을 제안.
① Domain Adaptive 3DSS: 정상날씨 data → 악천후 data
② Domain Generalizable 3DSS: 정상에서 전천후 3DSS모델을 학습, 악천후에 적용
2. [PointDR]: Domain Randomization Techique
① Geometry Style Randomization: point cloud의 기하학적 스타일을 다른방식으로 random화.
② Embedding Aggregation: 위의 embedding을 모으고, 궁극적으로 일반화가능한 모델을 도출함.
∴ 다양한 악천후에서 효과적인 3DSS!
cf) Background & 용어설명.
∙ 3DSS: 3D Semantic Segmentation
∙Point Cloud: sensor등으로 물체의 표면을 측정해 x, y, z로 물체의 앞뒤,좌우,위아래 (최소 3차원)의 point로 나타내는 것. 즉, 비행시간으로 이동거리와 등록된 센서와 표적간 각도정보를 결합해 3D모양을 포착, 표면의 3D좌표를 계산하는 방식.
∙Perturbation Invariance: 섭동불변 = 시스템이 외부 변동에 대해 얼마나 민감한지를 나타내는 것. 즉, "perturbation invariant" = "외부변동에 민감하지 않음" 을 의미.
∙All Weather: 전천후 날씨를 의미.
[Adverse Weather]: --> 지면유형을 식별하기 어렵게해 무효영역이 상당부분 포함됨. - Snow: 두꺼운 눈 덮인 범위가 물체 변형으로 이어질 수 있음. - Rain: 지상의 물에서 Laser Signal의 "정반사"를 유발할 수 있음. - Dense Fog: LiDAR 센서의 작동범위를 크게 감소시킴. - Light Fog: 보통날씨와 유사한 특성을 가짐.
② Intro / Conclusion / Figure / Related Works Skim(속독)
∙ Introduction:
선행연구들: 거의 다 정상날씨 or Detection Benchmark로 point-wise annotation이 없었음. point-wise annotation은 매우 어려운 작업: 무효영역이 상당부분 포함되게됨. i) 3D view change ii) point cloud와 사람간의 인식차이 iii) point sparsity iv) sweeping occlusion
Contribution 1. SemanticSTF
이를 위해 SemanticSTF를 제공→자율주행에 자주 발생하는 4가지 악천후(짙은/옅은안개, 눈, 비)조건으로 포착. 아래 그림처럼 21개의 Semantic Category에 대한 point-wise annotations를 제공. SemanticSTF는 악천후조건에서 3DSS와 Robust point cloud parsing을 위한 Benchmark를 제공.
[활용방안]: 기상에 강한 3DSS연구에 활용가능. i) 정상날씨 Data → 악천후 Data로의 DA 3DSS ii) 정상날씨에서 전천후조건에 대해 학습하는 DG 3DSS모델.
Contribution 2. PointDR
Robust한 전천후 3DSS가 필요 --> 2가지 문제점이 존재함. Problem 1) LiDAR point cloud는 sparse, incomplete, 기하학적 변형 및 의미론적 모호성의 영향을 받음. Problem 2) 눈보라, 빛방울 등으로 인해 악천후에서 더 많은 Noise가 도입됨 이를 위해 아래와 같은 해결책을 도입함
[How to Solve? & Make Robust All Weather 3DSS] -> Domain Randomization Technique sol) [PointDR]: 전천후 3DSS연구 및 Benchmarking을 위한 새로운 Framework. 목표 1) 다양한 기상조건에서 동일한 범주의 point를 안정적으로 표현 목표 2) 범주간의 구별가능한 강력한 3D Representation을 학습.
[PointDR 설계방식] i) Geometry Style Randomization: 다양한 공간 증강하에 point cloud의 기하학적 분포를 확장. ii) Embedding Aggregation: 무작위로 증강된 point cloud의 encoded embedding을 집계하기 위해 contrastive learning을 도입.
∙ Conclusion:
본논문: SemanticSTF(악천후조건 = 짙은∙옅은안개, 눈, 비)에서 LiDAR Point Cloud와 Annotation으로 Semantic Segmentation을 위한 대규모 Benchmark Dataset을 소개.
PointDR의 설계: Domain Randomization Technique - 목표: i) 정상날씨 point cloud를 사용해 ii) 악천후 point cloud에서 잘 작동할 수 있는 iii) Domain Generalizable 3DSS Model을 훈련하는 것.
- 설계방식: i) Geometry Style Randomization ii) Embedding Aggregation → 다양한 새로운 point cloud domain에서 "잘 일반화 되는" "섭동불변표현"을 공동으로 학습.
기존의 3DSS신경망: 주로 정상날씨 point cloud대상으로 평가. SemanticSTF: 해당 간극(정상,악천후)을 메우고, 전천후 3DSS의 연구 및 평가를 위한 견고한 baseline을 제공함.
Vision Recognition under Adverse Conditions
최근: 2D는 많으나 3D, 특히 point cloud학습은 포괄적 Benchmark의 부재로 충분한 탐구X 최근 제안된 STF, CADC같은 Dataset은 악천후 LiDAR point cloud를 포함하긴하나 Bbox같은 Detection task에 중점. --> point별 Annotation을 제공X ∴ 악천후 LiDAR point cloud로 이뤄진 첫 대규모 Dataset!
Domain Generalization
목표: Tgt Data가 모델학습중에 접근불가한 Src Domain Generalizable Model을 학습하는것. (이때, Src의 경우, 단일 혹은 여러 관련성있는 서로다른 Source임.)
최근: Vector Field를 통해 point cloud를 변형, 3D Detection의 DA를 연구함. 본 논문은 3DSS의 DA를 탐구한 첫 시도!
Unsupervised Domain Adaptation
Label이 지정된 Src Domain에서 학습한 지식을 활용 → Label이 없는 Tgt Domain에 전달하는 방법. 이는 Src Domain의 지식을 Tgt Domain으로 확장하는 방법임. 최근: DA 3D-LiDAR Segmentation이 point별 Annotation으로 점점 주목을 받음.
③ Main Method, Math , etc 이해안되는 것 → Skim or Skip
∙ Main Method: SemanticSTF Dataset
이때, train/val/test 모두 다양한 악천후에 대한 LiDAR스캔의 비율이 거의 동일함.
또한, 식별이 불가능하거나 20개 클래스에 속하지 않거나 ignore(무시된 것)인 point는 invalid로 label을 지정함. 이때, invalid는 training&evaluation에 활용되지 않음.
∙ SemanticSTF의 Class Imbalance
road, sidewalk, building, vegetation, terrain 클래스는 발생빈도가 높지만 motor, motorcyclist, bicyclist 클래스는 명백히 발생빈도가 낮음. [이런 Class Imbalance의 발생이유는?]
① 주로 교통장면에서 다양한 객체크기와 객체 카테고리의 불균형한 분포.
② 이는 기존의 많은 Benchmark에서도 매우 일반적임.
∙ [Dataset 예시]:
∙ Main Method: PointDR
∙ Point Cloud Domain Randomization
전천후조건에서 DG를 살펴보자. 정상날씨 point cloud에서 일반화가능한 segmentation 모델훈련시 도움이 되는 Domain Randomization기법인 PointDR을 설계. [Domain Generalization의 목표]:
∙ PointDR의 설계: Domain Randomization Technique
[목표]: 정상날씨 point cloud를 사용 → 악천후 point cloud에서 잘 작동할 수 있는 DG-3DSS모델 훈련하는 것. [설계방식]: 2가지 보완설계로 구성: Geometry Style Randomization & Embedding Aggregation: 다양한 새로운 point cloud domain에서 잘 일반화되는 perturbation-invariant representation을 공동으로 학습.
∙ Loss Function
cf) Experiments
🤔 SemanticSTF 논문 구현 testing
1. 배운점.
처음에는 내가 임의대로 아래 깃헙 링크를 바탕으로 파일을 구성했었음: 00~08파일만 SemanticKITTI파일에 넣었었음.
2. 교수님 Feedback
Github만으로 내가 임의로 판단하지 말 것. 정확하게 Data Statistics(데이터 통계)를 파악하고, 실험을 진행해야함!! Data Statistics란, 아래와 같이 논문에 나타나야함.
SemanticKITTI Dataset
3. How? 정확하게 Data가 구축되어있는지 파악?
train data만 00~08로 존재한다고? 좀 이상한데? valid는 없나? ① 위를 보고, 아! train.py구조를 먼저 확인해 봐야겠구나! 생각할 것!!
4가지 Domain에서 AR-Transformer의 CE손실에 대해 scaling law를 확인: 이때, Cross Entropy = S(True) + D_KL(True || Model) 로 해석. ∙ 이미지 생성 모델링 ∙ 비디오 생성 모델링 ∙ 멀티모달 Img-Txt 모델링: 상호정보량에 대한 scaling law ∙ 수학문제해결: 학습분포를 extrapolating하는 성능에 대한 scaling law 이에 대해 모델크기와 계산예산이 증가함에 따라 성능이 점진적으로 향상되며, 이는 power law를 따른다
추가적인 실험: Downstream task에서 scaling law가 중요한 함의점을 가짐.
용어:
Cross Entropy Loss: L
Cost Budget: C
Dataset Size: D
Model Size: N
1. Intro
Cross Entropy Loss:L
Cost Budget:C
Dataset Size:D
Model Size:N
이때, L이 C,D,N 중 하나에 의해 "제한"되면, 각각의 양에 대해 L이 단순한 power함수로 변화한다! 이에 대해 여러 의문점이 있다.
이 결과가 모든 데이터 양상에 적용되는가? 손실 개선이 표현 품질과 하위 작업 성능으로 어떻게 이어지는가? 모델 성능이 상한에 도달했음을 어떻게 알 수 있으며, 추가적인 스케일링이 수확 체감을 겪게 되는 이유는 무엇인가? 이 추세의 정밀성과 보편성은 무엇을 설명하며, 이로부터 무엇을 더 배울 수 있는가?
본 논문은 폭, 깊이, 학습률 등의 하이퍼파라미터를 최소한의 변경으로도 일관된 성능을 나타냄을 보여준다.
Summary of the Results
모든 Domain에서 아래와 같은 결과가 나타났다:
위 식의 Scaling Law가 일관되게 적용, 환원 가능한 손실이 매우 작은 경우에도 성립함.
주어진 C에 대한 최적 모델 크기 N_opt를 동일한 멱함수 관계 N_opt ∝ C^(-ξ)로 모델링가능. 이는 지수 ξ ≈ 0.7로 모든 도메인에서 유사, D가 모델 크기 N의 0.4승 보다 느리게 증가해야함을 시사함.
각 도메인마다 트랜스포머의 최적 종횡비 d_model/n_layer가 다르며, 언어 모델보다 더 작은 값이 선호됨.
언어이외의 도메인에서는 명확한 불일치가 관찰
특정 Domain에서 아래와 같은 결과가 나타났다:
이미지생성모델을 ImageNet 분류에 fine-tuning: 생성 손실이 수렴하더라도 분류 손실이 모델 크기에 따른 지수함수 추세로 계속 향상됨. 이는 생성 손실의 수렴이 표현 품질이나 의미적 내용에 대한 수확 체감을 의미하지 않음을 시사.
개별 이미지 및 손실 분포 백분위수에 대한 확장 추세를 탐구했으며, 전체 분포에 대한 평균 손실 추세와 유사함.
다양한 이미지 해상도와 VQ 인코딩 방식에 대해 실험했으며, 각각 구분되는 스케일링 지수와 비환원 손실을 발견.
멀티모달 모델에서 캡션-이미지 상호 정보량과 정보 이득 척도의 모델 크기에 따른 점진적 향상.
수학 문제 해결에서 학습 분포를 외삽하는 성능은 주로 학습 분포 성능에 의존하며, 모델 크기에 따른 이점은 없다는 것을 보였다.
2. Central Empirical Scaling Laws in Each Domain
2.1 Domain Descriptions and Training Setups
모든 Domain에서 AR Cross Entropy Loss를 사용해 학습시킨 Transformer Decoder를 사용. 이때, 실험적으로 d_model/n_layer ≈ 10이 대략적으로 최적이라고 발견
2.1.2 Images
10M개의 Web Img Dataset을 8x8, 16x16, 32x32로 축소해 사용.
2.1.3 Video
7만여개의 동영상(약 100시간)분량의 Web Data사용. Frame은 64x64해상도로 축소해 사용.
각 Domain에 대해 Converge된 모델로 N에 대한 L을 측정. Img&Video: 1만개이하 parameter의 작은모델은 추세를 벗어나는 성능 각 모델은 최적의 d_model/n_layer가 존재:
2.3 Compute Scaling and Optimal Model Sizes
모델이 수렴할때까지 학습시키는 대신, 주어진 C로 달성가능한 L을 살펴볼 수 있다: 여기서 N_opt ∝ C^(-ξ)관계를 따르며, 지수ξ=0.7로 계산한다. 또한, D = C/6N * E 관계에 의하면, 계산 최적 학습 시 데이터셋 크기 D는 N^(2/3) 보다 느리게 증가해야한다.
2.4 Loss versus Position in Context Depends on the Structure of the Data
Language & Video는 power law를 따르나 Img는 전혀 다른 패턴이 나타나기에 Data특성에 의존적으로 보편적이지 않다.
다만, C와 N에 따른 Scaling Law는 Data분포에 거의 독립적이다.
3. Image & Video Modeling, the Reducible Loss, Downstream Tasks
매우 낮은 해상도(8x8)에서 환원 가능한 손실의 지수함수 추세를 약수 nats/image 수준까지 따라갈 수 있으며, 이는 10억 단위의 파라미터를 가진 모델로 달성할 수 있다. 즉, 더 큰 이미지에 대해서도 유사한 추세를 외삽할 수 있다는 이유를 제공한다. 또한 식 (1.1)의 멱함수 plus 상수 형태가 매우 정확한 근사임을 강력히 시사한다.
또한 생성 손실이 비환원 손실에 접근하더라도 미세 조정 분류 성능이 계속해서 점진적으로 향상되는 것을 보일 것이다. 이 결과는 생성 손실 추세가 수렴하는 것처럼 보여도 표현 품질이 계속 개선됨을 강력히 시사한다.
3.1 Varing the Image Resolution and Encoding
우리는 YFCC100m 데이터셋에서 8x8, 16x16, 32x32 픽셀 해상도로 축소된 이미지와, 64x64 이미지를 16x16 및 32x32 VQ 코드[vdOVK18]로 인코딩한 데이터로 트랜스포머를 학습시켰다. 그림 8에 계산 예산에 따른 환원 가능한 손실(= 개선을 통해 줄일 수 있는 손실의 양) 추세를, 그림 7에 모델 크기에 따른 추세를 보였다.
가장 작은 모델들은 8x8 해상도를 제외하고는 추세에서 벗어나는 성능을 보였는데, 이는 상대적 Positional Encoding을 활용하는 데 어려움을 겪기 때문으로 추정된다.
표 3에는 각 해상도별 환원 가능한 손실과 비환원 손실의 계산 예산 의존성 추세를 정리했다. 8x8 pixel이미지의 경우 10억 단위 파라미터 모델로도 거의 완벽한 모델링이 가능하지만, 더 큰 이미지에서는 훨씬 더 큰 모델과 계산 자원이 필요할 것으로 예상된다.
cf) nats: 로그의 밑이 e인 entropy단위.
3.2 Video Modeling and Individual Frames
비디오 모델링의 경우, 전체 추세를 개별 프레임으로 확장하는 것이 자연스럽다.
그림 9에서 모델 크기와 계산 예산에 따른 마지막 프레임의 환원 가능한 손실 추세를 보였다. 이미지 모델링과 마찬가지로 지수함수 추세가 관찰되며, 이를 통해 약 10^13 파라미터와 10^4 PF-day 규모의 모델이 각 프레임당 수 nats 수준의 손실을 달성할 수 있음을 예측할 수 있다.
3.3 Scaling Trends for Individual Images
3.3 개별 이미지에 대한 확장 추세
우리는 다양한 데이터 양상에서 매우 일관된 확장 추세를 관찰했다. 이는 개별 데이터 샘플에 대해서도 동일한 추세가 나타나는지, 아니면 분포 수준의 추세가 많은 개별 추세의 집합인지에 대한 의문을 제기한다.
이를 확인하기 위해 32x32 이미지 테스트셋에서 1000개 샘플을 선택하여 모든 모델의 손실을 평가했다. 그림 10에서 볼 수 있듯이, 손실 분포의 각 백분위수 역시 식 (1.1)의 멱함수 plus 상수 추세를 따르며, 개별 랜덤 샘플에서도 동일한 패턴이 관찰된다(그림 17, 20, 21).
이러한 발견은 다른 데이터 양상에서도 적용될 것으로 기대된다.
3.4 Finetuning on ImageNet at 32x32 Resolution
3.4 32x32 ImageNet에 대한 미세 조정
생성 모델을 이미지 분류 작업에 미세 조정하면 모델 크기에 따른 성능 확장을 또 다른 관점에서 살펴볼 수 있다. 32x32 해상도의 ImageNet[CLH17] 데이터셋을 사용하여 이를 실험했다.
그림 11에서 볼 수 있듯이, 사전 학습된 생성 모델을 미세 조정한 경우 순수한 지수함수 추세를 따르며, 심지어 생성 손실이 수렴하는 지점을 훨씬 넘어서까지 성능이 계속 향상된다. 이는 생성 손실의 수렴이 표현 품질이나 의미적 내용에 대한 수확 체감을 의미하지 않는다는 것을 강력히 시사한다.
4. Multimodal Models and Information Gain (✨)
img-txt 간 상호 정보량으로 멀티모달 모델의 성능을 평가할 수 있습니다.
🤔 How to get 상호정보량? txt2img모델의 경우) 빈 caption의 Img손실 - caption있을때의 Img손실 = txt-img상호 정보량
문제점) 모델이 멀티모달 데이터로만 학습되었다면?빈 캡션이나 빈 이미지는 분포 바깥일 수 있음. Sol)이 문제를 최소화하기 위해 캡션이 있거나 없는 데이터를 반반씩 섞어 10,000 스텝 파인튜닝한 뒤 상호 정보량을 측정 cf) 이 과정 없이 측정하면 상호 정보량이 약 2배 더 크게 나옴. 결과) txt2img가 img2txt보다 상호정보량 및 정보이득이 큼 = img에서 semantic정보를 추출하는데 더 많은 처리가 필요하기 때문이라는 추측.
cf) 한장의 img가 몇개의 단어에 해당할까? 가장 큰 img2txt모델) txt토큰당 약 2.6 nats로 단어 당 약 3.4 nats의 loss img2txt상호정보량이 8 nats인 것을 고려하면, 32x32 이미지는 우리 최고 모델에 대해 약 2-3개 단어에 해당한다고 볼 수 있습니다.
5. Mathematical Problem Solving and Extrapolation
기계 학습에서 일반화는 대개 테스트와 학습 성능의 격차를 의미합니다. 하지만 개념적으로는 훈련 분포를 더 큰 또는 다양한 분포로 외삽할 수 있는 더 야심찬 가능성을 의미할 수 있습니다. 수학 문제 해결은 외삽 연구에 매우 적합한데, 숫자 범위나 연산, 재귀/구성적 깊이를 확장할 수 있기 때문입니다. 우리는 수치적 수준에 따라 다양한 테스트 세트로 문제 해결 성능을 평가하면서 이 현상을 연구했습니다. 모든 테스트 세트에서 약간의 매끄러운 거듭제곱법칙 더하기 상수 형태의 경향을 관찰했지만, 난이도 수준에 따라 지수와 오프셋이 다릅니다. 따라서 외삽 성능은 모델 크기가 커짐에 따라 향상됩니다. 그러나 그림 13에서 보듯이, 이 모델의 외삽 능력은 주로 훈련 분포에서의 성능에 달려 있습니다. 즉, 훈련 분포에서 동일한 손실을 달성하는 크기가 다른 모델들은 다양한 테스트 분포에서 대략 동등한 성능을 보입니다. 이런 의미에서 모델 크기를 늘리는 것만으로는 외삽 능력이 자동으로 향상되지 않고, 훈련 분포에서의 성능 향상을 통해서만 개선됩니다. [KMH+20]에서도 한 텍스트 분포에서 다른 분포로 외삽할 때 유사한 결과를 발견했습니다. 마지막으로, 수학 문제 해결의 정보 이론적 해석은 답안이 문제와 결정적으로 관련되어 있어 엔트로피가 실제로 0이 되어야 한다는 점에서 약간 다른 의미를 가집니다. 수학 성능과 이에 관한 훨씬 더 자세한 결과는 부록 B를 참고하시기 바랍니다.
6. An Incosistency in Compute and Datasize Scaling Laws
계산량 및 데이터 크기 스케일링 법칙의 불일치 실험은 저해상도 이미지 모델을 사용하여 연구하겠지만, 다룬 데이터 모두에서 질적으로 유사한 결과가 나타날 것으로 예상함.
그림 14 왼쪽을 보면, 다양한 모델 크기에 대한 학습 곡선과 완전히 학습된 초기 중지 L(D)의 트렌드를 볼 수 있습니다. 이는 학습 곡선이 모델 크기가 증가함에 따라 L(D) 트렌드에 점점 더 가까워지고 있음을 보여주는데, 이는 더 큰 모델이 더 빨리 학습한다는 것을 의미하며, 최적화가 모델 크기가 증가함에 따라 점점 더 효과적이 된다는 것을 시사합니다. 그러나 학습 곡선은 항상 샘플 효율성을 설정하는 L(D) 트렌드 위에 있습니다. 그림 15에서는 언어의 경우에 대한 유사한 현상을 볼 수 있습니다. 이제 두 가지 다른 트렌드의 투영을 비교해 보겠습니다. L(C) 계산량 트렌드는 그림 7에서 재현할 수 있습니다. L(D)를 계산량 축에 플롯하려면 N_opt(C) ≈ (2.8×10^8)C^0.74 의 거듭제곱법칙 트렌드를 사용해야 합니다(그림 16 참조). 이를 바탕으로 L(D) 대 C(D)를 그리면 그림 14 오른쪽과 같습니다. 여기서 문제는 모든 학습 곡선이 오른쪽 그림의 L(D) 트렌드 위에 있어야 하지만, L(C) 외삽은 궁극적으로 L(D)와 교차하고 그 아래로 내려간다는 점입니다. L(D), L(C) 또는 N_opt(C) 트렌드 중 하나는 이 교차점에서 또는 그 전에 무너져야 합니다.
이 불일치가 어떻게 해결되는지 확실하지 않습니다. 그러나 그림 14 왼쪽의 관찰과 앞서의 논의는 가능한 가설을 제시합니다. 모델과 데이터 크기를 늘릴수록 최적화 효율이 높아져 결국 학습 곡선이 L(D) 트렌드와 합쳐지게 됩니다. 교차점 근처에서는 계산량 프런티어가 구부러져 L(D)와 겹치게 될 것입니다. 이 관점에서 L(C)가 L(D(C))보다 더 가파른 것은 최적화의 결함 때문일 수 있습니다. 이 가설을 미래에 조사해 볼 만합니다. 만약 사실이라면, 최적 모델 및 데이터 크기의 상대적 스케일링이 궁극적으로 변경될 수 있으며, 과적합 등의 트렌드에 의해 결정될 수 있습니다.
마지막으로, 데이터 크기 트렌드에서 측정한 불가피한 손실은 16x16의 경우 2013 nats/이미지, 8x8의 경우 599 nats/이미지이고, 계산량 트렌드에서 추출한 값은 16x16에서 2023 nats/이미지, 8x8에서 602 nats/이미지로, 이 두 추정치가 꽤 유사하다는 점에서 우리의 결과가 일관성을 보인다고 할 수 있습니다.
7. Related Work
현대 신경망의 예측 가능한 스케일링 트렌드는 다양한 연구 그룹에 의해 연구되어 왔습니다. [HNA+ 17]으로 시작해서, 가장 최근에는 [RRBS19, LWS+ 20, RDG+ 20, Kom19, RFCS20]에서 다양한 모델 아키텍처와 데이터셋을 사용하여 스케일링 관계를 연구했습니다. 이 중 [KMH+ 20]의 언어 모델링 연구가 우리의 접근과 가장 유사합니다. 175B 파라미터 GPT-3 모델 연구 [BMR+ 20]도 이런 신경망 스케일링 법칙의 영향을 받았습니다.
우리와 다른 이들이 확인한 매우 정확한 스케일링 관계에 대한 이론적 설명은 많지 않습니다. [SK20]에서는 데이터 다양체 차원의 역수와 스케일링 지수를 연결하는 간단한 이론을 제안했습니다. [LXS+ 19, JGH18]의 모델 크기 확장, 특히 넓이에 대한 연구는 [LBD+ 20]에서 최적화된 하이퍼파라미터에 적용 가능하다면 우리의 스케일링 관계를 이해하는 데 유용한 틀을 제공할 수 있습니다. 우리가 사용한 모델과 데이터 양상은 과거에 널리 연구되어 왔습니다. 자기회귀적 이미지 모델은 PixelRNN [vdOKK16]부터 시작해서, 최근 [CRC+ 20]의 연구가 우리 모델과 학습 절차에 거의 동일합니다. 트랜스포머 기반 비디오 모델은 [WTU19]에서, 멀티모달 모델은 [TBL+ 19]에서 학습되었습니다. 원저자들은 수학 문제 데이터셋 [SGHK19]에 대해 트랜스포머를 포함하는 다양한 모델을 적용했고, [SSF+ 19]에서는 이를 더 특화된 아키텍처로 연구했습니다. 우리 모델은 대부분 이전에 논의된 것보다 간단한데, 디코더 전용 [LSP+ 18] 트랜스포머와 dense or sparse attention mechanism만 사용.
8. Discussion
우리는 단일 신경망 아키텍처인 트랜스포머를 이용해 이미지, 비디오, 멀티모달 데이터, 수학 문제 및 언어 [KMH+ 20, BMR+ 20] 생성 모델링을 수행할 수 있음을 보였습니다. 모든 데이터 양상에 대해 모델 크기와 계산 예산의 함수로 손실 달성 경향을 파악했습니다. 언어의 경우와 마찬가지로, 이 결과는 더 큰 모델이 더 많은 샘플 효율성을 가진다는 것을 의미합니다. 또한 일부 중요한 경우 파인튜닝된 하위 작업 성능도 유사한 스케일링 법칙을 따른다는 것을 확인했습니다. 이는 생성 모델링 손실의 경향이 실용적 기능에 이점으로 이어짐을 시사합니다.
더 놀라운 점은 데이터 분포와 거의 무관하게 최적 모델 크기는 training계산 budget의 함수라는 약 N_opt ∝ C^0.7의 보편적인 경향이었습니다. 이 경향은 최적화된 훈련 중 경과된 토큰 수의 C 또는 N에 대한 이중 경향을 의미하며, 따라서 더 큰 계산 예산은 훨씬 더 긴 훈련 시간보다는 더 큰 모델에 투자되어야 한다는 교훈을 줍니다. 이러한 언어 모델링 [KMH+ 20]의 교훈이 일반화되는 것입니다.
스케일링 법칙은 또한 신경망 아키텍처, 손실 함수, 훈련 알고리즘의 세부사항에서 벗어나 모델, 데이터, 계산 규모의 거대한 층위에 걸친 보편적 공통점을 향한 관점의 전환을 시사합니다. ML 연구는 현재 능력의 특정 결함을 파악하고 모델과 알고리즘을 변경하여 이를 개선하는 것을 수반합니다. 아마도 많은 기능은 단순히 규모 증가에 따라 연속적으로 해제될 수 있는 스펙트럼에 있을 수 있으며, GPT-3 모델의 메타학습 기능 [BMR+ 20]에서 암시되는 바와 같습니다.
우리는 또한 스케일링 법칙의 정보 이론적 함의를 논의했습니다.
가장 중요한 점은 (1.1)식의 두 항을 각각 진짜 데이터 분포의 엔트로피와 그 분포와 주어진 생성 모델 사이의 KL 발산으로 해석할 수 있다는 것이다. 엔트로피 식별은 정확한 경향의 외삽을 통해 가능했으며, 단일 모델의 결과로는 예측할 수 없다.
또한 멀티모달 모델에서 이미지와 캡션 간 경험적 상호 정보량의 흥미로운 스케일링 법칙을 관찰했습니다. 이는 상호 정보량이 캡션 엔트로피에 의해 제한되기 때문에 특히 흥미로운 것입니다.
Contributions
Tom Henighan은 이미지 및 비디오 모델링 실험과 분석을 수행했고, 실험과 데이터 분석을 가능하게 한 코드베이스를 관리했습니다.
Jared Kaplan은 수학 실험과 분석을 수행했고, 전반적인 데이터 분석을 주도했으며 논문을 작성했습니다.
Mor Katz는 멀티모달 실험과 데이터 분석을 수행했습니다.
Jacob Jackson, Chris Hesse, Heewoo Jun, John Schulman은 비디오 모델링 실험에 협력했습니다.
Jacob Jackson, Heewoo Jun, Prafulla Dhariwal, Alec Radford는 VQ-VAE 학습 전략과 코드베이스를 개발했습니다.
Sam McCandlish는 언어 모델의 질문-답변 기능 진보를 분석했습니다.
Aditya Ramesh와 Alec Radford는 멀티모달 모델링과 최적화에 대한 지도를 제공했습니다.
Chris Hallacy와 Alec Radford는 멀티모달 데이터셋을 큐레이션했습니다.
Heewoo Jun과 Aditya Ramesh는 이미지 데이터셋을 큐레이션했습니다.
Chris Hesse, Heewoo Jun, Alec Radford는 비디오 데이터셋을 큐레이션했습니다.
Mark Chen은 이미지 모델링과 파인튜닝에 대한 지도를 제공했습니다.
Tom Brown, Scott Gray, Benjamin Mann, Nick Ryder, Prafulla Dhariwal, Daniel Ziegler는 대규모 트랜스포머 모델 훈련을 위한 코드베이스를 구축, 최적화 및 유지했습니다.
Dario Amodei는 생성 모델링에 대한 전반적인 스케일링 법칙 연구를 옹호했습니다.
Sam McCandlish와 Jared Kaplan은 이 연구를 주도했습니다.
Appendix.
A. More Details on Image Modeling
그림 18과 19에서 우리는 다양한 이미지 해상도 및 인코딩에 대한 계산 규모 추세를 문서화하는 추가 정보를 제공합니다. 그림 20에서는 100k 파라미터 모델에서 400M 파라미터 모델로 전환될 때 손실이 가장 많이 개선되거나 개선되지 않은 이미지를 보여줍니다. 그림 17에서는 테스트 세트에서 무작위로 선택한 개별 이미지에 대한 추세도 보여줍니다.
그림 18은 다양한 이미지 해상도에 대한 픽셀 단위 계산 규모 추세와 식 (1.1)에 대한 거듭제곱 법칙 plus 상수 맞춤을 보여줍니다. 표 3에는 픽셀 단위 이미지 모델링에 대한 맞춤 결과가 나와 있습니다.
그림 19에서는 두 가지 다른 VQ 코드 해상도로 인코딩된 64x64 이미지에 대한 계산 규모 추세와 식 (1.1)에 대한 거듭제곱 법칙 plus 상수 맞춤을 보여줍니다. 일부 실행은 계산 한계를 넘어 발산되었고, 최악의 경우 그림 7의 모델 크기 추세에서 눈에 띄는 편차가 나타났습니다.
그림 20에서는 400M 파라미터 모델과 100k 파라미터 모델 간의 손실이 가장 많이 개선되거나 개선되지 않은 이미지를 보여줍니다. 이는 무작위로 선택한 1,000개 테스트 이미지 중 손실 비율 및 손실 차이로 측정했을 때 상위 또는 하위 10개 이미지였습니다. 사람이나 군중이 포함된 복잡하고 다채로운 장면의 이미지가 일반적으로 가장 많이 개선되었고, 흑백 이미지와 단순한 배경이 지배적인 이미지가 가장 적게 개선되었습니다.
그림 21에서는 이미지 완성 품질의 추세를 보여줍니다. 여기서 가장 왼쪽 열은 원본 이미지이고, 다른 열은 각각 상단에 표시된 비임베딩 파라미터 수를 가진 모델로 완성한 결과를 보여줍니다. 모델에는 이미지의 상단 절반이 조건으로 제공되며, 하단 절반은 온도 1.0으로 샘플링됩니다. 모델 크기가 증가함에 따라 사실감이 증가하는 명확한 추세가 있습니다.
B. Details of Math Experiments and Additional Results
B.1 절차적으로 생성된 교육 데이터 우리는 [SGHK19]에서 제공한 코드를 사용하여 모든 교육 데이터를 절차적으로 생성했습니다. 문제는 교육 분포에서 모듈을 무작위로 샘플링하여 생성되었으며, 'entropy' 설정은 정수 s ∈ [3, 10] 범위에서 균일하게 샘플링되었습니다. 엔트로피 s인 문제의 수는 약 10^s 정도이므로, 낮은 엔트로피의 쉬운 문제는 모델에 매우 많이 노출되지만, s=9인 일부 문제는 전혀 보이지 않을 수 있습니다. 따라서 교육 분포의 쉬운 구성 요소가 기억될 수 있습니다. 또한 우리의 절차적으로 생성된 데이터는 '보간' 테스트 분포 [SGHK19]에서 중복되지 않았지만, '외삽' 테스트 분포와는 완전히 분리되었습니다.
공식 외삽 분포는 하나의 난이도 수준만 제공하며 8가지 모듈 유형 모두를 포함하지 않습니다. 따라서 우리는 부드럽게 증가하는 난이도 수준(s=1, 2, ..., 19)의 문제 분포를 생성했습니다. 대부분의 모듈에 대해 보간 세팅을 사용했지만, 다른 매개변수가 필요한 경우 일반적으로 외삽 세팅을 사용했습니다. 중요한 것은 우리가 이러한 문제에서 항상 나쁘게 수행하고 빨리 과적합되는 것을 발견했기 때문에 probability__swr_p_level_set_more_samples 및 probability__swr_p_sequence_more_samples 생성기는 포함하지 않았다는 것입니다.
B.2 데이터셋 크기 조정 수학 데이터셋에 대해 N >> D이므로 성능이 과적합에 의해 제한되는 경우 데이터셋 크기 D에 따른 최적 성능을 연구했습니다. 각 데이터셋 크기와 문제 분포에 대해 L(D)를 훈련 중 최소 손실로 정의합니다(다양한 테스트 분포에 대한 손실이 여러 개인 경우 조기 종료와 약간 다름). 이 실험에서는 모든 데이터셋 크기에 대해 n_layer=64, d_model=512을 사용했습니다. L(D)에 대한 거듭제곱 법칙 맞춤을 얻었습니다(그림 22).
B.3 추가 수학 결과 여기에서는 문제 유형과 난이도 수준별 수학 성능에 대한 몇 가지 추가 관찰 결과를 제공합니다. 그림 23에서는 [SGHK19]에서 제공한 파일을 사용한 다양한 모듈의 성능을 보여주고, 그림 24에서는 다양한 모델 크기에 대한 난이도 수준별 성능을 보여줍니다. 공식 외삽 및 보간 테스트 세트에서 달성한 정확도는 그림 26과 27에 자세히 설명되어 있습니다.
전반적으로 이 부분에서는 수학 실험 및 추가 결과에 대한 자세한 내용을 제공하고 있습니다.
C. Additional Multimodal Results
이 섹션에서는 멀티모달 실험에 대한 추가 결과를 보여줍니다.
그림 29에서는 상호 정보의 학습 곡선을 보여줍니다. 여기에는 텍스트-이미지에 대한 공백 캡션 데이터의 95/5 혼합물로 처음부터 훈련하는 것과 50/50 혼합물로 10,000 단계 미세 조정하는 것이 포함됩니다. 이를 통해 우리는 상호 정보와 Infogain 추정치가 공백 캡션이나 이미지가 분포 밖인 문제로 혼란되지 않도록 합니다.
그림 28에서는 두 전략에 대한 최종 상호 정보와 Infogain을 비교합니다. 두 방법의 결과는 매우 유사합니다.
전반적으로 이 섹션에서는 멀티모달 실험에 대한 추가 결과, 특히 상호 정보 및 Infogain 측정에 대해 다루고 있습니다.
D. Additional Language Results
그림 30에서는 GPT-3 계열 모델의 산술 능력 진화를 보여줍니다. 작은 모델은 문제에 나오는 작은 숫자에 약간의 가중치를 두지만, 점점 더 큰 모델은 정답을 더 확신하게 선택하는 것을 볼 수 있습니다.
그림 31에서는 간단한 질문에 대한 답변 능력의 진화를 보여줍니다. 작은 모델은 질문을 이해하지 못하지만, 큰 모델은 질문의 두 가지 측면을 모두 이해하여 정답을 선택할 수 있게 됩니다.
전반적으로 이 섹션에서는 GPT-3 계열 모델의 산술 및 질문 답변 능력이 매개변수 수 증가에 따라 어떻게 발전하는지를 보여줍니다. 작은 모델은 질문을 이해하지 못하지만 큰 모델은 올바르게 답변할 수 있게 됩니다.
E. Mutual Information, Infogain, and Scaling
이 섹션에서는 경험적 상호 정보, Infogain 및 이들의 척도에 대해 설명합니다.
E.1 상호 정보 및 Infogain의 근사 유도 언어 모델의 경우 첫 T 토큰과 다음 T 토큰 간의 상호 정보를 연구할 수 있습니다. 모델 크기 N에 대해 토큰 위치 t에 따른 손실은 거듭제곱 법칙을 따른다는 것이 알려져 있습니다[KMH+20]. 우리는 이를 이용하여 상호 정보와 Infogain에 대한 근사 공식을 유도할 수 있습니다.
E.2 실제 세계 분포 간 KL 발산 추정 우리는 데이터 분포의 고유 엔트로피와 실제 분포 및 모델 분포 간의 KL 발산을 바탕으로 척도 추세를 해석했습니다. 이는 무한한 데이터, 모델 크기 및 계산 능력을 가지면 데이터 분포를 정확하게 모델링할 수 있다는 아이디어에 기반합니다. 새로운 데이터 분포에 대한 모델의 경험적 손실도 예측 가능한 척도 추세를 따르는 경우 이는 새 분포와 교육 분포 간의 근본적인 KL 발산을 추정할 수 있음을 의미합니다.
전반적으로 이 섹션에서는 상호 정보, Infogain 및 이들의 척도에 대한 수학적 분석과 해석을 제공하고 있습니다.
F. Hyperparameter Settings
이 섹션에서는 모델 학습에 사용된 하이퍼파라미터 설정에 대한 더 자세한 정보를 제공합니다.
모든 모델은 3,000단계의 선형 웜업 스케줄과 최대 학습률의 1/10까지의 선형 감쇄를 사용했습니다. 모델 하이퍼파라미터와 학습률은 표 4와 5에 나와 있습니다. 주의 개수는 항상 max(2, d_model/64)로 선택되었습니다. 대부분의 모델은 배치당 약 5 x 10^5 토큰으로 훈련되었지만, 일부 차이가 있습니다.
'Parameters'는 임베딩을 제외한 약칭으로, 편향은 포함되지 않습니다. 모든 모델은 최소 250,000 단계 이상 훈련되었지만, 많은 모델이 훨씬 더 오래 훈련되었습니다. 모델 크기에 따른 손실 추세는 테스트 손실을 최소화하는 단계에서 계산되었습니다. 동일한 크기의 모델에 대해 매우 유사한 학습률을 사용했으며, 이는 초기 그리드 검색을 통해 결정되었습니다.
반면, Transformer는 '어텐션 메커니즘(Attention Mechanism)'을 사용하여 데이터의 관계를 학습.
강점: 문장 내 단어들 사이의 관계를 파악하여, 전체 문맥을 이해
약점: 하지만, Transformer는 많은 데이터와 복잡한 계산을 필요로 하며, 긴 문장을 처리하는 데 어려움이 있다.
🐍 Mamba...?
혁신적인 SSM(State Space Model)로 복잡한 Seq처리에 용이 ∙ 선택적 접근방식으로 추론속도가 빨라짐. ∙ seq_len에 따른 선형확장이 가능해 처리량이 크게 확장
[Main Contribution] ① 빠른 처리능력 ② 선택적 SSM Layer ③ Flash Attention에서 영감을 얻은 HW친화적설계
Transformer: 복잡한 Attention Mechanism을 활용: ∙ Input Processing ∙ Attention Mechanism & Multi-head Attention ∙ Encoder-Decoder 구조 ∙ Point-wise FFNs Mamba: 선택적 상태공간을 사용, 더 많은 computing을 제공. seq_len에 따라 선형적으로 확장해 특히나 seq가 길어짐에 따라 더 효율적인 seq_modeling을 위한 새로운 패러다임을 설정하는데, 다음과 같다: 먼저, 가장 눈에 띄는 점은 만연하는 Attention 및 MLP Block에서의 탈피 이다.
[Selective SSMs] ∙ 관련없는 정보를 filtering / 관련정보에 집중해 seq처리 향상 ∙ 이런 선택성은 효율적인 내용기반추론에 매우 중요
[Hardware-Aware Algorithm] ∙ GPU에 최적화된 병렬알고리즘을 사용 ∙ 더 빠른 계산 및 메모리요구사항 감소
[Simplified Architecture] ∙ Selective SSMs를 통합 ∙ Attention 및 MLP블록을 제거해 확장성이 향상 Standard Copying tasks are simple for linear models. Selective Copying and Induction Heads require dynamic, content-aware memory for LLMs.
cf) 이산화의 중요성 이산화는 고정된 공식을 통해 연속 매개변수를 이산 매개변수로 변환하여 S4 모델이 연속시간 시스템과의 연결을 유지할 수 있도록 하는 핵심 프로세스로 모델에 해상도 불변성과 같은 추가 속성을 부여하고 적절한 정규화를 보장하여 모델 안정성과 성능을 향상시킨다.
또한 이산화는 네트워크를 통한 정보흐름을 관리하는 데 중요한 RNN의 게이팅 메커니즘과 유사하다.
1. Intro
Background)
✔️State Space :
제어이론 기반, 동역학에서 사용되는 방정식.
현재 상태를 입력으로 시스템의 미래상태를 예측하는데 사용. 2개의 방정식이 존재:
✔️State equation: X' = AX + Bu
✔️Output equation: Y = CX + Du
이때, A를 잘 도출하는 것이 핵심. 보통 D를 0으로 두고 진행하는 경우가 다수.
위의 상태방정식 및 상태공간모델을 기반, 새로운 layer를 구축. 목표:긴 sequence를 효율적으로 modeling하는 것. 필요 조건: 1) A 행렬을 잘 정의해야함 (by SSM) 2) Continuous 2 Discrete 1. continuous → discrete 2. A행렬 잘 정의
✔️SSM(State Space Models):
이전에는 SSM이 매우 낮은 성능을 기록. 긴 seq에서 gradient problem이 발생했을 것으로 추측.
이를 해결하기 위해, HiPPO논문에서는 고차 다항식을 이용한 projection연산으로 History를 기억하게 만든다. 특정행렬(A)를 잘 정의하는 것이 핵심!!A는 충분한 정보를 갖는 과거의 History를 잘 압축(기억)하는 행렬(hidden_state)인 것! Legendre's Equation위의 르젠드르 방정식을 이용하면, 이전 모든 History를 근사시킬 수 있는데, 이는 위의 빨간 선과 같다. cf) 파란선: Legendre's 요소에 대한 계수에 대한 값들. 즉, HiPPO행렬 A는 각 단계마다 위 계수를 update하는 역할을 한다.
✔️ZOH Rule (Zero Order Hold Rule)
좌) Continuous Equation 우) Discrete EquationContinuous한 상태를 Discrete한 상태로 만들어야 한다. ZOH규칙으로 A와 B행렬을 훈련시킬 수 있으며, 이를 이용해 Discrete한 상태로 만들 수 있다. cf) 오일러 방법으로도 이산화 가능.
RNN과 CNN은 input Data차이token형태의 연산상태 --> RNN형태로 도출 Data전체를 볼 수 있는 연산상태 --> CNN형태로 도출
✔️Limitation:
Sol) Hardware Approach - Kernel Diffusion
B: Batch_size //. L: sequence_Length. //. D: d_model. //. N: hidden_state_size [보통의 연산순서]: 1. Tensor연산이 DRAM에서 SRAM으로 Tensor를 로드 << Too Slow 2. GPU(CUDA)에서 연산을 진행 3. DRAM에 결과를 저장
[Kernel Diffusion]: 1. DRAM에서 빠른 SRAM으로 직접 Δ, A, B, C로드 2. SRAM에서 이산화작업 진행 --> A ̅, B ̅ 생성. 3. 최종 출력인 B,L,D 만 DRAM에 다시 씀.
2. Recomputation
🤔 Mamba: Recomputation
위와 같은 DNN 훈련 시, Backpropagation을 살펴보자. Gradient값 계산을 위해 순전파 단계의 값을 caching하는데, 순전파 동안의 활성화 값을 caching한 후, BP동안 이를 재사용하는 것을 착안, 이를 GPU에 도입한 것.
BP 도중, DRAM을 재복사해야하는 비효율적인 점이 존재. → 순전파단계 출력값을 BP도중 재계산하자! 결과적으로 Fusion Selective Scale Layer에서 Flash Attention을 적용한 Transformer와 동일한 효과를 갖는다!
- Deep Q Learning: 단순하지만 연속컨트롤도메인에서 제대로 동작X - A3C:Data효율성 및 Robustness가 떨어짐 - TRPO: 너무 복잡 & policy와 value function이 parameter공유하는 구조와 호환X
Background)
✔️Policy Gradient
Policy 학습을 위해 아래의 Objective Function과 Policy Gradient사용 ∙ 목적함수를 미분해 policy의 gradient를 구하고, ∙ gradient로 policy를 update해 학습을 진행: 다만, Policy Update시, 매우 크게 update하기에 성능저하가능
✔️ TRPO (Trust Region Policy Optimization)
제약이 있는 Objective Function으로 Policy Update시, Update가 되는 크기에 제약을 둠. 다만, Second-Order Optimization이기에 복잡함.
Sol) Clipped Surrogate Objective Function
빨간색: 본 논문에서 제시한 Objective Functionold: policy update전을 의미. r(θ)는 [1-ϵ, 1+ϵ]으로 clipping한 후 min값을 반환한다.- TRPO의 복잡성 완화 및 성능유지하는 Objective Function을 새롭게 제시.
[A; Advantage] - A > 0 : 정책을 더욱 개선하고자 할 때, 작게 움직여 update - A < 0 : 정책을 악화하는 방향이면, 더 크게 움직여 update
2. Adaptive KL Penalty Coefficient
🤔 조절가능한 KL Penalty의 계수항
Background) TRPO알고리즘에서 KL항이 제약조건에 있었다. 위 식의 경우, KL Penalty항에 계수항을 추가해 Objective Function을 설계한 내용이다. 계수를 계산하는 방법은 아래 Compute d를 보면 된다: ∙ d가 target값보다 작으면 초기 beta/2 ∙ d가 target값보다 크면 초기 beta*2
앞선 Surrogate Objective Function보다 성능은 떨어지나 중요해서 Baseline으로 채택
🤔 PPO Algorithms
✔️ Actor-Critic구조를 사용, Policy와 Value-Func의 parameter를 공유.
FT의 장점: downstream task로 학습 시, feature extractor와 Linear head 모두 잘 adapt시킬 수 있다. 증명) ID acc가 높음 단점) feature distortion으로 인해 OOD acc가 낮아짐.
주장) 저자는 특정 상황에서 Fine-Tuning이 Linear Probing보다 좀 더 낮은 정확도를 보이는 경우가 있음. ❗️이는 ID와 OOD간의 분포적 차이가 큰 경우에 발생
원인) Fine-Tuning 시, Distorted Pretrain Feature 때문에 발생한다함.
1. Earlty Stopping doesn't mitigate(완화) feature distortion ✔️ FT는 In-Distribution에 overfitting하는 것 ✔️ LP보다 성능이 좋지 않았음.
2. ID-OOD features get distorted from Fine-Tuning ✔️ 정량적 측정: Living-17로 FT한 후와 전의 feature간의 Euclidean거리측정 ✔️ ID: 0.0188 > OOD: 0.0167 ✔️ 즉, ID보다 distortion이 더 적음을 정량적인 측정으로 확인. ✔️ 특히 LP-FT의 경우, 그 차이가 20배 작게 나옴으로써 이론의 타당성을 보임.
3. Feature Distortion: Pretrained features must be good & ID-OOD far apart ✔️ Feature Quality ∙ MoCo-v1 pretrained 이후 Living-17 FT&LP한 경우: ∙ OOD Acc: FT > LP
✔️ ID ≈ OOD ∙ CIFAR-10 & CIFAR-10.1 ∙ OOD Acc: FT > LP
1. Feature Distortion은 FT에 의해 발생 + OOD_Acc를 낮추는 현상을 유발.
2. OOD data에 대한 Robustness를 위해: ✔️ Feature distortion없이 feature들을 보존하는 것이 중요
3. LP-FT는 ID와 OOD Acc간의 trade-off를 완화하는 한 방법.4. Limitations: ✔️ 증명과정에서 non-linear activation이 빠진 점. ✔️ Layer별로 LR을 다르게 하는 경우를 상정해 증명X ✔️ explicit regularization의 효과를 고려X
1. Intro
Fine-Tuning can Distort Pretrained Features and Underperform Out-of-Distribution
🤔i) Fine-Tuning 이란?
Transfer Learning연구분야의 하나의 기법. Transfer Learning: 어떤 문제의 해결지식과 연관된 다른 문제를 풀 때 사용하는 research problem - Fine-Tuning: Updates all parameters of model - Linear Probing: Updates only the parameters of the last linear layer
🤔ii) Out-of-Distribution (OOD)이란?
본 논문의 OOD는 Abnormaly Detection의 하위분야 OOD와는 다른 개념. 본 논문의 OOD: Fine-Tuning 학습시 접하지 못한 Data Distribution (class는 동일, 수집방법이 다른 경우.) ex) CIFAR-10과 STL
주장) 저자는 특정 상황에서 Fine-Tuning이 Linear Probing보다 좀 더 낮은 정확도를 보이는 경우가 있음. ❗️이는 ID와 OOD간의 분포적 차이가 큰 경우에 발생
원인)Fine-Tuning 시, Distorted Pretrain Feature 때문에 발생한다함.
2. Theory
🤔 성능하락 발생 이유 ?
∙ why..? & when..?
1. Feature의 왜곡: Feature Extractor를 거친 후, Representation에서 ID subspace안에서만 바뀌며, 그에 직교하는 subspace상으로는 변하지 않는다. (= gradient=0 = feature가 추출되도록 학습이 불가능함)
이때, Fine-Tuning 학습이 진행되면서 ID Subspace의 방향의 gradient ≠ 0 이기에 Feature Distortion이 발생하며, 이는 더 높은 OOD error를 유발한다. v: linear head, B: Feature Extractor좌측, 우측 모두 ID방향의 정사형은 모두 같음을 볼 수 있음 우측, Fine-Tuning의 경우, ID-subspace의 직교방향으로는 변하지 않음을 알 수 있음. 즉, Feature Extractor를 학습시키면 ID subspace와 평행하게 update가 됨을 알 수 있으며, 이때 Feature distortion이 발생함이 관찰된다.
즉, 저자는 Fine-Tuning의 OOD err의 lower bounded를 정의.
𝜑는 optimal head와 initial head가 얼마나 정렬되어 있는지 측정하는 값.
cos: 유사도를 계산.
ⲉ : pretrained feature의 quality를 의미 (optimal하다면, 0)
🌟 LP-FT (Linear Probing then Fine-Tuning)
저자는 이런 Feature Distortion의 해결책으로 LP-FT를 제안. FT의 장점:downstream task로 학습 시, feature extractor와 Linear head 모두 잘 adapt시킬 수 있다. 증명)ID acc가 높음 단점)feature distortion으로 인해 OOD acc가 낮아짐.
앞선 이론에 따르면, alignment err𝜑가 FT에서 매우 큼. 처음 random값으로 초기화 시𝜑2로 초기에 커지게 되면, Linear head와 feature extractor간의 gradient coupling으로 Feature Distortion이 발생하게 되는 것.
Sol) 저자는 이를 해결하기 위해𝜑를 initialization할 때, 작은 값으로 하는 것으로 생각. ❗️ 그 방법으로 단순히 Linear Probing으로 head를 intialization하고, 그 후 Fine-Tuning을 해버리는 것으로 생각.
다만, SOTA성능은 아니고, 자신들의 이론이 참임을 증명하기 위한 방법론.
3. Experiments
Training Method:
1. Fine-Tuning: ✔️ cos LR schedule ✔️ batch_size: 64 ✔️ early_stopping & choose best lr using ID val_dataset
2. Linear Probing: ✔️ train L2 Regularized Logistic Regression classifier ✔️ select best L2 Regularization hyperparameter using ID val_acc ID AccOOD Acc
다만, ID와 OOD간의 Distribution이 크지 않은 CIFAR-10과 ImageNet간의 경우에는 성능역전현상이 발생X
🌟 실험 후, feature distortion 이론 결과:
1. Earlty Stopping doesn't mitigate(완화) feature distortion ✔️ FT는 In-Distribution에 overfitting하는 것 ✔️ LP보다 성능이 좋지 않았음.
2. ID-OOD features get distorted from Fine-Tuning ✔️ 정량적 측정: Living-17로 FT한 후와 전의 feature간의 Euclidean거리측정 ✔️ ID: 0.0188 > OOD: 0.0167 ✔️ 즉, ID보다 distortion이 더 적음을 정량적인 측정으로 확인. ✔️ 특히 LP-FT의 경우, 그 차이가 20배 작게 나옴으로써 이론의 타당성을 보임.
3. Feature Distortion: Pretrained features must be good & ID-OOD far apart ✔️ Feature Quality ∙ MoCo-v1 pretrained 이후 Living-17 FT&LP한 경우: ∙ OOD Acc: FT > LP
✔️ ID ≈ OOD ∙ CIFAR-10 & CIFAR-10.1 ∙ OOD Acc: FT > LP
4. Conclusion
Summary:
1. Feature Distortion은 FT에 의해 발생 + OOD_Acc를 낮추는 현상을 유발.
2. OOD data에 대한 Robustness를 위해: ✔️ Feature distortion없이 feature들을 보존하는 것이 중요
3. LP-FT는 ID와 OOD Acc간의 trade-off를 완화하는 한 방법.
4. Limitations: ✔️ 증명과정에서 non-linear activation이 빠진 점. ✔️ Layer별로 LR을 다르게 하는 경우를 상정해 증명X ✔️ explicit regularization의 효과를 고려X