[SPR.DL]: KAN (Kolmogorov–Arnold Networks)

V2LLAIN 2024. 6. 2. 20:34

2024. 6. 2. 20:34

https://arxiv.org/abs/2404.19756

KAN: Kolmogorov-Arnold Networks

Inspired by the Kolmogorov-Arnold representation theorem, we propose Kolmogorov-Arnold Networks (KANs) as promising alternatives to Multi-Layer Perceptrons (MLPs). While MLPs have fixed activation functions on nodes ("neurons"), KANs have learnable activat

arxiv.org

🤔 Background:

Kolmogorov-Arnold Representation Theorem

1. Summary
실해석학 및 근사이론에서 Kolmogorov-Arnold Representation Theorem (or Superposition Theorem)는 모든 다변량 연속함수 f: [0,1]ⁿ→R 를 단일변수의 연속함수의 두 인수 덧셈 중첩(superposition)으로 표현될 수 있다고 한다.
해당 이론은 더 제한된 Hilbert의 13번째 문제를 풀었기에, 기존 Hilbert의 13번째 문제는 당연한 추론이 가능하다.

Kolmogorov-Arnold의 연구는 f가 다변량 연속 함수라면 f는 단변량 연속 함수와 덧셈의 이항 연산의 유한한 구성으로 쓰여질 수 있다는 것을 확립했는데, 좀 더 구체적으로 살펴보면 다음과 같다:
즉, 진정한 다변량 함수는 합뿐임을 알 수 있다.

2. History

Kolmogorov-Arnold Representation Theorem(KART)는 Hilbert의 13번째 문제와 밀접한 관련이 있다.
cf) Hilbert의 13번째 문제란, 1900년 국제파리수학자회의에서 제시한 23문제중 하나로 일반 고차방정식의 해법에 관한 문제임.
이때, 4차 방정식의 해는 근호와 산술 연산만으로 계산할 수 있지만,
고차 방정식의 경우 일반적인 대수적 연산으로는 해를 구할 수 없다.

[Tschirnhaus Transformation]: 일반적인 대수방정식을 특정형태로 변환가능

n차 방정식에 대해,
n < 7인 경우: 두 변수의 함수로 표현가능
n ≥ 7인 경우: n-4개 변수의 함수로 표현가능

특히나 n = 7인 경우, 해는 아래와 같은 방정식의 해의 조합으로 표현될 수 있다:

Hilbert의 추측에 따르면, 7차 이상의 일반 방정식은 두 변수의 연속 함수의 조합으로 표현할 수 없다고 하였다.
이는 다차원 함수를 낮은 차원의 함수들의 중첩으로 나타내는 것과 관련이 있음을 시사한다.
기계 학습 분야에서 이 정리는 MLP의 보편 근사 정리(universal approximation)와 유사한 역할을 함.

3. Variants (활용)

4. Limitation

① 복소수 다변량함수에 대해서는 일반적으로 적용❌

② 내부함수가 매끄럽지 않고 'wild behavior(예측불가능한 행동)'로 인해 표현을 실제 응용에 제한.

Summary

고차 방정식의 경우 일반적인 대수적 연산으로는 해를 구할 수 없음.
→ [Tschirnhaus Transformation]: 일반적인 대수방정식을 특정형태로 변환가능

n차 방정식에 대해,
n < 7인 경우: 두 변수의 함수로 표현가능
n ≥ 7인 경우: n-4개 변수의 함수로 표현가능

특히나 n = 7인 경우, 해는 아래와 같은 방정식의 해의 조합으로 표현될 수 있다:

7차 이상의 일반 방정식은 두 변수의 연속 함수의 조합으로 표현할 수 없음.
= 다차원 함수를 낮은 차원의 함수들의 중첩으로 나타내는 것과 관련이 있음
기계 학습 분야: MLP의 보편 근사 정리(universal approximation)와 유사한 역할.

🤔 Main Contribution

1.
21개의nchmark.

[Summary]:

입.

🤔 논문 읽기! by. Andrew Ng.

① Title / Abstract / Figure 및 Experiment 1~2개

∙ Title:

KAN : Kolmogorov-Arnold Networks
MLP의 보편 근사 정리(universal approximation)와 유사한 역할을 하는
Kolmogorov-Arnold Representation Theorem을 기반으로 하는 것을 알 수 있음.

∙ Abstract:

[MLP vs KAN]:
MLP: nodes("neurons")에 고정된 활성화 함수를 갖고있음.
KAN: edges("weights")에 학습 가능한 활성화 함수를 가지고 있음.
또한, KAN에는 선형 가중치가 전혀 없는데, 모든 w는 스플라인으로 매개변수화된 단변량 함수로 대체된다.

KAN이 정확도와 해석 가능성 측면에서 MLP를 능가한다는 것을 보여주는데, 정확도를 위해 훨씬 작은 KAN은 데이터 피팅 및 PDE 해결에서 훨씬 큰 MLP와 비슷하거나 더 나은 정확도를 달성할 수 있으며, 이론적 및 경험적으로 KAN은 MLP보다 더 빠른 신경 스케일링 법칙을 가지고 있다.
솔직히 2023년 5월에 해당 아이디어 관련, activation을 학습해서 가장 적절한 activation function을 배치할 수는 없을까? 라는 아이디어를 떠올려서 연구하려했던 생각이 있었는데, 이런 Background도 없었고, 그때 당시에는 구현능력도 떨어졌었기에 현재 이 논문을 읽으면서 많이 아쉽긴 했다.

cf) Background & 용어설명: Kolmogorov-Arnold

고차 방정식의 경우 일반적인 대수적 연산으로는 해를 구할 수 없음.
→ [Tschirnhaus Transformation]: 일반적인 대수방정식을 특정형태로 변환가능

n차 방정식에 대해,
n < 7인 경우: 두 변수의 함수로 표현가능
n ≥ 7인 경우: n-4개 변수의 함수로 표현가능

특히나 n = 7인 경우, 해는 아래와 같은 방정식의 해의 조합으로 표현될 수 있다:

7차 이상의 일반 방정식은 두 변수의 연속 함수의 조합으로 표현할 수 없음.
= 다차원 함수를 낮은 차원의 함수들의 중첩으로 나타내는 것과 관련이 있음
기계 학습 분야: MLP의 보편 근사 정리(universal approximation)와 유사한 역할.

∙ Introduction:

[MLP]
MLP는 Full Connected Feedforward Neural Net으로완전 연결 전방향 신경망으로 보편적 근사 정리(universal approximation theorem)에 의해 보장된 표현력 덕분에 비선형 함수를 근사하기 위한 기본 모델이다.

[🤔 MLP is the best nonlinear regressors?]
MLP는 널리 사용되고 있지만, 몇 가지 중요한 단점이 있다:
Transformers에서 MLP가 거의 모든 non-embedding parameters를 소비함.
주로 해석 가능성 측면에서 attention layers에 비해 덜 해석 가능하다.

[KANs: Kolmogorov-Arnold Networks]
MLP: 보편적 근사 정리에 영감을 받았으며, MLP가 노드(“뉴런”)에 고정된 활성화 함수를 배치함.
KAN: MLP와 마찬가지로 KAN도 완전 연결 구조를 가지고 있으며, Kolmogorov-Arnold 표현 정리에 영감을 받음.
KAN은 엣지(“가중치”)에 학습 가능한 활성화 함수를 배치함.
→ 선형 가중치 행렬이 전혀 없음
→ 각 가중치 매개변수는 학습 가능한 1D 함수로 대체됨.
→ KAN의 노드는 들어오는 신호를 단순히 합산하며, 비선형성을 적용하지 않음.

[KAN is Cost Expensive?]
MLP의 가중치 매개변수가 KAN의 스플라인 함수로 대체되므로, KAN이 매우 비쌀 것이라는 걱정이 있을 수 있음.
다행히도 KAN은 일반적으로 MLP보다 훨씬 작은 계산 그래프를 사용함.
ex) PDE(편미분) 풀이: KAN(2-Layer width-10)은 MLP(4-Layer width-100)보다
100배 더 정확하고(10^-7 대 10^-5 MSE), 100배 더 매개변수 효율적(10² 대 10⁴ 매개변수).

[선행 연구 & Main Contribution]
대부분의 작업은 원래의 Depth-2 Width-(2n + 1)표현에 머물렀으며, train을 위해 최신 기술(예: 역전파)을 활용할 기회❌.

Main Contribution:
Kolmogorov-Arnold 표현을 임의의 폭과 깊이로 일반화하여 오늘날의 딥러닝 세계에서 다시 활력을 불어넣고 맥락화하는 것
또한, KAN의 정확성과 해석 가능성 덕분에 AI + 과학의 기초 모델로서의 잠재적 역할을 강조하는 광범위한 실험을 사용하는 것.

KAN은 수학적으로 우아한 해석에도 불구하고, 단지 스플라인과 MLP의 조합일 뿐입니다.
스플라인:
저차원 함수에 대해 정확 / 로컬에서 조정하기 쉬움 / 서로 다른 해상도 간 전환이 가능.
다만, 구성 구조를 활용할 수 없기 때문에(= 외부자유도❌) 심각한 차원의 저주(COD) 문제를 가지고 있다.

MLP는 COD 문제가 덜하지만, 저차원에서는 스플라인보다 덜 정확함.
MLP는 일반화된 덧셈구조를 잠재적으로 학습가능하지만 ReLU로 인해 exp와 sin함수를 근사화하는데 매우 비효율적임.
예를들어, 우측같은 고차원 스플라인 함수는 COD로 인해 큰 N에 대해 실패한다.
대조적으로 KAN은 구성구조와 단변량함수를 모두 매우 잘 학습하기에 MLP를 큰 차이로 능가한다.

[함수를 정확하게 학습하려면?]
구성 구조(외부 자유도)를 학습하고 단변량 함수(내부 자유도)를 잘 근사해야 함.
- 외부적으로는 MLP와 유사하여 기능을 학습할 수 있고,
- 내부적으로는 스플라인과 유사하여 학습된 기능을 최적화할 수 있음.

2장: KAN의 아키텍처와 수학적 기초를 소개하고, KAN을 해석 가능하게 만드는 네트워크 단순화 기법을 소개하며, KAN을 점점 더 정확하게 만드는 그리드 확장 기법을 소개.
3장: KAN이 데이터 적합 및 PDE 풀이에서 MLP보다 더 정확함을 보여줌.
4장: KAN이 해석 가능하며 과학적 발견에 사용할 수 있음을 보여줌.
5장: 관련 연구를 요약.
6장: 광범위한 영향과 미래 방향을 논의하면서 결론.
코드는 https://github.com/KindXiaoming/pykan 사용할 수 있으며, pip install pykan을 통해 설치할 수 있다.

∙ Discussion:

[수학적 측면]

KAN에 대한 초기 수학적 분석(Theorem 2.1)을 제시했지만, KAN에 대한 수학적 이해는 여전히 제한적.
Kolmogorov-Arnold 표현 정리는 수학적으로 철저히 연구되었지만, 이 정리는 [n, 2n + 1, 1] 형태의 KAN에 해당하며 이는 매우 제한된 하위 클래스이기에, 더 깊은 KAN에서의 경험적 성공은 수학적으로 근본적인 무언가를 암시하는걸까?

이에 대해 매력적인 일반화된 Kolmogorov-Arnold 정리는 Depth-2 Composition 너머의 “더 깊은” Kolmogorov-Arnold 표현을 정의하고 활성화 함수의 매끄러움을 깊이와 관련시킬 수 있음을 시사한다.
가설적으로, 원래의 (Depth-2) Kolmogorov-Arnold 표현에서는 매끄럽게 표현할 수 없는 함수들이 Depth-3 또는 그 이상의 표현으로 매끄럽게 표현될 수 있다. 우리는 이 “Kolmogorov-Arnold 깊이” 개념을 사용하여 함수 클래스를 특성화할 수 있을까?

[알고리즘적 측면]

1. 정확성: 아키텍처 설계 및 훈련에서 여러 선택지가 충분히 조사되지 않았기 때문에 대안이 정확성을 더욱 향상시킬 수 있음.
예를 들어, 스플라인 활성화 함수는 radial basis함수 또는 local kernel로 대체될 수 있으며,
Adaptive Grid전략이 사용될 수 있다.

2. 효율성: KAN이 느리게 실행되는 주요 이유 중 하나는 다른 활성화 함수가 배치 계산(큰 데이터를 동일한 함수로 처리)을 활용❌.
실제로, 활성화 함수가 모두 동일한 경우(MLP)와 모두 다른 경우(KAN) 사이를 보간하여 활성화 함수를 여러 그룹(multi-head)으로 묶을 수 있는데, 여기서 그룹 내의 구성원은 동일한 활성화 함수를 공유합니다.

3. KAN과 MLP의 하이브리드: KAN은 MLP와 비교할 때 두 가지 주요 차이점이 있다:
(i). 활성화 함수가 노드가 아닌 엣지에 배치됩니다.
(ii). 활성화 함수가 고정된 것이 아닌, 학습 가능함.
KAN의 이점을 설명하기 위해 어떤 변화가 더 중요한지 알아보기 위해, Appendix B에서 (ii)를 갖춘 모델을 연구한 예비 결과를 제시한다. 즉, 활성화 함수는 학습 가능하지만 (i)를 갖추지 않은 모델, 즉 활성화 함수가 노드에 위치한 모델이며, 더 나아가 고정된 활성화 함수(MLP처럼)를 가지지만 엣지에 위치한 모델(KAN처럼)을 구성할 수도 있다.

4. 적응성: 스플라인 기저 함수의 본질적인 locality 덕분에, 우리는 KAN의 설계 및 훈련에서 적응성을 도입하여 정확도와 효율성을 모두 향상시킬 수 있다.

[응용적 측면]

KAN의 응용 가능성을 논의하며, KAN이 다양한 실세계 문제에서 어떻게 적용될 수 있는지에 대해 탐구하는데, 물리학, 수학 및 과학적 발견의 기초 모델로서 KAN의 잠재력을 강조한다.

이 논문은 KAN의 수학적 기초, 알고리즘적 개선 및 다양한 응용 분야에서의 잠재력을 탐구함으로써 KAN의 한계를 극복하고 미래 방향을 제시합니다. KAN의 코드는 [https://github.com/KindXiaoming/pykan](https://github.com/KindXiaoming/pykan)에서 사용할 수 있으며, `pip install pykan`을 통해 설치할 수 있다.

∙ Related Works

Kolmogorov-Arnold Theorem과 신경망

Kolmogorov-Arnold 정리(KAT)와 신경망 간의 관계는 완전히 새로운 것은 아님.
다만, 내부함수의 pathological behavior(비정상적 행동)으로 KAT가 유망하지 않게 보였음.

[대부분의 이전연구들]
2-layer width-(2n+1) 신경망에 머물렀음. (= 표현력이 제한적, 역전파개념 이전에 연구가 많이들 진행되었었음.)
∴ 대부분연구들이 제한적&인위적 toy 실험에 머물렀었음.

[Contribution]:
1. 신경망을 임의의 폭과 깊이로 일반화
2. 현재의 딥러닝흐름에 재활성화 & 맥락화
3. AI + Science의 기반모델(foundation model)로서의 잠재적인 역할을 강조.

Neural Scaling Laws (NSLs)

[NSL이란?]
모델 크기, 데이터, 계산 등에 대해 test Loss가 거듭제곱 법칙으로 나타나는 현상.
NSL의 기원은 여전히 불가사의하지만, 아래와 같은 유력이론이 존재:
∙ intrinsic dimensionality
∙ quantization of tasks
∙ resource theory
∙ random features
∙ compositional sparsity
∙ maximuarity

[본 논문의 Contribution]:
Smooth Kolmogorov-Arnold 표현을 갖는 고차원 함수가 1차원 함수(이는 기대할 수 있는 최고의 경계)처럼 스케일링될 수 있음.
즉, 가장 빠른 스케일링 지수를 보장해서 신경망의 스케일링 법칙에 새로운 관점을 가져옴.

Machanistic Interpretability (MI)

MI는 신경망의 내부 작동을 기계적으로 이해하려는 신흥 분야; 수동MI연구 / 능동MI연구로 나뉨.
본 논문은 모델과 훈련 방법이 설계상 해석 가능한 두 번째 범주에 속함.

Learnable Activations

신경망에서 학습 가능한 활성화 함수의 아이디어는 기계 학습에서 완전히 새로운 것이 아님.
학습 가능한 활성화 함수는 미분 가능한 방식으로 학습되거나 이산적으로 검색됨.
활성화 함수는 다음과 같이 매개변수화됨: 다항식, 스플라인, sigmoid linear unit, neural net

여기서, KAN은 B-스플라인을 사용하여 활성화 함수를 매개변수화함.

Symbolic Regression

기존 방법:
Genetic알고리즘(Eureka, GPLearn, PySR)
Neural-Net기반알고리즘(EQL, OccamNet)
물리학영감받은 방법(AI Feynman)
강화 학습 기반 방법.

KAN은 신경망 기반 방법과 가장 유사하지만, 활성화 함수는 수동으로 고정되지 않고 기호 스냅핑 전에 지속적으로 학습된다는 점에서 이전 작업과 다름.

Physics-Informed Neural Networks (PINNs)
Physics-Informed Neural Operators (PINOs)

3.4절에서 KAN이 PDE를 해결할 때 PDE 손실을 부과하기 위해 MLP를 사용하는 패러다임을 대체할 수 있음을 보여줌.
PDE 해결을 위한 Deep Ritz Method, PINNs, 연산자 학습 방법의 솔루션 맵을 학습하는 Fourier Neural Operator, PINOs, DeepONet을 참조하며, 언급된 모든 네트워크에서 MLP를 KAN으로 대체할 가능성이 있음.

AI for Mathematics

4.3절처럼, AI는 최근 매듭 이론(Knot Theory)의 여러 문제에 적용된다.
여기에는 매듭이 풀린 매듭인지 리본 매듭인지를 감지하고,
매듭 불변량을 예측하고 그들 사이의 관계를 발견하는 작업이 포함된다.

수학 및 이론 물리학의 데이터 세트에 대한 데이터 과학 응용 프로그램 요약은 [90, 91]을 참조하고,
이러한 분야에서 ML 기술을 사용하여 엄격한 결과를 얻는 방법에 대한 아이디어는 [92]를 참조하십시오.

[90] Fabian Ruehle. Data science applications to string theory. Phys. Rept., 839:1–117, 2020.

[91] Y.H. He. Machine Learning in Pure Mathematics and Theoretical Physics. G - Reference,Information and Interdisciplinary Subjects Series. World Scientific, 2023.

[92] Sergei Gukov, James Halverson, and Fabian Ruehle. Rigor with machine learning from field theory to the poincaréconjecture. Nature Reviews Physics, 2024.

③ Main Method, Math , etc 이해안되는 것 → Skim or Skip

∙ KAN

다층 퍼셉트론(MLP)은 보편적 근사 정리에 영감을 받았습니다. 반면, 우리는 Kolmogorov-Arnold 표현 정리에 초점을 맞추어, Kolmogorov-Arnold 네트워크(KAN)라는 새로운 유형의 신경망을 제안합니다. 2.1절에서는 Kolmogorov-Arnold 정리를 검토하여 2.2절에서 Kolmogorov-Arnold 네트워크의 설계에 영감을 줍니다. 2.3절에서는 KAN의 표현력과 신경 스케일링 법칙에 대한 이론적 보장을 제공합니다. 2.4절에서는 KAN을 점점 더 정확하게 만드는 그리드 확장 기법을 제안합니다. 2.5절에서는 KAN을 해석 가능하게 만드는 단순화 기법을 제안합니다.

Kolmogorov-Arnold Representation theorem
Vladimir Arnold와 Andrey Kolmogorov는 f가 유계 영역에서 다변수 연속 함수인 경우, f를 단일 변수의 연속 함수와 덧셈 이항 연산의 유한 합성으로 표현할 수 있음을 입증했습니다. 더 구체적으로, 매끄러운

함수에 대해,

여기서 및 Φ𝑞:𝑅→𝑅입니다. 어떤 의미에서는 모든 다변수 함수가 단변수 함수와 합으로 작성될 수 있기 때문에 진정한 다변수 함수는 덧셈뿐임을 보여주었습니다. 이는 기계 학습에 있어 고차원 함수를 학습하는 것이 다항식 수의 1D 함수를 학습하는 것으로 귀결되므로 큰 희소식일 수 있습니다. 그러나 이러한 1D 함수들이 매끄럽지 않거나 심지어 프랙탈일 수 있기 때문에 실제로 학습하기 어려울 수 있습니다. 이러한 병리학적 특성 때문에 Kolmogorov-Arnold 표현 정리는 기계 학습에서 이론적으로는 타당하지만 실질적으로는 쓸모없다고 여겨졌습니다.

그러나 우리는 Kolmogorov-Arnold 정리가 기계 학습에 유용할 것이라는 점에 대해 더 낙관적입니다. 첫째, 우리는 은닉층에서 2n+1개의 항을 가지는 2층 비선형성을 가지는 원래의 방정식(2.1)에 고수할 필요가 없습니다. 네트워크를 임의의 폭과 깊이로 일반화할 것입니다. 둘째, 과학과 일상 생활에서 대부분의 함수는 종종 매끄럽고 희소한 구성 구조를 가지며, 이는 매끄러운 Kolmogorov-Arnold 표현을 촉진할 수 있습니다. 여기서 철학은 물리학자들의 사고방식과 가깝습니다. 물리학자들은 최악의 경우보다 일반적인 경우에 더 관심을 가집니다. 결국, 우리의 물리적 세계와 기계 학습 작업은 물리학과 기계 학습이 유용하거나 일반화 가능하게 만들기 위해 구조를 가져야 합니다.

KAN Architecture

지도 학습 작업에서 입력-출력 쌍 (𝑥𝑖,𝑦𝑖)(xi,yi)가 주어졌을 때, 모든 데이터 포인트에 대해 𝑦𝑖≈𝑓(𝑥𝑖)yi≈f(xi)를 만족하는 f를 찾는 것이 목표입니다. 방정식 (2.1)은 적절한 단변량 함수 𝜑𝑞,𝑝φq,p와 Φ𝑞Φq를 찾으면 된다는 것을 의미합니다. 이는 방정식 (2.1)을 명시적으로 매개변수화하는 신경망을 설계하도록 영감을 줍니다. 학습할 모든 함수가 단변량 함수이므로, 각 1D 함수를 B-스플라인 곡선으로 매개변수화하고, 국소 B-스플라인 기저 함수의 학습 가능한 계수를 사용합니다. 이제 KAN의 프로토타입이 있으며, 그 계산 그래프는 방정식 (2.1)에 의해 정확하게 지정됩니다.

기본적으로, KAN 계층은 𝑛𝑖𝑛nin-차원 입력과 𝑛𝑜𝑢𝑡nout-차원 출력을 가지는 1D 함수의 행렬로 정의될 수 있습니다. Kolmogorov-Arnold 정리에서는 내부 함수가 𝑛𝑖𝑛=𝑛nin=n 및 𝑛𝑜𝑢𝑡=2𝑛+1nout=2n+1을 가지는 KAN 계층을 형성하고, 외부 함수는 𝑛𝑖𝑛=2𝑛+1nin=2n+1 및 𝑛𝑜𝑢𝑡=1nout=1을 가지는 KAN 계층을 형성합니다. 따라서 방정식 (2.1)에서의 Kolmogorov-Arnold 표현은 두 KAN 계층의 합성으로 구성됩니다. 이제 더 깊은 Kolmogorov-Arnold 표현이 무엇을 의미하는지 명확해졌습니다: 더 많은 KAN 계층을 쌓으면 됩니다.

일반 KAN 네트워크는 L 계층의 합성으로 구성됩니다: 입력 벡터 𝑥0∈𝑅𝑛0x0∈Rn0가 주어졌을 때, KAN의 출력은 다음과 같습니다:

𝐾𝐴𝑁(𝑥)=(Φ𝐿−1∘Φ𝐿−2∘⋯∘Φ1∘Φ0)𝑥KAN(x)=(ΦL−1∘ΦL−2∘⋯∘Φ1∘Φ0)x

KAN 계층의 모양은 정수 배열 [𝑛0,𝑛1,⋅⋅⋅,𝑛𝐿][n0,n1,⋅⋅⋅,nL]로 표현됩니다. 각 계층에서 (l, i)-뉴런의 활성화 값은 𝑥𝑙,𝑖xl,i로 표시됩니다. 계층 l과 l+1 사이에는 𝑛𝑙⋅𝑛𝑙+1nl⋅nl+1 활성화 함수가 있으며, 활성화 함수는 𝜑𝑙,𝑗,𝑖φl,j,i로 표시됩니다. (l, i)-뉴런과 (l+1, j)-뉴런을 연결하는 활성화 함수의 사전 활성화 값은 단순히 𝑥𝑙,𝑖xl,i이며, 후 활성화 값은 𝑥~𝑙,𝑗,𝑖≡𝜑𝑙,𝑗,𝑖(𝑥𝑙,𝑖)x~l,j,i≡φl,j,i(xl,i)입니다. (l+1, j)-뉴런의 활성화 값은 모든 들어오는 후 활성화 값의 합입니다:

𝑥𝑙+1,𝑗=∑𝑖=1𝑛𝑙𝜑𝑙,𝑗,𝑖(𝑥𝑙,𝑖),𝑗=1,⋯ ,𝑛𝑙+1xl+1,j=∑i=1nlφl,j,i(xl,i),j=1,⋯,nl+1

MLP와 KAN의 주요 차이점은 MLP는 선형 변환과 비선형성을 별도로 취급하는 반면, KAN은 이를 모두 비선형 함수로 통합하여 처리한다는 점입니다. KAN은 모든 연산이 미분 가능하므로 역전파로 훈련할 수 있습니다【40†source】.

KAN's Approximation Abilities and Scaling Laws
2층 폭-(2n + 1) 표현은 매끄럽지 않을 수 있습니다. 그러나 더 깊은 표현은 매끄러운 활성화를 제공할 수 있습니다. 예를 들어, 4변수 함수
𝑓(𝑥1,𝑥2,𝑥3,𝑥4)=exp(sin(x12+x 22)+sin(x32+x42)) 는 3층 [4, 2, 1, 1] KAN으로 매끄럽게 표현될 수 있지만, 매끄러운 활성화로 2층 KAN으로는 표현되지 않을 수 있습니다. 우리는 활성화의 매끄러움을 가정하지만, 표현은 임의의 폭과 깊이를 가질 수 있도록 허용합니다.

Theorem 2.1에 따르면, 매끄러운 Kolmogorov-Arnold 표현이 존재하면, KAN은 차원의 저주를 극복할 수 있으며, 이는 고차원 함수를 구성 구조와 단변량 함수로 나눌 수 있기 때문입니다. 이는 데이터 적합 및 PDE 해결에서 KAN이 MLP보다 훨씬 우수한 성능을 보임을 의미합니다.

For Accuracy: Grid Extension
원칙적으로, 스플라인은 그리드를 세밀하게 만들어 목표 함수를 임의로 정확하게 근사할 수 있습니다. 이 좋은 특징은 KAN이 상속합니다. 반면, MLP는 "세분화" 개념이 없습니다. KAN은 적은 매개변수로 먼저 훈련하고, 스플라인 그리드를 세밀하게 만들어 더 많은 매개변수를 가지는 KAN으로 확장할 수 있습니다. 이는 더 큰 모델을 처음부터 다시 훈련할 필요 없이 가능합니다.

그리드 확장 수행 방법
1D 함수 f를 유한한 구간 [a, b]에서 B-스플라인으로 근사하려면, coarse-grained 그리드와 fine-grained 그리드를 사용하여 f를 나타냅니다. coarse-grained 그리드에서의 f는 B-스플라인 기저 함수의 선형 조합으로 표현됩니다. fine-grained 그리드에서의 f는 새로운 B-스플라인 기저 함수의 선형 조합으로 표현됩니다. 이때, coarse-grained 그리드의 매개변수를 fine-grained 그리드의 매개변수로 최소 제곱 알고리즘을 사용하여 초기화합니다.

이 방법을 사용하여, KAN은 더 작은 네트워크로 시작하여 더 큰 네트워크로 확장할 수 있습니다. 이는 KAN이 매우 효율적이고 효과적으로 정확성을 높일 수 있음을 보여줍니다.

For Interpretability: Simplifying KANs and Making them interactive

KAN을 데이터셋 구조에 가장 잘 맞추는 모양을 선택하는 방법을 모르는 경우, 충분히 큰 KAN에서 시작하여 희소성 정규화를 사용하여 훈련한 후 가지치기를 통해 작은 서브 네트워크로 단순화합니다. 이러한 가지치기된 KAN은 비 가지치기된 KAN보다 훨씬 더 해석 가능합니다. KAN을 최대한 해석 가능하게 만들기 위해 몇 가지 단순화 기법을 제안합니다.

### 2.5.1 단순화 기법

1. **희소화**: MLP의 경우, 선형 가중치의 L1 정규화를 사용하여 희소성을 촉진합니다. KAN은 이러한 고수준 아이디어를 적용할 수 있지만, 두 가지 수정이 필요합니다:

(1) KAN에는 선형 "가중치"가 없습니다. 선형 가중치는 학습 가능한 활성화 함수로 대체되므로 이러한 활성화 함수의 L1 노름을 정의해야 합니다.

(2) KAN의 희소화를 위해 L1이 충분하지 않으며, 추가로 엔트로피 정규화가 필요합니다(자세한 내용은 부록 C 참조).

2. **시각화**: KAN을 시각화할 때 크기의 감각을 얻기 위해 활성화 함수 ϕl,i,j의 투명도를 tanh(βAl,i,j)에 비례하도록 설정합니다. 여기서 β = 3입니다. 따라서 작은 크기의 함수는 중요하지 않게 나타나서 중요한 함수에 집중할 수 있습니다.

3. **Pruning**: 희소화 페널티로 훈련한 후, 네트워크를 더 작은 서브네트워크로 가지치기할 수 있습니다. 우리는 KAN을 엣지 수준이 아닌 노드 수준에서 희소화합니다. 각 노드(예: l층의 i번째 뉴런)에 대해, 들어오는 점수와 나가는 점수를 다음과 같이 정의합니다:

그리고 두 점수 모두 임계값 하이퍼파라미터 θ = 10^{-2}(기본값)보다 큰 경우 해당 노드를 중요하다고 간주합니다. 모든 중요하지 않은 뉴런은 가지치기됩니다.

4. **심볼화**: 어떤 활성화 함수가 사실 기호적이라고 의심되는 경우(예: cos 또는 log), 이를 지정된 기호적 형태로 설정할 수 있는 인터페이스를 제공합니다. fix_symbolic(l,i,j,f)는 (l, i, j) 활성화를 f로 설정할 수 있습니다. 그러나 활성화 함수를 정확한 기호 공식으로 단순히 설정할 수는 없습니다. 그 입력과 출력이 이동 및 스케일링될 수 있기 때문입니다. 따라서 우리는 샘플에서 사전 활성화 x와 후 활성화 y를 얻고, y ≈ cf(ax + b) + d가 되도록 아핀 매개변수(a, b, c, d)를 맞춥니다. 이 적합은 반복적 그리드 검색 및 선형 회귀로 수행됩니다.

#### 2.5.2 장난감 예제: KAN과의 상호작용

위에서 KAN을 단순화하기 위한 여러 기술을 제안했습니다. 이러한 단순화 선택은 클릭할 수 있는 버튼으로 볼 수 있습니다. 사용자가 이러한 버튼을 클릭하여 KAN을 더 해석 가능하게 만드는 데 가장 유망한 버튼을 결정할 수 있습니다. 아래 예제를 사용하여 사용자가 KAN과 상호작용하여 최대한 해석 가능한 결과를 얻는 방법을 보여줍니다.

회귀 작업을 다시 고려해 보겠습니다:

주어진 데이터 포인트

가설적 사용자 Alice는 기호 수식을 알아내는 데 관심이 있습니다. Alice의 KAN과의 상호작용 단계는 아래에 설명되어 있습니다(Figure 2.4에 설명되어 있습니다):

**1단계: 희소화로 훈련**: 완전히 연결된 [2, 5, 1] KAN에서 시작하여 희소화 정규화로 훈련하면 상당히 희소화될 수 있습니다. 은닉층의 5개의 뉴런 중 4개가 쓸모없어 보이므로, 이를 제거하고자 합니다.

**2단계: Pruning**: 자동 가지치기는 마지막 하나를 제외한 모든 은닉 뉴런을 삭제하여 [2, 1, 1] KAN을 남깁니다. 활성화 함수는 알려진 기호 함수인 것 같습니다.

**3단계: 기호 함수 설정**: 사용자가 KAN 플롯을 보고 이러한 기호 공식을 올바르게 추측할 수 있다고 가정하면, 다음과 같이 설정할 수 있습니다:

사용자가 도메인 지식이 없거나 이러한 활성화 함수가 어떤 기호 함수인지 전혀 모르는 경우, 우리는 기호 후보를 제안하는 함수를 제공합니다.

**4단계: 추가 훈련**: 네트워크의 모든 활성화 함수를 기호화한 후, 남은 매개변수는 아핀 매개변수뿐입니다. 이 아핀 매개변수를 계속 훈련하며, 손실이 머신 정밀도로 떨어지는 것을 볼 때 올바른 기호 표현을 찾았다는 것을 알 수 있습니다.

**5단계: 기호 수식 출력**: Sympy를 사용하여 출력 노드의 기호 수식을 계산합니다. 사용자는 1.0e1.0y^2 + 1.0sin(3.14x)를 얻으며, 이는 진정한 답입니다(π에 대해 두 자리만 표시했습니다).

∙ KANs are accurate

이 섹션에서는 KANs가 다양한 작업(회귀 및 PDE 해결)에서 MLPs보다 더 효과적으로 함수를 표현할 수 있음을 보여줍니다. 두 모델군을 비교할 때, 정확도(손실)와 복잡성(매개변수 수)을 공정하게 비교하는 것이 중요합니다. 우리는 KANs가 MLPs보다 더 유리한 파레토 프론티어를 나타낸다는 것을 보여줄 것입니다. 또한, 3.5절에서는 KANs가 연속 학습에서도 재난적 망각 없이 자연스럽게 작동할 수 있음을 보여줍니다.

#### 3.1 장난감 데이터셋

KANs는 고차원 함수의 구성 구조와 단변량 함수를 모두 잘 학습할 수 있어 MLPs보다 훨씬 더 우수한 성능을 발휘합니다.

Figure 3.1: KANs와 MLPs를 다섯 가지 장난감 예제에서 비교합니다. KANs는 이론적으로 예측된 가장 빠른 스케일링 법칙(α = 4)을 거의 포화시킬 수 있는 반면, MLPs는 느리게 스케일링되고 빠르게 정체됩니다.

#### 3.2 특수 함수

특수 함수의 경우, KANs는 MLPs보다 효율적이고 정확합니다. 우리는 수학 및 물리학에서 흔히 사용되는 15개의 특수 함수를 수집했으며, 이들은 Table 2에 요약되어 있습니다. 각 데이터셋과 각 모델군(KANs 또는 MLPs)에 대해, 파라미터 수와 RMSE 손실로 구성된 평면에 파레토 프론티어를 그렸습니다(Figure 3.2 참조). KANs의 성능이 MLPs보다 일관되게 우수함을 보여줍니다.

#### 3.3 파인만 데이터셋

파인만 데이터셋에 대한 더 많은 결과는 부록 D에 포함되어 있습니다. Figure D.1은 각 파인만 데이터셋에 대한 KANs와 MLPs의 파레토 프론티어를 보여줍니다. Figure D.2 및 D.3은 각 파인만 방정식 맞춤 작업에 대한 최소 KAN 및 최상의 KAN을 시각화합니다.

#### 3.4 편미분 방정식(PDE) 해결

우리는 제로 디리클렛 경계 데이터를 가진 포아송 방정식을 고려합니다. 예를 들어, Ω = [−1, 1]²에서 PDE를 고려합니다.

#### 3.5 연속 학습

재난적 망각은 현재 기계 학습의 심각한 문제입니다. 인간이 작업을 익히고 다른 작업으로 전환할 때, 첫 번째 작업을 수행하는 방법을 잊지 않습니다. 불행히도, 신경망은 그렇지 않습니다. 신경망이 작업 1에 대해 훈련된 후 작업 2에 대해 훈련되면, 곧 작업 1을 수행하는 방법을 잊어버립니다. 이는 아마도 인공 신경망과 인간 두뇌의 주요 차이점 중 하나일 것입니다.

우리는 KANs가 국부적 가소성을 가지고 있으며 스플라인의 국부성을 활용하여 재난적 망각을 피할 수 있음을 보여줍니다. 아이디어는 간단합니다. 스플라인 기반은 국부적이기 때문에 샘플은 몇 가지 인접한 스플라인 계수에만 영향을 미치며, 먼 곳의 계수는 그대로 남아 있습니다.

### 그림 및 표 설명

- **Figure 3.1**: KANs와 MLPs를 다섯 가지 장난감 예제에서 비교합니다.

- **Figure 3.2**: 특수 함수를 맞추는 데 있어 KANs와 MLPs의 파레토 프론티어를 보여줍니다.

- **Figure 3.3**: PDE 예제. 예측 솔루션과 실제 솔루션 간의 L2 제곱 및 H1 제곱 손실을 플로팅합니다.

- **Table 2**: 특수 함수의 정의 및 이들에 대한 KANs와 MLPs의 성능을 요약합니다.

이로써, KANs가 다양한 작업에서 MLPs보다 더 높은 정확도를 제공할 수 있음을 보여줍니다 .

∙ KANs are interpretable

이 섹션에서는 KANs가 해석 가능하고 상호작용할 수 있음을 보여줍니다. 우리는 KANs를 합성 작업(4.1절 및 4.2절)뿐만 아니라 실제 과학 연구에도 적용해보고자 합니다. KANs가 매듭 이론(4.3절)과 응축 물질 물리학의 상전이 경계(4.4절)에서 매우 비정상적인 관계를 (재)발견할 수 있음을 증명합니다. KANs는 그 정확성(이전 섹션)과 해석 가능성(이 섹션) 덕분에 AI + 과학의 기초 모델이 될 수 있습니다.

#### 4.1 지도 학습 장난감 데이터셋

우리는 먼저 KANs가 기호 수식에서 구성적 구조를 밝히는 능력을 조사합니다. 여섯 가지 예가 아래 나열되어 있으며, 해당 KANs는 Figure 4.1에 시각화되어 있습니다. KANs는 이 수식들에 존재하는 구성적 구조를 밝히고, 올바른 단변량 함수를 학습할 수 있습니다.

(a) 곱셈 f(x, y) = xy. [2, 5, 1] KAN은 [2, 2, 1] KAN으로 가지치기됩니다. 학습된 활성화 함수는 선형 및 2차 함수입니다. 계산 그래프에서 xy를 계산하는 방법은 2xy = (x + y)^2 - (x^2 + y^2)를 활용하는 것입니다.

(b) 양수의 나눗셈 f(x, y) = x/y. [2, 5, 1] KAN은 [2, 1, 1] KAN으로 가지치기됩니다. 학습된 활성화 함수는 로그 및 지수 함수이며, KAN은 x/y를 로그와 지수 함수를 이용해 계산합니다.

(c) 수치에서 범주로 변환. 이 작업은 [0, 1] 범위의 실수를 첫 번째 소수 자리로 변환합니다(예: 0.0618 → [1, 0, 0, 0, 0, ··· ], 0.314 → [0, 0, 0, 1, 0, ··· ]). 활성화 함수는 해당 소수 자리에 위치한 스파이크로 학습됩니다.

(d) 특수 함수 f(x, y) = exp(J0(20x) + y^2). 기호 회귀의 한계 중 하나는 사전 지식으로 제공되지 않은 특수 함수의 정확한 수식을 찾지 못한다는 것입니다. KANs는 특수 함수를 학습할 수 있으며, 여기서는 매우 파형이 많은 Bessel 함수 J0(20x)를 수치적으로 학습합니다.

#### 4.2 해석 가능한 과학적 발견

KANs의 해석 가능성 덕분에, 우리는 KANs가 복잡한 과학적 문제를 해결하는 데 어떻게 도움이 되는지 보여줍니다. 예를 들어, KANs는 매듭 이론과 응축 물질 물리학에서 새로운 통찰을 제공할 수 있습니다.

#### 4.3 수학에의 응용: 매듭 이론

매듭 이론은 저차원 위상수학의 한 분야로, 생물학 및 위상 양자 컴퓨팅을 포함한 다양한 응용 분야를 가지고 있습니다. 매듭 K는 S^1을 S^3에 임베딩한 것입니다. 두 매듭 K와 K'는 하나를 다른 것으로 변형할 수 있으면 위상적으로 동등합니다. 매듭은 다양한 변형 불변 특성을 가지고 있으며, 이를 통해 두 매듭이 위상적으로 다름을 보여줄 수 있습니다. 예를 들어, 하이퍼볼릭 매듭 K는 하이퍼볼릭 부피를 가지며, 이는 매듭의 위상적 불변량입니다.

KANs를 사용하여 매듭 이론의 데이터셋에서 지도 학습을 통해 새로운 결과를 도출할 수 있는지 연구합니다. 주요 결과는 다음과 같습니다:

1. 서명 σ가 주로 메리디안 거리 µ(실수 µr, 허수 µi) 및 종단 거리 λ에 의존한다는 것을 발견했습니다.

2. σ가 경사와 높은 상관관계를 가지며, 이를 통해 |2σ - slope|의 경계를 도출했습니다.

KANs는 이러한 결과를 훨씬 작은 네트워크와 더 많은 자동화를 통해 다시 발견할 수 있습니다. KANs는 매듭 이론에서 새로운 관계를 발견하는 데 매우 직관적이고 편리한 도구임을 증명합니다.

#### 4.4 물리학에의 응용: 앤더슨 국소화

앤더슨 국소화는 양자 시스템에서 무질서가 전자의 파동 함수를 국소화시켜 모든 전도를 중단시키는 현상입니다. 3차원에서는 임계 에너지가 국소화 상태와 확장 상태를 분리하는 상전이 경계를 형성합니다. KANs를 사용하여 준주기적 타이트 바인딩 모델에서 이동성 가장자리를 추출할 수 있습니다. 여기서는 세 가지 모델: 모자이크 모델(MM), 일반화된 오브리-안드레 모델(GAAM), 수정된 오브리-안드레 모델(MAAM)을 조사합니다. KANs는 이들 모델에서 이동성 가장자리를 정확하게 추출할 수 있음을 보여줍니다.

이로써 KANs가 매듭 이론과 응축 물질 물리학에서 새로운 과학적 발견을 돕는 유용한 도구가 될 수 있음을 증명합니다 .

cf) Acknowledgement

cf) Appendix.

A. KAN의 기능들

Table 7은 사용자가 유용하게 사용할 수 있는 일반적인 기능들을 포함합니다.

B. Learnable Activation Networks (LANs)

B.1 Architecture

KAN 외에도, 스플라인으로 매개변수화된 학습 가능한 활성화 함수가 있는 거의 MLP와 유사한 또 다른 유형의 네트워크(LAN)를 제안했습니다. KAN은 표준 MLP와 비교하여 두 가지 주요 변경 사항이 있습니다: (1) 활성화 함수가 고정되지 않고 학습 가능하며; (2) 활성화 함수가 노드가 아닌 엣지에 배치됩니다. 이 두 요소를 분리하기 위해, 노드에 여전히 학습 가능한 활성화 함수가 있는 학습 가능한 활성화 네트워크(LAN)를 제안합니다. 이는 Figure B.1에 나와 있습니다.

폭 N, 깊이 L, 그리드 포인트 수 G인 LAN의 경우, 매개변수의 수는 N^2L + NLG입니다. 여기서 N^2L은 가중치 행렬의 매개변수 수, NLG는 스플라인 활성화 함수의 매개변수 수를 나타냅니다. 일반적으로 G ≪ N이기 때문에 NLG ≪ N^2L입니다. LAN은 MLP와 유사하므로 사전 훈련된 MLP에서 초기화하고 학습 가능한 활성화 함수를 허용하여 미세 조정할 수 있습니다. 예제로는 LAN을 사용하여 SIREN을 개선하는 것이 Section B.3에 제시되어 있습니다.

**LAN과 KAN의 비교:**

LAN의 장점:

1. LAN은 개념적으로 KAN보다 더 단순합니다. 표준 MLP에 더 가깝습니다(유일한 변경 사항은 활성화 함수가 학습 가능해진 것입니다).

2. LAN은 KAN보다 더 잘 확장됩니다. LAN/KAN은 각각 노드/엣지에 학습 가능한 활성화 함수를 가지므로, LAN/KAN의 활성화 매개변수는 모델 폭 N에 따라 각각 N/N^2로 확장됩니다.

LAN의 단점:

1. LAN은 해석 가능성이 떨어집니다(가중치 행렬은 MLP와 마찬가지로 해석하기 어렵습니다).

2. LAN은 KAN보다 덜 정확한 것으로 보이지만 여전히 MLP보다는 더 정확합니다. LAN도 스플라인으로 매개변수화된 활성화 함수가 있는 경우 그리드 확장을 허용합니다.

B.2 LAN interpretability results

Figure B.1: 장난감 예제 f(x, y) = exp(sin(πx)+y^2)에 대한 학습 가능한 활성화 네트워크(LAN)의 훈련

Figure B.2: 합성 예제에서의 LAN. LAN은 매우 해석 가능성이 없는 것으로 보입니다. 우리는 가중치 행렬이 너무 많은 자유도를 남긴다고 추측합니다.

저희는 그림 B.2에서 LAN의 예비 해석 가능성 결과를 제시합니다. KAN이 완벽하게 해석 가능한 그림 4.1의 동일한 예에서 LAN은 가중치 행렬의 존재로 인해 훨씬 덜 해석 가능해 보입니다. 첫째, 가중치 행렬은 학습 가능한 활성화 함수보다 쉽게 해석할 수 없습니다. 둘째, 가중치 행렬은 너무 많은 자유도를 가져와 학습 가능한 활성화 함수를 너무 제약하지 않게 만듭니다. LAN에 대한 예비 결과는 선형 가중치 행렬을 제거하는 것이 (KAN과 같이 가장자리에 학습 가능한 활성화를 가짐으로써) 해석 가능성에 필요하다는 것을 의미하는 것으로 보입니다.

B.3 Fitting Images(LAN)

암시적 신경 표현은 이미지를 2D 함수 f(x,y)로 보고, 여기서 픽셀 값 f는 픽셀 x와 y의 두 좌표에 대한 함수입니다. 이미지를 압축하기 위해 이러한 암시적 신경 표현(f는 신경망)은 거의 원본 이미지 품질을 유지하면서 매개 변수를 인상적으로 압축할 수 있습니다. 사이렌[96]은 함수 f에 맞추기 위해 주기적인 활성화 함수가 있는 MLP를 사용할 것을 제안했습니다. LAN에서 허용되는 다른 활성화 함수를 고려하는 것은 당연합니다. 그러나 LAN 활성화를 원활하게 초기화하지만 사이렌에는 고주파 기능이 필요하기 때문에 LAN은 즉시 작동하지 않습니다. LAN의 각 활성화 함수는 기본 함수와 스플라인 함수(즉, φ(x) = b(x) + 스플라인(x)의 합)이며, b(x)는 사이렌에서와 동일한 설정으로 사인 함수로 설정하지만 스플라인(x)은 훈련할 수 있도록 합니다. MLP와 LAN 모두의 모양은 [2,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,128,1]입니다. 학습률 10-3이 있는 5000 단계와 학습률 10-4가 있는 5000 단계에 대해 Adam 최적화기인 배치 크기 4096으로 학습합니다. 그림 B.3에서 볼 수 있듯이 활성화 함수를 미세 조정할 수 있는 LAN의 유연성으로 인해 LAN(orange)이 MLP(파란색)보다 더 높은 PSNR을 달성할 수 있습니다. 저희는 MLP에서 LAN을 초기화하고 더 나은 PSNR을 위해 LAN(녹색)을 추가로 미세 조정하는 것도 가능하다는 것을 보여줍니다. 저희는 실험에서 G = 5를 선택했기 때문에 추가 파라미터 증가는 원래 파라미터보다 약 G/N = 5/128 ≈ 4%입니다.

C. 하이퍼파라미터 의존성

Figure C.1에서는 f(x, y) = exp(sin(πx) + y^2) 사례에서 하이퍼파라미터의 효과를 보여줍니다. 해석 가능한 그래프를 얻기 위해 활성화 함수의 수를 가능한 한 적게(이상적으로 3개) 유지하고자 합니다.

1. 활성화 함수 수를 줄이기 위해 엔트로피 페널티가 필요합니다. 엔트로피 페널티가 없으면 중복된 함수가 많이 발생합니다.

2. 결과는 랜덤 시드에 따라 달라질 수 있습니다. 운이 나쁜 시드를 사용할 경우, 가지치기된 네트워크가 필요 이상으로 클 수 있습니다.

3. 전체 페널티 강도 λ는 희소성을 효과적으로 제어합니다.

4. 그리드 수 G는 해석 가능성에 미묘한 영향을 미칩니다. G가 너무 작으면 각 활성화 함수가 표현력이 떨어지기 때문에 네트워크가 앙상블 전략을 사용하여 해석이 어려워집니다.

5. 조각별 다항식 차수 k는 해석 가능성에 미묘한 영향을 미칩니다. 그러나 이 장난감 예제에서는 랜덤 시드처럼 명확한 패턴을 보이지 않습니다.

D. Feynman KANs

섹션 3.3의 파인만 데이터셋에 대한 더 많은 결과를 포함합니다.

Figure D.1은 각 파인만 데이터셋에 대한 KAN과 MLP의 파레토 프론티어를 보여줍니다.

Figure D.3 및 D.2는 각 파인만 방정식 맞춤 작업에 대한 최소 KAN(테스트 RMSE < 10−2 제약 조건) 및 최상의 KAN(가장 낮은 테스트 RMSE 손실)을 시각화합니다.

E. 그리드 크기에 대한 주석

PDE 및 회귀 작업 모두에서, 훈련 데이터를 균일 그리드에서 선택할 때, 그리드 크기가 큰 수준(한 방향에서 다른 훈련 포인트와 비교 가능한 크기)으로 업데이트될 때 훈련 손실이 갑자기 증가하는 현상이 나타납니다. 이는 고차원에서 B-스플라인의 구현과 관련이 있을 수 있으며 추가 조사가 필요합니다.

F. 특수 함수용 KAN

섹션 3.2의 특수 함수 데이터셋에 대한 더 많은 결과를 포함합니다.

Figure F.2와 F.1은 각 특수 함수 맞춤 작업에 대한 최소 KAN(테스트 RMSE < 10−2 제약 조건) 및 최상의 KAN(가장 낮은 테스트 RMSE 손실)을 시각화합니다.

저작자표시

'짧.논.리(Short.Paper.Review) > DL.Fundamental' 카테고리의 다른 글

[SPR.DL]: Scaling Laws for AR Generative Models (1)	2024.04.21
[SPR.DL]: Fine-Tuning can Distort Pretrained Features and Underperform OOD [ICLR2022] (0)	2024.03.12

this.code();