https://arxiv.org/abs/2010.14701

 

Scaling Laws for Autoregressive Generative Modeling

We identify empirical scaling laws for the cross-entropy loss in four domains: generative image modeling, video modeling, multimodal image$\leftrightarrow$text models, and mathematical problem solving. In all cases autoregressive Transformers smoothly impr

arxiv.org

 

 

 

 

0. 핵심 & Main Contribution + 후기

F

 

 

 

 

Abstract

4가지 Domain에서 AR-Transformer의 CE손실에 대해 scaling law를 확인:
이때, Cross Entropy = S(True) + D_KL(True || Model)
로 해석.
∙ 이미지 생성 모델링
∙ 비디오 생성 모델링
∙ 멀티모달 Img-Txt 모델링: 상호정보량에 대한 scaling law
∙ 수학문제해결: 학습분포를 extrapolating하는 성능에 대한 scaling law
이에 대해 모델크기와 계산예산이 증가함에 따라 성능이 점진적으로 향상되며, 이는 power law를 따른다

추가적인 실험: Downstream task에서 scaling law가 중요한 함의점을 가짐.

용어:

Cross Entropy Loss: L

Cost Budget: C

Dataset Size: D

Model Size: N

 

 

 

 

1. Intro

Cross Entropy Loss: L

Cost Budget: C

Dataset Size: D

Model Size: N


이때, L이 C,D,N 중 하나에 의해 "제한"되면, 각각의 양에 대해 L이 단순한 power함수로 변화한다!
이에 대해 여러 의문점이 있다.

이 결과가 모든 데이터 양상에 적용되는가?
손실 개선이 표현 품질과 하위 작업 성능으로 어떻게 이어지는가?
모델 성능이 상한에 도달했음을 어떻게 알 수 있으며, 추가적인 스케일링이 수확 체감을 겪게 되는 이유는 무엇인가?
이 추세의 정밀성과 보편성은 무엇을 설명하며, 이로부터 무엇을 더 배울 수 있는가?


본 논문은 폭, 깊이, 학습률 등의 하이퍼파라미터를 최소한의 변경으로도 일관된 성능을 나타냄을 보여준다.




Summary of the Results

모든 Domain에서 아래와 같은 결과가 나타났다:
  • 위 식의 Scaling Law가 일관되게 적용, 환원 가능한 손실이 매우 작은 경우에도 성립함.
  • 주어진 C에 대한 최적 모델 크기 N_opt를 동일한 멱함수 관계 N_opt ∝ C^(-ξ)로 모델링가능.
    이는 지수 ξ ≈ 0.7로 모든 도메인에서 유사, D가 모델 크기 N의 0.4승 보다 느리게 증가해야함을 시사함.
  • 각 도메인마다 트랜스포머의 최적 종횡비 d_model/n_layer가 다르며, 언어 모델보다 더 작은 값이 선호됨.
  • 언어이외의 도메인에서는 명확한 불일치가 관찰

특정 Domain에서 아래와 같은 결과가 나타났다:
  • 이미지생성모델을 ImageNet 분류에 fine-tuning:
    생성 손실이 수렴하더라도 분류 손실이 모델 크기에 따른 지수함수 추세로 계속 향상됨.
    이는 생성 손실의 수렴이 표현 품질이나 의미적 내용에 대한 수확 체감을 의미하지 않음을 시사.
  • 개별 이미지 및 손실 분포 백분위수에 대한 확장 추세를 탐구했으며, 전체 분포에 대한 평균 손실 추세와 유사함.
  • 다양한 이미지 해상도와 VQ 인코딩 방식에 대해 실험했으며, 각각 구분되는 스케일링 지수와 비환원 손실을 발견.
  • 멀티모달 모델에서 캡션-이미지 상호 정보량과 정보 이득 척도의 모델 크기에 따른 점진적 향상.
  • 수학 문제 해결에서 학습 분포를 외삽하는 성능은 주로 학습 분포 성능에 의존하며, 모델 크기에 따른 이점은 없다는 것을 보였다.

 

 

 

 

 

2. Central Empirical Scaling Laws in Each Domain

2.1 Domain Descriptions and Training Setups

모든 Domain에서 AR Cross Entropy Loss를 사용해 학습시킨 Transformer Decoder를 사용.
이때, 실험적으로
d_model/n_layer ≈ 10이 대략적으로 최적이라고 발견


2.1.2 Images

10M개의 Web Img Dataset을 8x8, 16x16, 32x32로 축소해 사용.

2.1.3 Video

7만여개의 동영상(약 100시간)분량의 Web Data사용.
Frame은 64x64해상도로 축소해 사용.

2.1.5 Mutlimodal Txt and Imgs

txt_token과 img_token을 순차적으로 AR적으로 예측하게 훈련.
txt: BPE tokenizer로 tokenize
img: RGB pixel값으로 tokenize

 

2.2 Model Size Scaling and Aspect Ratios

각 Domain에 대해 Converge된 모델로 N에 대한 L을 측정.
Img&Video: 1만개이하 parameter의 작은모델은 추세를 벗어나는 성능
각 모델은 최적의 d_model/n_layer가 존재:



2.3 Compute Scaling and Optimal Model Sizes

모델이 수렴할때까지 학습시키는 대신, 주어진 C로 달성가능한 L을 살펴볼 수 있다:
여기서 N_opt ∝ C^(-ξ)관계를 따르며, 지수ξ=0.7로 계산한다.
또한, D = C/6N * E 관계에 의하면, 계산 최적 학습 시 데이터셋 크기 D는 N^(2/3) 보다 느리게 증가해야한다.




2.4 Loss versus Position in Context Depends on the Structure of the Data

Language & Video는 power law를 따르나
Img는 전혀 다른 패턴이 나타나기에 Data특성에 의존적으로 보편적이지 않다.

다만, C와 N에 따른 Scaling Law는 Data분포에 거의 독립적이다.

 

 

 

 

 

3. Image & Video Modeling, the Reducible Loss, Downstream Tasks

매우 낮은 해상도(8x8)에서 환원 가능한 손실의 지수함수 추세를 약수 nats/image 수준까지 따라갈 수 있으며, 이는 10억 단위의 파라미터를 가진 모델로 달성할 수 있다.
즉, 더 큰 이미지에 대해서도 유사한 추세를 외삽할 수 있다는 이유를 제공한다.
또한 식 (1.1)의 멱함수 plus 상수 형태가 매우 정확한 근사임을 강력히 시사한다.

또한 생성 손실이 비환원 손실에 접근하더라도 미세 조정 분류 성능이 계속해서 점진적으로 향상되는 것을 보일 것이다. 이 결과는 생성 손실 추세가 수렴하는 것처럼 보여도 표현 품질이 계속 개선됨을 강력히 시사한다.



3.1 Varing the Image Resolution and Encoding

우리는 YFCC100m 데이터셋에서 8x8, 16x16, 32x32 픽셀 해상도로 축소된 이미지와, 64x64 이미지를 16x16 및 32x32 VQ 코드[vdOVK18]로 인코딩한 데이터로 트랜스포머를 학습시켰다. 그림 8에 계산 예산에 따른 환원 가능한 손실(= 개선을 통해 줄일 수 있는 손실의 양) 추세를, 그림 7에 모델 크기에 따른 추세를 보였다.

가장 작은 모델들은 8x8 해상도를 제외하고는 추세에서 벗어나는 성능을 보였는데, 이는 상대적 Positional Encoding을 활용하는 데 어려움을 겪기 때문으로 추정된다.

표 3에는 각 해상도별 환원 가능한 손실과 비환원 손실의 계산 예산 의존성 추세를 정리했다. 8x8 pixel이미지의 경우 10억 단위 파라미터 모델로도 거의 완벽한 모델링이 가능하지만, 더 큰 이미지에서는 훨씬 더 큰 모델과 계산 자원이 필요할 것으로 예상된다.

cf) nats: 로그의 밑이 e인 entropy단위.




3.2 Video Modeling and Individual Frames

비디오 모델링의 경우, 전체 추세를 개별 프레임으로 확장하는 것이 자연스럽다.

그림 9에서 모델 크기와 계산 예산에 따른 마지막 프레임의 환원 가능한 손실 추세를 보였다. 이미지 모델링과 마찬가지로 지수함수 추세가 관찰되며, 이를 통해 약 10^13 파라미터와 10^4 PF-day 규모의 모델이 각 프레임당 수 nats 수준의 손실을 달성할 수 있음을 예측할 수 있다.

 






3.3 Scaling Trends for Individual Images

3.3 개별 이미지에 대한 확장 추세

우리는 다양한 데이터 양상에서 매우 일관된 확장 추세를 관찰했다. 이는 개별 데이터 샘플에 대해서도 동일한 추세가 나타나는지, 아니면 분포 수준의 추세가 많은 개별 추세의 집합인지에 대한 의문을 제기한다.

이를 확인하기 위해 32x32 이미지 테스트셋에서 1000개 샘플을 선택하여 모든 모델의 손실을 평가했다. 그림 10에서 볼 수 있듯이, 손실 분포의 각 백분위수 역시 식 (1.1)의 멱함수 plus 상수 추세를 따르며, 개별 랜덤 샘플에서도 동일한 패턴이 관찰된다(그림 17, 20, 21).

이러한 발견은 다른 데이터 양상에서도 적용될 것으로 기대된다.

 






3.4 Finetuning on ImageNet at 32x32 Resolution

3.4 32x32 ImageNet에 대한 미세 조정

생성 모델을 이미지 분류 작업에 미세 조정하면 모델 크기에 따른 성능 확장을 또 다른 관점에서 살펴볼 수 있다. 32x32 해상도의 ImageNet[CLH17] 데이터셋을 사용하여 이를 실험했다.

그림 11에서 볼 수 있듯이, 사전 학습된 생성 모델을 미세 조정한 경우 순수한 지수함수 추세를 따르며,
심지어 생성 손실이 수렴하는 지점을 훨씬 넘어서까지 성능이 계속 향상된다. 이는 생성 손실의 수렴이 표현 품질이나 의미적 내용에 대한 수확 체감을 의미하지 않는다는 것을 강력히 시사한다.


 

 

 

 

 

 

4. Multimodal Models and Information Gain ()

img-txt 간 상호 정보량으로 멀티모달 모델의 성능을 평가할 수 있습니다.

🤔 How to get 상호정보량?
txt2img모델의 경우)
빈 caption의 Img손실 - caption있을때의 Img손실 = txt-img상호 정보량

문제점) 모델이 멀티모달 데이터로만 학습되었다면?빈 캡션이나 빈 이미지는 분포 바깥일 수 있음.
Sol)이 문제를 최소화하기 위해 캡션이 있거나 없는 데이터를 반반씩 섞어 10,000 스텝 파인튜닝한 뒤 상호 정보량을 측정
cf) 이 과정 없이 측정하면 상호 정보량이 약 2배 더 크게 나옴.

결과) txt2img가 img2txt보다 상호정보량 및 정보이득이 큼
= img에서 semantic정보를 추출하는데 더 많은 처리가 필요하기 때문이라는 추측.

cf) 한장의 img가 몇개의 단어에 해당할까?
가장 큰 img2txt모델) txt토큰당 약 2.6 nats로 단어 당 약 3.4 nats의 loss
img2txt상호정보량이 8 nats인 것을 고려하면, 32x32 이미지는 우리 최고 모델에 대해 약 2-3개 단어에 해당한다고 볼 수 있습니다.

 

 

 

 

 

 

5. Mathematical Problem Solving and Extrapolation

기계 학습에서 일반화는 대개 테스트와 학습 성능의 격차를 의미합니다. 하지만 개념적으로는 훈련 분포를 더 큰 또는 다양한 분포로 외삽할 수 있는 더 야심찬 가능성을 의미할 수 있습니다. 수학 문제 해결은 외삽 연구에 매우 적합한데, 숫자 범위나 연산, 재귀/구성적 깊이를 확장할 수 있기 때문입니다.
우리는 수치적 수준에 따라 다양한 테스트 세트로 문제 해결 성능을 평가하면서 이 현상을 연구했습니다. 모든 테스트 세트에서 약간의 매끄러운 거듭제곱법칙 더하기 상수 형태의 경향을 관찰했지만, 난이도 수준에 따라 지수와 오프셋이 다릅니다. 따라서 외삽 성능은 모델 크기가 커짐에 따라 향상됩니다.

그러나 그림 13에서 보듯이, 이 모델의 외삽 능력은 주로 훈련 분포에서의 성능에 달려 있습니다. 즉, 훈련 분포에서 동일한 손실을 달성하는 크기가 다른 모델들은 다양한 테스트 분포에서 대략 동등한 성능을 보입니다. 이런 의미에서 모델 크기를 늘리는 것만으로는 외삽 능력이 자동으로 향상되지 않고, 훈련 분포에서의 성능 향상을 통해서만 개선됩니다. [KMH+20]에서도 한 텍스트 분포에서 다른 분포로 외삽할 때 유사한 결과를 발견했습니다.
마지막으로, 수학 문제 해결의 정보 이론적 해석은 답안이 문제와 결정적으로 관련되어 있어 엔트로피가 실제로 0이 되어야 한다는 점에서 약간 다른 의미를 가집니다. 수학 성능과 이에 관한 훨씬 더 자세한 결과는 부록 B를 참고하시기 바랍니다.

 

 

 

 

 

6. An Incosistency in Compute and Datasize Scaling Laws

계산량 및 데이터 크기 스케일링 법칙의 불일치 실험은 저해상도 이미지 모델을 사용하여 연구하겠지만, 다룬 데이터 모두에서 질적으로 유사한 결과가 나타날 것으로 예상함.

그림 14 왼쪽을 보면, 다양한 모델 크기에 대한 학습 곡선과 완전히 학습된 초기 중지 L(D)의 트렌드를 볼 수 있습니다.
이는 학습 곡선이 모델 크기가 증가함에 따라 L(D) 트렌드에 점점 더 가까워지고 있음을 보여주는데, 이는 더 큰 모델이 더 빨리 학습한다는 것을 의미하며, 최적화가 모델 크기가 증가함에 따라 점점 더 효과적이 된다는 것을 시사합니다. 그러나 학습 곡선은 항상 샘플 효율성을 설정하는 L(D) 트렌드 위에 있습니다.

그림 15에서는 언어의 경우에 대한 유사한 현상을 볼 수 있습니다.
이제 두 가지 다른 트렌드의 투영을 비교해 보겠습니다. L(C) 계산량 트렌드는 그림 7에서 재현할 수 있습니다. L(D)를 계산량 축에 플롯하려면 N_opt(C) ≈ (2.8×10^8)C^0.74 의 거듭제곱법칙 트렌드를 사용해야 합니다(그림 16 참조).
이를 바탕으로 L(D) 대 C(D)를 그리면 그림 14 오른쪽과 같습니다. 여기서 문제는 모든 학습 곡선이 오른쪽 그림의 L(D) 트렌드 위에 있어야 하지만, L(C) 외삽은 궁극적으로 L(D)와 교차하고 그 아래로 내려간다는 점입니다. L(D), L(C) 또는 N_opt(C) 트렌드 중 하나는 이 교차점에서 또는 그 전에 무너져야 합니다.

이 불일치가 어떻게 해결되는지 확실하지 않습니다. 그러나 그림 14 왼쪽의 관찰과 앞서의 논의는 가능한 가설을 제시합니다. 모델과 데이터 크기를 늘릴수록 최적화 효율이 높아져 결국 학습 곡선이 L(D) 트렌드와 합쳐지게 됩니다. 교차점 근처에서는 계산량 프런티어가 구부러져 L(D)와 겹치게 될 것입니다. 이 관점에서 L(C)가 L(D(C))보다 더 가파른 것은 최적화의 결함 때문일 수 있습니다.
이 가설을 미래에 조사해 볼 만합니다. 만약 사실이라면, 최적 모델 및 데이터 크기의 상대적 스케일링이 궁극적으로 변경될 수 있으며, 과적합 등의 트렌드에 의해 결정될 수 있습니다.

마지막으로, 데이터 크기 트렌드에서 측정한 불가피한 손실은 16x16의 경우 2013 nats/이미지, 8x8의 경우 599 nats/이미지이고, 계산량 트렌드에서 추출한 값은 16x16에서 2023 nats/이미지, 8x8에서 602 nats/이미지로, 이 두 추정치가 꽤 유사하다는 점에서 우리의 결과가 일관성을 보인다고 할 수 있습니다.

 

 

 

 

 

 

 

 

7. Related Work

현대 신경망의 예측 가능한 스케일링 트렌드는 다양한 연구 그룹에 의해 연구되어 왔습니다. [HNA+ 17]으로 시작해서, 가장 최근에는 [RRBS19, LWS+ 20, RDG+ 20, Kom19, RFCS20]에서 다양한 모델 아키텍처와 데이터셋을 사용하여 스케일링 관계를 연구했습니다. 이 중 [KMH+ 20]의 언어 모델링 연구가 우리의 접근과 가장 유사합니다. 175B 파라미터 GPT-3 모델 연구 [BMR+ 20]도 이런 신경망 스케일링 법칙의 영향을 받았습니다.

우리와 다른 이들이 확인한 매우 정확한 스케일링 관계에 대한 이론적 설명은 많지 않습니다. [SK20]에서는 데이터 다양체 차원의 역수와 스케일링 지수를 연결하는 간단한 이론을 제안했습니다. [LXS+ 19, JGH18]의 모델 크기 확장, 특히 넓이에 대한 연구는 [LBD+ 20]에서 최적화된 하이퍼파라미터에 적용 가능하다면 우리의 스케일링 관계를 이해하는 데 유용한 틀을 제공할 수 있습니다.
우리가 사용한 모델과 데이터 양상은 과거에 널리 연구되어 왔습니다. 자기회귀적 이미지 모델은 PixelRNN [vdOKK16]부터 시작해서, 최근 [CRC+ 20]의 연구가 우리 모델과 학습 절차에 거의 동일합니다. 트랜스포머 기반 비디오 모델은 [WTU19]에서, 멀티모달 모델은 [TBL+ 19]에서 학습되었습니다. 원저자들은 수학 문제 데이터셋 [SGHK19]에 대해 트랜스포머를 포함하는 다양한 모델을 적용했고, [SSF+ 19]에서는 이를 더 특화된 아키텍처로 연구했습니다. 우리 모델은 대부분 이전에 논의된 것보다 간단한데, 디코더 전용 [LSP+ 18] 트랜스포머와 dense or sparse attention mechanism만 사용.

 

 

 

 

 

 

 

 

8. Discussion

우리는 단일 신경망 아키텍처인 트랜스포머를 이용해 이미지, 비디오, 멀티모달 데이터, 수학 문제 및 언어 [KMH+ 20, BMR+ 20] 생성 모델링을 수행할 수 있음을 보였습니다. 모든 데이터 양상에 대해 모델 크기와 계산 예산의 함수로 손실 달성 경향을 파악했습니다. 언어의 경우와 마찬가지로, 이 결과는 더 큰 모델이 더 많은 샘플 효율성을 가진다는 것을 의미합니다.
또한 일부 중요한 경우 파인튜닝된 하위 작업 성능도 유사한 스케일링 법칙을 따른다는 것을 확인했습니다. 이는 생성 모델링 손실의 경향이 실용적 기능에 이점으로 이어짐을 시사합니다.

더 놀라운 점은 데이터 분포와 거의 무관하게 최적 모델 크기는 training계산 budget의 함수라는 약 N_opt ∝ C^0.7의 보편적인 경향이었습니다.
이 경향은 최적화된 훈련 중 경과된 토큰 수의 C 또는 N에 대한 이중 경향을 의미하며, 따라서 더 큰 계산 예산은 훨씬 더 긴 훈련 시간보다는 더 큰 모델에 투자되어야 한다는 교훈을 줍니다. 이러한 언어 모델링 [KMH+ 20]의 교훈이 일반화되는 것입니다.

스케일링 법칙은 또한 신경망 아키텍처, 손실 함수, 훈련 알고리즘의 세부사항에서 벗어나 모델, 데이터, 계산 규모의 거대한 층위에 걸친 보편적 공통점을 향한 관점의 전환을 시사합니다. ML 연구는 현재 능력의 특정 결함을 파악하고 모델과 알고리즘을 변경하여 이를 개선하는 것을 수반합니다. 아마도 많은 기능은 단순히 규모 증가에 따라 연속적으로 해제될 수 있는 스펙트럼에 있을 수 있으며, GPT-3 모델의 메타학습 기능 [BMR+ 20]에서 암시되는 바와 같습니다.

우리는 또한 스케일링 법칙의 정보 이론적 함의를 논의했습니다.
가장 중요한 점은 (1.1)식의 두 항을 각각 진짜 데이터 분포의 엔트로피와 그 분포와 주어진 생성 모델 사이의 KL 발산으로 해석할 수 있다는 것이다. 엔트로피 식별은 정확한 경향의 외삽을 통해 가능했으며, 단일 모델의 결과로는 예측할 수 없다.

또한 멀티모달 모델에서 이미지와 캡션 간 경험적 상호 정보량의 흥미로운 스케일링 법칙을 관찰했습니다. 이는 상호 정보량이 캡션 엔트로피에 의해 제한되기 때문에 특히 흥미로운 것입니다.

 

 

 

 

 

 

 

 

Contributions

 

  • Tom Henighan은 이미지 및 비디오 모델링 실험과 분석을 수행했고, 실험과 데이터 분석을 가능하게 한 코드베이스를 관리했습니다.
  • Jared Kaplan은 수학 실험과 분석을 수행했고, 전반적인 데이터 분석을 주도했으며 논문을 작성했습니다.
  • Mor Katz는 멀티모달 실험과 데이터 분석을 수행했습니다.
  • Jacob Jackson, Chris Hesse, Heewoo Jun, John Schulman은 비디오 모델링 실험에 협력했습니다.
  • Jacob Jackson, Heewoo Jun, Prafulla Dhariwal, Alec Radford는 VQ-VAE 학습 전략과 코드베이스를 개발했습니다.
  • Sam McCandlish는 언어 모델의 질문-답변 기능 진보를 분석했습니다.
  • Aditya Ramesh와 Alec Radford는 멀티모달 모델링과 최적화에 대한 지도를 제공했습니다.
  • Chris Hallacy와 Alec Radford는 멀티모달 데이터셋을 큐레이션했습니다.
  • Heewoo Jun과 Aditya Ramesh는 이미지 데이터셋을 큐레이션했습니다.
  • Chris Hesse, Heewoo Jun, Alec Radford는 비디오 데이터셋을 큐레이션했습니다.
  • Mark Chen은 이미지 모델링과 파인튜닝에 대한 지도를 제공했습니다.
  • Tom Brown, Scott Gray, Benjamin Mann, Nick Ryder, Prafulla Dhariwal, Daniel Ziegler는 대규모 트랜스포머 모델 훈련을 위한 코드베이스를 구축, 최적화 및 유지했습니다.
  • Dario Amodei는 생성 모델링에 대한 전반적인 스케일링 법칙 연구를 옹호했습니다.
  • Sam McCandlish와 Jared Kaplan은 이 연구를 주도했습니다.

 

 

 

 

 

Appendix.

A. More Details on Image Modeling

그림 18과 19에서 우리는 다양한 이미지 해상도 및 인코딩에 대한 계산 규모 추세를 문서화하는 추가 정보를 제공합니다. 그림 20에서는 100k 파라미터 모델에서 400M 파라미터 모델로 전환될 때 손실이 가장 많이 개선되거나 개선되지 않은 이미지를 보여줍니다. 그림 17에서는 테스트 세트에서 무작위로 선택한 개별 이미지에 대한 추세도 보여줍니다.

그림 18은 다양한 이미지 해상도에 대한 픽셀 단위 계산 규모 추세와 식 (1.1)에 대한 거듭제곱 법칙 plus 상수 맞춤을 보여줍니다. 표 3에는 픽셀 단위 이미지 모델링에 대한 맞춤 결과가 나와 있습니다.

그림 19에서는 두 가지 다른 VQ 코드 해상도로 인코딩된 64x64 이미지에 대한 계산 규모 추세와 식 (1.1)에 대한 거듭제곱 법칙 plus 상수 맞춤을 보여줍니다. 일부 실행은 계산 한계를 넘어 발산되었고, 최악의 경우 그림 7의 모델 크기 추세에서 눈에 띄는 편차가 나타났습니다.

그림 20에서는 400M 파라미터 모델과 100k 파라미터 모델 간의 손실이 가장 많이 개선되거나 개선되지 않은 이미지를 보여줍니다. 이는 무작위로 선택한 1,000개 테스트 이미지 중 손실 비율 및 손실 차이로 측정했을 때 상위 또는 하위 10개 이미지였습니다. 사람이나 군중이 포함된 복잡하고 다채로운 장면의 이미지가 일반적으로 가장 많이 개선되었고, 흑백 이미지와 단순한 배경이 지배적인 이미지가 가장 적게 개선되었습니다.

그림 21에서는 이미지 완성 품질의 추세를 보여줍니다. 여기서 가장 왼쪽 열은 원본 이미지이고, 다른 열은 각각 상단에 표시된 비임베딩 파라미터 수를 가진 모델로 완성한 결과를 보여줍니다. 모델에는 이미지의 상단 절반이 조건으로 제공되며, 하단 절반은 온도 1.0으로 샘플링됩니다. 모델 크기가 증가함에 따라 사실감이 증가하는 명확한 추세가 있습니다.


B. Details of Math Experiments and Additional Results

B.1 절차적으로 생성된 교육 데이터
우리는 [SGHK19]에서 제공한 코드를 사용하여 모든 교육 데이터를 절차적으로 생성했습니다. 문제는 교육 분포에서 모듈을 무작위로 샘플링하여 생성되었으며, 'entropy' 설정은 정수 s ∈ [3, 10] 범위에서 균일하게 샘플링되었습니다. 엔트로피 s인 문제의 수는 약 10^s 정도이므로, 낮은 엔트로피의 쉬운 문제는 모델에 매우 많이 노출되지만, s=9인 일부 문제는 전혀 보이지 않을 수 있습니다. 따라서 교육 분포의 쉬운 구성 요소가 기억될 수 있습니다. 또한 우리의 절차적으로 생성된 데이터는 '보간' 테스트 분포 [SGHK19]에서 중복되지 않았지만, '외삽' 테스트 분포와는 완전히 분리되었습니다.

공식 외삽 분포는 하나의 난이도 수준만 제공하며 8가지 모듈 유형 모두를 포함하지 않습니다. 따라서 우리는 부드럽게 증가하는 난이도 수준(s=1, 2, ..., 19)의 문제 분포를 생성했습니다. 대부분의 모듈에 대해 보간 세팅을 사용했지만, 다른 매개변수가 필요한 경우 일반적으로 외삽 세팅을 사용했습니다. 중요한 것은 우리가 이러한 문제에서 항상 나쁘게 수행하고 빨리 과적합되는 것을 발견했기 때문에 probability__swr_p_level_set_more_samples 및 probability__swr_p_sequence_more_samples 생성기는 포함하지 않았다는 것입니다.

B.2 데이터셋 크기 조정
수학 데이터셋에 대해 N >> D이므로 성능이 과적합에 의해 제한되는 경우 데이터셋 크기 D에 따른 최적 성능을 연구했습니다. 각 데이터셋 크기와 문제 분포에 대해 L(D)를 훈련 중 최소 손실로 정의합니다(다양한 테스트 분포에 대한 손실이 여러 개인 경우 조기 종료와 약간 다름). 이 실험에서는 모든 데이터셋 크기에 대해 n_layer=64, d_model=512을 사용했습니다. L(D)에 대한 거듭제곱 법칙 맞춤을 얻었습니다(그림 22).

B.3 추가 수학 결과
여기에서는 문제 유형과 난이도 수준별 수학 성능에 대한 몇 가지 추가 관찰 결과를 제공합니다. 그림 23에서는 [SGHK19]에서 제공한 파일을 사용한 다양한 모듈의 성능을 보여주고, 그림 24에서는 다양한 모델 크기에 대한 난이도 수준별 성능을 보여줍니다. 공식 외삽 및 보간 테스트 세트에서 달성한 정확도는 그림 26과 27에 자세히 설명되어 있습니다.

전반적으로 이 부분에서는 수학 실험 및 추가 결과에 대한 자세한 내용을 제공하고 있습니다.


C. Additional Multimodal Results

이 섹션에서는 멀티모달 실험에 대한 추가 결과를 보여줍니다.

그림 29에서는 상호 정보의 학습 곡선을 보여줍니다. 여기에는 텍스트-이미지에 대한 공백 캡션 데이터의 95/5 혼합물로 처음부터 훈련하는 것과 50/50 혼합물로 10,000 단계 미세 조정하는 것이 포함됩니다. 이를 통해 우리는 상호 정보와 Infogain 추정치가 공백 캡션이나 이미지가 분포 밖인 문제로 혼란되지 않도록 합니다.

그림 28에서는 두 전략에 대한 최종 상호 정보와 Infogain을 비교합니다. 두 방법의 결과는 매우 유사합니다.

전반적으로 이 섹션에서는 멀티모달 실험에 대한 추가 결과, 특히 상호 정보 및 Infogain 측정에 대해 다루고 있습니다.


D. Additional Language Results

그림 30에서는 GPT-3 계열 모델의 산술 능력 진화를 보여줍니다. 작은 모델은 문제에 나오는 작은 숫자에 약간의 가중치를 두지만, 점점 더 큰 모델은 정답을 더 확신하게 선택하는 것을 볼 수 있습니다.

그림 31에서는 간단한 질문에 대한 답변 능력의 진화를 보여줍니다. 작은 모델은 질문을 이해하지 못하지만, 큰 모델은 질문의 두 가지 측면을 모두 이해하여 정답을 선택할 수 있게 됩니다.

전반적으로 이 섹션에서는 GPT-3 계열 모델의 산술 및 질문 답변 능력이 매개변수 수 증가에 따라 어떻게 발전하는지를 보여줍니다. 작은 모델은 질문을 이해하지 못하지만 큰 모델은 올바르게 답변할 수 있게 됩니다.


E. Mutual Information, Infogain, and Scaling

이 섹션에서는 경험적 상호 정보, Infogain 및 이들의 척도에 대해 설명합니다.

E.1 상호 정보 및 Infogain의 근사 유도 언어 모델의 경우 첫 T 토큰과 다음 T 토큰 간의 상호 정보를 연구할 수 있습니다. 모델 크기 N에 대해 토큰 위치 t에 따른 손실은 거듭제곱 법칙을 따른다는 것이 알려져 있습니다[KMH+20]. 우리는 이를 이용하여 상호 정보와 Infogain에 대한 근사 공식을 유도할 수 있습니다.

E.2 실제 세계 분포 간 KL 발산 추정 우리는 데이터 분포의 고유 엔트로피와 실제 분포 및 모델 분포 간의 KL 발산을 바탕으로 척도 추세를 해석했습니다. 이는 무한한 데이터, 모델 크기 및 계산 능력을 가지면 데이터 분포를 정확하게 모델링할 수 있다는 아이디어에 기반합니다. 새로운 데이터 분포에 대한 모델의 경험적 손실도 예측 가능한 척도 추세를 따르는 경우 이는 새 분포와 교육 분포 간의 근본적인 KL 발산을 추정할 수 있음을 의미합니다.

전반적으로 이 섹션에서는 상호 정보, Infogain 및 이들의 척도에 대한 수학적 분석과 해석을 제공하고 있습니다.


F. Hyperparameter Settings

이 섹션에서는 모델 학습에 사용된 하이퍼파라미터 설정에 대한 더 자세한 정보를 제공합니다.

모든 모델은 3,000단계의 선형 웜업 스케줄과 최대 학습률의 1/10까지의 선형 감쇄를 사용했습니다. 모델 하이퍼파라미터와 학습률은 표 4와 5에 나와 있습니다. 주의 개수는 항상 max(2, d_model/64)로 선택되었습니다. 대부분의 모델은 배치당 약 5 x 10^5 토큰으로 훈련되었지만, 일부 차이가 있습니다.

'Parameters'는 임베딩을 제외한 약칭으로, 편향은 포함되지 않습니다. 모든 모델은 최소 250,000 단계 이상 훈련되었지만, 많은 모델이 훨씬 더 오래 훈련되었습니다. 모델 크기에 따른 손실 추세는 테스트 손실을 최소화하는 단계에서 계산되었습니다. 동일한 크기의 모델에 대해 매우 유사한 학습률을 사용했으며, 이는 초기 그리드 검색을 통해 결정되었습니다.

 

 

 

+ Recent posts