[DL]01.The Deep Learning Revolution.

V2LLAIN 2023. 12. 23. 21:25

2023. 12. 23. 21:25

📌 목차

1. The Impact of Deep Learning
2. A Tutorial Example
3. A Brief History of Machine Learning

1. The Impact of Deep Learning

preview
Deep Learning은 상당히 강력하고 다목적을 위해 data로부터 학습된다.
또한, 요즘에는 AI와 Machine Learning이라는 용어가 서로 대체되어 사용된다.

꾸준한 발전으로 인해 AGI는 매우 급격한 발전을 이룩했는데, 특히 LLM은 매우 두드러진 능력을 보인다.
즉, LLM은 AGI로 가는 길의 효시라 할 수 있다.

본문 예제
주 내용: "기존 일상의 문제들" → 직접 algorithm을 짜서 풀기에는 문제가 난해하였음.
❗️Deep Learning을 사용함으로써 이를 해결.
(by. 많은 양의 training set 확보, 이를 training(=learning)시킴으로써 모델이 문제를 풀게함.)

2. A Tutorial Example

input(training set): x₁, . . . , x_N
target set: t₁, . . . , t_N

목표: 새로운 x에 대해 t값을 잘 예측하는 것 = generalization

Linear Models
Linear Model들은 선형적인 unknown parameter라는 중요한 특징이 있을 뿐만 아니라 "중요한 한계점"또한 존재.

Error Function
training data에 다항식을 fitting시켜 error function을 최소화 시킬 수 있다.

Model Complexity
이때, Model의 M(다항식 차수)를 고르는 것은 남아있는 중요한 과제이다.

M의 값에 따라 model이 overfitting이 될 수도, underfitting이 될 수도 있기 때문이다.
이때, Overfitting이 보통 주요한 문제이기 때문에 Regularization을 Loss항에 도입한다.

Regularization

위의 Loss function은 L2 Regularize항을 추가한 것으로
가 성립하며, λ계수는 regularize항과 MSE항 간의 상대적 중요성을 결정하는 상관계수(coefficient)로 Loss function에 penalty를 줌으로써 overfitting의 정도를 결정할 수 있다.

Model Selection
λ는 w 결정을 위해 J(w)를 최소화하는 동안 고정되는 하이퍼파라미터이지만
단순히 w와 λ에 대해 에러 함수를 최소화해 λ → 0으로 수렴하게 되면, error값이 작은 과적합된 모델이 되어버릴 수 있다.
마찬가지로 단순히 M에 대한 trainingset의 오차를 최적화하면 M의 값이 커지고 과적합 될 수 있다.
따라서 하이퍼파라미터의 적절한 값을 찾기 위한 방법을 찾아야 한다.

위의 결과는 가능한 데이터를 가져와 train-valid-split방법을 제안한다.
trainset으로 w를 결정하고 validset에서 가장 낮은 오차를 갖는 모델을 선택한다.
그러나 제한된 크기의 dataset를 사용해 모델을 여러 번 설계하면, validset에 과적합될 수 있기에
마지막으로 선택된 모델의 성능을 평가하기 위해 세 번째 테스트 세트를 유지해야 할 수도 있다.

∙ Cross Validation
일부 응용 프로그램에서는 훈련 및 테스트용 데이터의 제공이 제한될 수 있다.
좋은 모델을 구축하려면 가능한 많은 데이터를 사용하여 훈련해야 하지만 validset이 너무 작으면 예측 성능의 상대적으로 노이즈가 많은 추정치를 제공할 수 있다.
이러한 딜레마의 해결책 중 하나는 아래 그림에서 설명된 교차 검증을 사용하는 것이다.
이를 통해 데이터의 (S - 1)/S의 비율로 훈련에 활용해 모든 데이터를 사용하여 성능을 평가할 수 있다.

∙ 'leave-one-out' 기법
특히나 데이터가 부족한 경우, datapoint의 총 수인 N과 같은 경우인 S = N을 고려하는 것.

교차 검증의 주요 단점:
∙ S의 배수로 학습 실행 횟수가 증가되어, 자체적으로 계산 비용이 많이 드는 모델에서 문제가 될 수 있다는 것.
∙ 단일 모델에 여러 복잡성 하이퍼파라미터가 있을 수 있으며, 이런 하이퍼파라미터들의 설정을 조합하는 것은 지수적으로 많은 학습 실행 횟수를 요구.

3. A Brief History of Machine Learning

Step 1. single neuron은 선형결합(Linear Combination)으로 생성됨
Step 2. 생성된 single neuron에 non-linear function으로 transform.

이를 수학적으로 표현하면 아래와 같다.
이때, a라는 값은 pre-activation이라 불리며,
f(.)는 activation funtion이라 불리고 y는 activation이라 불린다.

Backpropagation
MLP에서 중간 층의 노드는 hidden unit이라 하는데, 이는 trainset에 나타나지 않는 값이기 때문이다.
(trainset은 input과 output값만 제공하기 때문.)

여러 층의 가중치를 가진 신경망을 학습하는 능력은 1980년대 중반쯤부터 다시 관심이 증폭되는 계기가 되었는데, 특히, 확률 이론과 통계학에서의 아이디어가 신경망과 머신 러닝에서 중요한 역할을 한다는 것이 인식되었다.
학습에서의 배경 가정들, 사전 지식이나 귀납적 편향으로 불리기도 하는 것들이 포함될 수 있음을 한 가지 중요한 통찰은 말해준다.
이러한 가정들은 명시적으로 통합될 수 있는데, 예를 들어 피부 병변의 분류가 이미지 내 병변의 위치에 의존하지 않도록 신경망의 구조를 설계할 수 있다. 또는 모델의 수학적 형태나 훈련 방식으로부터 발생하는 암묵적인 가정 형태로 나타날 수 있습니다.

❗️Backpropagation 사용이유?
모델은 수천억개의 파라미터를 가지며, Loss function은 이런 parameter들의 높은 비선형함수일 것이기에
∙ Loss function을 닫힌 형태(e.g 선형 회귀)로 최소화하는 것이 아니라

∙ 파라미터에 대한 Loss function의 도함수(= ∂J(w) / ∂w)를 기반으로
반복적인 최적화 기술(= Backpropagation Algorithm)을 통해 최소화해야 한다.
이러한 모든 과정은 전문적인 컴퓨팅 하드웨어가 필요하며 상당한 계산 비용이 들 수 있다.

Deep Networks
많은 가중치를 가진 신경망을 '심층 신경망(deep neural networks)'이라고 하며, 이러한 신경망에 중점을 둔 기계 학습의 하위 분야를 '딥 러닝(deep learning)'이라 한다(LeCun, Bengio, and Hinton, 2015).
위 그림은 최첨단 신경망을 훈련하기 위해 필요한 연산 주기의 증가를 나타내며, 연산 주기의 두 가지 구분된 성장 단계를 보여준다.
수직 축은 지수적 스케일을 가지며 (petaflop/s-days) 단위로 표시된다.
∙petaflop: 1015(천 조)개의 부동 소수점 연산
∙petaflop/s-days: 초당 하나의 피타플롭을 의미.
petaflop/s-days은 24시간 동안 피타플롭/초의 속도로 계산되고, 대략 1020개의 부동 소수점 연산을 나타내며, 그래프의 최상단은 인상적인 1024개의 부동 소수점 연산을 나타낸다. 그래프의 직선은 지수적 성장을 나타낸다.

혁신적인 아키텍처 개선이나 더 정교한 형태의 귀납적 편향을 포함하는 경우
즉, 모델이 특정한 가정이나 선행 지식을 사용해 데이터를 해석 --> 성능 향상

∙ 표현 학습(representation learning)
심층 신경망의 숨겨진 레이어 역할
신경망이 입력 데이터를 의미 있는 새로운 표현으로 변환, 마지막층이 해결해야 할 훨씬 더 쉬운 문제를 만들어낸다(Bengio, Courville, and Vincent, 2012).
이러한 내부 표현은 전이 학습을 통해 관련된 문제의 해결을 가능하게 할 수 있다.

∙ Foundation Models
여러 가지 downstream 작업에 적합하게 조정되거나 세부 조정될 수 있는 큰 신경망
넓은 적용 가능성을 갖도록 대규모이고 이질적인 데이터 세트를 활용할 수 있다(Bommasani et al., 2021).

∙ 규모 이외 방법을 이용한 발전.
규모 확장 외에도 딥 러닝의 성공에 도움이 된 다른 발전 사항들이 있었는데, 예를 들어, 단순한 신경망에서 깊은 신경망의 연속적인 층을 통해 역전파될수록 훈련 신호가 약해지는 현상을 해결하기 위해 잔차 연결(residual connections)을 도입(He et al., 2015a).

또 다른 주요 발전방법: by coding:
역전파를 수행하여 오류 함수의 그래디언트를 계산하는 코드 = loss.backward()
→ 순방향 전파를 지정하는 코드에서 자동으로 생성하는 자동 미분 방법의 도입. = autograd 내장.

torch.autograd 에 대한 간단한 소개

torch.autograd 는 신경망 학습을 지원하는 PyTorch의 자동 미분 엔진입니다. 이 단원에서는 autograd가 신경망 학습을 어떻게 돕는지에 대한 개념적 이해를 할 수 있습니다. 배경(Background): 신경망(NN; Neur

tutorials.pytorch.kr

🧐 정리

∙ LLM ← AGI로 가는 효시.

∙ Deep Learning의 목표:
Generalization이 잘 되도록 하는 Universal Approximation이 목표,
이를 위해 적절한 model의 차수 M을 찾는것이 목표. (over/underfitting문제)

이때, input과 output제외, trainset에 안나타나는 값을 hidden unit이라 함.

∙ 확률론과 통계학이 중요한 이유?
학습에서 prior, posterior, inductive bias 등의 포함가능성으로 인해 모델이 잘 작동하지 못할 수 있음.
물론, 정교한형태의 inductive bias를 포함하면 모델이 특정 가정이나 선행지식으로 데이터 해석을 하여 성능향상도 가능함.

∙ Representation Learning?
hidden layer의 역할, 문제해결을 더 쉽게 만드는 것.
input을 "유의미한 새로운 표현으로 변환하는 것."

❗️Backpropagation 사용이유?
Loss function=수천억개 parameter의 높은 비선형함수일 것이기에
∙ Loss function을 닫힌 형태(e.g 선형 회귀)로 최소화하는 것이 아니라
∙ 파라미터에 대한 Loss function의 도함수(= ∂J(w) / ∂w) 기반,
반복적인 최적화 기술(= Backpropagation Algorithm)을 통해 최소화 진행.

저작자표시 (새창열림)

'Deep Learning : Vision System > Deep Learning(Christopher M.Bishop)' 카테고리의 다른 글

[DL]00.목차 및 책 소개. (4)	2024.01.30
[DL]04. Single-layer Networks: Regression (2)	2024.01.22
[DL]03. Standard Distributions (2)	2024.01.22
[DL]02. Probabilities (1)	2024.01.14

this.code();