[SPR.RL]: Proximal Policy Optimization Algorithm [ICML2017]

V2LLAIN 2024. 3. 12. 22:17

2024. 3. 12. 22:17

Proximal Policy Optimization Algorithms

We propose a new family of policy gradient methods for reinforcement learning, which alternate between sampling data through interaction with the environment, and optimizing a "surrogate" objective function using stochastic gradient ascent. Whereas standar

arxiv.org

by. OpenAI

0. 핵심 & Main Contribution + 후기

1. Intro

Problem)
- Deep Q Learning: 단순하지만 연속컨트롤도메인에서 제대로 동작X
- A3C: Data효율성 및 Robustness가 떨어짐
- TRPO: 너무 복잡 & policy와 value function이 parameter공유하는 구조와 호환X

Background)

✔️Policy Gradient
Policy 학습을 위해 아래의 Objective Function과 Policy Gradient사용
∙ 목적함수를 미분해 policy의 gradient를 구하고,
∙ gradient로 policy를 update해 학습을 진행:
다만, Policy Update시, 매우 크게 update하기에 성능저하가능

✔️ TRPO (Trust Region Policy Optimization)
제약이 있는 Objective Function으로 Policy Update시, Update가 되는 크기에 제약을 둠.
다만, Second-Order Optimization이기에 복잡함.

Sol) Clipped Surrogate Objective Function

빨간색: 본 논문에서 제시한 Objective Function

old: policy update전을 의미. r(θ)는 [1-ϵ, 1+ϵ]으로 clipping한 후 min값을 반환한다.

- TRPO의 복잡성 완화 및 성능유지하는 Objective Function을 새롭게 제시.

[A; Advantage]
- A > 0 : 정책을 더욱 개선하고자 할 때, 작게 움직여 update
- A < 0 : 정책을 악화하는 방향이면, 더 크게 움직여 update

2. Adaptive KL Penalty Coefficient

🤔 조절가능한 KL Penalty의 계수항

Background) TRPO알고리즘에서 KL항이 제약조건에 있었다.
위 식의 경우, KL Penalty항에 계수항을 추가해 Objective Function을 설계한 내용이다.
계수를 계산하는 방법은 아래 Compute d를 보면 된다:
∙ d가 target값보다 작으면 초기 beta/2
∙ d가 target값보다 크면 초기 beta*2

앞선 Surrogate Objective Function보다 성능은 떨어지나 중요해서 Baseline으로 채택

🤔 PPO Algorithms

✔️ Actor-Critic구조를 사용, Policy와 Value-Func의 parameter를 공유.

✔️ Generalized Advantage Estimation(GAE) 적용

GAE를 통해 bias를 낮추고, 좀 더 나은 Algorithm이 되도록 함.

3. Experiments

✔️ Objective Function간의 비교:

✔️ 연속 Domain에서 다른 Algorithms과 비교:

✔️ Atari Domain에서의 적용

1) 얼마나 빠르게 학습되는지 , 2) 최종성능이 얼마나 되는지

저작자표시 (새창열림)

this.code();

[SPR.RL]: Proximal Policy Optimization Algorithm [ICML2017]

0. 핵심 & Main Contribution + 후기

1. Intro

Problem)

Background)

✔️Policy Gradient

✔️ TRPO (Trust Region Policy Optimization)

Sol) Clipped Surrogate Objective Function

2. Adaptive KL Penalty Coefficient

🤔 조절가능한 KL Penalty의 계수항

🤔 PPO Algorithms

✔️ Actor-Critic구조를 사용, Policy와 Value-Func의 parameter를 공유.

✔️ Generalized Advantage Estimation(GAE) 적용

3. Experiments

✔️ Objective Function간의 비교:

✔️ 연속 Domain에서 다른 Algorithms과 비교:

✔️ Atari Domain에서의 적용

+ Recent posts

티스토리툴바

this.code();

[SPR.RL]: Proximal Policy Optimization Algorithm [ICML2017]

0. 핵심 & Main Contribution + 후기

1. Intro

Problem)

Background)

✔️Policy Gradient

✔️ TRPO (Trust Region Policy Optimization)

Sol) Clipped Surrogate Objective Function

2. Adaptive KL Penalty Coefficient

🤔 조절가능한 KL Penalty의 계수항

🤔 PPO Algorithms

✔️ Actor-Critic구조를 사용, Policy와 Value-Func의 parameter를 공유.

✔️ Generalized Advantage Estimation(GAE) 적용

3. Experiments

✔️ Objective Function간의 비교:

✔️ 연속 Domain에서 다른 Algorithms과 비교:

✔️ Atari Domain에서의 적용

+ Recent posts

티스토리툴바

✔️Policy Gradient

✔️ Actor-Critic구조를 사용, Policy와 Value-Func의 parameter를 공유.

✔️ Generalized Advantage Estimation(GAE) 적용