[Gain Study_RL]: Reinforcement Learning(1)

V2LLAIN 2024. 6. 2. 20:34

2024. 6. 2. 20:34

🐦‍🔥강화학습[Reinforcement Learning]

🤔 강화학습이란?

Agent가 환경에서 누적보상💰을 최대화하는 Action을 취하는 "순차적 의사결정"

∙ Sequential Decision Process: 몇단계를 가봐야 reward를 얻음 = cumulated rewards
state → action & reward → state → ...

🔍 Exploitation & Exploration
Exploitation: 경험기반 최선행동 (short term benefit)
Exploration: 안알려진행동을 시도, 새로운정보를 획득 (long term benefit)
ex) Exploitation: 늘 가던 단골식당에 간다. / Exploration: 안 가본 식당에 가본다

🔍 Reward Hypothesis: 강화학습이론의 기반.
Agent가 어떤 Action을 취했을 때, 해당 Action이 얼마나 좋은 Action인지 알려주는 "feedback signal"
적절한 보상함수로 "Agent는 누적보상 기댓값 최대화(Cumulated Rewards Maximization)"의 목표를 달성한다.

🔍 RL의 궁극적인 목표는?
Model: Markov Decision Process
궁극적인 목표: 해당 목표(= max cum_Reward)를 위한 Optimal Policy를 찾는 것이 목표임.
cf) 강화학습의 supervision은 사람이 reward를 주는것.

🤔 Markov Property

🔍 MDP (Markov Decision Process)
Markov Property: 현재 state만으로 미래를 예측 (과거 state에 영향X)
ex) 오늘의 날씨 -> 내일의 날씨

RL은 Markov Property를 전제로 하는데, 특히 Discrete time를 따를 때 "Markov Chain"을 전제로 함!
즉, markov process는 markov property를 따르는 discrete time을 전제로 하며, 이런 markov process를 markov chain이라함.
cf) Discrete time: 시간이 이산적으로 변함
cf) Stochastic time: 시간에 따라 어떤 사건이 발생할 확률이 변화하는 과정.

MDP(Markov Decision Process)는 <S,A,P,R,γ>라는 Tuple로 정의됨.

🔍 Episode와 Return
Episode: Start State ~ Terminal State

Return: Episode 종료시 받는 모든 Reward
∴ Maximize Return = Agent의 Goal
∴ Maximize Cumulated Reward Optimal Policy = RL의 Goal

🔍 Continuing Task의 Return...?

무한급수와 Discounting Factor(γ)를 이용.
--> γ=0: 단기보상관심 Agent
--> γ=1: 장기보상관심 Agent

🔍 Discounted Return

현재 받은 reward와 미래에 받을 reward에 차이를 두기 위해 discount factor γ∈[0,1]를 고려한 이득(Return)

🤔 Policy와 Value

🔍 Policy & Value Function
Policy: 어떤 state에서 어떤 action을 취할지 결정하는 함수
Value Function: Return을 기준, 각 state나 action이 얼마나 "좋은지" 알려주는 함수 (즉, reward → return → value)

Deterministic Policy: one state - one action (학습이 끝났을때 도달하는 상태.)
Stochastic Policy: one state → 어떤 action? 취할지 확률을 이용. (학습에 적절.)

State-Value Function: 정책이 주어질때, 임의의 s에서 시작, 끝날때까지 받은 return G의 기댓값
Action-Value Function: state에서 어떤 action이 제일 좋은가를 action에 대한 value를 구하는 것으로 Q-Value라고도 함.

🔍 Bellman Equation
Bellman Equation: episode를 다 완료안하고 state가 좋은지 예측할 수 없을까?
State-value Bellman Equation: 즉각적인 reward와 discount factor를 고려한 미래 state values를 합한 식
Action-value Bellman Equation: 즉각적인 reward와 discount factor를 고려한 미래 action values를 합한 식

Bellman Expectation Equation: policy가 주어질 때, 특정 state와 value를 구하는 식.

Bellman Optimality Equation: RL의 goal은 최대 reward의 optimal policy를 찾는게 목표.
Optimal Policy
= Agent가 Goal을 달성했을 때의 policy
= 각 state에서 가장 좋은 policy를 구해서 얻어진 policy

🔍 Value Function Estimation (Planning과 Learning)

Planning: 모델을 알고 이를 이용해 최적의 action을 찾는것 - ex) Dynamic Programming
Learning: Sample base로 (= 모델을 모르고) 학습하는 것 -ex) MC, TD

저작자표시 (새창열림)

'Gain Study > RL' 카테고리의 다른 글

[RL-DQN전까지] (0)	2024.12.16

this.code();

[Gain Study_RL]: Reinforcement Learning(1)

🐦‍🔥강화학습[Reinforcement Learning]

🤔 강화학습이란?

🔍 Exploitation & Exploration

🔍 Reward Hypothesis: 강화학습이론의 기반.

🔍 RL의 궁극적인 목표는?

🤔 Markov Property

🔍 MDP (Markov Decision Process)

🔍 Episode와 Return

🔍 Continuing Task의 Return...?

🔍 Discounted Return

🤔 Policy와 Value

🔍 Policy & Value Function

🔍 Bellman Equation

🔍 Value Function Estimation (Planning과 Learning)

'Gain Study > RL' 카테고리의 다른 글

+ Recent posts

티스토리툴바

this.code();

[Gain Study_RL]: Reinforcement Learning(1)

🐦‍🔥강화학습[Reinforcement Learning]

🤔 강화학습이란?

🔍 Exploitation & Exploration

🔍 Reward Hypothesis: 강화학습이론의 기반.

🔍 RL의 궁극적인 목표는?

🤔 Markov Property

🔍 MDP (Markov Decision Process)

🔍 Episode와 Return

🔍 Continuing Task의 Return...?

🔍 Discounted Return 

🤔 Policy와 Value

🔍 Policy & Value Function

🔍 Bellman Equation

🔍 Value Function Estimation (Planning과 Learning)

'Gain Study > RL' 카테고리의 다른 글

+ Recent posts

티스토리툴바

🔍 Discounted Return