๐ฆ๐ฅ๊ฐํํ์ต[Reinforcement Learning]
๐ค ๊ฐํํ์ต์ด๋?
Agent๊ฐ ํ๊ฒฝ์์ ๋์ ๋ณด์๐ฐ์ ์ต๋ํํ๋ Action์ ์ทจํ๋ "์์ฐจ์ ์์ฌ๊ฒฐ์ "
โ Sequential Decision Process: ๋ช๋จ๊ณ๋ฅผ ๊ฐ๋ด์ผ reward๋ฅผ ์ป์ = cumulated rewards
๐ Exploitation & Exploration
Exploitation: ๊ฒฝํ๊ธฐ๋ฐ ์ต์ ํ๋ (short term benefit)
Exploration: ์์๋ ค์งํ๋์ ์๋, ์๋ก์ด์ ๋ณด๋ฅผ ํ๋ (long term benefit)
ex) Exploitation: ๋ ๊ฐ๋ ๋จ๊ณจ์๋น์ ๊ฐ๋ค. / Exploration: ์ ๊ฐ๋ณธ ์๋น์ ๊ฐ๋ณธ๋ค
๐ Reward Hypothesis: ๊ฐํํ์ต์ด๋ก ์ ๊ธฐ๋ฐ.
Agent๊ฐ ์ด๋ค Action์ ์ทจํ์ ๋, ํด๋น Action์ด ์ผ๋ง๋ ์ข์ Action์ธ์ง ์๋ ค์ฃผ๋ "feedback signal"
์ ์ ํ ๋ณด์ํจ์๋ก "Agent๋ ๋์ ๋ณด์ ๊ธฐ๋๊ฐ ์ต๋ํ(Cumulated Rewards Maximization)"์ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ค.
๐ RL์ ๊ถ๊ทน์ ์ธ ๋ชฉํ๋?
Model: Markov Decision Process
๊ถ๊ทน์ ์ธ ๋ชฉํ: ํด๋น ๋ชฉํ(= max cum_Reward)๋ฅผ ์ํ Optimal Policy๋ฅผ ์ฐพ๋ ๊ฒ์ด ๋ชฉํ์.
cf) ๊ฐํํ์ต์ supervision์ ์ฌ๋์ด reward๋ฅผ ์ฃผ๋๊ฒ.
๐ค Markov Property
๐ MDP (Markov Decision Process)
Markov Property: ํ์ฌ state๋ง์ผ๋ก ๋ฏธ๋๋ฅผ ์์ธก (๊ณผ๊ฑฐ state์ ์ํฅX)
ex) ์ค๋์ ๋ ์จ -> ๋ด์ผ์ ๋ ์จ
RL์ Markov Property๋ฅผ ์ ์ ๋ก ํ๋๋ฐ, ํนํ Discrete time๋ฅผ ๋ฐ๋ฅผ ๋ "Markov Chain"์ ์ ์ ๋ก ํจ!
์ฆ, markov process๋ markov property๋ฅผ ๋ฐ๋ฅด๋ discrete time์ ์ ์ ๋ก ํ๋ฉฐ, ์ด๋ฐ markov process๋ฅผ markov chain์ด๋ผํจ.
cf) Discrete time: ์๊ฐ์ด ์ด์ฐ์ ์ผ๋ก ๋ณํจ
cf) Stochastic time: ์๊ฐ์ ๋ฐ๋ผ ์ด๋ค ์ฌ๊ฑด์ด ๋ฐ์ํ ํ๋ฅ ์ด ๋ณํํ๋ ๊ณผ์ .
MDP(Markov Decision Process)๋ <S,A,P,R,γ>๋ผ๋ Tuple๋ก ์ ์๋จ.
๐ Episode์ Return
Episode: Start State ~ Terminal State
Return: Episode ์ข ๋ฃ์ ๋ฐ๋ ๋ชจ๋ Reward
∴ Maximize Return = Agent์ Goal
∴ Maximize Cumulated Reward Optimal Policy = RL์ Goal
๐ Continuing Task์ Return...?
๋ฌดํ๊ธ์์ Discounting Factor(γ)๋ฅผ ์ด์ฉ.
--> γ=0: ๋จ๊ธฐ๋ณด์๊ด์ฌ Agent
--> γ=1: ์ฅ๊ธฐ๋ณด์๊ด์ฌ Agent
๐ Discounted Return
ํ์ฌ ๋ฐ์ reward์ ๋ฏธ๋์ ๋ฐ์ reward์ ์ฐจ์ด๋ฅผ ๋๊ธฐ ์ํด discount factor γ∈[0,1]๋ฅผ ๊ณ ๋ คํ ์ด๋(Return)
๐ค Policy์ Value
๐ Policy & Value Function
Policy: ์ด๋ค state์์ ์ด๋ค action์ ์ทจํ ์ง ๊ฒฐ์ ํ๋ ํจ์
Value Function: Return์ ๊ธฐ์ค, ๊ฐ state๋ action์ด ์ผ๋ง๋ "์ข์์ง" ์๋ ค์ฃผ๋ ํจ์ (์ฆ, reward → return → value)
Deterministic Policy: one state - one action (ํ์ต์ด ๋๋ฌ์๋ ๋๋ฌํ๋ ์ํ.)
Stochastic Policy: one state → ์ด๋ค action? ์ทจํ ์ง ํ๋ฅ ์ ์ด์ฉ. (ํ์ต์ ์ ์ .)
State-Value Function: ์ ์ฑ ์ด ์ฃผ์ด์ง๋, ์์์ s์์ ์์, ๋๋ ๋๊น์ง ๋ฐ์ return G์ ๊ธฐ๋๊ฐ
Action-Value Function: state์์ ์ด๋ค action์ด ์ ์ผ ์ข์๊ฐ๋ฅผ action์ ๋ํ value๋ฅผ ๊ตฌํ๋ ๊ฒ์ผ๋ก Q-Value๋ผ๊ณ ๋ ํจ.
๐ Bellman Equation
Bellman Equation: episode๋ฅผ ๋ค ์๋ฃ์ํ๊ณ state๊ฐ ์ข์์ง ์์ธกํ ์ ์์๊น?
State-value Bellman Equation: ์ฆ๊ฐ์ ์ธ reward์ discount factor๋ฅผ ๊ณ ๋ คํ ๋ฏธ๋ state values๋ฅผ ํฉํ ์
Action-value Bellman Equation: ์ฆ๊ฐ์ ์ธ reward์ discount factor๋ฅผ ๊ณ ๋ คํ ๋ฏธ๋ action values๋ฅผ ํฉํ ์
Bellman Expectation Equation: policy๊ฐ ์ฃผ์ด์ง ๋, ํน์ state์ value๋ฅผ ๊ตฌํ๋ ์.
Bellman Optimality Equation: RL์ goal์ ์ต๋ reward์ optimal policy๋ฅผ ์ฐพ๋๊ฒ ๋ชฉํ.
Optimal Policy
= Agent๊ฐ Goal์ ๋ฌ์ฑํ์ ๋์ policy
= ๊ฐ state์์ ๊ฐ์ฅ ์ข์ policy๋ฅผ ๊ตฌํด์ ์ป์ด์ง policy
๐ Value Function Estimation (Planning๊ณผ Learning)
Planning: ๋ชจ๋ธ์ ์๊ณ ์ด๋ฅผ ์ด์ฉํด ์ต์ ์ action์ ์ฐพ๋๊ฒ - ex) Dynamic Programming
Learning: Sample base๋ก (= ๋ชจ๋ธ์ ๋ชจ๋ฅด๊ณ ) ํ์ตํ๋ ๊ฒ -ex) MC, TD
'Gain Study > RL' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[RL-DQN์ ๊น์ง] (0) | 2024.12.16 |
---|