머신러닝

[강화학습] Markov Decision Process (MDP)

가뿡 2022. 7. 21. 18:04

강화학습 : Agent 어떤 Action 취했을 , environment로부터 피드백(리워드) 받는다.

강화학습의 목표는 리워드를 최대로 하는(최적화된) action들의 set 학습하는 .

1)     Agent 먼저 environment state observation

2)     Observation 결과를 가지고 적절한 action 수행

3)     Environment action 따라 변화함. (state 이동)

4)     3)에서 발생한 리워드를 agent 받게됨.

 

Markov Process(property) : 확률 모델 기반 (앞으로 발생할 있는 이벤트의 시퀀스를 확률로 모델링)으로 바로 이전 이벤트만을 참조하여 다음 이벤트를 예측함. Markov Property를 이용하는 처리 과정을 Markov Process라고 함.

 (n-1)번째 이벤트는 1 ~ (n-2)번째 까지의 이벤트 정보를 모두 가지고 있어 n번째를 표현할 때에는 (n-1)번째만으로 설명할 수 있다.

-        S : set of states

-        P : state transition probability (다른 state 넘어갈 확률)

 

Markov Reward Process(MRP) : MP + Reward. 하나의 시퀀스를 끝까지 따라갔을 받을 있는 리워드를 모두 더한 . 리워드를 통해 state transition 가치를 측정한다. (V(s) : state-value function)

<S, P, R, γ>

-        S : set of states

-        R : 리워드

-        γ: Discounting factor ( 범위 : 0~1)

-        Gt : 리턴

-        V(s)

-        P : state transition probability 

 

Markov Decision Process(MDP) : MRP에서 action(decision) 개념이 추가됨.

MP MRP에서는 state 변화가 P확률에 의한 랜덤한 과정이었으나, MDP에서는 action 취할 받을 있는 리턴의 기대값을 계산하여 action 선택하고, action 따라 state 변화한다. (Q: action value function)

<S, A, P, R, γ> + policy

-        S : set of states

-        A : set of actions

-        P : state transition probability 

-        R : 리워드

-        γ: Discounting factor ( 범위 : 0~1)

-        Q : action value function

-        Policy π: 어떤 action 선택할 확률

 

MP, MRP, and MDP

MDP에서 Policy 결정되면 MP, MRP 표현할 있다.

-        MP ; P(state transition Probability) = (action 수행 확률 * action 수행 다음 state transition 확률)

-        MRP ; 리워드 = (action 수행 확률 * action 수행 발생하는 리워드)

 

Bellman equation for MRPs

현재 state value function 다음 state value function(discounted value)으로 표현함.

V(s) = 현재 state 리워드 + 다음 state value function

-        G(t+1) : 다음 state 리턴

-        (state transition probability * state value function) * discounting factor

문제가 커지게 되면 dp, mc, td같은 iterative 형태의 방법을 통해 해결

 

Bellman Equation for MDPs

Action-value-func = (다음 리워드 + 다음 액션을 취했을 때의 action-value function(discounted))

현재 action 수행했을 때의 가치는 각각의 state 이동할 발생하는 리워드에 각각의 state value function

 

 = (어떤 action선택 확률(policy) * action 선택 action value function)

Value function이라는 것은 value에서 선택할 있는 액션들의 가치로 평가된다. 따라서 action들이 선택될 확률(Policy) 포함된다

+ action value function state transition probability 반영된 다음 state value function으로 표현할 있다.

 

Optimal Value Function : 최적의(가장 ) state/action value function 찾는 . 어떤 policy 취해야 가장 (state/action) value 나오는지 계산

 

Optimal Policy : optimal action value function 알고 있다면 optimal policy 바로 계산 가능함.(optimal action-value func 기반으로 ).

q* maximising하는 action optimal policy(policy*), action 선택할 확률이 1이고, 아니면 0.

 

Bellman Optimality Equation for MDPs

Optimal value function(Q*, V*) 벨만 방정식으로 서로를 recursive하게 표현할 있음. Q* V* 각각 서로 표현할 있음.

 

 

 

2022.07.21 - [머신러닝] - [강화학습] 관련 용어 및 표기

 

[강화학습] 관련 용어 및 표기

S : state set A : action set P : state transition probability (다른 state로 넘어갈 확률) R : 현재 state에 대한 리워드 기대값 V(s) : (state-)value function. 현재 state에서 받을 수 있는 리턴의 기대값...

gabbung.tistory.com