[강화학습] Markov Decision Process (MDP)

머신러닝

[강화학습] Markov Decision Process (MDP)

가뿡 2022. 7. 21. 18:04

강화학습 : Agent는 어떤 Action을 취했을 때, environment로부터 피드백(리워드)을 받는다.

강화학습의 목표는 리워드를 최대로 하는(최적화된) action들의 set을 학습하는 것.

1) Agent가 먼저 environment의 state를 observation

2) Observation 결과를 가지고 적절한 action을 수행

3) Environment는 action에 따라 변화함. (state 이동)

4) 3)에서 발생한 리워드를 agent가 받게됨.

Markov Process(property) : 확률 모델 기반 (앞으로 발생할 수 있는 이벤트의 시퀀스를 확률로 모델링)으로 바로 이전 이벤트만을 참조하여 다음 이벤트를 예측함. Markov Property를 이용하는 처리 과정을 Markov Process라고 함.

⇨ (n-1)번째 이벤트는 1 ~ (n-2)번째 까지의 이벤트 정보를 모두 가지고 있어 n번째를 표현할 때에는 (n-1)번째만으로 설명할 수 있다.

- S : set of states

- P : state transition probability (다른 state로 넘어갈 확률)

Markov Reward Process(MRP) : MP + Reward. 하나의 시퀀스를 끝까지 따라갔을 때 받을 수 있는 리워드를 모두 더한 것. 리워드를 통해 state transition의 가치를 측정한다. (V(s) : state-value function)

<S, P, R, γ>

- S : set of states

- R : 리워드

- γ: Discounting factor ( 범위 : 0~1)

- Gt : 리턴

- V(s)

- P : state transition probability

Markov Decision Process(MDP) : MRP에서 action(decision) 개념이 추가됨.

MP와 MRP에서는 state의 변화가 P확률에 의한 랜덤한 과정이었으나, MDP에서는 action을 취할 때 받을 수 있는 리턴의 기대값을 계산하여 action을 선택하고, 이 action에 따라 state가 변화한다. (Q: action value function)

<S, A, P, R, γ> + policy

- S : set of states

- A : set of actions

- P : state transition probability

- R : 리워드

- γ: Discounting factor ( 범위 : 0~1)

- Q : action value function

- Policy π: 어떤 action을 선택할 확률

MP, MRP, and MDP

MDP에서 Policy만 결정되면 MP, MRP를 표현할 수 있다.

- MP ; P(state transition Probability) = (action 수행 확률 * action 수행 시 다음 state transition 확률)의 합

- MRP ; 리워드 = (action 수행 확률 * action 수행 시 발생하는 리워드) 합

Bellman equation for MRPs

현재 state의 value function을 다음 state의 value function(discounted value)으로 표현함.

V(s) = 현재 state 리워드 + 다음 state value function

- G(t+1) : 다음 state 리턴

- (state transition probability * state value function)합 * discounting factor

문제가 커지게 되면 dp, mc, td같은 iterative한 형태의 방법을 통해 해결

Bellman Equation for MDPs

Action-value-func = (다음 리워드 + 다음 액션을 취했을 때의 action-value function(discounted)) 합

⇨ 현재 action을 수행했을 때의 가치는 각각의 state로 이동할 때 발생하는 리워드에 각각의 state value function

= (어떤 action선택 확률(policy) * action 선택 시 action value function) 합

⇨ Value function이라는 것은 value에서 선택할 수 있는 액션들의 가치로 평가된다. 따라서 action들이 선택될 확률(Policy)가 포함된다

+ action value function은 state transition probability가 반영된 다음 state의 value function으로 표현할 수 있다.

Optimal Value Function : 최적의(가장 큰) state/action value function을 찾는 것. 어떤 policy를 취해야 가장 큰 (state/action) value가 나오는지 계산

Optimal Policy : optimal action value function을 알고 있다면 optimal policy 바로 계산 가능함.(optimal action-value func를 기반으로 함).

q*를 maximising하는 action일 때 optimal policy(policy*), 이 action을 선택할 확률이 1이고, 아니면 0임.

Bellman Optimality Equation for MDPs

Optimal value function(Q*, V*)은 벨만 방정식으로 서로를 recursive하게 표현할 수 있음. Q*와 V*는 각각 서로 표현할 수 있음.

2022.07.21 - [머신러닝] - [강화학습] 관련 용어 및 표기

[강화학습] 관련 용어 및 표기

S : state set A : action set P : state transition probability (다른 state로 넘어갈 확률) R : 현재 state에 대한 리워드 기대값 V(s) : (state-)value function. 현재 state에서 받을 수 있는 리턴의 기대값...

gabbung.tistory.com

'머신러닝' 카테고리의 다른 글

[강화학습] Planning by Dynamic Programming (0)	2022.07.29
[강화학습] 관련 용어 및 표기 (0)	2022.07.21
[논문리뷰/강화학습/보안] Feature Selection for Malware Detection Based on Reinforcement Learning (0)	2022.07.19
[군집화] #6. DBSCAN (0)	2022.07.19
[군집화] #5. GMM (0)	2022.07.19

현재글[강화학습] Markov Decision Process (MDP)

오늘도 hello, world

파이썬 머신러닝 완벽 가이드, 파이썬 머신러닝 완벽가이드, 강화학습논문, k-means, 강화학습 보안, 머신러닝, 군집평가, 특수대학원 면접, 고려대학교 컴퓨터정보통신대학원 소프트웨어보안학과, Temporal-Difference Learning, Monte-Carlo Learning, 특수대학원, 직장인대학원, 군집시각화, 평균이동, 군집화, 보안, 강화학습, 비지도학습, tcp log,

Today :
Yesterday :

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

오늘도 hello, world