- S : state set
- A : action set
- P : state transition probability (다른 state로 넘어갈 확률)
- R : 현재 state에 대한 리워드 기대값
- V(s) : (state-)value function. 현재 state에서 받을 수 있는 리턴의 기대값. 현재 state를 리턴의 기대값(리턴 평균)을 통해 좋은지 나쁜지 측정함.
- Q (function): action-value function. 현재 state에서 action을 수행했을 때 받는 리턴의 기대값
- Q*(s,a) : optimal action value function
- Gt: 리턴. total reward. Discounted 리워드 총합.
- γ: discounted factor. 현재 받을 수 있는 리워드는 높은 가치를 가지미만, 미래로 갈수록 확률에 따라 실행이 되지 않는 경우 리워드를 못받을 수도 있는 불확실성을 갖는다. 따라서 불확실성을 포함한 개념이며, 미래 받을 리워드 값에 곱해서 수식에 표현됨.
- Policy: π(a|s) = P(a|s). 현재 state에서 어떤 action을 수행할 확률
- N(s) : k번의 에피소드를 수행했을 때 해당 state에 몇 번이나 방문했는지.
- Z(s) : total return. 전체 에피소드 수행 시 누적된 토탈 리턴.
- TD target : 다음 state의 리턴을 예측한 값
- m : behavior policy
'머신러닝' 카테고리의 다른 글
[강화학습] Planning by Dynamic Programming (0) | 2022.07.29 |
---|---|
[강화학습] Markov Decision Process (MDP) (0) | 2022.07.21 |
[논문리뷰/강화학습/보안] Feature Selection for Malware Detection Based on Reinforcement Learning (0) | 2022.07.19 |
[군집화] #6. DBSCAN (0) | 2022.07.19 |
[군집화] #5. GMM (0) | 2022.07.19 |