[강화학습] 관련 용어 및 표기

머신러닝

가뿡 2022. 7. 21. 17:24

S : state set
A : action set
P : state transition probability (다른 state로 넘어갈 확률)
R : 현재 state에 대한 리워드 기대값
V(s) : (state-)value function. 현재 state에서 받을 수 있는 리턴의 기대값. 현재 state를 리턴의 기대값(리턴 평균)을 통해 좋은지 나쁜지 측정함.
Q (function): action-value function. 현재 state에서 action을 수행했을 때 받는 리턴의 기대값
Q*(s,a) : optimal action value function
Gt: 리턴. total reward. Discounted 리워드 총합.
γ: discounted factor. 현재 받을 수 있는 리워드는 높은 가치를 가지미만, 미래로 갈수록 확률에 따라 실행이 되지 않는 경우 리워드를 못받을 수도 있는 불확실성을 갖는다. 따라서 불확실성을 포함한 개념이며, 미래 받을 리워드 값에 곱해서 수식에 표현됨.
Policy: π(a|s) = P(a|s). 현재 state에서 어떤 action을 수행할 확률
N(s) : k번의 에피소드를 수행했을 때 해당 state에 몇 번이나 방문했는지.
Z(s) : total return. 전체 에피소드 수행 시 누적된 토탈 리턴.
TD target : 다음 state의 리턴을 예측한 값
m : behavior policy

[강화학습] Planning by Dynamic Programming (0)	2022.07.29
[강화학습] Markov Decision Process (MDP) (0)	2022.07.21
[논문리뷰/강화학습/보안] Feature Selection for Malware Detection Based on Reinforcement Learning (0)	2022.07.19
[군집화] #6. DBSCAN (0)	2022.07.19
[군집화] #5. GMM (0)	2022.07.19

오늘도 hello, world

머신러닝, k-means, 특수대학원, 특수대학원 면접, 군집화, 강화학습, 파이썬 머신러닝 완벽가이드, Monte-Carlo Learning, Temporal-Difference Learning, 파이썬 머신러닝 완벽 가이드, 평균이동, 강화학습논문, tcp log, 비지도학습, 보안, 군집시각화, 군집평가, 고려대학교 컴퓨터정보통신대학원 소프트웨어보안학과, 직장인대학원, 강화학습 보안,

오늘도 hello, world