머신러닝

[강화학습] 관련 용어 및 표기

가뿡 2022. 7. 21. 17:24
  • S : state set
  • A : action set

  • P : state transition probability (다른 state로 넘어갈 확률)

  • R : 현재 state에 대한 리워드 기대값

  • V(s) : (state-)value function. 현재 state에서 받을 수 있는 리턴의 기대값. 현재 state를 리턴의 기대값(리턴 평균)을 통해 좋은지 나쁜지 측정함.

  • Q (function): action-value function. 현재 state에서 action을 수행했을 때 받는 리턴의 기대값

  • Q*(s,a) : optimal action value function

  • Gt: 리턴. total reward. Discounted 리워드 총합.

  • γ: discounted factor. 현재 받을 수 있는 리워드는 높은 가치를 가지미만, 미래로 갈수록 확률에 따라 실행이 되지 않는 경우 리워드를 못받을 수도 있는 불확실성을 갖는다. 따라서 불확실성을 포함한 개념이며, 미래 받을 리워드 값에 곱해서 수식에 표현됨.

  • Policy: π(a|s) = P(a|s). 현재 state에서 어떤 action을 수행할 확률

  •  N(s) : k번의 에피소드를 수행했을 때 해당 state에 몇 번이나 방문했는지.

  • Z(s) : total return. 전체 에피소드 수행 시 누적된 토탈 리턴.  

  • TD target : 다음 state의 리턴을 예측한 값 

  • m : behavior policy