MDP를 정확히 알지 못하는 상황에서 Prediction을 수행하는 방법. value function을 estimate. Model-free Reinforcement Learning - Model-free prediction : value function을 estimate (policy를 따랐을 때 리턴의 기대값이 어떻게 될것인지) - Model-free Control : value function과 policy의 optimal한 값을 찾는 것. ㄹ Monte-Carlo (MC) Learning MDP를 모르기 때문에(어떻게 state가 변화할지, 리워드는 얼마나 받을지) Policy를 따라서 직접 에피소드를 진행하는 방식. 모든 에피소드는Terminal state가 있어야 하며, 각 에피소드가 term..