강화학습 : Agent는 어떤 Action을 취했을 때, environment로부터 피드백(리워드)을 받는다. 강화학습의 목표는 리워드를 최대로 하는(최적화된) action들의 set을 학습하는 것. 1) Agent가 먼저 environment의 state를 observation 2) Observation 결과를 가지고 적절한 action을 수행 3) Environment는 action에 따라 변화함. (state 이동) 4) 3)에서 발생한 리워드를 agent가 받게됨. Markov Process(property) : 확률 모델 기반 (앞으로 발생할 수 있는 이벤트의 시퀀스를 확률로 모델링)으로 바로 이전 이벤트만을 참조하여 다음 이벤트를 예측함. Markov Property를 이용하는 처리 과정을 M..