강화학습 5

[강화학습] Model-free Prediction

MDP를 정확히 알지 못하는 상황에서 Prediction을 수행하는 방법. value function을 estimate. Model-free Reinforcement Learning - Model-free prediction : value function을 estimate (policy를 따랐을 때 리턴의 기대값이 어떻게 될것인지) - Model-free Control : value function과 policy의 optimal한 값을 찾는 것. ㄹ Monte-Carlo (MC) Learning MDP를 모르기 때문에(어떻게 state가 변화할지, 리워드는 얼마나 받을지) Policy를 따라서 직접 에피소드를 진행하는 방식. 모든 에피소드는Terminal state가 있어야 하며, 각 에피소드가 term..

카테고리 없음 2022.08.05

[강화학습] Planning by Dynamic Programming

Planning : MDP를 알고 있을 때(model-based) 최적의(optimal) value, policy를 찾는 것. Dynamic Programming(DP) : 전체 큰 문제를 여러 개의 작은 문제(sub problem)로 분할해서 솔루션을 찾고 합쳐서 큰 문제를 해결하는 것. - MDP는 두 조건을 모두 충족함. 1) Optimal Substructure : sub problem으로 분할 가능해야하며, 각각에 대한 optimal한 솔루션이 있어야 함. => MDP는 bellman equation 통해 recursive하게 분해할 수 있음 2) 각각의 sub problem들이 같은 형태로 되어있어 하나의 sub problem에서 사용했던 ..

머신러닝 2022.07.29

[강화학습] Markov Decision Process (MDP)

강화학습 : Agent는 어떤 Action을 취했을 때, environment로부터 피드백(리워드)을 받는다. 강화학습의 목표는 리워드를 최대로 하는(최적화된) action들의 set을 학습하는 것. 1) Agent가 먼저 environment의 state를 observation 2) Observation 결과를 가지고 적절한 action을 수행 3) Environment는 action에 따라 변화함. (state 이동) 4) 3)에서 발생한 리워드를 agent가 받게됨. Markov Process(property) : 확률 모델 기반 (앞으로 발생할 수 있는 이벤트의 시퀀스를 확률로 모델링)으로 바로 이전 이벤트만을 참조하여 다음 이벤트를 예측함. Markov Property를 이용하는 처리 과정을 M..

머신러닝 2022.07.21

[강화학습] 관련 용어 및 표기

S : state set A : action set P : state transition probability (다른 state로 넘어갈 확률) R : 현재 state에 대한 리워드 기대값 V(s) : (state-)value function. 현재 state에서 받을 수 있는 리턴의 기대값. 현재 state를 리턴의 기대값(리턴 평균)을 통해 좋은지 나쁜지 측정함. Q (function): action-value function. 현재 state에서 action을 수행했을 때 받는 리턴의 기대값 Q*(s,a) : optimal action value function Gt: 리턴. total reward. Discounted 리워드 총합. γ: discounted factor. 현재 받을 수 있는 리워드..

머신러닝 2022.07.21

[논문리뷰/강화학습/보안] Feature Selection for Malware Detection Based on Reinforcement Learning

* 개인 공부용으로 작성하였습니다. 틀린 부분은 피드백 부탁드립니다. Z. Fang, J. Wang, J. Geng and X. Kan, "Feature Selection for Malware Detection Based on Reinforcement Learning," in IEEE Access, vol. 7, pp. 176177-176187, 2019, doi: 10.1109/ACCESS.2019.2957429. 출처 : https://ieeexplore.ieee.org/document/8920059 Feature Selection for Malware Detection Based on Reinforcement Learning Machine learning based malware detection ..

머신러닝 2022.07.19