오늘도 hello, world

  • 홈
  • 태그
  • 방명록

Temporal-Difference Learning 1

[강화학습] Model-free Prediction

MDP를 정확히 알지 못하는 상황에서 Prediction을 수행하는 방법. value function을 estimate. Model-free Reinforcement Learning - Model-free prediction : value function을 estimate (policy를 따랐을 때 리턴의 기대값이 어떻게 될것인지) - Model-free Control : value function과 policy의 optimal한 값을 찾는 것. ㄹ Monte-Carlo (MC) Learning MDP를 모르기 때문에(어떻게 state가 변화할지, 리워드는 얼마나 받을지) Policy를 따라서 직접 에피소드를 진행하는 방식. 모든 에피소드는Terminal state가 있어야 하며, 각 에피소드가 term..

카테고리 없음 2022.08.05
이전
1
다음
더보기
프로필사진

오늘도 hello, world

  • 분류 전체보기 (16)
    • 대학원 (4)
    • 머신러닝 (10)
    • 리눅스 (1)

Tag

군집화, 보안, Temporal-Difference Learning, 비지도학습, 강화학습논문, Monte-Carlo Learning, 파이썬 머신러닝 완벽 가이드, 직장인대학원, 강화학습, 특수대학원 면접, k-means, 강화학습 보안, 파이썬 머신러닝 완벽가이드, 특수대학원, 군집시각화, tcp log, 고려대학교 컴퓨터정보통신대학원 소프트웨어보안학과, 군집평가, 평균이동, 머신러닝,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/10   »
일 월 화 수 목 금 토
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바