통계가 좋아 ^ㅅ^

  • 홈
  • 태그
  • 방명록

2024/10 1

강화학습개론 HW2-1 [Bellman Expectation Equation]

State Value Function Vp(s) = E[Gt | St = s] = E[ Rt+1 + rRt+2 + r^2... + |St = s ] = Ep[Rt+1 + rVp(St+1)| St = s] 우선 State Value Function 은 episode를 state-s, time- t 에서 시작하며 policy pi를 따를 때, 이 episode 가 끝날 때 까지의 총 discounted reward의 평균을 의미한다.  이때 policy pi 이외에도 확률적 요소를 가지고 있는 것이 두 가지가 있다. dynamics = P(s', r | s, a) 이다.  time- t에서 time - t+1이 되려면 action을 취해야하는데, action을 취할 때, 위 두 가지 요소가 확률을 만들어낸다..

ai/강화학습 2024.10.09
이전
1
다음
더보기
프로필사진

통계가 좋아 ^ㅅ^

부산대학교 산업공학과 20학번입니다. 저는 통계를 좋아하고 하나하나 증명하며 의미를 파악하는 과정을 즐깁니다~~ ^ㅅ^,,

  • 분류 전체보기 (19)
    • ai (3)
      • 강화학습 (1)
    • 통계 (8)
      • 통계적 추론 (2)
      • 실험 설계 (6)
    • 제조 (0)
    • 운영 (0)
    • 시뮬 (0)
    • 최적화 (4)
    • 코딩 (0)

Tag

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2024/10   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp. All rights reserved.

티스토리툴바