ai 3

강화학습개론 HW2-1 [Bellman Expectation Equation]

State Value Function Vp(s) = E[Gt | St = s] = E[ Rt+1 + rRt+2 + r^2... + |St = s ] = Ep[Rt+1 + rVp(St+1)| St = s] 우선 State Value Function 은 episode를 state-s, time- t 에서 시작하며 policy pi를 따를 때, 이 episode 가 끝날 때 까지의 총 discounted reward의 평균을 의미한다.  이때 policy pi 이외에도 확률적 요소를 가지고 있는 것이 두 가지가 있다. dynamics = P(s', r | s, a) 이다.  time- t에서 time - t+1이 되려면 action을 취해야하는데, action을 취할 때, 위 두 가지 요소가 확률을 만들어낸다..

ai/강화학습 2024.10.09