강화학습개론 HW2-1 [Bellman Expectation Equation]

ai/강화학습

hyebing_KIM 2024. 10. 9. 14:43

State Value Function

Vp(s) = E[Gt | St = s] = E[ Rt+1 + rRt+2 + r^2... + |St = s ] = Ep[Rt+1 + rVp(St+1)| St = s]

우선 State Value Function 은

episode를 state-s, time- t 에서 시작하며 policy pi를 따를 때, 이 episode 가 끝날 때 까지의 총 discounted reward의 평균을 의미한다.

이때 policy pi 이외에도 확률적 요소를 가지고 있는 것이 두 가지가 있다.

dynamics = P(s', r | s, a) 이다.

time- t에서 time - t+1이 되려면 action을 취해야하는데, action을 취할 때, 위 두 가지 요소가 확률을 만들어낸다.

그러므로, state value는 deterministic한 값을 얻는 것이 아닌 평균값으로 state value를 얻어야 하는 것이다.

state t에서 action a를 행했다고 했을때, reward R_t+1이 생성된다. 이때 dynamics의 영향을 받아 reward는 확률적이다.

또한 다음 state s'에 도달하게 되는데, 이 또한 dynamics의 영향으로 s'는 확률적이다.

그런데 s' 에서도 state value 가 존재할 것이다.

그럼 Rt+1에 대해서 dynamics를 고려한 평균값과, V(St+1)에 대해서 dynamics (state transition probability)를 고려한 평균값을 더하면, 결과적으로 state s에서의 value 가 산출된다.

통계가 좋아 ^ㅅ^

부산대학교 산업공학과 20학번입니다. 저는 통계를 좋아하고 하나하나 증명하며 의미를 파악하는 과정을 즐깁니다~~ ^ㅅ^,,

통계가 좋아 ^ㅅ^