logo

Crowdly

Our MDP has 3 states: s 1 , s 2 , s 3 . The state transition probabilities are: ...

✅ Перевірена відповідь на це питання доступна нижче. Наші рішення, перевірені спільнотою, допомагають краще зрозуміти матеріал.

Our MDP has 3 states: s1, s2, s3. The state transition probabilities are: p11=0, p12=0.4, p13=0.6. When leaving the state s1, the agent receives Rs1=2 reward. The state value function of the states s2 and s3 are: v2=8, v3=4. Calculate the v1 state value of the state s1. The discount factor γ=0.5.

Більше питань подібних до цього

Хочете миттєвий доступ до всіх перевірених відповідей на elearning.aua.am?

Отримайте необмежений доступ до відповідей на екзаменаційні питання - встановіть розширення Crowdly зараз!