Додати до Chrome
✅ Перевірена відповідь на це питання доступна нижче. Наші рішення, перевірені спільнотою, допомагають краще зрозуміти матеріал.
In multi-step TD methods, what does the "return" G(t) represent when using n-step bootstrapping?
The sum of rewards from step t to the end of the episode
The current estimated value of the state
The maximum Q-value over all actions
The discounted sum of the next n rewards and the estimated value of the nth state
Отримайте необмежений доступ до відповідей на екзаменаційні питання - встановіть розширення Crowdly зараз!