Додати до Chrome
✅ Перевірена відповідь на це питання доступна нижче. Наші рішення, перевірені спільнотою, допомагають краще зрозуміти матеріал.
When using the Q-Learning update rule, how is the next action-value estimate determined?
By following the current policy
By sampling the next action randomly
By averaging the Q-values of all possible actions
By selecting the action with the maximum estimated Q-value
Отримайте необмежений доступ до відповідей на екзаменаційні питання - встановіть розширення Crowdly зараз!