Додати до Chrome
✅ Перевірена відповідь на це питання доступна нижче. Наші рішення, перевірені спільнотою, допомагають краще зрозуміти матеріал.
What is the target policy in Q-learning?
Random
Greedy with respect to the current action-value estimates
None of the answers is correct
ϵ-greedy with respect to the current action-value estimates
Отримайте необмежений доступ до відповідей на екзаменаційні питання - встановіть розширення Crowdly зараз!