Додати до Chrome
✅ Перевірена відповідь на це питання доступна нижче. Наші рішення, перевірені спільнотою, допомагають краще зрозуміти матеріал.
Which approach can not find an optimal deterministic policy? (Select all that apply)
Off-policy learning with an ε-soft behavior policy and a deterministic target policy
ε-greedy exploration
Exploring Starts
Отримайте необмежений доступ до відповідей на екзаменаційні питання - встановіть розширення Crowdly зараз!