Додати до Chrome
✅ Перевірена відповідь на це питання доступна нижче. Наші рішення, перевірені спільнотою, допомагають краще зрозуміти матеріал.
In reinforcement learning, a policy that results in the maximum cumulative reward is called:
The stochastic policy
The optimal policy
The greedy policy
The deterministic policy
Отримайте необмежений доступ до відповідей на екзаменаційні питання - встановіть розширення Crowdly зараз!