✅ Перевірена відповідь на це питання доступна нижче. Наші рішення, перевірені спільнотою, допомагають краще зрозуміти матеріал.
В алгоритмі Value Iteration агент у стані виконує дію, яка з імовірністю 1 веде до стану . Винагорода за перехід = 12, поточна цінність наступного стану = 47, фактор дисконтування = 0,76. Обчисліть оновлену цінність за допомогою рівняння (очікування) Беллмана. Введіть число, округлене до двох знаків після коми.
Отримайте необмежений доступ до відповідей на екзаменаційні питання - встановіть розширення Crowdly зараз!