logo

Crowdly

В алгоритмі Q-learning вискористовується поняття помилки тимчасової різниці (TD ...

✅ Перевірена відповідь на це питання доступна нижче. Наші рішення, перевірені спільнотою, допомагають краще зрозуміти матеріал.

В алгоритмі Q-learning вискористовується поняття помилки тимчасової різниці (TD error) обчислюється як . Агент отримав винагороду = 2, максимальне Q-значення наступного стану = 43, поточне значення = 30, фактор дисконтування = 0,96. Обчисліть TD error . Введіть число, округлене до двох знаків після коми.

Більше питань подібних до цього

Хочете миттєвий доступ до всіх перевірених відповідей на do.ipo.kpi.ua?

Отримайте необмежений доступ до відповідей на екзаменаційні питання - встановіть розширення Crowdly зараз!