logo

Crowdly

В алгоритмі Q-learning вискористовується поняття помилки тимчасової різниці (TD ...

✅ The verified answer to this question is available below. Our community-reviewed solutions help you understand the material better.

В алгоритмі Q-learning вискористовується поняття помилки тимчасової різниці (TD error) обчислюється як . Агент отримав винагороду = 2, максимальне Q-значення наступного стану = 43, поточне значення = 30, фактор дисконтування = 0,96. Обчисліть TD error . Введіть число, округлене до двох знаків після коми.

More questions like this

Want instant access to all verified answers on do.ipo.kpi.ua?

Get Unlimited Answers To Exam Questions - Install Crowdly Extension Now!