✅ The verified answer to this question is available below. Our community-reviewed solutions help you understand the material better.
В алгоритмі Q-learning вискористовується поняття помилки тимчасової різниці (TD error) обчислюється як . Агент отримав винагороду = 2, максимальне Q-значення наступного стану = 43, поточне значення = 30, фактор дисконтування = 0,96. Обчисліть TD error . Введіть число, округлене до двох знаків після коми.
Get Unlimited Answers To Exam Questions - Install Crowdly Extension Now!