Цінність ідеальної інформації (VPI) показує наскільки корисною є додаткова інформація для прийняття рішень. Очікувана корисність найкращої дії без додаткової інформації = 38. Після отримання ідеальної інформації агент обирає дію з очікуваною корисністю = 72. Обчисліть . Введіть число, округлене до двох знаків після коми.
В алгоритмі Q-learning вискористовується поняття помилки тимчасової різниці (TD error) обчислюється як . Агент отримав винагороду = 2, максимальне Q-значення наступного стану = 43, поточне значення = 30, фактор дисконтування = 0,96. Обчисліть TD error . Введіть число, округлене до двох знаків після коми.