Цінність ідеальної інформації (VPI) показує наскільки корисною є додаткова інформація для прийняття рішень. Очікувана корисність найкращої дії без додаткової інформації = 38. Після отримання ідеальної інформації агент обирає дію з очікуваною корисністю = 72. Обчисліть . Введіть число, округлене до двох знаків після коми.
В алгоритмі Q-learning вискористовується поняття помилки тимчасової різниці (TD error) обчислюється як . Агент отримав винагороду = 2, максимальне Q-значення наступного стану = 43, поточне значення = 30, фактор дисконтування = 0,96. Обчисліть TD error . Введіть число, округлене до двох знаків після коми.
Агент перебуває у стані, де він нескінченно отримує сталу винагороду = 6 на кожному кроці. Фактор дисконтування = 0,78. Розрахуйте загальну сумарну дисконтовану винагороду . Введіть число, округлене до двох знаків після коми.
В алгоритмі Value Iteration агент у стані виконує дію, яка з імовірністю 1 веде до стану . Винагорода за перехід = 12, поточна цінність наступного стану = 47, фактор дисконтування = 0,76. Обчисліть оновлену цінність за допомогою рівняння (очікування) Беллмана. Введіть число, округлене до двох знаків після коми.
Агент робить 3 кроки і отримує винагороди: = 12, = 17, = 14. Фактор дисконтування = 0,6. Обчисліть сукупну дисконтовану винагороду . Введіть число, округлене до двох знаків після коми.