Crowdly

Цінність ідеальної інформації (VPI) показує наскільки корисною є додаткова інформація для прийняття рішень. Очікувана корисність найкращої дії без додаткової інформації = 38. Після отримання ідеальної інформації агент обирає дію з очікуваною корисністю = 72. Обчисліть . Введіть число, округлене до двох знаків після коми.

Переглянути це питання

В алгоритмі Q-learning вискористовується поняття помилки тимчасової різниці (TD error) обчислюється як . Агент отримав винагороду = 2, максимальне Q-значення наступного стану = 43, поточне значення = 30, фактор дисконтування = 0,96. Обчисліть TD error . Введіть число, округлене до двох знаків після коми.

Переглянути це питання

Агент перебуває у стані, де він нескінченно отримує сталу винагороду = 6 на кожному кроці. Фактор дисконтування = 0,78. Розрахуйте загальну сумарну дисконтовану винагороду . Введіть число, округлене до двох знаків після коми.

Переглянути це питання

В алгоритмі Value Iteration агент у стані виконує дію, яка з імовірністю 1 веде до стану . Винагорода за перехід = 12, поточна цінність наступного стану = 47, фактор дисконтування = 0,76. Обчисліть оновлену цінність за допомогою рівняння (очікування) Беллмана. Введіть число, округлене до двох знаків після коми.

Переглянути це питання

Агент робить 3 кроки і отримує винагороди: = 12, = 17, = 14. Фактор дисконтування = 0,6. Обчисліть сукупну дисконтовану винагороду . Введіть число, округлене до двох знаків після коми.

Переглянути це питання

Попередня
1
533
534
535
536
537
128117
Наступна

Telegram Instagram TikTok Question Bank

Умови використання Зв'яжіться з нами

Додати до Chrome