logo

Crowdly

In the "Cliff Walking" example above, Q-learning learns the Optimal Path (rig...

✅ Перевірена відповідь на це питання доступна нижче. Наші рішення, перевірені спільнотою, допомагають краще зрозуміти матеріал.

In the "Cliff Walking" example above, Q-learning learns the Optimal Path (right along the edge of the cliff), while SARSA learns the Safer Path (farther away). Explain why this difference occurs based on their update equations.

Більше питань подібних до цього

Хочете миттєвий доступ до всіх перевірених відповідей на moodle.taltech.ee?

Отримайте необмежений доступ до відповідей на екзаменаційні питання - встановіть розширення Crowdly зараз!