logo

Crowdly

In Q-Learning, we often use an -greedy strategy. Task: ...

✅ Перевірена відповідь на це питання доступна нижче. Наші рішення, перевірені спільнотою, допомагають краще зрозуміти матеріал.

In Q-Learning, we often use an -greedy strategy.

Task:

1. Explain what the parameter

(epsilon) controls.

2. Imagine a scenario: A robot is learning to navigate a cliff edge. It receives -100 for falling off and -1 for every step. If

is kept high (e.g., 0.5) throughout the entire training and testing phase, how will the robot's behavior likely differ from the optimal path?

Більше питань подібних до цього

Хочете миттєвий доступ до всіх перевірених відповідей на moodle.taltech.ee?

Отримайте необмежений доступ до відповідей на екзаменаційні питання - встановіть розширення Crowdly зараз!