✅ Перевірена відповідь на це питання доступна нижче. Наші рішення, перевірені спільнотою, допомагають краще зрозуміти матеріал.
In Q-Learning, we often use an -greedy strategy.
Task: 1. Explain what the parameter 2. Imagine a scenario: A robot is learning to navigate a cliff edge. It receives -100 for falling off and -1 for every step. If
Отримайте необмежений доступ до відповідей на екзаменаційні питання - встановіть розширення Crowdly зараз!