Додати до Chrome
✅ Перевірена відповідь на це питання доступна нижче. Наші рішення, перевірені спільнотою, допомагають краще зрозуміти матеріал.
How does Q-Learning differ from SARSA in TD control?
SARSA requires a model of the environment, while Q-Learning does not
Q-Learning updates only at the end of an episode, while SARSA updates at each step
Q-Learning is on-policy, while SARSA is off-policy
SARSA updates the Q-value using the actual action taken, while Q-Learning updates using the maximum action-value
Отримайте необмежений доступ до відповідей на екзаменаційні питання - встановіть розширення Crowdly зараз!