Додати до Chrome
✅ Перевірена відповідь на це питання доступна нижче. Наші рішення, перевірені спільнотою, допомагають краще зрозуміти матеріал.
What does one row of a self-attention matrix represent?
The probabilities of all possible next tokens in the vocabulary.
The importance of each training example for the current prediction.
How strongly one query token attends to each key token when forming its updated representation.
The similarity between the final output embeddings of all words in the vocabulary.
Отримайте необмежений доступ до відповідей на екзаменаційні питання - встановіть розширення Crowdly зараз!