Looking for Засоби штучного інтелекту в лінгвістиці test answers and solutions? Browse our comprehensive collection of verified answers for Засоби штучного інтелекту в лінгвістиці at vns.lpnu.ua.
Get instant access to accurate answers and detailed explanations for your course questions. Our community-driven platform helps students succeed!
Розмір корпусу НЕ може бути великим і сягати десятків гігабайт чи терабайт
Корпус в NLP - це тулуб живої істоти, що здатна до мовлення.
Синтаксичний парсер - це програмний компонент, який перетворює речення у дерево синтаксичного аналізу, що складається з ієрархічних елементів, або синтаксичних категорій
Конвеєри (або pipeline) реалізують лише прості однозв'язні списки та не дозволяють реалізувати складні гіллясті шляхи, що можуть роз'єднуватися і з'єднуватися.
Мішок слів, або Bag-Of-Words, НЕ може бути представлений частотними векторами, що описують кількість використання відповідних слів зі словника використовуються у вказаному документі чи тексті, оскільки при цьому повінстю ігнорується граматика та відносні позиції слів у реченні
Ніколи не слід використовувати формат HTML для опису текстових документів корпусу
LLM у контексті NLP - це абревіатура від "Large Language Model", тобто велика мовна модель
Метод TF-IDF для моделі мішка слів (або Bag-Of-Words) передбачає щодо даного документа/тексту застосування нормалізованої частоти лексем з урахуванням їх появи у решті документів/текстів корпусу, що має дозволити виявити більш важливі слова саме для даного документу/тексту і менше зважати на слова, які широко застосовані всюди у корпусі
Попередня обробка корпусу зазвичай передбачає обов'язковий поділ тексту на такі елементи (оберіть декілька елементів, що підходять):
Вставки (або embeddings) є числовими представленнями, побудованими на основі токенів, щоб дозволити мовній моделі проводити необхідні розрахунки при роботі з текстом