Looking for Засоби штучного інтелекту в лінгвістиці test answers and solutions? Browse our comprehensive collection of verified answers for Засоби штучного інтелекту в лінгвістиці at vns.lpnu.ua.
Get instant access to accurate answers and detailed explanations for your course questions. Our community-driven platform helps students succeed!
N-грама - це послідовність із N лексем у тексті/реченні. Найбільш розповсюджені у практичному використанні є біграми, триграми та тетраграми.
Конвеєри (або pipeline) не можуть реалізувати послідовності обробки даних для однакової векторизації документів
Розмір корпусу може бути малим й не перевищувати сотні чи навіть десятків мегабайт
Корпус в NLP - це колекція взаємопов'язаних документів (текстів) на природній мові.
Структура організації великого корпусу буде менш зручна для практичного використання, якщо увесь корпус записати в один єдиний файл
Конвеєри (або pipeline) будуються шляхом утворення пар "ключ-об'єкт", де ключ має зміст назви етапу обробки, а об'єкт реалізує відповідний етап
Тонке налаштування (fine-tuning), або пост-навчання (post-training), - це перший етап реалізації LLM, який відповідальний за формування базової моделі (foundation model), яка ще не має жодних конкретних цілей, проте вже здатна прогнозувати наступне слово
Мішок слів, або Bag-Of-Words, є беззмістовною множиною слів зі словника, що ніколи не використовуються у вказаному документі
Структура організації великого корпусу буде найзручніша для практичного використання, якщо увесь корпус записати у набір файлів фіксованого розміру (розподілити тексти рівномірно між файлами)
Розмітка документу із маркуванням лексем тегами НЕ потрібна для... (оберіть кілька варіантів, що підходять)