Яке твердження найточніше описує принцип роботи мультимодальних моделей у задачах text-to-image генерації?

Question

Answer

Текст безпосередньо перетворюється у пікселі без проміжних представлень

Answer

Зображення генерується випадково, а текст використовується лише для фільтрації результатів

Answer

Модель не потребує навчання на парних даних (текст–зображення)

Answer

Модель незалежно обробляє текст і зображення без спільного представлення

Answer

Модель використовує тільки згорткові мережі без текстових енкодерів

Answer

Текст використовується лише після генерації для оцінки якості

Answer

Текст кодується у спільний латентний простір, який узгоджується із зображенням для подальшої генерації

Crowdly