AIDive
Назад к глоссарию

Что такое большие мультимодальные модели

ГлоссарийИскусственный интеллект

модели, которые работают сразу с несколькими типами данных: текстом, изображениями, звуком, видео или документами

Определение

Большие мультимодальные модели — это модели, которые работают сразу с несколькими типами данных: текстом, изображениями, звуком, видео или документами. Проще говоря, важны для ассистентов, которые могут видеть, читать, слушать и объединять разные источники информации. В практике ИИ этот термин помогает понять, как устроены данные, модель, инфраструктура или правила вокруг результата. Например, пользователь загружает скриншот интерфейса и просит модель объяснить, что на нем не так.

Пример

пользователь загружает скриншот интерфейса и просит модель объяснить, что на нем не так

Почему важно

важны для ассистентов, которые могут видеть, читать, слушать и объединять разные источники информации. Поэтому термин полезен не только разработчикам, но и редакторам, предпринимателям и пользователям, которые выбирают ИИ-инструмент под конкретную задачу.

Как работает

Понятие помогает разобрать пользовательский сценарий: что модель получает на вход, что возвращает на выход, где нужен контекст, какие есть ограничения и где человек должен проверять результат.

Где применяется

Используется в пользовательских ИИ-сервисах, чат-ботах, генеративных инструментах, поиске, автоматизации и объяснении возможностей моделей.

Ограничения

качество зависит от каждой модальности; модель может неправильно прочитать изображение или связать данные неверно. Кроме того, термин «Большие мультимодальные модели» нельзя оценивать только по названию: нужны данные, сценарий применения, метрики качества, стоимость и проверка человеком там, где ошибка может навредить.