VideoPoet — это исследовательская модель от Google, которая превращает текстовые описания в реалистичные и стилизованные видео. В основе системы лежит крупная языковая модель, адаптированная для генерации видео в нулевом приближении (zero-shot), без специального обучения под каждый отдельный запрос.
Текст → видео и изображение → видео
VideoPoet поддерживает несколько режимов работы: классическую генерацию видео по текстовому промту, а также преобразование статичных изображений в динамичные ролики. Это позволяет создавать короткие сцены, анимации и визуальные истории, опираясь всего на одно описание или картинку.
Редактирование и стилизация видео
Помимо генерации с нуля, модель умеет редактировать уже существующие видео: применять стилизацию, менять визуальный стиль сцены, выполнять инпейтинг (дорисовку и замену фрагментов). Это открывает возможности для креативных экспериментов, прототипирования и исследований в области мультимедийного ИИ.
Исследовательский инструмент Google
VideoPoet — это в первую очередь демонстрация нового подхода: как любой авторегрессионный языковой моделью можно управлять генерацией видео. Сервис ориентирован на исследователей, разработчиков и энтузиастов, изучающих будущее мультимодальных моделей и креативного ИИ.

