Google представила обновление Veo 3.1 в приложении Gemini, добавив функцию "Ingredients to Video". Эта возможность, ранее доступная в инструменте для создания фильмов Flow, позволяет пользователям загружать референсные фотографии, включая изображения, сгенерированные с помощью Imagen, и использовать эти изображения как ориентиры при создании видео. За счёт использования референсов Veo 3.1 снижает необходимость в детализированных текстовых подсказках и упрощает передачу желаемого стиля, внешности персонажей и композиции кадра.
Veo 3.1 в Gemini: функция "Ingredients to Video" для контролируемой генерации роликов
Как работает новая функция
«Ingredients to Video» позволяет комбинировать визуальные референсы и текстовые подсказки: пользователь загружает одно или несколько изображений, указывает желаемую продолжительность, ракурсы и дополнительные параметры, а модель генерирует последовательность кадров, согласованную с референсами. Это помогает сохранить консистентность персонажей и объектов в разных сценах и облегчает воспроизведение определённого художественного стиля.
Доступность и ограничения
Функция стала доступна пользователям Gemini и отображается в меню инструментов как информация о модели видео‑генерации Veo 3.1. При этом Google отмечает, что модель по‑прежнему подвержена ограничениям: сложные динамические сцены с многочисленными взаимодействиями объектов могут требовать дополнительных итераций и уточняющих подсказок. Также сохраняются требования к соблюдению правил использования контента и защите прав на изображения.
Примеры применения
Возможные сценарии: создание анимационных тизеров с постоянным персонажем, демонстрация продукта в различных ракурсах, генерация роликов для социальных сетей с заданным визуальным стилем. Для профессиональных задач часто потребуется комбинировать визуальные референсы с точными текстовыми инструкциями и последующей постобработкой.
Вывод
Veo 3.1 и функция "Ingredients to Video" расширяют инструменты контроля при генерации видео, позволяя легче поддерживать визуальную согласованность и быстрее достигать нужного результата, особенно при использовании изображений‑ориентиров. Это шаг к более интуитивному и гибкому созданию коротких видеороликов с помощью генеративных моделей.



