Новости Google представила генератор видео по тексту на базе Imagen

CoinProject.info · 6 Октябрь 2022

Исследователи Google объявили о разработке системы искусственного интеллекта Imagen Video, способной по словесным запросам генерировать видео с разрешением 1280×768 пикселей и частотой 24 кадра в секунду.

Excited to announce Imagen Video, our new text-conditioned video diffusion model that generates 1280×768 24fps HD videos! #ImagenVideo https://t.co/JWj3L7MpBU
Work w/ @wchan212 @Chitwan_Saharia @jaywhang_ @RuiqiGao @agritsenko @dpkingma @poolio @mo_norouzi @fleet_dj @TimSalimans pic.twitter.com/eN81LqZW7I

— Jonathan Ho (@hojonathanho) October 5, 2022

Инструмент базируется на алгоритме Imagen, являющемся аналогом DALL-E 2 и Stable Diffusion. Генератор картинок использует большую предобученную языковую нейросеть и каскадную диффузную модель, и сочетает в себе «глубокий уровень понимания слов с беспрецедентной степенью фотореализма».

Изображения, сгенерированные Imagen. Данные: Google.

Как поясняют исследователи Google, Imagen Video берет текстовое описание и создает 16-кадровый ролик с разрешением 24×48 пикселей и частотой 3 FPS. Затем система масштабирует и «предсказывает» дополнительные изображения.

В результате алгоритм генерирует 128-кадровую анимацию с разрешением 1280×768 пикселей и частотой 24 FPS.

Первый этап генерации видео Imagen Video. Данные: Google.
Промежуточный этап генерации видео Imagen Video. Данные: Google.
Готовое видео, сгенерированное Imagen Video. Данные: Google.

Для обучения Imagen Video разработчики использовали 14 млн пар «видео-описание» и 60 млн «изображение-текст», а также общедоступный набор данных LAION-400M, что позволило модели применять ряд эстетических аспектов.

Видео, сгенерированное Imagen Video. Данные: Google.

Во время тестирования исследователи обнаружили, что алгоритм может создавать «акварельные» ролики или переносить стиль Ван Гога. По их словам, Imagen Video продемонстрировал понимание глубины и трехмерности, что позволило ему генерировать видео, как будто записанные дроном.

Видео, сгенерированное Imagen Video. Данные: Google.

Также система умеет правильно отображать текст.

«В отличие от Stable Diffusion и DALL-E 2, которые пытаются превратить запрос вроде “логотип для Diffusion” в читаемые слова, Imagen Video воспроизводит его без проблем», — говорится в документе проекта.

По словам ИИ-исследователя из Университета Альберты Мэтью Гуздиала, проблема преобразования текста в видео до сих пор не решена.

«Мы вряд ли скоро достигнем чего-то вроде DALL-E 2 или Midjourney по качеству [создания роликов]», — заявил он.

Чтобы убрать дрожание в видео и избавится от искажений, команда Imagen Video планирует объединить усилия с разработчиками Phenaki. Это еще один генератор от Google, превращающий длинные подробные подсказки в двухминутные ролики низкого качества.

В Google также отмечают, что используемые для обучения данные содержали неприемлемый контент, из-за чего Imagen Video иногда создает клипы с изображением насилия или сексуального характера. Поэтому компания не планирует выпускать модель или ее исходный код до исправления проблемы.

Напомним, в сентябре энтузиаст разработал генератор анимации по тексту Stable Diffusion Video.

В августе TikTok представил инструмент создания фонов для видео по словесным запросам.

В июне китайские исследователи разработали трансформер CogVideo с 9 млрд параметров для преобразования текста в анимацию.

Новость Google представила генератор видео по тексту на базе Imagen на сайте CoinProject.info.

Войти или зарегистрироваться

Новости Google представила генератор видео по тексту на базе Imagen

CoinProject.info Топ Мастер ПРЕМИУМ

Понравился пост? Поделись с друзьями!

Новости В Google Lens добавили одновременный поиск по картинке и тексту

Новости Nvidia представила генератор видео по текстовому описанию

Новости Google добавила генератор изображений людей в Gemini

Новости Meta представила ИИ-генератор видео Movie Gen

Новости Adobe представила ИИ-генератор видео

Войти или зарегистрироваться

Новости Google представила генератор видео по тексту на базе Imagen

CoinProject.info Топ Мастер ПРЕМИУМ

Понравился пост? Поделись с друзьями!

Новости В Google Lens добавили одновременный поиск по картинке и тексту

Новости Nvidia представила генератор видео по текстовому описанию

Новости Google добавила генератор изображений людей в Gemini

Новости Meta представила ИИ-генератор видео Movie Gen

Новости Adobe представила ИИ-генератор видео

Быстрый поиск