Новости Google представила генератор видео по тексту на базе Imagen

Тема в разделе "Новости криптовалют", создана пользователем CoinProject.info, 6 Октябрь 2022.

Реклама
  1. CoinProject.info

    CoinProject.info Топ Мастер ПРЕМИУМ

    Сообщения:
    33,682
    Симпатии:
    41
    Пол:
    Мужской
    Сайт:
    Исследователи Google объявили о разработке системы искусственного интеллекта Imagen Video, способной по словесным запросам генерировать видео с разрешением 1280×768 пикселей и частотой 24 кадра в секунду.


    Excited to announce Imagen Video, our new text-conditioned video diffusion model that generates 1280×768 24fps HD videos! #ImagenVideohttps://t.co/JWj3L7MpBU
    Work w/ @wchan212 @Chitwan_Saharia @jaywhang_ @RuiqiGao @agritsenko @dpkingma @poolio @mo_norouzi @fleet_dj @TimSalimans pic.twitter.com/eN81LqZW7I

    — Jonathan Ho (@hojonathanho) October 5, 2022

    Инструмент базируется на алгоритме Imagen, являющемся аналогом DALL-E 2 и Stable Diffusion. Генератор картинок использует большую предобученную языковую нейросеть и каскадную диффузную модель, и сочетает в себе «глубокий уровень понимания слов с беспрецедентной степенью фотореализма».

    Google представила генератор видео по тексту на базе Imagen
    Изображения, сгенерированные Imagen. Данные: Google.

    Как поясняют исследователи Google, Imagen Video берет текстовое описание и создает 16-кадровый ролик с разрешением 24×48 пикселей и частотой 3 FPS. Затем система масштабирует и «предсказывает» дополнительные изображения.

    В результате алгоритм генерирует 128-кадровую анимацию с разрешением 1280×768 пикселей и частотой 24 FPS.

    Первый этап генерации видео Imagen Video. Данные: Google.
    Промежуточный этап генерации видео Imagen Video. Данные: Google.
    Готовое видео, сгенерированное Imagen Video. Данные: Google.

    Для обучения Imagen Video разработчики использовали 14 млн пар «видео-описание» и 60 млн «изображение-текст», а также общедоступный набор данных LAION-400M, что позволило модели применять ряд эстетических аспектов.

    Видео, сгенерированное Imagen Video. Данные: Google.

    Во время тестирования исследователи обнаружили, что алгоритм может создавать «акварельные» ролики или переносить стиль Ван Гога. По их словам, Imagen Video продемонстрировал понимание глубины и трехмерности, что позволило ему генерировать видео, как будто записанные дроном.

    Видео, сгенерированное Imagen Video. Данные: Google.

    Также система умеет правильно отображать текст.


    «В отличие от Stable Diffusion и DALL-E 2, которые пытаются превратить запрос вроде “логотип для Diffusion” в читаемые слова, Imagen Video воспроизводит его без проблем», — говорится в документе проекта.

    По словам ИИ-исследователя из Университета Альберты Мэтью Гуздиала, проблема преобразования текста в видео до сих пор не решена.


    «Мы вряд ли скоро достигнем чего-то вроде DALL-E 2 или Midjourney по качеству [создания роликов]», — заявил он.

    Чтобы убрать дрожание в видео и избавится от искажений, команда Imagen Video планирует объединить усилия с разработчиками Phenaki. Это еще один генератор от Google, превращающий длинные подробные подсказки в двухминутные ролики низкого качества.

    В Google также отмечают, что используемые для обучения данные содержали неприемлемый контент, из-за чего Imagen Video иногда создает клипы с изображением насилия или сексуального характера. Поэтому компания не планирует выпускать модель или ее исходный код до исправления проблемы.

    Напомним, в сентябре энтузиаст разработал генератор анимации по тексту Stable Diffusion Video.

    В августе TikTok представил инструмент создания фонов для видео по словесным запросам.

    В июне китайские исследователи разработали трансформер CogVideo с 9 млрд параметров для преобразования текста в анимацию.


    Новость Google представила генератор видео по тексту на базе Imagen на сайте CoinProject.info.
     

    Понравился пост? Поделись с друзьями!

Реклама