Новости Nvidia представила генератор видео по текстовому описанию

Тема в разделе "Новости криптовалют", создана пользователем CoinProject.info, 20 Апрель 2023.

Реклама
  1. CoinProject.info

    CoinProject.info Топ Мастер ПРЕМИУМ

    Сообщения:
    33,682
    Симпатии:
    41
    Пол:
    Мужской
    Сайт:
    Компания Nvidia разработала нейросеть VideoLDM, генерирующую короткие и реалистичные видеоролики по текстовому описанию.

    Алгоритм позволяет создавать анимации продолжительностью около пяти секунд в разрешении до 2048х1280 пикселей и частотой 24 FPS. Модель генерирует видео как по простым, так и сложным подсказкам.

    В основе VideoLDM лежат наработки алгоритма Stable Diffusion. Согласно отчету, нейросеть учитывает 4,1 млрд параметров. Из них 2,7 млрд обучались на видео.

    В компании заявили, что добились «значительного прогресса» в тренировке нейросети достаточно быстро. По словам разработчиков, VideoLDM стала генерировать детализированные и соответствующие описанию видео всего за месяц.

    Разработчики опубликовали несколько примеров работы нейросети на своем сайте.

    «Черепаха плавает в океане». Данные: Nvidia.
    «Штурмовик пылесосит песчаный пляж». Данные: Nvidia.
    «Одетая в костюм лисица танцует в парке». Данные: Nvidia.
    «Лев стоит на серфборде в океане на закате, 4К, высокое разрешение». Данные: Nvidia.
    «Две панды сидят за столом и играют в карты, 4К, высокое разрешение». Данные: Nvidia.
    «Наливание пива в бокал под низким углом». Данные: Nvidia.

    Модель также умеет генерировать сцены вождения. Такие ролики имеют разрешение 1024х512 пикселей продолжительностью до пяти минут.

    VideoLDM может моделировать специфические сценарии вождения и прогнозировать поведение объектов на дороге. По словам разработчиков, это позволяет создавать реалистичные кадры.

    Пример сгенерированной сцены вождения. Данные: Nvidia.

    Опубликованная работа является участником конференции IEEE по компьютерному зрению и распознаванию образов, которая пройдет в Ванкувере с 18 по 22 июня. Неизвестно, планирует ли Nvidia выпускать алгоритм в публичный доступ.

    Напомним, в апреле Meta представила инструмент для сегментации изображений и видео

    В марте Microsoft выпустила предварительную версию Bing Image Creator.

    Новость Nvidia представила генератор видео по текстовому описанию на сайте CoinProject.info.
     

    Понравился пост? Поделись с друзьями!

Реклама