Новости OpenAI представила систему распознавания речи Whisper

Тема в разделе "Новости криптовалют", создана пользователем CoinProject.info, 22 Сентябрь 2022.

Реклама
  1. CoinProject.info

    CoinProject.info Топ Мастер ПРЕМИУМ

    Сообщения:
    32,719
    Симпатии:
    41
    Пол:
    Мужской
    Сайт:
    Организация OpenAI представила систему распознавания речи с открытым исходным кодом Whisper, обеспечивающую транскрипцию на нескольких языках.


    We've trained a neural net called Whisper that approaches human-level robustness and accuracy on English speech recognition. It performs well even on diverse accents and technical language. Whisper is open source for all to use. https://t.co/ueVywYPEkK

    — OpenAI (@OpenAI) September 21, 2022

    Согласно анонсу, для обучения модели использовали 680 000 часов многоязычных и мультизадачных данных, собранных из интернета. Благодаря этому система распознает уникальные акценты, фоновый шум и технический жаргон, заявили исследователи.

    Whisper транскрибирует аудиодорожку на английском языке с выраженным акцентом. Данные: OpenAI

    По словам разработчиков, Whisper продемонстрировала хорошие результаты распознавания речи примерно на 10 языках.

    В компании считают, что модель пригодится исследователям ИИ, изучающим надежность, возможности, ограничения и предубеждения современных моделей.


    «Whisper также потенциально весьма полезен в качестве решения для автоматического распознавания речи для разработчиков, особенно для распознавания английской речи», — заявили в OpenAI.

    Исследователи признали, что модель имеет свои ограничения, особенно в области предсказания текста. Из-за использования «зашумленных» данных в наборе для обучения Whisper может включать в транскрипцию слова, которые на самом деле не были произнесены. Разработчики предположили, что это связано с попыткой системы предугадать следующее слово в аудио и расшифровать сам звук.

    Также Whisper не одинаково хорошо работает на разных языках. Система подвержена большему числу ошибок для тех носителей, чья речь недостаточно представлена в наборе обучающих данных.

    Исходный код модели доступен на GitHub.

    Напомним, в сентябре OpenAI разрешила редактировать лица в DALL-E 2. Однако разработчики запретили загружать в систему изображения известных людей.

    В январе организация представила менее токсичную версию GPT-3, которая производит меньше оскорбительных выражений, дезинформации и ошибок в целом.


    Новость OpenAI представила систему распознавания речи Whisper на сайте CoinProject.info.
     

    Понравился пост? Поделись с друзьями!

Реклама
Похожие темы:
  1. Crypto News
    Ответов:
    0
    Просмотров:
    787
  2. CoinProject.info
    Ответов:
    0
    Просмотров:
    179
  3. CoinProject.info
    Ответов:
    0
    Просмотров:
    308
  4. CoinProject.info
    Ответов:
    0
    Просмотров:
    380
  5. CoinProject.info
    Ответов:
    0
    Просмотров:
    121
Загрузка...