Новости Исследователи Anthropic допустили саботаж ИИ против человечества

Тема в разделе "Новости криптовалют", создана пользователем CoinProject.info, 19 Октябрь 2024.

Реклама
  1. CoinProject.info

    CoinProject.info Топ Мастер ПРЕМИУМ

    Сообщения:
    33,416
    Симпатии:
    41
    Пол:
    Мужской
    Сайт:
    Биржи на которых я торгую:


    Искусственный интеллект может однажды саботировать человечество, но пока все в порядке. Об этом сообщили эксперты ИИ-стартапа Anthropic в новом исследовании.


    New Anthropic research: Sabotage evaluations for frontier models

    How well could AI models mislead us, or secretly sabotage tasks, if they were trying to?

    Read our paper and blog post here: https://t.co/nQrvnhrBEv pic.twitter.com/GWrIr3wQVH

    — Anthropic (@AnthropicAI) October 18, 2024

    Специалисты исследовали четыре различных вектора угроз со стороны искусственного интеллекта и определили, что «минимальные меры смягчения последствий» были достаточными для текущих моделей.



    «Достаточно способные модели могут подорвать человеческий надзор и принятие решений в важных контекстах. Например, в контексте разработки ИИ модели могут тайно саботировать усилия по оценке собственных опасных возможностей, мониторингу их поведения или принятию решений об их развертывании», — говорится в документе.​

    Однако хорошая новость в том, что исследователи Anthropic видят возможности смягчения таких рисков, по крайней мере на текущий момент.



    «Хотя наши демонстрации показали, что в современных моделях, возможно, есть низкоуровневые признаки способности к саботажу, мы считаем, что минимальные меры по смягчению последствий достаточны для устранения рисков. Тем не менее по мере улучшения возможностей ИИ, вероятно, будут необходимы более реалистичные и жесткие меры по снижению рисков», — говорится в отчете.​

    Ранее эксперты взломали ИИ-роботов и заставили их выполнять запрещенные протоколами безопасности и этическими нормами действия. Например, детонировать бомбы.

    Новость Исследователи Anthropic допустили саботаж ИИ против человечества на сайте CoinProject.info.
     

    Понравился пост? Поделись с друзьями!

Реклама