Новости В MIT разработали систему автоматической очистки беспорядочных данных

Тема в разделе "Новости криптовалют", создана пользователем CoinProject.info, 12 Май 2021.

Реклама
  1. CoinProject.info

    CoinProject.info Топ Мастер ПРЕМИУМ

    Сообщения:
    32,714
    Симпатии:
    41
    Пол:
    Мужской
    Сайт:
    Исследователи Массачусетского технологического института создали систему PClean, которая автоматически очищает «грязные» данные в таблицах: опечатки, дубликаты, пропущенные значения, орфографические ошибки и несоответствия.


    Алгоритм использует подход, основанный на знаниях. Пользователь предоставляет ему основную информацию о базе данных и указывает основные проблемы, которые могут возникнуть в процессе очистки.

    Затем программа объединяет эти знания с помощью вероятностных рассуждений, основанных на логике, и дает ответ. Например, учитывая дополнительные сведения о типичной арендной плате, PClean может дополнить таблицу со списком квартир и правильно определить Беверли-Хиллз из Калифорнии, а не аналогичный город, расположенный во Флориде или Техасе.

    Соавтор статьи и аспирант кафедры электротехники и компьютерных наук Алекс Лью сказал, что PClean дает возможность заручиться поддержкой компьютеров так же, как люди обращаются за помощью друг к другу.


    «PClean позволяет сообщить компьютеру, что я знаю о проблеме, кодируя те же базовые знания, которые я бы объяснил человеку. […] Я также могу указать подсказки и уловки, которые уже известны, для более быстрого решения задачи», — добавил исследователь.

    Разработчики утверждают, что PClean — это первая система очистки данных, которая может сочетать знания в предметной области с логическими рассуждениями для автоматической очистки таблиц от миллионов записей за счет трех нововведений:

    • язык сценариев позволяет пользователям кодировать то, что они знают, для увеличения точности модели;
    • алгоритм вывода использует двухэтапный подход, основанный на обработке записей по очереди, чтобы сделать обоснованные предположения об их очистке, а затем пересмотреть свои суждения для исправления ошибок;
    • специальный компилятор генерирует код быстрого вывода, позволяя программе работать с базами данных с миллионами записей с высокой скоростью.

    По словам исследователей, PClean упрощает и удешевляет объединение беспорядочных, несовместимых баз данных в чистые записи без огромных инвестиций в человеческие и программные системы.

    Несмотря на потенциальные социальные преимущества, разработчики предупредили о рисках, в том числе вторжения в частную жизнь людей и их деанонимизации путем объединения неполной информации из нескольких общедоступных источников.

    PClean доступен всем желающим. Исходный код системы разработчики опубликовали на GitHub.

    Напомним, в мае ученые с помощью ИИ ускорили моделирование Вселенной в 1000 раз.

    В апреле ученые из Университета Райса разработали метод обучения нейросетей на центральном процессоре, который работает в 15 раз быстрее, чем на графических ускорителях.


    Новость В MIT разработали систему автоматической очистки беспорядочных данных на сайте CoinProject.info.
     

    Понравился пост? Поделись с друзьями!

Реклама
Похожие темы:
  1. CoinProject.info
    Ответов:
    0
    Просмотров:
    474
  2. CoinProject.info
    Ответов:
    0
    Просмотров:
    139
  3. CoinProject.info
    Ответов:
    0
    Просмотров:
    179
  4. CoinProject.info
    Ответов:
    0
    Просмотров:
    234
  5. jamaes
    Ответов:
    1
    Просмотров:
    86
Загрузка...