Интернет богат огромным количеством информации. Данные, необходимые для ответа на множество вопросов сейчас находятся в режиме онлайн. Но извлекать их из обычного текста и организовать для количественного анализа может оказаться чрезмерно трудоемким делом.
Извлекать информацию — или автоматически классифицировать элементы данных хранящихся в виде обычного текста, является важной задачей искусственного интеллекта. На прошлой неделе исследователи из Массачусетского технологического института информатики и лаборатории искусственного интеллекта получили грант для нового подхода к информационной добыче, которая переворачивает обычное машинное обучение с ног на голову.
Большинство систем с машинным обучением работают через учебные примеры и шаблоны, которые соответствуют классификациям, предоставляемые человека аннотаторов. Например, люди могут обозначить части речи в наборе текстов, система машинного обучения в свою очередь будет пытаться идентифицировать модели, которые устраняют неясности — например, когда «ее» — это прямой объект, и, когда это прилагательное.
Как правило, программисты, будут пытаться кормить их алгоритмы, данными для обучения. Что в целом увеличивает шансы на то, что система будет в состоянии справиться с трудными проблемами.
В новой работе, напротив, исследователи Массачусетского технологического института обучают их системы на скудных данных — потому что сценарии, которые они анализируют, обычно все доступны онлайн.
«Допустим вам дают статью, и вы должны сделать все необходимое, чтобы правильно извлечь главную мысль из этой статьи», — говорит Регина Барзилай, Дельта Электроника профессор электротехники и компьютерных наук. «Когда вы читаете статью о том, что не можете понять, вы заходите в Интернет и находите ответ на ваш вопрос».
По сути, новая система делает то же самое. Машина, как правило, назначает каждой из его классификаций, показатель достоверности, которая является мерой статистической вероятности того, что классификация является верной. Если результат достоверности слишком низкий, система автоматически формирует запрос поиска в интернет, чтобы найти статьи, которые могут содержать нужные данные.
Затем он пытается извлечь соответствующие данные из одной из новых текстов и согласовывать результаты. Если результат достоверности остается на слишком низком уровне, она ищет следующий текст, и так далее.
Примечательно, что каждое решение системы является результатом машинного обучения. Система узнает как создать поисковые запросы, оценить вероятность того, что новый текст имеет отношение к его задаче, и определить наилучшую стратегию для обработки результата.