Когда мы видим, как встречаются два человека, мы часто можем предсказать, что произойдет дальше: они пожмут руки, обнимутся, или даже поцелуются. Наша способность предвидеть действия благодаря интуиции рождается из жизни, из опыта.
Компьютерные системы, которые прогнозируют действия позволяют открыть новые возможности, начиная от роботов, которые смогут лучше ориентироваться в человеческой среде, в системах реагирования на чрезвычайные ситуации.
На этой неделе исследователи из Массачусетского технологического института информатики и лаборатории искусственного интеллекта (CSAIL) сделали важный прорыв в прогностической концепции, разработка алгоритма, который может предвидеть взаимодействие, более точно, чем когда-либо прежде.
Обучение проходит по видео из YouTube и ТВ шоу, таких как «офис» и «Отчаянные домохозяйки», система может предсказать, будет ли два человека обниматься, целоваться, или пожимать руки. Во втором случае он также мог предвидеть, что объект, скорее всего, появится в видео на несколько секунд.
После обучения алгоритма 600 часов немеченого видео, команда тестировала его на новые видео, показывающие как действия, так и предметы.
Когда показали видео людям, которые в секунде от выполняемого одного из четырех действий они правильно предсказали лишь 36 %, когда алгоритм правильно предсказал действия более 43% случаев.
Второе исследование, алгоритму был показан кадр из видео и попросили его предсказать, какой объект появится через пять секунд. Например, видя микроволновую печь можно предложить наличие кружки кофе. Алгоритм предсказал объект в кадре на 30% точнее, чем базовые показатели, хотя исследователи предупреждают, что это еще только средняя точность.
«Есть много тонкостей в понимании и прогнозировании человеческих взаимодействий», — говорит Vondrick. «Мы надеемся, что сможем отработать этот пример, чтобы иметь возможность в ближайшее время прогнозировать еще более сложные задачи.»
В то время как алгоритмы еще не достаточно точны для практического применения, Vondrick говорит, что будущие версии могут быть использованы для всего, от роботов, которые разрабатывают планы действий для камер безопасности, которые смогут предупредить в экстренных ситуациях, когда кто-нибудь упал или получил травму.
«Я взволнован, чтобы увидеть, насколько лучше станут алгоритмы, если мы сможем обучать их еще больше время», — говорит Vondrick. «Мы могли бы увидеть некоторые значительные улучшения, что бы приблизить нас к использованию интеллектуального видения в реальных жизненных ситуациях.»
Работа была поддержана грантом от Национального научного Фонда, наряду с научно-исследовательских премии Google для Торральба и Google докторских стипендий для Vondrick.