Несмотря на то, что мы можем увидеть в фильмах, современные роботы по-прежнему очень ограничены в своих действиях. Они могут быть хороши для многих повторяющихся задач, но их неспособность понять нюансы человеческого языка делает их в основном бесполезными для более сложных запросов.
Например, если вы поместите конкретный инструмент в панель инструментов и попросите робота «забрать его», он будет полностью потерян. Выбирать это означает возможность видеть и идентифицировать объекты, понимать команды, понимать, что «это» — это инструмент, который вы положили, вернуться во времени, чтобы вспомнить момент, когда вы положили инструмент, и отличить инструмент, который вы откладываются от других подобных форм и размеров.
Недавно исследователи из Лаборатории вычислительной техники и искусственного интеллекта MIT (CSAIL) приблизились к упрощению этого типа запросов: в новой статье они представляют собой подобную Alexa систему, которая позволяет роботам понимать широкий диапазон команд, требующих контекстуального знания об объектах и их окружениях. Они назвали систему «ComText» для «команд в контексте».
Ситуация с надписью выше была среди типов задач, которые может обрабатывать ComText. Если вы сообщите системе, что «инструмент, который я устанавливаю, является моим инструментом», он добавляет этот факт в свою базу знаний. Затем вы можете обновить робота с дополнительной информацией о других объектах и выполнить целый ряд задач, таких как сбор различных наборов объектов на основе разных команд.
«Люди понимают мир как совокупность объектов и абстрактных концепций, машины рассматривают его как пиксели, точечные облака и трехмерные карты, создаваемые с помощью датчиков», — говорит CSAIL postdoc Рохан Пол, один из авторов статьи. «Этот семантический разрыв означает, что для роботов, чтобы понять, что мы хотим, чтобы они делали, им нужно гораздо более богатое представление о том, что мы делаем и говорим».
Команда проверила ComText на Baxter, двухрукого гуманоидного робота, разработанного для Rethink Robotics бывшим директором CSAIL Родни Брукс.
Проект возглавлял научный сотрудник Андрей Барбу, а также научный сотрудник Сью Фелшин, старший научный сотрудник Борис Кац и профессор Николас Рой. Они представили этот документ на прошедшей Международной совместной конференции по искусственному интеллекту (IJCAI) в Австралии.
Как это работает?
Такие вещи, как даты, дни рождения и факты, являются формами «декларативной памятью». Существует два типа декларативной памяти: семантическая память, основанная на общих фактах, таких как «небо голубое», и эпизодическая память, которая основана на личных фактах, например, вспоминая, что произошло на вечеринке.
Большинство подходов к изучению роботов были сосредоточены только на семантической памяти, что, очевидно, оставляет большой пробел в знаниях о событиях или фактах, которые могут быть подходящим контекстом для будущих действий. Тем временем ComText может наблюдать ряд визуальных эффектов и естественного языка, чтобы подбирать «эпизодическую память» о размере, форме, позиции, типе объекта, и даже если он принадлежит кому-то. Из этой базы знаний он может затем рассуждать, вызывать смысл и отвечать на команды.
«Главный вклад в эту идею состоит в том, что роботы должны иметь разные типы памяти, как и люди», — говорит Барбу. «У нас есть первая математическая формулировка для решения этой проблемы, и мы изучаем, как эти два типа памяти работают друг с другом».
С помощью ComText Бакстер успешно выполнил правильную команду примерно в 90% случаев. В будущем команда надеется, что роботы поймут более сложные информации, такие как многоступенчатые команды, намерение действий и использование свойств об объектах для более естественного взаимодействия с ними.
Например, если вы скажете роботу, что на одной коробке на столе есть крекеры, а в одной коробке есть сахар, а затем попросите робота «забрать закуски», робот проанализирует что сахар, не может являться закуской, поэтому передаст крекеры
Создавая гораздо менее ограниченные взаимодействия, эта линия исследований могла бы обеспечить лучшую связь для целого ряда роботизированных систем, от самостоятельных автомобилей до бытовых помощников.
«Эта работа — прекрасный шаг к созданию роботов, которые могут более естественно взаимодействовать с людьми», — говорит Люк Цеттлмайер, адъюнкт-профессор информатики Вашингтонского университета, который не участвовал в исследовании. «В частности, это поможет роботам лучше понять имена, которые используются для идентификации объектов в мире, и интерпретировать инструкции, которые используют эти имена, чтобы лучше делать то, что спрашивают пользователи».
Эта работа финансировалась, в частности, Научно-исследовательским институтом Toyota, Национальным научным фондом, Объединенным технологическим союзом робототехники Объединенной армии США и Исследовательской лабораторией ВВС.