В наше время всё чаще можно встретить робота в самых разных местах: в аэропорту, библиотеке, школе, под водой; даже можно увидеть, как робот пасет коров... И это далеко не полный список. Роботы – как дети: для того чтобы ориентироваться в мире они должны корректно оценивать ситуацию, происходящую вокруг. Для этого им необходимо обладать «органами чувств». Видеть роботы уже научились, пришло время и для другого чувства – «слуха».
Исследователи из Массачусетского технологического института информатики и искусственного интеллекта продемонстрировали алгоритм, который может эффективно озвучивать немые видеоролики.
Команда использовала технику глубинного обучения, которая заключается в том, чтобы проанализировать огромные объемы данных и найти закономерности, которые будут использоваться в дальнейшем. Такой подход обучения очень удобен, так как он освобождает ученых от необходимости вручную писать алгоритмы и контролировать процесс.
В течение нескольких месяцев исследователи записывали около 1000 видео с 46000 различными звуками. (Сейчас эти библиотеки (Greatest Hits) являются бесплатными и доступны другим исследователям.) Далее эти видеофайлы демонстрировали машине для обработки данных. В результате система, проанализировав данные, смогла воспроизвести шелест листиков плюща, треск веток, звук деформирования мягкого дивана и т.д.
Чтобы проверить насколько реалистично программа подобрала звуки, исследователи провели онлайн-опрос, в котором испытуемые видели два видео, одно с подобранным машиной звуком, а другое с оригинальным звучанием. Пользователи должны были определить, на каком видеоролике естественный звук, а где записанный.
Интересно, что участники тестирования выбирали фальшивое звучание в качестве оригинального в два раза чаще. Причём звуки листьев и грязи компьютеру удалось повторить значительно реалистичнее, чем звуки предметов из дерева и металла.
Исследователи говорят, что есть еще возможности для улучшения системы. Они предполагают, что будущие версии подобных алгоритмов смогут использоваться для автоматического создания звуковых эффектов в фильмах и телевизионных шоу, а также, чтобы помочь роботам лучше понять свойства объектов и усовершенствовать способность взаимодействия с окружающим миром.