Искусственный интеллект распознает партии музыкальных инструментов на видео

Группа ученых из Массачусетского технологического института разработала самообучающуюся компьютерную программу PixelPlayer, способную распознавать отдельные партии в музыкальном произведении. Нейронная сеть соотносит видеоизображение играющего оркестра с имеющейся аудиодорожкой и позволяет вычленять и редактировать звучание конкретных инструментов.
Интеллектуальная система основана на одновременном применении сразу нескольких современных технологий. На стадии анализа видеозаписи используются наработки в области компьютерного зрения и распознавания звуков.
Искусственный интеллект по предложенному изображению определяет состав музыкального коллектива и соотносит отдельные партии с конкретными инструментами. Всего в своеобразной коллекции программы сейчас содержится информация о звучании 20 наиболее распространенных струнных, духовых и ударных инструментов. Для создания базы данных в нейросеть было загружено более 700 видеозаписей выступлений оркестров общей продолжительностью около 60 часов.
На финальном этапе при необходимости внести изменения в аудиодорожку PixelPlayer синтезирует звучание конкретного инструмента с характерными для него особенностями. Это позволит в будущем улучшать качество старых видеозаписей с выступлениями оркестров. Использование программы поможет звукорежиссерам не только восстанавливать оригинальное звучание инструментов по архивным кадрам, но и самостоятельно редактировать современные телевизионные концерты без необходимости собирать музыкантов для повторной записи. В дальнейшем платформа может использоваться для разработки систем, способных различать источники звуков в окружающей среде, что поможет роботам эффективнее ориентироваться в пространстве.
Ранее компания Google презентовала программу, позволяющую различать голоса конкретных людей в шумной толпе. Искусственный интеллект анализирует мимику и артикуляцию человека, вычленяя речь персоны из общего многоголосья. Сопоставление аудиовизуальной информации позволяет распознавать реплики и в ситуациях, когда рот человека на какое-то время прикрывается рукой или посторонним предметом.