Искусственный интеллект распознает партии музыкальных инструментов на видео

Искусственный интеллект распознает партии музыкальных инструментов на видео

Группа ученых из Массачусетского технологического института разработала самообучающуюся компьютерную программу PixelPlayer, способную распознавать отдельные партии в музыкальном произведении. Нейронная сеть соотносит видеоизображение играющего оркестра с имеющейся аудиодорожкой и позволяет вычленять и редактировать звучание конкретных инструментов.

Интеллектуальная система основана на одновременном применении сразу нескольких современных технологий. На стадии анализа видеозаписи используются наработки в области компьютерного зрения и распознавания звуков. Искусственный интеллект по предложенному изображению определяет состав музыкального коллектива и соотносит отдельные партии с конкретными инструментами. Всего в своеобразной коллекции программы сейчас содержится информация о звучании 20 наиболее распространенных струнных, духовых и ударных инструментов. Для создания базы данных в нейросеть было загружено более 700 видеозаписей выступлений оркестров общей продолжительностью около 60 часов.

На финальном этапе при необходимости внести изменения в аудиодорожку PixelPlayer синтезирует звучание конкретного инструмента с характерными для него особенностями. Это позволит в будущем улучшать качество старых видеозаписей с выступлениями оркестров. Использование программы поможет звукорежиссерам не только восстанавливать оригинальное звучание инструментов по архивным кадрам, но и самостоятельно редактировать современные телевизионные концерты без необходимости собирать музыкантов для повторной записи. В дальнейшем платформа может использоваться для разработки систем, способных различать источники звуков в окружающей среде, что поможет роботам эффективнее ориентироваться в пространстве.

Ранее компания Google презентовала программу, позволяющую различать голоса конкретных людей в шумной толпе. Искусственный интеллект анализирует мимику и артикуляцию человека, вычленяя речь персоны из общего многоголосья. Сопоставление аудиовизуальной информации позволяет распознавать реплики и в ситуациях, когда рот человека на какое-то время прикрывается рукой или посторонним предметом.


Если у вас есть статья, заметка или обзор, которыми вы хотите поделиться с аудиторией нашего сайта, присылайте информацию на: neuronus.com@yandex.ru.
Гость, оставишь комментарий?
Имя:*
E-Mail:


Последние комментарии
Почему космос не имеет начала и конца: комментарии учёных
Земля находится трёх слонах, которые стоят на черепахе
Судьба ледокола «Арктика» остается неопределенной после повреждения одного из двигателей
Народ теперь что бы накачать мышцы и убрать лишний жир можно без спорта и диет, просто надел и забыл. Опробовал лично и результат удивил уже через
Сообщение о покупке водородной яхты Билом Гейтсом оказалось ложным
Народ теперь что бы накачать мышцы и убрать лишний жир можно без спорта и диет, просто надел и забыл. Опробовал лично и результат удивил уже через
Для чего динозавру абдараинуру такой необычный хвост
Народ теперь что бы накачать мышцы и убрать лишний жир можно без спорта и диет, просто надел и забыл. Опробовал лично и результат удивил уже через
Получены самые детальные снимки поверхности Солнца
Народ теперь что бы накачать мышцы и убрать лишний жир можно без спорта и диет, просто надел и забыл. Опробовал лично и результат удивил уже через
Мы в социальных сетях
Статистика
0  
Всего статей 2562
0  
Всего комментариев 1006
0  
Пользователей 199