Система, разработанная Disney связывает образы со звуками

Исследователи из Disney разработали систему, которая может распознавать различные объекты в видео и автоматически добавлять звуковые эффекты, например, когда машины едут по дороге.

С помощью глубинного обучения, исследователи обучили их модели распознавать звуковые образы, подавая ему набор видео, демонстрирующих объект и воспроизводя определенный звук.

«Видео с аудио-треками дают нам естественный способ получить соотношения между звуками и изображениями», сказал Жан-Шарль Базин, научный сотрудник Дисней. «Видео камерами, оснащенными микрофонами для синхронизации аудио и визуальной информации. В принципе, каждый видео кадр можно применять как пример для обучения».

Хотя загвоздка была в системе, чтобы определить, какой звук связан с объектом.

«Звуки, связанные с изображениями могут быть весьма двусмысленными», — сказал Маркус Гросс, вице-президент по исследованиям компании Disney. «Чтобы отфильтровать эти посторонние звуки, наша исследовательская группа сделала большой шаг в сторону множества новых приложений для компьютерного зрения.»

Ссылка на исследование: Suggesting Sounds for Images from Video Collections

Добавить комментарий


Защитный код
Обновить