Исследователи из Disney разработали систему, которая может распознавать различные объекты в видео и автоматически добавлять звуковые эффекты, например, когда машины едут по дороге.
С помощью глубинного обучения, исследователи обучили их модели распознавать звуковые образы, подавая ему набор видео, демонстрирующих объект и воспроизводя определенный звук.
«Видео с аудио-треками дают нам естественный способ получить соотношения между звуками и изображениями», сказал Жан-Шарль Базин, научный сотрудник Дисней. «Видео камерами, оснащенными микрофонами для синхронизации аудио и визуальной информации. В принципе, каждый видео кадр можно применять как пример для обучения».
Хотя загвоздка была в системе, чтобы определить, какой звук связан с объектом.
«Звуки, связанные с изображениями могут быть весьма двусмысленными», — сказал Маркус Гросс, вице-президент по исследованиям компании Disney. «Чтобы отфильтровать эти посторонние звуки, наша исследовательская группа сделала большой шаг в сторону множества новых приложений для компьютерного зрения.»
Ссылка на исследование: Suggesting Sounds for Images from Video Collections