Ученые автоматизировали процесс чтения по губам

Ученые автоматизировали процесс чтения по губам

Сотрудники одного из канадских университетов разработали нейронную сеть, способную распознавать сказанные человеком слова по движению его губ. На основе предложенной технологии в будущем могут создаваться программы для слабослышащих людей и автоматические переводчики живой речи.

На подготовительном этапе исследователи написали компьютерную программу, которая сопоставляла артикуляцию людей на видео с текстовой расшифровкой сказанных слов. Искусственный интеллект разбивал ролики на маленькие фрагменты с произношением отдельных звуков и слогов. Так было переработано 140 тысяч часов исходного видео, на базе которого удалось создать самую большую из существующих ныне медиатек с аудиовизуальной информацией о фонемах английского языка. Составленная база содержит видеофрагменты с четкой артикуляцией более 127 тысяч слов.

Процесс распознавания речи по движению губ осуществляется нейронной сетью в обратном порядке. Интеллектуальная система захватывает изображение с артикуляцией говорящего человека и ищет подходящий визуальный образ в составленной базе данных. Из отдельных слогов складываются слова, которые могут быть озвучены синтезирующей человеческую речь программой.

Во время тестирования системы на 37-минутном видео искусственный интеллект распознал речь говорящего человека с точностью 59%. Предыдущее программное обеспечение, которое основывалось на вычленении отдельных букв, а не слогов, позволяло правильно расшифровывать по губам всего 23% произносимого текста.

Помимо очевидного использования разработанной технологии в приложениях для слабослышащих или немых людей, система может применяться для восстановления речевых фрагментов по кадрам исторических хроник и для восполнения речи собеседника в видеочате из-за низкого уровня связи. Еще одной сферой приложения данного искусственного интеллекта может стать дистанционное распознавание речи в системах наблюдения, применяемых для поддержания безопасности в общественных местах.

В апреле 2018 года компания Google представила компьютерную программу, позволяющую на расстоянии идентифицировать говорящего человека и распознавать его речь. Нейронная сеть позволяет вычленить отдельные реплики при наличии посторонних шумов, восстанавливая фрагменты фраз по артикуляции говорящего человека.


Если у вас есть статья, заметка или обзор, которыми вы хотите поделиться с аудиторией нашего сайта, присылайте информацию на: neuronus.com@yandex.ru.
Гость, оставишь комментарий?
Имя:*
E-Mail:


Последние комментарии
Почему космос не имеет начала и конца: комментарии учёных
Земля находится трёх слонах, которые стоят на черепахе
Судьба ледокола «Арктика» остается неопределенной после повреждения одного из двигателей
Народ теперь что бы накачать мышцы и убрать лишний жир можно без спорта и диет, просто надел и забыл. Опробовал лично и результат удивил уже через
Сообщение о покупке водородной яхты Билом Гейтсом оказалось ложным
Народ теперь что бы накачать мышцы и убрать лишний жир можно без спорта и диет, просто надел и забыл. Опробовал лично и результат удивил уже через
Для чего динозавру абдараинуру такой необычный хвост
Народ теперь что бы накачать мышцы и убрать лишний жир можно без спорта и диет, просто надел и забыл. Опробовал лично и результат удивил уже через
Получены самые детальные снимки поверхности Солнца
Народ теперь что бы накачать мышцы и убрать лишний жир можно без спорта и диет, просто надел и забыл. Опробовал лично и результат удивил уже через
Мы в социальных сетях
Статистика
0  
Всего статей 2562
0  
Всего комментариев 1006
0  
Пользователей 199