Искусственный интеллект научился распознавать речь человека в толпе

Компания Google представила уникальную разработку, позволяющую на расстоянии идентифицировать говорящего человека и распознавать его речь. Программа успешно прошла тестирование и показала высокую эффективность вычленения отдельных человеческих реплик при наличии в помещении посторонних шумов и звуков. Система способна дистанционно снимать данные с указанной персоны в ситуациях, когда в разговоре участвует сразу несколько собеседников.

В программе используется идентификация голоса по лицу и мимике говорящего на основе нейронной сети. Искусственный интеллект анализирует звуковую информацию и сопоставляет ее с изображением, которое захватывает видеокамера. При нахождении соответствий алгоритм связывает речь человека с конкретным образом и создает для персоны отдельный акустический профиль. После этого включается режим взаимного дополнения аудио- и видеоинформации. Такой подход позволяет распознавать реплики, если рот человека на какое-то время будет прикрыт рукой или посторонним предметом. Если же все лицо находится в поле зрения камеры, успешно распознаваться могут и реплики, произнесенные шепотом.

Для достижения эффективной работы системы изобретателям пришлось обучить искусственный интеллект отличать мимику, характерную для обычного разговора, от движений лица поющих или смеющихся людей. А вычленение уникальных акустических профилей позволило добиться результата при распознавании реплик конкретного человека, говорящего или поющего в унисон с другими.

Инженеры из компании Google уверены, что их разработка найдет применение в разных сферах. Умение определять говорящего в толпе может использоваться для создания или модернизации современных систем безопасности в местах большого скопления людей. Очищенный от посторонних шумов голос собеседника может передаваться на слуховой аппарат слабослышащих людей, что облегчит для них процесс коммуникации. Широкое применение технология найдет и в совершенствовании собственных сервисов Google. Программа будет активно использоваться для улучшения систем голосового управления, защиты персональных данных и для расширения возможностей видеочатов, включая групповые конференции.