Речь сгенерированная при помощи нейронной сети

Новая технология, разработанная подразделением Google DeepMind, WaveNet — приближает устную речь, сгенерированную компьютером, к естественному звучанию голоса человека.

Как правило, большая часть компьютерных синтезаторов используют заранее составленную базу данных коротких фрагментов речи, записанных человеком. В данном случае новые слова и предложения составляются из отрывков — так работают, в частности, голосовые помощники Siri и Alexa. Другие синтезаторы в свою очередь генерируют речь прямо на компьютере, в следствии чего возникает ощущение что текст произносит робот, а не человек.

WaveNet — это разработка совершенно иного типа, она объединяет достоинства предыдущих методов генерирования речи. В Методе используется обучение нейронных сетей с использованием фрагментов реальных человеческих голосов. Это позволяет имитировать голос на 50% лучше нынешних технологий.

Результат впечатляет. Сгенерированная речь звучит уже действительно по-человечески. Конечно, отличия есть, но они уже не такие значительные, как в других случаях.

Единственная проблема этого метода в том, что требуется большое количество машинного времени и ресурсов. Система, которая может генерировать внятную человеческую речь, должна быть очень мощной. Тем не менее, в тестах на определение «человек или машина» половина добровольцев, прослушавших аудио сэмпл, созданный машиной, считали, что это говорит человек.

Исследователи из DeepMind уже загрузили в систему более 44 часов речи. Звуки, слова и фразы загружаемые в систему принадлежат 109 участникам эксперимента. WaveNet может смоделировать речи практически каждого из участника эксперимента.

Речь становится все более важным способом взаимодействия человека с техникой: от смартфонов до автомобилей. Как сообщил на прошлой неделе международный директор магазина Google Play Марк Беннетт, 20% поисковых запросов к Google на мобильных устройствах делаются при помощи голоса, а не текста.