Синхронизатор голоса WaveNet от DeepMind работает в Google Assistant

Несколько лет назад никто не знал про DeepMind, когда Google только приобрел его. В настоящий момент DeepMind это компания Alphabet, которая работает над проблемами машинного обучения. Например, как обыграть человека в игру Го, улучшая искусственный интеллект, как сделать компьютерную речь более реалистичной.

Успехи в области улучшения компьютерной речи вы можете посмотреть прямо сейчас, если у вас есть телефон Android или Google Home. Голосовой движок «WaveNet» теперь доступен в Google Assistant.

Google запустил голосовой помощник примерно год назад. Это можно назвать эволюцией существующей системы голосовых команд Google. Впервые голосовое управление Google было доступно не только на телефонах, но и в качестве управления вашим домом с помощью интеллектуального динамика Google Home. Голосовой помощник предоставляет доступ к данным поиска Google, управлению устройствами и домам, которые называли умными домами. Эта функция доступна на всех телефонах Android, работающих под управлением версии v6.0 или выше. Для этого нужно только начать и удерживать кнопку «домой». Таким образом, вам не нужно покупать Google Home, чтобы получить такого помощника.

Голосовая модель, которая использовалась в помощнике при запуске, была неплохой, но Google значительно улучшил версию голосов для английского и японского языков. DeepMind подтверждает, что это реализация WaveNet, которую она впервые продемонстрировала в 2016 году. В то время WaveNet был слишком трудным для использования его на потребительских устройствах. Однако чуть больше года спустя и это изменилось. Вы можете прослушать новый голос помощника на своем телефоне. Для этого вам нужно перейти в «Настройки»> «Установки»> «Помощник голоса». WaveNet — это форма параметрического преобразования текста в речь (TTS), которая является полностью синтетической. До недавнего времени практически все системы TTS основывались на системах типа конкатенативных языков. В конкатенативных системах TTS слова трудно было понять. К тому же системы такого типа были значительно дороже. Параметрические системы TTS дешевле, но он звучит еще более роботизированно.

DeepMind использовал свёрточную нейронную сеть, которая обучалась на большой выборке человеческой речи. Полученный речевой синтезатор может генерировать более правдоподобные речевые сигналы с нуля с более чем 16 000 выборок в секунду. Аудио от WaveNet лучше подбирает естественные перегибы и акценты. Это весьма удобно!

Новая модель WaveNet, работающая как часть Google Assistant, в 1000 раз быстрее, чем демоверсия. Она позволяет генерировать 20 секунд высококачественного звука всего за одну секунду. Вскоре DeepMind обещает полный отчет, в котором подробно раскроет все свои секреты в создании голосового управления.

Добавить комментарий


Защитный код
Обновить