Комментарии участников:
В основе технологии — две нейросети глубокого обучения. Первая преобразовывает текст в спектрограмму (изображает аудиочастоты в зависимости от времени). Затем спектрограмму отправляют в нейросеть WaveNet, которая и создает необходимые звуки.
Система способна обрабатывать сложные слова и имена, а также изменять интонацию в зависимости от пунктуации.В Google разместили аудиозаписи с голосом системы на своем сайте. Как отмечает издание, сейчас у системы есть недостаток — ее обучали подражать женскому голосу. Чтобы система начала имитировать голос мужчины или другой женщины, Google придется тренировать систему заново.