Искусственный интеллект Google совершил прорыв в синтезе речи

отметили
23
человека
в архиве
Искусственный интеллект Google совершил прорыв в синтезе речи
Подразделение Google DeepMind, занимающееся разработками в области искусственного интеллекта, сообщило о достижении прорыва в программном синтезе человеческого голоса. Новая технология — WaveNet — приближает устную речь, сгенерированную компьютером, к естественному звучанию голоса человека.

Большая часть компьютерных синтезаторов, как правило, используют заранее составленную базу данных коротких фрагментов речи, записанных человеком. Из отрывков составляются новые слова — так работают, в частности, голосовые помощники Siri или Alexa. Недостаток этого метода заключается в том, что впоследствии изменить звучание голоса очень сложно. Другие синтезаторы используют более гибкий подход, генерируя речь прямо на компьютере, однако возникает ощущение, что текст произносит робот, а не человек.

WaveNet — это разработка совершенно иного типа. Она учится на отдельных звуковых волнах, что позволяет ей имитировать голос на 50% лучше нынешних технологий. Как подтвердила фокус-группа, синтезированная WaveNet речь на английском и китайском языках звучит естественнее, чем любая из существующих программ Google для преобразования текста в речь.

Речь становится все более важным способом взаимодействия человека с техникой: от смартфонов до автомобилей. Как сообщил на прошлой неделе международный директор магазина Google Play Марк Беннетт, 20% поисковых запросов к Google на мобильных устройствах делаются при помощи голоса, а не текста.

WaveNet — слишком молодая технология для коммерческого применения на Android-смартфонах, т.к. ей нужны огромные вычислительные ресурсы для синтеза речи. Тем не менее, за дальнейшей судьбой WaveNet наверняка будут пристально следить Amazon (Alexa), Microsoft (Cortana), Apple (Siri) и другие разработчики голосовых ассистентов.

Британская DeepMind, которая была куплена интернет-поисковиком в 2014 году за $533 миллиона, стала широко известна весной после обыгрыша корейского чемпиона в го. Компьютерная программа AlphaGo, разработанная инженерами DeepMind, одолела профессионального игрока Ли Седоля в четырех партиях из пяти.

Источник: Bloomberg
Добавил suare suare 13 Сентября 2016
Комментарии участников:
Ян Зовём
+1
Ян Зовём, 13 Сентября 2016 , url
Круто конечно, но всё же хотелось бы знать, когда с тобой говорит бот, а не живой человек.
suare
0
suare, 13 Сентября 2016 , url
Даже сегодня для этого требуется определенная подготовка, а совсем скоро, ещё при Вашей жизни это станет невозможным. В отдельных областях это уже произошло, больше того, для защиты от ботов «человеческие» сети изобретают всяческие" приблуды" и не всегда успешно. Боты побеждают и за ними будущее. Уже сегодня Вы без них обойтись в сетях не в состоянии.
efys
+1
efys, 13 Сентября 2016 , url
В не далёком будущем обмен информации будет производится не с помощью привычных нам специализированных форматов данных, а через речь. Боты будут созваниваться друг с другом и болтать. Энергетически это крайне неэффективно, зато очень гибко.
suare
0
suare, 13 Сентября 2016 , url
Ян Зовём
+1
Ян Зовём, 13 Сентября 2016 , url
о чем и сожалею.

А что значит в сети обойтись не в состоянии? Вы к ботом отнесли поисковые роботы, что по сайтам шарятся?
suare
0
suare, 13 Сентября 2016 , url
А насколько хватает Вашего терпения, чтобы просмотреть список поисковой выдачи по термину?
Результатов: примерно 20 500 000 (0,21 сек.)
На десять строчек из 20 милионов ссылок, на 20, на 50? Про новостные агрегаторы я и не говорю. Кроме того,
Как сообщил на прошлой неделе международный директор магазина Google Play Марк Беннетт, 20% поисковых запросов к Google на мобильных устройствах делаются при помощи голоса, а не текста.
Будущее уже наступило и смартфон, подключённый к сети стал «умнее» большинства из нас.

Мы просто не можем больше без него обойтись, если не желаем потерять конкурентные преимущества в любом виде деятельности, включая наш, новостной.
Ян Зовём
+1
Ян Зовём, 13 Сентября 2016 , url
ну так я и думал, что вопрос в терминологии.

Мне кажется это слишком широко, когда и поисковая машина бот. И голосовой интерфейс — бот.


Войдите или станьте участником, чтобы комментировать