Скептики посрамлены. Сколковский пульт голосового ДУ сделан и продаётся — 12 тысяч рублей одна штука

отметили
50
человек
в архиве
Скептики посрамлены. Сколковский пульт голосового ДУ сделан и продаётся — 12 тысяч рублей одна штука
Резидент «Сколково» Speereo смог выпустить пульт Speaky — готовое устройство программируется и работает универсальным пультом умного дома или просто бытовой техники.

источник: roem.ru

Speaky работает со слитной речью и распознает любые команды пользователя — любой длины и в любом количестве. Пользователь больше не должен запоминать команды, придуманные кем-то, но создает собственные.

Проект пульта не смог собрать необходимые для начала производства $176,470 на Indiegogo.com. С 13 января 2014 проморолик Speereo Speaky посмотрели лишь 311 раз. При этом пульт в своё время попал в Lenta.ru, Forbes и на страницы других изданий. 19 января 2015 Speaky попал в продажу. Один пульт стоит 12 тысяч рублей.

Производством занимается Петербургский завод «Авангард», процент локализации в производстве устройства составляет более 60%.

Производитель сравнивает свой пульт с моделями Philips, Logitech — русский пластик выглядит явно по-другому, но и умеет больше.
Добавил X86 X86 28 Января 2015
проблема (1)
Комментарии участников:
Fireleo
+5
Fireleo, 28 Января 2015 , url
Спутниковую тарелку тяжелее установить.
норд
+9
норд, 28 Января 2015 , url
Вы уже сделали обзор устройства? Определили слабые и сильные стороны, проверили функции и протестировали их вместе с людьми, слабо понимающими в технике? Есть сравнения с аналогичными девайсами?
Или так просто сказали «горизонт завален»?
горизонт заваленисточник: i63.fastpic.ru

KS5
+3
KS5, 28 Января 2015 , url
Если вы знакомы с технологией распознавания речи, то это устройство похоже является прорывом — слитная речь, да еще неограниченной длины, такого даже Apple в своем Siri так и не смогли допилить, как и Google с MS и это несмотря на их бюджеты

См ссылку на сайт
buriy
0
buriy, 28 Января 2015 , url
Увы, прорывом не является, т.к. при понимания 100 команд о «слитности речи» можно вообще даже и не думать — это вообще не проблема, а лишь маркетинговый трюк.
Данный «прорыв» работал ещё в windows95 для распознавания команд типа «свернуть окно», это всего лишь его адаптация под копеечный микропроцессор и DSP, но почему-то по цене смартфона.
P.S. Speereo занимается не высококачественной обработкой речи, а оптимизацией обработки речи по скорости. Это две разные вещи.
buriy
0
buriy, 28 Января 2015 , url
P.P.S. Сам занимаюсь распознаванием речи. Вот самая клёвая работа 2014 года по теме:
https://gigaom.com/2014/12/18/baidu-claims-deep-learning-breakthrough-with-deep-speech/ — научпоп, arxiv.org/pdf/1412.5567.pdf — сама работа.
KS5
+1
KS5, 28 Января 2015 , url
Уважаемый, если вы действительно
Сам занимаюсь распознаванием речи. Вот самая клёвая работа 2014 года...
то должны понимать, что в данном случае вся фишка — в распознавании именно русскоязычной речи, а это — несколько сложнее (англоязычную речь вполне сносно и уже давно «понимает» тот же Siri от Apple).

P.S. Если же вы все-таки участвовали в разработке подобных систем — было бы крайне интересно ознакомиться с последними веяниями в технологии распознавания русской речи (ссылки, если можно). Спасибо заранее.
buriy
0
buriy, 28 Января 2015 , url
Собственно, распознавать саму русскую речь ненамного сложнее (фонем примерно столько же), сложнее именно то, что на выходе системы не 500 тыс. словоформ, как в английском, а 5 млн словоформ, которые ещё нужно согласовывать по родам, числам, падежам — сложнее лингвистическая модель.
У Speereo есть разработка, которая делает распознавание на 1 млн слов. Они оптимизировали систему по скорости, что она работает даже на слабеньких компьютерах. Но с качеством на большом словаре у них, естественно, беда. Особенно, с качеством в присутствии шума — а это и есть направление прогресса в наше время.
Как вы понимаете, в случае с разработкой пульта, распознающего 100 команд, обо всей этой сложности говорить не приходится, лингвистической модели в таком пульте просто нет.
buriy
0
buriy, 28 Января 2015 , url
Вот ЦРТ, который этим занимается уже 15 лет: www.speechpro.ru/
Вот аудио-видео распознавание (ещё слабенькое, на уровне обычного распознавания от гугла, но ребята стараются): realspeaker.net/ru/
А вот обзор Dragon Dictation от 2013 года
www.ferra.ru/ru/apps/fun/2013/03/18/dragon-dictation---raspoznavanie-golosa-v-tekst.html#.VMjvLDWlilM
Я подобную систему на 100 слов для русского языка пробовал ещё в 2005м году, а для команд — в 1998м году, заметьте, команды можно было диктовать на любом языке.
Ну и гугл свой «окей, гугл» дотачивает, вполне сносно работает для распознавания тех же поисковых запросов голосом. Заметьте, там словарь — миллионы слов.
Все эти работы просто шикарны по сравнению с этой поделкой от Speereo.
www.speereo.com/page_technology.html?language=ru
Дело в том, что у голосовых команд есть одна проблема: вы два раза не повторяете дословно одну и ту же команду: вы меняете интонации, растягиваете или сокращаете звуки.
Поэтому «точность 99.7%» и «точность 97%» может быть только при воспроизведении wav-файлов со звуком, и в достаточно тихой комнате. Если будет громко орать телевизор, которым вы пытаетесь управлять голосом — качество распознавания существенно упадёт.
buriy
0
buriy, 28 Января 2015 , url
Ещё раз табличка про качество распознавания речи в условиях шумов:
https://gigaom2.files.wordpress.com/2014/12/baidu1.jpg?quality=80&strip=all
WER — процент ошибок распознавания слова в спонтанной речи на английском языке, словарь 500 тысяч слов.

В общем, без учета существования шумов, получается следующий алгоритм работы со звуком:
«Так, все посторонние — заткнитесь и перестаньте ходить, бегать, стучать вилками, слушать музыку в наушниках, говорит — один, остальные замерли. Уважаемый пользователь, здравствуйте. Какая будет ваша команда?». В общем, прогресс есть, но пока что с речью не всё идеально.
Профессионалы, работающие с системами распознавания, покупают спец. микрофоны, т. наз. «microphone array», которые устойчивы к шумам, потому что программно настраиваются на звук в одной области. Так же поступает Xbox, в котором тоже стоит microphone array. Ну а у журналистов микрофоны обмотаны поролоном.
Константин Ламин
+1
Константин Ламин, 28 Января 2015 , url
насмешили. Теперь о том как есть на самом деле, а не в ваших фантазиях
1. Словарь системы НЕОГРАНИЧЕН
2. Это система распознавания а не сравнения с образцом
3. У ЦРТ нет работающей хоть как-то системы распознавания, они занимаются шумоочисткой и идентификацией, у realspeaker используется чужой движок, который только дополняется уровнем уточнения по движению губ.
4. По точности распознавания (и особенно в шумах) Speereo N1 в мире. Если взять любую тысячу команд и надиктовать её разными дикторами (показательный пример) и протестировать с различными движками то, Speereo API 99,4%, Google API 72%, Nuance 60%, Apple 56%. В шумах с SNR до 5 вообще никто не работает, а у нас 97%. Так что всё с точностью до наоборот. Что кстати косвенно подтверждает исследование и хотелки Baidu. Но нас они не тестировали, в отличие от Intel и Toyota.
5. Массив микрофонов стоит дорого, поэтому используется микрофон в пульте, что привычней и удобней. Профессионалы используют массив, когда их ASR превращается в тыкву, пытаются поднять SNR.
6. Именно поэтому ни американцы ни корейцы не могут выпустить такой пульт с таким набором функций, тупо ошибается на каждой второй фразе. ТО, что поставляется вместе со SmartTV стырено у нас по идее, но не работает.
7. На смартфонах используют Google и Apple (слегка оттюненный Nuance на самом деле), в задаче управления БТ — ошибки на каждой второй фразе. Да и рулить телевизором со смартфона не всем удобно. Тоже мимо.
Учите матчасть, специалист.
buriy
0
buriy, 29 Января 2015 , url
1. Словарь системы НЕОГРАНИЧЕН
Ну конечно же неограничен! 1000 *произвольных* команд с *произвольными* словами распознавать может. Фантастика!

>4. По точности распознавания (и особенно в шумах) Speereo N1 в мире. Если взять любую тысячу команд и надиктовать её разными дикторами (показательный пример) и протестировать с различными движками то, Speereo API 99,4%, Google API 72%, Nuance 60%, Apple 56%.
Вот я об этом именнно и говорил. 1000 слов всего. Зато любых. Скептики посрамлены!
А для 500 тыс слов какая у вас, говорите, точность распознавания?
Надиктуйте слова от типичного пользователя: код, кот, ком, кон.
Получите 99% с типичными кухонными шумами — признАю свою неправоту.

>3. У ЦРТ нет работающей хоть как-то системы распознавания, они занимаются шумоочисткой и идентификацией, у realspeaker используется чужой движок, который только дополняется уровнем уточнения по движению губ.
Ок. С чужим движком они могут более-менее диктовку делать, а вы с какой точностью можете?

>4. В шумах с SNR до 5 вообще никто не работает, а у нас 97%
На каком количестве слов? Опять 1000?

>5. Массив микрофонов стоит дорого, поэтому используется микрофон в пульте, что привычней и удобней. Профессионалы используют массив, когда их ASR превращается в тыкву, пытаются поднять SNR.
И я о том же.

>6. Так что всё с точностью до наоборот. Что кстати косвенно подтверждает исследование и хотелки Baidu. Но нас они не тестировали, в отличие от Intel и Toyota.
Dataset доступен (хотя и не открыт), протестируйтесь и выложите результаты, вместе посмотрим. Мне можете результат на burchik@gmail.com отправить.

Вы не о том спорите, понимаете. Вас поняли, что вы общую задачу распознавания непрерывной речи решили лучше мировых фирм. А вы решили задачу распознавания ограниченного количества произвольных команд с высоким качеством.

Я не спорю, что задачу хорошего распознавания вы тоже возможно решили неплохо. Ну тогда сравнимые метрики в студию, например, те же, что в работе Baidu.
Ведь в задаче распознавания большого количества слов проблем с языковой моделью больше, чем с моделью фонем, и тут ваша точность распознавания фонем уже не считается победой.
Константин Ламин
0
Константин Ламин, 31 Января 2015 , url
www.slideshare.net/Speereo/speereo-42043148
https://drive.google.com/file/d/0Bxoydfk94mGYazc3S01aMFpCT2s/view?usp=sharing
Изучайте.
По поводу словаря. Словарь неограничен (у нас свой транскриптор) и из него динамически выбирается до 10 000 фраз для распознавания.
В задачах, где не нужны миллионы словоформ, т.е. в задачах управления бытовой техникой наш па технология дает 99,9 %, а другие (несмотря на миллионы слов и крутизну в ваших глазах) — нет.
Это реальность
buriy
0
buriy, 2 Февраля 2015 , url
Ну, я же так и сказал: нормальная нишевая технология, что-то типа допиливания Sphinx, применения есть, но крайне ограничены: у пилотов истребителей или при заполнении формы во врачебной практике…
Увы, подход с HMM не масштабируется на большие словари, и вы прекрасно это знаете, только упорно используете термин «неограниченный словарь», имея в виду «небольшой словарь из произвольно выбранных слов».
Эх, где вы были в 90х!..
Сейчас потребители того же Cubic-а, Amazon Echo или любой другой системы для умного дома уже не обойдутся тысячей слов, им хочется, чтобы с ними по-человечески говорили…
KS5
0
KS5, 29 Января 2015 , url
Добавлю к вышесказанному Константином Ламиным, что указанное вами ПО Dragon опробовано мной лично в 2014 году (iOS, iPAD3 ). Мягко говоря — не впечатлило. Объективности ради, зашел сейчас в App Store, посмотрел отзывы — ничего не изменилось. Да и позиционирует разработчик ПО лишь для надиктовки SMS и электронной почты.
P.S. Тестирую подобные системы давно, помните раньше продавались поделки типа «Горыныч» и т.п.? Т.е. общими сведениями и тенденциями владею. ))
buriy
0
buriy, 29 Января 2015 , url
Ну так вы определитесь: вы считаете, что у Speereo есть что-то лучше, или нет?
KS5
0
KS5, 30 Января 2015 , url
Чтобы не быть голословным, планирую сначала опробовать технологию Speereo.

А вот ссылка на отчет о тестировании пульта Speaky.
devl547
+4
devl547, 28 Января 2015 , url
Вот только компания зарегистрирована в Лондоне ещё в 98 году.
Отрадно, что R&D и производство у них в основном наше, но остальное:

Компания Speereo уже 15 лет занимается распознаванием речи
В основе пульта лежит «облачная» система распознавания, созданная в стенах Speereo

Как-то не впечатляет. Помнится, ещё в 2002-2003 году игрался с голосовым управлением и набором текста.
Anton-f
+6
Anton-f, 28 Января 2015 , url
12 тысяч дорого, до 3 нужно снижать цену.
devl547
0
devl547, 28 Января 2015 , url
12 тысяч дорого, до 3 нужно снижать цену.

Железа там аккурат на 2-3 тысячи.
Обработка голоса один фиг у них на серверах происходит.
KS5
0
KS5, 28 Января 2015 , url
Железа там аккурат на 2-3 тысячи.
Улыбнуло. Вы об этом разработчикам Apple еще скажите...))
KS5
0
KS5, 28 Января 2015 , url
По моей ссылке (выше) пройдите, там за три тысячи какой-то простенький Логитеч лежит )) (см. сравнительные таблицы устройств):
1 частьисточник: speaky.speereo.com
2 частьисточник: speaky.speereo.com
Anton-f
0
Anton-f, 28 Января 2015 , url
Ну да. Вот с ценой около 3000 можно будет конкурировать.
Но обратите внимание — только у российского и у того, дешевого, за 3 000 рублей который — нет экрана. А ведь это важно.
KS5
0
KS5, 28 Января 2015 , url
А зачем там экран? Там голосовой вывод (сообщений) есть. См. внимательнее табличку.
И вообще в нем много чего интересного наворочено, чего у конкурентов никогда не будет, т.к. все известные фирмы строго все фичи «дозируют» по модификациям.
Константин Ламин
+1
Константин Ламин, 29 Января 2015 , url
Тачскрин как вариант ухода от десятков кнопок. Это потому что у них голосового управления нет. Тачскрин имеет недостатки: дорого, вес, жрет батарейку и процессор, неудобно нажимать «наощупь» (вернее совсем никак), надо смотреть думать что где, легко промазать мимо кнопки. Нормальные кнопки удобнее. Для самых частых функций мы их и оставили основные. А вот для более редких но многочисленных — речевые команды. В итоге очень удобно.
Константин Ламин
+1
Константин Ламин, 29 Января 2015 , url
И вот еще, ценник ползет на сопоставимые устройства не только из-за экрана. Такие функции как «большое количество поддерживаемых устройств», «макросы», «ввод кодов непосредственно с родного пульта» — сильно удорожают устройство и доступны только в старших версиях. Маркетинг, однако.


Войдите или станьте участником, чтобы комментировать