Российская технология распознавания речи группы компаний ЦРТ признана лучшей в мире

отметили
48
человек
в архиве

Технология диаризации и распознавания речи, созданная группой компаний ЦРТ (входит в экосистему Сбербанка), признана лучшей на международном конкурсе CHiME Speech Separation and Recognition Challenge (CHiME-6). Высокое признание технология получила за распознавание английской речи с нескольких микрофонов в условиях естественной обстановки. Группа ЦРТ показала наилучшие результаты тестов в самой сложной задаче конкурса, значительно превзойдя конкурентов.

Организаторы CHiME предлагают сильнейшим командам со всего мира различные задачи, которые с каждым новым конкурсом усложняются. На CHiME-5, конкурсанты решали так называемую cocktail party problem — распознавание спонтанной речи нескольких дикторов в условиях частичного наложения речи и шума, то есть в типичной ситуации общения на вечеринке. Этот блок требовал работы с сегментированной (уже выделенной) речью. Новизна и особенность CHiME-6 заключалась в том, что впервые в истории конкурсантам было предложено решить аналогичную проблему, но работая с несегментированной речью, при этом — с перекрытием речи до 20%. Именно на решении этой, самой сложной, задачи сфокусировалась команда ЦРТ.

Записи для конкурса были сделаны на 20 ужинах в реальных домах на вечеринках, где люди готовили, ели, мыли посуду, свободно и эмоционально общались, шутили и смеялись. Для распознавания здесь сложны одновременная речь 2-4 человек, реверберация и интенсивный шум – звон приборов, льющаяся из крана вода, гул кондиционера, шаги, смех.
Цель участников — создать систему распознавания, которая «прослушает» записи и выдаст полную расшифровку с наименьшим количеством ошибок. Команда группы ЦРТ заняла первое место:

Для этого был разработан уникальный алгоритм выделения речевых сегментов для каждого из дикторов, а также создан комплекс из нескольких нейронных сетей разных архитектур, различающий разных дикторов, реализующий бимформинг (эффект нацеливания микрофонов на конкретного диктора) и непосредственно распознающий речь.
Кроме группы ЦРТ, в конкурсе участвовали научные команды со всего мира: и известные IT-компании — Toshiba и ряд других, и крупные университеты-лидеры в области речевых технологий: Университет Джонса Хопкинса (США), Университет науки и технологии Китая, Технический университет Брно (Чехия) и др.

«Группа ЦРТ уже 30 лет создает, развивает и совершенствует речевые технологии. В этом году на CHiME-6 впервые в истории стояла самая сложная задача — работа с несегментированной речью. Качественное распознавание речи разных дикторов, при этом перебиваемой шумами, позволяет выводить сервисы из разряда инновационных в повседневное применение, совершенствуя бизнес и упрощая нашу жизнь. Так, качественная обработка несегментированной речи позволит, к примеру, вести грамотное протоколирование совещаний, где говорит сразу несколько спикеров, а интеллектуальная речевая аналитика позволит автоматизировать работу контактных центров: распознавать спонтанную речь, классифицировать голосовые обращения, выявлять соблюдения скрипта, делать выводы об удовлетворенности клиента и качестве диалога, а значит — существенно оптимизировать работу современных контакт-центров ретейла, e-commerce и телеком. Признание группы ЦРТ в этом международном конкурсе — не просто наша личная победа, но знаковое событие для всей индустрии, и мы рады выводить решение задач в области распознавания речи, над которыми работают сильнейшие команды со всего мира, на новый уровень, достойно представляя свои ключевые компетенции на глобальном рынке», — комментирует генеральный директор группы компаний ЦРТ Дмитрий Дырмовский.

«Задача CHiME — обеспечить обмен опытом сильнейших команд со всего мира и продвинуть вперед решение глобальных задач в области распознавания речи. И мы приветствуем достижения группы компаний ЦРТ в этой области», — поделился Джон Баркер, представитель Университета Шеффилд (Великобритания), участник организационного комитета CHiME Challenge.

Группа компаний ЦРТ (входит в экосистему Сбербанка) — глобальный разработчик интеллектуальных речевых технологий, распознавания лиц, технологический эксперт в области искусственного интеллекта и машинного обучения. Одна из немногих компаний в мире, которая создает и развивает обе биометрические модальности: лицо и голос. Технологии выявления подделок голоса и распознавание речи от группы ЦРТ занимают лидирующие позиции в мировых рейтингах NIST, ASVspoof Challenge, VOiCES, CHiME Challenge. Решения ЦРТ востребованы в 70 странах мира.

Добавил precedent precedent 7 Мая 2020
Комментарии участников:
precedent
+1
precedent, 7 Мая 2020 , url

Отловите Грефа, граждане

у людей есть потрясающий программный продукт, среди прочих 

Voice2Med: программа для голосового заполнения медицинской документации.

А у нас, реаниматологи сутками не спят, после смены вручную заполняют медкарточки больных COVID-19.  

Так трудно медикам помочь?...

oleg_ws
0
oleg_ws, 7 Мая 2020 , url

Не соглашусь. В Москве системы распознавания речи ввели в Мосэнергосбыте и Правительства Москвы (495-7777777) — так теперь туда позвонить очень тяжело. Вместо тонального донабора идут попытки распознавания. Так что-то распознать системе удается разве что с десятой попытки. В большинстве случаев звонивший просто прекращает свои попытки.

precedent
+1
precedent, 7 Мая 2020 , url

Этих технологий — миллион. Не согласится он.  Кто Вам сказал, что используется технология ЦРТ?

buriy
+1
buriy, 9 Мая 2020 , url

Даже у одного ЦРТ штук 5 разных технологий для распознавания речи :)
В среднем — они не отличаются от конкурентов.
А в конкурсе участвовала конечно совсем отдельная разработка, сделанная специально под конкурс.

X86
0
X86, 8 Мая 2020 , url

 Я иногда с Алисой общаюсь, она меня прекрасно понимает. Иногда даже больше, чем я.

oleg_ws
0
oleg_ws, 8 Мая 2020 , url

Может быть и есть нормальные системы, но что-то их в телефонных системах не ставят. Откаты что ли не хотят платить?

buriy
+1
buriy, 9 Мая 2020 , url

>Российская технология распознавания речи группы компаний ЦРТ признана лучшей в мире

Такой заголовок вводит в заблуждение, конечно. Технология распознавания спонтанной речи массивом из 4 микрофонов победила в закрытом конкурсе. От этого она не становится «лучшей в мире» по всем метрикам. (Кстати, на второй задаче конкурса у них то ли 3е, то ли 2е место).
 
Поэтому более правильно будет так:
Российская технология распознавания английской речи для умных колонок от группы компаний ЦРТ признана лучшей на одной из задач международного конкурса.
Согласитесь, что смысл совсем другой?
В общем, порадуемся за ЦРТ.
 


Войдите или станьте участником, чтобы комментировать