CompTek - Еще раз о распознавании русской речи

Войти

Личный кабинет

Еще раз о распознавании русской речи

26 марта 2004 г.telephony

Леонид Кузьмин

На организованной компанией CompTek практической конференции "Реализация новых услуг в сетях SS7. Технологии, решения, обмен опытом" проведена демонстрация распознавания русской речи в телефонных приложениях.

Для демонстрации использовалось приложение заказа авиабилетов. Система распознавания русской речи отработала с высокой точностью. Наименования городов и дата вылета, а также наименования московских улиц были опознаны безошибочно. Трехзначные числа в привычном для нас произношении система также понимает (217 – это "двести семнадцать", а не "2 - 1 - 7"). Представители компании CompTek утверждают, что точность распознавания даже в достаточно шумном помещении достигает 98%. Также было заявлено, что в ходе тестирования в речь вносился иностранный акцент, но система и в этом случае поняла "клиента". То есть она является "дикторонезависимой".

Интересным свойством системы является возможность ее перебивать (поддержка функции barge-in). То есть, если звонящий уже знает тематику вопроса, то он может не дослушивать его до конца, тем самым экономя время.

Для распознавания речи использовался программный продукт SpeechPearl и специализированные платы семейства DM компании Intel. В состав SpeechPearl входят несколько программных модулей:

SpeechXpert – среда для разработки лексических блоков

Transcription Station – средство протоколирования диалогов

SpeechPearl Evaluation – инструмент оценки качества работы системы

SPTrain – средство создания "тренируемых" языковых моделей

SpeechPath – контроллер распределенных ресурсов, выполненный в клиент-серверной архитектуре на базе стека протоколов TCP/IP.

Важным свойством SpeechPearl является поддержка фирменной технологии Intel, обеспечивающей обработку непрерывного потока речи (Continuous Speech Processing, CSP). Когда абонент общается с системой, то входящий сигнал представляет собой смесь голоса, эха и шума в линии. CSP берет на себя функции обработки такого сигнала на сигнальных процессорах плат Intel, отправляя на хост-процессор "чистый" речевой фрагмент, готовый к распознаванию.

CSP выполняет следующие функции:

одновременное воспроизведение и запись звука на каждом из каналов (полнодуплексный режим работы)

эхоподавление

VAD (Voice Activity Detection) – определение начала поступления полезного звукового сигнала в линию

буферизацию речевого сигнала

сигнализацию голосового события

Voice-activated streaming/recording – отправление данных на хост-процессор только при наличии голоса в канале.

Говоря о стоимости ПО для распознавания речи, руководитель отдела компьютерной телефонии CompTek Игорь Чиж заявил, что она зависит от размера словаря и количества определяемых категорий. При словаре в 50 слов стоимость составляет 240 Евро за 1 категорию. Увеличение словаря по одной категории в 10 раз увеличивает стоимость в 2 раза и т.д. То есть определитель московских улиц из 5 тыс. слов будет стоить 960 Евро (240*2*2).

ПО SpeechPearl и специализированные платы от Intel являются "полуфабрикатом" для создания систем распознавания речи. Сценарий и словарь должен разрабатывать сам пользователь.

Источник: Телеком-Форум.