Дистрибутор сетевого
и телекоммуникационного оборудования
Наш телефон:
+7 495 789-65-65

Еще раз о распознавании русской речи

26 марта 2004 г.telephony
Леонид Кузьмин

    На организованной компанией CompTek практической конференции "Реализация новых услуг в сетях SS7. Технологии, решения, обмен опытом" проведена демонстрация распознавания русской речи в телефонных приложениях.

    Для демонстрации использовалось приложение заказа авиабилетов. Система распознавания русской речи отработала с высокой точностью. Наименования городов и дата вылета, а также наименования московских улиц были опознаны безошибочно. Трехзначные числа в привычном для нас произношении система также понимает (217 – это "двести семнадцать", а не "2 - 1 - 7"). Представители компании CompTek утверждают, что точность распознавания даже в достаточно шумном помещении достигает 98%. Также было заявлено, что в ходе тестирования в речь вносился иностранный акцент, но система и в этом случае поняла "клиента". То есть она является "дикторонезависимой".

    Интересным свойством системы является возможность ее перебивать (поддержка функции barge-in). То есть, если звонящий уже знает тематику вопроса, то он может не дослушивать его до конца, тем самым экономя время.

    Для распознавания речи использовался программный продукт SpeechPearl и специализированные платы семейства DM компании Intel. В состав SpeechPearl входят несколько программных модулей:

    SpeechXpert – среда для разработки лексических блоков
    Transcription Station – средство протоколирования диалогов
    SpeechPearl Evaluation – инструмент оценки качества работы системы
    SPTrain – средство создания "тренируемых" языковых моделей
    SpeechPath – контроллер распределенных ресурсов, выполненный в клиент-серверной архитектуре на базе стека протоколов TCP/IP.

    Важным свойством SpeechPearl является поддержка фирменной технологии Intel, обеспечивающей обработку непрерывного потока речи (Continuous Speech Processing, CSP). Когда абонент общается с системой, то входящий сигнал представляет собой смесь голоса, эха и шума в линии. CSP берет на себя функции обработки такого сигнала на сигнальных процессорах плат Intel, отправляя на хост-процессор "чистый" речевой фрагмент, готовый к распознаванию.

    CSP выполняет следующие функции:

    одновременное воспроизведение и запись звука на каждом из каналов (полнодуплексный режим работы)
    эхоподавление
    VAD (Voice Activity Detection) – определение начала поступления полезного звукового сигнала в линию
    буферизацию речевого сигнала
    сигнализацию голосового события
    Voice-activated streaming/recording – отправление данных на хост-процессор только при наличии голоса в канале.

    Говоря о стоимости ПО для распознавания речи, руководитель отдела компьютерной телефонии CompTek Игорь Чиж заявил, что она зависит от размера словаря и количества определяемых категорий. При словаре в 50 слов стоимость составляет 240 Евро за 1 категорию. Увеличение словаря по одной категории в 10 раз увеличивает стоимость в 2 раза и т.д. То есть определитель московских улиц из 5 тыс. слов будет стоить 960 Евро (240*2*2).

    ПО SpeechPearl и специализированные платы от Intel являются "полуфабрикатом" для создания систем распознавания речи. Сценарий и словарь должен разрабатывать сам пользователь.


Источник: Телеком-Форум.