|  
Главная | Карта сайта | Контакты | |
 
| Продукты | Решения | Новости | Технологии | Компания | Демонстрации

  ПРОДУКТЫ

 

 


Транскрипция голоса


  Загрузить документацию
Datasheet (34 K)

Обзор

Автоматический транскриптор голоса используется для проведения фонемной транскрипции записи речевого сигнала неизвестного голоса и идентификации его языка к принадлежности к одному из языков существующих в базе системы.

Система состоит из набора модулей:
  • Модуль дикторо независимого распознавания фонем;
  • Модуль идентификации языка принадлежности речевого сигнала к одному из существующих в базе системы языков.
Модуль распознавания фонем разработан на основе скрытых Марковских моделей (HMMs) и модели длительности фонем.

Модуль идентификации языка основан на так называемой “double bi-gram” лингвистической модели языка. “Double bi-gram” модель позволяет отследить в речевом сигнале вероятность переходов между фонемами, с дальнейшим парном ее сравнении с “матрицей языка“, хранимой в системе для каждого языка. “Матрица языка“ состоит из вероятностей переходов между фонемами данного языка, и для каждого языка она уникальна.

Система эффективно может использоваться:
  • Для автоматической идентификации неизвестного голоса по фонограммам телефонных переговоров;
  • В системах контроля, где важно достоверно точно идентифицировать язык говорящего диктора и сделать фонетическую транскрипцию его голоса.

В настоящее время модуль идентификации языка обучен для английского языка. В ближайщем будущем планируется обучить для немецского, французского, китайского, японского и русского языков.

Достоинства

  • Операции с низким уровнем SNR;
  • Быстрая адаптация к канальным искажениям и внешним шумам;
  • Дикторонезависимость;
  • Надежность распознавания фонем ~ 75% для речевой базы TIMIT;
  • Надежность идентификации языка ~ 95% для речевого сигнала длительностью не менее 10 сек.;
  • Простота встраивания в целевое приложение.

Требования к сигналу
  • Формат сигнала: 16-bits linear;
  • Частота оцифровки: 8 kГц;
  • Отношение сигнал-шум (SNR), не менее 10 db;
  • Полоса частот сигнала: 300-3500 Гц или лучше.

Доступность
  • Библиотека для MS Windows;
  • PC демо для MS Windows по требованию;
  • Портируемость кода на DSP, ARM или RISC платформы.

Для дополнительной информации Отправьте запрос.