|  
Главная | Карта сайта | Контакты | |
 
| Продукты | Решения | Новости | Технологии | Компания | Демонстрации

  ПРОДУКТЫ

 

 


НОВОСТИ

10 Сентября, 2007

GritTec лаборатория обновляет технологию автоматической текстонезависимой голосовой идентификации дикторов


   Технология автоматической голосовой идентификации предназначена для идентификации неизвестной аудиозаписи звонящего по телефону путем попарного сравнения c картотекой дикторских карточек существующих в базе данных системы. Сравнение проводится на основе подсчета так называемых очков 'истины' и 'лжи' (очки соответствий) и с дальнейшим определением вероятностей принятия (Acceptance) и отвержения (Rejection).
   Каждая дикторская карточка помимо информации о данном дикторе (ф.и.о., дата рождения, пол и т.д.) характеризуется примерами аудиозаписей с голосом диктора. В свою очередь каждый пример аудиозаписи описывается акустической моделью голоса, моделью ошибок (FAR, FRR, EER) и моделью шумов, описывающих окружающие шумы и канальные искажения, существующие в аудиозаписи (рис.1). Как правило, для полного описания каждой дикторской карточки достаточно 1 - 3 аудиозаписей с голосом диктора, записанных для разных телефонных линий и длительностью каждой не менее 60 сек.
   В алгоритмической части технологии голосовой идентификации дикторов добавлены детекторы тоновых сигналов и музыки. Детектор тоновых сигналов предназначен для детектирования DTMF, CPTD, UMTD и других подобных сигналов. Детектор музыки предназначен для детектирования музыкального сопровождения, звучащего во время ожидания соединения между абонентами.
   В алгоритмической части модуля создания дикторской карточки обновлены технологии построения статистической модели голоса и ее переоценки (по S-состояниям).
Сравнительный анализ показал, что использование обновленных моделей голоса существенно увеличивает количество очков “истины” и “лжи” и увеличивает вероятность определения принятия (Acceptance) и отвержения (Rejection).
   Тестирование обновленной технологии идентификации дикторов проводилось на реальных телефонных аудиозаписях и специализированной звуковой базе LDC96S61 записей телефонных фонограмм английского языка, предоставленной LDC консорциумом (Linguistic Data Consortium).
   В программной реализации кода, помимо обновлений связанных с алгоритмической частью, сделаны обновления и оптимизация архитектуры программных модулей идентификации для использования их в многопоточном режиме. При обновлении программных модулей архитектура модулей была структурирована по функциональному назначению каждого модуля. Разработанная архитектура программных модулей предполагает построения конечными разработчиками клиент-серверных приложений и сервера идентификации, в котором идентификация неизвестных аудиозаписей осуществляется в поточном режиме независимо друг от друга.
   В настоящее время технология автоматической идентификации дикторов доступна для платформы Intel в виде SDK библиотек с примерами тестовых проектов под MS VC++.
 


Рис 1. Структура дикторской карточки

Список сокращений:
  FRR (False Rejection Rate) - Вероятность ложного отвержения верной гипотезы (Ошибка 1-го рода);
  FAR (False Acceptance Rate) - Вероятность ложного принятия заведомо не верной гипотезы (Ошибка 2-го рода);
  EER (Error Equal Rate) - Вероятность, в которой значение ошибок 1-го и 2-го рода одинаково: EER = FRR = FAR;
  DTMF (Dual Tone Modulated Frequency) - Сигналы тонального набора номера;
  UMTD (Universal Multy Tone Detection) - Универсальный много-тональный детектор;
  CPTD (Call Progress Tone Detection) - Детектор вызывной сигнализации (тональные сигналы типа 'Занято', 'Ожидание').
 


О компании GritTec
ГритТек лаборатория специализируется на исследованиях и разработках алгоритмов в области речевых, аудио технологий и методах цифровой обработки сигнала (DSP). Основные исследования ГритТек лаборатории сфокусированы в области: технологий шумоподавления и восстановления речевых сигналов, технологий биометрии голоса, анализа и синтеза речевых сигналов.
Url: http://www.grittec.ru