ПРОДУКТЫ
|
|
НОВОСТИ
10 Сентября, 2007
GritTec лаборатория обновляет технологию автоматической текстонезависимой голосовой идентификации дикторов
Технология автоматической голосовой идентификации предназначена для идентификации неизвестной аудиозаписи звонящего по
телефону путем попарного сравнения c картотекой дикторских карточек существующих в базе данных системы. Сравнение проводится на основе
подсчета так называемых очков 'истины' и 'лжи' (очки соответствий) и с дальнейшим определением вероятностей принятия (Acceptance) и отвержения (Rejection).
Каждая дикторская карточка помимо информации о данном дикторе (ф.и.о., дата рождения, пол и т.д.) характеризуется примерами аудиозаписей с голосом диктора.
В свою очередь каждый пример аудиозаписи описывается акустической моделью голоса, моделью ошибок (FAR, FRR, EER) и моделью шумов, описывающих окружающие шумы и канальные искажения, существующие в аудиозаписи (рис.1).
Как правило, для полного описания каждой дикторской карточки
достаточно 1 - 3 аудиозаписей с голосом диктора, записанных для
разных телефонных линий и длительностью каждой не менее 60 сек.
В алгоритмической части технологии голосовой
идентификации дикторов добавлены детекторы тоновых сигналов и
музыки. Детектор тоновых сигналов предназначен для
детектирования DTMF, CPTD, UMTD и других подобных сигналов.
Детектор музыки предназначен для детектирования музыкального
сопровождения, звучащего во время ожидания соединения между
абонентами.
В алгоритмической части модуля создания дикторской карточки
обновлены технологии построения статистической модели голоса и
ее переоценки (по S-состояниям).
Сравнительный анализ показал, что использование обновленных
моделей голоса существенно увеличивает количество очков “истины”
и “лжи” и увеличивает вероятность определения принятия
(Acceptance) и отвержения (Rejection).
Тестирование обновленной технологии идентификации дикторов
проводилось на реальных телефонных аудиозаписях и
специализированной звуковой базе LDC96S61 записей телефонных
фонограмм английского языка, предоставленной LDC консорциумом
(Linguistic Data Consortium).
В программной реализации кода, помимо обновлений связанных с
алгоритмической частью, сделаны обновления и оптимизация архитектуры программных
модулей идентификации для использования их в многопоточном режиме. При
обновлении программных модулей архитектура модулей была структурирована по
функциональному назначению каждого модуля.
Разработанная архитектура программных модулей предполагает
построения конечными разработчиками клиент-серверных приложений и
сервера идентификации, в котором идентификация неизвестных
аудиозаписей осуществляется в поточном режиме независимо друг от
друга.
В настоящее время технология автоматической
идентификации дикторов доступна для платформы Intel в виде SDK
библиотек с примерами тестовых проектов под MS VC++.
Рис 1. Структура дикторской карточки
|
Список сокращений:
FRR (False Rejection Rate) - Вероятность ложного отвержения верной гипотезы (Ошибка 1-го рода);
FAR (False Acceptance Rate) - Вероятность ложного принятия заведомо не верной гипотезы (Ошибка 2-го рода);
EER (Error Equal Rate) - Вероятность, в которой значение ошибок 1-го и 2-го рода одинаково: EER = FRR = FAR;
DTMF (Dual Tone Modulated Frequency) - Сигналы тонального набора номера;
UMTD (Universal Multy Tone Detection) - Универсальный много-тональный детектор;
CPTD (Call Progress Tone Detection) - Детектор вызывной
сигнализации (тональные сигналы типа 'Занято', 'Ожидание').
|
О компании GritTec
ГритТек лаборатория специализируется на исследованиях и разработках алгоритмов в области речевых, аудио технологий и методах цифровой обработки сигнала (DSP).
Основные исследования ГритТек лаборатории сфокусированы в области:
технологий шумоподавления и восстановления речевых сигналов,
технологий биометрии голоса, анализа и синтеза речевых сигналов.
Url: http://www.grittec.ru
|
|
|
|