27.05.2014 Views

А,В,Соколов, 0,М, Степанюк - Скачать документы

А,В,Соколов, 0,М, Степанюк - Скачать документы

А,В,Соколов, 0,М, Степанюк - Скачать документы

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

262<br />

Таблица 3.3. <strong>В</strong>ероятность распознавания личности по одной изолированной фонеме<br />

Фонема э о л а и з р в ж м г у ч ц<br />

Зероятность 0,90 0,86 0,84 0,83 0,83 0,79 0,78 0,76 0,74 0,62 0,61 0,60 0,54 0,50 0,48 0,440,37 0,30<br />

<strong>В</strong> процессе первичной обработки сигнала производится оценка спектральных параметров<br />

речи. Первые системы идентификации личности по особенности голоса строились<br />

исходя из частотных представлений и возможностей средств аналоговой фильтрации.<br />

<strong>В</strong> основу их работы положена различная тембральная окраска голосов и индивидуальная<br />

неравномерность распределения мощности произносимой фразы по частотному спектру.<br />

Базовыми процедурами для этого класса устройств являются узкополосная фильтрация<br />

сигнала и восстановление его огибающей. Например, подобная система фирмы Texas<br />

Instruments использует гребенку из 16-и узкополосных фильтров с шириной полосы<br />

220 Гц, равномерно накрывающей частотный диапазон от 300 до 3000 Гц. Структура аналоговой<br />

части системы голосовой идентификации приведена на рис. 3.32.<br />

При произношении контрольной фразы система идентификации осуществляет приведение<br />

сигнала к единому масштабу амплитуд за счет работы <strong>А</strong>РУ входного усилителя.<br />

Полосовые фильтры и детекторы огибающей их откликов позволяют получить 16<br />

функций времени Al(t), A2(t),..., A16(t), характеризующих распределение энергии звукового<br />

сигнала по частотному спектру. Функция A0(t) описывает изменения значения<br />

энергии полного сигнала во всем диапазоне звуковых частот. При обучении система<br />

запоминает наиболее вероятные эталонные значения функций Ak(t) для конкретной<br />

личности и допустимые коридоры отклонений для этих функций.<br />

Первичные параметры речевого сигнала должны обладать следующими свойствами:<br />

Q отражать индивидуальность диктора;<br />

Q быть легко и надежно выделяемы из сигнала;<br />

Q мало зависеть от мешающих факторов;<br />

Q быть инвариантными к эмоциональному и физическому состоянию диктора;<br />

Q слабо поддаваться имитации.<br />

<strong>В</strong> качестве первичных параметров обычно используются такие характеристики речевого<br />

сигнала, как <strong>А</strong>ЧХ, основной тон, форманты, расстояние между обертонами,<br />

формы импульсов возбуждения, длительность отдельных звуков и т. п.<br />

Как правило, при произнесении парольной фразы длительности составляющих ее<br />

звуков и пауз между ними могут варьироваться в пределах от 10 до 50%. Для компенсации<br />

временной нестабильности произнесения диктором парольных фраз можно использовать<br />

два способа:<br />

Q подгонка под эталон путем сжатия и растяжения участков, соответствующих<br />

отдельным звукам, средствами динамического программирования;<br />

G выделение центра звуковой области и идентификационные измерения в окрестностях<br />

центральной части фонемы, тогда абсолютные значения длительностей<br />

фонем и пауз между ними не играют существенной роли.<br />

По полученным на предыдущем этапе параметрам, исходя из выбранной математической<br />

модели, строится «отпечаток» голоса. Далее производится сравнительный<br />

анализ отпечатков голосов. <strong>А</strong>нализировать можно различными способами, начиная от

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!