А,В,Соколов, 0,М, Степанюк - Скачать документы
А,В,Соколов, 0,М, Степанюк - Скачать документы
А,В,Соколов, 0,М, Степанюк - Скачать документы
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
262<br />
Таблица 3.3. <strong>В</strong>ероятность распознавания личности по одной изолированной фонеме<br />
Фонема э о л а и з р в ж м г у ч ц<br />
Зероятность 0,90 0,86 0,84 0,83 0,83 0,79 0,78 0,76 0,74 0,62 0,61 0,60 0,54 0,50 0,48 0,440,37 0,30<br />
<strong>В</strong> процессе первичной обработки сигнала производится оценка спектральных параметров<br />
речи. Первые системы идентификации личности по особенности голоса строились<br />
исходя из частотных представлений и возможностей средств аналоговой фильтрации.<br />
<strong>В</strong> основу их работы положена различная тембральная окраска голосов и индивидуальная<br />
неравномерность распределения мощности произносимой фразы по частотному спектру.<br />
Базовыми процедурами для этого класса устройств являются узкополосная фильтрация<br />
сигнала и восстановление его огибающей. Например, подобная система фирмы Texas<br />
Instruments использует гребенку из 16-и узкополосных фильтров с шириной полосы<br />
220 Гц, равномерно накрывающей частотный диапазон от 300 до 3000 Гц. Структура аналоговой<br />
части системы голосовой идентификации приведена на рис. 3.32.<br />
При произношении контрольной фразы система идентификации осуществляет приведение<br />
сигнала к единому масштабу амплитуд за счет работы <strong>А</strong>РУ входного усилителя.<br />
Полосовые фильтры и детекторы огибающей их откликов позволяют получить 16<br />
функций времени Al(t), A2(t),..., A16(t), характеризующих распределение энергии звукового<br />
сигнала по частотному спектру. Функция A0(t) описывает изменения значения<br />
энергии полного сигнала во всем диапазоне звуковых частот. При обучении система<br />
запоминает наиболее вероятные эталонные значения функций Ak(t) для конкретной<br />
личности и допустимые коридоры отклонений для этих функций.<br />
Первичные параметры речевого сигнала должны обладать следующими свойствами:<br />
Q отражать индивидуальность диктора;<br />
Q быть легко и надежно выделяемы из сигнала;<br />
Q мало зависеть от мешающих факторов;<br />
Q быть инвариантными к эмоциональному и физическому состоянию диктора;<br />
Q слабо поддаваться имитации.<br />
<strong>В</strong> качестве первичных параметров обычно используются такие характеристики речевого<br />
сигнала, как <strong>А</strong>ЧХ, основной тон, форманты, расстояние между обертонами,<br />
формы импульсов возбуждения, длительность отдельных звуков и т. п.<br />
Как правило, при произнесении парольной фразы длительности составляющих ее<br />
звуков и пауз между ними могут варьироваться в пределах от 10 до 50%. Для компенсации<br />
временной нестабильности произнесения диктором парольных фраз можно использовать<br />
два способа:<br />
Q подгонка под эталон путем сжатия и растяжения участков, соответствующих<br />
отдельным звукам, средствами динамического программирования;<br />
G выделение центра звуковой области и идентификационные измерения в окрестностях<br />
центральной части фонемы, тогда абсолютные значения длительностей<br />
фонем и пауз между ними не играют существенной роли.<br />
По полученным на предыдущем этапе параметрам, исходя из выбранной математической<br />
модели, строится «отпечаток» голоса. Далее производится сравнительный<br />
анализ отпечатков голосов. <strong>А</strong>нализировать можно различными способами, начиная от