20.07.2013 Views

Молодой учёный

Молодой учёный

Молодой учёный

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

146 Информатика<br />

«<strong>Молодой</strong> <strong>учёный</strong>» . № 3 (50) . Март, 2013 г.<br />

При идентификации говорящего по поступающему речевому<br />

сообщению распределение кластеров оказывается<br />

похожим на эталонное для зарегистрированного пользователя,<br />

или отличающееся для злоумышленника. Классификация<br />

производится вычислением меры близости<br />

(сходства) пробных данных и уже известных, которая выражается<br />

расстоянием от вектора признаков пробного<br />

сигнала до вектора признаков уже классифицированного.<br />

В качестве меры близости для числовых атрибутов<br />

очень часто используется евклидово расстояние, которое<br />

представляет собой геометрическое расстояние в многомерном<br />

пространстве:<br />

Распространённым методом построения кодовой книги<br />

является алгоритм k-средних.<br />

Метод оперирует таким понятием как центроид. Центроид<br />

– центр масс кластера, координаты которого рассчитываются<br />

как среднее значений координат объектов<br />

кластера в пространстве данных.<br />

Алгоритм k-средних разбивает исходное множество на<br />

k кластеров, где k – предварительно заданное число. Для<br />

этого сначала значения средних инициализируются некоторыми<br />

векторами из исходного множества. Затем на<br />

каждой итерации алгоритма происходит распределение<br />

векторов в ближайшие к ним кластеры (для этого вычисляется<br />

расстояние между вектором и текущими значениями<br />

средних) и перерасчёт среднего в каждом кластере.<br />

Для каждого полученного разбиения рассчитывается некоторая<br />

оценочная функция D – средняя ошибка квантования,<br />

distortion (англ. искажение) [4, с. 13]:<br />

Алгоритм k-means стремится минимизировать суммарное<br />

отклонение точек в кластере от центров кластеров.<br />

Процесс вычисления средних и перераспределения<br />

объектов заканчивается тогда, когда кластерные центры<br />

стабилизировались, т.е. все наблюдения принадлежат<br />

кластеру, которому принадлежали до текущей итерации.<br />

Минимизация оценочной функции позволяет сделать результирующие<br />

кластеры настолько компактными и раздельными,<br />

насколько это возможно. Такое разбиение<br />

параметрического пространства является диктороспецифическим.<br />

Полученные значения средних являются кодовыми<br />

векторами, используемыми для построения шаблона –<br />

кодовой книги.<br />

Разбиение параметрического пространства на 3 кластера<br />

методом k-means показано на рисунке 1.<br />

Рис. 1. Результат кластеризации алгоритмом k-means<br />

(k=3)<br />

N<br />

= ∑ i=<br />

i - i xQx<br />

D<br />

1 N<br />

)(<br />

1<br />

Метод k-means хорошо работает, когда кластеры представляют<br />

собой значительно разделённые между собой<br />

компактные области. Он эффективен для обработки<br />

Где N – количество обучающих векторов; ixQ– )( больших объёмов данных, однако не применим для обна-<br />

вектор среднего; x i – обучающий вектор, принадлеружения кластеров невыпуклой формы или сильно разлижащий<br />

кластеру с центроидом ixQ. )(<br />

чающегося размера.<br />

Литература:<br />

1. X.Huang, A.Acero, H.Hon. Spoken Language Processing: A guide to theory, algorithm, and system development.<br />

Prentice Hall, 2001.<br />

2. Lawrence R. Rabiner, Ronald W. Schafer Introduction to Digital Speech Processing, 2007<br />

3. Аграновский А.В., Леднов Д.А. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов<br />

Москва: Изд-во «Радио и связь», 2004. 164 с.<br />

4. ETSI ES 202 050 V1.1.5 (2007–01) ETSI Standard Speech Processing, Transmission and Quality Aspects (STQ);<br />

Distributed speech recognition; Advanced front-end feature extraction algorithm; Compression algorithms

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!