Klassifikation von Mustern

Weitere Magazine

Empfehlungen

Info

214 KAPITEL 3. MERKMALE (VK.2.3.3, 13.04.2004) Bild 3.6.3: Eine Bank von Dreiecksfiltern; sieben Filter linear gestuft mit Mittenfrequenzen 150, 200, 250, . . . , 400 Hz, je sechs Filter logarithmisch gestuft in den drei Oktaven 0,5 – 1 kHz, 1 – 2 kHz und 2 – 4 kHz. Jedes Band reicht von der Mittenfrequenz des linken zu der des rechten Nachbarfilters (mit Genehmigung des Autors aus [Schukat-Talamazzini, 1995]) werden. Schließlich kann die zeitliche Information auch durch Einbeziehung von Koeffizienten c (mc) τ−i,k , c(mc) τ−i+1,k , . . . , c(mc) τ,k in den Merkmalsvektor berücksichtigt werden. Die Berechnung der mel–Cepstrum Koeffizienten orientiert sich zunächst an dem Modell der Sprachproduktion in Bild 3.6.1. Danach wird das Anregungsignal mit der Impulsantwort des Vokaltrakts gefaltet. Für die Spracherkennung ist die zeitlich sich relativ rasch ändernde Anregung uninteressant, wichtig ist die im Vergleich dazu langsam veränderliche Änderung des Vokaltrakts, da diese den geformten Laut bestimmt. Als Merkmale sind daher vor allem die Cepstrum Koeffizienten niederer Ordnung relevant. Die Faltung wird, wie in (3.2.25) – (3.2.30), S. 172, gezeigt, durch Bildung des Cepstrums in eine additive Verknüpfung transformiert. Die in (3.2.30) verwendete Betragsbildung ist bei Sprache dadurch gerechtfertigt, dass die Phase für den auditiven Eindruck nicht relevant ist. Zudem erhält sie die Transformation von Faltung in Addition und erlaubt die Verwendung des reellen Logarithmus. Daher wird in (3.6.24) das Betragsquadrat der FOURIER-Koeffizienten verwendet. Die Koeffizienten des Leistungsspektrum werden in (3.6.25) mit Dreiecksfiltern zusammengefasst. Diese orientieren sich zum einen an der von Versuchspersonen subjektiv empfundenen Tonhöhe, die als Tonheit bezeichnet und in der Einheit mel (melodische Tonheit) gemessen wird. Der Zusammenhang zwischen physikalischer Tonhöhe fHz [Hz] und Tonheit fmel [mel] ist nichtlinear. Eine Approximation ist fmel = 2595 · log 1 + fHz 700 . (3.6.23) Die Dreiecksfilter orientieren sich zum anderen an der Eigenschaft des menschlichen Ohres, die Lautstärke über Frequenzgruppen zu bilden, indem die Spektralanteile eines Frequenzbereichs bewichtet addiert werden. Der Frequenzbereich von 20 Hz bis 16 kHz wird von 24 nichtüberlappenden Frequenzgruppen überdeckt. Allerdings kann das Ohr an jeder Mittenfrequenz solche Gruppen bilden, sodass der Mensch (natürlich) mehr als 24 Tonhöhen unterscheiden kann. Für die Spracherkennung finden sich daher in der Literatur untschiedliche Zahl, Form und Frequenzaufteilungen für diese Filter. Ein Beispiel für die Filter dl,k zeigt Bild 3.6.3 in Form von Nd = 25 Dreiecksfiltern. Von den so gewonnenen Koeffizienten wird in (3.6.26) der Logarithmus verwendet. Dieses ist zum einen wiederum der Charakteristik des Ohres nachempfunden, zum anderen für die Berechnung des Cepstrums erforderlich. Zur Reduktion der durch die obigen Schritte gewonnenen
3.6. MERKMALE FÜR DIE SPRACHERKENNUNG (VA.1.2.2, 06.02.2004) 215 Zahl von Koeffizienten kann eine Hauptachsentransformation verwendet werden. Wie schon in Abschnitt 3.2.4 dargelegt, hat die diskrete cosinus Transformation ähnliche Eigenschaften wie die Hauptachsentransformation, ist aber schneller zu berechnen, da sie problemunabhängig ist. Daher wird in (3.6.26) die diskrete cosinus Transformation verwendet. Mit ihr werden Nmc mel–Cepstrum Koeffizienten berechnet, wobei in der Regel 20 − 30 verwendet werden. Damit sind auch die Berechnungsschritte für das Cepstrum abgeschlossen, die nach der Logarithmierung eine weitere inverse DFT vorsehen; diese kann für reelle symmetrische Koeffizienten auch durch eine cosinus Transformation berechnet werden. Die Information über einen Laut liegt nicht nur in den zu einem Zeitfenster vorliegenden Daten, sondern auch in deren zeitlicher Änderung. Daher ist es sinnvoll und verbessert die Erkennungsraten bei der Worterkennung, wenn die ersten und zweiten zeitlichen Ableitungen der Koeffizienten (3.6.27) und (3.6.28) zum Merkmalsvektor (3.6.29) hinzugefügt werden. c (ls) τ,k = c (mf) τ,j c (mc) τ,k ∆c (mc) τ,k ∆∆c (mc) τ,k = = cτ = 1 N N−1 j=0 (N/2)−1 k=0 Nd j=1 log wτ,jfj exp −i 2π jk N 2 , k = 0, 1, . . . , (N/2) − 1 , (3.6.24) dj,k c (ls) τ,k , j = 1, . . . , Nd , (3.6.25) c (mf) τ,j k · (2j − 1)π · cos , k = 1, · · · , Nmc ≤ Nd (3.6.26) 2Nd = c(mc) τ+1,k − c(mc) τ−1,k , (3.6.27) = ∆c(mc) τ+1,k c (mc) τ,k − ∆c(mc) τ−1,k , (3.6.28) T . (3.6.29) , ∆c(mc) τ,k , ∆∆c(mc) τ,k , k = 1, . . . , Nmc Zwei Varianten der mel–Cepstrum Koeffizienten, die insbesondere für Spracherkennung unter Einfluss von Störgeräuschen Vorteile haben, sind die root-Cepstrum und die µ–Law Koeffizienten. Die root–Cepstrum Koeffizienten erhält man, indem man (3.6.26) ersetzt durch c (rc) τ,k = Nd j=1 j=0 c (mf) τ,j r k · (2j − 1)π · cos , r ≈ 0, 2 − 0, 25 . (3.6.30) 2Nd Die µ–Law Koeffizienten (oder mu–Law Koeffizienten) erhält man, indem man (3.6.26) ersetzt durch c (muL) τ,k = Nd c (mf) τ,max sign[c (mf) log 1 + µ|c τ,j ] (mf) τ,j |/c (mf) τ,max , µ ≈ 10 log[1 + µ] 5 − 10 7 . (3.6.31) Eine weitere Maßnahme zur Reduktion des Einflusses von Störgeräuschen ist die getrennte Berechnung der mel–Cepstrum Koeffizienten in unterschiedlichen Frequenzbändern.
Seite 1 und 2:
Vorwort, 1. Auflage Dieses Buch bes
Seite 3:
Dank Der Autor dankt für Hinweise
Seite 6 und 7:
6 INHALTSVERZEICHNIS 2.2.1 Vorbemer
Seite 8 und 9:
8 INHALTSVERZEICHNIS 4.2.5 Klassifi
Seite 10 und 11:
10 KAPITEL 1. EINFÜHRUNG (VK.1.3.3
Seite 12 und 13:
Seite 14 und 15:
Seite 16 und 17:
Seite 18 und 19:
Seite 20 und 21:
Seite 22 und 23:
Seite 24 und 25:
Seite 26 und 27:
Seite 28 und 29:
Seite 30 und 31:
Seite 32 und 33:
Seite 34 und 35:
Seite 36 und 37:
Seite 38 und 39:
Seite 40 und 41:
Seite 42 und 43:
Seite 44 und 45:
Seite 46 und 47:
Seite 48 und 49:
Seite 50 und 51:
Seite 52 und 53:
Seite 54 und 55:
54 LITERATURVERZEICHNIS [Denzler, 2
Seite 56 und 57:
56 LITERATURVERZEICHNIS [Niemann, 1
Seite 58 und 59:
58 LITERATURVERZEICHNIS
Seite 60 und 61:
60 KAPITEL 2. VORVERARBEITUNG (VK.1
Seite 62 und 63:
Seite 64 und 65:
Seite 66 und 67:
Seite 68 und 69:
Seite 70 und 71:
Seite 72 und 73:
Seite 74 und 75:
Seite 76 und 77:
Seite 78 und 79:
Seite 80 und 81:
Seite 82 und 83:
Seite 84 und 85:
Seite 86 und 87:
Seite 88 und 89:
Seite 90 und 91:
Seite 92 und 93:
Seite 94 und 95:
Seite 96 und 97:
Seite 98 und 99:
Seite 100 und 101:
100 KAPITEL 2. VORVERARBEITUNG (VK.
Seite 102 und 103:
Seite 104 und 105:
Seite 106 und 107:
Seite 108 und 109:
Seite 110 und 111:
Seite 112 und 113:
Seite 114 und 115:
Seite 116 und 117:
Seite 118 und 119:
Seite 120 und 121:
Seite 122 und 123:
Seite 124 und 125:
Seite 126 und 127:
Seite 128 und 129:
Seite 130 und 131:
Seite 132 und 133:
Seite 134 und 135:
Seite 136 und 137:
Seite 138 und 139:
Seite 140 und 141:
Seite 142 und 143:
Seite 144 und 145:
Seite 146 und 147:
146 LITERATURVERZEICHNIS [Barrett,
Seite 148 und 149:
148 LITERATURVERZEICHNIS Universit
Seite 150 und 151:
150 LITERATURVERZEICHNIS Lokalisier
Seite 152 und 153:
152 LITERATURVERZEICHNIS [Kwok und
Seite 154 und 155:
154 LITERATURVERZEICHNIS [Niemann,
Seite 156 und 157:
156 LITERATURVERZEICHNIS niques. Co
Seite 158 und 159:
158 LITERATURVERZEICHNIS and Image
Seite 160 und 161:
160 LITERATURVERZEICHNIS
Seite 162 und 163:
162 KAPITEL 3. MERKMALE (VK.2.3.3,
Seite 164 und 165: 164 KAPITEL 3. MERKMALE (VK.2.3.3,
Seite 264 und 265:
Seite 266 und 267:
Seite 268 und 269:
Seite 270 und 271:
Seite 272 und 273:
Seite 274 und 275:
Seite 276 und 277:
Seite 278 und 279:
Seite 280 und 281:
Seite 282 und 283:
282 LITERATURVERZEICHNIS [Arcese et
Seite 284 und 285:
284 LITERATURVERZEICHNIS [Caelli un
Seite 286 und 287:
286 LITERATURVERZEICHNIS [de Figuei
Seite 288 und 289:
288 LITERATURVERZEICHNIS [Gubner un
Seite 290 und 291:
290 LITERATURVERZEICHNIS [Kailath,
Seite 292 und 293:
292 LITERATURVERZEICHNIS and enhanc
Seite 294 und 295:
294 LITERATURVERZEICHNIS [Moayer un
Seite 296 und 297:
296 LITERATURVERZEICHNIS [Picone, 1
Seite 298 und 299:
298 LITERATURVERZEICHNIS modeling a
Seite 300 und 301:
300 LITERATURVERZEICHNIS images usi
Seite 302 und 303:
302 LITERATURVERZEICHNIS ments: A n
Seite 304 und 305:
304 KAPITEL 4. NUMERISCHE KLASSIFIK
Seite 306 und 307:
Seite 308 und 309:
Seite 310 und 311:
Seite 312 und 313:
Seite 314 und 315:
Seite 316 und 317:
Seite 318 und 319:
Seite 320 und 321:
Seite 322 und 323:
Seite 324 und 325:
Seite 326 und 327:
Seite 328 und 329:
Seite 330 und 331:
Seite 332 und 333:
Seite 334 und 335:
Seite 336 und 337:
Seite 338 und 339:
Seite 340 und 341:
Seite 342 und 343:
Seite 344 und 345:
Seite 346 und 347:
Seite 348 und 349:
Seite 350 und 351:
Seite 352 und 353:
Seite 354 und 355:
Seite 356 und 357:
Seite 358 und 359:
Seite 360 und 361:
Seite 362 und 363:
Seite 364 und 365:
Seite 366 und 367:
Seite 368 und 369:
Seite 370 und 371:
Seite 372 und 373:
Seite 374 und 375:
Seite 376 und 377:
Seite 378 und 379:
Seite 380 und 381:
Seite 382 und 383:
Seite 384 und 385:
Seite 386 und 387:
Seite 388 und 389:
Seite 390 und 391:
Seite 392 und 393:
Seite 394 und 395:
Seite 396 und 397:
Seite 398 und 399:
Seite 400 und 401:
Seite 402 und 403:
Seite 404 und 405:
Seite 406 und 407:
Seite 408 und 409:
Seite 410 und 411:
Seite 412 und 413:
Seite 414 und 415:
Seite 416 und 417:
Seite 418 und 419:
Seite 420 und 421:
Seite 422 und 423:
Seite 424 und 425:
Seite 426 und 427:
Seite 428 und 429:
Seite 430 und 431:
Seite 432 und 433:
Seite 434 und 435:
Seite 436 und 437:
Seite 438 und 439:
Seite 440 und 441:
Seite 442 und 443:
Seite 444 und 445:
Seite 446 und 447:
Seite 448 und 449:
Seite 450 und 451:
Seite 452 und 453:
Seite 454 und 455:
Seite 456 und 457:
Seite 458 und 459:
458 LITERATURVERZEICHNIS IEEE Trans
Seite 460 und 461:
460 LITERATURVERZEICHNIS decomposit
Seite 462 und 463:
462 LITERATURVERZEICHNIS 1988. [Dev
Seite 464 und 465:
464 LITERATURVERZEICHNIS [Gibbs, 19
Seite 466 und 467:
466 LITERATURVERZEICHNIS [Ichino, 1
Seite 468 und 469:
468 LITERATURVERZEICHNIS trika, 29:
Seite 470 und 471:
470 LITERATURVERZEICHNIS [Martinez
Seite 472 und 473:
472 LITERATURVERZEICHNIS [Och und N
Seite 474 und 475:
474 LITERATURVERZEICHNIS [Rauber et
Seite 476 und 477:
476 LITERATURVERZEICHNIS [Schölkop
Seite 478 und 479:
478 LITERATURVERZEICHNIS fiers by a
Seite 480 und 481:
480 LITERATURVERZEICHNIS gnition, 3
Seite 482 und 483:
Index a posteriori Dichte, 341 Vert
Seite 484 und 485:
484 INDEX Formant, 208, 213 Formele
Seite 486 und 487:
486 INDEX Maßstab, 185 Maximumnorm
Seite 488 und 489:
488 INDEX LASSO, 336 maximum-a-post
Alle anzeigen

Klassifikation von Mustern

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?