Entwicklung einer Automatenbedienung mit einer leistungsfähigen ...

Weitere Magazine

Empfehlungen

Info

Auch „AudioFile“ kann als eine weitere Komponente im AudioManager registriert werden. Dabei werden die Daten vom „SoundcardFrontend“ ignoriert und durch die Daten aus einer Audiodatei ersetzt, die weiter bearbeitet werden können. Man kann also beliebige Komponente, die von der Klasse „AudioComponent“ (libAudio.so) abgeleitet wurden, im AudioManager registrieren, indem man diese Komponenten einfach startet. audioFrontend->getInput(0)->setSource(audioFile->getOutput(0)); audioFrontend->getInput(1)->setSource(audioFile->getOutput(0)); audioFile->start(); dcBlocker->getInput(0)->setSource(audioFile->getOutput(0)); dcBlocker->start(); asrApp->getInputAdaptor()->getInput(0)->setSource(dcBlocker->getOutput(0)); audioFrontend->start(); asrApp->start(); In diesem Beispiel für einen möglichen Quellcode werden die Daten aus einer Audiodatei (0 = links, mono) an „audioFrontend“, das sowie ein Objekt der Klasse „SoundcardFrontend“ als auch der Klasse „ISDNFrontend“ sein kann, zur Ausgabe über die Lautsprecher (1 = rechts) bzw. Telefonhörer übergeben. Diese Daten werden mit dem DC- Filter bearbeitet. Von diesem Filter werden die Daten als Signalabschnitte an „BufferedIOAdaptor“ geleitet (die dritte Zeile von unten). Mit „audioFrontend“ und „asrApp“ wird der ganze Prozess gestartet, entsprechend rechte und linke Seiten der Abbildung 16. Mit diesem vereinfachten Quelltext kann man also eine Audiodatei wiedergeben und gleichzeitig mit dem Spracherkennungssystem erkennen lassen. Da diese Art der Datenübergabe bidirektional funktioniert, kann man eine Spracherkennung über Mikrofon während der Audiodatei- Wiedergabe durchführen. Die in der Abbildung 16 punktiert dargestellten Bereiche von Abtastwerten und Merkmalsvektoren sind gelöschte Werte. Die Abtastwerte werden in einer Reihe abgespeichert, so wie das ganze Signal aussehen würde. Analyzer nimmt jedes Mal die ersten 200 Werte (bei einer Abtastfrequenz von 8000 Hz) und verarbeitet diese, die ersten 80 davon werden dann gelöscht. So kommt es zu einer Überlappung (s. Abbildung 2 auf der Seite 8). Das wird mit dem folgenden Quellcode aus „plugins/AsrHGH/AnalyzerHGH.cpp“ realisiert: AudioFrame* frame1 = _inputBuffer->getFrame(200); AudioFrame* frame2 = _inputBuffer->removeFrame(80); Seite 37
„_inputBuffer“ ist ein Teil vom „BufferedIOAdaptor“ (wurde bei dem Start von asrApp zugewiesen), der zweite Teil ist „_outputBuffer“. Man kann also die Daten für die Ausgabe auch bei Analyzer angeben, soweit das sinnvoll ist. „frame1“ wird analysiert und „frame2“ wird mit seinen 80 Werten in einem Stack („_frameContainer“) für die weitere Verwendung abgelegt, z.B. für die Abspeicherung des aufgenommenen Signals als eine '*.wav' Datei. Gespeichert wird nicht das komplette Eingangssignal, sondern nur ein Teil davon, bei dem die Sprache erkannt wird, evtl. eine halbe Sekunde vor und nach der Sprache. Ein Auszug aus „plugins/ActionsHGH/Recognize.h“ (af = audioFile): af->open(MODE_WRITE, FMT_WAV, 1, asrApp->getAnalyzer()->getFrameContainer()); af->save(asrApp->getRecognizer()->_speechBegin, asrApp->getRecognizer()->_speechEnd); Die Größe vom in der Abbildung 16 dargestellten Stack für die Merkmalsvektoren kann maximal 6 sein. Die im „ApplicationHGH“ eingesetzte Sprachdetektion, die immer angewendet wird, arbeitet zeitversetzt. Wenn diese Komponente das Vorhandensein der Sprache in einem Signalabschnitt erkennt, wird das erst nach 4 weiteren Abschnitten gemeldet (falls diese auch Sprache enthalten), um sicher zu sein, dass es keine Störung war. Damit Recognizer keine wichtigen Daten verpasst, werden diese für kurze Zeit (~25ms * 5) aufbewahrt. Sobald Analyzer den sechsten Objekt mit Merkmalsvektoren in den Stack schiebt, wird das erste Objekt aus dem Stack vom Recognizer entfernt. Mit diesem Trick wurde eine Zeitversetzung realisiert. Die Abbildung 16 zeigt, wie der Datenaustausch zwischen einzelnen Komponenten funktioniert. Aber wie Analyzer die Daten an den Sprachdetektor übergibt, wurde nicht gezeichnet. Das passiert mit einem Callback (s. auf der Seite 29). Um nicht jeden Schritt mit Worten zu beschreiben, wird hier ein sehr vereinfachter Quelltext der Funktion „AnalyzerHGH::analyze()“ angegeben: AudioFrame* frame1 = _inputBuffer->getFrame(_frameSize); // 200 Werte nehmen anal_cep_frame(frame1, &_featurePar); // und analysieren // die gewonnene Merkmale aus _featurePar zu einem Objekt kopieren, // der im Stack für Recognizer abgespeichert werden soll FeatureVector v(_featurePar.vector, _featurePar.vector+_featurePar.vec_size); pushFeatures(v); // Objekt in den Stack schieben // die Merkmale mit Callback zum Sprachdetektor senden this->executeCallback("estimateCallback", &_featurePar); // "estimateCallback" ruft Funktion "NoiseEstimator::estimate()" auf Seite 38
Seite 1 und 2: Entwicklung einer Automatenbedienun
Seite 3 und 4: Ich versichere an Eides Statt durch
Seite 5 und 6: Abbildungsverzeichnis Abbildung 1:
Seite 7 und 8: 2. Einleitung Diese Einleitung zur
Seite 9 und 10: 3.1.2. Sprachbasiert Nach den graph
Seite 11 und 12: 3.2. Spracherkennung Die Spracherke
Seite 13 und 14: 3.2.2. Analyse Die Analyse (oder Ku
Seite 15 und 16: 4. Betriebsmittel, Software openSUS
Seite 17 und 18: Abbildung 7: "Hello, World!" mit FL
Seite 19 und 20: 4.2. POCO POCO ist eine Sammlung vo
Seite 21 und 22: 4.3. Hilfsmittel Um die Makefiles z
Seite 23 und 24: 5.1. asrLib und CMake Um die mühsa
Seite 25 und 26: Symbolleiste mit den Werkzeugen zum
Seite 27 und 28: Die Bibliothek „libStateMachine.s
Seite 29 und 30: Bevor man StateMachine startet, sol
Seite 31 und 32: oder Variable „OUTPUT_LIBDIR“ i
Seite 33 und 34: Diese Tabelle enthält alle Namen d
Seite 35 und 36: 6. Parallele Erkennung Wie es schon
Seite 37 und 38: „PluginFactory“ ist eine Single
Seite 39 und 40: Da „ASRApplication“ die Basiskl
Seite 41: diesem Prozess angesprochene Funkti
Seite 45 und 46: Auf der vorherigen Seite wurde scho
Seite 47 und 48: Die Initialisierung des Sprachdetek
Seite 49 und 50: mit. Dabei rechnet er aber nichts a
Seite 51 und 52: Nach der Darstellung des Plugins
Seite 53 und 54: am Infokasten, der mit diesem Port
Seite 55 und 56: Falls „_breakAction“ den Wert 0
Seite 57 und 58: GUI geladen wurde, kann sein Contro
Seite 59 und 60: Um den Benutzer bei der Erstellung
Seite 61 und 62: Mit der Funktion „updateControlle
Seite 63 und 64: Das Senden und das Empfangen kann m

Entwicklung einer Automatenbedienung mit einer leistungsfähigen ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?