18.11.2012 Aufrufe

Vorwort - Fritz Thyssen Stiftung

Vorwort - Fritz Thyssen Stiftung

Vorwort - Fritz Thyssen Stiftung

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Seite 132<br />

GESCHICHTE, SPRACHE UND KULTUR<br />

zur Bildung extensionaler, empirisch fundierter Klassen natürlichsprachiger<br />

Daten. Die Klassenbildung operiert auf unterschiedlichen<br />

Ebenen. Sie geht von der Ebene der Morpheme aus, die automatisch<br />

durch ein valides Segmentierungsverfahren gewonnen werden und<br />

operiert dann rekursiv auf höheren linguistischen Ebenen. Dabei<br />

werden zur hierarchischen Strukturierung Operator-Operand-Strukturen<br />

gebildet. Die Anwendung dieser selbstlernenden Analysetechniken<br />

ist eine Alternative zur rechnergestützten Analyse sprachlicher<br />

Strukturen mit klassischen Parsern, deren Steuerinformationen<br />

manuell erstellt werden müssen.<br />

Eine weitere SEMALD-Komponente ist die GaphEngine. Sie setzt<br />

auf dem Segmentierungsverfahren des DistributionalClassifiers auf<br />

und versucht, in dem in Morpheme zergliederten Eingabetexten Paradigmen<br />

zu erkennen, zu gruppieren und zu hierarchisieren. Jeder<br />

Satz aus einem Textkorpus wird in einen Graphen überführt, dessen<br />

Knoten Wörter repräsentieren und dessen Kanten Positionen kodieren.<br />

Die GraphEngine-Komponente beginnt nun, den konstruierten<br />

Graphen zu komprimieren, indem durch paarweise Pfadvergleiche<br />

ähnliche Sätze erkannt und verschmolzen werden. Unterschiede<br />

zwischen zwei Pfaden werde dabei als zwei in paradigmatischer<br />

Relation stehende Konstituenten interpretiert und als Hypothese anstelle<br />

der Konstituenten in den Graph integriert. Die Graphen bilden<br />

dann syntaktische Informationen ab und können zunächst in ein<br />

Rekursives Übergangsnetzwerk und anschließend in ein Erweitertes<br />

Übergangsnetzwerk überführt werden. Netzwerke dieser Art sind<br />

äquivalent zu formalen Grammatiken. Daher ist die automatische<br />

Erzeugung solcher Netzwerke der automatischen Rekonstruktion<br />

von Grammatiken für natürliche Sprachen gleichzusetzen. Diese<br />

Transformationen bilden die Grundoperationen zur Entwicklung eines<br />

selbstlernenden syntaktischen Parsers.<br />

Die fortgesetzte und kombinierende Anwendung dieser und weiterer<br />

datengetriebener, induktiver Methoden auf allen linguistischen<br />

Ebenen ist eine Voraussetzung für eine selbstorganisierende Semantik.<br />

Sie steht – holistisch vorgehend und wegen der Größe und der<br />

Kombinierbarkeit der Daten auf informationstechnologische Werkzeuge<br />

angewiesen – im Gegensatz zum üblichen linguistischen Vorgehen.<br />

Im traditionellen linguistischen Vorgehen können spezifische<br />

linguistische Modelle lediglich Teilaspekte im händischen linguistischen<br />

Modellieren abbilden. Damit aber lassen sich semantische<br />

Systeme in ihrer Komplexität und Dynamik nicht erfassen. Dies zeigt<br />

sich dann auch im Scheitern maschineller Sprachverarbeitung. Die<br />

Ergebnisse des Projekts Selbstorganisierende Semantik sind hingegen<br />

nach 18 Monaten der Projektlaufzeit vielversprechend. Als<br />

erfreulicher und nachhaltiger Seiteneffekt des Projekts konnte mit<br />

SEMALD softwaremäßig eine Infrastruktur geschaffen werden, die<br />

auch zukünftig die Übertragung semantischer Informationsverarbeitung<br />

empirisch gesichert auf weitere Sprachen ermöglicht.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!