w26M2
w26M2
w26M2
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Teilaufgaben<br />
Part-of-Speech Tagging<br />
Parsing<br />
Koreferenzauflösung<br />
Erkennung genereller<br />
Eigennamen<br />
Erläuterung<br />
Part-of-Speech (POS) Tagging bezeichnet das Verfahren der Zuordnung von Wortarten zu<br />
Wörtern. Hierbei ist der Kontext relevant. So kann die Zeichenfolge »langen« je nach Kontext<br />
ein Verb oder ein Adjektiv sein, was sich in verschiedenen POS-Tags äußert. Die POS-Tagging-<br />
Komponente dient häufig als Vorverarbeitungsschritt für das Parsing.<br />
Das Parsing dient dazu, den Text in eine syntaktische Struktur zu überführen. Parsing kann<br />
z. B. eingesetzt werden, um über komplexe grammatische Strukturen verbundene Entitäten<br />
zu erkennen und somit die Extraktion von Fakten oder Relationen zu ermöglichen bzw. zu<br />
verbessern.<br />
Koreferenzauflösung hat das Ziel zu ermitteln, ob verschiedene linguistische Objekte im Text<br />
auf die gleiche Instanz verweisen. So sollte eine Korefenzkomponente beispielsweise Pronomen<br />
73 mit der im Text vorhergehenden Nennung des Objekts in Beziehung setzen können.<br />
Die Zusammenhänge können jedoch auch komplexerer Natur sein, z. B. insofern, als es sich<br />
bei »USA«, »den Vereinigten Staaten von Amerika«, »United States« um das gleiche Land<br />
handelt.<br />
Die Eigennamenerkennung bezeichnet das Verfahren, Wörtern bzw. Begriffen Typkategorien 74<br />
zuzuordnen. Während die Erkennung von Eigennamen in der Regel domänenspezifisch ist 75 ,<br />
sind verschiedene Eigennamentypen domänenübergreifend 76 .<br />
Tabelle 7: Teilaufgaben bei der sprachspezifischen, aber domänenübergreifenden Verarbeitung<br />
Teilaufgaben<br />
Domänenspezifische<br />
Eigennamenextraktion<br />
Stoppwortlisten<br />
Topic-Modell<br />
Faktenextraktion<br />
Relationsextraktion<br />
Erläuterung<br />
Für viele BI-Anwendungen, wie z. B. Trendanalyse oder Produkt-Monitoring, ist die Erkennung<br />
von spezifischen Entitäten, z. B. die Erkennung von Produkten eine Voraussetzung. In<br />
der Regel ist dazu ein Training von Eigennamen-Extraktionskomponenten für die spezifische<br />
Domäne auf Basis eines manuell annotierten Datensatzes notwendig.<br />
Eine Stoppwortliste ist eine Liste mit Wörtern oder Begriffen, die von der Verarbeitung ausgeschlossen<br />
werden sollen.<br />
Das Ziel der Topic-Modellierung ist die automatische Zuordnung von Begriffen zu Themen,<br />
um somit die thematische Gruppierung von Dokumenten zu ermöglichen. Ein Topic-Modell<br />
modelliert diese Zuordnung auf Basis von Worteigenschaften, Kontextinformation und anderen<br />
aus dem Text zu extrahierenden Informationen.<br />
Die Faktenextraktion hat das Ziel, vorher festgelegte Arten von Fakten in einem Text zu identifizieren<br />
und zu extrahieren. Die Bedeutung von Worten und Phrasen erschließt sich besonders<br />
gut aus der Sequenz der Worte in einem Satz. Daher modellieren die meisten Verfahren<br />
die Abfolge der unterschiedlichen Worte eines Satzes und deren Eigenschaften.<br />
Die Relationsextraktion dient dazu, Relationen zwischen Entitäten im Text zu erkennen<br />
und zu extrahieren, z. B. die Erkennung von Protein-Protein-Interaktionen in biomedizinischen<br />
Texten. Häufig basiert die Relationsextraktion auf einer vorhergehenden<br />
Eigennamenerkennung.<br />
Tabelle 8: Teilaufgaben für spezifische Domänen bzw. Anwendungen<br />
73<br />
z. B. »er«, »sie«, »es«<br />
74<br />
z. B. Person, Ort, Organisation<br />
75<br />
Das Wort »Schwefel« kann beispielsweise für ein Chemieunternehmen ein »Produkt« sein, während es für eine Geologen sinnvollerweise als »Mineral«<br />
annotiert werden sollte.<br />
76<br />
z. B. Zeitausdrücke oder Währungen<br />
60