22.01.2015 Aufrufe

w26M2

w26M2

w26M2

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Teilaufgaben<br />

Part-of-Speech Tagging<br />

Parsing<br />

Koreferenzauflösung<br />

Erkennung genereller<br />

Eigennamen<br />

Erläuterung<br />

Part-of-Speech (POS) Tagging bezeichnet das Verfahren der Zuordnung von Wortarten zu<br />

Wörtern. Hierbei ist der Kontext relevant. So kann die Zeichenfolge »langen« je nach Kontext<br />

ein Verb oder ein Adjektiv sein, was sich in verschiedenen POS-Tags äußert. Die POS-Tagging-<br />

Komponente dient häufig als Vorverarbeitungsschritt für das Parsing.<br />

Das Parsing dient dazu, den Text in eine syntaktische Struktur zu überführen. Parsing kann<br />

z. B. eingesetzt werden, um über komplexe grammatische Strukturen verbundene Entitäten<br />

zu erkennen und somit die Extraktion von Fakten oder Relationen zu ermöglichen bzw. zu<br />

verbessern.<br />

Koreferenzauflösung hat das Ziel zu ermitteln, ob verschiedene linguistische Objekte im Text<br />

auf die gleiche Instanz verweisen. So sollte eine Korefenzkomponente beispielsweise Pronomen<br />

73 mit der im Text vorhergehenden Nennung des Objekts in Beziehung setzen können.<br />

Die Zusammenhänge können jedoch auch komplexerer Natur sein, z. B. insofern, als es sich<br />

bei »USA«, »den Vereinigten Staaten von Amerika«, »United States« um das gleiche Land<br />

handelt.<br />

Die Eigennamenerkennung bezeichnet das Verfahren, Wörtern bzw. Begriffen Typkategorien 74<br />

zuzuordnen. Während die Erkennung von Eigennamen in der Regel domänenspezifisch ist 75 ,<br />

sind verschiedene Eigennamentypen domänenübergreifend 76 .<br />

Tabelle 7: Teilaufgaben bei der sprachspezifischen, aber domänenübergreifenden Verarbeitung<br />

Teilaufgaben<br />

Domänenspezifische<br />

Eigennamenextraktion<br />

Stoppwortlisten<br />

Topic-Modell<br />

Faktenextraktion<br />

Relationsextraktion<br />

Erläuterung<br />

Für viele BI-Anwendungen, wie z. B. Trendanalyse oder Produkt-Monitoring, ist die Erkennung<br />

von spezifischen Entitäten, z. B. die Erkennung von Produkten eine Voraussetzung. In<br />

der Regel ist dazu ein Training von Eigennamen-Extraktionskomponenten für die spezifische<br />

Domäne auf Basis eines manuell annotierten Datensatzes notwendig.<br />

Eine Stoppwortliste ist eine Liste mit Wörtern oder Begriffen, die von der Verarbeitung ausgeschlossen<br />

werden sollen.<br />

Das Ziel der Topic-Modellierung ist die automatische Zuordnung von Begriffen zu Themen,<br />

um somit die thematische Gruppierung von Dokumenten zu ermöglichen. Ein Topic-Modell<br />

modelliert diese Zuordnung auf Basis von Worteigenschaften, Kontextinformation und anderen<br />

aus dem Text zu extrahierenden Informationen.<br />

Die Faktenextraktion hat das Ziel, vorher festgelegte Arten von Fakten in einem Text zu identifizieren<br />

und zu extrahieren. Die Bedeutung von Worten und Phrasen erschließt sich besonders<br />

gut aus der Sequenz der Worte in einem Satz. Daher modellieren die meisten Verfahren<br />

die Abfolge der unterschiedlichen Worte eines Satzes und deren Eigenschaften.<br />

Die Relationsextraktion dient dazu, Relationen zwischen Entitäten im Text zu erkennen<br />

und zu extrahieren, z. B. die Erkennung von Protein-Protein-Interaktionen in biomedizinischen<br />

Texten. Häufig basiert die Relationsextraktion auf einer vorhergehenden<br />

Eigennamenerkennung.<br />

Tabelle 8: Teilaufgaben für spezifische Domänen bzw. Anwendungen<br />

73<br />

z. B. »er«, »sie«, »es«<br />

74<br />

z. B. Person, Ort, Organisation<br />

75<br />

Das Wort »Schwefel« kann beispielsweise für ein Chemieunternehmen ein »Produkt« sein, während es für eine Geologen sinnvollerweise als »Mineral«<br />

annotiert werden sollte.<br />

76<br />

z. B. Zeitausdrücke oder Währungen<br />

60

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!