w26M2

Empfehlungen

Info

Teilaufgaben Part-of-Speech Tagging Parsing Koreferenzauflösung Erkennung genereller Eigennamen Erläuterung Part-of-Speech (POS) Tagging bezeichnet das Verfahren der Zuordnung von Wortarten zu Wörtern. Hierbei ist der Kontext relevant. So kann die Zeichenfolge »langen« je nach Kontext ein Verb oder ein Adjektiv sein, was sich in verschiedenen POS-Tags äußert. Die POS-Tagging- Komponente dient häufig als Vorverarbeitungsschritt für das Parsing. Das Parsing dient dazu, den Text in eine syntaktische Struktur zu überführen. Parsing kann z. B. eingesetzt werden, um über komplexe grammatische Strukturen verbundene Entitäten zu erkennen und somit die Extraktion von Fakten oder Relationen zu ermöglichen bzw. zu verbessern. Koreferenzauflösung hat das Ziel zu ermitteln, ob verschiedene linguistische Objekte im Text auf die gleiche Instanz verweisen. So sollte eine Korefenzkomponente beispielsweise Pronomen 73 mit der im Text vorhergehenden Nennung des Objekts in Beziehung setzen können. Die Zusammenhänge können jedoch auch komplexerer Natur sein, z. B. insofern, als es sich bei »USA«, »den Vereinigten Staaten von Amerika«, »United States« um das gleiche Land handelt. Die Eigennamenerkennung bezeichnet das Verfahren, Wörtern bzw. Begriffen Typkategorien 74 zuzuordnen. Während die Erkennung von Eigennamen in der Regel domänenspezifisch ist 75 , sind verschiedene Eigennamentypen domänenübergreifend 76 . Tabelle 7: Teilaufgaben bei der sprachspezifischen, aber domänenübergreifenden Verarbeitung Teilaufgaben Domänenspezifische Eigennamenextraktion Stoppwortlisten Topic-Modell Faktenextraktion Relationsextraktion Erläuterung Für viele BI-Anwendungen, wie z. B. Trendanalyse oder Produkt-Monitoring, ist die Erkennung von spezifischen Entitäten, z. B. die Erkennung von Produkten eine Voraussetzung. In der Regel ist dazu ein Training von Eigennamen-Extraktionskomponenten für die spezifische Domäne auf Basis eines manuell annotierten Datensatzes notwendig. Eine Stoppwortliste ist eine Liste mit Wörtern oder Begriffen, die von der Verarbeitung ausgeschlossen werden sollen. Das Ziel der Topic-Modellierung ist die automatische Zuordnung von Begriffen zu Themen, um somit die thematische Gruppierung von Dokumenten zu ermöglichen. Ein Topic-Modell modelliert diese Zuordnung auf Basis von Worteigenschaften, Kontextinformation und anderen aus dem Text zu extrahierenden Informationen. Die Faktenextraktion hat das Ziel, vorher festgelegte Arten von Fakten in einem Text zu identifizieren und zu extrahieren. Die Bedeutung von Worten und Phrasen erschließt sich besonders gut aus der Sequenz der Worte in einem Satz. Daher modellieren die meisten Verfahren die Abfolge der unterschiedlichen Worte eines Satzes und deren Eigenschaften. Die Relationsextraktion dient dazu, Relationen zwischen Entitäten im Text zu erkennen und zu extrahieren, z. B. die Erkennung von Protein-Protein-Interaktionen in biomedizinischen Texten. Häufig basiert die Relationsextraktion auf einer vorhergehenden Eigennamenerkennung. Tabelle 8: Teilaufgaben für spezifische Domänen bzw. Anwendungen 73 z. B. »er«, »sie«, »es« 74 z. B. Person, Ort, Organisation 75 Das Wort »Schwefel« kann beispielsweise für ein Chemieunternehmen ein »Produkt« sein, während es für eine Geologen sinnvollerweise als »Mineral« annotiert werden sollte. 76 z. B. Zeitausdrücke oder Währungen 60
Big-Data-Technologien – Wissen für Entscheider 4.3.4 Video and Audio Analytics Neben den Datenströmen, welche unmittelbar auf Text- Dokumenten basieren (vgl. Unterabschnitt 4.3.3), wachsen insbesondere Audio- und Video-Inhalte explosionsartig an: • Von Unternehmen veröffentlichte Marketing-Videos enthalten detaillierte Beschreibungen zu den Produkten und Dienstleistungen. genutzt werden können, die je nach Qualität des Ausgangsmaterials sehr gute Text-Protokolle erzeugen. • Schließlich kommen die im Unterabschnitt 4.3.3 dargestellten linguistischen und semantischen Verfahren zum Einsatz, um die Transkriptionen inhaltlich zu erschließen und Sinnzusammenhänge herzustellen. 4.3.5 Predictive Analytics • In Trainings-Videos und aufgezeichneten Webinaren finden sich zahlreiche Details für Schulungs-Zwecke. • Nachrichten-Sendungen bieten reiche Informations- Schätze, wobei hier sowohl offizielle Nachrichten- Kanäle, unternehmens-interne Archive oder auch Internet-Quellen (YouTube) zum Tragen kommen können. Beispielweise verfügt allein die National Library in Washington über Zettabyte an Audio- und Videomaterial – woraus unmittelbar ersichtlich wird, dass eine manuelle Erschließung ausgeschlossen ist. Predictive Analytics ist ein Gebiet des Data Mining, mit dem aus einem Datensatz Trends und Verhaltensmuster abgeleitet und vorhergesagt werden können. Hierbei kommen je nach Anwendungszenario verschiedene statistische Algorithmen und Modellierungs-Techniken zum Einsatz, die darauf abzielen, Muster in aktuellen oder historischen Daten zu erkennen und ein System 77 richtig zu beschreiben und daraus Ableitungen für das zu künftige Verhalten dieses Systems treffen zu können. In der Wirtschaft wird Predictive Analytics z. B. eingesetzt, um transaktionale Daten zu analysieren und daraus Geschäftsrisiken und -opportunitäten frühzeitig zu erkennen. Unter Nutzung der im Unterabschnitt 4.3.3 beschriebenen Techniken lassen sich aber auch die Schätze in diesen Daten erheben und somit Audio- und Video-Archive erschließen: • Zunächst müssen die enormen Datenmengen an sich überhaupt gespeichert und für die weitere Verarbeitung zugreifbar gemacht werden, wofür Big-Data-Techniken aus dem Bereich Daten-Haltung (vgl. Abschnitt 3.2) zum Tragen kommen. Insbesondere die kostengünstige Speicherung sowie die Möglichkeit zur parallelen Verarbeitung bieten hier enorme Vorteile. • Anschließend werden aus den gespeicherten Audiound Video-Daten die Text-Informationen extrahiert, wofür sogenannte Transkriptions-Algorithmen Üblicherweise beschreibt man die Vorgehensweise von Predictive Analytics in drei Schritten: • Descriptive (Beschreiben), • Predictive (Vorhersagen), • Prescriptive (Empfehlen). Im ersten Schritt müssen alle relevanten Daten für das entsprechende System gesammelt werden, um daraus die Muster zu erkennen die zu einem bestimmen Verhalten 78 führen können. Im zweiten Schritt wird ein passendes statistisches Modell entwickelt, welches das Verhalten des untersuchten Systems hinreichend gut beschreibt, um daraus Vorhersagen über sein Verhalten in der Zukunft ableiten zu können. 77 z. B. der Zustand einer Pumpe, das Wetter oder Finanzdaten 78 z. B. dem Ausfall einer Pumpe oder den Absturz eines Aktienwerts 61
Seite 1 und 2:
Big-Data-Technologien - Wissen für
Seite 3 und 4:
Seite 5 und 6:
Seite 7 und 8:
Seite 9 und 10:
Seite 11 und 12: Big-Data-Technologien - Wissen für
Seite 61: Big-Data-Technologien - Wissen für
Seite 113 und 114:
Seite 115 und 116:
Seite 117 und 118:
Seite 119 und 120:
Seite 121 und 122:
Seite 123 und 124:
Seite 125 und 126:
Seite 127 und 128:
Seite 129 und 130:
Seite 131 und 132:
Seite 133 und 134:
Seite 135 und 136:
Seite 137 und 138:
Seite 139 und 140:
Seite 141 und 142:
Seite 143 und 144:
Seite 145 und 146:
Seite 147 und 148:
Seite 149 und 150:
Seite 151 und 152:
Seite 153 und 154:
Seite 155 und 156:
Seite 157 und 158:
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167 und 168:
Seite 169 und 170:
Seite 171 und 172:
Seite 173 und 174:
Seite 175 und 176:
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Seite 195 und 196:
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Alle anzeigen

w26M2

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?