w26M2

Empfehlungen

Info

Hortonworks Data Platform Source Data Load SQOOP compute & storage HCATALOG (table metadata) . . . Interactive HIVE/SQL Visualize Twitter Feed FLUME NFS (Alternate) . . . . Batch Map Reduce . . . . PIG . . . AMBARI compute & storage Online HBASE Abbildung 43: Anwendung der Hortonworks Data Platform für die Analyse von Twitter-Daten Abbildung 44: Beispiel-Szenario – Emotions-Analyse bei PKW Im PKW-Beispiel (vgl. Abbildung 44) wird der Ausgangstext zusammen mit allen Annotationen in einem UIMA- Dokument gespeichert. Mittels Apache UIMA kann eine Sequenz von Buchstaben oder Worten durch eine Annotation gekennzeichnet werden, z. B. wird eine Wortfolge als Nennung eines Autotyps annotiert. Darüber hinaus können auch Relationen zwischen Annotationen im Text markiert werden, z. B. Ärger// /Verbrauch. UIMA erlaubt einen schnellen Zugriff auf diese Annotationen und kann sie als XML-Dokument auslagern. Die Schritte bei der Sprachverarbeitung und Analyse sind in Tabelle 13 aufgelistet. 106
Big-Data-Technologien – Wissen für Entscheider Verarbeitungsschritt Download, Bereinigung und Normalisierung Anreicherung mit Metadaten Sprachenerkennung Satzsegmentierung Beispiel Emotions-Analyse Beiträge zu ausgewählten Automarken downloaden, HTML-Code entfernen. Automarke, Datum, Diskussionsthread. nicht notwendig, da rein deutsch-sprachige Beiträge im Einsatz Wortstammreduktion - Lemmatisierung - POS-Tagging (Wortartenerkennung) im Einsatz Parsing - Koreferenzauflösung - Eigennamen-Erkennung Domänenspezifische Eigennamen Topic-Modell Phrasenextraktion Relationsextraktion Orte und Personen (welche oft Aliasnamen haben) Automarken und –typen, Einzelteile eines PKWs, Werkzeuge im Einsatz Ermittlung von Phrasen die Freude, Ärger, Sorge … ausdrücken Zusammenhang zwischen Auto/Autoteil und Emotionsausdruck Tabelle 13: Schritte der Sprachverarbeitung am Beispiel Motortalk Das Ergebnis der Analyse ist ein Überblick über die aufgetretenen Emotionen im Zusammenhang mit einer bestimmten Automarke und/oder einem zugehörigen Bauteil. Außerdem lässt sich auch erschließen, wie häufig die entsprechenden Ausdrücke genannt wurden, was ein Indiz für die Relevanz eines bestimmten Themas ist. • 5.4 Lösungsszenarien mit Server-Logdaten Server-Logdaten-Management beschreibt den Umgang mit großen Volumen an computergenerierten Logausgaben. Es umfaßt das Sammeln, die zentrale Aggregation, die Langzeitspeicherung, die Analyse der Logdaten (in Echtzeit und im Batch-Betrieb) sowie die Suche in den Logdaten und daraus generierte Berichte. Die Quellen für Logdaten sind vielfältig und reichen von Betriebssystemen und Applikationen über Netzwerkgeräte bis zu Sicherheits- und Überwachungseinrichtungen. Mit der Virtualisierung von Servern kommen die Host- Systeme als neue Bestandteile der IT-Landschaft hinzu, die ebenfalls große Mengen an Logdaten generieren. In der Summe erhöhen sich damit nicht nur die Logvolumina erheblich, sondern auch die Zahl der Logformate nimmt in gleicher Weise zu. Die Möglichkeit einer sinnvollen manuellen Auswertung und Analyse wird dagegen immer geringer. Dies gilt besonders dann, wenn Logdaten miteinander korreliert werden müssen, um Beurteilungen 107
Seite 1 und 2:
Big-Data-Technologien - Wissen für
Seite 3 und 4:
Seite 5 und 6:
Seite 7 und 8:
Seite 9 und 10:
Seite 11 und 12:
Seite 13 und 14:
Seite 15 und 16:
Seite 17 und 18:
Seite 19 und 20:
Seite 21 und 22:
Seite 23 und 24:
Seite 25 und 26:
Seite 27 und 28:
Seite 29 und 30:
Seite 31 und 32:
Seite 33 und 34:
Seite 35 und 36:
Seite 37 und 38:
Seite 39 und 40:
Seite 41 und 42:
Seite 43 und 44:
Seite 45 und 46:
Seite 47 und 48:
Seite 49 und 50:
Seite 51 und 52:
Seite 53 und 54:
Seite 55 und 56:
Seite 57 und 58: Big-Data-Technologien - Wissen für
Seite 107: Big-Data-Technologien - Wissen für
Seite 159 und 160:
Seite 161 und 162:
Seite 163 und 164:
Seite 165 und 166:
Seite 167 und 168:
Seite 169 und 170:
Seite 171 und 172:
Seite 173 und 174:
Seite 175 und 176:
Seite 177 und 178:
Seite 179 und 180:
Seite 181 und 182:
Seite 183 und 184:
Seite 185 und 186:
Seite 187 und 188:
Seite 189 und 190:
Seite 191 und 192:
Seite 193 und 194:
Seite 195 und 196:
Seite 197 und 198:
Seite 199 und 200:
Seite 201 und 202:
Seite 203 und 204:
Seite 205 und 206:
Seite 207 und 208:
Alle anzeigen

w26M2

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?