Big Data erfordert Big Data Management - Uniserv
Big Data erfordert Big Data Management - Uniserv
Big Data erfordert Big Data Management - Uniserv
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
ExpErtENiNtErviEW<br />
speichern und auswerten und bilden so häufig die Klammer<br />
um die verschiedenen Daten-Welten.<br />
Dr. Wolfgang Martin:<br />
Eine <strong>Big</strong>-<strong>Data</strong>-Architektur lehnt sich an traditionelle Architekturen<br />
an. Die unterste Schicht ist die der Datenhaltung.<br />
Hier brauchen wir jetzt alternative, hoch-performante<br />
Technologien zur Datenhaltung, die die relationalen Technologien<br />
ergänzen. Auf der Datenhaltungsschicht sitzt<br />
Information <strong>Management</strong>, das zunächst einmal die traditionellen<br />
Komponenten wie Integrationsplattform, Repository<br />
und <strong>Data</strong> Quality <strong>Management</strong> enthält, dann aber<br />
auch neue wie Quellenidentifikation mittels Suchmaschinen<br />
und Extraktionswerkzeuge, die auch ohne APIs Daten extrahieren<br />
können. Hier werden verstärkt In-Memory und<br />
Parallelverarbeitung Einzug halten. Schließlich folgt die<br />
Analytik-Schicht, wo jetzt <strong>Data</strong> Discovery eine große Rolle<br />
spielt. Wichtig ist auch neben <strong>Data</strong> und Text Mining die Textanalytik,<br />
die sich insbesondere mittels linguistischer Verfahren<br />
gut für die Analyse unstrukturierter Daten eignet.<br />
Weiterhin spielen in der Analytik jetzt auch Suchmaschinen<br />
eine bedeutende Rolle. Dazu kommen noch Anreicherungsverfahren<br />
wie Geocoding, um all die Lokalisierungsdaten<br />
aus dem mobilen Internet auch gewinnbringend in Analysen<br />
und Prozessen nutzen zu können.<br />
4<br />
Holger Stelz, Director Business Development<br />
& Marketing, UNISERV GmbH.<br />
Datenqualität & Datenintegration trifft <strong>Big</strong> <strong>Data</strong>. Wie be-<br />
einflusst die Datenqualität <strong>Big</strong>-<strong>Data</strong>-<strong>Management</strong>?<br />
Holger Stelz<br />
Das Paradigma „der Prozess bestimmt die Datenqualität“<br />
ändert sich auch bei <strong>Big</strong> <strong>Data</strong> nicht. Datenqualität ist auch<br />
bei <strong>Big</strong> <strong>Data</strong> von enormer Bedeutung. Vor allem dann,<br />
wenn – wie schon von mir angesprochen – Unternehmens-<br />
daten mit Informationen aus <strong>Big</strong> <strong>Data</strong> angereichert wer-<br />
den. Wenn also beispielsweise Kundendaten durch Daten<br />
aus den sozialen Medien ergänzt werden sollen, zum Beispiel<br />
bei den benutzerangepassten Suchergebnissen einer<br />
Google-Suche. Eine hohe Datenqualität muss bereits vor<br />
der Datenanalyse gewährleistet sein – am besten schon<br />
bei der Dateneingabe beziehungsweise Datenerhebung.<br />
Denn erst eine einheitliche, qualitativ hochwertige Datenbasis<br />
versetzt die Anwender in die Lage, Daten schnell zu<br />
analysieren und so beispielsweise rechtzeitig auf Markttendenzen<br />
zu reagieren. Die Grundaufgaben von <strong>Data</strong><br />
<strong>Management</strong> in Bezug auf <strong>Big</strong> <strong>Data</strong> bleiben dabei die<br />
gleichen: Profiling, Cleansing sowie Anreichern und Abgleichen<br />
mit Referenzdaten. Aber auch hier steigt im Bereich<br />
<strong>Big</strong> <strong>Data</strong> die Bedeutung von Datenqualität: Das Schaffen<br />
des Single Point of Truth ist beim gegebenen Datenvolumen<br />
schwieriger geworden und auch die Anforderungen<br />
an die Performance der Datenqualitätslösungen sind stark<br />
angewachsen.<br />
Dr. Wolfgang Martin<br />
In der Vergangenheit hatten wir uns stets bemüht, den Single<br />
Point of Truth herzustellen und zu bewahren. Das wird<br />
nicht mehr so wie bisher, also deterministisch, im <strong>Big</strong> <strong>Data</strong><br />
machbar sein, da eine Konsistenz über alle Datenquellen<br />
in der Regel nicht mehr erreichbar sein wird. Daher wird<br />
der Single Point of Truth eher mit wahrscheinlichkeitstheoretischen<br />
Ansätzen formuliert und definiert werden<br />
müssen. Mit diesen Überlegungen stehen wir aber noch<br />
ganz am Anfang.<br />
Holger Stelz<br />
Um auch mit <strong>Big</strong> <strong>Data</strong> im Unternehmen den Single Point of<br />
Truth anzustreben, müssen neben der Performance auch<br />
die Service-Orientierung der Werkzeuge, die Services selbst<br />
und die Plattformen stimmen. Denkbar ist hier zum Beispiel<br />
der Einsatz von hybriden Cloud-Lösungen, bei denen<br />
bestimmte Services in der Cloud zur Verfügung stehen und<br />
andere wiederum on demand abgerufen werden können.