11.01.2013 Aufrufe

Berlin-Brandenburger Graduiertenkolleg

Berlin-Brandenburger Graduiertenkolleg

Berlin-Brandenburger Graduiertenkolleg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Forschungsprojekte<br />

Data Mining/Web Mining<br />

Data Mining ist der Prozess der nicht-trivialen Entdeckung<br />

von impliziter, vorher unbekannter und potenziell nützlicher<br />

Information. Damit ist Data Mining ein Kernelement der<br />

Wissensentdeckung (Knowledge Discovery), die mit der Integration,<br />

Reinigung und Auswahl der relevanten Daten beginnt.<br />

Sie beinhaltet die Präsentation des entdeckten Wissens<br />

in einer Form, die nicht nur für den Data-Mining-<br />

Analysten verständlich ist, sondern auch für den Domänenexperten,<br />

der aus den Mining-Resultaten Handlungsempfehlungen<br />

ableiten soll. Zu den erfolgreichen Anwendungen<br />

des Data Mining zählen die Analyse von Gen-Mustern, das<br />

Graphen-Mining im Finanzwesen oder auch die Analyse<br />

von Kundenverhalten im Marketing.<br />

Das Institut für Wirtschaftsinformatik entwickelt und erforscht<br />

ein breites Spektrum von Data-Mining-Anwendungen<br />

mit Schwerpunkten auf Web-Applikationen in Bildung,<br />

B2C-Handel und Wissensmanagement. Insbesondere entwickeln<br />

und analysieren wir Mining-Methoden und -Werkzeuge<br />

für die explorative Analyse von Verhaltensdaten. Ein<br />

anderer Fokus ist der Übergang von der (derzeit noch dominanten)<br />

zeitpunktgebundenen Datenanalyse, die implizit<br />

eine Stationarität der beschriebenen Domänen voraussetzt,<br />

zur Analyse der Dynamik solcher Daten (die i.d.R. zu komplex<br />

sind, um mit Standardverfahren zur Zeitreihenanalyse<br />

untersucht zu werden).<br />

Web Mining bezeichnet die Anwendung traditioneller Data-<br />

Mining-Techniken auf Web-Ressourcen sowie die Weiterentwicklung<br />

dieser Techniken zur Berücksichtigung der spezifischen<br />

Strukturen von Webdaten. Die analysierten Web-<br />

Ressourcen beinhalten (1) die eigentlichen Webseiten, (2)<br />

die diese Seiten verbindenden Hyperlinks sowie (3) die Wege,<br />

die Online-Nutzer durch das Web nehmen. Web Usage<br />

Mining ist die Ableitung nützlichen Wissens aus diesen Inputdaten.<br />

Dies erfordert zum einen ein Verständnis und eine<br />

formale Modellierung des Verhaltens in der untersuchten<br />

Domäne, zum anderen eine Abbildung der Inputdaten in<br />

diese Modelle. Methoden und Techniken des Semantic Web<br />

liefern hier interessante Impulse, des Weiteren steht die<br />

Entwicklung von Visualisierungen als wichtigem Design-<br />

Element nutzerorientierter Mining-Systeme im Vordergrund<br />

unserer Bemühungen.<br />

Nutzerverhalten und Datenverfügbarkeit ändern sich im<br />

Laufe der Zeit. Daher ist die Dynamik einer Domäne eine<br />

wichtige Frage in jeder Mining-Analyse und in jeder Präsentation<br />

von Mining-Resultaten für den Domänen-Experten.<br />

Bei Aktualisierungen erscheint es ausreichend, auch die<br />

bisher entdeckten Muster zu aktualisieren. Die Datensammlung<br />

über eine längere Zeitdauer schafft eine andere Situation.<br />

Die Daten erfahren hierbei nur eine Art von Änderung:<br />

Einfügungen, da ausschließlich Daten hinzugefügt werden.<br />

Die Verteilung der Entitäten im Datensatz kann sich aufgrund<br />

externer und/oder interner Faktoren ändern. Aufgrund<br />

dieser Änderungen können sich auch die in den Daten entdeckten<br />

Muster über die Zeit ändern (Muster-Evolution). Es<br />

gibt zwei Arten von Muster-Änderung: Änderungen im Inhalt<br />

eines Musters, also in der Beziehung in den Daten, die dieses<br />

Muster reflektiert, und Änderungen in den statistischen<br />

Maßen eines Musters. Beide Arten von Änderungen können<br />

einen starken Einfluss auf den Entscheidungsprozess haben<br />

und sollten daher überwacht werden. Die Muster-Überwachung<br />

benötigt zunächst ein Datenmodell, welches explizit<br />

eine zeitliche Komponente beinhaltet, die ein spezifisches<br />

Muster auf die entsprechende Zeit-Einheit abbildet.<br />

Eine zweite Frage ist die Auswahl der zu überwachenden<br />

Muster. Selbst bei kleineren Datenmengen ist die Zahl der<br />

entdeckten Muster häufig sehr groß. In diesen Fällen muss<br />

der Analyst eine handhabbare Untermenge der Muster<br />

auswählen. Unsere Forschung konzentriert sich derzeit auf<br />

die formale Beschreibung von Musterevolution und -<br />

Überwachung, die Entwicklung effizienter Algorithmen für<br />

diese Aufgaben sowie die Implementierung geeigneter<br />

Werkzeuge.<br />

Enge Verbindungen gibt es zu den Forschungsschwerpunkten<br />

„Wissensmanagement“ und „Datenschutz und Sicherheit“.<br />

Insbesondere Fragen des Wissensmanagements sind<br />

relevant, da die Webnutzung in der Regel den Zugriff auf<br />

Informationen und somit den Aufbau von Wissen impliziert.<br />

Beteiligte Personen<br />

Dipl.-Kfm. Steffan Baron, Prof. Dr. Bettina Berendt, Prof.<br />

Oliver Günther, Ph.D., Dipl.-Wi.-Ing. Maximilian Teltzrow<br />

Ausgewählte Publikationen<br />

Baron, S., Spiliopoulou, M., Günther, O.: Efficient Monitoring<br />

of Patterns in Data Mining Environments.<br />

In Proc. Seventh East-European Conference on Advance in<br />

Databases and Information Systems (ADBIS 2003),<br />

Dresden, Germany. Springer 2003<br />

Berendt, B.: Using site semantics to analyze, visualize, and<br />

support navigation. Data Mining and Knowledge<br />

Discovery, 6, 37-59, 2002<br />

Berendt, B., Brenstein, E.: Visualizing Individual Differences<br />

in Web Navigation: STRATDYN, a Tool for Analyzing<br />

Navigation Patterns. Behavior Research Methods,<br />

Instruments, & Computers, 33, 243-257, 2001<br />

Berendt, B., Spiliopoulou, M.: Analyzing navigation behaviour<br />

in web sites integrating multiple information<br />

systems. The VLDB Journal, 9, 56-75, 2000<br />

Spiliopoulou, M., Pohle, C., Teltzrow, M.: Modelling Web<br />

Site Usage with Sequences of Goal-Oriented Tasks,<br />

In Proc. Multikonferenz Wirtschaftsinformatik,<br />

in: E-Commerce - Netze, Märkte, Technologien,<br />

Physica-Verlag, Heidelberg, 2002.<br />

Wirtschaftsinformatik an der HU <strong>Berlin</strong> 5

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!