Berlin-Brandenburger Graduiertenkolleg
Berlin-Brandenburger Graduiertenkolleg
Berlin-Brandenburger Graduiertenkolleg
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Forschungsprojekte<br />
Data Mining/Web Mining<br />
Data Mining ist der Prozess der nicht-trivialen Entdeckung<br />
von impliziter, vorher unbekannter und potenziell nützlicher<br />
Information. Damit ist Data Mining ein Kernelement der<br />
Wissensentdeckung (Knowledge Discovery), die mit der Integration,<br />
Reinigung und Auswahl der relevanten Daten beginnt.<br />
Sie beinhaltet die Präsentation des entdeckten Wissens<br />
in einer Form, die nicht nur für den Data-Mining-<br />
Analysten verständlich ist, sondern auch für den Domänenexperten,<br />
der aus den Mining-Resultaten Handlungsempfehlungen<br />
ableiten soll. Zu den erfolgreichen Anwendungen<br />
des Data Mining zählen die Analyse von Gen-Mustern, das<br />
Graphen-Mining im Finanzwesen oder auch die Analyse<br />
von Kundenverhalten im Marketing.<br />
Das Institut für Wirtschaftsinformatik entwickelt und erforscht<br />
ein breites Spektrum von Data-Mining-Anwendungen<br />
mit Schwerpunkten auf Web-Applikationen in Bildung,<br />
B2C-Handel und Wissensmanagement. Insbesondere entwickeln<br />
und analysieren wir Mining-Methoden und -Werkzeuge<br />
für die explorative Analyse von Verhaltensdaten. Ein<br />
anderer Fokus ist der Übergang von der (derzeit noch dominanten)<br />
zeitpunktgebundenen Datenanalyse, die implizit<br />
eine Stationarität der beschriebenen Domänen voraussetzt,<br />
zur Analyse der Dynamik solcher Daten (die i.d.R. zu komplex<br />
sind, um mit Standardverfahren zur Zeitreihenanalyse<br />
untersucht zu werden).<br />
Web Mining bezeichnet die Anwendung traditioneller Data-<br />
Mining-Techniken auf Web-Ressourcen sowie die Weiterentwicklung<br />
dieser Techniken zur Berücksichtigung der spezifischen<br />
Strukturen von Webdaten. Die analysierten Web-<br />
Ressourcen beinhalten (1) die eigentlichen Webseiten, (2)<br />
die diese Seiten verbindenden Hyperlinks sowie (3) die Wege,<br />
die Online-Nutzer durch das Web nehmen. Web Usage<br />
Mining ist die Ableitung nützlichen Wissens aus diesen Inputdaten.<br />
Dies erfordert zum einen ein Verständnis und eine<br />
formale Modellierung des Verhaltens in der untersuchten<br />
Domäne, zum anderen eine Abbildung der Inputdaten in<br />
diese Modelle. Methoden und Techniken des Semantic Web<br />
liefern hier interessante Impulse, des Weiteren steht die<br />
Entwicklung von Visualisierungen als wichtigem Design-<br />
Element nutzerorientierter Mining-Systeme im Vordergrund<br />
unserer Bemühungen.<br />
Nutzerverhalten und Datenverfügbarkeit ändern sich im<br />
Laufe der Zeit. Daher ist die Dynamik einer Domäne eine<br />
wichtige Frage in jeder Mining-Analyse und in jeder Präsentation<br />
von Mining-Resultaten für den Domänen-Experten.<br />
Bei Aktualisierungen erscheint es ausreichend, auch die<br />
bisher entdeckten Muster zu aktualisieren. Die Datensammlung<br />
über eine längere Zeitdauer schafft eine andere Situation.<br />
Die Daten erfahren hierbei nur eine Art von Änderung:<br />
Einfügungen, da ausschließlich Daten hinzugefügt werden.<br />
Die Verteilung der Entitäten im Datensatz kann sich aufgrund<br />
externer und/oder interner Faktoren ändern. Aufgrund<br />
dieser Änderungen können sich auch die in den Daten entdeckten<br />
Muster über die Zeit ändern (Muster-Evolution). Es<br />
gibt zwei Arten von Muster-Änderung: Änderungen im Inhalt<br />
eines Musters, also in der Beziehung in den Daten, die dieses<br />
Muster reflektiert, und Änderungen in den statistischen<br />
Maßen eines Musters. Beide Arten von Änderungen können<br />
einen starken Einfluss auf den Entscheidungsprozess haben<br />
und sollten daher überwacht werden. Die Muster-Überwachung<br />
benötigt zunächst ein Datenmodell, welches explizit<br />
eine zeitliche Komponente beinhaltet, die ein spezifisches<br />
Muster auf die entsprechende Zeit-Einheit abbildet.<br />
Eine zweite Frage ist die Auswahl der zu überwachenden<br />
Muster. Selbst bei kleineren Datenmengen ist die Zahl der<br />
entdeckten Muster häufig sehr groß. In diesen Fällen muss<br />
der Analyst eine handhabbare Untermenge der Muster<br />
auswählen. Unsere Forschung konzentriert sich derzeit auf<br />
die formale Beschreibung von Musterevolution und -<br />
Überwachung, die Entwicklung effizienter Algorithmen für<br />
diese Aufgaben sowie die Implementierung geeigneter<br />
Werkzeuge.<br />
Enge Verbindungen gibt es zu den Forschungsschwerpunkten<br />
„Wissensmanagement“ und „Datenschutz und Sicherheit“.<br />
Insbesondere Fragen des Wissensmanagements sind<br />
relevant, da die Webnutzung in der Regel den Zugriff auf<br />
Informationen und somit den Aufbau von Wissen impliziert.<br />
Beteiligte Personen<br />
Dipl.-Kfm. Steffan Baron, Prof. Dr. Bettina Berendt, Prof.<br />
Oliver Günther, Ph.D., Dipl.-Wi.-Ing. Maximilian Teltzrow<br />
Ausgewählte Publikationen<br />
Baron, S., Spiliopoulou, M., Günther, O.: Efficient Monitoring<br />
of Patterns in Data Mining Environments.<br />
In Proc. Seventh East-European Conference on Advance in<br />
Databases and Information Systems (ADBIS 2003),<br />
Dresden, Germany. Springer 2003<br />
Berendt, B.: Using site semantics to analyze, visualize, and<br />
support navigation. Data Mining and Knowledge<br />
Discovery, 6, 37-59, 2002<br />
Berendt, B., Brenstein, E.: Visualizing Individual Differences<br />
in Web Navigation: STRATDYN, a Tool for Analyzing<br />
Navigation Patterns. Behavior Research Methods,<br />
Instruments, & Computers, 33, 243-257, 2001<br />
Berendt, B., Spiliopoulou, M.: Analyzing navigation behaviour<br />
in web sites integrating multiple information<br />
systems. The VLDB Journal, 9, 56-75, 2000<br />
Spiliopoulou, M., Pohle, C., Teltzrow, M.: Modelling Web<br />
Site Usage with Sequences of Goal-Oriented Tasks,<br />
In Proc. Multikonferenz Wirtschaftsinformatik,<br />
in: E-Commerce - Netze, Märkte, Technologien,<br />
Physica-Verlag, Heidelberg, 2002.<br />
Wirtschaftsinformatik an der HU <strong>Berlin</strong> 5