Neuantrag auf GewÃ¤hrung einer Sachbeihilfe bei der Deutschen Fo

- A1 -Antrag auf Fortsetzungeiner Sachbeihilfe bei der Deutschen ForschungsgemeinschaftInhalt: Dieses Dokument ist in zwei Teile untergliedert: Teil A fasst die bisherigen Ergebnissedes von der DFG geförderten Projektes IST-P2P zusammen. Teil B beschreibt diegeplanten Arbeiten und stellt den eigentlichen Antrag auf eine Fortsetzung der Förderungdar.Teil A: Zwischenbericht zum geförderten Forschungsvorhaben IST-P2PAutoren (alphabetisch):Thomas Böhme, Robert Eberhardt, Gregor Heinrich, Gerhard Heyer,Herwig Unger, Hans Friedrich Witschel, Markus WulffZusammenfassung: Im Projekt IST-P2P („SemPIR“ 1 ) sollte die Volltextsuche in Peer-to-Peer-Netzen mit sowohl geringer Netzwerklast als auch geringer Datenhaltung realisiertwerden. Wichtigste Aspekte dieser Arbeit waren die Konzeption eines inhaltsbasiertenSuchmechanismus, die Auswahl geeigneter semantischer Analyseverfahren, die Implementierungeines prototypischen Peer-to-Peer-Systems sowie dessen prinzipielle Evaluierungdurch Simulationen.1 EinleitungViele Unternehmen sehen sich durch die rasant fortschreitende Digitalisierung von Medienund Kommunikation mit dem Problem konfrontiert, ihre Daten konsistent und logisch strukturiertzu verwalten. Häufig wird dieses Problem durch verteilte Strukturen (Filialen, Zweigstellen,Zulieferer, mobile Mitarbeiter) noch verstärkt. Die häufig verwendeten zentralisiertenStrukturen (Server, Datenbanken) sind zudem ein wesentlicher Angriffspunkt bezüglich Systemsicherheitund Datenschutz. Zudem ist für den fortlaufenden Betrieb der zentralisiertenArchitekturen oft großer Wartungs- und Aktualisierungsaufwand notwendig.Im Projekt wurde ein neuartiges Suchsystem für virtuelle Gemeinschaften erarbeitet, welchesdurch Lokalisierung wichtiger Aufgaben in einer Community mithilfe von Peer-to-Peer-Technologieeinige wesentliche Mängel zentralisierter Ansätze behebt:● Informationen können lokal so bereitgestellt werden, dass zwar ihr Standort, aber nichtunbedingt ihr Inhalt global bekannt gemacht werden muss. Diese Lokalisierung gibtdem Benutzer einen höheren Grad von Kontrolle als bei zentralisierten Ansätzen, wieauf die von ihm bereitgestellte Information zugegriffen wird. So kann einerseits dasAuffinden und das Herunterladen von lokalen Dokumenten auch lokal gesteuert werden,andererseits lassen sich kritische Personalisierungsinformationen lokal speichernund der „gläserne Benutzer“ vermeiden.● Das Einbringen von Inhalten in ein Content-Management-System kann langwierig undaufwendig sein: Oft gelangen neue Dokumente nur nach einem Redaktionsprozess insSystem. Das Einfügen eines Dokumentes in ein Peer-to-Peer-Netzwerk ist sehr vielunkomplizierter und erleichtert so das Einbringen „halboffizieller“ Information, wiesie häufig bei akademischer oder kommerzieller Projektarbeit vorkommen.1Im Projekt hatte sich die Arbeitsbezeichnung Semantic Peer-to-Peer Information Retrieval (SemPIR) für dasProjekt eingebürgert, die ursprünglich für die entstandene Software gedacht war. Als Projektkürzel sind beideBezeichnungen synomym.

- A2 -● Statisch vernetzte Gemeinschaften haben oft Schwierigkeiten, sich an neue Anforderungenanzupassen. Peer-to-Peer-Infrastruktur kann über Selbstorganisation die Strukturvirtueller Communities und vor allem deren dynamische Entwicklung besser abbildenals zentralistische Ansätze, wenn die Peer-to-Peer-Netzwerkstrukturen durch geeigneteVerfahren anhand von realen Strukturen aufgebaut werden. So werden mit einemsemantischen Strukturierungsansatz Menschen, die an ähnlichen Problemen arbeiten,auf Systemebene vernetzt. Dies kann zur Aufdeckung unbekannter Gemeinsamkeitenund somit zu neuen Synergien führen. Nebeneffekte der verteilten Architektursind schließlich erhöhte Ausfallsicherheit und Kosteneinsparung bei der Wartung,da die Pflege zentraler Server entfällt.Im folgenden werden die Hauptergebnisse des Projektes vorgestellt. Die Abschnitte in diesemBericht entsprechen den jeweiligen Schritten, in denen die Forschungs- und Entwicklungsarbeitendurchgeführt und die Ergebnisse erzielt wurden. In einer einleitenden Konzeptionsphase(Abschnitt 2.1) wurden die Ansätze für die semantische Peer-to-Peer-Netzwerk-Strukturierungund die Suchstrategie auf Grundlage der im Antrag skizzierten Ideen detailliert erarbeitet.Diese Ansätze wurden simulativ verifiziert (Abschnitt 2.2), wobei die prinzipielle Eignunggezeigt werden konnte. Aufbauend darauf wurde nun nach geeigneten Textanalyseverfahrengesucht und erforscht, wie vorhandene Verfahren weiterentwickelt werden können. Durch Simulationwurden verschiedene Ansätze evaluiert und der geeignetste ausgewählt (Abschnitt2.3). Auf Grundlage der Verfahren zur Peer-to-Peer-Netzwerkstrukturierung, -suche sowie Inhaltsanalysewurde eine Architektur für ein semantisches Peer-to-Peer-Suchsystem konzipiertund prototypisch implementiert. Hierfür wurden außerdem Protokolle und Verfahren zur Optimierungder Kommunikation im Peer-to-Peer-Netzwerk entwickelt (Abschnitt 2.4). Um dasentstandene Gesamtsystem unter möglichst realen Bedingungen zu simulieren, wird gegenwärtigdie Implementierung einer Simulationsumgebung abgeschlossen, mit der bis zum Projektendedie bereits mit den Teilsimulationen gemachten Ergebnisse unter Verwendung desimplementierten Prototypen bestätigt werden sollen (Abschnitt 2.5). Abschließend wird aufdie Verbreitung der wissenschaftlichen Ergebnisse dieser inhaltlichen Arbeiten eingegangen(Abschnitt 2.6).2 Projektdurchführung und Ergebnisse2.1 Konzeption des Small-World-AnsatzesAls Ausgangspunkt der konzeptionellen Arbeiten diente die Überlegung, dass Informationssucheauch auf dem in der sozialen Struktur der Gesellschaft „implizit gespeicherten“ Wissenberuht: Es ist für einen Anfrager oftmals hinreichend zu wissen, welcher seiner BekanntenKenntnisse über ein fragliches Thema besitzt, um die gewünschte Information zu erhalten.Der Befragte kann dann selbst antworten und/oder die Anfrage an einen ihm bekannten, nochbesser zur Anfrage passenden Experten weiterleiten, der selbst entweder antwortet und/oderabermals weiterleitet usw. Diese Idee fußt maßgeblich auf einer ursprünglich von Stanley Milgram[1967] nachgewiesenen Eigenschaft von sozialen Netzwerken, dass die Pfade zwischenbeliebigen ihrer Knoten (Mitglieder einer Gesellschaft) nur wenige Bekanntschaftsverbindungenlang sind. Selbst hochspezialisierte Experten sollten sich somit von jedem Knoten (Anfrager)im sozialen Netzwerk aus über wenige Verbindungen finden lassen. Für Netzwerke mitdiesen Eigenschaften wurde der Begriff „small world“ geprägt, der nach der Definition vonWatts & Strogatz solche Graphen bezeichnet, die einen hohen Clustering-Koeffizienten beigeringer mittlerer Pfadlänge aufweisen [1998]. Jon Kleinberg erkannte [2000], dass zur effizientenAusnutzung solcher Netzwerkeigenschaften für einen Anfrager klar sein muss, in welcheRichtung er sich nach Antworten umsehen muss („latent navigational cues“).

- A3 -Während der Konzeptionsphase des Projekts wurde ein Verfahren entwickelt, das die genanntenSmall-World-Eigenschaften sozialer Netzwerke auf ein Netzwerkmodell für inhaltsbasiertePeer-to-Peer-Suche überträgt und damit die im Antrag beschriebene Idee detailliert. DiesesOverlay-Netzwerk (über das physische Netzwerk „gelegte“ Netzwerk) soll sich selbständigaus den Textdaten der Peers strukturieren und die Routing-Vorgänge bei der Suche steuern.Experten und Anfrager im obigen Beispiel stehen in Analogie zu Peers, Wissen und Suchinteressenrealer Personen in Analogie zu Textinhalten in Dokumenten und Suchanfragen.Profile. Für die Repräsentation von Peers, Dokumenten und Suchanfragen wurden Profileeingeführt, die Textinhalte in komprimierter Form widerspiegeln und semantisch vergleichbarmachen. Als prinzipiell sinnvoller Ansatz zur Textrepräsentation wurde das Vektor-Space-Modellangesehen. Ein Peer-Profil sollte dabei durch Summierung von Dokumenten-Profilen gebildetwerden. Um eine kompakte, netzwerkeffiziente Beschreibung zu erhalten, wurde imKonzept die Länge der Profil-Vektoren auf die signifikantesten Begriffe beschränkt.Im folgenden werden die beiden Algorithmen zur Strukturbildung und Suche beschrieben. Dadie Strukturbildung das Verfahren der Suche benutzt, soll letztere zuerst beschrieben werden.Suche. Die Suche in dem Overlay-Netzwerk wurde aus der oben beschriebenen Expertenanfrageheraus konzipiert: Erhält ein Peer P eine Anfrage Q, so durchsucht er zunächst seine eigeneBibliothek nach Dokumenten, welche zu Q passen. Falls dies erfolgreich ist, werden dieProfile der Dokumente an Q angehängt. P wählt sodann denjenigen seiner Nachbarn aus, dessenProfil Q am ähnlichsten ist und leitet die Anfrage nur an ihn weiter. Dies geschieht solange,bis die time-to-live (TTL) der Suchanfrage-Nachricht abgelaufen ist, woraufhin die Anfragedirekt zu P zurückgeleitet wird. Um Schleifen zu vermeiden, trägt außerdem jeder Peer seineAdresse in das Log der Nachricht ein: Q wird daraufhin nicht an Peers weitergeleitet, welchebereits im Log enthalten sind.Aufgrund der Struktur der Small World kann die Suche als eine Form von Hill Climbing interpretiertwerden: Die Nachricht bewegt sich hin zu (semantisch relativ homogenen) Peer-Clustern,die immer besser zur Anfrage passen. Ist der richtige Cluster gefunden, so kann aufgrundder starken Vernetzung innerhalb des Clusters schnell der beste Peer für die Anfrage identifiziertwerden.Strukturbildung. Zur Strukturbildung (oder Selbstorganisation) des Small-World-Overlay-Netzwerkes wurde ein Gossiping-Verfahren (aktive Verteilung von Peer-Profilen) entwickelt.Dabei stellt jeder Peer P periodisch Anfragen nach seinem eigenen Profil an seine Nachbarn,welche mit Hilfe des beschriebenen Suchverfahrens verarbeitet werden. Der einzige Unterschiedzur Suche besteht darin, dass im Falle des Gossipings Peers zusätzlich zu ihrer Adresseauch ihr Profil in das Log der Nachricht eintragen. Erhält P nun die Antwort auf seine Anfrage,so kann er die Einträge des Logs inspizieren und sich evtl. neue Nachbarn wählen. Damitauch andere Peers von Ps Existenz erfahren können, kann jeder Peer, welcher die Gossiping-Nachricht weiterleitet, ebenfalls deren Log inspizieren.Für die Auswahl von Nachbarn werden dabei jeweils semantische Ähnlichkeiten der Peer-Profile herangezogen, was ein Clustering semantisch ähnlicher Peers bewirkt (Cluster-Strategie:Experten mit gleichem fachlichen Hintergrund kennen sich wahrscheinlicher als fachfremde).Außerdem wurde die Möglichkeit von semantisch unähnlichen Verbindungen zwischenKnoten im Netzwerk erlaubt (Intergroup-Strategie: Experten haben auch fachübergreifendeBekanntschaften), was die maximalen Radien im Netzwerk verkürzt und Brücken zwischensemantischen Clustern bildet. Die mittels beider Strategien gefundenen Nachbarn wer-

- A4 -den getrennt betrachtet, wobei die zugelassenen Größen der Mengen „Cluster-Nachbarn“ und„Intergroup-Nachbarn“ die Struktur des sich bildenden Overlay-Netzwerkes maßgeblich beeinflussen.Zu bemerken ist, dass die Cluster-Nachbarn eines Peers für den menschlichen Betrachter vongroßem Interesse sein können, da es sich bei den Betreibern von im Overlay-Netzwerk nahenPeers oft um Menschen handelt, welche sich mit ähnlichen Fragestellungen beschäftigen. EineOffenlegung dieser Strukturen kann also für den menschlichen Betrachter interessant sein.Caching. Als eine weitere Möglichkeit der Nutzung von Cluster-Informationen wurde ein Caching-Verfahrenentwickelt, d.h. die Speicherung von Informationen aus dem Gossiping-Prozess.Wie bei der normalen Suche wird auch beim Gossiping auf jedem Peer nach passendenDokumenten gesucht, und deren Vektoren werden an die Anfrage angehängt. Das bedeutet,dass der Peer, welcher nach seinem eigenen Profil gefragt hat, eine Liste von Dokumenten alsAntwort erhält, welche gut zu seinem Profil passen. Bei genügend verfügbarem Speicherplatzkönnen diese Dokumenten-Profilvektoren (oder die Dokumente selbst) auf dem Peer gespeichertwerden. Dies ist einerseits für den Benutzer interessant – als eine Art automatischer Literaturrecherche,welche seinen Dokumentenbestand semantisch homogen erweitert. Andererseitswird der Peer durch die Einbeziehung des neuen Wissens mehr Anfragen zu seinem Spezialgebietbeantworten können.Eine detaillierte Beschreibung des Strukturierungs- und Such-Ansatzes und der damit verbundenenAlgorithmen findet sich in Witschel & Unger [2005].2.2 Simulative Verifikation des Small-World-AnsatzesZur Verifikation des Small-World-Ansatzes wurde die prinzipielle Funktionsweise mit abstrahiertenInhalten simulativ überprüft. Hierfür wurde eine Simulationsumgebung mit Hilfe desNetzwerksimulators OMNeT++ [2005] implementiert. Es sollte durch Vergleich verschiedenerSimulationsläufe herausgefunden werden, wie das Verhalten des Systems bei Strukturbildungund Suche sich mit den verschiedenen Strategien verändert:● Lauf 1: Reine Clustering-Strategie: Strukturierung behält nur ähnliche Nachbarn.● Lauf 2: Kombinierte Clustering- und Intergroup-Strategien: Strukturierung soll Small-World-Charakter erzeugen.● Lauf 3: Clustering- und Intergroup-Strategien mit Caching. Im Experiment waren fürjeden Peer fünfmal soviele gecachte Dokumente wie eigene erlaubt.● Lauf 4: Zufallsgraph.Bei der Simulation wurde mit zufällig generierten synthetischen „Dokumenten“ gearbeitet,die statt durch Wörter durch 50 synthetische Kategorien dargestellt wurden. Für die Durchführungdes Experiments wurden 8000 Peers mit insgesamt 10000 verschiedenen Dokumentenversehen. Dabei wurde die Interessenverteilung der Peers durch die zufällige Zuordnungvon bis zu 3 Kategorien modelliert. Die Dokumente erhielten ebenfalls Kategorien und wurdenden Peers so zugeteilt, dass (1) jedes Dokument eine Kategorie aus den Interessen desPeers enthält und (2) dass die Zahl der Dokumente der Peers einer Power-Law-Verteilung entsprach.Vereinfachend wurde bei diesen Simulationen das Online-Verhalten (Churn) außeracht gelassen, und jeder Peer hatte mindestens ein Dokument (kein Freeriding). Zu Anfangder Simulation erhielt zudem jeder Peer die Adressen von drei zufällig gewählten anderenPeers (seine initiale Nachbarschaft).

- A5 -Ergebnisse Strukturbildung. Die Strukturbildung der Overlay-Netzwerkes führte zu Ergebnissen,die in Witschel & Unger [2005] detailliert diskutiert werden. Eine Übersicht findetsich in der Tabelle in Abb. 1. So ergab sich für die reine Clustering-Strategie ein stark zerteiltesNetz mit 6829 Einzelkomponenten. Die kombinierte Clustering- und Intergroup-Strategiehingegen erzeugte ein wesentlich zusammenhängenderes Netz mit 135 Komponenten, wobeider Ausgangswert vor der Strukturierung 445 war. Die Clusterkoeffizienten waren in allenDurchläufen wesentlich höher als im Zufallsgraphen, die mittlere Weglänge hingegen nur unwesentlichgrößer, was klar als Small-World-Struktur interpretiert werden kann [Watts & Strogatz1998].Abb. 1 Eigenschaften der gebildeten Netzwerkstrukturen.Ergebnisse Suche. Zur Simulation der Suche in den gebildeten Overlay-Netzwerken wurden100 Peers zufällig ausgewählt, welche jeweils nacheinander Anfragen nach allen 50 Kategoriengenerierten. Zur Bewertung der Suchqualität wurde der Recall (d.h. die Anzahl gefundenerrelevanter Dokumente im Vergleich zu einer zentralisierten Suche) gemessen sowie die Anzahlder Weiterleitungen zwischen Peers (time-to-live, TTL, s. Abschnitt 2.1), die für den jeweiligenRecallwert benötigt wurden. Abb. 2 zeigt den Recall als Funktion der TTL.Abb. 2. Recall und Anzahl besuchter Peers (TTL).Diskussion. Die Ergebnisse zeigten, dass der Recall für die verwendeten Strategien rechtschnell konvergiert, d.h. schon nach wenigen Weiterleitungen ein Großteil der durch die Overlay-Strukturprinzipiell auffindbaren Dokumente gefunden wurde. Small-World-Strukturenvereinfachen somit offensichtlich die Suche deutlich gegenüber einem Zufallsgraphen. Überraschenderweisewirkte sich das Caching ähnlicher Dokumente aus vorherigen Gossiping-Vorgängen stark auf den Recall aus: Die Werte waren um fast die Hälfte besser als ohne Caching.Ebenfalls überraschend war der geringe Unterschied, den die Intergroup-Strategiemachte (Lauf 1): Die verbleibende größte Komponente in Lauf 1 mit 1168 Peers (s. Abb. 1)enthielt offensichtlich bereits über 46% (s. Abb. 2) der inhaltlich wichtigen Knoten. Eine Untersuchungdes Zusammenhangs zwischen Anzahl der auf einem Peer gespeicherten Dokumenteund seinem Eingangsgrad nach Konvergenz des Gossipings ergab eine lose Korrelation,d.h. die gut erreichbaren Peers waren solche, die viele Inhalte anboten.

- A6 -Als Resultat der Simulationsstudie, die in Witschel & Unger [2005] detailliert beschriebenwird, konnte die prinzipielle Eignung des Strukturierungs- und Suchalgorithmus geschlossenwerden, jedoch auch ein Verbesserungsbedarf der Suche aufgrund relativ niedriger Recall-Werte.2.3 Textanalyseverfahren für Peer-to-Peer-SucheDer wichtigste zusätzliche Faktor zur Umsetzung des Strukturierungs- und Suchalgorithmuswar die Wahl einer geeigneten Profilrepräsentation für die Beschreibung und den Vergleichvon realen Dokument-, Anfrage- und Peerinhalten. Diese setzt ein geeignetes Verfahren fürdie automatische semantische Analyse von natürlichsprachlichem Text sowie für ein Ähnlichkeitsmaßvoraus. Zu den Eignungskriterien für Profilrepräsentationen zählen geringe Rechenlast,Kompaktheit (und damit niedrige Netzwerklast) sowie gute Recallwerte. Da für Sucheund Strukturbildung (als Sonderform der Suche) Recall die entscheidende Größe ist und diesedurch eine starke Komprimierung der Profile am stärksten beeinträchtigt wird, sollte außerdemuntersucht werden, wie das recall-reduzierende Problem des Vocabulary Mismatch durchAnfrageerweiterung (Query Expansion) verringert werden kann.Die naheliegendste Möglichkeit der Profilberechnung ist das Vector-Space-Modell, da ihm mitder häufig verwendeten TF-IDF-Vorschrift zur Signifikanzschätzung und dem Cosinusmaßzur Ähnlichkeitsberechnung prinzipiell einfache und skalierbare Verfahren zugrundeliegenund es aufgrund empirischer Erfahrungen gute Retrieval-Ergebnisse liefert [Baeza-Yates &Ribeiro-Neto 1999]. Wenn jedoch – wie im vorliegenden Fall – keine Möglichkeit besteht,global auf alle Dokumente im Korpus zuzugreifen, lassen sich vom Korpus abhängige Signifikanzparameterwie die inverse Dokumentenfrequenz IDF nicht ermitteln. Als Lösung hatKronfol vorgeschlagen [2002], die IDF aus einem Referenzkorpus zu berechnen, vergleichbarmit einem Sprachmodell.Dieser Ansatz wurde im Projekt erweitert: Statt der Verwendung der IDF wurde ein Verfahrenentwickelt, das die Signifikanz von Wörtern mithilfe eines Likelihood-Verhältnisses (LikelihoodRatio, LR) berechnet [Dunning 1994]: Es vergleicht die relative Frequenz eines Wortesin einem Dokument zu jener in einem Referenzkorpus. Wörter, deren relative Frequenzen imDokument danach signifikant höher als im Referenzkorpus sind, werden als bedeutender(„LR-signifikanter“) für die Inhaltsanalyse angesehen, und Wörter unter einer Signifikanzschwellelassen sich vernachlässigen, oder ein Profil verwendet eine festgelegte Anzahl der signifikantestenWörter.Strategien. Fünf Strategien zur Repräsentation von Inhalten durch Profile wurden untersucht,teilweise unter Einbeziehung von Anfrageerweiterung. Dabei wurde die erlaubte Profillängeals Veränderliche gewählt, da sie einen Trade-Off zwischen dem Recall und der Effizienz desAustauschs von Informationen über das Peer-to-Peer-Netzwerk (Kompaktheit) hat. Die Strategiensind in Witschel & Böhme [2005] detailliert beschrieben und können wie folgt zusammengefasstwerden:1. Standard-Strategie C 1 : Ein Dokumenten-Profil wird aus den LR-signifikantesten Wörterneines Dokuments gebildet. Das Verfahren entspricht einer Variante des Vektor-Space-Modells. Ein Peer-Profil ergibt sich aus der Summe von Dokumentenprofilen,wieder auf die LR-signifikantesten Wörter begrenzt. Anfrageerweiterung findet nichtstatt.2. Dornseiff-Strategie C 2 : Wie Standard-Strategie, doch wird ein Teil eines Profils für diehäufigsten Thesaurus-Kategorien der Stichwörter verwendet. Hierfür wird der deutscheThesaurus Dornseiff [2004] verwendet, der einen allgemeinen deutschen Wortschatzvon 90000 Wörtern und Wortgruppen nach 970 Sachgruppen strukturiert. In die

- A7 -Profil-Ähnlichkeiten werden Überlappungen zwischen Kategorien einbezogen. Anfragenwerden erweitert um häufigsten Dornseiff-Kategorien der Suchwörter.3. Kookkurrenz-Strategie C 3 : Wie Standard-Strategie, allerdings werden Anfragen umWörter erweitert, mit denen die Suchwörter im Trainingskorpus (s.u.) häufig ko-okkurieren(LR-Signifikanzen). Diese Kookkurrenzwörter werden in Profil-Ähnlichkeiteneinbezogen.4. LSI-Strategie C 4 : Als Grundlage werden die Konzeptvektoren aller im Referenzkorpusvorkommenden Wörter mithilfe der Singulärwertzerlegung der Term-Dokumenten-Matrix berechnet [Deerwester et al. 1990]. Profile entstehen durch Projektion der Inhaltein den rangreduzierten latent-semantischen Raum.5. Pseudo-Feedback-Strategie C 5 : Wie Standard-Strategie, allerdings werden Anfragennun um Wörter erweitert, die in mindestens N bereits gefundenen Ergebnisdokumentenvorkommen. Diese Wörter gehen in die Ähnlichkeitsberechnung ein.Simulation. Zur Evaluation dieser Strategien wurden simulative Versuche auf der Basis derSoftware OMNeT++ [2005] durchgeführt. Im Gegensatz zu den in Abschnitt 2.2 beschriebenenSimulationen wurde nun anstelle der synthetischen Daten ein deutschsprachiger Zeitschriften-Korpusmit 3429 Dokumenten verwendet, welche jeweils manuell einer von zehnthematischen Kategorien zugeordnet waren. Aus einem Teil des Korpus wurde ein Trainingskorpusfür die LR-Signifikanzbewertungen der Kookkurrenzen und für die Schätzung einerLSI-Basis erstellt. Der andere Teil wurde auf die Peers verteilt, indem jeder Peer ähnlich wiein der Simulation in Abschnitt 2.2 Interessen-Kategorien zugeordnet bekam und dann anhanddieser Kategorien Dokumente aus dem Korpus zum Peer zugeordnet wurden. Zusätzlich wurdennoch einfache Anfragen aus den aus den Testdokumenten generiert. Einzelheiten zu denExperimenten wurden in Witschel & Böhme [2005] veröffentlicht.Es wurden zwei Szenarien simuliert. In einer ersten Simulation (Szenario 1) wurde mit einervereinfachten Netzwerkstruktur der Einfluss der Strukturbildung ausgeblendet. Hierzu wurdedas Overlay-Netzwerk als Radialstruktur um einem zentralen Peer Z gebildet, der mit 1000Peers X n verbunden ist. Mit den verschiedenen Strategien C i wurden die Ähnlichkeiten zwischenAnfrage Q und den X n , D(Q, X n | C i ), zentral berechnet und in einer Liste geordnet, wobeidie Profillänge als Maß der Kompaktheit variiert wurde. Anschließend wurde untersucht,wieviele der jeweils bekannten, zur Testanfrage passenden Dokumente nach der Abfrage wievielerPeers bereits in der Ergebnismenge vorhanden waren, d.h. die Abhängigkeit zwischenRecall und TTL bei sukzessiver Abfrage von Peers in der Reihenfolge absteigender Ähnlichkeitzu Q (vgl. Abschnitt 2.2). Als Baseline wurde eine zufällige Sortierung von Peers unterAusschluss von Wiederholungen verwendet. Zusätzlich wurde noch eine Simulation der Standard-Strategiemit ungekürzter Profillänge durchgeführt („Informed Strategy“), die die Einflüsseder Kompression bei der Profilverkürzung zeigen sollte.Für die zweite Simulation (Szenario 2) wurde die Peer-to-Peer-Netzwerkstruktur mit derkombinierten Intergroup- und Clusteringstrategie mit 1000 Peers verwendet. Wie in der Simulationin Abschnitt 2.2 wurde eingangs die Struktur des Overlay-Netzwerkes aufgebaut, diesmalallerdings mit den verschiedenen Profil-Strategien C i , wobei die Profillänge variiert wurde.Anschließend wurden an das Netzwerk Testanfragen gestellt und untersucht, wieviele derbekannten zur Anfrage passenden Dokumente nach der Abfrage wievieler Peers in der Ergebnismengevorhanden waren, d.h. die Abhängigkeit zwischen Recall und TTL. Als Baselinewurde ein Zufallsgraph verwendet, zusammen mit einer zufälligen Weiterleitung von Suchanfragenan Peers unter Ausschluss von Wiederholungen, vergleichbar mit einem Zufalls-Graphenals Overlay. Zusätzlich wurde wie im Szenario 1 noch eine Simulation der Standard-Strategie mit ungekürzter Profillänge durchgeführt („Informed Strategy“).

- A8 -Abb. 3: Vereinfachte Netzwerkstruktur: Simulationsergebnisse für verschiedene Extraktionsmethoden.Beispiel mit Profillängen 16 (li.) und 48 (re., LSI zusätzlich noch mit Konzeptzahl 100 und 200).Abb. 4: Small-World-Netzwerkstruktur: Simulationsergebnisse für verschiedene Extraktionsmethoden.Beispiel mit Profillänge 16 (li.) und 48 (re., LSI zusätzlich noch mit Konzeptzahl 100 und 200).Ergebnisse und Diskussion Suche. Für beide Szenarien ergaben sich für das Recallverhaltenmit Profillängen 16 und 48 die in Abbn. 3 und 4 gezeigten Graphen. Sowohl bei der vereinfachtenNetzwerkstruktur, als auch unter Einbeziehung der Strukturbildung wurde der besteRecall für kleine und mittlere Weiterleitungszahlen (ca. 1-50) durchweg mit der Kookkurrenz-Strategie erreicht. Die Erweiterung von Anfragen fördert also den Recall gegenüber der nichterweiterndenStandard-Strategie. Die Dornseiff-Strategie hingegen führte nicht zu einer signifikantenVerbesserung des Recalls. Untersuchung des auf den Peers verwendeten Test-Korpusund des im Dornseiff-Thesaurus verwendeten Vokabulars zeigte den Grund: Die Mehrzahlder Wörter der aus dem Test-Korpus generierten Test-Anfragen waren entweder im Thesaurusnicht aufgeführt oder führten zu mehreren Kategorien und konnten nicht zugeordnet werden.Das Problem des Pseudo-Feedback-Verfahrens war die Tatsache, dass eine Erweiterung derAnfrage immer erst dann stattfinden kann, wenn bereits relevante Dokumente gefunden wurden.Für Anfragen mit kleiner Treffermenge kommt somit keine Anfrageerweiterung zustande.Ein bemerkenswertes Ergebnis der Versuche war, dass der als qualitativ vielversprechend angeseheneAnsatz der latenten semantischen Analyse (LSA) zu enttäuschenden Ergebnissenführte, selbst für relativ große Konzeptanzahlen. Es gibt mehrere mögliche Gründe hierfür. Soist die unvollständige Überlappung zwischen Referenzkorpus und Testkorpus eine möglicheUrsache. Ein anderer möglicher Grund ist die schlechte statistische Übereinstimmung zwischender Normalverteilung, für welche die LSA-Implementierung mit Singulärwertzerlegungoptimal ist, und der tatsächlichen Verteilung der Termfrequenzen, die laut Stichproben im verwendetenKorpus stark von der Normalverteilung abweicht (vgl. Dunning [1994]; Jansche[2003]; Hofmann [2001]).

- A9 -Abb. 5. Visualiserung eines Ausschnitts des Overlay-Netzwerks nach der Strukturierung. Die Knoten bzw.Peers sind mit den zugeordneten Interessen-Kategorien bezeichnet.Abb. 6. Netzwerkeigenschaften.Interessant ist, dass schon mit Profillänge 16 ein Großteil der Dokumente mit der gleichenAnzahl von Weiterleitungen gefunden wurde, wie mit Profillänge 48. Zusätzlich lässt der relativgeringe Recall-Unterschied zu den vollständigen Profillängen (ca. 200) bei der InformedStrategy den Schluss zu, dass ein Großteil als insignifikant bewerteter Wörter für die Profilbildungtatsächlich ignoriert werden kann.Ergebnisse und Diskussion Strukturbildung. Eine Untersuchung der Netzwerk-Strukturen,die sich aus den verschiedenen Profilbildungs-Strategien für Szenario 2 ergaben, zeigte prinzipiellein ähnliches Bild wie für die Simulation mit synthetischen Daten in Abschnitt 2.2. Einanschauliches visuelles Beispiel für die entstandene Struktur ist in Abbildung 5 gezeigt. EinigeErkenntnisse lassen sich aus der Tabelle in Abb. 6 ziehen. So weisen die im Vergleich zurBaseline-Strategie stark vergrößerten Clusterkoeffizienten der verschiedenen Verfahren beivergleichbaren mittleren Weglängen darauf hin, dass sich Small-World-Strukturen auch mitrealen Textdaten aufbauen lassen. Dabei blieb bei den Standard- und Kookkurrenz-Strategienjeweils eine große Hauptkomponente im Netzwerk zusammenhängend, wobei mit größererInformationsmenge in den Profilen bzw. Anfrageerweiterung die Anzahl der von diesemHauptnetzwerk abgespaltenen kleinen Komponenten zunahm. Die LSI-Strategie war aus obenvermuteten Gründen deutlich schlechter. Insgesamt zeigte sich aber, dass sich Small World

- A10 -Strukturen auch und besonders mit sehr kurzen Profilen und einfachen Ähnlichkeitsmaßen zuverlässigerzeugen lassen.Als Gütemaß für die gebildeten Cluster wurde die Neighbour Precision eingeführt, für jedenPeer ist dies der Anteil seiner Cluster-Nachbarn, die mindestens eine Interessen-Kategorie mitihm teilen. Sie erreichte für die Standard- und Kookkurrenz-Strategie jeweils nahe 1 (demIdealwert) und war damit sehr viel besser als für Baseline und LSI.2.4 Prototypische ImplementierungAuf Basis der Konzeption und der Ergebnisse aus den Analyseexperimenten wurde eine Peer-Software entwickelt, die zur Verwaltung der Netzwerkkommunikation maßgeblich auf derJXTA-Plattform aufbaut. Bei der Implementierung des Prototypen wurde neben der Umsetzungder forschungsrelevanten Funktionalitäten bezüglich der Benutzerschnittstelle darauf geachtet,dass die Nutzung auch für Ungeübte einfach und selbsterklärend bleibt; sie orientiertsich an Werkzeugen wie Gnutella und eMule. Abb. 7 zeigt die Benutzerschnittstelle des entwickeltenPrototypen.Funktion. Der Benutzer kann mit der Peer-Anwendung ein bestimmtes Verzeichnis auf seinemRechner freigeben. Die Dokumente in diesem Verzeichnis werden indiziert und gehen indas Peer-Profil ein, wobei das Verzeichnis überwacht wird und neu hinzugekommene, weggefalleneoder geänderte Dokumente automatisch aktualisiert werden. Die meisten im Alltaggängigen Formate für Textdokumente wie ASCII, PDF, Office und XML bzw. HTML werdendabei unterstützt.Die Verbindung des Peers zum Netzwerk erfolgt nach dem Start der Anwendung. Für den Verbindungsvorgangist anfangs die Verbindung zu einem sogenannten Rendezvous-Server notwendig,einem Peer, der die Adressen anderer Peers speichert und weitergibt. Die Adresse desRendezvous-Peers wird automatisch von einem Webserver gelesen oder vom Benutzer konfiguriert.Nachdem der Peer mindestens ein Profil von einem aktiven Peer erhalten hat, ist er betriebsbereit,und der Nutzer kann Suchanfragen stellen. Dabei sind mehrere gleichzeitige Suchvorgängemöglich. Die Suchergebnisse werden für jede Anfrage in einer eigenen Liste angezeigt,und der Benutzer kann wählen, welche Dokumente er von einem anderen Peer herunterzulädt.Der Peer führt außerdem selbständig periodisch Gossiping aus, um sich mit anderen Peers zuvernetzen.Zusätzlich hat der Nutzer nach dem Eingang von Suchergebnissen die Möglichkeit, durchDrücken des „mehr“-Knopfes seine Suche mit einem allgemeineren Anfrageprofil zu wiederholen.Hierfür wird eine Erweiterung der Anfrage über dem Referenzkorpus vorgenommen,d.h. jeder in der Suchanfrage vorkommende Begriff wird um jeweils verwandte Begriffe nachder Kookkurrenz-Strategie (s. Abschnitt 2.3) erweitert.Aufbau. Der prinzipielle Aufbau der Software ist in Abb. 8 wiedergegeben. Ein Peer bestehtaus einer graphischen Benutzerschnittstelle, einem Textanalysator, der die in Abschnitt 2.3 beschriebenenAlgorithmen implementiert, einem Modul zur Verwaltung des lokalen Dokumentenbestands,das Änderungen im freigegebenen Verzeichnis mit dem lokalen Index abgleicht(Dateiformate umwandelt, indiziert sowie ein Profil extrahiert), einem Modul, welches denKommunikationskanal abstrahiert, sowie einer damit verbundenen JXTA-Schnittstelle, dieden Austausch von Nachrichten zwischen Peers über das JXTA-Protokoll realisiert.

- A11 -Abb. 7. Screenshot des Peer-User-Interfaces.Abb. 8. Aufbau eines Peers (Servents).Als zusätzliche Strategie für die Netzwerk-Strukturierung wurde im Prototypen die sogenannteegoistische Strategie implementiert. Hierfür wird für periodische Struktur-Aktualisierungsvorgängefür jeden Peer eine Analyse des Antwortverhaltens seiner Nachbarn durchgeführtund selten antwortende Nachbarn durch „gute Peers“ ersetzt, die häufig Antworten auf Anfragengeliefert hatten.Für alle Parameter wurden bisher erste Einstellungen vorgenommen und experimentell aufihre Auswirkungen in relativ kleinen Netzwerken (

- A12 -2.5 Simulation des GesamtsystemsZur Evaluierung des gemeinsamen Verhaltens von Textextraktion, Strukturierungs- und Suchstrategienwurde die in Abschnitt 2.3 beschriebene Simulation auf der Basis von OMNeT++entwickelt und durchgeführt. In einem zweiten Schritt sollte es ermöglicht werden, die realePeer-Implementierung als Gesamtsystem mit einer geeigneten Simulationsumgebung zu evaluieren,so dass der Einfluss von Eigenschaften des Peers auf den Aufbau größerer Netzwerkstrukturenuntersucht werden kann und neue Ansätze wie die egoistische Strategie (s. Abschnitt2.4) nicht doppelt implementiert werden müssen. Weiterhin sollte es nun möglich sein,das Online-Verhalten von Peers zu modellieren, so dass eine realistischere Simulation als diein Abschnitt 2.3 vorgestellte möglich ist.Auf der Basis von JADE wurde hierzu eine verteilte Simulationsumgebung entwickelt, mitdem eine Community mit einer hinreichend großen Anzahl von realistischen Peers (mehrereTausend) hinreichend genau simuliert und die entsprechenden Ergebnisse protokolliert werdenkönnen. Die zu bewältigenden Problemstellungen lagen dabei sowohl in der Realisierungvernünftig zu bedienender Initialisierungsschritte, als auch der Realisierung eines geeignetenLoad Balancings zwischen den an der Simulation beteiligten Maschinen.Durch die rechnerische Komplexität der in der Peer-Software verwendeten Textanalysewerkzeugemusste weiterhin eine Anpassung der Software zur Verwendung in der Simulationsumgebungvorgenommen werden, da der Speicherverbrauch für simulierte Netzgrößen von mehrerentausend Peers zu groß war. Weiterhin war die Entwicklung eines Kommunikationsadapterszwischen Peer-Software und Simulationsumgebung notwendig, um eine Steuerung desPeers durch die Simulation sowie eine Protokollierung der Simulationsschritte zu ermöglichen.Erste Tests mit der entwickelten Simulationsumgebung und der modifizierten Peer-Softwaresind bereits erfolgreich verlaufen.Schwierig gestaltet sich im Moment allerdings auch ein realitätsnahes Modell für die Verteilungvon Inhalten zwischen den Peers bzw. für das Nutzerverhalten, und der derzeit als ambesten angesehene Ansatz ist der, den Korpus einer verteilten Nicht-Peer-to-Peer-Communityzu verwenden, da andere Daten bisher nicht existieren. Hierfür wird gegenwärtig ein Korpusaus einem verteilten internationalen Netzwerk von wissenschaftlichen Aufsätzen erstellt, dereine – wenn auch abstrahierte – Verteilung von Inhalten über Peers ermöglicht.2.6 DisseminationDie Dissemination der Projektergebnisse und Vernetzung mit anderen Forschungsgruppenwurde auf mehreren Wegen durchgeführt. So wurden im Rahmen der Arbeit an dem Projektmehrere Artikel veröffentlicht (s. Abschnitt 4.2) bzw. befinden sich in der Abgabephase.Eine weitere Referenz zur Kommunikation der Projektarbeiten nach außen war die Projekt-Website (siehe http://www.sempir.informatik.uni-leipzig.de), wo sich projektrelevante Veröffentlichungensowie andere Projektinformationen befinden. Intern besteht ein eigenes Wiki, indem Versammlungsprotokolle, Planungen, Daten und Zwischenergebnisse niedergeschriebenwurden.Im November 2005 wurde ein Workshop mit einem Großteil der in Deutschland zum ThemaPeer-to-Peer-Suchsysteme arbeitenden Forschungsgruppen durchgeführt, der auf sehr positiveResonanz stieß (siehe auch http://www.sempir.informatik.uni-leipzig.de/Events.htm).

- A13 -Weiterhin wurde die thematisch eng verwandte Konferenz „Innovative Internet CommunitySystems“ (siehe http://i2cs-conference.org oder http://oss.ephe.sorbonne.fr/~i2cs/) von Projektmitgliedernmitorganisiert.3 Fazit und AusblickFazit. Das Projekt IST-P2P („SemPIR“) hat die konzeptionelle und prototypische Entwicklungdes geplanten Peer-to-Peer-Suchsystems weitgehend abgeschlossen, so dass eine auchvon Endbenutzern verwendbare Version eines Peer-to-Peer-Clients bis zum ersten Quartal2006 vorliegt. Zudem konnte die wichtigste Forschungsfrage des Projektes geklärt werden,nämlich dass es nicht nur möglich ist, durch Clustering von Peers mit semantisch ähnlichenInhalten und zusätzliche Verbindungen zwischen den Clustern eine Small-World-Struktur aufzubauen,sondern auch nach semantischen Kriterien mit gutem Recall zu suchen. Bemerkenswertan dem Ansatz ist, dass die globale Suche auf diese Weise nur lokale semantische Informationenbenötigt.Die im Projektantrag genannten wissenschaftlichen und technischen Einzelaufgaben konntenzu einem großen Teil gelöst werden.Die Evaluierung und Weiterentwicklung von Verfahren zur Analyse natürlichsprachlicherTexte und die damit verbundene Entwicklung geeigneter Abstandsmaße auf Textkorpora führtezu einem semantischen Analyseverfahren, das auf Likelihood-Ratio-Signifikanzen von Termenin Inhalten im Vergleich mit einem Referenzkorpus aufbaut und mit einer Variante desVector-Space-Modells verwendet wird.Die Entwicklung von Verfahren zur sukzessiven Approximation der Netzwerkstruktur sowieder damit verbundene Entwurf von Verfahren zur Optimierung der Kommunikation führte zueinem semantisch motivierten Gossiping-Verfahren sowie einem Suchmechanismus, die beidesimulativ – auch in Verbindung mit den Textanalyseverfahren und Abstandsmaßen – verifiziertwurden.Weiterhin wurde die Spezifikation und prototypische Implementierung einer Peer-to-Peer-Infrastrukturauf Basis der entwickelten Ansätze erfolgreich abgeschlossen, und mit der entstandenenSoftware wird derzeit ein Feldtest im Kollegenkreis durchgeführt, der zu iterativen Verbesserungengenutzt wird. Die Software erfährt außerdem letzte Anpassungen für den Betriebin der Simulationsumgebung, die hierfür im Projekt entwickelt wurde.Die nächsten Schritte der Projektarbeiten konzentrieren sich, neben der Verbesserung derPeer-Software, auf die Fertigstellung der Simulationsumgebung und auf die anschließende Simulation.Außer der Erforschung des Systemverhaltens für verschiedene Netzwerkgrößen istdie Simulation zudem die Grundlage für die Optimierung wichtiger Parameter wie Profillängenund Anzahl von Nachbarn, welche dann für die reale Nutzung des Peer-to-Peer-Systemsangewandt werden sollen.Ausblick. Obwohl die Funktionsweise des auf semantischen Small-World-Strukturen aufbauendenPeer-to-Peer-Prinzips nachgewiesen werden konnte, stellen sich noch viele Forschungsfragenfür zukünftige Arbeiten. So ist die Definition von realitätsnahen Modellen der Verteilungvon Inhalten sowie des Anfrageverhaltens von Nutzern ein besonderes Problem bei derSimulation. Die Literatur sowie gezielte Nachforschungen in der Forschungscommunity – u.a.bei dem in Abschnitt 2.6 erwähnten Workshop im November 2005 – führten zu der Erkennt-

- A14 -nis, dass ein solches Modell bislang nicht umgesetzt wurde, aber von großem wissenschaftlichenInteresse wäre. Mit einem solchen Modell wären von Simulationen über sehr großeNetzwerke realistischere Ergebnisse zu erwarten als mit den gegenwärtig verfügbaren Daten.Weiterhin ist die Small-World-Struktur zum Auffinden von Inhalten auf semantische Kriterienbeschränkt. Einflüsse des Nutzerverhaltens wie Popularität von Peers (durch Relevance Feedbackoder Messung des Datenaustauschs) beispielsweise erscheinen als Erweiterung des Ansatzessehr vielversprechend. Zudem könnten über alternative Ansätze für die Wahl von Intergroup-Verbindungenuntersucht werden, etwa die Verwendung geographischer Informationenoder reale soziale Netzwerke zwischen Peerbetreibern.Für den praktischen Betrieb in spezialisierten Communities spielt außerdem das Problem eineRolle, Dokumente zu finden, deren Vokabular nur lokal bekannt ist, weil es durch Abschneidender Profile nicht propagiert wird. Dies steht den Vorteilen von verteilten, lokalisierten Indizesentgegen. Eine Lösung dieses Problems wäre von großem Interesse für Anwendungen,mit denen lokal spezialisiertes Wissen ausgetauscht werden soll.Als grundlegender Schritt wird jedoch eine eingehendere Evaluation des Systems in einer größerenNutzercommunity angesehen, was sowohl Aussagen über die Qualität der Simulation,als auch Erkenntnisse über oben genannte Inhaltsverteilungen hervorbringen kann. Zudemkann der empirische Betrieb weitere Anregungen für die Nutzung von Recherchesystemen liefern,die zu neuen, bisher nicht beachteten Forschungsfragen führen.4 Literatur4.1 Quellen[Baeza-Yates & Ribeiro-Neto 1999] R.A. Baeza-Yates & B.A. Ribeiro-Neto. ModernInformation Retrieval. ACM Press & Addison-Wesley, 1999[Deerwester et al 1990] S. Deerwester, S.T. Dumais, T.K. Landauer, G.W. Furnas, R.A. Harshman(1990): Indexing by latent semantic analysis. Journal of the Society for InformationScience, 41 (6), 391–407[Dornseiff 2004] F. Dornseiff. Der deutsche Wortschatz nach Sachgruppen. de Gruyter, Berlin/NewYork, 2004[Dunning 1994] T. Dunning. Accurate methods for the statistics of surprise and coincidence.Computational Linguistics, 19(1):61, 1994[Hofmann 1999] T. Hofmann. Unsupervised Learning by Probabilistic Latent Semantic Analysis.Mach. Learn., 42:177-196, 2001[Jansche 2003] M. Jansche. Parametric Models of Linguistic Count Data. Proc. of the 41stAnnual Meeting of the Association for Computational Linguistics (ACL 41) , 2003 , 288-295,2003[Kleinberg 2000] J. Kleinberg. The small-world phenomenon: An algorithmic perspective. In:Proc. 32nd ACM Symposium on Theory of Computing. Web:http://www.cs.cornell.edu/home/kleinber/swn.d/swn.html, 2000[Kronfol 2002] A. Z. Kronfol: FASD: A Fault-tolerant, Adaptive, Scalable, Distributed SearchEngine. PhD thesis, 2002[Milgram 1967] S. Milgram. The Small World Problem. In: Psychology Today, 1967(5), p. 60-67, 1967

- A15 -[OMNeT 2005] OMNeT++. Web: http://www.omnetpp.org, 2005[Watts & Strogatz 1998] D. Watts & S. Strogatz. Collective Dynamics of ’Small-World’ Networks.Nature, 393(6):440–442, 19984.2 Projekt-Publikationen[Witschel & Böhme 2005] H.F. Witschel & T. Böhme. Evaluating profiling and query expansionmethods for p2p information retrieval. In Proc. of the 2005 ACM Workshop on InformationRetrieval in Peer-to-Peer Networks (P2PIR), 2005[Witschel & Unger 2005] H.F. Witschel & H. Unger. Vernetzung virtueller Gemeinschaftenmit P2P-Technologien. In Proceedings of GeNeMe'05, 2005[Witschel 2005] H.F. Witschel. Content-oriented Topology Restructuring for Search in P2PNetworks. Technical report, University of Leipzig, 2005

Neuantrag auf GewÃ¤hrung einer Sachbeihilfe bei der Deutschen Fo

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?