12.07.2015 Aufrufe

Neuantrag auf Gewährung einer Sachbeihilfe bei der Deutschen Fo

Neuantrag auf Gewährung einer Sachbeihilfe bei der Deutschen Fo

Neuantrag auf Gewährung einer Sachbeihilfe bei der Deutschen Fo

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

- A1 -Antrag <strong>auf</strong> <strong>Fo</strong>rtsetzung<strong>einer</strong> <strong>Sach<strong>bei</strong>hilfe</strong> <strong>bei</strong> <strong>der</strong> <strong>Deutschen</strong> <strong>Fo</strong>rschungsgemeinschaftInhalt: Dieses Dokument ist in zwei Teile unterglie<strong>der</strong>t: Teil A fasst die bisherigen Ergebnissedes von <strong>der</strong> DFG geför<strong>der</strong>ten Projektes IST-P2P zusammen. Teil B beschreibt diegeplanten Ar<strong>bei</strong>ten und stellt den eigentlichen Antrag <strong>auf</strong> eine <strong>Fo</strong>rtsetzung <strong>der</strong> För<strong>der</strong>ungdar.Teil A: Zwischenbericht zum geför<strong>der</strong>ten <strong>Fo</strong>rschungsvorhaben IST-P2PAutoren (alphabetisch):Thomas Böhme, Robert Eberhardt, Gregor Heinrich, Gerhard Heyer,Herwig Unger, Hans Friedrich Witschel, Markus WulffZusammenfassung: Im Projekt IST-P2P („SemPIR“ 1 ) sollte die Volltextsuche in Peer-to-Peer-Netzen mit sowohl geringer Netzwerklast als auch geringer Datenhaltung realisiertwerden. Wichtigste Aspekte dieser Ar<strong>bei</strong>t waren die Konzeption eines inhaltsbasiertenSuchmechanismus, die Auswahl geeigneter semantischer Analyseverfahren, die Implementierungeines prototypischen Peer-to-Peer-Systems sowie dessen prinzipielle Evaluierungdurch Simulationen.1 EinleitungViele Unternehmen sehen sich durch die rasant fortschreitende Digitalisierung von Medienund Kommunikation mit dem Problem konfrontiert, ihre Daten konsistent und logisch strukturiertzu verwalten. Häufig wird dieses Problem durch verteilte Strukturen (Filialen, Zweigstellen,Zulieferer, mobile Mitar<strong>bei</strong>ter) noch verstärkt. Die häufig verwendeten zentralisiertenStrukturen (Server, Datenbanken) sind zudem ein wesentlicher Angriffspunkt bezüglich Systemsicherheitund Datenschutz. Zudem ist für den fortl<strong>auf</strong>enden Betrieb <strong>der</strong> zentralisiertenArchitekturen oft großer Wartungs- und Aktualisierungs<strong>auf</strong>wand notwendig.Im Projekt wurde ein neuartiges Suchsystem für virtuelle Gemeinschaften erar<strong>bei</strong>tet, welchesdurch Lokalisierung wichtiger Aufgaben in <strong>einer</strong> Community mithilfe von Peer-to-Peer-Technologieeinige wesentliche Mängel zentralisierter Ansätze behebt:● Informationen können lokal so bereitgestellt werden, dass zwar ihr Standort, aber nichtunbedingt ihr Inhalt global bekannt gemacht werden muss. Diese Lokalisierung gibtdem Benutzer einen höheren Grad von Kontrolle als <strong>bei</strong> zentralisierten Ansätzen, wie<strong>auf</strong> die von ihm bereitgestellte Information zugegriffen wird. So kann <strong>einer</strong>seits dasAuffinden und das Herunterladen von lokalen Dokumenten auch lokal gesteuert werden,an<strong>der</strong>erseits lassen sich kritische Personalisierungsinformationen lokal speichernund <strong>der</strong> „gläserne Benutzer“ vermeiden.● Das Einbringen von Inhalten in ein Content-Management-System kann langwierig und<strong>auf</strong>wendig sein: Oft gelangen neue Dokumente nur nach einem Redaktionsprozess insSystem. Das Einfügen eines Dokumentes in ein Peer-to-Peer-Netzwerk ist sehr vielunkomplizierter und erleichtert so das Einbringen „halboffizieller“ Information, wiesie häufig <strong>bei</strong> akademischer o<strong>der</strong> kommerzieller Projektar<strong>bei</strong>t vorkommen.1Im Projekt hatte sich die Ar<strong>bei</strong>tsbezeichnung Semantic Peer-to-Peer Information Retrieval (SemPIR) für dasProjekt eingebürgert, die ursprünglich für die entstandene Software gedacht war. Als Projektkürzel sind <strong>bei</strong>deBezeichnungen synomym.


- A2 -● Statisch vernetzte Gemeinschaften haben oft Schwierigkeiten, sich an neue Anfor<strong>der</strong>ungenanzupassen. Peer-to-Peer-Infrastruktur kann über Selbstorganisation die Strukturvirtueller Communities und vor allem <strong>der</strong>en dynamische Entwicklung besser abbildenals zentralistische Ansätze, wenn die Peer-to-Peer-Netzwerkstrukturen durch geeigneteVerfahren anhand von realen Strukturen <strong>auf</strong>gebaut werden. So werden mit einemsemantischen Strukturierungsansatz Menschen, die an ähnlichen Problemen ar<strong>bei</strong>ten,<strong>auf</strong> Systemebene vernetzt. Dies kann zur Aufdeckung unbekannter Gemeinsamkeitenund somit zu neuen Synergien führen. Nebeneffekte <strong>der</strong> verteilten Architektursind schließlich erhöhte Ausfallsicherheit und Kosteneinsparung <strong>bei</strong> <strong>der</strong> Wartung,da die Pflege zentraler Server entfällt.Im folgenden werden die Hauptergebnisse des Projektes vorgestellt. Die Abschnitte in diesemBericht entsprechen den jeweiligen Schritten, in denen die <strong>Fo</strong>rschungs- und Entwicklungsar<strong>bei</strong>tendurchgeführt und die Ergebnisse erzielt wurden. In <strong>einer</strong> einleitenden Konzeptionsphase(Abschnitt 2.1) wurden die Ansätze für die semantische Peer-to-Peer-Netzwerk-Strukturierungund die Suchstrategie <strong>auf</strong> Grundlage <strong>der</strong> im Antrag skizzierten Ideen detailliert erar<strong>bei</strong>tet.Diese Ansätze wurden simulativ verifiziert (Abschnitt 2.2), wo<strong>bei</strong> die prinzipielle Eignunggezeigt werden konnte. Aufbauend dar<strong>auf</strong> wurde nun nach geeigneten Textanalyseverfahrengesucht und erforscht, wie vorhandene Verfahren weiterentwickelt werden können. Durch Simulationwurden verschiedene Ansätze evaluiert und <strong>der</strong> geeignetste ausgewählt (Abschnitt2.3). Auf Grundlage <strong>der</strong> Verfahren zur Peer-to-Peer-Netzwerkstrukturierung, -suche sowie Inhaltsanalysewurde eine Architektur für ein semantisches Peer-to-Peer-Suchsystem konzipiertund prototypisch implementiert. Hierfür wurden außerdem Protokolle und Verfahren zur Optimierung<strong>der</strong> Kommunikation im Peer-to-Peer-Netzwerk entwickelt (Abschnitt 2.4). Um dasentstandene Gesamtsystem unter möglichst realen Bedingungen zu simulieren, wird gegenwärtigdie Implementierung <strong>einer</strong> Simulationsumgebung abgeschlossen, mit <strong>der</strong> bis zum Projektendedie bereits mit den Teilsimulationen gemachten Ergebnisse unter Verwendung desimplementierten Prototypen bestätigt werden sollen (Abschnitt 2.5). Abschließend wird <strong>auf</strong>die Verbreitung <strong>der</strong> wissenschaftlichen Ergebnisse dieser inhaltlichen Ar<strong>bei</strong>ten eingegangen(Abschnitt 2.6).2 Projektdurchführung und Ergebnisse2.1 Konzeption des Small-World-AnsatzesAls Ausgangspunkt <strong>der</strong> konzeptionellen Ar<strong>bei</strong>ten diente die Überlegung, dass Informationssucheauch <strong>auf</strong> dem in <strong>der</strong> sozialen Struktur <strong>der</strong> Gesellschaft „implizit gespeicherten“ Wissenberuht: Es ist für einen Anfrager oftmals hinreichend zu wissen, welcher s<strong>einer</strong> BekanntenKenntnisse über ein fragliches Thema besitzt, um die gewünschte Information zu erhalten.Der Befragte kann dann selbst antworten und/o<strong>der</strong> die Anfrage an einen ihm bekannten, nochbesser zur Anfrage passenden Experten weiterleiten, <strong>der</strong> selbst entwe<strong>der</strong> antwortet und/o<strong>der</strong>abermals weiterleitet usw. Diese Idee fußt maßgeblich <strong>auf</strong> <strong>einer</strong> ursprünglich von Stanley Milgram[1967] nachgewiesenen Eigenschaft von sozialen Netzwerken, dass die Pfade zwischenbeliebigen ihrer Knoten (Mitglie<strong>der</strong> <strong>einer</strong> Gesellschaft) nur wenige Bekanntschaftsverbindungenlang sind. Selbst hochspezialisierte Experten sollten sich somit von jedem Knoten (Anfrager)im sozialen Netzwerk aus über wenige Verbindungen finden lassen. Für Netzwerke mitdiesen Eigenschaften wurde <strong>der</strong> Begriff „small world“ geprägt, <strong>der</strong> nach <strong>der</strong> Definition vonWatts & Strogatz solche Graphen bezeichnet, die einen hohen Clustering-Koeffizienten <strong>bei</strong>geringer mittlerer Pfadlänge <strong>auf</strong>weisen [1998]. Jon Kleinberg erkannte [2000], dass zur effizientenAusnutzung solcher Netzwerkeigenschaften für einen Anfrager klar sein muss, in welcheRichtung er sich nach Antworten umsehen muss („latent navigational cues“).


- A3 -Während <strong>der</strong> Konzeptionsphase des Projekts wurde ein Verfahren entwickelt, das die genanntenSmall-World-Eigenschaften sozialer Netzwerke <strong>auf</strong> ein Netzwerkmodell für inhaltsbasiertePeer-to-Peer-Suche überträgt und damit die im Antrag beschriebene Idee detailliert. DiesesOverlay-Netzwerk (über das physische Netzwerk „gelegte“ Netzwerk) soll sich selbständigaus den Textdaten <strong>der</strong> Peers strukturieren und die Routing-Vorgänge <strong>bei</strong> <strong>der</strong> Suche steuern.Experten und Anfrager im obigen Beispiel stehen in Analogie zu Peers, Wissen und Suchinteressenrealer Personen in Analogie zu Textinhalten in Dokumenten und Suchanfragen.Profile. Für die Repräsentation von Peers, Dokumenten und Suchanfragen wurden Profileeingeführt, die Textinhalte in komprimierter <strong>Fo</strong>rm wi<strong>der</strong>spiegeln und semantisch vergleichbarmachen. Als prinzipiell sinnvoller Ansatz zur Textrepräsentation wurde das Vektor-Space-Modellangesehen. Ein Peer-Profil sollte da<strong>bei</strong> durch Summierung von Dokumenten-Profilen gebildetwerden. Um eine kompakte, netzwerkeffiziente Beschreibung zu erhalten, wurde imKonzept die Länge <strong>der</strong> Profil-Vektoren <strong>auf</strong> die signifikantesten Begriffe beschränkt.Im folgenden werden die <strong>bei</strong>den Algorithmen zur Strukturbildung und Suche beschrieben. Dadie Strukturbildung das Verfahren <strong>der</strong> Suche benutzt, soll letztere zuerst beschrieben werden.Suche. Die Suche in dem Overlay-Netzwerk wurde aus <strong>der</strong> oben beschriebenen Expertenanfrageheraus konzipiert: Erhält ein Peer P eine Anfrage Q, so durchsucht er zunächst seine eigeneBibliothek nach Dokumenten, welche zu Q passen. Falls dies erfolgreich ist, werden dieProfile <strong>der</strong> Dokumente an Q angehängt. P wählt sodann denjenigen s<strong>einer</strong> Nachbarn aus, dessenProfil Q am ähnlichsten ist und leitet die Anfrage nur an ihn weiter. Dies geschieht solange,bis die time-to-live (TTL) <strong>der</strong> Suchanfrage-Nachricht abgel<strong>auf</strong>en ist, wor<strong>auf</strong>hin die Anfragedirekt zu P zurückgeleitet wird. Um Schleifen zu vermeiden, trägt außerdem je<strong>der</strong> Peer seineAdresse in das Log <strong>der</strong> Nachricht ein: Q wird dar<strong>auf</strong>hin nicht an Peers weitergeleitet, welchebereits im Log enthalten sind.Aufgrund <strong>der</strong> Struktur <strong>der</strong> Small World kann die Suche als eine <strong>Fo</strong>rm von Hill Climbing interpretiertwerden: Die Nachricht bewegt sich hin zu (semantisch relativ homogenen) Peer-Clustern,die immer besser zur Anfrage passen. Ist <strong>der</strong> richtige Cluster gefunden, so kann <strong>auf</strong>grund<strong>der</strong> starken Vernetzung innerhalb des Clusters schnell <strong>der</strong> beste Peer für die Anfrage identifiziertwerden.Strukturbildung. Zur Strukturbildung (o<strong>der</strong> Selbstorganisation) des Small-World-Overlay-Netzwerkes wurde ein Gossiping-Verfahren (aktive Verteilung von Peer-Profilen) entwickelt.Da<strong>bei</strong> stellt je<strong>der</strong> Peer P periodisch Anfragen nach seinem eigenen Profil an seine Nachbarn,welche mit Hilfe des beschriebenen Suchverfahrens verar<strong>bei</strong>tet werden. Der einzige Unterschiedzur Suche besteht darin, dass im Falle des Gossipings Peers zusätzlich zu ihrer Adresseauch ihr Profil in das Log <strong>der</strong> Nachricht eintragen. Erhält P nun die Antwort <strong>auf</strong> seine Anfrage,so kann er die Einträge des Logs inspizieren und sich evtl. neue Nachbarn wählen. Damitauch an<strong>der</strong>e Peers von Ps Existenz erfahren können, kann je<strong>der</strong> Peer, welcher die Gossiping-Nachricht weiterleitet, ebenfalls <strong>der</strong>en Log inspizieren.Für die Auswahl von Nachbarn werden da<strong>bei</strong> jeweils semantische Ähnlichkeiten <strong>der</strong> Peer-Profile herangezogen, was ein Clustering semantisch ähnlicher Peers bewirkt (Cluster-Strategie:Experten mit gleichem fachlichen Hintergrund kennen sich wahrscheinlicher als fachfremde).Außerdem wurde die Möglichkeit von semantisch unähnlichen Verbindungen zwischenKnoten im Netzwerk erlaubt (Intergroup-Strategie: Experten haben auch fachübergreifendeBekanntschaften), was die maximalen Radien im Netzwerk verkürzt und Brücken zwischensemantischen Clustern bildet. Die mittels <strong>bei</strong><strong>der</strong> Strategien gefundenen Nachbarn wer-


- A4 -den getrennt betrachtet, wo<strong>bei</strong> die zugelassenen Größen <strong>der</strong> Mengen „Cluster-Nachbarn“ und„Intergroup-Nachbarn“ die Struktur des sich bildenden Overlay-Netzwerkes maßgeblich beeinflussen.Zu bemerken ist, dass die Cluster-Nachbarn eines Peers für den menschlichen Betrachter vongroßem Interesse sein können, da es sich <strong>bei</strong> den Betreibern von im Overlay-Netzwerk nahenPeers oft um Menschen handelt, welche sich mit ähnlichen Fragestellungen beschäftigen. EineOffenlegung dieser Strukturen kann also für den menschlichen Betrachter interessant sein.Caching. Als eine weitere Möglichkeit <strong>der</strong> Nutzung von Cluster-Informationen wurde ein Caching-Verfahrenentwickelt, d.h. die Speicherung von Informationen aus dem Gossiping-Prozess.Wie <strong>bei</strong> <strong>der</strong> normalen Suche wird auch <strong>bei</strong>m Gossiping <strong>auf</strong> jedem Peer nach passendenDokumenten gesucht, und <strong>der</strong>en Vektoren werden an die Anfrage angehängt. Das bedeutet,dass <strong>der</strong> Peer, welcher nach seinem eigenen Profil gefragt hat, eine Liste von Dokumenten alsAntwort erhält, welche gut zu seinem Profil passen. Bei genügend verfügbarem Speicherplatzkönnen diese Dokumenten-Profilvektoren (o<strong>der</strong> die Dokumente selbst) <strong>auf</strong> dem Peer gespeichertwerden. Dies ist <strong>einer</strong>seits für den Benutzer interessant – als eine Art automatischer Literaturrecherche,welche seinen Dokumentenbestand semantisch homogen erweitert. An<strong>der</strong>erseitswird <strong>der</strong> Peer durch die Einbeziehung des neuen Wissens mehr Anfragen zu seinem Spezialgebietbeantworten können.Eine detaillierte Beschreibung des Strukturierungs- und Such-Ansatzes und <strong>der</strong> damit verbundenenAlgorithmen findet sich in Witschel & Unger [2005].2.2 Simulative Verifikation des Small-World-AnsatzesZur Verifikation des Small-World-Ansatzes wurde die prinzipielle Funktionsweise mit abstrahiertenInhalten simulativ überprüft. Hierfür wurde eine Simulationsumgebung mit Hilfe desNetzwerksimulators OMNeT++ [2005] implementiert. Es sollte durch Vergleich verschiedenerSimulationsläufe herausgefunden werden, wie das Verhalten des Systems <strong>bei</strong> Strukturbildungund Suche sich mit den verschiedenen Strategien verän<strong>der</strong>t:● L<strong>auf</strong> 1: Reine Clustering-Strategie: Strukturierung behält nur ähnliche Nachbarn.● L<strong>auf</strong> 2: Kombinierte Clustering- und Intergroup-Strategien: Strukturierung soll Small-World-Charakter erzeugen.● L<strong>auf</strong> 3: Clustering- und Intergroup-Strategien mit Caching. Im Experiment waren fürjeden Peer fünfmal soviele gecachte Dokumente wie eigene erlaubt.● L<strong>auf</strong> 4: Zufallsgraph.Bei <strong>der</strong> Simulation wurde mit zufällig generierten synthetischen „Dokumenten“ gear<strong>bei</strong>tet,die statt durch Wörter durch 50 synthetische Kategorien dargestellt wurden. Für die Durchführungdes Experiments wurden 8000 Peers mit insgesamt 10000 verschiedenen Dokumentenversehen. Da<strong>bei</strong> wurde die Interessenverteilung <strong>der</strong> Peers durch die zufällige Zuordnungvon bis zu 3 Kategorien modelliert. Die Dokumente erhielten ebenfalls Kategorien und wurdenden Peers so zugeteilt, dass (1) jedes Dokument eine Kategorie aus den Interessen desPeers enthält und (2) dass die Zahl <strong>der</strong> Dokumente <strong>der</strong> Peers <strong>einer</strong> Power-Law-Verteilung entsprach.Vereinfachend wurde <strong>bei</strong> diesen Simulationen das Online-Verhalten (Churn) außeracht gelassen, und je<strong>der</strong> Peer hatte mindestens ein Dokument (kein Freeriding). Zu Anfang<strong>der</strong> Simulation erhielt zudem je<strong>der</strong> Peer die Adressen von drei zufällig gewählten an<strong>der</strong>enPeers (seine initiale Nachbarschaft).


- A5 -Ergebnisse Strukturbildung. Die Strukturbildung <strong>der</strong> Overlay-Netzwerkes führte zu Ergebnissen,die in Witschel & Unger [2005] detailliert diskutiert werden. Eine Übersicht findetsich in <strong>der</strong> Tabelle in Abb. 1. So ergab sich für die reine Clustering-Strategie ein stark zerteiltesNetz mit 6829 Einzelkomponenten. Die kombinierte Clustering- und Intergroup-Strategiehingegen erzeugte ein wesentlich zusammenhängen<strong>der</strong>es Netz mit 135 Komponenten, wo<strong>bei</strong><strong>der</strong> Ausgangswert vor <strong>der</strong> Strukturierung 445 war. Die Clusterkoeffizienten waren in allenDurchläufen wesentlich höher als im Zufallsgraphen, die mittlere Weglänge hingegen nur unwesentlichgrößer, was klar als Small-World-Struktur interpretiert werden kann [Watts & Strogatz1998].Abb. 1 Eigenschaften <strong>der</strong> gebildeten Netzwerkstrukturen.Ergebnisse Suche. Zur Simulation <strong>der</strong> Suche in den gebildeten Overlay-Netzwerken wurden100 Peers zufällig ausgewählt, welche jeweils nacheinan<strong>der</strong> Anfragen nach allen 50 Kategoriengenerierten. Zur Bewertung <strong>der</strong> Suchqualität wurde <strong>der</strong> Recall (d.h. die Anzahl gefundenerrelevanter Dokumente im Vergleich zu <strong>einer</strong> zentralisierten Suche) gemessen sowie die Anzahl<strong>der</strong> Weiterleitungen zwischen Peers (time-to-live, TTL, s. Abschnitt 2.1), die für den jeweiligenRecallwert benötigt wurden. Abb. 2 zeigt den Recall als Funktion <strong>der</strong> TTL.Abb. 2. Recall und Anzahl besuchter Peers (TTL).Diskussion. Die Ergebnisse zeigten, dass <strong>der</strong> Recall für die verwendeten Strategien rechtschnell konvergiert, d.h. schon nach wenigen Weiterleitungen ein Großteil <strong>der</strong> durch die Overlay-Strukturprinzipiell <strong>auf</strong>findbaren Dokumente gefunden wurde. Small-World-Strukturenvereinfachen somit offensichtlich die Suche deutlich gegenüber einem Zufallsgraphen. Überraschen<strong>der</strong>weisewirkte sich das Caching ähnlicher Dokumente aus vorherigen Gossiping-Vorgängen stark <strong>auf</strong> den Recall aus: Die Werte waren um fast die Hälfte besser als ohne Caching.Ebenfalls überraschend war <strong>der</strong> geringe Unterschied, den die Intergroup-Strategiemachte (L<strong>auf</strong> 1): Die verbleibende größte Komponente in L<strong>auf</strong> 1 mit 1168 Peers (s. Abb. 1)enthielt offensichtlich bereits über 46% (s. Abb. 2) <strong>der</strong> inhaltlich wichtigen Knoten. Eine Untersuchungdes Zusammenhangs zwischen Anzahl <strong>der</strong> <strong>auf</strong> einem Peer gespeicherten Dokumenteund seinem Eingangsgrad nach Konvergenz des Gossipings ergab eine lose Korrelation,d.h. die gut erreichbaren Peers waren solche, die viele Inhalte anboten.


- A6 -Als Resultat <strong>der</strong> Simulationsstudie, die in Witschel & Unger [2005] detailliert beschriebenwird, konnte die prinzipielle Eignung des Strukturierungs- und Suchalgorithmus geschlossenwerden, jedoch auch ein Verbesserungsbedarf <strong>der</strong> Suche <strong>auf</strong>grund relativ niedriger Recall-Werte.2.3 Textanalyseverfahren für Peer-to-Peer-SucheDer wichtigste zusätzliche Faktor zur Umsetzung des Strukturierungs- und Suchalgorithmuswar die Wahl <strong>einer</strong> geeigneten Profilrepräsentation für die Beschreibung und den Vergleichvon realen Dokument-, Anfrage- und Peerinhalten. Diese setzt ein geeignetes Verfahren fürdie automatische semantische Analyse von natürlichsprachlichem Text sowie für ein Ähnlichkeitsmaßvoraus. Zu den Eignungskriterien für Profilrepräsentationen zählen geringe Rechenlast,Kompaktheit (und damit niedrige Netzwerklast) sowie gute Recallwerte. Da für Sucheund Strukturbildung (als Son<strong>der</strong>form <strong>der</strong> Suche) Recall die entscheidende Größe ist und diesedurch eine starke Komprimierung <strong>der</strong> Profile am stärksten beeinträchtigt wird, sollte außerdemuntersucht werden, wie das recall-reduzierende Problem des Vocabulary Mismatch durchAnfrageerweiterung (Query Expansion) verringert werden kann.Die naheliegendste Möglichkeit <strong>der</strong> Profilberechnung ist das Vector-Space-Modell, da ihm mit<strong>der</strong> häufig verwendeten TF-IDF-Vorschrift zur Signifikanzschätzung und dem Cosinusmaßzur Ähnlichkeitsberechnung prinzipiell einfache und skalierbare Verfahren zugrundeliegenund es <strong>auf</strong>grund empirischer Erfahrungen gute Retrieval-Ergebnisse liefert [Baeza-Yates &Ri<strong>bei</strong>ro-Neto 1999]. Wenn jedoch – wie im vorliegenden Fall – keine Möglichkeit besteht,global <strong>auf</strong> alle Dokumente im Korpus zuzugreifen, lassen sich vom Korpus abhängige Signifikanzparameterwie die inverse Dokumentenfrequenz IDF nicht ermitteln. Als Lösung hatKronfol vorgeschlagen [2002], die IDF aus einem Referenzkorpus zu berechnen, vergleichbarmit einem Sprachmodell.Dieser Ansatz wurde im Projekt erweitert: Statt <strong>der</strong> Verwendung <strong>der</strong> IDF wurde ein Verfahrenentwickelt, das die Signifikanz von Wörtern mithilfe eines Likelihood-Verhältnisses (LikelihoodRatio, LR) berechnet [Dunning 1994]: Es vergleicht die relative Frequenz eines Wortesin einem Dokument zu jener in einem Referenzkorpus. Wörter, <strong>der</strong>en relative Frequenzen imDokument danach signifikant höher als im Referenzkorpus sind, werden als bedeuten<strong>der</strong>(„LR-signifikanter“) für die Inhaltsanalyse angesehen, und Wörter unter <strong>einer</strong> Signifikanzschwellelassen sich vernachlässigen, o<strong>der</strong> ein Profil verwendet eine festgelegte Anzahl <strong>der</strong> signifikantestenWörter.Strategien. Fünf Strategien zur Repräsentation von Inhalten durch Profile wurden untersucht,teilweise unter Einbeziehung von Anfrageerweiterung. Da<strong>bei</strong> wurde die erlaubte Profillängeals Verän<strong>der</strong>liche gewählt, da sie einen Trade-Off zwischen dem Recall und <strong>der</strong> Effizienz desAustauschs von Informationen über das Peer-to-Peer-Netzwerk (Kompaktheit) hat. Die Strategiensind in Witschel & Böhme [2005] detailliert beschrieben und können wie folgt zusammengefasstwerden:1. Standard-Strategie C 1 : Ein Dokumenten-Profil wird aus den LR-signifikantesten Wörterneines Dokuments gebildet. Das Verfahren entspricht <strong>einer</strong> Variante des Vektor-Space-Modells. Ein Peer-Profil ergibt sich aus <strong>der</strong> Summe von Dokumentenprofilen,wie<strong>der</strong> <strong>auf</strong> die LR-signifikantesten Wörter begrenzt. Anfrageerweiterung findet nichtstatt.2. Dornseiff-Strategie C 2 : Wie Standard-Strategie, doch wird ein Teil eines Profils für diehäufigsten Thesaurus-Kategorien <strong>der</strong> Stichwörter verwendet. Hierfür wird <strong>der</strong> deutscheThesaurus Dornseiff [2004] verwendet, <strong>der</strong> einen allgemeinen deutschen Wortschatzvon 90000 Wörtern und Wortgruppen nach 970 Sachgruppen strukturiert. In die


- A7 -Profil-Ähnlichkeiten werden Überlappungen zwischen Kategorien einbezogen. Anfragenwerden erweitert um häufigsten Dornseiff-Kategorien <strong>der</strong> Suchwörter.3. Kookkurrenz-Strategie C 3 : Wie Standard-Strategie, allerdings werden Anfragen umWörter erweitert, mit denen die Suchwörter im Trainingskorpus (s.u.) häufig ko-okkurieren(LR-Signifikanzen). Diese Kookkurrenzwörter werden in Profil-Ähnlichkeiteneinbezogen.4. LSI-Strategie C 4 : Als Grundlage werden die Konzeptvektoren aller im Referenzkorpusvorkommenden Wörter mithilfe <strong>der</strong> Singulärwertzerlegung <strong>der</strong> Term-Dokumenten-Matrix berechnet [Deerwester et al. 1990]. Profile entstehen durch Projektion <strong>der</strong> Inhaltein den rangreduzierten latent-semantischen Raum.5. Pseudo-Feedback-Strategie C 5 : Wie Standard-Strategie, allerdings werden Anfragennun um Wörter erweitert, die in mindestens N bereits gefundenen Ergebnisdokumentenvorkommen. Diese Wörter gehen in die Ähnlichkeitsberechnung ein.Simulation. Zur Evaluation dieser Strategien wurden simulative Versuche <strong>auf</strong> <strong>der</strong> Basis <strong>der</strong>Software OMNeT++ [2005] durchgeführt. Im Gegensatz zu den in Abschnitt 2.2 beschriebenenSimulationen wurde nun anstelle <strong>der</strong> synthetischen Daten ein deutschsprachiger Zeitschriften-Korpusmit 3429 Dokumenten verwendet, welche jeweils manuell <strong>einer</strong> von zehnthematischen Kategorien zugeordnet waren. Aus einem Teil des Korpus wurde ein Trainingskorpusfür die LR-Signifikanzbewertungen <strong>der</strong> Kookkurrenzen und für die Schätzung <strong>einer</strong>LSI-Basis erstellt. Der an<strong>der</strong>e Teil wurde <strong>auf</strong> die Peers verteilt, indem je<strong>der</strong> Peer ähnlich wiein <strong>der</strong> Simulation in Abschnitt 2.2 Interessen-Kategorien zugeordnet bekam und dann anhanddieser Kategorien Dokumente aus dem Korpus zum Peer zugeordnet wurden. Zusätzlich wurdennoch einfache Anfragen aus den aus den Testdokumenten generiert. Einzelheiten zu denExperimenten wurden in Witschel & Böhme [2005] veröffentlicht.Es wurden zwei Szenarien simuliert. In <strong>einer</strong> ersten Simulation (Szenario 1) wurde mit <strong>einer</strong>vereinfachten Netzwerkstruktur <strong>der</strong> Einfluss <strong>der</strong> Strukturbildung ausgeblendet. Hierzu wurdedas Overlay-Netzwerk als Radialstruktur um einem zentralen Peer Z gebildet, <strong>der</strong> mit 1000Peers X n verbunden ist. Mit den verschiedenen Strategien C i wurden die Ähnlichkeiten zwischenAnfrage Q und den X n , D(Q, X n | C i ), zentral berechnet und in <strong>einer</strong> Liste geordnet, wo<strong>bei</strong>die Profillänge als Maß <strong>der</strong> Kompaktheit variiert wurde. Anschließend wurde untersucht,wieviele <strong>der</strong> jeweils bekannten, zur Testanfrage passenden Dokumente nach <strong>der</strong> Abfrage wievielerPeers bereits in <strong>der</strong> Ergebnismenge vorhanden waren, d.h. die Abhängigkeit zwischenRecall und TTL <strong>bei</strong> sukzessiver Abfrage von Peers in <strong>der</strong> Reihenfolge absteigen<strong>der</strong> Ähnlichkeitzu Q (vgl. Abschnitt 2.2). Als Baseline wurde eine zufällige Sortierung von Peers unterAusschluss von Wie<strong>der</strong>holungen verwendet. Zusätzlich wurde noch eine Simulation <strong>der</strong> Standard-Strategiemit ungekürzter Profillänge durchgeführt („Informed Strategy“), die die Einflüsse<strong>der</strong> Kompression <strong>bei</strong> <strong>der</strong> Profilverkürzung zeigen sollte.Für die zweite Simulation (Szenario 2) wurde die Peer-to-Peer-Netzwerkstruktur mit <strong>der</strong>kombinierten Intergroup- und Clusteringstrategie mit 1000 Peers verwendet. Wie in <strong>der</strong> Simulationin Abschnitt 2.2 wurde eingangs die Struktur des Overlay-Netzwerkes <strong>auf</strong>gebaut, diesmalallerdings mit den verschiedenen Profil-Strategien C i , wo<strong>bei</strong> die Profillänge variiert wurde.Anschließend wurden an das Netzwerk Testanfragen gestellt und untersucht, wieviele <strong>der</strong>bekannten zur Anfrage passenden Dokumente nach <strong>der</strong> Abfrage wievieler Peers in <strong>der</strong> Ergebnismengevorhanden waren, d.h. die Abhängigkeit zwischen Recall und TTL. Als Baselinewurde ein Zufallsgraph verwendet, zusammen mit <strong>einer</strong> zufälligen Weiterleitung von Suchanfragenan Peers unter Ausschluss von Wie<strong>der</strong>holungen, vergleichbar mit einem Zufalls-Graphenals Overlay. Zusätzlich wurde wie im Szenario 1 noch eine Simulation <strong>der</strong> Standard-Strategie mit ungekürzter Profillänge durchgeführt („Informed Strategy“).


- A8 -Abb. 3: Vereinfachte Netzwerkstruktur: Simulationsergebnisse für verschiedene Extraktionsmethoden.Beispiel mit Profillängen 16 (li.) und 48 (re., LSI zusätzlich noch mit Konzeptzahl 100 und 200).Abb. 4: Small-World-Netzwerkstruktur: Simulationsergebnisse für verschiedene Extraktionsmethoden.Beispiel mit Profillänge 16 (li.) und 48 (re., LSI zusätzlich noch mit Konzeptzahl 100 und 200).Ergebnisse und Diskussion Suche. Für <strong>bei</strong>de Szenarien ergaben sich für das Recallverhaltenmit Profillängen 16 und 48 die in Abbn. 3 und 4 gezeigten Graphen. Sowohl <strong>bei</strong> <strong>der</strong> vereinfachtenNetzwerkstruktur, als auch unter Einbeziehung <strong>der</strong> Strukturbildung wurde <strong>der</strong> besteRecall für kleine und mittlere Weiterleitungszahlen (ca. 1-50) durchweg mit <strong>der</strong> Kookkurrenz-Strategie erreicht. Die Erweiterung von Anfragen för<strong>der</strong>t also den Recall gegenüber <strong>der</strong> nichterweiterndenStandard-Strategie. Die Dornseiff-Strategie hingegen führte nicht zu <strong>einer</strong> signifikantenVerbesserung des Recalls. Untersuchung des <strong>auf</strong> den Peers verwendeten Test-Korpusund des im Dornseiff-Thesaurus verwendeten Vokabulars zeigte den Grund: Die Mehrzahl<strong>der</strong> Wörter <strong>der</strong> aus dem Test-Korpus generierten Test-Anfragen waren entwe<strong>der</strong> im Thesaurusnicht <strong>auf</strong>geführt o<strong>der</strong> führten zu mehreren Kategorien und konnten nicht zugeordnet werden.Das Problem des Pseudo-Feedback-Verfahrens war die Tatsache, dass eine Erweiterung <strong>der</strong>Anfrage immer erst dann stattfinden kann, wenn bereits relevante Dokumente gefunden wurden.Für Anfragen mit kl<strong>einer</strong> Treffermenge kommt somit keine Anfrageerweiterung zustande.Ein bemerkenswertes Ergebnis <strong>der</strong> Versuche war, dass <strong>der</strong> als qualitativ vielversprechend angeseheneAnsatz <strong>der</strong> latenten semantischen Analyse (LSA) zu enttäuschenden Ergebnissenführte, selbst für relativ große Konzeptanzahlen. Es gibt mehrere mögliche Gründe hierfür. Soist die unvollständige Überlappung zwischen Referenzkorpus und Testkorpus eine möglicheUrsache. Ein an<strong>der</strong>er möglicher Grund ist die schlechte statistische Übereinstimmung zwischen<strong>der</strong> Normalverteilung, für welche die LSA-Implementierung mit Singulärwertzerlegungoptimal ist, und <strong>der</strong> tatsächlichen Verteilung <strong>der</strong> Termfrequenzen, die laut Stichproben im verwendetenKorpus stark von <strong>der</strong> Normalverteilung abweicht (vgl. Dunning [1994]; Jansche[2003]; Hofmann [2001]).


- A9 -Abb. 5. Visualiserung eines Ausschnitts des Overlay-Netzwerks nach <strong>der</strong> Strukturierung. Die Knoten bzw.Peers sind mit den zugeordneten Interessen-Kategorien bezeichnet.Abb. 6. Netzwerkeigenschaften.Interessant ist, dass schon mit Profillänge 16 ein Großteil <strong>der</strong> Dokumente mit <strong>der</strong> gleichenAnzahl von Weiterleitungen gefunden wurde, wie mit Profillänge 48. Zusätzlich lässt <strong>der</strong> relativgeringe Recall-Unterschied zu den vollständigen Profillängen (ca. 200) <strong>bei</strong> <strong>der</strong> InformedStrategy den Schluss zu, dass ein Großteil als insignifikant bewerteter Wörter für die Profilbildungtatsächlich ignoriert werden kann.Ergebnisse und Diskussion Strukturbildung. Eine Untersuchung <strong>der</strong> Netzwerk-Strukturen,die sich aus den verschiedenen Profilbildungs-Strategien für Szenario 2 ergaben, zeigte prinzipiellein ähnliches Bild wie für die Simulation mit synthetischen Daten in Abschnitt 2.2. Einanschauliches visuelles Beispiel für die entstandene Struktur ist in Abbildung 5 gezeigt. EinigeErkenntnisse lassen sich aus <strong>der</strong> Tabelle in Abb. 6 ziehen. So weisen die im Vergleich zurBaseline-Strategie stark vergrößerten Clusterkoeffizienten <strong>der</strong> verschiedenen Verfahren <strong>bei</strong>vergleichbaren mittleren Weglängen dar<strong>auf</strong> hin, dass sich Small-World-Strukturen auch mitrealen Textdaten <strong>auf</strong>bauen lassen. Da<strong>bei</strong> blieb <strong>bei</strong> den Standard- und Kookkurrenz-Strategienjeweils eine große Hauptkomponente im Netzwerk zusammenhängend, wo<strong>bei</strong> mit größererInformationsmenge in den Profilen bzw. Anfrageerweiterung die Anzahl <strong>der</strong> von diesemHauptnetzwerk abgespaltenen kleinen Komponenten zunahm. Die LSI-Strategie war aus obenvermuteten Gründen deutlich schlechter. Insgesamt zeigte sich aber, dass sich Small World


- A10 -Strukturen auch und beson<strong>der</strong>s mit sehr kurzen Profilen und einfachen Ähnlichkeitsmaßen zuverlässigerzeugen lassen.Als Gütemaß für die gebildeten Cluster wurde die Neighbour Precision eingeführt, für jedenPeer ist dies <strong>der</strong> Anteil s<strong>einer</strong> Cluster-Nachbarn, die mindestens eine Interessen-Kategorie mitihm teilen. Sie erreichte für die Standard- und Kookkurrenz-Strategie jeweils nahe 1 (demIdealwert) und war damit sehr viel besser als für Baseline und LSI.2.4 Prototypische ImplementierungAuf Basis <strong>der</strong> Konzeption und <strong>der</strong> Ergebnisse aus den Analyseexperimenten wurde eine Peer-Software entwickelt, die zur Verwaltung <strong>der</strong> Netzwerkkommunikation maßgeblich <strong>auf</strong> <strong>der</strong>JXTA-Plattform <strong>auf</strong>baut. Bei <strong>der</strong> Implementierung des Prototypen wurde neben <strong>der</strong> Umsetzung<strong>der</strong> forschungsrelevanten Funktionalitäten bezüglich <strong>der</strong> Benutzerschnittstelle dar<strong>auf</strong> geachtet,dass die Nutzung auch für Ungeübte einfach und selbsterklärend bleibt; sie orientiertsich an Werkzeugen wie Gnutella und eMule. Abb. 7 zeigt die Benutzerschnittstelle des entwickeltenPrototypen.Funktion. Der Benutzer kann mit <strong>der</strong> Peer-Anwendung ein bestimmtes Verzeichnis <strong>auf</strong> seinemRechner freigeben. Die Dokumente in diesem Verzeichnis werden indiziert und gehen indas Peer-Profil ein, wo<strong>bei</strong> das Verzeichnis überwacht wird und neu hinzugekommene, weggefalleneo<strong>der</strong> geän<strong>der</strong>te Dokumente automatisch aktualisiert werden. Die meisten im Alltaggängigen <strong>Fo</strong>rmate für Textdokumente wie ASCII, PDF, Office und XML bzw. HTML werdenda<strong>bei</strong> unterstützt.Die Verbindung des Peers zum Netzwerk erfolgt nach dem Start <strong>der</strong> Anwendung. Für den Verbindungsvorgangist anfangs die Verbindung zu einem sogenannten Rendezvous-Server notwendig,einem Peer, <strong>der</strong> die Adressen an<strong>der</strong>er Peers speichert und weitergibt. Die Adresse desRendezvous-Peers wird automatisch von einem Webserver gelesen o<strong>der</strong> vom Benutzer konfiguriert.Nachdem <strong>der</strong> Peer mindestens ein Profil von einem aktiven Peer erhalten hat, ist er betriebsbereit,und <strong>der</strong> Nutzer kann Suchanfragen stellen. Da<strong>bei</strong> sind mehrere gleichzeitige Suchvorgängemöglich. Die Suchergebnisse werden für jede Anfrage in <strong>einer</strong> eigenen Liste angezeigt,und <strong>der</strong> Benutzer kann wählen, welche Dokumente er von einem an<strong>der</strong>en Peer herunterzulädt.Der Peer führt außerdem selbständig periodisch Gossiping aus, um sich mit an<strong>der</strong>en Peers zuvernetzen.Zusätzlich hat <strong>der</strong> Nutzer nach dem Eingang von Suchergebnissen die Möglichkeit, durchDrücken des „mehr“-Knopfes seine Suche mit einem allgem<strong>einer</strong>en Anfrageprofil zu wie<strong>der</strong>holen.Hierfür wird eine Erweiterung <strong>der</strong> Anfrage über dem Referenzkorpus vorgenommen,d.h. je<strong>der</strong> in <strong>der</strong> Suchanfrage vorkommende Begriff wird um jeweils verwandte Begriffe nach<strong>der</strong> Kookkurrenz-Strategie (s. Abschnitt 2.3) erweitert.Aufbau. Der prinzipielle Aufbau <strong>der</strong> Software ist in Abb. 8 wie<strong>der</strong>gegeben. Ein Peer bestehtaus <strong>einer</strong> graphischen Benutzerschnittstelle, einem Textanalysator, <strong>der</strong> die in Abschnitt 2.3 beschriebenenAlgorithmen implementiert, einem Modul zur Verwaltung des lokalen Dokumentenbestands,das Än<strong>der</strong>ungen im freigegebenen Verzeichnis mit dem lokalen Index abgleicht(Dateiformate umwandelt, indiziert sowie ein Profil extrahiert), einem Modul, welches denKommunikationskanal abstrahiert, sowie <strong>einer</strong> damit verbundenen JXTA-Schnittstelle, dieden Austausch von Nachrichten zwischen Peers über das JXTA-Protokoll realisiert.


- A11 -Abb. 7. Screenshot des Peer-User-Interfaces.Abb. 8. Aufbau eines Peers (Servents).Als zusätzliche Strategie für die Netzwerk-Strukturierung wurde im Prototypen die sogenannteegoistische Strategie implementiert. Hierfür wird für periodische Struktur-Aktualisierungsvorgängefür jeden Peer eine Analyse des Antwortverhaltens s<strong>einer</strong> Nachbarn durchgeführtund selten antwortende Nachbarn durch „gute Peers“ ersetzt, die häufig Antworten <strong>auf</strong> Anfragengeliefert hatten.Für alle Parameter wurden bisher erste Einstellungen vorgenommen und experimentell <strong>auf</strong>ihre Auswirkungen in relativ kleinen Netzwerken (


- A12 -2.5 Simulation des GesamtsystemsZur Evaluierung des gemeinsamen Verhaltens von Textextraktion, Strukturierungs- und Suchstrategienwurde die in Abschnitt 2.3 beschriebene Simulation <strong>auf</strong> <strong>der</strong> Basis von OMNeT++entwickelt und durchgeführt. In einem zweiten Schritt sollte es ermöglicht werden, die realePeer-Implementierung als Gesamtsystem mit <strong>einer</strong> geeigneten Simulationsumgebung zu evaluieren,so dass <strong>der</strong> Einfluss von Eigenschaften des Peers <strong>auf</strong> den Aufbau größerer Netzwerkstrukturenuntersucht werden kann und neue Ansätze wie die egoistische Strategie (s. Abschnitt2.4) nicht doppelt implementiert werden müssen. Weiterhin sollte es nun möglich sein,das Online-Verhalten von Peers zu modellieren, so dass eine realistischere Simulation als diein Abschnitt 2.3 vorgestellte möglich ist.Auf <strong>der</strong> Basis von JADE wurde hierzu eine verteilte Simulationsumgebung entwickelt, mitdem eine Community mit <strong>einer</strong> hinreichend großen Anzahl von realistischen Peers (mehrereTausend) hinreichend genau simuliert und die entsprechenden Ergebnisse protokolliert werdenkönnen. Die zu bewältigenden Problemstellungen lagen da<strong>bei</strong> sowohl in <strong>der</strong> Realisierungvernünftig zu bedienen<strong>der</strong> Initialisierungsschritte, als auch <strong>der</strong> Realisierung eines geeignetenLoad Balancings zwischen den an <strong>der</strong> Simulation beteiligten Maschinen.Durch die rechnerische Komplexität <strong>der</strong> in <strong>der</strong> Peer-Software verwendeten Textanalysewerkzeugemusste weiterhin eine Anpassung <strong>der</strong> Software zur Verwendung in <strong>der</strong> Simulationsumgebungvorgenommen werden, da <strong>der</strong> Speicherverbrauch für simulierte Netzgrößen von mehrerentausend Peers zu groß war. Weiterhin war die Entwicklung eines Kommunikationsadapterszwischen Peer-Software und Simulationsumgebung notwendig, um eine Steuerung desPeers durch die Simulation sowie eine Protokollierung <strong>der</strong> Simulationsschritte zu ermöglichen.Erste Tests mit <strong>der</strong> entwickelten Simulationsumgebung und <strong>der</strong> modifizierten Peer-Softwaresind bereits erfolgreich verl<strong>auf</strong>en.Schwierig gestaltet sich im Moment allerdings auch ein realitätsnahes Modell für die Verteilungvon Inhalten zwischen den Peers bzw. für das Nutzerverhalten, und <strong>der</strong> <strong>der</strong>zeit als ambesten angesehene Ansatz ist <strong>der</strong>, den Korpus <strong>einer</strong> verteilten Nicht-Peer-to-Peer-Communityzu verwenden, da an<strong>der</strong>e Daten bisher nicht existieren. Hierfür wird gegenwärtig ein Korpusaus einem verteilten internationalen Netzwerk von wissenschaftlichen Aufsätzen erstellt, <strong>der</strong>eine – wenn auch abstrahierte – Verteilung von Inhalten über Peers ermöglicht.2.6 DisseminationDie Dissemination <strong>der</strong> Projektergebnisse und Vernetzung mit an<strong>der</strong>en <strong>Fo</strong>rschungsgruppenwurde <strong>auf</strong> mehreren Wegen durchgeführt. So wurden im Rahmen <strong>der</strong> Ar<strong>bei</strong>t an dem Projektmehrere Artikel veröffentlicht (s. Abschnitt 4.2) bzw. befinden sich in <strong>der</strong> Abgabephase.Eine weitere Referenz zur Kommunikation <strong>der</strong> Projektar<strong>bei</strong>ten nach außen war die Projekt-Website (siehe http://www.sempir.informatik.uni-leipzig.de), wo sich projektrelevante Veröffentlichungensowie an<strong>der</strong>e Projektinformationen befinden. Intern besteht ein eigenes Wiki, indem Versammlungsprotokolle, Planungen, Daten und Zwischenergebnisse nie<strong>der</strong>geschriebenwurden.Im November 2005 wurde ein Workshop mit einem Großteil <strong>der</strong> in Deutschland zum ThemaPeer-to-Peer-Suchsysteme ar<strong>bei</strong>tenden <strong>Fo</strong>rschungsgruppen durchgeführt, <strong>der</strong> <strong>auf</strong> sehr positiveResonanz stieß (siehe auch http://www.sempir.informatik.uni-leipzig.de/Events.htm).


- A13 -Weiterhin wurde die thematisch eng verwandte Konferenz „Innovative Internet CommunitySystems“ (siehe http://i2cs-conference.org o<strong>der</strong> http://oss.ephe.sorbonne.fr/~i2cs/) von Projektmitglie<strong>der</strong>nmitorganisiert.3 Fazit und AusblickFazit. Das Projekt IST-P2P („SemPIR“) hat die konzeptionelle und prototypische Entwicklungdes geplanten Peer-to-Peer-Suchsystems weitgehend abgeschlossen, so dass eine auchvon Endbenutzern verwendbare Version eines Peer-to-Peer-Clients bis zum ersten Quartal2006 vorliegt. Zudem konnte die wichtigste <strong>Fo</strong>rschungsfrage des Projektes geklärt werden,nämlich dass es nicht nur möglich ist, durch Clustering von Peers mit semantisch ähnlichenInhalten und zusätzliche Verbindungen zwischen den Clustern eine Small-World-Struktur <strong>auf</strong>zubauen,son<strong>der</strong>n auch nach semantischen Kriterien mit gutem Recall zu suchen. Bemerkenswertan dem Ansatz ist, dass die globale Suche <strong>auf</strong> diese Weise nur lokale semantische Informationenbenötigt.Die im Projektantrag genannten wissenschaftlichen und technischen Einzel<strong>auf</strong>gaben konntenzu einem großen Teil gelöst werden.Die Evaluierung und Weiterentwicklung von Verfahren zur Analyse natürlichsprachlicherTexte und die damit verbundene Entwicklung geeigneter Abstandsmaße <strong>auf</strong> Textkorpora führtezu einem semantischen Analyseverfahren, das <strong>auf</strong> Likelihood-Ratio-Signifikanzen von Termenin Inhalten im Vergleich mit einem Referenzkorpus <strong>auf</strong>baut und mit <strong>einer</strong> Variante desVector-Space-Modells verwendet wird.Die Entwicklung von Verfahren zur sukzessiven Approximation <strong>der</strong> Netzwerkstruktur sowie<strong>der</strong> damit verbundene Entwurf von Verfahren zur Optimierung <strong>der</strong> Kommunikation führte zueinem semantisch motivierten Gossiping-Verfahren sowie einem Suchmechanismus, die <strong>bei</strong>desimulativ – auch in Verbindung mit den Textanalyseverfahren und Abstandsmaßen – verifiziertwurden.Weiterhin wurde die Spezifikation und prototypische Implementierung <strong>einer</strong> Peer-to-Peer-Infrastruktur<strong>auf</strong> Basis <strong>der</strong> entwickelten Ansätze erfolgreich abgeschlossen, und mit <strong>der</strong> entstandenenSoftware wird <strong>der</strong>zeit ein Feldtest im Kollegenkreis durchgeführt, <strong>der</strong> zu iterativen Verbesserungengenutzt wird. Die Software erfährt außerdem letzte Anpassungen für den Betriebin <strong>der</strong> Simulationsumgebung, die hierfür im Projekt entwickelt wurde.Die nächsten Schritte <strong>der</strong> Projektar<strong>bei</strong>ten konzentrieren sich, neben <strong>der</strong> Verbesserung <strong>der</strong>Peer-Software, <strong>auf</strong> die Fertigstellung <strong>der</strong> Simulationsumgebung und <strong>auf</strong> die anschließende Simulation.Außer <strong>der</strong> Erforschung des Systemverhaltens für verschiedene Netzwerkgrößen istdie Simulation zudem die Grundlage für die Optimierung wichtiger Parameter wie Profillängenund Anzahl von Nachbarn, welche dann für die reale Nutzung des Peer-to-Peer-Systemsangewandt werden sollen.Ausblick. Obwohl die Funktionsweise des <strong>auf</strong> semantischen Small-World-Strukturen <strong>auf</strong>bauendenPeer-to-Peer-Prinzips nachgewiesen werden konnte, stellen sich noch viele <strong>Fo</strong>rschungsfragenfür zukünftige Ar<strong>bei</strong>ten. So ist die Definition von realitätsnahen Modellen <strong>der</strong> Verteilungvon Inhalten sowie des Anfrageverhaltens von Nutzern ein beson<strong>der</strong>es Problem <strong>bei</strong> <strong>der</strong>Simulation. Die Literatur sowie gezielte Nachforschungen in <strong>der</strong> <strong>Fo</strong>rschungscommunity – u.a.<strong>bei</strong> dem in Abschnitt 2.6 erwähnten Workshop im November 2005 – führten zu <strong>der</strong> Erkennt-


- A14 -nis, dass ein solches Modell bislang nicht umgesetzt wurde, aber von großem wissenschaftlichenInteresse wäre. Mit einem solchen Modell wären von Simulationen über sehr großeNetzwerke realistischere Ergebnisse zu erwarten als mit den gegenwärtig verfügbaren Daten.Weiterhin ist die Small-World-Struktur zum Auffinden von Inhalten <strong>auf</strong> semantische Kriterienbeschränkt. Einflüsse des Nutzerverhaltens wie Popularität von Peers (durch Relevance Feedbacko<strong>der</strong> Messung des Datenaustauschs) <strong>bei</strong>spielsweise erscheinen als Erweiterung des Ansatzessehr vielversprechend. Zudem könnten über alternative Ansätze für die Wahl von Intergroup-Verbindungenuntersucht werden, etwa die Verwendung geographischer Informationeno<strong>der</strong> reale soziale Netzwerke zwischen Peerbetreibern.Für den praktischen Betrieb in spezialisierten Communities spielt außerdem das Problem eineRolle, Dokumente zu finden, <strong>der</strong>en Vokabular nur lokal bekannt ist, weil es durch Abschneiden<strong>der</strong> Profile nicht propagiert wird. Dies steht den Vorteilen von verteilten, lokalisierten Indizesentgegen. Eine Lösung dieses Problems wäre von großem Interesse für Anwendungen,mit denen lokal spezialisiertes Wissen ausgetauscht werden soll.Als grundlegen<strong>der</strong> Schritt wird jedoch eine eingehen<strong>der</strong>e Evaluation des Systems in <strong>einer</strong> größerenNutzercommunity angesehen, was sowohl Aussagen über die Qualität <strong>der</strong> Simulation,als auch Erkenntnisse über oben genannte Inhaltsverteilungen hervorbringen kann. Zudemkann <strong>der</strong> empirische Betrieb weitere Anregungen für die Nutzung von Recherchesystemen liefern,die zu neuen, bisher nicht beachteten <strong>Fo</strong>rschungsfragen führen.4 Literatur4.1 Quellen[Baeza-Yates & Ri<strong>bei</strong>ro-Neto 1999] R.A. Baeza-Yates & B.A. Ri<strong>bei</strong>ro-Neto. Mo<strong>der</strong>nInformation Retrieval. ACM Press & Addison-Wesley, 1999[Deerwester et al 1990] S. Deerwester, S.T. Dumais, T.K. Landauer, G.W. Furnas, R.A. Harshman(1990): Indexing by latent semantic analysis. Journal of the Society for InformationScience, 41 (6), 391–407[Dornseiff 2004] F. Dornseiff. Der deutsche Wortschatz nach Sachgruppen. de Gruyter, Berlin/NewYork, 2004[Dunning 1994] T. Dunning. Accurate methods for the statistics of surprise and coincidence.Computational Linguistics, 19(1):61, 1994[Hofmann 1999] T. Hofmann. Unsupervised Learning by Probabilistic Latent Semantic Analysis.Mach. Learn., 42:177-196, 2001[Jansche 2003] M. Jansche. Parametric Models of Linguistic Count Data. Proc. of the 41stAnnual Meeting of the Association for Computational Linguistics (ACL 41) , 2003 , 288-295,2003[Kleinberg 2000] J. Kleinberg. The small-world phenomenon: An algorithmic perspective. In:Proc. 32nd ACM Symposium on Theory of Computing. Web:http://www.cs.cornell.edu/home/kleinber/swn.d/swn.html, 2000[Kronfol 2002] A. Z. Kronfol: FASD: A Fault-tolerant, Adaptive, Scalable, Distributed SearchEngine. PhD thesis, 2002[Milgram 1967] S. Milgram. The Small World Problem. In: Psychology Today, 1967(5), p. 60-67, 1967


- A15 -[OMNeT 2005] OMNeT++. Web: http://www.omnetpp.org, 2005[Watts & Strogatz 1998] D. Watts & S. Strogatz. Collective Dynamics of ’Small-World’ Networks.Nature, 393(6):440–442, 19984.2 Projekt-Publikationen[Witschel & Böhme 2005] H.F. Witschel & T. Böhme. Evaluating profiling and query expansionmethods for p2p information retrieval. In Proc. of the 2005 ACM Workshop on InformationRetrieval in Peer-to-Peer Networks (P2PIR), 2005[Witschel & Unger 2005] H.F. Witschel & H. Unger. Vernetzung virtueller Gemeinschaftenmit P2P-Technologien. In Proceedings of GeNeMe'05, 2005[Witschel 2005] H.F. Witschel. Content-oriented Topology Restructuring for Search in P2PNetworks. Technical report, University of Leipzig, 2005

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!