11.12.2012 Aufrufe

LINSearch - Linguistisches Indexieren und Suchen, Dr. Petra Mensing

LINSearch - Linguistisches Indexieren und Suchen, Dr. Petra Mensing

LINSearch - Linguistisches Indexieren und Suchen, Dr. Petra Mensing

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>LINSearch</strong> –<br />

<strong>Linguistisches</strong> <strong>Indexieren</strong> <strong>und</strong> <strong>Suchen</strong><br />

<strong>Dr</strong>. <strong>Petra</strong> <strong>Mensing</strong><br />

PETRUS Workshop<br />

21. März 2011


Inhalt<br />

• Die TIB<br />

• Projekt <strong>LINSearch</strong><br />

• Lösungsansätze<br />

• Ergebnisse<br />

• Chancen <strong>und</strong> Risiken<br />

2


Die TIB<br />

• Deutsche Zentrale Fachbibliothek für Technik sowie Architektur,<br />

Chemie, Informatik, Mathematik <strong>und</strong> Physik<br />

• Weltweit größte Spezialbibliothek für Technik <strong>und</strong><br />

Naturwissenschaften<br />

• K<strong>und</strong>en aus 67 Ländern<br />

• Gegründet 1959 – auf Basis der UB (gegründet 1831)<br />

• Finanziert durch B<strong>und</strong> <strong>und</strong> Länder<br />

• Gesamtstaatliche Aufgaben<br />

• Mitglied der Leibniz-Gemeinschaft<br />

3


Dienstleistungen<br />

• Volltextversorgung<br />

• Print<br />

• Digital (Nationallizenzen, PPV)<br />

• GetInfo – Fachportal für Technik <strong>und</strong> Naturwissenschaften<br />

• 35 Mio. Datensätze im Index<br />

• 135 Mio. Datensätze im Zugriff (z. B. STN-Index)<br />

• GetInfo – Erweiterte Dienste<br />

• Technik, Physik, Chemie, Mathematik<br />

• Angewandte Forschung <strong>und</strong> Entwicklung � Digital Libraries<br />

(Visuelle Suche, Visualisierug)<br />

4


Inhaltliche Erschließung -<br />

Prozessbeschreibung<br />

• Der klassische Prozess der inhaltlichen Erschließung ist ein<br />

intellektueller Prozess.<br />

• Obwohl einige automatische Verfahren existieren, werden Klassen<br />

manuell zugewiesen, um eine qualitativ hochwertige<br />

Kategorisierung zu ermöglichen.<br />

Produzenten<br />

Sacherschließung<br />

Bibliothek<br />

Intellektueller Prozess!<br />

5


Lösungsbedarf<br />

Der Inhalt der Dokumente steht nicht zur Verfügung – Metadaten.<br />

Menge an Daten <strong>und</strong> Informationen wächst ständig <strong>und</strong> lässt sich<br />

nicht durch „Manpower“ bewältigen.<br />

6


Ziel<br />

• Klassifizierung von nicht erschlossenen Beständen mit Hilfe<br />

automatisierter Verfahren insbesondere bei wenig Metadaten.<br />

Sachlich nicht erschlossene Bestände sind bspw.:<br />

• NTIS (amerikanische Forschungsberichte)<br />

• Konferenzbeiträge<br />

• Zeitschriftenaufsätze<br />

• Eingrenzen des Informationsraumes für die Suche<br />

• Inhaltliche Strukturierung der Suchergebnisse<br />

� Durch die Anwendung linguistischer <strong>und</strong> statistischer<br />

Methoden, einzeln <strong>und</strong> in Kombination.<br />

7


Das Projekt <strong>LINSearch</strong><br />

• <strong>LINSearch</strong> war ein Gemeinschaftsprojekt:<br />

• Technische Informationsbibliothek Hannover<br />

• Forschungszentrum L3S<br />

• Fachinformationszentrum Technik GmbH<br />

• IAI - Institut der Gesellschaft zur Förderung der<br />

angewandten Informationsforschung e.V. an der<br />

Universität des Saarlandes (Koordination)<br />

• <strong>und</strong> wurde gefördert vom B<strong>und</strong>esministerium für Wirtschaft <strong>und</strong><br />

Technologie.<br />

• 2,5 Jahre Projektlaufzeit (Ende 2009).<br />

8


Ausgangslage - TIB in Zahlen<br />

Die TIB verwaltet insgesamt:<br />

� 8.700.000 Medieneinheiten, darin enthalten sind:<br />

⋅ 3.100 Fachdatenbanken<br />

⋅ 18.300 Fachzeitschriften<br />

⋅ 36.000 eJournals<br />

⋅ 55.000 Digitale Einzeldokumente<br />

⋅ 5.350.000 Bücher<br />

� 14.300.000 Patentschriften, Normen, Standards<br />

9


Ausgangslage - TIB in Zahlen<br />

Hinzu kommen elektronische Datensätze:<br />

� Zwischen 1,0 <strong>und</strong> 4,5 Millionen Metadatensätze pro Quelle<br />

� Aktualisierungsrate: ca. 50.000 Metadatensätze pro Monat<br />

� Quellen sind:<br />

• NTIS (amerikanische Forschungsberichte)<br />

• Konferenzbeiträge<br />

• Zeitschriftenaufsätze<br />

• Die TIB hat 35 Mio. Datensätze im Index, davon sind 8,7 Mio.<br />

mit Sacherschließungselementen versehen (eigener Bestand).<br />

Der übrige (wachsende) Teil enthält keine Sacherschließungsdaten.<br />

10


Klassifizierung der Fachsuche<br />

Zuordnung nicht erschlossener Inhalte zur GetInfo-Fachsuche<br />

Technik<br />

Architektur<br />

Chemie Mathematik<br />

Physik<br />

Informatik<br />

11


GetInfo-Portal<br />

GetInfo-Portal für technisch-naturwissenschaftliche Volltexte <strong>und</strong> Informationen<br />

für Wissenschaft, Forschung <strong>und</strong> Praxis.<br />

12


Anwendungsszenario<br />

13


Gewünschtes Ergebnis:<br />

Trefferanzeige für einzelne Fachsuchen<br />

14


Gewünschtes Ergebnis:<br />

Filteroption Fach<br />

15


Datensituation<br />

Gegeben:<br />

Beispiel:<br />

• Zwischen 1,0 <strong>und</strong> 4,5 Millionen Metadatensätze pro Quelle<br />

• Aktualisierungsrate: ca. 50.000 Metadatensätze pro Monat<br />

• mit minimalem Inhalt (Autor, Titel, Institution pro Dokument)<br />

• title = Untersuchung von Bodenbewegungen über<br />

Speicherkavernen: Schlussbericht zum Forschungsvorhaben<br />

• creator = Schauermann, Volker<br />

• issued = 1978<br />

• publicationPlace = S.1.<br />

• publisher = unknown<br />

• description = Umfang: 24 Bl.<br />

16


Methode<br />

Ansatz: Kombination aus Mapping <strong>und</strong> automatischer Klassifizierung<br />

Methode:<br />

Datensatz Klassifikation nein<br />

ja<br />

Mapping Maschinelles Lernen<br />

Konferenz /<br />

Zeitschrift<br />

ja<br />

Klasse<br />

nein<br />

Bestimmung<br />

von Scores<br />

17


Scoreberechnung<br />

Titel<br />

Linguistische<br />

Verarbeitung<br />

Liste mit<br />

n-Grammen<br />

Test auf Übereinstimmung<br />

mit Wortlisten<br />

Scores<br />

title = Untersuchung von Bodenbewegungen<br />

über Speicherkavernen<br />

De – morphologische Analyse<br />

En – Stemming<br />

Untersuchung, Bodenbewegung, Boden, Bewegung,<br />

Speicherkaverne, Speicher, Kaverne,<br />

Untersuchung von Bodenbewegungen,<br />

Bodenbewegungen über Speicherkavernen<br />

Fertigungstechnik: {untersuchung} � 1<br />

Informatik: {Speicher} � 1<br />

Architektur: {Untersuchung, Speicher} � 2<br />

Umwelttechnik: {untersuchung, boden, speicher} � 3<br />

18


Methode – Erlernen des Modells<br />

Autor Institution Scores pro Klasse* Klasse<br />

Schauermann,<br />

Volker<br />

Trainingsdaten<br />

Unknown 2; 2; 4; 3; 1; 1 Technik<br />

Ruby, Ilka Unknown 2; 2; ;2; 1; 5; 1 Architektur<br />

Unknown American<br />

mathematical<br />

society<br />

9; 11; 10; 9; 1; 7 Mathe<br />

Klassifikations-<br />

Algorithmus<br />

(LogitBoost )<br />

Klassifikator<br />

(Modell)<br />

* Absolute Häufigkeiten an übereinstimmenden Worten mit Termen der<br />

klassenspezifischen Wortlisten (je ein Wert pro Klasse)<br />

19


Methode – Klassifikation<br />

Testdaten<br />

Autor Institution Scores pro Klasse*<br />

Schauermann, Volker Unknown 1; 1; 2; 3; 4; 1<br />

Klassifikator<br />

(Modell)<br />

Klasse<br />

Technik<br />

* Absolute Häufigkeiten an übereinstimmenden Worten mit Termen der<br />

klassenspezifischen Wortlisten (je ein Wert pro Klasse)<br />

20


Klassifizierung – Modifikationen<br />

• Berücksichtigung der Relevanz der Terme für einzelne Klassen<br />

(Signifikanz- <strong>und</strong> Häufigkeitswerte)<br />

� Berücksichtigung dieser Werte als Termgewichte<br />

• Gewichtung der Scores in Abhängigkeit der Quelle<br />

� z.B. Treffer mit automatisch erstellten Wortlisten höher bewerten als<br />

solche mit manuell erstellten Wortlisten<br />

• Erweiterung der Wortlisten mittels externer Quellen<br />

• Integration eines Tools zum Erkennen chemischer Formeln<br />

• Integration eines Sprachklassifikators zur Auswahl relevanter<br />

Datensätze<br />

21


Klassifizierung – Ergebnisse<br />

Beste Ergebnisse:<br />

• mit Abstract<br />

• Stärkere Gewichtung von Termen<br />

aus automatisch erstellten Wortlisten<br />

• größere Trainingsmenge<br />

• Kombination statistischer <strong>und</strong> linguistischer Verfahren<br />

� Genauigkeit von ~ 70%<br />

� allgemeiner Wortschatz ist (manchmal) relevanter<br />

� größere Trainingsmenge sorgt für bessere Ergebnisse<br />

22


Pilotanwendung – Recommind<br />

Kommerzielles Tool zum automatischen Kategorisieren von<br />

Inhalten.<br />

Test mit:<br />

• 1.061.000 Dokumenten, davon wurden<br />

• 217.000 Dokumente für das Training verwendet<br />

• 6 Kategorien<br />

Ergebnis:<br />

� ~ 75% Genauigkeit bei der Vergabe einer Kategorie<br />

� Problem thematische Überschneidungen<br />

(bspw. „system architecture“)<br />

Aktuell: Vorbereitung für einen Test des<br />

Klassifizierungssystems von Averbis<br />

23


Projekt vs. Praxis<br />

Die Ergebnisse der automatischen Klassifizierungen in den<br />

einzelnen Tests sind vergleichbar.<br />

Die Integration der Systeme in die vorhandene IT-Systemstruktur<br />

ist umsetzbar.<br />

Für den Praxisbetrieb muss zusätzlich bedacht werden:<br />

• Pflege <strong>und</strong> Weiterentwicklung der Software<br />

• Anpassung an institutionsspezifische Bedürfnisse<br />

• Möglichkeit des Lernens anhand durchgeführter Klassifikationen<br />

• Unabhängig von eigener Programmierressource<br />

24


Chancen <strong>und</strong> Risiken<br />

Chancen<br />

• Automatische Klassifizierungen können die intellektuelle<br />

Sacherschließung nicht ersetzen<br />

• aber sie können eine Unterstützung bei der Sacherschließung<br />

sein<br />

• <strong>und</strong> sie eignen sich gut für Bestände, die sachlich nicht<br />

erschlossen werden.<br />

Risiken<br />

• Mut zur Lücke - nicht alle Inhalte können verarbeitet werden.<br />

• Fehlertoleranz - Inhalte werden falsch zugeordnet.<br />

• Kontrollverlust - Bei der Datenmenge ist eine Analyse nur<br />

stichprobenartig möglich.<br />

25


Vielen Dank für Ihre Aufmerksamkeit!

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!