LINSearch - Linguistisches Indexieren und Suchen, Dr. Petra Mensing
LINSearch - Linguistisches Indexieren und Suchen, Dr. Petra Mensing
LINSearch - Linguistisches Indexieren und Suchen, Dr. Petra Mensing
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>LINSearch</strong> –<br />
<strong>Linguistisches</strong> <strong>Indexieren</strong> <strong>und</strong> <strong>Suchen</strong><br />
<strong>Dr</strong>. <strong>Petra</strong> <strong>Mensing</strong><br />
PETRUS Workshop<br />
21. März 2011
Inhalt<br />
• Die TIB<br />
• Projekt <strong>LINSearch</strong><br />
• Lösungsansätze<br />
• Ergebnisse<br />
• Chancen <strong>und</strong> Risiken<br />
2
Die TIB<br />
• Deutsche Zentrale Fachbibliothek für Technik sowie Architektur,<br />
Chemie, Informatik, Mathematik <strong>und</strong> Physik<br />
• Weltweit größte Spezialbibliothek für Technik <strong>und</strong><br />
Naturwissenschaften<br />
• K<strong>und</strong>en aus 67 Ländern<br />
• Gegründet 1959 – auf Basis der UB (gegründet 1831)<br />
• Finanziert durch B<strong>und</strong> <strong>und</strong> Länder<br />
• Gesamtstaatliche Aufgaben<br />
• Mitglied der Leibniz-Gemeinschaft<br />
3
Dienstleistungen<br />
• Volltextversorgung<br />
• Print<br />
• Digital (Nationallizenzen, PPV)<br />
• GetInfo – Fachportal für Technik <strong>und</strong> Naturwissenschaften<br />
• 35 Mio. Datensätze im Index<br />
• 135 Mio. Datensätze im Zugriff (z. B. STN-Index)<br />
• GetInfo – Erweiterte Dienste<br />
• Technik, Physik, Chemie, Mathematik<br />
• Angewandte Forschung <strong>und</strong> Entwicklung � Digital Libraries<br />
(Visuelle Suche, Visualisierug)<br />
4
Inhaltliche Erschließung -<br />
Prozessbeschreibung<br />
• Der klassische Prozess der inhaltlichen Erschließung ist ein<br />
intellektueller Prozess.<br />
• Obwohl einige automatische Verfahren existieren, werden Klassen<br />
manuell zugewiesen, um eine qualitativ hochwertige<br />
Kategorisierung zu ermöglichen.<br />
Produzenten<br />
Sacherschließung<br />
Bibliothek<br />
Intellektueller Prozess!<br />
5
Lösungsbedarf<br />
Der Inhalt der Dokumente steht nicht zur Verfügung – Metadaten.<br />
Menge an Daten <strong>und</strong> Informationen wächst ständig <strong>und</strong> lässt sich<br />
nicht durch „Manpower“ bewältigen.<br />
6
Ziel<br />
• Klassifizierung von nicht erschlossenen Beständen mit Hilfe<br />
automatisierter Verfahren insbesondere bei wenig Metadaten.<br />
Sachlich nicht erschlossene Bestände sind bspw.:<br />
• NTIS (amerikanische Forschungsberichte)<br />
• Konferenzbeiträge<br />
• Zeitschriftenaufsätze<br />
• Eingrenzen des Informationsraumes für die Suche<br />
• Inhaltliche Strukturierung der Suchergebnisse<br />
� Durch die Anwendung linguistischer <strong>und</strong> statistischer<br />
Methoden, einzeln <strong>und</strong> in Kombination.<br />
7
Das Projekt <strong>LINSearch</strong><br />
• <strong>LINSearch</strong> war ein Gemeinschaftsprojekt:<br />
• Technische Informationsbibliothek Hannover<br />
• Forschungszentrum L3S<br />
• Fachinformationszentrum Technik GmbH<br />
• IAI - Institut der Gesellschaft zur Förderung der<br />
angewandten Informationsforschung e.V. an der<br />
Universität des Saarlandes (Koordination)<br />
• <strong>und</strong> wurde gefördert vom B<strong>und</strong>esministerium für Wirtschaft <strong>und</strong><br />
Technologie.<br />
• 2,5 Jahre Projektlaufzeit (Ende 2009).<br />
8
Ausgangslage - TIB in Zahlen<br />
Die TIB verwaltet insgesamt:<br />
� 8.700.000 Medieneinheiten, darin enthalten sind:<br />
⋅ 3.100 Fachdatenbanken<br />
⋅ 18.300 Fachzeitschriften<br />
⋅ 36.000 eJournals<br />
⋅ 55.000 Digitale Einzeldokumente<br />
⋅ 5.350.000 Bücher<br />
� 14.300.000 Patentschriften, Normen, Standards<br />
9
Ausgangslage - TIB in Zahlen<br />
Hinzu kommen elektronische Datensätze:<br />
� Zwischen 1,0 <strong>und</strong> 4,5 Millionen Metadatensätze pro Quelle<br />
� Aktualisierungsrate: ca. 50.000 Metadatensätze pro Monat<br />
� Quellen sind:<br />
• NTIS (amerikanische Forschungsberichte)<br />
• Konferenzbeiträge<br />
• Zeitschriftenaufsätze<br />
• Die TIB hat 35 Mio. Datensätze im Index, davon sind 8,7 Mio.<br />
mit Sacherschließungselementen versehen (eigener Bestand).<br />
Der übrige (wachsende) Teil enthält keine Sacherschließungsdaten.<br />
10
Klassifizierung der Fachsuche<br />
Zuordnung nicht erschlossener Inhalte zur GetInfo-Fachsuche<br />
Technik<br />
Architektur<br />
Chemie Mathematik<br />
Physik<br />
Informatik<br />
11
GetInfo-Portal<br />
GetInfo-Portal für technisch-naturwissenschaftliche Volltexte <strong>und</strong> Informationen<br />
für Wissenschaft, Forschung <strong>und</strong> Praxis.<br />
12
Anwendungsszenario<br />
13
Gewünschtes Ergebnis:<br />
Trefferanzeige für einzelne Fachsuchen<br />
14
Gewünschtes Ergebnis:<br />
Filteroption Fach<br />
15
Datensituation<br />
Gegeben:<br />
Beispiel:<br />
• Zwischen 1,0 <strong>und</strong> 4,5 Millionen Metadatensätze pro Quelle<br />
• Aktualisierungsrate: ca. 50.000 Metadatensätze pro Monat<br />
• mit minimalem Inhalt (Autor, Titel, Institution pro Dokument)<br />
• title = Untersuchung von Bodenbewegungen über<br />
Speicherkavernen: Schlussbericht zum Forschungsvorhaben<br />
• creator = Schauermann, Volker<br />
• issued = 1978<br />
• publicationPlace = S.1.<br />
• publisher = unknown<br />
• description = Umfang: 24 Bl.<br />
16
Methode<br />
Ansatz: Kombination aus Mapping <strong>und</strong> automatischer Klassifizierung<br />
Methode:<br />
Datensatz Klassifikation nein<br />
ja<br />
Mapping Maschinelles Lernen<br />
Konferenz /<br />
Zeitschrift<br />
ja<br />
Klasse<br />
nein<br />
Bestimmung<br />
von Scores<br />
17
Scoreberechnung<br />
Titel<br />
Linguistische<br />
Verarbeitung<br />
Liste mit<br />
n-Grammen<br />
Test auf Übereinstimmung<br />
mit Wortlisten<br />
Scores<br />
title = Untersuchung von Bodenbewegungen<br />
über Speicherkavernen<br />
De – morphologische Analyse<br />
En – Stemming<br />
Untersuchung, Bodenbewegung, Boden, Bewegung,<br />
Speicherkaverne, Speicher, Kaverne,<br />
Untersuchung von Bodenbewegungen,<br />
Bodenbewegungen über Speicherkavernen<br />
Fertigungstechnik: {untersuchung} � 1<br />
Informatik: {Speicher} � 1<br />
Architektur: {Untersuchung, Speicher} � 2<br />
Umwelttechnik: {untersuchung, boden, speicher} � 3<br />
18
Methode – Erlernen des Modells<br />
Autor Institution Scores pro Klasse* Klasse<br />
Schauermann,<br />
Volker<br />
Trainingsdaten<br />
Unknown 2; 2; 4; 3; 1; 1 Technik<br />
Ruby, Ilka Unknown 2; 2; ;2; 1; 5; 1 Architektur<br />
Unknown American<br />
mathematical<br />
society<br />
9; 11; 10; 9; 1; 7 Mathe<br />
Klassifikations-<br />
Algorithmus<br />
(LogitBoost )<br />
Klassifikator<br />
(Modell)<br />
* Absolute Häufigkeiten an übereinstimmenden Worten mit Termen der<br />
klassenspezifischen Wortlisten (je ein Wert pro Klasse)<br />
19
Methode – Klassifikation<br />
Testdaten<br />
Autor Institution Scores pro Klasse*<br />
Schauermann, Volker Unknown 1; 1; 2; 3; 4; 1<br />
Klassifikator<br />
(Modell)<br />
Klasse<br />
Technik<br />
* Absolute Häufigkeiten an übereinstimmenden Worten mit Termen der<br />
klassenspezifischen Wortlisten (je ein Wert pro Klasse)<br />
20
Klassifizierung – Modifikationen<br />
• Berücksichtigung der Relevanz der Terme für einzelne Klassen<br />
(Signifikanz- <strong>und</strong> Häufigkeitswerte)<br />
� Berücksichtigung dieser Werte als Termgewichte<br />
• Gewichtung der Scores in Abhängigkeit der Quelle<br />
� z.B. Treffer mit automatisch erstellten Wortlisten höher bewerten als<br />
solche mit manuell erstellten Wortlisten<br />
• Erweiterung der Wortlisten mittels externer Quellen<br />
• Integration eines Tools zum Erkennen chemischer Formeln<br />
• Integration eines Sprachklassifikators zur Auswahl relevanter<br />
Datensätze<br />
21
Klassifizierung – Ergebnisse<br />
Beste Ergebnisse:<br />
• mit Abstract<br />
• Stärkere Gewichtung von Termen<br />
aus automatisch erstellten Wortlisten<br />
• größere Trainingsmenge<br />
• Kombination statistischer <strong>und</strong> linguistischer Verfahren<br />
� Genauigkeit von ~ 70%<br />
� allgemeiner Wortschatz ist (manchmal) relevanter<br />
� größere Trainingsmenge sorgt für bessere Ergebnisse<br />
22
Pilotanwendung – Recommind<br />
Kommerzielles Tool zum automatischen Kategorisieren von<br />
Inhalten.<br />
Test mit:<br />
• 1.061.000 Dokumenten, davon wurden<br />
• 217.000 Dokumente für das Training verwendet<br />
• 6 Kategorien<br />
Ergebnis:<br />
� ~ 75% Genauigkeit bei der Vergabe einer Kategorie<br />
� Problem thematische Überschneidungen<br />
(bspw. „system architecture“)<br />
Aktuell: Vorbereitung für einen Test des<br />
Klassifizierungssystems von Averbis<br />
23
Projekt vs. Praxis<br />
Die Ergebnisse der automatischen Klassifizierungen in den<br />
einzelnen Tests sind vergleichbar.<br />
Die Integration der Systeme in die vorhandene IT-Systemstruktur<br />
ist umsetzbar.<br />
Für den Praxisbetrieb muss zusätzlich bedacht werden:<br />
• Pflege <strong>und</strong> Weiterentwicklung der Software<br />
• Anpassung an institutionsspezifische Bedürfnisse<br />
• Möglichkeit des Lernens anhand durchgeführter Klassifikationen<br />
• Unabhängig von eigener Programmierressource<br />
24
Chancen <strong>und</strong> Risiken<br />
Chancen<br />
• Automatische Klassifizierungen können die intellektuelle<br />
Sacherschließung nicht ersetzen<br />
• aber sie können eine Unterstützung bei der Sacherschließung<br />
sein<br />
• <strong>und</strong> sie eignen sich gut für Bestände, die sachlich nicht<br />
erschlossen werden.<br />
Risiken<br />
• Mut zur Lücke - nicht alle Inhalte können verarbeitet werden.<br />
• Fehlertoleranz - Inhalte werden falsch zugeordnet.<br />
• Kontrollverlust - Bei der Datenmenge ist eine Analyse nur<br />
stichprobenartig möglich.<br />
25
Vielen Dank für Ihre Aufmerksamkeit!