LINSearch - Linguistisches Indexieren und Suchen, Dr. Petra Mensing

LINSearch – 

Linguistisches Indexieren und Suchen 

Dr. Petra Mensing 

PETRUS Workshop 

21. März 2011

Inhalt 

• Die TIB 

• Projekt LINSearch 

• Lösungsansätze 

• Ergebnisse 

• Chancen und Risiken 

2

Die TIB 

• Deutsche Zentrale Fachbibliothek für Technik sowie Architektur, 

Chemie, Informatik, Mathematik und Physik 

• Weltweit größte Spezialbibliothek für Technik und 

Naturwissenschaften 

• Kunden aus 67 Ländern 

• Gegründet 1959 – auf Basis der UB (gegründet 1831) 

• Finanziert durch Bund und Länder 

• Gesamtstaatliche Aufgaben 

• Mitglied der Leibniz-Gemeinschaft 

3

Dienstleistungen 

• Volltextversorgung 

• Print 

• Digital (Nationallizenzen, PPV) 

• GetInfo – Fachportal für Technik und Naturwissenschaften 

• 35 Mio. Datensätze im Index 

• 135 Mio. Datensätze im Zugriff (z. B. STN-Index) 

• GetInfo – Erweiterte Dienste 

• Technik, Physik, Chemie, Mathematik 

• Angewandte Forschung und Entwicklung � Digital Libraries 

(Visuelle Suche, Visualisierug) 

4

Inhaltliche Erschließung - 

Prozessbeschreibung 

• Der klassische Prozess der inhaltlichen Erschließung ist ein 

intellektueller Prozess. 

• Obwohl einige automatische Verfahren existieren, werden Klassen 

manuell zugewiesen, um eine qualitativ hochwertige 

Kategorisierung zu ermöglichen. 

Produzenten 

Sacherschließung 

Bibliothek 

Intellektueller Prozess! 

5

Lösungsbedarf 

Der Inhalt der Dokumente steht nicht zur Verfügung – Metadaten. 

Menge an Daten und Informationen wächst ständig und lässt sich 

nicht durch „Manpower“ bewältigen. 

6

Ziel 

• Klassifizierung von nicht erschlossenen Beständen mit Hilfe 

automatisierter Verfahren insbesondere bei wenig Metadaten. 

Sachlich nicht erschlossene Bestände sind bspw.: 

• NTIS (amerikanische Forschungsberichte) 

• Konferenzbeiträge 

• Zeitschriftenaufsätze 

• Eingrenzen des Informationsraumes für die Suche 

• Inhaltliche Strukturierung der Suchergebnisse 

� Durch die Anwendung linguistischer und statistischer 

Methoden, einzeln und in Kombination. 

7

Das Projekt LINSearch 

• LINSearch war ein Gemeinschaftsprojekt: 

• Technische Informationsbibliothek Hannover 

• Forschungszentrum L3S 

• Fachinformationszentrum Technik GmbH 

• IAI - Institut der Gesellschaft zur Förderung der 

angewandten Informationsforschung e.V. an der 

Universität des Saarlandes (Koordination) 

• und wurde gefördert vom Bundesministerium für Wirtschaft und 

Technologie. 

• 2,5 Jahre Projektlaufzeit (Ende 2009). 

8

Ausgangslage - TIB in Zahlen 

Die TIB verwaltet insgesamt: 

� 8.700.000 Medieneinheiten, darin enthalten sind: 

⋅ 3.100 Fachdatenbanken 

⋅ 18.300 Fachzeitschriften 

⋅ 36.000 eJournals 

⋅ 55.000 Digitale Einzeldokumente 

⋅ 5.350.000 Bücher 

� 14.300.000 Patentschriften, Normen, Standards 

9

Ausgangslage - TIB in Zahlen 

Hinzu kommen elektronische Datensätze: 

� Zwischen 1,0 und 4,5 Millionen Metadatensätze pro Quelle 

� Aktualisierungsrate: ca. 50.000 Metadatensätze pro Monat 

� Quellen sind: 

• NTIS (amerikanische Forschungsberichte) 

• Konferenzbeiträge 

• Zeitschriftenaufsätze 

• Die TIB hat 35 Mio. Datensätze im Index, davon sind 8,7 Mio. 

mit Sacherschließungselementen versehen (eigener Bestand). 

Der übrige (wachsende) Teil enthält keine Sacherschließungsdaten. 

10

Klassifizierung der Fachsuche 

Zuordnung nicht erschlossener Inhalte zur GetInfo-Fachsuche 

Technik 

Architektur 

Chemie Mathematik 

Physik 

Informatik 

11

GetInfo-Portal 

GetInfo-Portal für technisch-naturwissenschaftliche Volltexte und Informationen 

für Wissenschaft, Forschung und Praxis. 

12

Anwendungsszenario 

13

Gewünschtes Ergebnis: 

Trefferanzeige für einzelne Fachsuchen 

14

Gewünschtes Ergebnis: 

Filteroption Fach 

15

Datensituation 

Gegeben: 

Beispiel: 

• Zwischen 1,0 und 4,5 Millionen Metadatensätze pro Quelle 

• Aktualisierungsrate: ca. 50.000 Metadatensätze pro Monat 

• mit minimalem Inhalt (Autor, Titel, Institution pro Dokument) 

• title = Untersuchung von Bodenbewegungen über 

Speicherkavernen: Schlussbericht zum Forschungsvorhaben 

• creator = Schauermann, Volker 

• issued = 1978 

• publicationPlace = S.1. 

• publisher = unknown 

• description = Umfang: 24 Bl. 

16

Methode 

Ansatz: Kombination aus Mapping und automatischer Klassifizierung 

Methode: 

Datensatz Klassifikation nein 

ja 

Mapping Maschinelles Lernen 

Konferenz / 

Zeitschrift 

ja 

Klasse 

nein 

Bestimmung 

von Scores 

17

Scoreberechnung 

Titel 

Linguistische 

Verarbeitung 

Liste mit 

n-Grammen 

Test auf Übereinstimmung 

mit Wortlisten 

Scores 

title = Untersuchung von Bodenbewegungen 

über Speicherkavernen 

De – morphologische Analyse 

En – Stemming 

Untersuchung, Bodenbewegung, Boden, Bewegung, 

Speicherkaverne, Speicher, Kaverne, 

Untersuchung von Bodenbewegungen, 

Bodenbewegungen über Speicherkavernen 

Fertigungstechnik: {untersuchung} � 1 

Informatik: {Speicher} � 1 

Architektur: {Untersuchung, Speicher} � 2 

Umwelttechnik: {untersuchung, boden, speicher} � 3 

18

Methode – Erlernen des Modells 

Autor Institution Scores pro Klasse* Klasse 

Schauermann, 

Volker 

Trainingsdaten 

Unknown 2; 2; 4; 3; 1; 1 Technik 

Ruby, Ilka Unknown 2; 2; ;2; 1; 5; 1 Architektur 

Unknown American 

mathematical 

society 

9; 11; 10; 9; 1; 7 Mathe 

Klassifikations- 

Algorithmus 

(LogitBoost ) 

Klassifikator 

(Modell) 

* Absolute Häufigkeiten an übereinstimmenden Worten mit Termen der 

klassenspezifischen Wortlisten (je ein Wert pro Klasse) 

19

Methode – Klassifikation 

Testdaten 

Autor Institution Scores pro Klasse* 

Schauermann, Volker Unknown 1; 1; 2; 3; 4; 1 

Klassifikator 

(Modell) 

Klasse 

Technik 

* Absolute Häufigkeiten an übereinstimmenden Worten mit Termen der 

klassenspezifischen Wortlisten (je ein Wert pro Klasse) 

20

Klassifizierung – Modifikationen 

• Berücksichtigung der Relevanz der Terme für einzelne Klassen 

(Signifikanz- und Häufigkeitswerte) 

� Berücksichtigung dieser Werte als Termgewichte 

• Gewichtung der Scores in Abhängigkeit der Quelle 

� z.B. Treffer mit automatisch erstellten Wortlisten höher bewerten als 

solche mit manuell erstellten Wortlisten 

• Erweiterung der Wortlisten mittels externer Quellen 

• Integration eines Tools zum Erkennen chemischer Formeln 

• Integration eines Sprachklassifikators zur Auswahl relevanter 

Datensätze 

21

Klassifizierung – Ergebnisse 

Beste Ergebnisse: 

• mit Abstract 

• Stärkere Gewichtung von Termen 

aus automatisch erstellten Wortlisten 

• größere Trainingsmenge 

• Kombination statistischer und linguistischer Verfahren 

� Genauigkeit von ~ 70% 

� allgemeiner Wortschatz ist (manchmal) relevanter 

� größere Trainingsmenge sorgt für bessere Ergebnisse 

22

Pilotanwendung – Recommind 

Kommerzielles Tool zum automatischen Kategorisieren von 

Inhalten. 

Test mit: 

• 1.061.000 Dokumenten, davon wurden 

• 217.000 Dokumente für das Training verwendet 

• 6 Kategorien 

Ergebnis: 

� ~ 75% Genauigkeit bei der Vergabe einer Kategorie 

� Problem thematische Überschneidungen 

(bspw. „system architecture“) 

Aktuell: Vorbereitung für einen Test des 

Klassifizierungssystems von Averbis 

23

Projekt vs. Praxis 

Die Ergebnisse der automatischen Klassifizierungen in den 

einzelnen Tests sind vergleichbar. 

Die Integration der Systeme in die vorhandene IT-Systemstruktur 

ist umsetzbar. 

Für den Praxisbetrieb muss zusätzlich bedacht werden: 

• Pflege und Weiterentwicklung der Software 

• Anpassung an institutionsspezifische Bedürfnisse 

• Möglichkeit des Lernens anhand durchgeführter Klassifikationen 

• Unabhängig von eigener Programmierressource 

24

Chancen und Risiken 

Chancen 

• Automatische Klassifizierungen können die intellektuelle 

Sacherschließung nicht ersetzen 

• aber sie können eine Unterstützung bei der Sacherschließung 

sein 

• und sie eignen sich gut für Bestände, die sachlich nicht 

erschlossen werden. 

Risiken 

• Mut zur Lücke - nicht alle Inhalte können verarbeitet werden. 

• Fehlertoleranz - Inhalte werden falsch zugeordnet. 

• Kontrollverlust - Bei der Datenmenge ist eine Analyse nur 

stichprobenartig möglich. 

25

Vielen Dank für Ihre Aufmerksamkeit!

LINSearch - Linguistisches Indexieren und Suchen, Dr. Petra Mensing

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?