Ein Blick hinter die Kulissen des neuen KOBV-Volltextservers des ...

Ein Blick hinter die Kulissen 

des neuen KOBV-Volltextservers 

Bemerkungen zur technischen Umsetzung 

KOBV-Volltextserver 

http://volltexte.kobv.de 

Sascha Szott 

KOBV

Vorschau – oder: Was erwartet Sie? 

• Keine detaillierte Vorstellung der technischen 

Umsetzung 

... bis auf die Tatsache, dass wir erfolgreich Apache 

Lucene verwenden 

• Vielmehr: 

– Darstellung des konzeptionellen Vorgehens 

– Aufdecken der Schwierigkeiten 

– Fokussierung auf Verlagslieferungen 



Sascha Szott 


Herausforderungen 

• Datengetriebenes Projekt 

– über 1,5 Mio. Zeitschriftenartikel als Volltext 

– Über ein Terabyte an Rohdaten 

– Medienvielfalt: 

• Bänder 

• CDs 

• DVDs 

• Festplatte 

• (FTP-Server) 



Sascha Szott 




Sascha Szott 


Herausforderungen 

„Traue keinen Daten, 

die Du nicht selbst erstellt hast.“ 



Sascha Szott 


Datenlieferungen 

• Leider: physische Trennung zwischen Volltext 

und zugehörigem Metadatum – obwohl es 

auch anders geht 

• Folgen: 

– Volltexte ohne zugehörige Metadaten (werden 

nicht verarbeitet) 

– Metadaten ohne zugehörige Volltexte 



Sascha Szott 


Volltexte 

• Im Portable Document Format (PDF) 

• größtenteils vektorisiert 

• aber auch als Rastergrafiken 

– OCR verlagsseitig durchgeführt: Resultat liegt als 

Text-Datei vor 

• teilweise fehlerhaft / nicht lesbar 



Sascha Szott 


Metadaten – es lebe die Vielfalt! 

• unterschiedliche Formate 

A++, Oases, Effect, ... 

• unterschiedliche Konformität 

wohlgeformt, valide 

• unterschiedliche Versionen 

Aktualisierungen, Berichtigungen, Modifikationen 

• unterschiedliche Granularität 

eine Datei pro Artikel vs. eine Datei pro Heft/Band 

• unterschiedliche Codierungen 

teilweise auch mit nicht-lesbarem Inhalt 



Sascha Szott 


Uniformes Datenmodell 

• Ziel: Definition eines Datenmodells zur Beschreibung 

von Zeitschriftenartikeln 

• Erfordert Definition einer Konkordanz 

Kluwer 

? 



Sascha Szott 


Uniformes Datenmodell 

Probleme: 

– Oft nur syntaktische Formatbeschreibung 

– Reverse Engineering basierend auf Elementnamen 

und Nutzdaten 

– Fehlertoleranz: Daten oft nicht wohlgeformt bzw. 

valide 

– Oft nur kleiner Teil der Element genutzt 



Sascha Szott 


Datenqualität 

• Prämisse: Keine inhaltliche Nachbearbeitung von 

Metadaten 

– Lediglich einige wenige Ausnahmen, z. B. fehlende 

Print-ISSN, unterschiedliche Schreibweisen von 

Zeitschriftentiteln 

• Qualitätsprobleme auf unterschiedlichen Ebenen: 

– Artikel ohne Titel, Autor 

– Zeitschriften ohne Print-ISSN 

– Artikel, die wir eigentlich nicht haben dürften 

– Duplikate 



Sascha Szott 


Duplikate, Duplikate 

• Auf unterschiedlichen Ebenen 

– Zeitschrift (Hauptursache: Denormalisierung) 

– Artikel (Hauptursache: Nachlieferungen) 

• Duplikaterkennung und -behandlung erfolgt 

halbautomatisch 

– Pragmatisch – „mit vertretbarem Aufwand“ 

– durch Rechnerunterstützung geleitet 

– pessimistisch: falsche Negative vor falschen 

Positiven 



Sascha Szott 


Fragen? 

• Jetzt 

• Nachher beim Kaffee 

• Jederzeit per E-Mail: kobv-volltexte@zib.de 



Sascha Szott

Ein Blick hinter die Kulissen des neuen KOBV-Volltextservers des ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?