Ein Blick hinter die Kulissen des neuen KOBV-Volltextservers des ...
Ein Blick hinter die Kulissen des neuen KOBV-Volltextservers des ...
Ein Blick hinter die Kulissen des neuen KOBV-Volltextservers des ...
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
<strong>Ein</strong> <strong>Blick</strong> <strong>hinter</strong> <strong>die</strong> <strong>Kulissen</strong><br />
<strong>des</strong> <strong>neuen</strong> <strong>KOBV</strong>-<strong>Volltextservers</strong><br />
Bemerkungen zur technischen Umsetzung<br />
<strong>KOBV</strong>-Volltextserver<br />
http://volltexte.kobv.de<br />
Sascha Szott<br />
<strong>KOBV</strong>
Vorschau – oder: Was erwartet Sie?<br />
• Keine detaillierte Vorstellung der technischen<br />
Umsetzung<br />
... bis auf <strong>die</strong> Tatsache, dass wir erfolgreich Apache<br />
Lucene verwenden<br />
• Vielmehr:<br />
– Darstellung <strong>des</strong> konzeptionellen Vorgehens<br />
– Aufdecken der Schwierigkeiten<br />
– Fokussierung auf Verlagslieferungen<br />
<strong>KOBV</strong>-Volltextserver<br />
http://volltexte.kobv.de<br />
Sascha Szott<br />
<strong>KOBV</strong>
Herausforderungen<br />
• Datengetriebenes Projekt<br />
– über 1,5 Mio. Zeitschriftenartikel als Volltext<br />
– Über ein Terabyte an Rohdaten<br />
– Me<strong>die</strong>nvielfalt:<br />
• Bänder<br />
• CDs<br />
• DVDs<br />
• Festplatte<br />
• (FTP-Server)<br />
<strong>KOBV</strong>-Volltextserver<br />
http://volltexte.kobv.de<br />
Sascha Szott<br />
<strong>KOBV</strong>
<strong>KOBV</strong>-Volltextserver<br />
http://volltexte.kobv.de<br />
Sascha Szott<br />
<strong>KOBV</strong>
Herausforderungen<br />
„Traue keinen Daten,<br />
<strong>die</strong> Du nicht selbst erstellt hast.“<br />
<strong>KOBV</strong>-Volltextserver<br />
http://volltexte.kobv.de<br />
Sascha Szott<br />
<strong>KOBV</strong>
Datenlieferungen<br />
• Leider: physische Trennung zwischen Volltext<br />
und zugehörigem Metadatum – obwohl es<br />
auch anders geht<br />
• Folgen:<br />
– Volltexte ohne zugehörige Metadaten (werden<br />
nicht verarbeitet)<br />
– Metadaten ohne zugehörige Volltexte<br />
<strong>KOBV</strong>-Volltextserver<br />
http://volltexte.kobv.de<br />
Sascha Szott<br />
<strong>KOBV</strong>
Volltexte<br />
• Im Portable Document Format (PDF)<br />
• größtenteils vektorisiert<br />
• aber auch als Rastergrafiken<br />
– OCR verlagsseitig durchgeführt: Resultat liegt als<br />
Text-Datei vor<br />
• teilweise fehlerhaft / nicht lesbar<br />
<strong>KOBV</strong>-Volltextserver<br />
http://volltexte.kobv.de<br />
Sascha Szott<br />
<strong>KOBV</strong>
Metadaten – es lebe <strong>die</strong> Vielfalt!<br />
• unterschiedliche Formate<br />
A++, Oases, Effect, ...<br />
• unterschiedliche Konformität<br />
wohlgeformt, valide<br />
• unterschiedliche Versionen<br />
Aktualisierungen, Berichtigungen, Modifikationen<br />
• unterschiedliche Granularität<br />
eine Datei pro Artikel vs. eine Datei pro Heft/Band<br />
• unterschiedliche Co<strong>die</strong>rungen<br />
teilweise auch mit nicht-lesbarem Inhalt<br />
<strong>KOBV</strong>-Volltextserver<br />
http://volltexte.kobv.de<br />
Sascha Szott<br />
<strong>KOBV</strong>
Uniformes Datenmodell<br />
• Ziel: Definition eines Datenmodells zur Beschreibung<br />
von Zeitschriftenartikeln<br />
• Erfordert Definition einer Konkordanz<br />
Kluwer<br />
?<br />
<strong>KOBV</strong>-Volltextserver<br />
http://volltexte.kobv.de<br />
Sascha Szott<br />
<strong>KOBV</strong>
Uniformes Datenmodell<br />
Probleme:<br />
– Oft nur syntaktische Formatbeschreibung<br />
– Reverse Engineering basierend auf Elementnamen<br />
und Nutzdaten<br />
– Fehlertoleranz: Daten oft nicht wohlgeformt bzw.<br />
valide<br />
– Oft nur kleiner Teil der Element genutzt<br />
<strong>KOBV</strong>-Volltextserver<br />
http://volltexte.kobv.de<br />
Sascha Szott<br />
<strong>KOBV</strong>
Datenqualität<br />
• Prämisse: Keine inhaltliche Nachbearbeitung von<br />
Metadaten<br />
– Lediglich einige wenige Ausnahmen, z. B. fehlende<br />
Print-ISSN, unterschiedliche Schreibweisen von<br />
Zeitschriftentiteln<br />
• Qualitätsprobleme auf unterschiedlichen Ebenen:<br />
– Artikel ohne Titel, Autor<br />
– Zeitschriften ohne Print-ISSN<br />
– Artikel, <strong>die</strong> wir eigentlich nicht haben dürften<br />
– Duplikate<br />
<strong>KOBV</strong>-Volltextserver<br />
http://volltexte.kobv.de<br />
Sascha Szott<br />
<strong>KOBV</strong>
Duplikate, Duplikate<br />
• Auf unterschiedlichen Ebenen<br />
– Zeitschrift (Hauptursache: Denormalisierung)<br />
– Artikel (Hauptursache: Nachlieferungen)<br />
• Duplikaterkennung und -behandlung erfolgt<br />
halbautomatisch<br />
– Pragmatisch – „mit vertretbarem Aufwand“<br />
– durch Rechnerunterstützung geleitet<br />
– pessimistisch: falsche Negative vor falschen<br />
Positiven<br />
<strong>KOBV</strong>-Volltextserver<br />
http://volltexte.kobv.de<br />
Sascha Szott<br />
<strong>KOBV</strong>
Fragen?<br />
• Jetzt<br />
• Nachher beim Kaffee<br />
• Jederzeit per E-Mail: kobv-volltexte@zib.de<br />
<strong>KOBV</strong>-Volltextserver<br />
http://volltexte.kobv.de<br />
Sascha Szott<br />
<strong>KOBV</strong>