25.11.2014 Aufrufe

Ein Blick hinter die Kulissen des neuen KOBV-Volltextservers des ...

Ein Blick hinter die Kulissen des neuen KOBV-Volltextservers des ...

Ein Blick hinter die Kulissen des neuen KOBV-Volltextservers des ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Ein</strong> <strong>Blick</strong> <strong>hinter</strong> <strong>die</strong> <strong>Kulissen</strong><br />

<strong>des</strong> <strong>neuen</strong> <strong>KOBV</strong>-<strong>Volltextservers</strong><br />

Bemerkungen zur technischen Umsetzung<br />

<strong>KOBV</strong>-Volltextserver<br />

http://volltexte.kobv.de<br />

Sascha Szott<br />

<strong>KOBV</strong>


Vorschau – oder: Was erwartet Sie?<br />

• Keine detaillierte Vorstellung der technischen<br />

Umsetzung<br />

... bis auf <strong>die</strong> Tatsache, dass wir erfolgreich Apache<br />

Lucene verwenden<br />

• Vielmehr:<br />

– Darstellung <strong>des</strong> konzeptionellen Vorgehens<br />

– Aufdecken der Schwierigkeiten<br />

– Fokussierung auf Verlagslieferungen<br />

<strong>KOBV</strong>-Volltextserver<br />

http://volltexte.kobv.de<br />

Sascha Szott<br />

<strong>KOBV</strong>


Herausforderungen<br />

• Datengetriebenes Projekt<br />

– über 1,5 Mio. Zeitschriftenartikel als Volltext<br />

– Über ein Terabyte an Rohdaten<br />

– Me<strong>die</strong>nvielfalt:<br />

• Bänder<br />

• CDs<br />

• DVDs<br />

• Festplatte<br />

• (FTP-Server)<br />

<strong>KOBV</strong>-Volltextserver<br />

http://volltexte.kobv.de<br />

Sascha Szott<br />

<strong>KOBV</strong>


<strong>KOBV</strong>-Volltextserver<br />

http://volltexte.kobv.de<br />

Sascha Szott<br />

<strong>KOBV</strong>


Herausforderungen<br />

„Traue keinen Daten,<br />

<strong>die</strong> Du nicht selbst erstellt hast.“<br />

<strong>KOBV</strong>-Volltextserver<br />

http://volltexte.kobv.de<br />

Sascha Szott<br />

<strong>KOBV</strong>


Datenlieferungen<br />

• Leider: physische Trennung zwischen Volltext<br />

und zugehörigem Metadatum – obwohl es<br />

auch anders geht<br />

• Folgen:<br />

– Volltexte ohne zugehörige Metadaten (werden<br />

nicht verarbeitet)<br />

– Metadaten ohne zugehörige Volltexte<br />

<strong>KOBV</strong>-Volltextserver<br />

http://volltexte.kobv.de<br />

Sascha Szott<br />

<strong>KOBV</strong>


Volltexte<br />

• Im Portable Document Format (PDF)<br />

• größtenteils vektorisiert<br />

• aber auch als Rastergrafiken<br />

– OCR verlagsseitig durchgeführt: Resultat liegt als<br />

Text-Datei vor<br />

• teilweise fehlerhaft / nicht lesbar<br />

<strong>KOBV</strong>-Volltextserver<br />

http://volltexte.kobv.de<br />

Sascha Szott<br />

<strong>KOBV</strong>


Metadaten – es lebe <strong>die</strong> Vielfalt!<br />

• unterschiedliche Formate<br />

A++, Oases, Effect, ...<br />

• unterschiedliche Konformität<br />

wohlgeformt, valide<br />

• unterschiedliche Versionen<br />

Aktualisierungen, Berichtigungen, Modifikationen<br />

• unterschiedliche Granularität<br />

eine Datei pro Artikel vs. eine Datei pro Heft/Band<br />

• unterschiedliche Co<strong>die</strong>rungen<br />

teilweise auch mit nicht-lesbarem Inhalt<br />

<strong>KOBV</strong>-Volltextserver<br />

http://volltexte.kobv.de<br />

Sascha Szott<br />

<strong>KOBV</strong>


Uniformes Datenmodell<br />

• Ziel: Definition eines Datenmodells zur Beschreibung<br />

von Zeitschriftenartikeln<br />

• Erfordert Definition einer Konkordanz<br />

Kluwer<br />

?<br />

<strong>KOBV</strong>-Volltextserver<br />

http://volltexte.kobv.de<br />

Sascha Szott<br />

<strong>KOBV</strong>


Uniformes Datenmodell<br />

Probleme:<br />

– Oft nur syntaktische Formatbeschreibung<br />

– Reverse Engineering basierend auf Elementnamen<br />

und Nutzdaten<br />

– Fehlertoleranz: Daten oft nicht wohlgeformt bzw.<br />

valide<br />

– Oft nur kleiner Teil der Element genutzt<br />

<strong>KOBV</strong>-Volltextserver<br />

http://volltexte.kobv.de<br />

Sascha Szott<br />

<strong>KOBV</strong>


Datenqualität<br />

• Prämisse: Keine inhaltliche Nachbearbeitung von<br />

Metadaten<br />

– Lediglich einige wenige Ausnahmen, z. B. fehlende<br />

Print-ISSN, unterschiedliche Schreibweisen von<br />

Zeitschriftentiteln<br />

• Qualitätsprobleme auf unterschiedlichen Ebenen:<br />

– Artikel ohne Titel, Autor<br />

– Zeitschriften ohne Print-ISSN<br />

– Artikel, <strong>die</strong> wir eigentlich nicht haben dürften<br />

– Duplikate<br />

<strong>KOBV</strong>-Volltextserver<br />

http://volltexte.kobv.de<br />

Sascha Szott<br />

<strong>KOBV</strong>


Duplikate, Duplikate<br />

• Auf unterschiedlichen Ebenen<br />

– Zeitschrift (Hauptursache: Denormalisierung)<br />

– Artikel (Hauptursache: Nachlieferungen)<br />

• Duplikaterkennung und -behandlung erfolgt<br />

halbautomatisch<br />

– Pragmatisch – „mit vertretbarem Aufwand“<br />

– durch Rechnerunterstützung geleitet<br />

– pessimistisch: falsche Negative vor falschen<br />

Positiven<br />

<strong>KOBV</strong>-Volltextserver<br />

http://volltexte.kobv.de<br />

Sascha Szott<br />

<strong>KOBV</strong>


Fragen?<br />

• Jetzt<br />

• Nachher beim Kaffee<br />

• Jederzeit per E-Mail: kobv-volltexte@zib.de<br />

<strong>KOBV</strong>-Volltextserver<br />

http://volltexte.kobv.de<br />

Sascha Szott<br />

<strong>KOBV</strong>

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!