Institut für Informatik - Dokumentenserver - Universität Leipzig
Institut für Informatik - Dokumentenserver - Universität Leipzig
Institut für Informatik - Dokumentenserver - Universität Leipzig
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
3.3.3 Automatische Sprachverarbeitung<br />
3.3.3.1 Personelle Zusammensetzung<br />
Univ.-Professor Prof. Dr. Gerhard Heyer<br />
wiss. Mitarbeiter Dr. habil. Uwe Quasthoff<br />
wiss. Assistent Dr. habil. Christian Wolff<br />
wiss. Assistent Thomas Wittig (ab Oktober 2000)<br />
Programmiererin Regine Gabler<br />
Sekretärin Renate Schildt<br />
3.3.3.2 Projekte<br />
Projekt Deutscher Wortschatz (Heyer, Quasthoff)<br />
Begleitend zu einem mittlerweile abgeschlossenen DFG-Projekt wurde ein umfassendes<br />
Korpus des deutschen Wortschatzes als Vollformenlexikon erstellt.<br />
Die in den letzten Jahren aufgebaute Lexikondatenbank auf CD-ROM wurde<br />
übers Internet verfügbar gemacht und so einem breiten Interessentenkreis zur<br />
Bearbeitung und Ergänzung zur Verfügung gestellt (http://www.wortschatz.unileipzig.de).<br />
Die Bearbeiter haben die Möglichkeit, die bestehenden Daten zu sichten<br />
und zu korrigieren als auch aus elektronischen Texten automatisch neue Einträge<br />
generieren zu können. Die von den Bearbeitern eingehenden Listen neuer<br />
bzw. überarbeiteter Einträge werden am <strong>Institut</strong> in die zentrale Datenbank integriert.<br />
Grundidee des Vorhabens ist die Kombination einer Nutzung dezentralen<br />
Expertenwissens auf der Basis einer zentralen Datenbankverwaltung. Derzeit<br />
sind in der Datenbank fast 6,5 Millionen Wörter (Vollformen) gespeichert zusammen<br />
mit verschiedenen Angaben (Anzahl, Grammatik, Sachgebiet, Beispielsätze<br />
usw) sowie ca. 20 Millionen Beispielsätzen. Die Sammlung ist mit Abstand die<br />
größte ihrer Art <strong>für</strong>s Deutsche und wird entsprechend nachgefragt (monatliches<br />
Wachstum der Anzahl der Zugriffe ca. 20%).<br />
Die Daten des Projekts Deutscher Wortschatz und die Algorithmen, die <strong>für</strong> ihre<br />
statistische Auswertung entwickelt worden sind, bilden die Grundlage <strong>für</strong> weitere<br />
Forschungen und Anwendungen auf dem Gebiet der natürlichen Sprachverarbeitung<br />
und der Texttechnologie. Neben zahlreichen Drittmittelprojekten (u.a zur linguistischen<br />
Optimierung von information retrieval Algorithmen wie sie im BMBF<br />
Projekt INCCA - Innovative Call Center Anwendungen entwickelt werden) zählen<br />
dazu vor allem die Forschungsarbeiten im Graduiertenkolleg "Universalität und<br />
Diversität sprachlicher Prozesse und Strukturen" sowie im Graduiertenkolleg<br />
"Wissensrepräsentation" und der Linguistischen Forschergruppe Wissensrepräsentation<br />
und Semantik.<br />
42