13.01.2013 Aufrufe

Institut für Informatik - Dokumentenserver - Universität Leipzig

Institut für Informatik - Dokumentenserver - Universität Leipzig

Institut für Informatik - Dokumentenserver - Universität Leipzig

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

3.3.3 Automatische Sprachverarbeitung<br />

3.3.3.1 Personelle Zusammensetzung<br />

Univ.-Professor Prof. Dr. Gerhard Heyer<br />

wiss. Mitarbeiter Dr. habil. Uwe Quasthoff<br />

wiss. Assistent Dr. habil. Christian Wolff<br />

wiss. Assistent Thomas Wittig (ab Oktober 2000)<br />

Programmiererin Regine Gabler<br />

Sekretärin Renate Schildt<br />

3.3.3.2 Projekte<br />

Projekt Deutscher Wortschatz (Heyer, Quasthoff)<br />

Begleitend zu einem mittlerweile abgeschlossenen DFG-Projekt wurde ein umfassendes<br />

Korpus des deutschen Wortschatzes als Vollformenlexikon erstellt.<br />

Die in den letzten Jahren aufgebaute Lexikondatenbank auf CD-ROM wurde<br />

übers Internet verfügbar gemacht und so einem breiten Interessentenkreis zur<br />

Bearbeitung und Ergänzung zur Verfügung gestellt (http://www.wortschatz.unileipzig.de).<br />

Die Bearbeiter haben die Möglichkeit, die bestehenden Daten zu sichten<br />

und zu korrigieren als auch aus elektronischen Texten automatisch neue Einträge<br />

generieren zu können. Die von den Bearbeitern eingehenden Listen neuer<br />

bzw. überarbeiteter Einträge werden am <strong>Institut</strong> in die zentrale Datenbank integriert.<br />

Grundidee des Vorhabens ist die Kombination einer Nutzung dezentralen<br />

Expertenwissens auf der Basis einer zentralen Datenbankverwaltung. Derzeit<br />

sind in der Datenbank fast 6,5 Millionen Wörter (Vollformen) gespeichert zusammen<br />

mit verschiedenen Angaben (Anzahl, Grammatik, Sachgebiet, Beispielsätze<br />

usw) sowie ca. 20 Millionen Beispielsätzen. Die Sammlung ist mit Abstand die<br />

größte ihrer Art <strong>für</strong>s Deutsche und wird entsprechend nachgefragt (monatliches<br />

Wachstum der Anzahl der Zugriffe ca. 20%).<br />

Die Daten des Projekts Deutscher Wortschatz und die Algorithmen, die <strong>für</strong> ihre<br />

statistische Auswertung entwickelt worden sind, bilden die Grundlage <strong>für</strong> weitere<br />

Forschungen und Anwendungen auf dem Gebiet der natürlichen Sprachverarbeitung<br />

und der Texttechnologie. Neben zahlreichen Drittmittelprojekten (u.a zur linguistischen<br />

Optimierung von information retrieval Algorithmen wie sie im BMBF<br />

Projekt INCCA - Innovative Call Center Anwendungen entwickelt werden) zählen<br />

dazu vor allem die Forschungsarbeiten im Graduiertenkolleg "Universalität und<br />

Diversität sprachlicher Prozesse und Strukturen" sowie im Graduiertenkolleg<br />

"Wissensrepräsentation" und der Linguistischen Forschergruppe Wissensrepräsentation<br />

und Semantik.<br />

42

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!