EinfÃ¼hrung - Jena University Language & Information Engineering Lab

Seminar im Modul B-GSW-12 

SoS 2013 

Prof. Dr. Udo Hahn 

Lehrstuhl für Computerlinguistik 

Institut für Germanistische Sprachwissenschaft 

Friedrich-Schiller-Universität Jena 

http://www.julielab.de

Allgemeine Hinweise 

Termin: Di, 14-16h (AB 4, SR 107) 

Materialien im Netz 

• http://www.julielab.de 

„Students“ 

Sprechstunde: Mi, 12-13h (FG 30, R203) 

Email: 

udo.hahn@uni-jena.de 

Fachliteratur: häufig in Englisch

Seminarleistungen 

Vortrag (mündlich) 

• 1-stündig 

• Elektronische Version (PDF, PPT) verfügbar machen 

Referat (schriftlich) 

• 15-20 Seiten Kerntext (mit Standardformaten) 

• Elektronische Version (PDF, DOC) verfügbar machen 

• Eidesstattliche Erklärung zur Eigenautorenschaft 

• Wir prüfen mit Plagiatserkennungs-Software 

• Abgabe: Ende Juli 2013

Bemerkungen zu Referaten 

Aufbaumuster: 

• Deck- bzw. Titelblatt mit vollständigen Angaben 

• Inhaltsverzeichnis 

• Einführung ins Thema, Motivation 

• Themenabhandlung: grundlegende Verfahren, Systemfunktionalitäten, 

Ressourcenmerkmale, Experimente/Evaluationen usw. 

• Fazit mit kritischer Würdigung, offene Probleme 

• Bibliographie 

• Ressourcen-Datenblatt 

Zitationen: 

• Alle verwendeten Quellen zitieren 

• Mit einem Zitat die jeweilige Quelle eindeutig beschreiben 

• Fachartikel nicht mit http://...foo.pdf-Link zitieren 

• Online-Quellen mit URLs und Datum des letztem Zugriffs 

• Wikipedia ist keine zitierfähige wissenschaftliche Quelle ! 

Eigenleistungen (Literatur, Beschäftigung mit konkreten 

Ressourcen/Systemen usw.) sind sehr erwünscht !!

Schriftliche Texte 

• Zeitungen, Zeitschriften (Jahrgänge) 

• Wissenschaftliche Prosa 

• Parlamentsprotokolle 

Gesprochene Sprache 

• Gesprochene Monologe 

• Erzählungen 

• Gesprochene Dialoge 

• Frage-Antwort-Sequenzen 

Sprachdaten 1/2

Technische Aspekte der Kodierung 

• Textformate: 

ASCII, HTML/XML, PDF, DOC 

Sprachdaten 2/2 

• Audioformate: OGG, WAV, MP3 

• Transkription (etwa in phonetische Lautschrift – IPA) erforderlich ! 

Auswahl der Sprachdaten 

• Fixes Sample 

• Zufallsauswahl statistisch „saubere“ Stichprobe 

• Grundgesamtheit, aus der Stichprobe gezogen wird ? 

Einzelsprachliche bzw. mehrsprachliche Ressourcen 

(parallele vs. vergleichbare Korpora) 

• Multi-lingual, multi-modal, multi-medial 

Text- bzw. Sprachsorten („Genres“) 

Zugänglichkeit: 

• (kostenpflichtige) Lizenzen oder frei zugänglich ?

Linguistische Metadaten: 

Annotationen 1/2 

Zuweisung von Wortarten 

Syntaktische Gruppierungen 

• Chunking, Parse-Bäume 

Semantische Auszeichnungen 

• Semantische Entitäten, Klassen 

• Semantische Relationen, Prädikat-Argument- 

Strukturen 

Textstrukturelle Auszeichnungen 

• Referenzketten 

• Rhetorische Relationen

NP-SBJ 

Analysts 

S 

VP 

have VP 

been VP 

expecting 

NP 

a GM-Jaguar 

pact 

NP 

SBAR 

WHNP-1 

that NP-SBJ 

*T*-1 would 

Analysts have been expecting a GM-Jaguar 

pact that would give the U.S. car maker an 

eventual 30% stake in the British company. 

S 

VP 


syntaktische Annotation 

(S (NP-SBJ Analysts) 

(VP have 

(VP been 

(VP expecting 

(NP (NP a GM-Jaguar pact) 

(SBAR (WHNP-1 that) 

(S (NP-SBJ *T*-1) 

(VP would 

(VP give 

(NP the U.S. car maker) 

give 

NP 

the US car 

maker 

(NP (NP an eventual (ADJP 30 %) stake) 

(PP-LOC in (NP the British company)))))))))))) 

VP 

NP 

an eventual 

30% stake 

NP 

in 

PP-LOC 

NP 

the British 

company 

8

Analysts 

have been expecting 

Arg0 

Arg0 

Arg1 

a GM-Jaguar 

pact 


(S (NP-SBJ Analysts) 

(VP have semantische Annotation (1/2) 

that would give 

(VP been 

(VP expecting 

(NP (NP a GM-Jaguar pact) 

(SBAR (WHNP-1 that) 

(S (NP-SBJ *T*-1) 

(VP would 

(VP give 

(NP the U.S. car maker) 

(NP (NP an eventual (ADJP 30 %) stake) 

(PP-LOC in (NP the British company)))))))))))) 

Arg1 

*T*-1 

Arg2 

the US car 

maker 

an eventual 30% stake in the 

British company 

expect(Analysts, GM-J pact) 

give(GM-J pact, 30% stake, US car maker) 

9


semantische Annotation (2/2)


Annotationen 2/2 

Annotationssprache 

• Vokabular der Metasprache 

• Wortarten 

• NOM(en), VERB, ADJ(ektiv), … 

• Syntaxtheorie 

• Kategorialsymbole (VP, NP usw.), Dependenz-/Valenztheorie, ... 

• Semantische Theorie 

• Semantische Atome (+/- BELEBT, +/- FEMININ, …) 

• Semantische Relationen (Ist-Teil-von, Ist-spezieller-als,…) 

• Prädikate ( SPIELEN [ ___ AGENT [+BEL] 

, ___ PATIENS , ___ LOC ], …)

Warum Annotationen ? 

Systematisch gewonnene und genutzte Datenbasis 

zur empirisch fundierten Analyse linguistischer 

Regularitäten 

• Beware of arm-chair linguists ! 

• Statistische Auswertung (Distributions- und Ko-okkurrenzanalysen) 

• Hypothesenprüfung / statistische Signifikanz 

Autoritativer Gold-Standard (ground truth) für 

linguistische Beschreibungen 

• Verfahrensbeschreibungen für die Annotation 

• Annotationskonsistenz (Inter- / Intra-Coder-Konsistenz) 

Trainings-/Test-Datensätze für Verfahren des 

Maschinellen Lernens 

• Lernen aus korrekten Daten (positive/negative Instanzen) 

• Evaluation auf korrekten Daten

Annotationswerkzeuge 

Editoren für die linguistische Annotation 

• Einfügen / Modifizieren (Update) 

• Konsistenzprüfung 

• Ein-/Mehr-Benutzer-Werkzeuge

ALEMBIC Annotator

Themen 

Sprachkorpora (Rohdaten) 

• geschrieben/gesprochen – deutsch, englisch, … 

Annotierte Sprachkorpora 

• Wortarten: geschrieben – deutsch, englisch, … 

• Syntaktische Auszeichnungen: geschrieben – deutsch, 

englisch, … 

• Semantische Auszeichnungen: geschrieben – deutsch, 

englisch, … 

Annotationsmethodik 

• Guidelines, Konsistenzmetriken 

Annotationswerkzeuge 

• für Wortarten, syntaktische, semantische Auszeichnungen 

Nutzung von Korpora 

• Distributions- und Ko-Okkurrenzanalysen 

• Maschinelles Lernen

Web-Ressourcen für Korpora 

Linguistic Data Consortium [LDC] 

• http://www.ldc.upenn.edu/ 

Linguist List [Open Language Archives] 

• http://linguistlist.org/olac 

European Language Resources Association 

[ELRA] 

• http://www.elra.info 

Natural Language Software Registry 

• http://registry.dfki.de 

Institut für Deutsche Sprache [IDS] 

• http://www.ids-mannheim.de/kl/corpora.html

Wege zum Vortrag und Referat 

Meldung von drei nach fallender Priorität 

geordneten Themenpräferenzen 

• First-come, first-served 

Themenvergabe 

Erste Literaturhinweise als „Saat“ nach 

Bestätigung der Themenauswahl 

Themenbearbeitung 

• Mündlicher Vortrag zum vereinbarten Termin 

• Schriftliches Referat (unter Einhaltung der organisatorischen 

Verabredungen) zum vereinbarten Termin

Literatur 

Bücher 

• T. McEnery & A. Hardie(2012), Corpus Linguistics: Method, Theory and 

Practice. Cambridge University Press. 

• D. Biber, , S. Conrad & R. Reppen (1998), Corpus Linguistics. Investigating 

Structure and Use. Cambridge University Press. 

• L. Lemnitzer & H. Zinsmeister (2010). Korpuslinguistik: eine Einführung. 

Tübingen: G. Narr, 2. Aufl. 

• N. Bubenhofer (2006-11). Einführung in die Korpuslinguistik: Praktische 

Grundlagen und Werkzeuge. Online unter: 

http://www.bubenhofer.com/korpuslinguistik/kurs/ 

Zeitschriftenartikel 

• K.W. Church & R.L.Mercer (1993), Introduction to the special issue on 

computational linguistics using large corpora. Computational Linguistics, 19 

(1), pp.1-24. 

• E. Brill & R.J. Mooney (1997), An overview of empirical natural language 

processing. AI Magazine, 16(4), pp.13-24. 

Online 

• http://www.computerlinguistik.org/portal/portal.html?s=Korpuslinguistik

Ablaufplan 

21.5. Ann-Kathrin Hartmann 

Überblick über deutsche Sprachkorpora: 

Roh- und Metadaten, Korpussuche und -management 

28.5. Karl Oßwald 

Annotation diachroner Korpora 

04.6. Nina Schwöbel 

Parallele und vergleichbare Korpora 

11.6. Sven Hübner 

Syntaktische Annotation 

17.6. Matthias Biniok 

Semantische Annotation 

18.6. Matthias Schneemann 

Werkzeuge für die Korpusannotation 

24.6. Justus Jonscher 

Korpusbasierte Lexikonstatistik, mit Anwendung auf Kollokationen 

25.6. Markus Mieth 

Nutzung annotierter Korpora: Maschinelles Lernen am Beispiel 

der Named Entity-Erkennung

EinfÃ¼hrung - Jena University Language & Information Engineering Lab

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?