Einführung - Jena University Language & Information Engineering Lab
Einführung - Jena University Language & Information Engineering Lab
Einführung - Jena University Language & Information Engineering Lab
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Seminar im Modul B-GSW-12<br />
SoS 2013<br />
Prof. Dr. Udo Hahn<br />
Lehrstuhl für Computerlinguistik<br />
Institut für Germanistische Sprachwissenschaft<br />
Friedrich-Schiller-Universität <strong>Jena</strong><br />
http://www.julielab.de
Allgemeine Hinweise<br />
Termin: Di, 14-16h (AB 4, SR 107)<br />
Materialien im Netz<br />
• http://www.julielab.de<br />
„Students“<br />
Sprechstunde: Mi, 12-13h (FG 30, R203)<br />
Email:<br />
udo.hahn@uni-jena.de<br />
Fachliteratur: häufig in Englisch
Seminarleistungen<br />
Vortrag (mündlich)<br />
• 1-stündig<br />
• Elektronische Version (PDF, PPT) verfügbar machen<br />
Referat (schriftlich)<br />
• 15-20 Seiten Kerntext (mit Standardformaten)<br />
• Elektronische Version (PDF, DOC) verfügbar machen<br />
• Eidesstattliche Erklärung zur Eigenautorenschaft<br />
• Wir prüfen mit Plagiatserkennungs-Software<br />
• Abgabe: Ende Juli 2013
Bemerkungen zu Referaten<br />
Aufbaumuster:<br />
• Deck- bzw. Titelblatt mit vollständigen Angaben<br />
• Inhaltsverzeichnis<br />
• Einführung ins Thema, Motivation<br />
• Themenabhandlung: grundlegende Verfahren, Systemfunktionalitäten,<br />
Ressourcenmerkmale, Experimente/Evaluationen usw.<br />
• Fazit mit kritischer Würdigung, offene Probleme<br />
• Bibliographie<br />
• Ressourcen-Datenblatt<br />
Zitationen:<br />
• Alle verwendeten Quellen zitieren<br />
• Mit einem Zitat die jeweilige Quelle eindeutig beschreiben<br />
• Fachartikel nicht mit http://...foo.pdf-Link zitieren<br />
• Online-Quellen mit URLs und Datum des letztem Zugriffs<br />
• Wikipedia ist keine zitierfähige wissenschaftliche Quelle !<br />
Eigenleistungen (Literatur, Beschäftigung mit konkreten<br />
Ressourcen/Systemen usw.) sind sehr erwünscht !!
Schriftliche Texte<br />
• Zeitungen, Zeitschriften (Jahrgänge)<br />
• Wissenschaftliche Prosa<br />
• Parlamentsprotokolle<br />
Gesprochene Sprache<br />
• Gesprochene Monologe<br />
• Erzählungen<br />
• Gesprochene Dialoge<br />
• Frage-Antwort-Sequenzen<br />
Sprachdaten 1/2
Technische Aspekte der Kodierung<br />
• Textformate:<br />
ASCII, HTML/XML, PDF, DOC<br />
Sprachdaten 2/2<br />
• Audioformate: OGG, WAV, MP3<br />
• Transkription (etwa in phonetische Lautschrift – IPA) erforderlich !<br />
Auswahl der Sprachdaten<br />
• Fixes Sample<br />
• Zufallsauswahl statistisch „saubere“ Stichprobe<br />
• Grundgesamtheit, aus der Stichprobe gezogen wird ?<br />
Einzelsprachliche bzw. mehrsprachliche Ressourcen<br />
(parallele vs. vergleichbare Korpora)<br />
• Multi-lingual, multi-modal, multi-medial<br />
Text- bzw. Sprachsorten („Genres“)<br />
Zugänglichkeit:<br />
• (kostenpflichtige) Lizenzen oder frei zugänglich ?
Linguistische Metadaten:<br />
Annotationen 1/2<br />
Zuweisung von Wortarten<br />
Syntaktische Gruppierungen<br />
• Chunking, Parse-Bäume<br />
Semantische Auszeichnungen<br />
• Semantische Entitäten, Klassen<br />
• Semantische Relationen, Prädikat-Argument-<br />
Strukturen<br />
Textstrukturelle Auszeichnungen<br />
• Referenzketten<br />
• Rhetorische Relationen
NP-SBJ<br />
Analysts<br />
S<br />
VP<br />
have VP<br />
been VP<br />
expecting<br />
NP<br />
a GM-Jaguar<br />
pact<br />
NP<br />
SBAR<br />
WHNP-1<br />
that NP-SBJ<br />
*T*-1 would<br />
Analysts have been expecting a GM-Jaguar<br />
pact that would give the U.S. car maker an<br />
eventual 30% stake in the British company.<br />
S<br />
VP<br />
Linguistische Metadaten:<br />
syntaktische Annotation<br />
(S (NP-SBJ Analysts)<br />
(VP have<br />
(VP been<br />
(VP expecting<br />
(NP (NP a GM-Jaguar pact)<br />
(SBAR (WHNP-1 that)<br />
(S (NP-SBJ *T*-1)<br />
(VP would<br />
(VP give<br />
(NP the U.S. car maker)<br />
give<br />
NP<br />
the US car<br />
maker<br />
(NP (NP an eventual (ADJP 30 %) stake)<br />
(PP-LOC in (NP the British company))))))))))))<br />
VP<br />
NP<br />
an eventual<br />
30% stake<br />
NP<br />
in<br />
PP-LOC<br />
NP<br />
the British<br />
company<br />
8
Analysts<br />
have been expecting<br />
Arg0<br />
Arg0<br />
Arg1<br />
a GM-Jaguar<br />
pact<br />
Linguistische Metadaten:<br />
(S (NP-SBJ Analysts)<br />
(VP have semantische Annotation (1/2)<br />
that would give<br />
(VP been<br />
(VP expecting<br />
(NP (NP a GM-Jaguar pact)<br />
(SBAR (WHNP-1 that)<br />
(S (NP-SBJ *T*-1)<br />
(VP would<br />
(VP give<br />
(NP the U.S. car maker)<br />
(NP (NP an eventual (ADJP 30 %) stake)<br />
(PP-LOC in (NP the British company))))))))))))<br />
Arg1<br />
*T*-1<br />
Arg2<br />
the US car<br />
maker<br />
an eventual 30% stake in the<br />
British company<br />
expect(Analysts, GM-J pact)<br />
give(GM-J pact, 30% stake, US car maker)<br />
9
Linguistische Metadaten:<br />
semantische Annotation (2/2)
Linguistische Metadaten:<br />
Annotationen 2/2<br />
Annotationssprache<br />
• Vokabular der Metasprache<br />
• Wortarten<br />
• NOM(en), VERB, ADJ(ektiv), …<br />
• Syntaxtheorie<br />
• Kategorialsymbole (VP, NP usw.), Dependenz-/Valenztheorie, ...<br />
• Semantische Theorie<br />
• Semantische Atome (+/- BELEBT, +/- FEMININ, …)<br />
• Semantische Relationen (Ist-Teil-von, Ist-spezieller-als,…)<br />
• Prädikate ( SPIELEN [ ___ AGENT [+BEL]<br />
, ___ PATIENS , ___ LOC ], …)
Warum Annotationen ?<br />
Systematisch gewonnene und genutzte Datenbasis<br />
zur empirisch fundierten Analyse linguistischer<br />
Regularitäten<br />
• Beware of arm-chair linguists !<br />
• Statistische Auswertung (Distributions- und Ko-okkurrenzanalysen)<br />
• Hypothesenprüfung / statistische Signifikanz<br />
Autoritativer Gold-Standard (ground truth) für<br />
linguistische Beschreibungen<br />
• Verfahrensbeschreibungen für die Annotation<br />
• Annotationskonsistenz (Inter- / Intra-Coder-Konsistenz)<br />
Trainings-/Test-Datensätze für Verfahren des<br />
Maschinellen Lernens<br />
• Lernen aus korrekten Daten (positive/negative Instanzen)<br />
• Evaluation auf korrekten Daten
Annotationswerkzeuge<br />
Editoren für die linguistische Annotation<br />
• Einfügen / Modifizieren (Update)<br />
• Konsistenzprüfung<br />
• Ein-/Mehr-Benutzer-Werkzeuge
ALEMBIC Annotator
Themen<br />
Sprachkorpora (Rohdaten)<br />
• geschrieben/gesprochen – deutsch, englisch, …<br />
Annotierte Sprachkorpora<br />
• Wortarten: geschrieben – deutsch, englisch, …<br />
• Syntaktische Auszeichnungen: geschrieben – deutsch,<br />
englisch, …<br />
• Semantische Auszeichnungen: geschrieben – deutsch,<br />
englisch, …<br />
Annotationsmethodik<br />
• Guidelines, Konsistenzmetriken<br />
Annotationswerkzeuge<br />
• für Wortarten, syntaktische, semantische Auszeichnungen<br />
Nutzung von Korpora<br />
• Distributions- und Ko-Okkurrenzanalysen<br />
• Maschinelles Lernen
Web-Ressourcen für Korpora<br />
Linguistic Data Consortium [LDC]<br />
• http://www.ldc.upenn.edu/<br />
Linguist List [Open <strong>Language</strong> Archives]<br />
• http://linguistlist.org/olac<br />
European <strong>Language</strong> Resources Association<br />
[ELRA]<br />
• http://www.elra.info<br />
Natural <strong>Language</strong> Software Registry<br />
• http://registry.dfki.de<br />
Institut für Deutsche Sprache [IDS]<br />
• http://www.ids-mannheim.de/kl/corpora.html
Wege zum Vortrag und Referat<br />
Meldung von drei nach fallender Priorität<br />
geordneten Themenpräferenzen<br />
• First-come, first-served<br />
Themenvergabe<br />
Erste Literaturhinweise als „Saat“ nach<br />
Bestätigung der Themenauswahl<br />
Themenbearbeitung<br />
• Mündlicher Vortrag zum vereinbarten Termin<br />
• Schriftliches Referat (unter Einhaltung der organisatorischen<br />
Verabredungen) zum vereinbarten Termin
Literatur<br />
Bücher<br />
• T. McEnery & A. Hardie(2012), Corpus Linguistics: Method, Theory and<br />
Practice. Cambridge <strong>University</strong> Press.<br />
• D. Biber, , S. Conrad & R. Reppen (1998), Corpus Linguistics. Investigating<br />
Structure and Use. Cambridge <strong>University</strong> Press.<br />
• L. Lemnitzer & H. Zinsmeister (2010). Korpuslinguistik: eine Einführung.<br />
Tübingen: G. Narr, 2. Aufl.<br />
• N. Bubenhofer (2006-11). Einführung in die Korpuslinguistik: Praktische<br />
Grundlagen und Werkzeuge. Online unter:<br />
http://www.bubenhofer.com/korpuslinguistik/kurs/<br />
Zeitschriftenartikel<br />
• K.W. Church & R.L.Mercer (1993), Introduction to the special issue on<br />
computational linguistics using large corpora. Computational Linguistics, 19<br />
(1), pp.1-24.<br />
• E. Brill & R.J. Mooney (1997), An overview of empirical natural language<br />
processing. AI Magazine, 16(4), pp.13-24.<br />
Online<br />
• http://www.computerlinguistik.org/portal/portal.html?s=Korpuslinguistik
Ablaufplan<br />
21.5. Ann-Kathrin Hartmann<br />
Überblick über deutsche Sprachkorpora:<br />
Roh- und Metadaten, Korpussuche und -management<br />
28.5. Karl Oßwald<br />
Annotation diachroner Korpora<br />
04.6. Nina Schwöbel<br />
Parallele und vergleichbare Korpora<br />
11.6. Sven Hübner<br />
Syntaktische Annotation<br />
17.6. Matthias Biniok<br />
Semantische Annotation<br />
18.6. Matthias Schneemann<br />
Werkzeuge für die Korpusannotation<br />
24.6. Justus Jonscher<br />
Korpusbasierte Lexikonstatistik, mit Anwendung auf Kollokationen<br />
25.6. Markus Mieth<br />
Nutzung annotierter Korpora: Maschinelles Lernen am Beispiel<br />
der Named Entity-Erkennung