15.03.2014 Aufrufe

Einführung - Jena University Language & Information Engineering Lab

Einführung - Jena University Language & Information Engineering Lab

Einführung - Jena University Language & Information Engineering Lab

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Seminar im Modul B-GSW-12<br />

SoS 2013<br />

Prof. Dr. Udo Hahn<br />

Lehrstuhl für Computerlinguistik<br />

Institut für Germanistische Sprachwissenschaft<br />

Friedrich-Schiller-Universität <strong>Jena</strong><br />

http://www.julielab.de


Allgemeine Hinweise<br />

Termin: Di, 14-16h (AB 4, SR 107)<br />

Materialien im Netz<br />

• http://www.julielab.de<br />

„Students“<br />

Sprechstunde: Mi, 12-13h (FG 30, R203)<br />

Email:<br />

udo.hahn@uni-jena.de<br />

Fachliteratur: häufig in Englisch


Seminarleistungen<br />

Vortrag (mündlich)<br />

• 1-stündig<br />

• Elektronische Version (PDF, PPT) verfügbar machen<br />

Referat (schriftlich)<br />

• 15-20 Seiten Kerntext (mit Standardformaten)<br />

• Elektronische Version (PDF, DOC) verfügbar machen<br />

• Eidesstattliche Erklärung zur Eigenautorenschaft<br />

• Wir prüfen mit Plagiatserkennungs-Software<br />

• Abgabe: Ende Juli 2013


Bemerkungen zu Referaten<br />

Aufbaumuster:<br />

• Deck- bzw. Titelblatt mit vollständigen Angaben<br />

• Inhaltsverzeichnis<br />

• Einführung ins Thema, Motivation<br />

• Themenabhandlung: grundlegende Verfahren, Systemfunktionalitäten,<br />

Ressourcenmerkmale, Experimente/Evaluationen usw.<br />

• Fazit mit kritischer Würdigung, offene Probleme<br />

• Bibliographie<br />

• Ressourcen-Datenblatt<br />

Zitationen:<br />

• Alle verwendeten Quellen zitieren<br />

• Mit einem Zitat die jeweilige Quelle eindeutig beschreiben<br />

• Fachartikel nicht mit http://...foo.pdf-Link zitieren<br />

• Online-Quellen mit URLs und Datum des letztem Zugriffs<br />

• Wikipedia ist keine zitierfähige wissenschaftliche Quelle !<br />

Eigenleistungen (Literatur, Beschäftigung mit konkreten<br />

Ressourcen/Systemen usw.) sind sehr erwünscht !!


Schriftliche Texte<br />

• Zeitungen, Zeitschriften (Jahrgänge)<br />

• Wissenschaftliche Prosa<br />

• Parlamentsprotokolle<br />

Gesprochene Sprache<br />

• Gesprochene Monologe<br />

• Erzählungen<br />

• Gesprochene Dialoge<br />

• Frage-Antwort-Sequenzen<br />

Sprachdaten 1/2


Technische Aspekte der Kodierung<br />

• Textformate:<br />

ASCII, HTML/XML, PDF, DOC<br />

Sprachdaten 2/2<br />

• Audioformate: OGG, WAV, MP3<br />

• Transkription (etwa in phonetische Lautschrift – IPA) erforderlich !<br />

Auswahl der Sprachdaten<br />

• Fixes Sample<br />

• Zufallsauswahl statistisch „saubere“ Stichprobe<br />

• Grundgesamtheit, aus der Stichprobe gezogen wird ?<br />

Einzelsprachliche bzw. mehrsprachliche Ressourcen<br />

(parallele vs. vergleichbare Korpora)<br />

• Multi-lingual, multi-modal, multi-medial<br />

Text- bzw. Sprachsorten („Genres“)<br />

Zugänglichkeit:<br />

• (kostenpflichtige) Lizenzen oder frei zugänglich ?


Linguistische Metadaten:<br />

Annotationen 1/2<br />

Zuweisung von Wortarten<br />

Syntaktische Gruppierungen<br />

• Chunking, Parse-Bäume<br />

Semantische Auszeichnungen<br />

• Semantische Entitäten, Klassen<br />

• Semantische Relationen, Prädikat-Argument-<br />

Strukturen<br />

Textstrukturelle Auszeichnungen<br />

• Referenzketten<br />

• Rhetorische Relationen


NP-SBJ<br />

Analysts<br />

S<br />

VP<br />

have VP<br />

been VP<br />

expecting<br />

NP<br />

a GM-Jaguar<br />

pact<br />

NP<br />

SBAR<br />

WHNP-1<br />

that NP-SBJ<br />

*T*-1 would<br />

Analysts have been expecting a GM-Jaguar<br />

pact that would give the U.S. car maker an<br />

eventual 30% stake in the British company.<br />

S<br />

VP<br />

Linguistische Metadaten:<br />

syntaktische Annotation<br />

(S (NP-SBJ Analysts)<br />

(VP have<br />

(VP been<br />

(VP expecting<br />

(NP (NP a GM-Jaguar pact)<br />

(SBAR (WHNP-1 that)<br />

(S (NP-SBJ *T*-1)<br />

(VP would<br />

(VP give<br />

(NP the U.S. car maker)<br />

give<br />

NP<br />

the US car<br />

maker<br />

(NP (NP an eventual (ADJP 30 %) stake)<br />

(PP-LOC in (NP the British company))))))))))))<br />

VP<br />

NP<br />

an eventual<br />

30% stake<br />

NP<br />

in<br />

PP-LOC<br />

NP<br />

the British<br />

company<br />

8


Analysts<br />

have been expecting<br />

Arg0<br />

Arg0<br />

Arg1<br />

a GM-Jaguar<br />

pact<br />

Linguistische Metadaten:<br />

(S (NP-SBJ Analysts)<br />

(VP have semantische Annotation (1/2)<br />

that would give<br />

(VP been<br />

(VP expecting<br />

(NP (NP a GM-Jaguar pact)<br />

(SBAR (WHNP-1 that)<br />

(S (NP-SBJ *T*-1)<br />

(VP would<br />

(VP give<br />

(NP the U.S. car maker)<br />

(NP (NP an eventual (ADJP 30 %) stake)<br />

(PP-LOC in (NP the British company))))))))))))<br />

Arg1<br />

*T*-1<br />

Arg2<br />

the US car<br />

maker<br />

an eventual 30% stake in the<br />

British company<br />

expect(Analysts, GM-J pact)<br />

give(GM-J pact, 30% stake, US car maker)<br />

9


Linguistische Metadaten:<br />

semantische Annotation (2/2)


Linguistische Metadaten:<br />

Annotationen 2/2<br />

Annotationssprache<br />

• Vokabular der Metasprache<br />

• Wortarten<br />

• NOM(en), VERB, ADJ(ektiv), …<br />

• Syntaxtheorie<br />

• Kategorialsymbole (VP, NP usw.), Dependenz-/Valenztheorie, ...<br />

• Semantische Theorie<br />

• Semantische Atome (+/- BELEBT, +/- FEMININ, …)<br />

• Semantische Relationen (Ist-Teil-von, Ist-spezieller-als,…)<br />

• Prädikate ( SPIELEN [ ___ AGENT [+BEL]<br />

, ___ PATIENS , ___ LOC ], …)


Warum Annotationen ?<br />

Systematisch gewonnene und genutzte Datenbasis<br />

zur empirisch fundierten Analyse linguistischer<br />

Regularitäten<br />

• Beware of arm-chair linguists !<br />

• Statistische Auswertung (Distributions- und Ko-okkurrenzanalysen)<br />

• Hypothesenprüfung / statistische Signifikanz<br />

Autoritativer Gold-Standard (ground truth) für<br />

linguistische Beschreibungen<br />

• Verfahrensbeschreibungen für die Annotation<br />

• Annotationskonsistenz (Inter- / Intra-Coder-Konsistenz)<br />

Trainings-/Test-Datensätze für Verfahren des<br />

Maschinellen Lernens<br />

• Lernen aus korrekten Daten (positive/negative Instanzen)<br />

• Evaluation auf korrekten Daten


Annotationswerkzeuge<br />

Editoren für die linguistische Annotation<br />

• Einfügen / Modifizieren (Update)<br />

• Konsistenzprüfung<br />

• Ein-/Mehr-Benutzer-Werkzeuge


ALEMBIC Annotator


Themen<br />

Sprachkorpora (Rohdaten)<br />

• geschrieben/gesprochen – deutsch, englisch, …<br />

Annotierte Sprachkorpora<br />

• Wortarten: geschrieben – deutsch, englisch, …<br />

• Syntaktische Auszeichnungen: geschrieben – deutsch,<br />

englisch, …<br />

• Semantische Auszeichnungen: geschrieben – deutsch,<br />

englisch, …<br />

Annotationsmethodik<br />

• Guidelines, Konsistenzmetriken<br />

Annotationswerkzeuge<br />

• für Wortarten, syntaktische, semantische Auszeichnungen<br />

Nutzung von Korpora<br />

• Distributions- und Ko-Okkurrenzanalysen<br />

• Maschinelles Lernen


Web-Ressourcen für Korpora<br />

Linguistic Data Consortium [LDC]<br />

• http://www.ldc.upenn.edu/<br />

Linguist List [Open <strong>Language</strong> Archives]<br />

• http://linguistlist.org/olac<br />

European <strong>Language</strong> Resources Association<br />

[ELRA]<br />

• http://www.elra.info<br />

Natural <strong>Language</strong> Software Registry<br />

• http://registry.dfki.de<br />

Institut für Deutsche Sprache [IDS]<br />

• http://www.ids-mannheim.de/kl/corpora.html


Wege zum Vortrag und Referat<br />

Meldung von drei nach fallender Priorität<br />

geordneten Themenpräferenzen<br />

• First-come, first-served<br />

Themenvergabe<br />

Erste Literaturhinweise als „Saat“ nach<br />

Bestätigung der Themenauswahl<br />

Themenbearbeitung<br />

• Mündlicher Vortrag zum vereinbarten Termin<br />

• Schriftliches Referat (unter Einhaltung der organisatorischen<br />

Verabredungen) zum vereinbarten Termin


Literatur<br />

Bücher<br />

• T. McEnery & A. Hardie(2012), Corpus Linguistics: Method, Theory and<br />

Practice. Cambridge <strong>University</strong> Press.<br />

• D. Biber, , S. Conrad & R. Reppen (1998), Corpus Linguistics. Investigating<br />

Structure and Use. Cambridge <strong>University</strong> Press.<br />

• L. Lemnitzer & H. Zinsmeister (2010). Korpuslinguistik: eine Einführung.<br />

Tübingen: G. Narr, 2. Aufl.<br />

• N. Bubenhofer (2006-11). Einführung in die Korpuslinguistik: Praktische<br />

Grundlagen und Werkzeuge. Online unter:<br />

http://www.bubenhofer.com/korpuslinguistik/kurs/<br />

Zeitschriftenartikel<br />

• K.W. Church & R.L.Mercer (1993), Introduction to the special issue on<br />

computational linguistics using large corpora. Computational Linguistics, 19<br />

(1), pp.1-24.<br />

• E. Brill & R.J. Mooney (1997), An overview of empirical natural language<br />

processing. AI Magazine, 16(4), pp.13-24.<br />

Online<br />

• http://www.computerlinguistik.org/portal/portal.html?s=Korpuslinguistik


Ablaufplan<br />

21.5. Ann-Kathrin Hartmann<br />

Überblick über deutsche Sprachkorpora:<br />

Roh- und Metadaten, Korpussuche und -management<br />

28.5. Karl Oßwald<br />

Annotation diachroner Korpora<br />

04.6. Nina Schwöbel<br />

Parallele und vergleichbare Korpora<br />

11.6. Sven Hübner<br />

Syntaktische Annotation<br />

17.6. Matthias Biniok<br />

Semantische Annotation<br />

18.6. Matthias Schneemann<br />

Werkzeuge für die Korpusannotation<br />

24.6. Justus Jonscher<br />

Korpusbasierte Lexikonstatistik, mit Anwendung auf Kollokationen<br />

25.6. Markus Mieth<br />

Nutzung annotierter Korpora: Maschinelles Lernen am Beispiel<br />

der Named Entity-Erkennung

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!