Aufrufe
vor 4 Jahren

Linksassoziative morphologische Analyse des Englischen mit ...

Linksassoziative morphologische Analyse des Englischen mit ...

3.1.3 Das British

3.1.3 Das British National Corpus (BNC) Das British National Corpus (BNC) ist das bisher größte balancierte 4 Korpus der englischen Sprache. Es wurde von einem eigens gegründeten Konsortium, dessen Mitglieder sich aus Forschung, Bibliotheks- und Verlagswesen rekrutieren, mit der Zielsetzung entwickelt, gleichzeitig eine wertvolle Resource für die empirische linguistische Erforschung des Englischen, die maschinelle Sprachverarbeitung und die Lexikographie aufzubauen [AsBu96]. Das BNC besteht aus Stichproben der Erscheinungsjahre 1960 und 1975 und ist nicht auf bestimmte Domänen, Register oder Genres beschränkt. Es enthält Auszüge aus insgesamt 4 124 Texten aus den verschiedensten Bereichen, die jeweils meist nicht länger als 40 000 laufende Wortformen sind, wobei die Gesamtanzahl der laufenden Wortformen rund 100 Millionen beträgt [Bur95]. Davon sind 90 % schriftsprachliches Englisch und 10 % gesprochenes Englisch. 5 Die Textauszeichnung erfolgte nach CDIF (engl. Corpus Document Interchange Format), einer SGML-Anwendung (ISO 8879:1986), die teilweise auf den Empfehlungen der Text Encoding Initiative (TEI) basiert. BNC Core Corpus (2011376) gesprochene Sprache (998402) geschriebene Sprache (1012974) kontextuell (499998) demographisch (498404) Belletristik (231173) Sachtexte (781801) Bildung (99316) A (38580) Drama (23391) Naturwissenschaft (33152) Wirtschaft (160847) B (107468) Lyrik (30711) Angewandte Wissenschaft (118703) Öffentliches/Institutionelles (122418) C1 (84065) Fiktion (177071) Sozialwissenschaft (30129) Unterhaltung (117417) C2 (140064) Handel und Finanz (92800) D (61297) Neues aus aller Welt (277769) E (46403) Glaube und Gedanken (43513) nicht klassifiziert Kunst (51785) Unterhaltung (133590) Abbildung 3.4: BNC Core Corpus (Größen in laufenden Wortformen) Die POS-Tags wurden mit dem oben beschriebenen CLAWS4-Tagger annotiert, der für gesprochene und geschriebene Sprache jeweils getrennt auf handannotierten Lernstichproben zu je einer Million laufender Wortformen trainiert wurde [LGB94]. 4 Auswahlkriterien waren u. a. Geschlecht, Alter und Herkunft der Autoren, intendierte Zielgruppe und quantitative Rezeption des Werks ([Bur95], S. 4–14) 5 genauer: hBrEi 22

Der schriftsprachlichen Teil dieses Core Corpus (Abbildung 3.4), der nachfolgend als BNCCW (für BNC Core – Written) abgekürzt wird, wurde zur Extraktion von Lemmata und Wahrscheinlichkeiten benutzt. Outlook for tomorrow and Friday: Scotland will become more cloudy with a little rain. Mostly dry and cold elsewhere. SEA PASSAGES Southern North Sea: Wind north-east strong to near gale. A few wintry showers. Abbildung 3.5: Auszug aus dem BNC-Korpus Das BNC wird in Form von vier CD-ROM-Medien von OUCS (Oxford University Computing Services) im Rahmen einer fünfjährigen Lizenz vertrieben. Darin sind einerseits die Quelldateien enthalten (2 GB; zum Format siehe Abbildung 3.5) und andererseits ein vorberechneter Index (nochmals 2 GB) für das Recherchewerkzeug SARA 6 [AsBu96]. 6 ein Akronym für SGML Aware Retrieval Application 23

Linksassoziative morphologische Analyse des Englischen mit ...
Analyse der morphologischen und physiologischen Differenzierung in
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Allgemeine Morphologische Analyse - Ein Überblick - Swedish ...
Morphologisch- anatomische Analyse von Arzneidrogen inklusive ...
Dissertation Automatische Analyse orthographischer Leistungen ...