Aufrufe
vor 4 Jahren

Linksassoziative morphologische Analyse des Englischen mit ...

Linksassoziative morphologische Analyse des Englischen mit ...

und nicht zu This is a

und nicht zu This is a heading Now comes the first sentence of the paragraph . Now comes the last sentence of the paragraph . wird. Mehrere Zeilen mit einzelnen Punkten wurden zu einer zusammengefaßt. Die linguistischen Auszeichnungen wurden in den »Lancaster-Stil« überführt, d. h. Jede Wortform und jedes Satzzeichen steht in einer eigenen Zeile (sog. Vertikalformat) und zwischen W-Einheit und Tag befindet sich ein Unterstrich »_« als Trenner: African_JNP delegates_NNS to_IN the_ATI talks_NNS yesterday_NR called_VBD on_IN Mr_NPT Macmillan_NP ,_, Alle diese beschafften und selbstkonstruierten – und nunmehr im Format vereinheitlichten – Korpora sollen nun kurz statistisch charakterisiert werden, um dann anschließend die notwendigen Schritte zur Lexikonextraktion aufzuzeigen. 26

3.3 Korpusstatistiken 3.3.1 Korpusgrößen In Tabelle 3.2 sind mehrere Kenngrößen der beschriebenen Korpora aufgelistet. Der Begriff W-Einheit umfaßt alle nichtleeren Zeichenfolgen zwischen Leerraum, also nicht nur Wortformen, sondern auch Satzzeichen (und »Datenmüll«). Eine S- Einheit ist das, was im Korpus als Satz markiert ist (z. B. mit Satzendepunkt oder Fragezeichen abgeschlossen). Korpus Texte Stichproben-Zeit W-Einheiten S-Einheiten Größe [Bytes] LOB 500 1961 1 145 205 53 957 9 873 913 BNCCW k.A. 1960/1975 1 159 113 63 819 10 419 912 SUSANNE 64 1961 121 285 5 488 1 093 597 OTA 56 1581–1973 6 922 362 342 341 55 466 762 VTA 1 363 k.A. 30 745 450 1 273 435 249 410 835 TIME 16 499 1989–1994 12 716 053 539 005 110 452 959 Σ 18 482 51 809 468 2 278 045 436 717 978 Tabelle 3.2: Die verwendeten Korpora im Größenvergleich Bei der Wortschatzanalyse unterscheidet man zwischen abstrakten Wortform-Typen und deren konkreten Instanzen an einer bestimmten Stelle im Text, den Wortform- Okkurenzen (types und tokens) – Im UNIX-Jargon bezeichnet man die Liste der types oft als Unique-Liste, da sich aus Texten mit dem UNIX-Kommando sort -y hDateiij uniq leicht eine Liste der Wortform-Typen erstellen läßt. Tabelle 3.3 legt nahe, daß das Verhältnis zwischen Wortform-Typen und Wortform-Okkurenzen negativ mit der Korpusgröße korreliert. Dieser Quotient (engl. type-token ratio) ist ein Maß für den lexikalischen Reichtum eines Korpus (Abbildung 3.3). Korpus Wortform-Okkurenzen (tokenspes) Verhältnis Wortform-Typen (ty- type-token- SUSANNE 102 530 12 523 12,21 % LOB 988 399 45 034 4,56 % BNCCW 993 131 44 452 4,48 % OTAC 5 663 144 94 727 1,67 % VTAC 26 267 724 213 368 0,81 % TIME 10 880 896 186 063 1,71 % Gesamt Σ=44 895 824 j S j =384 044 — Tabelle 3.3: Lexikalische Statistik 27

Linksassoziative morphologische Analyse des Englischen mit ...
Analyse der morphologischen und physiologischen Differenzierung in
Aspekte der morphologischen Analyse des Deutschen - Universität ...
Allgemeine Morphologische Analyse - Ein Überblick - Swedish ...
Morphologisch- anatomische Analyse von Arzneidrogen inklusive ...
Dissertation Automatische Analyse orthographischer Leistungen ...