18.07.2013 Views

Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...

Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...

Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Startkode Slutkode Beskrivelse<br />

omgiver en større, ikke nærmere beskrevet tekstenhed<br />

omgiver en billedtekst*<br />

omgiver en tekstenhed der optræder uden for den løbende tekst*<br />

omgiver et afsnit ('paragraph')<br />

omgiver en sætning 15<br />

omgiver en note om teksten der er indsat af forfatteren/forfatterne <strong>til</strong><br />

teksten*<br />

omgiver en note om teksten der er indsat af en DDO redaktør under<br />

sammensætningen af DDO's tekst<strong>korpus</strong>* (sjælden)<br />

omgiver fremhævet tekst ('highlighted') uden nærmere angivelse af<br />

hvordan teksten er fremhævet*<br />

De SGML-koder, der er markeret med en stjerne (*) i Figur 9 ovenfor, er automatisk<br />

konverteret fra allerede eksisterende SGML-koder i DDO's tekst<strong>korpus</strong> <strong>og</strong> optræder således<br />

kun i de <strong>korpus</strong>tekster, der svarer <strong>til</strong> de første 100.000 tekstord i PAROLE-<strong>korpus</strong>set. De andre<br />

SGML-koder kan forefindes i alle <strong>korpus</strong>teksterne.<br />

4. Ordinddeling<br />

En ordform er et løbende tekstord (eller evt. et symbol eller interpunktionstegn) i den skriftlige<br />

udformning, hvormed <strong>det</strong> optræder i <strong>korpus</strong>teksten. <strong>Det</strong> er <strong>og</strong>så denne form, der slås op i<br />

DAN-TWOLs morfol<strong>og</strong>iske leksikon, hvor den <strong>til</strong>deles en eller flere lemmaformer <strong>og</strong><br />

morfosyntaktiske analyser. For at opslag i DAN-TWOLs leksikon er mulige, skal DAN-<br />

TWOL-tokeniseren først udskille alle SGML-koder samt identificere alle ordformer, symboler<br />

<strong>og</strong> interpunktionstegn i teksten. Set fra DAN-TWOL-tokeniserens synspunkt svarer en ordform<br />

stort set <strong>til</strong> en sammenhængende sekvens af b<strong>og</strong>staver, tal eller visse andre tegn (som f.eks.<br />

bindestreger), der er omgivet af blanktegn <strong>og</strong> interpunktionstegn (d<strong>og</strong> kan der i visse <strong>til</strong>fælde<br />

optræde blanktegn inde i en ordform). Eksemplet i Figur 10 nedenfor viser hvordan DAN-<br />

TWOL-tokeniseren har behandlet første afsnit af den første <strong>korpus</strong>tekst i PAROLE-<strong>korpus</strong>set.<br />

Figur 10: Resultat af DAN-TWOL-tokeniserens ordinddeling<br />

To kendte russiske historikere Andronik Mirganjan<br />

<strong>og</strong> Igor Klamkin tror ikke, at Rusland kan udvikles<br />

uden en "jernnæve". De hævder, at Ruslands vej <strong>til</strong><br />

demokrati går gennem diktatur. I en af deres artikler<br />

hedder <strong>det</strong>: "I et autoritært regime lagdel samfun<strong>det</strong><br />

<strong>og</strong> forskellige interesser modnes. Og når deres<br />

repræsentanter er parate <strong>til</strong> at gå i struben på hinanden,<br />

så stopper en jernnæve" <strong>det</strong>. På den måde skabes hele<br />

tiden betingelserne for en harmonisering af interesser <strong>og</strong><br />

følgelig for demokratiske reformer".<br />

To kendte russiske historikere Andronik Mirganjan<br />

<strong>og</strong> Igor Klamkin tror ikke , at Rusland kan udvikles<br />

uden en " jernnæve " . De hævder , at Ruslands vej <strong>til</strong><br />

demokrati går gennem diktatur . I en af deres artikler<br />

hedder <strong>det</strong> : " I et autoritært regime lagdel samfun<strong>det</strong><br />

<strong>og</strong> forskellige interesser modnes . Og når deres<br />

repræsentanter er parate <strong>til</strong> at gå i struben på hinanden ,<br />

så stopper en jernnæve " <strong>det</strong> . På den måde skabes hele<br />

tiden betingelserne for en harmonisering af interesser <strong>og</strong><br />

følgelig for demokratiske reformer " . <br />

Som <strong>det</strong> fremgår af eksemplet ovenfor, er de ordformer, der er identificeret af DAN-TWOLtokeniseren<br />

<strong>og</strong> vil blive slået op i DAN-TWOL-leksikonet, normalt alenestående ordformer,<br />

der er omgivet af blanktegn <strong>og</strong> interpunktionstegn. Ordformer er således normalt ikke<br />

flerordsforbindelser, der indeholder blanktegn. <strong>Det</strong> har således i høj grad været DAN-TWOLtokeniserens<br />

afgørelse, hvordan ordformerne i disse tekster er blevet identificeret, evt. samlet<br />

<strong>og</strong> så slået op i DAN-TWOL-leksikonet.<br />

Af ovenstående eksempel i Figur 10 fremgår <strong>det</strong>, at f.eks. flerleddede navne (som Andronik<br />

Mirganin <strong>og</strong> Igor Klamkin) ikke samles af DAN-TWOL-tokeniseren som flerordsforbindelser,<br />

men analyseres som selvstændige ordformer. <strong>Det</strong>te gælder <strong>og</strong>så for andre kendte typer af<br />

15 Sætningerne er segmenteret automatisk efter en enkel algoritme, hvilket medfører, at der kan optræde enkelte<br />

fejlsegmenteringer (især i forbindelse med anførselstegn).<br />

13

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!