18.07.2013 Views

Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...

Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...

Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Lighedstegnet ( = ) anvendes som pladsholder i msd-strengen <strong>til</strong> at angive, at <strong>det</strong> pågældende<br />

træk, der er knyttet <strong>til</strong> denne plads, ikke anvendes i hele ordklassen ('CatGram'). <strong>Det</strong> fremgår<br />

f.eks. af ovenstående eksempler i Figur 5, at en msd-streng, der indeholder analysen af et<br />

appellativ (som f.eks. historikere), <strong>og</strong> en msd-streng, der indeholder analysen af et proprium<br />

(som f.eks. Andronik), har lige mange pladser (otte). D<strong>og</strong> er plads 6 <strong>og</strong> 7 ikke relevante for<br />

hverken appellativer eller proprier, <strong>og</strong> derfor udfyldes de i begge <strong>til</strong>fælde med et lighedstegn.<br />

Lighedstegnet repræsenterer således de grå felter i tagsættet.<br />

Bindestregen ( - ) anvendes som pladsholder i en msd-streng for at angive, at <strong>det</strong> pågældende<br />

træk, der er knyttet <strong>til</strong> denne plads, ikke er relevant i denne underinddeling af ordklassen<br />

('SsCatGram'), men er relevant for en anden underinddeling af den pågældende ordklasse.<br />

Således indeholder f.eks. plads 3, 4 <strong>og</strong> 8 af en msd-streng for et proprium (som f.eks. Andronik<br />

ovenfor) altid en bindestreg, fordi de tre pågældende morfol<strong>og</strong>iske træk (hhv. genus, numerus<br />

<strong>og</strong> bestemthed) ikke anvendes i analysen af <strong>danske</strong> proprier, men kun i analysen af <strong>danske</strong><br />

appellativer (som f.eks. historikere ovenfor).<br />

Til sidst anvendes kantede parenteser ( [ ] ) <strong>til</strong> at angive, at mere end én værdi er relevant for et<br />

pågældende træk. I DAN-TWOL er f.eks. et adjektiv i pluralis (som f.eks. russiske i Figur 5<br />

ovenfor) ikke eksplicit markeret for bøjning i genus eller bestemthed, da disse (fire potentielle)<br />

bøjningsformer falder samme i pluralisformen. Denne type regelbunden “træksammenfald” er<br />

heller ikke nærmere udspecificeret i selve PAROLE-<strong>korpus</strong>set. I msd-strengen er adjektiver i<br />

pluralis således underspecificeret ved, at de to mulige værdier for genus (fælleskøn/intetkøn)<br />

<strong>og</strong> de to mulige værdier for bestemthed (bestemt/ubestemt) angives mellem kantede parenteser<br />

(som vist i Figur 5 ovenfor). Når kantede parenteser anvendes i en msd-streng, afgrænser de<br />

altid en liste over alle de mulige værdier for den pågældende plads 8 . Således kan der faktisk stå<br />

mere end ét tegn på en enkelt plads i msd-strengen.<br />

3. Korpus- <strong>og</strong> tekstopmarkering<br />

Hele PAROLE-<strong>korpus</strong>set — inkl. hvert eneste af de 1.553 tekstuddrag — er opmarkeret med<br />

SGML-koder ifølge reglerne i PAROLEs fælles Corpus Encoding Standard (CES). PAROLE<br />

CES'en er udførligt beskrevet i Ridings, 1996, hvor den sammenlignes med to andre<br />

eksisterende CES'er, Text Encoding Initiative (TEI) CES'en (Sperberg-McQueen & Burnard,<br />

1994) <strong>og</strong> EAGLES CES'en (Ide et al, 1995) 9 .<br />

At et tekst<strong>korpus</strong> er opmarkeret ifølge en CES betyder, at den overordnede struktur i <strong>korpus</strong>set<br />

er fastlagt på forhånd af reglerne i CES'en. Denne struktur udtrykkes eksplicit vha. SGMLkoder,<br />

<strong>og</strong> CES'en bestemmer først <strong>og</strong> fremmest, hvilke SGML-koder der er obligatoriske <strong>og</strong><br />

hvilke SGML-koder der er <strong>til</strong>ladte i opmarkeringen af <strong>korpus</strong>set. SGML-koderne består<br />

(næsten altid) af en startkode () <strong>og</strong> en slutkode (), der står hhv. før <strong>og</strong> efter den<br />

del af teksten, de er fælles om at afgrænse <strong>og</strong> beskrive. CES'en bestemmer desuden hvilke<br />

SGML-koder der må (eller skal) optræde inde i de løbende <strong>korpus</strong>tekster for at angive deres<br />

interne struktur, samt hvordan disse SGML-koder skal indlejres i hinanden.<br />

8 Den samme underspecificering kunne <strong>og</strong>så repræsenteres ved at markere den pågældende plads med en “underspecificeret”<br />

markør (f.eks. '0') i ste<strong>det</strong> for en liste, men denne mulighed var ikke <strong>til</strong>gængelig ifølge specifikationerne af PAROLEtagsættet.<br />

9 I Ridings, 1996, s. 2 står bl.a. "The PAROLE standard follows the recommendation made by EAGLES as far as the <strong>det</strong>ail of<br />

information that is to be encoded is concerned, but a text encoded according to the PAROLE standard will parse with the TEIdtd.<br />

When the EAGLES description deviates from TEI with respect to technicalities, PAROLE follows TEI."<br />

9

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!