Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...
Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...
Vejledning til det danske Parole-korpus - Det Danske Sprog- og ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Lighedstegnet ( = ) anvendes som pladsholder i msd-strengen <strong>til</strong> at angive, at <strong>det</strong> pågældende<br />
træk, der er knyttet <strong>til</strong> denne plads, ikke anvendes i hele ordklassen ('CatGram'). <strong>Det</strong> fremgår<br />
f.eks. af ovenstående eksempler i Figur 5, at en msd-streng, der indeholder analysen af et<br />
appellativ (som f.eks. historikere), <strong>og</strong> en msd-streng, der indeholder analysen af et proprium<br />
(som f.eks. Andronik), har lige mange pladser (otte). D<strong>og</strong> er plads 6 <strong>og</strong> 7 ikke relevante for<br />
hverken appellativer eller proprier, <strong>og</strong> derfor udfyldes de i begge <strong>til</strong>fælde med et lighedstegn.<br />
Lighedstegnet repræsenterer således de grå felter i tagsættet.<br />
Bindestregen ( - ) anvendes som pladsholder i en msd-streng for at angive, at <strong>det</strong> pågældende<br />
træk, der er knyttet <strong>til</strong> denne plads, ikke er relevant i denne underinddeling af ordklassen<br />
('SsCatGram'), men er relevant for en anden underinddeling af den pågældende ordklasse.<br />
Således indeholder f.eks. plads 3, 4 <strong>og</strong> 8 af en msd-streng for et proprium (som f.eks. Andronik<br />
ovenfor) altid en bindestreg, fordi de tre pågældende morfol<strong>og</strong>iske træk (hhv. genus, numerus<br />
<strong>og</strong> bestemthed) ikke anvendes i analysen af <strong>danske</strong> proprier, men kun i analysen af <strong>danske</strong><br />
appellativer (som f.eks. historikere ovenfor).<br />
Til sidst anvendes kantede parenteser ( [ ] ) <strong>til</strong> at angive, at mere end én værdi er relevant for et<br />
pågældende træk. I DAN-TWOL er f.eks. et adjektiv i pluralis (som f.eks. russiske i Figur 5<br />
ovenfor) ikke eksplicit markeret for bøjning i genus eller bestemthed, da disse (fire potentielle)<br />
bøjningsformer falder samme i pluralisformen. Denne type regelbunden “træksammenfald” er<br />
heller ikke nærmere udspecificeret i selve PAROLE-<strong>korpus</strong>set. I msd-strengen er adjektiver i<br />
pluralis således underspecificeret ved, at de to mulige værdier for genus (fælleskøn/intetkøn)<br />
<strong>og</strong> de to mulige værdier for bestemthed (bestemt/ubestemt) angives mellem kantede parenteser<br />
(som vist i Figur 5 ovenfor). Når kantede parenteser anvendes i en msd-streng, afgrænser de<br />
altid en liste over alle de mulige værdier for den pågældende plads 8 . Således kan der faktisk stå<br />
mere end ét tegn på en enkelt plads i msd-strengen.<br />
3. Korpus- <strong>og</strong> tekstopmarkering<br />
Hele PAROLE-<strong>korpus</strong>set — inkl. hvert eneste af de 1.553 tekstuddrag — er opmarkeret med<br />
SGML-koder ifølge reglerne i PAROLEs fælles Corpus Encoding Standard (CES). PAROLE<br />
CES'en er udførligt beskrevet i Ridings, 1996, hvor den sammenlignes med to andre<br />
eksisterende CES'er, Text Encoding Initiative (TEI) CES'en (Sperberg-McQueen & Burnard,<br />
1994) <strong>og</strong> EAGLES CES'en (Ide et al, 1995) 9 .<br />
At et tekst<strong>korpus</strong> er opmarkeret ifølge en CES betyder, at den overordnede struktur i <strong>korpus</strong>set<br />
er fastlagt på forhånd af reglerne i CES'en. Denne struktur udtrykkes eksplicit vha. SGMLkoder,<br />
<strong>og</strong> CES'en bestemmer først <strong>og</strong> fremmest, hvilke SGML-koder der er obligatoriske <strong>og</strong><br />
hvilke SGML-koder der er <strong>til</strong>ladte i opmarkeringen af <strong>korpus</strong>set. SGML-koderne består<br />
(næsten altid) af en startkode () <strong>og</strong> en slutkode (), der står hhv. før <strong>og</strong> efter den<br />
del af teksten, de er fælles om at afgrænse <strong>og</strong> beskrive. CES'en bestemmer desuden hvilke<br />
SGML-koder der må (eller skal) optræde inde i de løbende <strong>korpus</strong>tekster for at angive deres<br />
interne struktur, samt hvordan disse SGML-koder skal indlejres i hinanden.<br />
8 Den samme underspecificering kunne <strong>og</strong>så repræsenteres ved at markere den pågældende plads med en “underspecificeret”<br />
markør (f.eks. '0') i ste<strong>det</strong> for en liste, men denne mulighed var ikke <strong>til</strong>gængelig ifølge specifikationerne af PAROLEtagsættet.<br />
9 I Ridings, 1996, s. 2 står bl.a. "The PAROLE standard follows the recommendation made by EAGLES as far as the <strong>det</strong>ail of<br />
information that is to be encoded is concerned, but a text encoded according to the PAROLE standard will parse with the TEIdtd.<br />
When the EAGLES description deviates from TEI with respect to technicalities, PAROLE follows TEI."<br />
9