Nederlandse Gesproken Corpora: een Inventarisatie

Nederlandse Gesproken Corpora: een Inventarisatie 

Drs. R.J. Piepenbrock 

CELEX - Centrum voor Lexicale Informatie 

Max Planck Instituut voor Psycholinguïstiek 

Postbus 310 

6500 AH Nijmegen 

Telefoon: +31-(0)24-3615797 

Fax: +31-(0)24-3521213 

E-mail: celex@mpi.nl 

Homepage: http://www.kun.nl/celex/ 

7 juni 1999 

Versie 1.5 

1

Inhoudsopgave 

1 Inleiding 3 

2 Het Historische Perspectief 4 

2.1 Corpora van de Eerste Generatie (-1980) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

2.1.1 Corpus De Vriendt-De Man . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

2.1.2 Eindhoven Corpus (Corpus Uit den Boogaart) . . . . . . . . . . . . . . . . . . . . . . 6 

2.1.3 Corpus De Jong . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 

3 De Eerste Elektronische Gesproken Corpora 9 

3.1 Corpora van de Tweede Generatie (1980-1990) . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

3.1.1 De CHILDES kindertaal-databank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 

3.1.2 De ESF migrantentaal-databank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

3.1.3 Nederlandse dialoogcorpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

3.2 Andere Gesproken Datacollecties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 

4 Recente Ontwikkelingen: Gesproken Corpora en Standaardisatie 23 

4.1 Corpora van de Derde Generatie (1990-) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 

4.2 De Opkomst van Internationale Standaards . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

4.2.1 SGML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 

4.2.2 XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

4.2.3 TEI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

4.2.4 EAGLES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 

4.3 Het Ontstaan van Internationale Datacollecties . . . . . . . . . . . . . . . . . . . . . . . . . . 40 

4.3.1 De EUROM1 databank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 

4.3.2 Het European Corpus Initiative (ECI) . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 

4.3.3 Het Multilingual Parallel Corpus (MLCC) . . . . . . . . . . . . . . . . . . . . . . . . . 42 

4.3.4 Het International Corpus of English . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 

4.3.5 Het British National Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 

4.3.6 Het POLYPHONE Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 

4.3.7 Het Oxford Text Archive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 

4.3.8 Het Project Gutenberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 

4.4 Moderne Nederlandstalige Gesproken Corpora . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 

4.4.1 Het ANNO Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 

4.4.2 Het COGEN Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 

4.4.3 Het PBS Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 

4.4.4 Het Groningen Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 

4.4.5 Het Speech Styles Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 

4.4.6 Het OVIS Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 

4.4.7 Corpora van het Meertensinstituut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 

5 Evaluatie 59 

6 Gidsprojecten voor de Toekomst 61 

6.1 Het GATE Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 

6.2 Het EUDICO Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 

6.3 De Edinburgh Language Technology Group . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 

6.4 Het Paper A Formal Framework for Linguistic Annotation . . . . . . . . . . . . . . . . . . . . 62 

6.5 Het Zweedse Gesproken Corpus Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

6.6 Het Hyperlex Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 

7 Referenties 63 

2

1 Inleiding 

Wanneer we met elkaar door middel van taal communiceren, dan is spraak het primaire medium. Hoewel 

geschreven taal zich in dit informatietijdperk een hoge status en een wijde verbreiding heeft verworven, blijft 

het een afgeleide van het gesproken woord. Toch is het huidige fundamentele taalonderzoek qua beschrijving 

van grammatica en lexis, evenals de toepassingsgerichte taalstudie (lexicografie, talenonderwijs) grotendeels 

gebaseerd op geschreven bronnen. Dit leidt onvermijdelijk tot vertekeningen in de analyse van ons standaard 

taalgebruik. 

Tot voor kort was gesproken taal echter zo lastig te vergaren, te verwerken, te archiveren en te ontsluiten, 

dat uit deze praktische overwegingen nauwelijks tot grootschalige analyse van gesproken taal kon worden 

overgegaan. Nu in het laatste decennium een veelheid aan geavanceerde computertechnieken de registratie, 

bewerking en opslag van grote hoeveelheden spraak mogelijk maakt, en de integratie van spraak in multimediale 

pakketten eveneens in allerlei toepassingen opgeld doet, lijkt het moment aangebroken om substantiële 

inspanningen te plegen om de gesproken taal in kaart te brengen. De opzet van een Corpus Gesproken 

Nederlands (CGN) van 10 miljoen woorden, een samenwerkingsproject tussen de Vlaamse en Nederlandse 

overheden, moet dan ook in dit licht worden bezien. 

Behalve dat de samenstelling van een corpus van een dergelijke omvang ook met de huidige stand der 

techniek nog zeer veel financiële ondersteuning vereist, vormt het project ook in taalkundig en computationeel 

opzicht een grote uitdaging. Zo zullen, op grond van de ervaringen met vergelijkbare initiatieven, zoals 

het British National Corpus (BNC), keuzes moeten worden gemaakt op het gebied van de corpusinhoud 

(de taalsamples), het corpusformaat (opslag, vorm, interne structuur), de linguïstische annotatie en de 

uiteindelijke beschikbaarstelling aan gebruikers. 

De uitdaging van het project zal er voor een groot deel in bestaan, om, anders dan bij het BNC, de 

orthografische transcriptie voor alle uitingen op te lijnen met het akoestisch signaal, en vervolgens beide 

beschikbaar te stellen. Immers, juist bij transcriptie van het gesproken signaal gaat, zelfs bij uitgebreide 

annotatie, veel akoestische informatie verloren (b.v. tempo, amplitude, duur, intonatie, pauzes, volgens 

transcribeur onverstaanbare woorden, overlappingen, aarzelingen, versprekingen). Ook zal een transcriptie 

volgens één bepaalde methode vaak onbruikbaar zijn voor wetenschappers geïnteresseerd in een andere 

discipline (b.v. prosodische vs. orthografische transcriptie, standaardisatie van clitica en reducties vs. nauwkeurige 

transliteratie van deze varianten, taalkundige vs. redekundige analyse). Daarnaast ontbreekt vaak 

informatie over de situationele context, evenals ondersteunende gebaren, lichaamshouding, gelaatsuitdrukkingen 

en hoofdbewegingen. Om deze nadelen zoveel mogelijk te beperken, is toegang tot het spraaksignaal, 

en wellicht zelfs videofragmenten, waar voorhanden, onontbeerlijk. Bovendien zal het project voorzien in 

morfologische en semantische koppeling aan bestaande lexicale bestanden. Ook zal een deel van het corpus 

verrijkt worden met gedetailleerde fonetische en fonologische informatie. 

Bij alle activiteiten in het kader van het CGN-project zal voorop moeten staan, dat het beoogde corpus 

aantrekkelijk moet zijn voor een groot aantal wetenschappelijke en niet-wetenschappelijke disciplines en 

applicaties. Verder zal, in navolging van aanbevelingen van verschillende (inter)nationale instanties, zorg 

worden gedragen voor een zo laagdrempelig, gebruikersvriendelijk en veelzijdig mogelijke toegang tot het 

spraaksignaal, de transcriptie en de diverse annotatielagen. Dat impliceert zo veel mogelijk aansluiting bij 

expliciet door de diverse disciplines gedefinieerde, dan wel in de praktijk gegroeide (best practice) standaardmethoden 

en -technieken voor de verschillende bewerkingsslagen van het gesproken materiaal. 

In het kader van het CGN beoogt dit rapport zo veel mogelijk in kaart te brengen, welke inspanningen 

reeds op het vlak van registratie, bewerking en eventueel openbaarmaking van spraak gepleegd zijn binnen het 

Nederlandse taalgebied (Nederland en Vlaanderen). Ook zal worden ingegaan op internationale standaards 

op het gebied van corpora en buitenlandse projecten die voor het CGN een voorbeeldfunctie zouden kunnen 

vervullen. Het doel is m.a.w. tweeledig: inventarisatie van bestaand materiaal en evaluatie van reeds 

gebruikte of nog in ontwikkeling zijnde methoden en technieken. Bronnen worden waar nodig vermeld voor 

verdere referentie. 

3

2 Het Historische Perspectief 

De geschiedenis van de opbouw van gesproken corpora kan ruwweg worden opgedeeld in drie periodes: 

het tijdperk van handmatige verwerking van bandopnames, het decennium van geautomatiseerde studie 

van het signaal, en tenslotte de (belofte van) volledig computergestuurde opname, transcriptie, annotatie 

en ontsluiting van dit moment. Voor het historisch perspectief zal eerst worden ingegaan op een aantal in 

boekvorm verschenen corpora, die niettemin voor hun tijd revolutionair waren, omdat de computer reeds een 

integraal onderdeel van de bewerkingsslag uitmaakte. Uitgebreide studie van het signaal en de transcripties, 

door de samensteller of anderen, was hierbij evenwel niet het uitgangspunt van de verzameling. Opname van 

gesproken taal was slechts een middel om te komen tot betrouwbare frequentietellingen voor het gesproken 

Nederlands met het oog op beter gestructureerd talenonderwijs. 

2.1 Corpora van de Eerste Generatie (-1980) 

In deze periode werd het gesproken signaal opgenomen op analoge audiotapes, waarna de spraak veelal eerst 

met de hand werd getranscribeerd, en daarna overgetypt. Waarschijnlijk zijn uit deze periode een groot 

aantal bandrecorderspoelen en cassettes (indien nog afspeelbaar) met notities en/of transcripties aanwezig 

op het Meertensinstituut in Amsterdam. Het betreft hier echter waarschijnlijk vooral dialectmateriaal. 

Volgens Heikens (1978: 37) zijn hier alleen al in de periode 1960-1975 maar liefst 1500 bandopnames met 

voornamelijk spontane spraak in dialect verzameld. De status van deze banden (zowel qua conditie als 

beschikbaarheid, inclusief mogelijke bewerkingen) is vooralsnog onduidelijk. Systematische analyse van op 

het algemeen spraakgebruik gerichte bestanden vond vooral in het buitenland plaats, zoals het Survey of 

English Usage (SEU), opgezet door Randolph Quirk en zijn medewerkers in 1959. De uiteindelijke versie 

bestaat uit 200 teksten van elk 5000 woorden uit de periode 1953-1987, waarvan de helft gesproken materiaal 

betreft. Allerlei woordkenmerken werden hierbij op kartonnen kaartjes geïllustreerd met getranscribeerde 

uitingen van informanten. 

Het gesproken deel van het SEU (500.000 tokens) werd later computationeel bewerkt tot het London- 

Lund Corpus (LLC) door Jan Svartvik en zijn team. Dit proces van automatisering van oude bestanden 

vond en vindt nog steeds plaats voor een aantal gelijksoortige corpora. Voor het LLC zijn redelijk uitgebreide 

fonologische annotaties voorhanden naast het orthografische niveau, zoals toonhoogte, plaatsing 

van de kernaccenten, twee soorten pauze, twee soorten accent, sprekeridentificatie, gelijktijdig spreken, contextueel 

commentaar en onverstaanbare woorden. Paralinguïstische kenmerken en bepaalde aanvullende 

commentaren over intonatie en accenten zijn niet aangegeven. Ook zijn de geluidsfragmenten (deels?) nog 

bewaard gebleven en opvraagbaar aan het University College London. 

Zoals gezegd waren de inspanningen voor het vastleggen van algemeen gangbaar Nederlands geringer. Uit 

deze periode stammen drie volgens een van tevoren geformuleerde strategie gesamplede en getranscribeerde 

corpora van dit teksttype, te weten het corpus De Vriendt-De Man, het Eindhoven Corpus (Uit den Boogaart 

corpus), en het corpus De Jong. 

2.1.1 Corpus De Vriendt-De Man 

Deze studie had als doel gegevens over frequente woorden en zinsstructuren te verzamelen in de spontane 

Nederlandse (Noord- en Zuid-Nederlandse) spreektaal (De Vriendt-De Man, 1969: 5). Het uitgangspunt 

diende geen zuiver wetenschappelijke interesse: de resultaten moesten bijdragen aan verbeterd Nederlands 

onderwijs aan Franstaligen. De methodologie hiervoor was sterk geënt op het werk van G. Gougenheim et 

al., L’Elaboration du Français Fondamental uit 1964. Zeker voor een uit 1969 stammende dissertatie als deze 

zijn de gegevens over sampling, opname en verwerking zeer volledig. 

Gegevens: 

• Omvang: 

– types: niet vast te stellen (altijd morfosyntactische codes aanwezig). 

– tokens: 117.122 (58.578 N-N, 58.544 Z-N, volgens opgave boek). 

4

– extra info: type-tag combinaties niet vast te stellen door uitsluiten types met F 〈 5. 

• Samenstelling (teksttypes): informele, onvoorbereide of nauwelijks voorbereide dialoog in verschillende 

situationele context (winkel, vriendenbezoek, radiointerview). 465 gespreksonderwerpen (gecodeerd). 

– 29 gesprekken: 

∗ 13 Zuid-Nederlands (eigen opnames Grembergen: 1/3, BRT: 1/6), 

∗ 16 Noord-Nederlands (eigen opnames Noord-Brabant + Zeeuws-Vlaanderen: 1/3, Radio Omroep 

Zuid (Maastricht) 1/6). 

• Sprekergegevens: 117 informanten, 73 man, 44 vrouw. Leeftijd, beroep/sociale status, plaats van 

herkomst en plaats van opname aangegeven. 

• Opnamedatum: ? 

• Opnameduur: ± 20 uur. 

• Annotatieschema: 

– gehanteerde standaard: geen. 

– geclitiseerde en andere niet-standaard vormen 1 : beperkt (’d’r’, ’d’rbij’, ’ie’, maar ’het’ voluit) 

– sprekerwisseling, behandeling overlap: sprekerwisseling: ja, overlap: nee. 

– behandeling bij- en achtergrondgeluiden: nee. 

– gehanteerde interpunctie: ja, orthografische interpretatie. 

• Annotatieniveaus: 

– Orthografisch: alles onderkast, behalve eigennamen en afkortingen, getallen uitgeschreven. Aarzelingen 

aangegeven, pauzes d.m.v. speciale ASCII-karakters. 

– Taalkundig: syntactische tags slechts in afgeleide frequentielijst, niet in lopende tekst. 

• Status privacy informanten: ? 

• Copyright: ? 

• Beschikbaarheid opnames: ? 

– geluidsdrager: analoge audiospoelen. 

– opnametechniek: verborgen microfoon bij eigen opnames (veel achtergrondgeluiden, ook door 

situationele context, professionele apparatuur voor radioopnames BRT en ROZ). 

– signaal-ruisverhouding: 120-6.000 Hz ± 3 dB. 

– elektronische versie: indertijd ingetypt op 13.858 ponskaarten, Université Libre de Bruxelles. 

Onleesbaar? 

– relatie signaal-transcriptie (volledigheid-koppeling): nee. 

1 geclitiseerde vormen zijn twee of meer woorden die zich gedragen als één fonologisch woord, vaak met syllabe-deletie, zoals 

[tIs] voor ’het is’. Verder onderscheid kan gemaakt worden naar functionele eenheden, waarbij het gaat om de combinatie 

van functiewoorden, en de term clitica voorbehouden blijft aan combinaties van lexicale woorden en functiewoorden. Bij 

gereduceerde vormen gaat het om één oorspronkelijk woord, zonder syllabe-deletie, zoals [@m] voor ’hem’. 

5

2.1.2 Eindhoven Corpus (Corpus Uit den Boogaart) 

Dit corpus werd opgesteld om een nauwkeurig idee te krijgen van in Nederland (niet in Vlaanderen) veel 

voorkomend taalgebruik d.m.v. frequentietellingen van woorden. Het onderzoek werd uitgevoerd door de 

Werkgroep Frequentie-Onderzoek van het Nederlands, gesubsidieerd door Z.W.O. (het Nederlandse Fonds 

voor Zuiver Wetenschappelijk Onderzoek, nu het N.W.O.) en de Technische Hogeschool Eindhoven (geschreven 

taal) en het Instituut voor Dialectologie, Volks- en Naamkunde van de Koninklijke Nederlandse 

Academie voor Wetenschappen te Amsterdam (nu: Meertensinstituut) (gesproken taal). Het geschreven deel 

bevat fragmenten van in totaal 600.000 woorden uit de periode 1964-1971. Het gesproken deel is aanzienlijk 

kleiner. Oorspronkelijk in 1975 in boekvorm verschenen als Woordfrequenties: in Geschreven en Gesproken 

Nederlands. 

Gegevens: 

• Omvang: ABN-file: 

– types: 4.041 (minus interpunctie, puur op orthografische string). 

– tokens: 59.941 (minus interpunctie). 

– extra info: 5.009 unieke type-tag combinaties. 

• Omvang: dialectfile: 




• Omvang bronnen gecombineerd: 




• Samenstelling (teksttypes): 26 volledig opgenomen gesprekken (vanwege gebrek aan materiaal), varierend 

van groepsdiscussies, interviews en gesproken brieven (academisch niveau) tot informele dialoog 

(laag opleidingsniveau) (Uit den Boogaart, 1975: 13). 

• Sprekergegevens: 

– 13 gesprekken door ’academici of daarmee gelijk te stellen personen die geacht worden ABN te 

spreken’ (Uit den Boogaart, 1975: 13). 

– 13 gesprekken ’mensen met weinig schoolopleiding uit een aantal plaatsen in Noord- en Zuid- 

Holland’ (Uit den Boogaart, 1975: 13). 

• Participanten: aandeel gespreksleider (van hoger opleidingsniveau) verwijderd bij informele dialoog. 

• Opnamedatum: 1960-1973. 

• Opnameduur: ? 



– geclitiseerde en andere niet-standaard vormen: ja, sporadisch (’ie’, ’effe’, ’gelejen’, ”n’, ’mekaar’, 

’bennen’). 

– sprekerwisseling, behandeling overlap: nee. 


6

– gehanteerde interpunctie: geen, soms onduidelijke interpunctietekens. 


– Orthografisch: alles onderkast, geverticaliseerd voor Esprit-formaat. 

– Taalkundig: morfosyntactische tags (woordsoort en flexievorm). 

• Status privacy informanten: onduidelijk. Besproken personen (anders dan informanten) geanonimiseerd 

met codes ’x[0-2]’en ’y[0-2]’. 

• Copyright: Op verschillende instituten is een versie van het corpus aanwezig; het is onduidelijk of er 

copyright op het corpus rust. Waarschijnlijk is dit niet het geval voor wetenschappelijk gebruik. 


– geluidsdrager: nee. 

– elektronische versie: ja, ASCII computerfiles, kennelijk in verschillende formaten (transcriptie 

met of zonder annotatie) op diverse instituten als Taal & Spraak KUN, Max Planck Instituut 

(CELEX), Systeemhuis TU Eindhoven, Mathematisch Centrum Amsterdam. 

∗ Lopende tekstversie getagged met Uit den Boogaart’s lexicale codes onder de naam ’Eindhoven 

Corpus’, inclusief Jan Renkema’s onderzoek ’De Taal van Den Haag’. 

∗ Vertikaal opgesplitste versie onder de naam ’Esprit Corpus’, inclusief het bestand van Renkema 

en andere corpora, o.a ’De Gelderlander’, getagged met Esprit 860-codes. 

∗ Gesproken Esprit files: 

· dut abn rel1.uni (ABN-file, academisch). 

· dut dia rel1.uni (dialectfile, lager opleidingsniveau). 


2.1.3 Corpus De Jong 

Dit corpus bevat uitsluitend spreektaal en is als een beter gestratificeerd vervolg opgezet van het onderzoek 

naar woordfrequenties in het gesproken Nederlands door Uit den Boogaart (1975). Dezelfde corpusgrootte 

(t.o.v. van het deelcorpus) en dezelfde annotatiewijze zijn gehanteerd om vergelijking eenvoudig te maken. 

Oorspronkelijk in 1979 in boekvorm verschenen als Spreektaal: Woordfrequenties in Gesproken Nederlands. 

• Omvang: 

– types: niet vast te stellen (altijd morfosyntactische codes aanwezig). 

– tokens: 120.000 (volgens opgave boek). 

– extra info: 8.603 unieke type-tag combinaties (nauwelijks verschil met Uit den Boogaart (1975)). 

• Samenstelling (teksttypes): stratificatie naar 4 niet-linguïstische variabelen: gesprekssituatie, geslacht, 

leeftijd en sociaal-economische klasse, volgens Labov (1966), Shuy et al. (1968), en Trudgill (1974): 

16 groepen gelijkelijk verdeeld over de 4 variabelen (7500 woorden per groep). Voor gesprekssituatie: 

formeel (interview over opleiding en beroep) vs. informeel (huiskamergesprek tussen twee informanten 

over vrij onderwerp), beide thuis afgenomen, waardoor veel diversiteit m.b.t. kwaliteit opname, 

aanwezigheid gezinsleden, etc. Door allerlei omstandigheden (kwaliteit opname, leeftijds-, geslachts- of 

klasseverschil bij informele gesprekken) konden slechts iets minder dan de helft van alle 245 opnames 

(in totaal 136 formeel, 109 informeel) gebruikt worden: 59% van de formele (= 80), 34% van de informele 

(= 37). Uit elk 3 steekproeven genomen van 250 woorden (formeel) en 6 steekproeven van 250 

woorden (informeel). Dit omdat 80 formele en slechts 37 informele gesprekken waren gekozen. 

7

• Sprekergegevens: Geografische spreiding: uitsluitend Amsterdam, vanuit praktische overwegingen en 

opvatting dat dit redelijk representatief is voor standaardtaal (De Jong: 1979: 10). Gelijkelijke verdeling 

over geslacht, leeftijd (jong (24-28 jr.) vs. oud (54-58 jr.)) en opleiding en beroep (hoog vs. laag). 

Zo ontstonden 8 groepen van tenminste 10 autochtone Amsterdammers. Uitgebreide vragenlijsten met 

sprekerinformatie (ook over hobbies, eventuele vorige plaatsen van huisvesting, buurtcontacten, vorm 

en duur relatie(s), sociale status ouders en partner, aard en hoeveelheid tot zich genomen informatie 

(kranten, tijdschriften, boeken, radio, TV)) zijn beschikbaar. 


• Opnameduur: ± 25 minuten per formeel gesprek, ± 50 minuten per informeel gesprek (Heikens, 1978: 

36). 



– geclitiseerde en andere niet-standaard vormen: nee, alles genormaliseerd naar standaardvorm 

vanwege vergelijking met schrijftaal. Dus: ’ie’ ≫ ’hij’, ’effe’ ≫ ’even’, ’as, az’ ≫ ’als’, ’da’s’ ≫ 

’dat is’, ’kweenie’ ≫ ’ik weet niet’, etc. Vreemd genoeg bevat Uit den Boogaart wel dit soort 

woorden. Onafgemaakte woorden gecompleteerd. 

– sprekerwisseling, behandeling overlap: ja. 


– gehanteerde interpunctie: geen. 


– Orthografisch: alles onderkast, behalve eigennamen en afkortingen, getallen uitgeschreven. 

– Taalkundig: morfosyntactische tags (woordsoort en flexievorm) volgens Uit den Boogaart (1975). 

• Status privacy informanten: geanonimiseerd voor persoonsnamen: 

– X = voornaam. 

– Y = achternaam. 

– Z = voor- of achternaam. 

– 0 = geslacht onbekend. 

– 1 = geslacht vrouw. 

– 2 = geslacht man. 

• Copyright: Meertensinstituut Amsterdam. 


– geluidsdrager: indertijd audiospoelen op Meertensinstituut. Nu onafspeelbaar? 

– opnametechniek: handmicrofoon en éénsporige Nagra-bandrecorder voor formele gesprekken, omhangmicrofoon 

en tweesporen Uher-bandrecorder voor informele gesprekken (één spoor per gesprekspartner). 

– elektronische versie: indertijd magneetband ongeannoteerde en geannoteerde transcriptie en op 

Meertensinstituut. Onleesbaar? 


8

3 De Eerste Elektronische Gesproken Corpora 

3.1 Corpora van de Tweede Generatie (1980-1990) 

In deze periode begon de computer een integraal onderdeel te worden van het analyseproces. De opnames 

geschiedden vaak nog op analoge audiospoelen of cassettes, maar in de tweede helft van de jaren 80 steeds 

meer op digitale DAT-tapes. Transcriptie gebeurde in eerste instantie regelmatig met de hand, maar zeker in 

een later stadium werden alle orthografische transcripten omgezet naar computerfiles, waarna verdere analyse 

uitgevoerd kon worden met in de jaren 80 steeds meer standaard wordende statistische software zoals SPSS, en 

specifiek op taalkundige analyse toegesneden programmatuur als KWIC-concordanties (KeyWord In Context, 

in feite bekend sinds John W. Ellison’s Nelson’s Complete Concordance of the Revised Standard Version Bible 

uit 1957), de tekstanalyze-programmatuur HUM (Bill Tuthill, Berkeley 1981), TACT (University of Toronto, 

1986-89) en CLAN (zie MacWhinney 1995). 

Belangrijke doorbraken op het gebied van gesproken corpora in deze tijd waren het het gesproken deel (1,3 

miljoen tokens) van het Birmingham University Corpus, in zijn oorspronkelijke, kleinere vorm bekend als het 

COLLINS/COBUILD-corpus, en MARSEC (Machine Readable Spoken English Corpus), dat aanvankelijk 

naar de samenstellers het Lancaster/IBM Spoken English Corpus werd genoemd. Het volledig gesproken 

MARSEC omvat slechts 52.000 tokens (6 uur spraak), maar ondanks de nadruk op geprepareerde en semigeprepareerde 

spraak voor synthesedoeleinden, zijn ook samples spontane spraak aanwezig, zoals een aantal 

colleges en dialogen. Het belangrijkste aspect van dit corpus is echter zijn volledige machine-leesbaarheid, zowel 

voor de transcriptie als annotatie met CLAWS2 woordklasse-tags, een eenvoudige redekundige ontleding 

(skeleton parse), het complete audiosignaal (gesampled op het professionele niveau van 16 kHz), prosodische 

kenmerken (klemtoon, intonatiecontouren), en fonemische transcripties (grotendeels automatisch gegenereerd 

door koppeling aan een uitspraakwoordenboek met inachtneming van de prosodische transcriptie en de grammaticale 

labels). Bovendien werd een (althans op het syllabe-niveau) betrouwbare oplijning tussen signaal 

en transcriptie bereikt d.m.v. matching tussen grafeem-foneem conversie van de orthografische transcriptie 

en de uit de spectraalanalyse eveneens automatisch gegenereerde fonemische transcriptie (Roach & Arnfield, 

1995: 150-155). Daarmee vestigde MARSEC een nieuwe standaard voor gesproken corpora als bron voor 

een grote variëteit aan fundamenteel en toepassingsgericht taalkundig onderzoek. 

Andere belangrijke internationale initiatieven op dit terrein waren de CHILDES-corpora van kindertaal en 

het ESF-corpus van tweede taalverwerving van migranten. Omdat deze ook Nederlandstalige delen bevatten, 

en bovendien in elektronische vorm beschikbaar zijn, meestal zelfs met het oorspronkelijke spraaksignaal, 

worden ze hieronder uitgebreid besproken. 

3.1.1 De CHILDES kindertaal-databank 

CHILDES is een reeks internationale, centraal verzamelde, opgeslagen en voor iedereen toegankelijke corpora 

met orthografisch getranscribeerde data met betrekking tot de eerste en tweede taalverwerving van kinderen. 

De grondslag voor deze collectie werd gelegd door Brian MacWhinney en Catherine Snow aan de Carnegie 

Mellon Universiteit (Pittsburgh), die ook geldt als distributiepunt. Het Max Planck Instituut in Nijmegen is 

een van de lokale distributie- en ondersteuningspunten (mirror sites), evenals het Departement Germaanse 

Filologie van de Universitaire Instelling Antwerpen. Er is in principe geen verschil tussen de volgens een 

filestructuur geordende bestanden in Pittsburgh en op lokale sites, mits natuurlijk de laatste versies van de 

centrale site regelmatig worden overgehaald. 

Transcripties zijn in het gestandaardiseerde CHAT-formaat (Codes for the Human Analysis of Transcripts). 

Dit biedt zowel conventies voor orthografische transcriptie als voor annotatie (verrijking met speech 

act codes, semantische, syntactische, morfologische analyses etc.) Dit gebeurt via horizontaal opgelijnde regels: 

de hoofdregel bevat de orthografische transcriptie, de onderliggende, daaraan verbonden regels de 

annotaties, waarbij elke regel slechts één soort annotatie bevat. CHAT staat dus dynamische uitbreiding van 

het aantal ’tiers’ toe naar de wensen van de gebruikers, en is daarmee flexibel genoeg om ook andere data 

dan CHILDES te coderen. Vanwege de parallelle tiers is het ook mogelijk om te transcriberen op een aantal 

niveaus, zoals genormaliseerd orthografisch (volgens de officiële spelling), orthografische transliteratie (b.v. 

’hebde’ of ’hedde’ in plaats van ’hebt ge’, ’heeft-ie’ in plaats van ’heeft hij’) en fonetische transcriptie. Zo is 

9

er minder noodzaak om te kiezen voor een vaak slecht hanteerbaar en nog slechter bevraagbaar compromis. 

Voorbeeld (uit JACqueline van Kampen’s corpus van het meisje LAUra; %exp is de verklarende tier, %par 

de paralinguïstische): 

∗LAU: eh bah. 

%exp: LAU wants to go to the kitchen 

∗JAC: nee we blijven in de kamer, we doen de deur niet open. 

%par: LAU protests 

∗JAC: nee want dan wordt het veel te koud in de kamer. 

∗JAC: als het straks zomer is, dan doen we alles open. 

%par: LAU cries 

∗LAU: ik keuke. 

∗LAU: ik keuke. 

Hoewel goed uitbreidbaar in verticale richting, heeft de horizontale oplijning op het (op zich al slecht definieerbare) 

uitingenniveau wel zijn beperkingen. Edwards (1992: 459) signaleert bijvoorbeeld, dat de reikwijdte 

van een bepaalde situationele context (een dependent tier bij een uiting) niet geheel duidelijk is; een herhaling 

van b.v. het non-verbale label laughing kan zowel duiden op de voortzetting van het gelach als op een nieuwe 

handeling. Regelmatig zullen dergelijke niet-verbale en niet-vocale handelingen ook helemaal niet afhankelijk 

zijn van verbale uitingen. Verder is er, zoals hieronder zal blijken, veel aan te merken op onderlinge verschillen 

in het aantal weergegeven tiers, en in de weergave en classificatie van bepaalde verschijnselen, zoals de 

mate van orthografische standaardisering van gesproken woorden en niet-verbale gebeurtenissen als gelach. 

Is dit laatste bijvoorbeeld een paralinguïstisch fenomeen, een handeling (activiteit), iets voor commentaar, 

uitleg of situationele context? Maakt het onderdeel uit van de uiting binnen dezelfde tier, of hoort het thuis 

op een aparte, afhankelijke tier? 

CLAN (Computerized Language Analysis) is de softwaresuite, die op basis van de CHAT-gecodeerde 

corpora snel zoekacties kan ondersteunen en kwantitatieve gegevens af kan leiden, zoals frequentietellingen. 

Ook CLAN is niet per definitie gebonden aan het CHILDES-corpus. 

Er is een CED-editor voorhanden om het coderen van de diverse tiers te vergemakkelijken, en links te 

kunnen leggen naar de oorspronkelijke audio- of videotapes. 

De laatste versies van de CHILDES databank en de CLAN programmatuur kunnen worden overgehaald 

per anonymous ftp vanaf de site poppy.psy.cmu.edu 

Een uitgebreide beschrijving van de transcriptiecodes, beschikbare programmatuur en corpora wordt 

gegeven in MacWhinney (1995). 

Het Nederlandstalige deel van CHILDES omvat momenteel 5 volledig gecodeerde bestanden m.b.t. monolinguale 

eerste taalverwerving, en 1 geannoteerd Nederlands-Engels bilinguaal corpus. Deze zullen hieronder 

afzonderlijk worden behandeld. Deze lijst kan uiteraard slechts een tijdsopname zijn; mogelijk worden er op 

dit moment reeds bestanden aan CHILDES toegevoegd die relevant zijn voor deze studie. 

Gegevens: 

Directory tree ’gillis’: Steven Gillis’ longitudinale studie van de Vlaamse jongen Maarten, afdeling Germaanse 

taalkunde, Universiteit Antwerpen. Slechts de laatste 13 files van deze studie zijn aanwezig; de eerste 

65 (!) moeten nog worden omgezet naar CHAT-formaat. 

• Omvang: 

– types: 2.390. 

– tokens: 50.964. 

• Samenstelling (teksttypes): informele dialoog. 

• Sprekergegevens: Maarten, 0;11 jr. tot 1;11 jr. en volwassene, meestal zijn moeder. 

10


• Opnameduur: 104 uur. 


– gehanteerde standaard: CHAT. 

– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’da’s’, ’hebde’, 

’moetet’). 

– sprekerwisseling, behandeling overlap: in speciale orthografische codes. 

– behandeling bij- en achtergrondgeluiden: commentaar tier. 

– gehanteerde interpunctie: orthografische interpretatie. 

• Annotatieniveaus: orthografie, situationele context, fonetiek (PHONASCII). Hiernaast codering (gesynchroniseerd) 

non-verbaal gedrag. 


• Copyright: Steven Gillis. 


– geluidsdrager: videotapes. 

– opnametechniek: ? 

– signaal-ruisverhouding: ? 

– elektronische versie: ja, orthografische transcriptie plus annotaties. 


Directory tree ’laura’: Jacqueline van Kampen’s longitudinale studie van het Nederlandse meisje Laura, 

Faculteit der Letteren, Universiteit Utrecht. Deze directory heet nu ’vankampen’, in overeenstemming met 

de naam van de onderzoeker. 

• Omvang: 

– types: 1.524. 

– tokens: 19.983. 


• Sprekergegevens: Laura, 1;9 jr. tot 5;10 jr. en volwassene (moeder, J. van Kampen zelf). 


• Opnameduur: 3.600 uur. 



– geclitiseerde en andere niet-standaard vormen: nee. 

– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap nee. 

– behandeling bij- en achtergrondgeluiden: paralinguïstische tier. 


• Annotatieniveaus: orthografie, commentaar, verklaring, paralinguïstische tier. 

11


• Copyright: Jacqueline van Kampen. 


– geluidsdrager: audiospoelen. 

– opnametechniek: Prefer OCC/1121 microfoon, Nakamichi 350 recorder. 




Directory tree ’schaer’: A.M. Schaerlaekens’ studie van 2 Vlaamse (?) drielingen, steeds twee jongens en 

één meisje. Katholieke Universiteit Leuven (Schaerlaekens 1973). 

• Omvang: 

– types: 1.695. 

– tokens: 35.185. 



– ene tweeling: 1;10 jr. tot 3;1 jr. 

– andere tweeling: 1;6 jr. tot 2;10 jr. 

– (in beide gevallen spraak volwassen gesprekspartner niet weergegeven). 





– geclitiseerde en andere niet-standaard vormen: ja, zie %tra tier. 

– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap nee. 



• Annotatieniveaus: orthografie, morphosyntax (taalkundig, redekundig, congruentie (%agr)), orthografische 

transliteratie (%tra) i.p.v. fonetische tier (b.v.’%tra an peelgoed ale’ voor ’Arnold speelgoed 

halen’). 




– geluidsdrager: audiospoelen (nu onbruikbaar). 

– opnametechniek: draadloze microfoons (nu irrelevant). 



12


Directory tree ’utrecht’: Loekie Elbers’ en Frank Wijnen’s longitudinale studie van Nederlandse jongens 

Thomas en Hein, Universiteit Utrecht. 

• Omvang: 

– types: 3.901 (Hein), 3.575 (Thomas). 

– tokens: 107.704 (Hein), 95.912 (Thomas). 


• Sprekergegevens: beide van 2;3 jr. tot 3;1 jr., en volwassene (moeder). 





– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’ie’, ’d’r’, ”t’). 

– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap in CHAT-codes 

[]. 



• Annotatieniveaus: orthografie, handelingen, geadresseerde, alternatieve orthografische transcriptie, 

commentaar, Engelse vertaling, versprekingen, verklaring, gebaren en proxemische activiteit, aarzelingen, 

morfosyntax (alleen taalkundig), paralinguïstische tier, fonetiek (incl. interrupties, non-fluencies, 

intonatiecontour, amplitude, reparaties), situatie, speech acts (herhaling en imitatie). 


• Copyright: Loekie Elbers en Frank Wijnen. 


– geluidsdrager: ? 





Directory tree ’wijnen’: Frank Wijnen’s longitudinale studie van Nederlandse jongen Niek, Universiteit 

Utrecht. 

• Omvang: 

– types: 3.732. 

– tokens: 81.527. 


• Sprekergegevens: Niek, van 2;7 jr. tot 3;10 jr. en volwassene (vader, Frank Wijnen zelf). 

13


• Opnameduur: 31 uur, waarvan 23 uur getranscribeerd. 



– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’ie’, ’d’r’, ’(he)t’ 

i.p.v. ”t’). 

– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap in CHAT-codes 

[]. 



• Annotatieniveaus: orthografie, handelingen, geadresseerde, alternatieve orthografische transcriptie, 

commentaar, versprekingen, verklaring, gebaren en proxemische activiteit, aarzelingen, paralinguïstische 

tier, fonetiek (incl. interrupties, non-fluencies, intonatiecontour, amplitude, reparaties), situatie, 

speech acts (imitatie). 


• Copyright: Frank Wijnen. 







Directory tree ’dehouwer’: longitudinale bilinguale studie van het Vlaamse meisje Kate (Engels-Nederlands) 

door Annick De Houwer, Universiteit Antwerpen. 

• Omvang: 

– types: 3.562 

– tokens: 47.832 


• Sprekergegevens: Kate, van 2;7 jr. tot 3;4 jr., plus onderzoeker(s), moeder en (soms) vader. 





– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’wa’s’, ’da’s’, ”t’, 

”n’). 

– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap: nee. 

– behandeling bij- en achtergrondgeluiden: commentaar tier. 

14


• Annotatieniveaus: orthografie, morfosyntax (taalkundig en redekundig, incl. info woordvolgorde en 

ellipsis), versprekingen, aarzelingen, herhalingen, interrupties, non-fluencies, reparaties, handelingen, 

verklaring, situatie, commentaar, fonologie (beperkt). 

• Status privacy informanten: geanonimiseerd. 

• Copyright: Annick De Houwer. 


– geluidsdrager: audiocassette. 

– opnametechniek: draagbare cassetterecorder met ingebouwde multi-directionele microfoon. 




Daarnaast bevinden zich in het CHILDES-archief op Carnegie Mellon University nog de volledig ongedocumenteerde 

’clpf’-data, van kennelijk 12 kinderen uit de jaren 1988-1991, met in totaal 2.722 types, 37.140 

tokens. 

Verder is er een bestand ’groning’, volledig ongedocumenteerd, van kennelijk 7 kinderen uit de jaren 

1992-1995. De namen van de codeurs zijn Gerard Bol, Caroline Elskamp, Puck Goossens, Evelien Krikhaar, 

Paulien Rijkhoek, Frank Wijnen. In totaal 19.990 types, 977.797 tokens. 

3.1.2 De ESF migrantentaal-databank 

Dit corpus heet voluit de European Science Foundation Second Language Databank (ESFSLD), een elektronisch 

archief van longitudinale studies naar de tweede taalverwerving van een aantal volwassen immigranten 

uit 6 landen (zie: Feldweg 1992). Voor elk van de 6 moedertalen (brontalen, nl. Punjabi, Italiaans, Turks, 

Arabisch, Spaans en Fins), werden twee groepen geselecteerd, die elk dezelfde tweede taal (de doeltaal, nl. 

Engels, Duits, Nederlands, Frans of Zweeds) in hun nieuwe land moesten leren. De studie startte in 1982, 

en werd in 1987 voltooid. Zo werden een aantal Spanjaarden gevolgd, die ofwel Frans ofwel Zweeds moesten 

leren. Verder werd het Zweeds ook als doeltaal vastgesteld voor een groep Finse migranten, evenals het 

Frans voor Arabische sprekers. 

Dit maakte het mogelijk om zowel verschillen en overeenkomsten te meten tussen het leren van twee doeltalen 

door groepen van dezelfde nationaliteit, als het leren van één doeltaal door groepen van verschillende 

nationaliteit. In totaal werden 40 allochtone werknemers geselecteerd, wier conversatie met native speakers 

van de doeltaal op de band werd vastgelegd en later getranscribeerd volgens een centraal vastgesteld protocol. 

Alle migranten werden maandelijks geïnterviewd over een periode van 2,5 jaar. Daarnaast werd een controlegroep 

van in totaal 24 migranten aan het begin, in het midden en tegen het einde van de opnameperiode 

geïnterviewd ter vergelijking met de hoofdgroepen. Voor het Nederlands werden twee groepen participanten 

vastgesteld: één met moedertaal Turks, en één met moedertaal Arabisch. Dit deel van het onderzoek werd 

geleid door Guus Extra van de Katholieke Universiteit Brabant. De centrale cordinatie was in handen van 

het Max Planck Instituut voor Psycholinguïstiek in Nijmegen. 

Aangezien zelfs van de participanten die de hele periode konden worden gevolgd niet alle data orthografisch 

konden worden getranscribeerd, in de computer ingevoerd, tweemaal gecontroleerd etc, is van 39 

participanten orthografische transcriptie voorhanden (27 over de complete opnameperiode) en slechts van 8 

van de controlegroep. 

Een grote variëteit aan activiteiten werd vastgelegd: socio-biografische conversatie (soort intake-gesprek), 

rollenspel, plaatjesbeschrijving, filmbeschrijving, routebeschrijving, zelf-confrontatie (commentaar op bekijken 

eigen handelen), etc. 

Op het Max Planck Instituut zijn inmiddels alle data met doeltalen Engels, Duits en Nederlands omgezet 

naar het voor CHILDES ontwikkelde CHAT-formaat. Tevens worden de audiotapes, DAT-kopieën van de 

15

originele analoge opnames, voor zover voorhanden gelinkt met de orthografische transcriptie. De oorspronkelijke 

48 kHz samplefrequentie wordt hierbij teruggebracht tot 16 kHz voor opslag in audiofileformaat. Voor 

de Duitse data is de fonetische transcriptie-’tier’ omgezet naar een orthografisch formaat compatibel met de 

transcripten van de andere doeltalen. Hetzelfde pad zal gevolgd worden voor het Frans en het Zweeds. Het 

gehele project zal nog een aantal jaren in beslag nemen. 

Voor dit doel is de CED (Childes EDitor) van Carnegie Mellon University op het MPI omgezet naar 

een UNIX-versie geïntegreerd met de superieure audio bewerkings- en weergavefaciliteiten van het XWaves 

programma. Een implementatie in Tcl/Tk geeft de mogelijkheid van platform-onafhankelijke toegang op 

besturingssystemen als Macintosh, Windows95 en Windows NT. Deze versie staat bekend als de MEDeditor. 

Op dit moment zijn de naar CHAT-formaat omgezette ESF-files te benaderen voor interne medewerkers 

van het MPI onder URL: 

http://www.mpi.nl/world/data/esf archive/html/ 

Hiervoor moet de gebruiker beschikken over een voor geluidsweergave toegeruste computer, en toegang 

tot de XWaves en MED software, die als ’helper applications’ vanuit de WWW-pagina’s moeten worden 

opgestart. 

Gegevens: 

• Omvang: steeds migrant plus onderzoeker, soms tolk, minus header-meta-informatie: 

– Abdeslam, Arabisch, controlegroep 

∗ types: 1.069 

∗ tokens: 14.673 

– El Mofadel, Arabisch, controlegroep 

∗ types: 1.153 

∗ tokens: 12.849 

– El Yazid, Arabisch, controlegroep 

∗ types: 893 

∗ tokens: 10.957 

– Zeyneb, Arabisch, controlegroep 

∗ types: 797 

∗ tokens: 6.513 

– Fatima, Arabisch, longitudinale groep 

∗ types: 3.403 

∗ tokens: 76.700 

– Hassan, Arabisch, longitudinale groep 

∗ types: 4.220 

∗ tokens: 109.491 

– Hassan M, Arabisch, longitudinale groep 

∗ types: 5.135 

∗ tokens: 115.526 

– Mohammed, Arabisch, longitudinale groep 

16

∗ types: 4.031 

∗ tokens: 106.374 

– Erdal, Turks, controlegroep 

∗ types: 913 

∗ tokens: 10.923 

– Haydar, Turks, controlegroep 

∗ types: 1.123 

∗ tokens: 9.680 

– Hikmet Ulusoy, Turks, controlegroep 

∗ types: 1.404 

∗ tokens: 14.719 

– Miyese, Turks, controlegroep 

∗ types: 795 

∗ tokens: 7.069 

– Abdullah, Turks, longitudinale groep 

∗ types: 3.710 

∗ tokens: 85.411 

– Ergün(?), Turks, longitudinale groep 

∗ types: 4.145 

∗ tokens: 119.881 

– Mahmut, Turks, longitudinale groep 

∗ types: 3.855 

∗ tokens: 107.870 

– Osman, Turks, longitudinale groep 

∗ types: 3.673 

∗ tokens: 97.508 

• Samenstelling (teksttypes): gestuurde dialoog tussen informant en onderzoeker(s) t.b.v. testen taalvaardigheid. 

• Sprekergegevens: uitgebreide informatie over leeftijd, geslacht, geboorte- en woonplaats, opleiding, 

beroep, religie, burgerlijke staat, mate en wijze van blootstelling aan L2, veranderingen hierin over 

opnameperiode. Dit in files met extensie *.bio. 

• Opnamedatum: 1981-1986 (2,5 jaar per participant). Van elk gesprek is opnamedatum voorhanden in 

*.prt files (protocol). 

• Opnameduur: van elk gesprek is gedetailleerde opnameduur voorhanden in *.prt files (protocol). 


– gehanteerde standaard: platte ASCII-files, eigen ESF-transcriptiestandaard (lijkt enigszins op 

tiers in CHILDes). 

– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’ie’, ’um’ (voor 

’hem’), ’ut’ (voor ’het’), ’istie’). 

17

– sprekerwisseling, behandeling overlap: ja, in orthografische code. 

– behandeling bij- en achtergrondgeluiden: commentaar. 

– gehanteerde interpunctie: orthografische interpretatie (voor vraagzin), verder geen interpunctie. 

• Annotatieniveaus: ruwe orthografische transcriptie met header met meta-informatie, sense units, andere 

taal, pauze, commentaar, technisch en situationeel commentaar. Geen fonetische tier, alleen voor 

in Duitsland gecodeerde data. 


• Copyright: Max Planck Instituut Nijmegen (contract). 

• Beschikbaarheid opnames: ja. 

– geluidsdrager: op audiocassettes van soms slechte kwaliteit (veroudering). Momenteel digitalisatie 

op MPI vanaf DAT-kopieën. 



– elektronische versie: ja, orthografische transcriptie plus annotaties. Later ook gedigitaliseerd 

spraaksignaal. Dit gebeurt in het met het XWaves compatibele *.sd-fileformaat 

– relatie signaal-transcriptie (volledigheid-koppeling): ja, time alignment wordt momenteel geïmplementeerd. 

3.1.3 Nederlandse dialoogcorpora 

Corpora verzameld door Gisela Redeker, nu verbonden aan de Universiteit van Groningen, rond het 

onderzoeksthema spontane spraakproduktie in tv-programma’s (zie: Redeker (1992) en Linssen-Maes & 

Redeker (1992)). 

• Omvang: 

– types: ? 

– tokens: ? 

• Samenstelling (teksttypes): 34 Nederlandse televisieuitzendingen (nieuws- en discussieprogramma’s, 

talkshows) w.o. het Capitool, Stellingname (beide video), het Journalistenforum (audio). Dit is dus 

het corpus, waarvan gewag wordt gemaakt op de WWW-sites van de STDH 

(http://candl.let.ruu.nl/STDH/4corponz.dir/1corpora.dir/vua.html), aangevuld met audiomateriaal 

(zonder de visuele component). 

• Sprekergegevens: opnamegegevens in WP5.1 bestand in bezit Redeker. 




– gehanteerde standaard: ? 

– geclitiseerde en andere niet-standaard vormen: ? 

– sprekerwisseling, behandeling overlap: ja (gedeeltelijk, nl. niet te complexe interrupties). 

– behandeling bij- en achtergrondgeluiden: ? 

– gehanteerde interpunctie: ? 

• Annotatieniveaus: ruwe orthografische transcriptie, discourse markers (segmentatiesignalen) gecodeerd 

in deelcorpus van ± 2 uur. 

18

• Status privacy informanten: schijnbaar irrelevant, aangezien alle opnames reeds publieke uitzendingen 

betreffen. Toch kunnen er problemen rijzen, aangezien zo mogelijk gegevens moeten worden verworven 

over leeftijd, opleidingsniveau, afkomst, etc. Ook openbare sprekers kunnen dan een beroep doen op 

wet op de privacy voor dergelijke gegevens (Van de Velde, 1996: 22). Hetzelfde aspect speelde ook 

samenstelling van het BNC (zie sectie 4.3.4) aanvankelijk parten. 


• Beschikbaarheid opnames: ja, maar kwaliteit na 10 jaar onzeker (wellicht geen fonetische analyse 

mogelijk). 

– geluidsdrager: videotapes en hiervan gekopieerde audiotapes. Ook oorspronkelijke audiotapes bij 

radio-opname. 



– elektronische versie: ? 

– relatie signaal-transcriptie (volledigheid-koppeling): ? 

Onderzoek naar mogelijke verschillen in interruptiegedrag tussen de beide seksen d.m.v. formele discussies 

over het thema ’basisvorming’ door Gisela Redeker en Anny Maes. Zie Redeker & Maes (1996). 

• Omvang: 

– types: ? 

– tokens: ? 

• Samenstelling (teksttypes): formele discussies over het thema ’basisvorming’. 

• Sprekergegevens: 5 mannen en 5 vrouwen (2 groepen, verdeeld over 8 discussies). Leeftijd: 44 tot 50 

jaar. Sociale status: academisch niveau, leidinggevende of adviserende posities. 




– gehanteerde standaard: codering overlappende spraak volgens: Roger, D.B., P.E. Bull & S. Smith 

(1988) ’The Development of a Comprehensive System for Classifying Interruptions’. In: Journal 

of Language and Social Psychology 7, 27-34. 


– sprekerwisseling, behandeling overlap: ja, zie boven. 


– gehanteerde interpunctie: orthografische interpretatie? 

• Annotatieniveaus: orthografie (gedeeltelijk), 2373 interrupties volgens Roger et al. (1988). 

• Status privacy informanten: toestemming moet gevraagd worden voor gebruik door derden. 

• Copyright: G. Redeker. 

• Beschikbaarheid opnames: ja, bij G. Redeker. 


– opnametechniek: ? Opname thuis, niet in studio. 

19




Onderzoek door Sandra Timan, taalbeheersing VU, naar man-vrouw onderhandelingen. 

• Omvang: 

– types: ? 

– tokens: ? 

• Samenstelling (teksttypes): man-vrouw onderhandelingen. 

• Sprekergegevens: cursisten onderhandelingsstrategieën bedrijfsleven. 




– gehanteerde standaard: VRM-codering volgens Stiles (1993), codering overlappende spraak volgens: 

Roger, D.B., P.E. Bull and S. Smith (1988). 


– sprekerwisseling, behandeling overlap: ja, zie boven. 



• Annotatieniveaus: orthografie, VRM-codering, overlappende spraak, aangebracht door Noortje Feije. 



• Beschikbaarheid opnames: ja, bij Gisela Redeker, Universiteit Groningen. 






Het Van der Wijst Onderhandelingscorpus, opgebouwd door Per van der Wijst, indertijd verbonden aan 

de KUB in Tilburg. 

• Omvang: ± 56.000 uitingen (voor het onderzoek vastgestelde eenheid). 

– types: niet geteld. 

– tokens: niet geteld. 

• Samenstelling (teksttypes): 28 gesimuleerde telefonische onderhandelingsgesprekken tussen ervaren 

onderhandelaars; gemodificeerde vorm van het ’Kelley game’. 

20

• Sprekergegevens: 56 sprekers. Er zijn enquêtegegevens (o.m. oordelen over zichzelf en de gesprekspartner) 

van de deelnemende onderhandelaars beschikbaar. Ook extra-linguïstische variabelen zoals 

leeftijd, opleiding, geslacht e.d. zijn geregistreerd. 




– gehanteerde standaard: VRM-codering volgens Stiles (1993). Voor een selectie van uitingen zijn 

ook beleefdheidsstrategieën gecodeerd. 

– geclitiseerde en andere niet-standaard vormen: ja. 

– sprekerwisseling, behandeling overlap: ja, aangegeven in Macintosh-transcript, traceerbaar in 

DOS-transcript. 

– behandeling bij- en achtergrondgeluiden: indien storend, aangegeven tussen [ ]’s. 


• Annotatieniveaus: orthografie, uitingen codes in termen van Verbal Response Modes (zie onderzoek). 

• Status privacy informanten: geanonimiseerd in transcript, niet op de band. 

• Copyright: Per van der Wijst. Er zijn al anderen geweest die ermee gewerkt hebben. 

• Beschikbaarheid opnames: ja, bij Per van der Wijst aan de Université de Liège. 

– geluidsdrager: DAT-tapes en analoge kopieën op audiocassette. 

– opnametechniek: gesprekspartners (steeds 2) op gescheiden sporen. 


– elektronische versie: ja, orthografie in syncWRITER, een Macintosh-partituur programma, daarnaast 

in WP-formaat op DOS. 


Onderzoek naar actualiteiten- en talkshow-interviews t.b.v. scriptie Taalbeheersing van Frank Kuijpers, 

verbonden aan de VU Amsterdam. 

• Omvang: 

– types: ? 

– tokens: ? 

• Samenstelling (teksttypes): 18 interviews, uitgezonden op de Nederlandse televisie. 


• Opnamedatum: voorjaar 1994. 

• Opnameduur: ruim 3 uur. 


– gehanteerde standaard: VRM-codering volgens Stiles (1993). 


– sprekerwisseling, behandeling overlap: ? 


21


• Annotatieniveaus: orthografie, VRM-codering. 

• Status privacy informanten: openbaar. Dit geldt echter niet voor alle gewenste biografische informatie 

(Van de Velde, 1996: 22). 


• Beschikbaarheid opnames: ? Videobanden gearchiveerd met onderzoeksgegevens en enquêtegegevens 

beschikbaar met kijkersoordelen. 

– geluidsdrager: videotapes. 





Communicatieanalyse van diverse gesprekssituaties, door Harrie Mazeland, verbonden aan Rijksuniversiteit 

Groningen (persoonlijke communicatie). 

• Omvang: 

– types: ? 

– tokens: ? 

• Samenstelling (teksttypes): meer en minder formele en informele dialogen. Enerzijds niet-gestandaardiseerde 

sociaal-wetenschappelijke onderzoeksvraaggesprekken, anderzijds veelsoortig materiaal (arts/patient-consults, 

discussies, debatten, vergaderingen, informele telefoongesprekken). 

• Sprekergegevens: ? 


• Opnameduur: 4 uur (sociale onderzoeksvraaggesprekken), 4 uur of meer andersoortig materiaal. 


– gehanteerde standaard: c.a.-transcriptie (?) 





• Annotatieniveaus: c.a.-transcriptie (?), steeds voor de eerste 15 à 20 minuten van het gesprek (niet 

volledig). 

• Status privacy informanten: moet nog (volgens afspraak) geanonimiseerd worden. 

• Copyright: Harrie Mazeland. 


– geluidsdrager: audiotapes. 



– elektronische versie: ja, in WP5.1-formaat. 


22

3.2 Andere Gesproken Datacollecties 

Naast de bovengenoemde corpora zijn er ook collecties van gesproken data, meestal radio- en TV-uitzendingen, 

die niet aangelegd zijn vanuit onderzoeksdoeleinden, maar om zoveel mogelijk audiovisueel materiaal 

te archiveren voor het nageslacht. Volgens de strikte definitie van het EAGLES-consortium (zie sectie 4.1) 

zijn dit dus geen gesproken corpora. De hier bedoelde media worden in eerste instantie gebruikt voor het 

aankleden van radio- en TV-uitzendingen met historische opnames, en daarnaast ook voor commerciële 

exploitatie, b.v. verzamel CDs en documentaire video’s. Verder speelt het door de overheid gestimuleerde 

en gesubsidieerde aspect van behoud van het nationale culturele erfgoed een belangrijke rol. 

Tot deze categorie behoort het Historisch Archief van het Audiovisueel Archiefcentrum (AVAC) van 

het Nederlandse Omroepproductie Bedrijf (NOB). Dit is slechts toegankelijk voor buitenstaanders tegen 

commerciële tarieven en betaling van auteursrecht. De uitzendingen zijn gearchiveerd op volspoor magnetische 

audiospoelen (éénzijdig bespeeld, 19 cm/sec). Alle bestanden zijn opgenomen in een geautomatiseerde 

databank, waarbinnen eenvoudig op trefwoord, spreker en opnamedatum gezocht kan worden. 

Daarnaast is er het Audiovisueel Archief (AVA) van de Stichting Film en Wetenschap (SFW) in Amsterdam. 

Dit is gemakkelijker (en goedkoper) toegankelijk, maar helaas alleen via een ongeautomatiseerd 

kaartsysteem (trefwoord, spreker, opnamedatum). Opnames zijn beschikbaar op tweezijdige audiospoelen 

met een opnamesnelheid van 9,5 cm/sec. De kwaliteit is hiermee minder dan die bij het AVAC. Wel wordt 

sinds 1994 gearchiveerd op DAT-tapes. 

De Vlaamse pendant hiervan is het Archief Gesproken Woord van de Belgische Radio en Televisie - Nederlandse 

Uitzendingen (BRTN). Dit is veel kleiner dan de Nederlandse archieven, en nog niet geheel overgezet 

op magneetband. Een summier kaartsysteem (trefwoord, spreker en opnamedatum) vergemakkelijkt het 

zoeken enigszins, hoewel er plannen zijn de databank te automatiseren (Van de Velde, 1996: 65-68). 

Voorgelezen spraak van goede kwaliteit bevindt zich op een aantal Blindenbibliotheken in Nederland, 

zoals Le Sage ten Broek in Nijmegen. Op 5 van dergelijke locaties is materiaal van ongeveer 700 sprekers 

voorhanden. 

4 Recente Ontwikkelingen: Gesproken Corpora en Standaardisatie 

4.1 Corpora van de Derde Generatie (1990-) 

Het is pas in het meest recente stadium dat gesproken corpora werkelijk op effectieve wijze ontsloten kunnen 

worden dankzij geïntegreerde computerfaciliteiten voor de opslag en bevraging van geluidsfragmenten 

in samenhang met de transcripties en documentatie. Hierom kunnen alleen recente corpora voldoen aan 

de technisch gesproken tamelijk strikte definitie die de EAGLES-werkgroep hanteert, en zijn veel eerdere 

verzamelingen gesproken taal, tenzij in een later stadium grondig geautomatiseerd en bewerkt, in feite niet 

meer dan geluidsarchieven, zoals die bij talrijke omroepen zijn opgeslagen: 

[A] spoken language corpus is “any collection of speech recordings which is accessible in computer 

readable form and which comes with annotation and documantation sufficient to allow re-use of 

the data in-house, or by scientists in other organisations.” (Gibbon et al., 1997: 79) 2 

Een belangrijk verschil met eerdere corpora is de overgang naar van vooral tekstgebaseerde ontsluiting 

(waarbij eerst gezocht wordt naar een bepaald deel van de transcriptie, en dan de bijbehorende signaalfile 

wordt afgespeeld) naar een centrale rol voor de in het gesproken medium essentiële tijdsdimensie. Deze 

ontbreekt geheel bij geschreven tekst, tenzij verschillende versies van dezelfde tekst naast elkaar bestaan. 

Computers bieden nu de mogelijkheid, om alle transcripties en annotaties afhankelijk te maken van deze 

tijdschaal, zonder overigens directe toegang tot of loskoppeling van de afgeleide tekstfiles onmogelijk te 

maken. 

In dit stadium wordt het geluidssignaal geheel digitaal opgenomen en verwerkt met een sampling frequentie 

van 16-20 kHz (8 kHz bij telefoonopnames), met 16-bits A/D-conversie, waarbij geen kwaliteitsverlies 

van het opgenomen signaal hoeft op te treden. Registratie vindt bij voorkeur plaats op DAT-tapes, met 

23

standaard sampling rate van 48 kHz en 16 bits resolutie per sample. DCC-tapes en MiniDisk leiden door 

gegevenscompressie t.b.v. van efficiënte opslag tot datareductie, en zijn daarom niet geschikt voor gedetailleerde 

analyse van de weergave. Bovendien levert conservering van deze media later problemen op, omdat de 

weergaveapparatuur gebruik maakt van speciale algoritmes om het oorspronkelijke signaal zo goed mogelijk 

te reconstrueren (Van de Velde, 1996: 62). 

Archivering vindt plaats op de originele DAT-tapes, CD-Recordable (eenmaal beschrijfbaar), CD-Re- 

Writable (meermaals beschrijfbaar) of audiofiles op de harde schijf van een computer. Dat kan in verschillende 

fileformaten, zoals wav- of sd-formaat (b.v. in samenhang met de XWaves geluidsweergave en 

-bewerkingssoftware), dan wel A-law (gebruikelijk in Europa) of µ-law (gebruikelijk in de USA). Meer permanente 

opslag kan gebeuren op slechts éénmaal beschrijfbare media zoals CD-ROM of een WORM-CD 

(Write Once Read Many). In de toekomst zal DVD (Digitale Video Disk) wellicht als standaard gaan 

gelden. Deze staat voor opname op 2 kanalen een sampling rate van 192 kHz toe, met 24-bits resolutie. 

Voor het CGN-project zouden 10 miljoen woorden spraak neerkomen op een opnameduur van 930 uur 

bruikbaar materiaal. Aangezien rekening gehouden moet worden met reserve-opnamecapaciteit, en het 

wegediten van ruis en onverstaanbare passages, mag men rekenen op 2000 90M DAT-tapes, waarvan dus 

1/3 e effectief benut wordt. Het geluidssignaal alleen neemt bij een samplefrequentie van 16 kHz (32.000 

byte/sec) 112 GB diskruimte in beslag, dus 172 CD-ROMs of 8 DVDs. Bij een samplefrequentie van 20 kHz 

(40.000 byte/sec) komt het neer op 134 GB diskruimte, oftewel 207 CD-ROMs/9 DVDs. 

4.2 De Opkomst van Internationale Standaards 

Het belang van standaards wordt in deze tijd van vele internationale projecten en universeel toegankelijke 

tekstbestanden op het World Wide Web steeds meer erkend. Aansluiting bij bepaalde expliciet geformuleerde 

normen, dan wel het navolgen van een succesvol gebleken project (’best practice’, waarbij conformering aan 

de standaard minder expliciet is) heeft een aantal voordelen. Zo zullen corpora eerder opnieuw gebruikt 

worden binnen andere projecten, wordt contrastief onderzoek tussen verschillende corpora op verschillende 

annotatieniveaus werkbaar, kunnen lexica en corpora eenvoudiger worden uitgebreid of samengevoegd, en 

heeft het schrijven van complexe annotatie- en exploitatietools meer zin, aangezien zij voor meerdere bestanden 

inzetbaar zijn (Bouma & Schuurman, 1998: 16, Leech et al., 1995: 5). Ook moet in het grotere 

perspectief gedacht worden aan de mogelijkheid van gedistribueerde opzet van corpora met behulp van tools 

die onderling eenvoudig kunnen worden uitgewisseld, of zelfs in een virtuele programmeeromgeving voor 

projectpartners op fysiek gescheiden locaties inzetbaar zijn. Aangezien taaltechnologische projecten vrijwel 

zonder uitzondering kostbare ondernemingen zijn, kan gesteld worden dat uniformiteit zelfs geboden 

is, aangezien in het andere geval vrijwel zonder uitzondering sprake zal zijn van substantiële kapitaals- en 

kennisvernietiging. 

4.2.1 SGML 

SGML (Standard Generalized Markup Language) is een internationale standaard (ISO 8879: 1986) voor 

het eenduidig beschrijven van de documentstructuur, met het oog op gemakkelijke uitwisselbaarheid tussen 

diverse (computer)systemen en druk- of presentatieformaten. Het schrijft dus geen lay-out voor, alleen een 

structuur waarop de lay-out zich moet baseren. Het beschrijft dus teksten niet met een ’procedural markup’, 

zoals in een WP of MS-Word document, maar met een ’descriptive’ of ’generic markup’, die de (logische) 

documentstructuur weergeeft, niet de stijl of de verschijningsvorm. Toepassingen strekken zich dan ook 

tegenwoordig uit boven het leggen van de grondslag voor latere presentatie. 

SGML werkt met in ASCII (algemeen computerleesbare tekst) gespecificeerde begin- en eindlabels 

(’tags’), die op verschillende niveaus tekstdelen kunnen markeren. Aangezien veel documenten tegenwoordig 

vaak in elektronische èn boekvorm verschijnen, is een gestandaardiseerde weergave van de onderscheiden 

tekstdelen onontbeerlijk geworden. 

Naast de onafhankelijkheid van specifieke besturings-, applicatie- en afdruksystemen, heeft SGML ook 

als belangrijke voordelen dat veel van de tags gebaseerd kunnen zijn op de inhoud van de tekst in plaats 

van de weergave (b.v. 〈author〉, 〈figure〉, 〈date〉, 〈quote〉), hetgeen het zeer geschikt maakt voor archivering 

en document retrieval op grond van aldus afgebakende tekst, dat gebruikers hun eigen Document Type 

Definition (DTD) kunnen specificeren met hun eigen tags, en dat er pointers mogelijk zijn naar andere 

24

tekstdelen of documenten, zodat delen van een document afzonderlijk kunnen worden opgesteld, en pas 

later samengebracht. Zo kan een document ook in zijn uiteindelijke vorm in feite een compositum zijn van 

fragmenten op diverse locaties (hypertext). 

Omdat documenten uiteindelijk toch leesbaar moeten zijn in wat voor vorm dan ook, is een aparte 

standaard ontwikkeld voor de weergave van de van tags voorziene tekstdelen in verschillende applicaties, 

zoals bold, italic en typewriter. Deze richtlijnen voor style sheets zijn vervat in DSSSL (Document Style 

Semantics and Specification Language). 

Editors die het nogal technische en ondoorzichtige opstellen van DTDs en SGML-documenten vergemakkelijken 

zijn FrameMaker van Adobe, Author/Editor van Interleaf (vroeger: SoftQuad), Multidoc Pro 

Publisher van het Finse bedrijf Citec en ADEPT, het complete editing- en document managementsysteem 

van ArborText. 

Het bekijken, bevragen en afdrukken van documenten kan worden ondersteund door FrameViewer (Adobe), 

Panorama (Interleaf/SoftQuad) en Multidoc Pro Browser (Citec). 

4.2.2 XML 

Momenteel vindt een op basis van SGML ontwikkeld tekstmarkeringsformalisme opgang, met name voor 

gebruik op het World Wide Web (ter vervanging van het nu te beperkte HTML). Dit staat bekend onder de 

term XML (eXtensible Markup Language). Het is in feite een subset van SGML, met een iets restrictiever 

gedefinieerde DTD-standaard (Goldfarb & Prescod, 1998: 265-275). XML is dan ook geheel compatibel met 

SGML. De bedoeling is complete conformering aan de ISO-norm, inclusief mogelijkheden tot uitbreiding 

(vandaar extensible) met eigen tags, weergave hiërarchische structuren en goede validatietechnieken. 

Voor de steeds toenemende vervlechting van tekst met multimediale data, zoals afbeeldingen, audiofragmenten 

en video, is een andere uitbreiding van SGML ontwikkeld met de naam HyTime (Hypermedia/Timebased 

Structuring Language). Deze is vastgelegd als een aparte standaard voor gestructureerde opslag en 

retrieval van met hyperlinks gerelateerde multimedia en tijd-gebaseerde systemen (audio, beeld, video, muziek), 

nl. ISO 10744: 1992. 

Net als in SGML en HTML, is het mogelijk om XML-conformante tekstbestanden te verbinden met 

externe, non-XML objecten via hyperlinks, zoals plaatjes, audio en video. Deze worden ongeparseerde 

entiteiten genoemd. Voor elke non-XML entiteit is er een notatie die aangeeft om welk data-object of 

fileformaat het gaat, b.v. Waveform of A-law (Goldfarb & Prescod, 1998: 39). De standaard hiervoor is 

gebaseerd op HyTime, en draagt de naam XLink (Extensible Linking Language) 3 . Deze werkt met de 

concepten XPointer (voor het link mechanisme) en URI’s (Uniform Resource Identifier, een uitbreiding van 

de URLs uit de HTML-standaard) voor het identificeren van de verbonden bestanden (Goldfarb & Prescod, 

1998: 499-515). 

Een extra mogelijkheid binnen XLink is extended linking, zeg maar meervoudige hyperlinks tussen documenten, 

zodat niet alleen 1-1 relaties kunnen worden gelegd zoals in HTML, maar 1-N, b.v. tussen een 

woord en alle documenten waarin het voorkomt. Ook zijn XLinks bidirectioneel, en dus in feite n-directioneel 

(N-N), zodat er gemakkelijk heen en weer gescrolled kan worden tussen parallelle versies van dezelfde tekst; 

wanneer men van ankerpunt A 1 in tekst 1 springt naar ankerpunt A 2 in tekst 2, kan men ofwel via dezelfde 

link terug, ofwel in tekst 2 verder scrollen en dan van ankerpunt B 2 weer naar het overeenkomende ankerpunt 

B 1 in tekst 1. Dit zou van groot belang kunnen zijn bij het editen maar ook later bevragen van transcriptieen 

annotatiefiles voor het CGN (Goldfarb & Prescod, 1998: 177-188). 

Een andere uitbreiding is het maken van annotaties (b.v. commentaar, maar ook lijsten met ’related 

sites’) bij Webdocumenten, waar men zelf geen update privilege voor heeft. Deze worden dan via hyperlinks 

verbonden met de brontekst, en zijn zichtbaar voor iedereen die met de tekst werkt, zonder dat ze er 

onlosmakelijk deel van uitmaken. In termen van het CGN-project zou een dergelijk mechanisme nuttig 

kunnen zijn voor het leveren van commentaar, b.v. op twijfelachtige of foutieve transcripties, zonder dat de 

oorspronkelijke tekst wordt aangetast. Aangezien de standaard voor dit mechanisme nog in ontwikkeling is, 

is hier een voorbeeld van hoe een dergelijke annotatie eruit zou kunnen zien: 

3 In feite is er meer dan één inspiratiebron. Xlink is direct gebaseerd op de extended pointer syntax van het TEI; de beide 

redacteuren van TEI, Burnard en Sperberg-McQueen, hadden dan ook zitting in het comité dat de XML-specificaties opgesteld 

heeft. 

25

Niet-verbale vocale klanken zijn hier ten onrechte orthografisch 

getranscribeerd! 

 

Wanneer men een stap verder denkt, dan komt men al gauw op het gebruik van XML, in combinatie 

met object-georiënteerde programmeertalen als Java en C++, voor het creëren van middleware, een integratielaag, 

waarbij allerlei gerelateerde documenten, databases en multimedia kunnen worden aangeroepen 

vanuit een interface, die van alle applicatie-specifieke codes abstraheert tot één gemeenschappelijk datamodel. 

Zo kunnen woordgegevens uit heel divers geïmplementeerde lexicale databanken (platte ASCII-files 

met delimiters, relationele databanken, gehyperlinkte Webdocumenten, etc.) worden gebruikt om teksten 

grammaticaal te verrijken, zolang maar duidelijk is hoe bepaalde velden in de bronnen te mappen zijn op de 

(in dit geval door het TEI aanbevolen) elementen 〈entry〉 en 〈pos〉 (part of speech). 

Voor deze applicatie-interfaces (API’s) zijn verschillende modellen ontwikkeld, zoals CORBA (Common 

Object Request Broker Architecture) en DCOM (Distributed Component Object Model). Om de ene applicatietaal 

of DTD-versie naar een andere te vertalen (immers, elk bedrijf kan zijn eigen DTD hanteren) 

is dan nog een IDL (Interface Definition Language) nodig. Zo heeft het bedrijf webMethods b.v. een voor 

het Web geschikte IDL ontwikkeld onder de naam WIDL, die gebruik maakt van XML als tussentaal. Voor 

concrete voorbeelden zie de secties 4.2.4 en 6 over de resource-onafhankelijke NLP-architecturen MATE en 

GATE. 

Daarnaast is er voor XML een variant van de SGML-style sheet DSSSL ontwikkeld onder de naam XSL 

(Extensible Style Language). Deze draagt ook elementen in zich van de HTML-extensie Cascading Style 

Sheets, en maakt daarmee deze overbodig. 

XML maakt voor de karakterrepresentatie gebruik van de nieuwe Unicode-standaard (ISO/IEC 10646-1: 

1993). Deze code heeft met zijn 16 bits lengte één byte meer tot zijn beschikking dan 7- of 8-bits ASCII 

en kan daarmee alle schrijfsystemen weergeven, inclusief Chinese ideogrammen, hiërogliefen en Arabische 

karakters. Van belang voor het CGN-project is, dat er in Unicode 2.0 ook een IPA-set is gedefinieerd voor 

fonetische symbolen. Zie de URL: 

http://www.unicode.org/ 

Editors die het nogal technische en ondoorzichtige opstellen van DTDs en XML-documenten vergemakkelijken 

zijn FrameMaker+SGML van Adobe en XMetaL van SoftQuad. Verder zijn er complete editing- en 

document managementsystemen verkrijgbaar, zoals ADEPT, Astoria en POET Content Management Suite 

van resp. ArborText, Chrystal Software (een onderdeel van Xerox) en POET Software. Deze bieden zoveel 

functionaliteit op het gebied van het editen, bekijken, bewerken, opslaan, bevragen en verplaatsen van 

document-componenten, dat het nuttig is voor het CGN de inzet van dergelijke pakketten te onderzoeken. 

Er zijn trouwens ook steeds meer freeware editors en viewers voorhanden. 

Op het meer prozaïsche vlak van integratie van XML-documenten binnen bestaande Webbrowsers – vooral 

van belang voor de alledaagse end-user – zal Netscape de functionaliteit van XML inbouwen in Communicator 

5.0 onder de applicatienaam Aurora. Microsoft’s Internet Explorer 4.0 laat validatie toe van 

XML-documenten d.m.v. een parser, maar de viewer vertaalt nog XML naar HTML. Internet Explorer 5 

daarentegen biedt reeds volledige ondersteuning van het XML document object model (1.0). 

Zeer veel informatie over SGML en XML, evenals veel gratis software (editors, parsers) is tenslotte te vinden 

op de Websites van het officiële World Wide Web Consortium (W3C): 

http://www.w3.org 

en eveneens bij de zeer fanatieke software-ontwikkelaars James Clark: 

http://www.jclark.com 

26

en Patrice Bonhomme: 

http://www.loria.fr/˜bonhomme/xml.html 

Als meer recente ontwikkeling is er bij W3C nu een standaard in de maak, die allerlei eerdere hypertext 

standaards en aanbevelingen integreert voor de bouw van multimediale databases. Deze staat bekend onder 

de naam SMIL (Synchronized Multimedia Integration Language). Deze beoogt: 

• Beschrijving van de precieze tijdgebaseerde structuur van de multimedia-applicatie. 

• Beschrijving van de precieze verschijningsvorm van de applicatie op het scherm. 

• Het verbinden van hyperlinks aan mediaobjecten. 

Informatie over deze standaard in wording is het vinden onder URL: 

http://www.w3.org/TR/REC-smil 

Hierbij moet evenwel worden aangetekend, dat de linguïsten Bird en Liberman in hun paper tot de (omzichtige) 

conclusie komen, dat de toekomst van SMIL onzeker is, en SMIL sowieso ongeschikt lijkt voor 

linguïstische annotatie (1999: 28). Dit zou betekenen, dat de gedetailleerde synchronisatie van de datastroom 

met een aantal tiers die CGN wenst binnen SMIL niet mogelijk is, slechts een grove specificatie van 

objecten die tegelijkertijd moeten worden vertoond. 

Een ander teken van convergentie op dit gebied is de evolutie van standaards die gespecificeerd worden 

door de internationale ISO/IEC MPEG-werkgroep (Moving Pictures Experts Group). Dit team omvat 

deelnemers uit de wereld van de omroepen, hardware- en softwarefabrikanten, telecombedrijven, uitgevers 

en academische onderzoeksinstellingen. Aanvankelijk beperkte de MPEG-groep zich tot het formuleren 

van standaards voor beelden geluidscompressie, -distributie en -decodering, inmiddels hebben zij zich ook 

toegelegd op de integrale beschrijving van natuurlijke en synthetische (door computer gegenereerde) beelden 

geluidsobjecten. De DDL (Description Definition Language), waarin de diverse mediaobjecten en hun 

onderlinge relaties zijn vastgelegd, is gebaseerd op het bovengenoemde XML-protocol. 

In het bewuste, laatste voorstel, MPEG-7, houdt men zich bezig met de definitie van een Multimedia 

content description interface. Hierin zijn temporele en spatiële referenties, die nodig zijn voor een vloeiende, 

zelfs real-time gebaseerde synchronisatie van beeld, geluid, tekst en andere multimedia geformaliseerd. Het 

sluit hiervoor aan bij het Real-Time Protocol (RTP). De relatie met XML impliceert dat de geïntegreerde 

data of de te associëren data niet op een fysiek locatie of systeem aanwezig hoeven te zijn, maar ook in een 

gedistribueerde omgeving. 

De specificaties strekken zich uit tot het integreren van annotatielagen bij het beeld of geluid, zoals al dan 

niet automatisch genereerde transcripties, ondertiteling, geluidssporen, gebarentaal en achtergrondinformatie 

in diverse talen. MPEG-7 specificeert evenwel niet de methoden van informatie-extractie of retrieval, slechts 

de syntax waarin de objecten worden beschreven, hun relaties en een aantal min of meer standaardobjecten en 

-schemata (vergelijkbaar m.a.w. met de SGML- en TEI-standaards). Het uiteindelijke doel is multimediale 

databases op een uniforme manier toegankelijk te maken voor Internet-zoekmachines, op eenzelfde manier 

als tekstuele dataverzamelingen momenteel ontsloten kunnen worden d.m.v. tekstgebaseerde zoekvragen 

en (sommige) meta-indexen. Een voorlopige versie van de standaard is gepland voor december 1999, een 

definitieve versie voor juli 2001. 

Het MPEG-initiatief overlapt gedeeltelijk met de W3C-activiteiten, maar gaat ook een stap verder, daar 

W3C op dit terrein momenteel (mei 1999) minder actief lijkt te zijn (zie hierboven onder SMIL). In die zin 

mag wellicht meer verwacht worden van de MPEG-standaards dan SMIL en dergelijke. 

Informatie over deze standaard in wording is het vinden onder URL: 

http://www.cselt.it/mpeg/ (of: http://drogo.cselt.stet.it/mpeg/) 

27

Het moge duidelijk zijn, dat bij een project als het CGN, waarbij ook sprake is van multimediale data, 

en mogelijk verschillende wijzen van weergave en publicatie, het in ieder geval noodzakelijk is aansluiting 

bij internationale standaards als SGML, XML en MPEG te overwegen. Bovendien is het een hoopgevende 

ontwikkeling, dat er steeds meer dwarsverbanden aan te wijzen zijn tussen de diverse normalisatie-instituten. 

Zo heeft W3C zich niet alleen in februari 1998 gecomitteerd aan de XML-standaard, maar wil het TEI (zie 

sectie 4.2.2) zijn codeerschema volledig gaan aanpassen aan XML. Dit hangt evenwel af van aanvullende 

financiering voor het TEI, die op dit moment nog hoogst onzeker is (E-mails C M Sperberg-McQueen, TEI- 

List, 10-2-98; LINGUIST List 9.1404, 9-10-1998). Het is uiteraard wel zaak een onderscheid te kunnen 

maken tussen de wezenlijke, breed gedragen initiatieven op dit vlak, en minder gestructureerde zijpaadjes 

en doodlopende steegjes. 

4.2.3 TEI 

Het Text Encoding Initiative is een internationaal consortium van wetenschappers, dat als doel heeft nadere 

specificaties van de SGML-code op te stellen voor het markeren van de structuur van bepaalde teksttypen, 

zoals gesproken teksten, woordenboeken en gedichten. Het doet vooral aanbevelingen voor codering t.b.v. 

de uitwisselbaarheid van teksten, maar omvat ook regels voor het samenvoegen van tekst met beeld en 

geluid in multimediale applicaties. De codeerschema’s beperken zich niet tot het weergeven van teksten in 

de oorspronkelijke vorm, die meestal als doel had de leesbaarheid en expressiviteit te ondersteunen, maar 

dienen ook voor het verrijken van de tekst met annotaties met het oog op onderzoek, zoals vertalingen van en 

glossen bij passages, voetnoten, pointers (hyperlinks) naar gerelateerde fragmenten, verschillende, parallelle 

versies van dezelfde tekst en grammaticale analyse. 

De aanbevelingen, Guidelines, werden in 1994 gepubliceerd na 6 jaar research, die gesponsord werd door 

een groot aantal internationale publieke instanties. 

Bij de TEI heeft ieder teksttype heeft zijn eigen DTD (Document Type Definition), die gezien kan worden 

als een sterk aanbevolen, doch meestal niet verplicht opgelegde grammatica, waaraan de voor presentatie of 

publicatie aangeleverde teksten moeten voldoen. 

Elke tekst heeft bovendien een eigen ’header’, die informatie geeft over de bijbehorende tekst. Deze omvat 

bibliografische informatie, zoals je die kunt aantreffen op de titelpagina van een boek, aanduidingen van de 

manier waarop de elektronische tekst conventies van de brontekst weergeeft (encoding), het tekstprofiel 

(aanmaakdatum, gebruikte taal, genre) en revisie-informatie (bij verschillende versies). 

Omdat de volledige reeks elementen, attributen en regels zich uitstrekt tot enige honderden codes, die 

gedocumenteerd zijn in 1300 pagina’s (sic) Guidelines, is er een subset gedefinieerd onder de naam TEI Lite, 

die de algemene labels voor alle teksttypen omvat. TEI Lite wordt nu toegepast als minimale codeerset bij 

het Oxford Text Archive en de Elektronische Tekstcentra van de Universiteiten van Virginia en Michigan. 

Voor het CGN-project zijn vooral de ’tags’ van belang voor gesproken corpora. Een beschrijving hiervan 

is te vinden in Sperberg-McQueen & Burnard (1994: 297-320). De basis-tagset voor spraak, die in dit 

hoofdstuk wordt voorgesteld, is samen met de ’core’ set en alle andere tekst-specifieke sets (m.a.w. de 

volledige DTD) kant-en-klaar op te halen op de ftp-site van het TEI onder URL: 

Middels een eenvoudige declaratie: 

ftp://ota.ox.ac.uk/pub/ota/TEI/dtd/p3dtds.tar.gz 

〈!ENTITY % TEI.spoken ’INCLUDE’ 〉 

kan hij worden opgenomen in de transcriptiefiles. Daarnaast zijn alle standaard-elementen van de ’core’ set 

voor alle teksttypes binnen de basiscodes automatisch toepasbaar, zoals 〈s〉 voor ’zinseenheid’. 

Op een hoger niveau bevatten de TEI Guidelines ook mechanismen om tekstverzamelingen te coderen, 

die uit zeer divers bronmateriaal bestaan, maar niettemin een eenheid vormen. Dit geldt bijvoorbeeld voor 

anthologieën, maar zeker ook voor corpora voor linguïstisch onderzoek zoals het CGN. Deze zijn beschreven in 

Sperberg-McQueen & Burnard (1994: 643-664). Een voorbeeld van een dergelijke ’composite text’ voorzien 

van TEI-tags is het volgende. Er is een algemene teiHeader-file met globale, onveranderlijke informatie over 

28

de complete tekstverzameling; daaronder in de hiërarchie bevinden zich individuele teiHeaders voor elke 

tekst die de verschillen tussen de teksten tot uitdrukking brengen: 

 

... 

 

 

 

... 

... 

 

 

... 

... 

 

 

 

De extra tag-set voor taalcorpora kan evenals de spoken base set worden aangeroepen vanuit de tekstfile, 

zowel vanuit de overkoepelende file van een tekstverzameling als vanuit de afzonderlijke teksten of samples. 

Het is in feite een extensie van het standaard-element 〈profileDesc〉. 

〈!ENTITY % TEI.corpus ’INCLUDE’ 〉 

Een context-vrije grammatica van alle voordefinieerde elementen die in het bijzonder van belang zijn voor 

spraak (samengesteld uit de ’spoken’, en ’corpus’ base sets en relevante delen van de teiHeader) is de volgende: 

29

teiHeader (= addtional header file for corpora, either for full corpus or individual texts) 

::= any(〈textDesc〉 〈particDesc〉 (= participants) 〈settingDesc〉 〈fileDesc〉 

〈encodingDesc〉) 

textDesc ::= any(〈channel ’mode’〉 〈constitution ’type 1 ’〉 〈derivation ’type 2 ’〉 

〈domain ’type 3 ’〉 〈factuality ’type 4 ’〉 

〈interaction any(’type 5 ’ ’active’ (participants) ’passive’ (participants)) 

〈preparedness ’type 6 ’〉 〈purpose any(’type 7 ’ ’degree’)〉 

mode ::= ’s’(poken) | ’w’(ritten) | ’sw’ (= spoken to be written) | ’ws’ (= written to be spoken) | 

’m’(’ixed’) | ’x’ (= ’unknown’) 

type 1 ::= ’single’ | ’composite’ | ’frags’ | ’unknown’ 

type 2 ::= ’original’ | ’revision’ | ’translation’ | ’abridgment’ | ’plariarism’ | ’traditional’ 

type 3 ::= ’art’ | ’domestic’ | ’religious’ | ’business’ | ’education’ | ’govt’ | ’public’ 

type 4 ::= ’fiction’ | ’fact’ | ’mixed’ | ’inapplicable’ 

type 5 ::= ’none’ | ’partial’ | ’complete’ | ’inapplicable’ 

active ::= ’singular’ | ’plural’ | ’corporate’ | ’unknown’ 

passive ::= ’self’ (e.g. audio diary) | ’single’ | ’many’ | ’group’ | ’world’ 

type 6 ::= ’none’ | ’scripted’ | ’formulaic’ | ’revised’ 

type 7 ::= ’persuade’ | ’express’ | ’inform’ | ’entertain’ 

degree ::= ’high’ | ’medium’ | ’low’ | ’unknown’ 

particDesc ::= any((〈person〉 | 〈personGrp〉) 〈particLinks〉) 

person ::= DemoInfo 

personGrp ::= any(DemoInfo ’size’) 

DemoInfo ::= any(’role’ ’sex’ ’age’ 〈birth ’date’〉 〈firstLang〉 〈langKnown〉 〈residence〉 

〈education〉 〈affilation〉 〈occupation any(’scheme’ ’code’)〉 

〈socecStatus any(’scheme’ ’code’)〉) 

sex ::= ’m’ | ’f’ | ’u’ 

particLinks ::= any(〈relation ’type 8 ’ ’desc’ ’active’ ’passive’ ’mutual’)〉 

type 8 ::= ’social’ | ’personal’ | ’other’ 

mutual ::= ’y’ | ’n’ 

settingDesc ::= any(〈setting ’who’〉 〈name ’type 9 ’〉 〈date ’value 1 ’〉 〈time ’value 2 ’〉 〈locale〉 

〈activity〉) 

fileDesc ::= any(〈scriptStmt〉 〈recordingStmt〉 〈recording ’type 9 ’ ’dur’〉 

〈equipment〉 〈broadcast〉) 

type 9 ::= ’audio’ | ’video’ 

encodingDesc ::= any(〈projectDesc〉 〈samplingDecl〉 〈editorialDecl〉 〈tagsDecl〉 〈refsDecl〉 

〈classDecl〉 〈fsdDecl〉 (= feature system) 〈variantEncoding〉) 

30

SpokenText ::= 〈div any(’type 1 ’ ’org’ ’sample’ ’part’)〉 

type 1 ::= ’sound fragment’ | ’discussion’ | ’interview’ | ’...’ 

org ::= ’composite’ (= unclear sequence) | ’uniform’ (= logical unit with clear sequence) 

sample ::= ’initial’ | ’medial’ | ’final’ | ’unknown’ | ’complete’ 

part ::= ’y’ | ’n’ | ’i’(nitial) | ’m’(edial) | ’f’(inal) (i.e. whether division is fragmented or not) 

div ::= many(〈u(tterance) any(’who’ ’trans’(ition) ’timed’)〉 〈pause any(’who’ (’type 2 ’ | 

’dur’(ation)) ’timed’)〉 

〈vocal(ized, non-lexical event) any(’who’ ’desc’ ’iterated’ ’timed’)〉 

〈kinesic(= non-vocalized, communicative event) any(’who’ ’desc’ ’iterated’ ’timed’)〉 

〈event(= non-communicative event) any(’who’ ’desc’ ’iterated’ ’timed’)〉 

〈writing(= writing shown while speaking) any(’who’ ’gradual’ (= is writing revealed 

gradually?) 

’type 3 ’ ’timed’)〉 〈shift any(’feature’ ’new’)〉 EditChg SynchPoint) 

trans ::= ’smooth’ | ’latching’ | ’overlap’ | ’pause’ 

type 2 ::= ’short’ | ’medium’ | ’long’ 

dur ::= [123456789]+ 

iterated ::= ’y’ | ’n’ | ’u’(nknown) 

gradual ::= ’y’ | ’n’ | ’u’(nknown) 

type 3 ::= ’subtitle’ | ’noticeboard’ | ’slide’ | ’...’ 

timed ::= ’start’ | ’end’ | ’dur’ 

feature 4 ::= ’tempo’ | ’loud’ | ’pitch’ | ’tension’ | ’rhythm’ | ’voice’ 

tempo ::= ’a’ | ’aa’ | ’acc’ | ’l’ | ’ll’ | ’rall’ 

loud ::= ’f’ | ’ff’ | ’cresc’ | ’p’ | ’pp’ | ’dimin’ 

pitch ::= ’high’ | ’low’ | ’wide’ | ’narrow’ | ’asc’ | ’desc’ | ’monot’ | ’scand’ 

tension ::= ’sl’ | ’lax’ | ’ten’ | ’pr’ | ’st’ | ’leg’ 

rhythm ::= ’rh’ | ’arrh’ | ’spr’ | ’spf’ | ’glr’ | ’glf’ 

voice ::= ’whisp’ | ’breath’ | ’husk’ | ’creak’ | ’fals’ | ’reson’ | ’giggle’ | ’laugh’ | ’trem’ | ’sob’ | 

’yawn’ | ’sigh’ 

EditChg ::= any(〈sic (incorrect/inaccurate text) any(’corr’ ’resp’(onsible editor) 

’cert’(certainty))〉 〈corr any(’sic’(original form) ’resp’ ’cert’)〉 

〈reg(ularization) any(’orig’ ’resp’)〉 〈orig any(’reg’ ’resp’)〉 

〈gap any(’desc’ ’reason’ ’extent’ ’resp’)〉 〈unclear any(’reason’ ’resp’)〉 

〈del any(’type’ ’status’ ’resp’ ’hand’ ’cert’)〉 〈...〉) 

SynchPoint ::= 〈anchor any(’id’ ’synch’)〉 | 〈timeLine ’unit’〉 

timeLine ::= many(〈when any(’id’ ’absolute’ ’interval’ ’since’) 〉) 

Een voorbeeld van een gesproken fragment, waarin een aantal van deze codes is toegepast, is het volgende: 

you never take this cat for show\&sp;and\&sp;tell 

meow meow 

yeah well I dont want to 

 

 

because it is so old 

how about your\&stress; cat 

yours is new \&stress; 

 

thats darling 

no mine\&stress; isnt old 

mine is just um a little dirty 

Verder is in uitgebreide mogelijkheden voorzien voor synchronisatie van de transcriptie van overlappende 

spraak. Dat varieert van het simpele attribuut ’trans’ met waarde ’overlap’, via 〈anchor〉-elementen op 

31

epaalde plaatsen in de tekst tot precieze tijdsaanduidingen met het 〈timeLine〉-element. Deze elementen 

en attributen kunnen op talloze manieren worden toegepast. Aspecten van dit onderdeel van de TEI DTD 

zijn beschreven in Sperberg-McQueen & Burnard (1994: 313-317, 393-440). 

Het attribuut 〈trans〉 (overgang) is zeer eenvoudig toepasbaar, maar ook zeer onnauwkeurig (transcriptie 

uit het Speech Styles corpus, spreker id 12, door mij voorzien van TEI-tags): 

ik denk dat ut wel kan ik weet dat 

ut net . 

de twee minuten of zo . haalt ja 

ja ja 

ja ik wil wel verder gaan maar . 

Hierbij wordt het niet duidelijk op welk moment het ’ja ja’ overlapt met het commentaar van de interviewer. 

Dat gaat een stuk nauwkeuriger met behulp van het 〈anchor〉-mechanisme: 


ut net . 

de twee minuten of zo 

. 

haalt ja 

ja ja ja ik wil wel verder 

gaan maar . 

In dit geval is het duidelijk dat het ’ja ja’ samenvalt met de frase ’zo uh’ (de aarzeling) van de interviewer. 

Deze soort van synchronisatie is echter nog steeds geheel op de transcriptie gebaseerd, en zegt niets over de 

tijdsrelatie, m.a.w. hoe de fragmenten zich tot elkaar verhouden in het akoestisch signaal. Een methode die 

het TEI hiervoor aanreikt is het element 〈timeLine〉, hier met centi-seconden als tijdseenheid: 

 

 

 

 


ut net . 


. 

haalt ja 

ja ja ja ik wil wel 

verder gaan maar . 

Wat hier echter altijd nog ontbreekt is een daadwerkelijke link tussen de transcriptie en het oorspronkelijke 

signaal, aangezien iemand die de bovenstaande overlapping wil bestuderen op zoek moet gaan naar de tape 

of de audiofile en deze moet aftasten tot het gewenste moment is bereikt. Hiervoor kan een op het HyTimeprotocol 

gebaseerd link mechanisme dienen, dat gebruik maakt van extended pointers m.b.v. het element 

〈xptr〉: 

 

 


ut net . 


. 

haalt ja 

ja ja ja ik wil wel 

verder gaan maar . 

32

De extra tag-set die dergelijke linking met andere files en media beregelt kan worden aangeroepen vanuit de 

documentfile met het commando: 

〈!ENTITY % TEI.linking ’INCLUDE’ 〉 

Een nadeel van de TEI-conventies is dat het slechts aanbevelingen zijn. Aan de ene kant wordt de codeur 

hierbij vrijgelaten om zijn eigen definities te hanteren, of de tagset uit te breiden, aan de andere kant betekent 

dit dat volgens de Guidelines b.v. de inhoud van het 〈vocal〉-element ook als gewone tekst kan worden 

beschouwd (b.v. de aarzeling ’uh’), dat i.p.v. &stress voor ’emfatische klemtoon’ ook 〈emph〉 gebruikt 

zou kunnen worden, dat het 〈trans〉-element ook vervangen kan worden door gedetailleerde synchronisatiesymbolen, 

dat voorgelezen spraak ook zou kunnen vallen onder de 〈writing〉-tag, of zelfs het 〈event〉 ’reading’, 

etc. Hiermee worden wel erg veel opties opengelaten. 

Het verdient daarom aanbeveling om bij het gebruik van de TEI-richtlijnen een gedetailleerd codeerprotocol 

op te stellen, en niet te vertrouwen op de eenduidigheid van de TEI-codes. Dit protocol kan het best 

geïmplementeerd worden in een interactieve editor, zodat de codeur meteen gewezen wordt op niet toegestane 

labels, en labels die in een verkeerde context (d.w.z. niet in de juiste hiërarchische relatie tot andere 

labels) worden gebruikt. Ook zal hij zo steeds alleen die codes uit het menu kunnen kiezen, die relevant 

zijn voor de bepaalde editing context. Dit werkt beter dan controle achteraf. Een ander groot nadeel is de 

gedetailleerdheid van de aangeboden codes. Dit blijkt al uit de formulering door het consortium zelf van de 

TEI Lite set. Dit aspect wordt ook onderkend door de EAGLES-werkgroep: 

An annotation system such as that proposed by the Text Encoding Initiative is very elaborate and 

makes heavy demands on a transcriber, but also makes it possible to derive all relevant information 

from a transcription. While the TEI system makes use of SGML, which guarantees that existing 

software can be used, there is a large initial learning curve for the transcriber, which multiplies 

the possibility of human error in the transcription (Gibbon et al., 1997: 168). 

Daarom is het verstandig, om bij de grote hoeveelheid van elementen en attributen een onderverdeling te 

maken naar relevantie: 

verplicht code moet in elke transcriptie van opname of sample van opname aanwezig zijn. 

aanbevolen code aangeven als het praktisch uitvoerbaar is. Wanneer dat niet gaat, dan is een opmerking 

hierover verplicht. Deze codes zouden in een later stadium, indien er extra tijd of geld overschiet, 

alsnog moeten worden aangebracht. 

optioneel code alleen aangeven als dit uitvoerbaar is. Het weglaten is niet zo belangrijk dat hierover een 

notitie gemaakt moet worden. 

Deze strategie komt overeen met het protocol van het SPEECHDAT-project (Gibbon et al., 1997: 825- 

834). 

Om juist het probleem van de zeer algemene toepasbaarheid van de TEI-aanbevelingen aan te pakken 

(waardoor de set aan de ene kant te uitgebreid is, en aan de andere kant niet specifiek genoeg voor bepaalde 

teksttypes), hebben onderzoekers die reeds werkzaam waren in de EAGLES-groep, het TEI, het Europese 

Multext-project en de afdeling Computer Science van Vassar College, USA (Nancy Ide c.s.) gezamenlijke 

stappen ondernomen om een minimale set regels op te stellen voor de structuur en annotatie van elektronische 

tekstcorpora voor taalkundig onderzoek. Dit staat bekend onder de naam Corpus Encoding Standard (CES). 

De aanbevelingen van de CES omvatten in aanzet zowel geschreven als gesproken corpora, en hebben ook 

betrekking op taalkundige annotatie met morfosyntactische codes, oplijning van parallelteksten, fonetische 

transcriptie, etc. De bedoeling is dat de voorstellen terugvloeien naar het TEI. De CES voorziet in verschillende, 

gescheiden niveaus van markering, waarvan het basisniveau (dat de tekststructuur weergeeft) de 

uitwisselbaarheid van de teksten tussen verschillende platforms en applicaties moet garanderen. Dit noemt 

de CES de primaire data, i.t.t. de taalkundige verrijking, die als supplementair wordt gezien. Volgens de 

Website van de CES: 

33

http://www.cs.vassar.edu/CES/ 

zijn momenteel evenwel alleen richtlijnen voorhanden voor krantenteksten. 

Ondanks het in velerlei opzicht nog schetsmatige karakter van de richtlijnen, is CES reeds toegepast in 

de Europese projecten Multext, Multext-East (Oost-Europa), PAROLE en TELRI. In de USA is onlangs 

besloten dit als standaard te gebruiken voor de TIPSTER-tekstcorpora. Een hernieuwde financiering moet 

de geconstateerde hiaten in teksttypen opvullen, en eveneens de conversie van CES naar XML mogelijk 

maken (Nancy Ide, persoonlijke communicatie). 

4.2.4 EAGLES 

EAGLES (Expert Advisory Group on Language Engineering Standards) is een Europese adviesgroep die 

standaards definieert voor de opbouw en codering van tekstcorpora, computationele lexica en spraakcorpora, 

voor manipulatie en bewerking van deze bestanden met programmatuur, en voor het benaderen en evalueren 

van deze bestanden. 

Anders dan bij de hierboven genoemde, officieel vastgelegde internationale ISO-standaards, gaat het bij 

EAGLES net als bij het TEI niet om dwingend opgelegde criteria, maar eerder om volgens een breed forum 

van wetenschappers zeer nuttig geachte aanbevelingen. Immers, 

(...) spoken language technology is still a relatively young area and thus the so-called standards 

that are discussed here represent only the first rung of the ladder towards the more formal standards 

which might emerge at a later date. The use of the term “standards” in the R&D community and in 

the context of this handbook is more usefully interpreted in terms of guidelines and recommended 

practices. The emergence of more prescriptive actions such as professional codes of conduct, quality 

marks and formal standards still lies very much in the future (Gibbon et al., 1997: 6). 

Niettemin geldt voor EAGLES net als voor het TEI, dat de aanbevelingen in de praktijk hetzelfde gewicht 

kunnen hebben als ISO-standaards, aangezien bij het aanvragen van internationale projecten veelal 

aansluiting bij deze richtlijnen wordt geëist. 

Het EAGLES Handbook bevat aanbevelingen die soms erg algemeen en voor de hand liggend zijn, en 

soms heel concreet. Dat eerste kan niet alleen verklaard worden uit het gedeelde auteurschap en het onderliggende 

Europese consortium. Het heeft er zeker ook mee te maken dat gesproken corpora voor een veelheid 

aan doeleinden worden aangelegd, van b.v. veldopnames op Walkmans voor sociologisch onderzoek tot in 

een studio gemaakte, vrijwel geruisloze opnames van afasiepatiënten voor psycholinguïstische analyse. Er is 

m.a.w. veelal geen eenduidige richtlijn te hanteren, hoogstens het advies van de best mogelijke organisatie 

en techniek gegeven de doeleinden. We zullen hierom niet alle aanbevelingen reproduceren over opnametechnieken, 

digitalisering van het signaal, wettelijke problemen, etc. In plaats daarvan concentreren we ons 

op een aantal hoofdpunten van belang voor de corpusopbouw en -annotatie. 

Bij de samenstelling van het corpus valt aan een aantal, min of meer duidelijk te onderscheiden tekstcategorieën 

te denken, op een schaal van zeer artificiële spraak tot de meest spontane spraak (Gibbon et al., 

1997: 99-106): 

1. Voorgelezen fonemen, al dan niet in neutrale context (dat laatste is noodzakelijk bij niet-continuante 

klanken). 

2. Voorgelezen woorden in isolatie: lexicale woorden, dan wel fonotactisch correcte nonsenswoorden. 

3. Voorgelezen zinnen in isolatie. Dit varieert van woorden in een neutrale, steeds herhaalde ’carrier 

sentence’, zinnen met meer betekenisvolle, maar ongerelateerde inhoud, voorgedrukte antwoorden op 

eveneens voorgedrukte vragen, tot fonetisch rijke zinnen (alle fonemen van de taal vertegenwoordigd) 

en fonetisch gebalanceerde zinnen (alle fonemen van de taal vertegenwoordigd in hun juiste frequentieverhouding). 

4. Voorgelezen tekstfragmenten, dus zinnen in contextuele samenhang. 

34

5. Semi-spontane spraak. Deze wordt op de een of andere manier geprompt met korte, gerichte vragen. 

Typische voorbeelden zijn het noemen van je geboortedatum, je adres, leeftijd, etc. Hierbij is al 

redelijke variatie mogelijk, zoals ’ik ben 23 jaar oud’, ’23’, ’23 jaar’, ’net 23’, etc. 

6. Spontane spraak over een afgesproken onderwerp. B.v. het navertellen van een verhaal, het beschrijven 

van een plaatje, maar ook dialogen waarbij de interviewer de discussie een bepaalde richting in stuurt. 

7. Gesimuleerde mens-machine dialoog (Wizard of Oz). Hierbij speelt een mens de rol van computer in 

een eerste testfase, om later een daadwerkelijk geautomatiseerd systeem te kunnen implementeren. 

8. Spontane spraak. Een wezenlijk probleem hierbij is, hoe men een situatie kan creëren, waarin de 

participant denkt dat hij niet wordt geobserveerd, of zijn uitingen niet worden opgenomen. 

• Gebruik verborgen microfoons. Nadelen: slechte opnamekwaliteit en toestemming van participanten 

moet achteraf worden gevraagd, met risico van weigering. Hierbij moet wel worden aangetekend, 

dat bij het British National Corpus slechts zeer weinig mensen toestemming achteraf 

weigerden, mits de opnames werden geanonimiseerd. Evenwel kan het feit dat het BNC slechts 

uit transcripties bestaat zonder het geluidssignaal hierop van invloed zijn geweest. EAGLES stelt 

daarom voor alleen clandestiene opnames te maken als dit echt noodzakelijk is (Gibbon et al., 

1997: 122). 

• Microfoon open zetten of laten staan buiten de aangekondigde opnametijd, b.v. bij introductiegesprek 

of evaluatie/informeel gesprek achteraf. 

• Vragen naar emotionele gebeurtenissen, vanuit de verwachting dat deze spraak de aanwezigheid 

van microfoon en interviewer doet vergeten. 

• Iemand uit de sociale kring van de participant erbij betrekken. 

• Adolescenten interviewen. Zij worden geacht nog niet zo goed hun spraak te kunnen formaliseren 

en te monitoren. 

Voordat met het opnameproces kan worden aangevangen, zal eerst een zo representatief dan wel zo gespreid 

mogelijke groep sprekers moeten worden aangetrokken. EAGLES reikt hiervoor een aantal aandachtspunten 

aan: 

Bepalen samenstelling van een breed geschakeerde groep participanten (Gibbon et al., 1977: 107-118). Stabiele 

variabelen: 

Demografische factoren geboorteplaats, woonplaats, opleidingsniveau, beroep, inkomen. Onderscheid 

moet worden gemaakt tussen geboorteplaats en plaats waar men opgegroeid is. De middelbare schoolperiode 

wordt hierbij als de uiteindelijk meest vormende periode gezien. Deze noteren. Het precieze 

onderscheid tussen de sociale klassen onderling is lastig vast te stellen. Geadviseerd wordt de grove 

indeling in: lagere, midden- en hogere klasse op grond van de factoren opleiding, werk en inkomen. 

Voor wat betreft allochtonen adviseert EAGLES slechts mensen met licht accent op te nemen. 

Geslacht man-vrouw. Geadviseerd wordt verhouding 50/50. Bij kinderen is dit veel minder van belang. 

Leeftijd stemkwaliteit verschilt van leeftijdsgroep tot leeftijdsgroep, maar niet met duidelijke scheidslijnen. 

Geadviseerd wordt te denken in termen van 3 categorieën: 0-20, 20-60 en 60+. 

Voor wat betreft vocabulaire en syntax, mag men veronderstellen dat de gespreksonderwerpen tussen 

ouderen en jongeren verschillen. Of dat echter van invloed is op het vocabulaire en de grammatica is 

niet duidelijk. 

Gewicht en grootte deze zijn kennelijk van invloed op de stemkwaliteit. Daarom noteren. 

Rook- en drinkgewoontes deze zijn kennelijk van invloed op de stemkwaliteit (schorheid/heesheid). Daarom 

noteren. 

35

Pathologische spraak EAGLES beveelt opname aan in algemeen corpus, maar dat kan natuurlijk bepaalde 

normale fenomenen in zekere mate scheeftrekken. Een compromis kan zijn alleen b.v. lichte 

pathologische spraak (schorheid, heesheid, fluisterstem) toe te laten. Aandachtsgebieden: fysiologische 

afwijkingen (gespleten gehemelte, hazenlip, ontbreken van tanden, verlammingen, afasie), fysiologischemotionele 

afwijkingen: stotteren, ’cluttering’. 

Getraind versus ongetraind men moet er rekening mee houden, dat veel TV- en radiosprekers, maar 

ook professionele sprekers (politici, zakenmensen) een spraaktraining achter de rug hebben, en daarom 

’overdreven correct’ kunnen articuleren. 

Het recruteren van sprekers die aan deze sprekerskenmerken moeten voldoen is een verhaal apart: 

Verzamelen contactadressen hierbij wordt een marketingbureau ingeschakeld om de adressen te leveren. 

De respons op dergelijke acties is ± 5% bij schriftelijke werving, 25% bij telefonische benadering, en 

50% bij huisbezoek. 

• Voordelen: 

– gecontroleerde demografische opbouw. 

– directe aanschrijving mogelijk. 

• Nadelen: 

– dure informatie met eigendomsrechten. 

– bereidwilligheid participanten niet gegeven. 

Openbare wervingsactie hierbij wordt een advertentie gezet of een oproep gedaan via radio, TV of Internet 

om zo veel mogelijk mensen te recruteren. 


– relatief goedkoop. 

– hoge motivatie. 

– absoluut gezien veel respons. 

• Nadelen: 

– ongecontroleerde demografische opbouw. 

– hoge motivatie kan sample kleuren. 

– relatief gezien weinig respons (〈 1%) 

Hiërarchische wervingsactie hierbij worden mensen geworven, die weer andere mensen moeten bewegen 

deel te nemen. Dat kan binnen de organisatie waar de werver werkt, zijn vriendenkring, etc. 


– relatief goedkoop. 

– gespreide wervingsactiviteit. 

• Nadelen: 

– ongecontroleerde demografische opbouw. 

– onduidelijke respons. 

Beloning wat voor wervingsmethode ook wordt gekozen, de respons kan flink toenemen als een beloning in 

het vooruitzicht wordt gesteld, of een kans op een prijs. 

Sprekergegevens naast de demografische gegevens moeten ook persoonsgebonden data worden geregistreerd 

als naam, adres, telefoonnummer en beschikbaarheid. 

36

Toestemming toestemming dient vooraf schriftelijk te worden gevraagd. Clandestiene opnames mogen 

alleen met een zeer goede motivatie worden gemaakt, en achteraf moet schriftelijk toestemming worden 

geregeld. Het audiosignaal en de transcripten moeten worden geanonimiseerd (b.v. met piepjes op de 

tape, en met een spreker-identificatiecode in de transcripten). 

Voor wat betreft de transcriptie stelt EAGLES een annotatie op minstens drie niveaus voor: 

1. Orthografisch niveau. 

Op dit niveau worden de woorden beschouwd als lexicale eenheden in hun standaardspelling, zodat 

verbinding met lexicale databanken en grammaticale tagging vergemakkelijkt worden. 

2. Ruwe fonetische transcriptie op grond van de uitspraak van het woord in isolatie. 

Dit is dan vaak een fonemische transcriptie gegenereerd door grafeem-foneem conversie of overgenomen 

uit een uitspraakwoordenboek. Dit kan gebeuren op basis van een lijst met alle unieke woorden in een 

tekst. Dit is een stuk efficiënter bij automatische annotatie en opslag, en kan ook dienen als referentie 

voor handmatige controle. 

3. Gedetailleerde fonetische transcriptie, waarbij aandacht wordt besteed aan clitisering en reductie. 

Dit moet bij grotere corpora dan wel (gedeeltelijk) geautomatiseerd worden, omdat de procedure zo 

duur is. Prosodische en paralinguïstische informatie zou zeker moeten worden aangegeven op dit niveau 

(Gibbon et al., 1997: 84-86). 

Er kan echter nog verder onderscheid tussen de diverse niveaus worden aangebracht; ook kunnen er nog 

dimensies aan worden toegevoegd, zoals blijkt uit het volledige overzicht, dat samen met een aantal aanbevelingen 

hieronder wordt gepresenteerd (Gibbon et al., 1997: 155-172): 

1. Opnamescript (bij voorgelezen spraak). 

Dit ontslaat de maker van het corpus overigens in de meeste gevallen niet van het maken van een transcriptie 

waarin voorleesfouten (aarzelingen, valse starts, uitspraakfouten, substituties) worden aangegeven. 

Denk ook aan paralinguïstische verschijnselen zoals gevocaliseerde pauzes, hoesten, krakende 

stoelen, etc. 

2. Orthografische transcriptie (ook: transliteratie). 

Dit veronderstelt in zekere mate aanpassing aan de standaardspelling. Projecten verschillen erg in 

de mate waarin ze transliteratie in de zin van fonetische spelling toestaan. EAGLES beveelt aan, 

om op dit niveau zoveel mogelijk de standaardspelling aan te houden. Eerst zou de standaard orthografische 

transcriptie vervaardigd moeten worden, om pas later de prosodische, ’performance’ en 

paralinguïstische verschijnselen aan te geven in een extra ronde. Dit komt overeen met het protocol van 

het SPEECHDAT-project (Gibbon et al., 1997: 825-834). De orthografische transcriptie kan eventueel 

door niet-taalkundig geschoolden gebeuren, b.v. een extern bureau. Dit geldt uiteraard niet voor de 

andere, hierna volgende niveaus. 

Qua tijdsplanning valt de volgende vuistregel aan te houden: 

Orthografische transcriptie voorgelezen zinnen 3 x duur signaal 

Orthografische transcriptie voorgelezen tekst 5 x duur signaal 

Orthografische transcriptie spontane spraak 10 x duur signaal 

Controle is noodzakelijk. Minstens moet een tweede transcribeur naar het signaal luisteren met de 

transcriptie voor zich. Dat kan dan het best in de omgekeerde volgorde: de transcriptiestijl is het 

meest consistent aan het einde. 

Een aantal probleemgevallen bij de orthografische transcriptie: 

37

• Gereduceerde woordvormen. 

Vaak wordt als criterium gehanteerd, dat ze in het woordenboek moeten voorkomen om aangegeven 

te kunnen worden. Er is dan vaak een conventionele spelling, b.v. voor ”zo’n”, ”d’r”, ïe”. 

Maar er zijn vaak verschillende spellingen mogelijk voor één vorm, en de lijst in het woordenboek 

kan arbitrair zijn. Daarom wordt gepleit te letten op frequentie van voorkomen en het criterium 

van gereduceerd aantal syllaben. Zowel voor de transcribeurs als voor de latere gebruikers moet 

er een complete lijst met deze woorden en hun schrijfwijze beschikbaar zijn. 

• Dialectwoorden. 

Het criterium kan zijn, dat het niet in het woordenboek staat, of met een aanduiding ’dialect’. 

Dit op de een of andere wijze weergeven, b.v. ’krek’〈dia〉, ’sakkers’〈dia〉. 

• Getallen. 

Deze uitschrijven zoals ze uitgesproken worden. 

• Afkortingen. 

Deze uitschrijven zoals ze uitgesproken worden. 

• Lettersequenties (b.v. in afkortingen, initialen, postcodes). 

In hoofdletters los van elkaar uitschrijven, uiteraard alleen als ze ook los worden uitgesproken. 

• Tussenwerpsels. 

Zelfde criterium als bij gereduceerde vormen: kiezen voor standaardspelling indien voorhanden; 

lijst aanleggen met wijzigingen/variatie/toegevoegde woorden. 

• Weggelaten woorden. 

Twijfelgeval, omdat het hierbij moeilijk is vast te stellen of de spreker inderdaad dit woord in 

gedachten had. 

• Zelfreparaties van woorden. 

Dit gaat om complete woorden die impliciet of expliciet gecorrigeerd worden. 

• Zelfreparaties van woordfragmenten. 

Hierbij wordt al na een deel van het foutieve woord het correcte woord uitgesproken. 

• Onverstaanbare woorden of woorddelen. 

• Aarzelingen en gevocaliseerde pauzes. 

• Niet-verbale vocale en niet-vocale klanken. 

Deze zouden moeten worden opgenomen bij het relevante uiting(en). 

• Simultane spraak. 

• Sprekerwisselingen. 

3. Morfologische, syntactische, semantische en pragmatische representatie. 

4. Fonemische representatie (van de citation form). 

Hiervoor is de standaard in Europa SAMPA (Speech Assessment Phonetic Alphabet) (b.v. voor het 

project VERBMOBIL). Voor SAMPA, zie de URL: 

http://www.phon.ucl.ac.uk/home/sampa/home.htm 

Een nadeel hiervan is, dat de 7-bits codering alleen maar een subset van het volledige IPA-alfabet 

toestaat, omdat de set binnen de 128 karakters moet blijven. Dit hoeft echter voor een monolinguaal 

corpus geen probleem te zijn, omdat per taal voor een fonemische transcriptie 128 posities (effectief, 

minus de controlkarakters, 95) meer dan voldoende zijn. Voor het Nederlands zijn er 47 symbolen 

beschikbaar, inclusief marginale fonemen. Dit laat nog genoeg ruimte over voor een set prosodische 

symbolen (klemtoon, toonhoogte, pauzes, grenzen), die ook gedefinieerd zijn in een additionele set onder 

de naam SAMPROSA (SAM PROSodic Alphabet). SAMPA heeft dan ook alleen de pretentie iets te 

zeggen over intra-linguale opposities tussen fonemen, niet over inter-linguale opposities of equivalenties 

van deze klanken (Gibbon et al., 1997: 728). Een alternatief is het meer uitgebreide fonetische alfabet 

van Unicode, dat reeds onder het hoofdstuk XML (zie sectie 4.2.1) is besproken. 

38

5. Ruwe fonetische transcriptie (ook: fonotypische transcriptie). 

Op dit niveau wordt assimilatie, reductie, insertie of deletie weergegeven, maar dan alleen voor zover 

het het fonemisch domein betreft, dus b.v. wel de labialisatie van de /n/ in ’schoenborstel’ en de deletie 

van de /t/ in ’kastplank’, maar niet aspiratie van plosieven, of palatalisatie/velarisatie van de /l/. Dit 

kan automatisch met regels worden afgeleid, en/of met de hand. 

6. Nauwkeurige fonetische transcriptie. 

Dit geeft meer gedetailleerde informatie dan het fonemisch niveau, zoals allofonen, glottisslagen, nasalisatie. 

Het kan alleen handmatig worden gecodeerd, en onder nauwkeurige bestudering van het 

geluidssignaal, veelal in combinatie met oscillogrammen en spectrogrammen. Vanaf dit niveau wordt 

codering eigenlijk ondoenlijk, tenzij voor deelcorpora of met een bepaald doel voor ogen (b.v. logopedische 

tests bij nasale spraak). 

7. Akoestisch-fonetische transcriptie. 

Dit gebeurt geheel op grond van akoestische informatie uit oscillo- en spectrogrammen. Dit is uiteraard 

zeer arbeidsintensief, en daarmee niet geschikt voor grote corpora voor algemeen gebruik. 

8. Fysische transcriptie. 

Het meest volledige niveau waarop gegevens kunnen worden verzameld, b.v. luchtstroommetingen, 

laryngogrammen, resonantiemetingen, etc. Dit is uiteraard zeer arbeidsintensief, en daarmee niet 

geschikt voor grote corpora voor algemeen gebruik. 

9. Prosodische transcriptie. 

Dit betreft, in tegenstelling tot de vorige niveaus, het suprasegmentele niveau, dus op het niveau van 

intonatiecontouren, emfatische klemtoon, tempo- en ritmewisselingen, etc. Een aantal systemen en 

protocollen zijn hiervoor voorhanden, gebaseerd op metingen van de grondtoon (stijging-daling), al 

dan niet in relatie tot de mate van begrenzing tussen toongroepen (intonatiefrasen). Hieronder vallen 

de codeersystemen ToBI (Silverman et al., 1993), de IPO-benadering (’t Hart et al., 1990), en die van 

de corpora MARSEC (Roach et al., 1993) en VERBMOBIL (Kohler et al., 1995). 

Het idee van verschillende codeerrondes is op een iets andere manier vormgegeven in het MARSEC-corpus. 

Hierin werd de orthografische transcriptie opgedeeld in een pure transliteratie zonder aandacht voor de spellingconventies 

van geschreven taal, gevolgd door een ronde, waarbij wel standaard-interpunctie en hoofdletters 

werden toegepast: 

”The unpunctuated transcriptions were made using the spoken recordings. The text was typed 

directly on to computer, and it was at this point that unacceptable text was noted, and replaced 

by a comment in the transcription, for example [speech extract omitted]. Speaker details were 

also included in comments, for example [change of speaker: speaker name]. No word-initial capitals 

are used apart from those in proper names and abbreviations, thus no indication of start 

of sentence is given in this format of text. (...) The unpunctuated transcription was used in the 

production of the punctuated transcriptions and the prosodic transcriptions. These versions were 

made independently, so that neither influenced the other, i.e. the punctuated version was made 

independently of any prosodic information, and the prosodic version was made without any cues 

from punctuation. The only way to ensure this was to have the unpunctuated transcription as 

the starting point for both of these versions. (...) The volunteer punctuator was asked to insert 

punctuation at appropriate points in the text without access to the spoken recording. As an aid, 

a handbook on punctuation conventions was provided. (Knowles et al., 1996: 22-23). 

Buiten deze dimensies is nog commentaar mogelijk op elk van deze niveaus. EAGLES raadt aan om transcribeurs 

notities te laten maken over verschillende aspecten van de aard en kwaliteit van de opnames op een 

vijfpuntsschaal (zoals bij het SWITCHBOARD corpus): moeilijkheidsgraad, natuurlijkheid, echo, statische 

ruis, etc. 

Inmiddels is er na afsluiting van EAGLES een vervolgproject gestart, dat zowel een verdere specificatie 

van de annotatielagen beoogt, als het bouwen van tools om die annotatie op een efficiënte manier aan te 

39

engen, te manipuleren en tevens zoekvragen (ook met het oog op de eindgebruiker) te ondersteunen. Dit 

is het MATE-project, dat specifiek gericht is op gesproken taal in dialoogvorm. Aangezien hierbinnen ook 

protocollen worden opgesteld voor het gedistribueerd werken aan en met dergelijke corpora volgens open 

standaards als WWW en Java, wordt ook ingespeeld op de eerder beschreven ontwikkeling naar applicatieonafhankelijke 

integratielagen, gebaseerd op SGML en XML. 

Zie voor een beschrijving van MATE: 

http://www.linglink.lu/le/projects/mate/index.html 

4.3 Het Ontstaan van Internationale Datacollecties 

4.3.1 De EUROM1 databank 

Dit is een Europees initiatief om platform-onafhankelijke, uniform gecodeerde en ontsloten gesproken taalcorpora 

(met slechts voorgelezen spraak) samen te stellen voor alle Europese talen. Het maakt gebruik 

van de in Europa erkende SAMPA transcriptiestandaard (ESPRIT SAM 2589). Het is vooral geschikt voor 

industriële toepassingen. 

Gegevens: 

• Omvang: 

– types: ? 

– tokens: ? 

• Samenstelling (teksttypes): 100 voorgelezen getallen, 60-100 CVC-patronen, 10 woorden in isolatie, 50 

zinnen en 40 alinea’s van 5 zinnen. 

• Sprekergegevens: 60 sprekers per taal. De vertegenwoordigde talen zijn Brits Engels, Deens, Duits, 

Frans, Grieks, Italiaans, Nederlands, Noors, Portugees, Spaans, en Zweeds. 30 mannelijke en 30 

vrouwelijke sprekers per taal, alle tussen de 20 en 60 jaar. 

• Opnamedatum: ? (staat in labelfile, voorbeelden melden 1989-1990). 

• Opnameduur: ± 12 uur per taal. 


– gehanteerde standaard: SAMPA. 


– sprekerwisseling, behandeling overlap: n.v.t. 

– behandeling bij- en achtergrondgeluiden: n.v.t. (opname in akoestisch dode (anechoic) ruimte). 

– gehanteerde interpunctie: n.v.t. 

• Annotatieniveaus: deels laryngogrammen, en oorspronkelijke voor te lezen tekst in ASCII. Daarnaast 

beschrijvende (label) files met zeer uitgebreide informatie (filetype, filenaam, sampling rate, opnamedatum 

en -tijd, aantal bytes per sample, aantal kanalen, sprekergegevens (moedertaal, geslacht, leeftijd), 

protocol, versie, begin- en eindcode). 


• Copyright: ELRA? 

• Beschikbaarheid opnames: ja, via ELRA. In de praktijk blijken er grote problemen vanwege de fijnafstemming 

tussen alle Europese partners, het gedeelde auteursrecht, en copyright op het GERSONSdatabasesysteem, 

dat berust bij het bedrijf ICP. Momenteel zijn alleen Italiaanse data beschikbaar bij 

ELRA. 

40

– geluidsdrager: CD-ROM. 

– opnametechniek: samplefrequentie 20 kHz, 16-bits A/D-conversie. Opnames met condensatormicrofoon 

in akoestisch dode ruimte. 


– elektronische versie: ja, spraakfiles en ASCII-files met voor te lezen tekst. Er is tevens een 

databasesysteem beschikbaar voor PC onder de naam GERSONS, waarbinnen de data bevraagd 

kunnen worden. 


4.3.2 Het European Corpus Initiative (ECI) 

Het European Corpus Initiative (ECI) betreft een project uit 1992 om een multi-linguaal, algemeen toegankelijk 

tekstcorpus op te bouwen. De CD van dit project bevat, voor het Nederlandse deel, naast artikelen uit 

de Groninger Universiteitskrant, De Limburger, Onze Taal en een nogal merkwaardige reeks citaten (kennelijk 

t.b.v. lexicografen), een aantal teksten die met enige goede wil gezien kunnen worden als weergaves van 

gesproken taal: scripts van het journaal, jeugdjournaal (beide oktober-december 1990, heel 1991, en januari 

tot juni 1992) en troonredes (1970-1986/88). Dit zijn dus geen transcripten, maar geschreven teksten, bedoeld 

om zo voorgelezen te worden. Hiermee valt het ECI-corpus in de traditie van het Engelse MARSEC 

en het Vlaamse ANNO-materiaal. Er zijn verschillen tussen de scripts en daadwerkelijk uitgesproken teksten. 

De bandopnames zijn helaas niet voorhanden, en er is derhalve geen koppeling tussen audiosignaal en 

tekst mogelijk, tenzij deze nog beschikbaar zijn bij de NOS. De CD-ROM is te verkrijgen bij het Europese 

consortium ELRA. Vervolgprojecten van ECI zijn o.a. Multext (Multilingual Text Tools and Corpora) en 

RELATOR (Distributed European Linguistic Resources Repository). 

Gegevens: 

• Omvang: 

– types: 42.148 (NOS-journaal), 22.246 (Jeugdjournaal), 4.602 (troonrede). 

– tokens: 1.096.725 (NOS-journaal) 478.172 (Jeugdjournaal), 36.288 (troonrede). 

• Samenstelling (teksttypes): voor te lezen teksten. 

• Sprekergegevens: nee. 

• Opnamedatum: oktober-december 1990, heel 1991, en januari tot juni 1992 (NOS-journaal en Jeugdjournaal), 

september 1970-1986 en 1988 (troonrede). 



– gehanteerde standaard: TEI-conformant SGML. 

– geclitiseerde en andere niet-standaard vormen: ja (’t, ’n, is-ie, dat-ie), als leidraad voor het 

voorlezen. 


– behandeling bij- en achtergrondgeluiden: n.v.t. 


• Annotatieniveaus: orthografie, SGML op aparte regels voor gemakkelijke uitfiltering. 

• Status privacy informanten: openbaar. Dit geldt echter niet voor alle gewenste biografische informatie 

(Van de Velde, 1996: 22). 

• Copyright: NOS (?) 

41

• Beschikbaarheid opnames: wellicht bij NOS. 




– elektronische versie: ja, ASCII computerfiles met script en SGML-annotaties: 

∗ dut02a0[1-8].eci ≫ NOS-journaal. 

∗ dut02b.eci ≫ troonredes. 

∗ dut02c0[1-3].eci ≫ Jeugdjournaal. 


4.3.3 Het Multilingual Parallel Corpus (MLCC) 

Dit betreft een meertalig parallel corpus in de 9 officiële talen van de Europese Unie: Deens, Duits, Engels, 

Frans, Grieks, Italiaans, Nederlands, Portugees en Spaans. Het deel Beantwoording van schriftelijke vragen is 

voor het CGN niet relevant, maar het deel Debatten van het Europees Parlement bevat transcripties, waarbij 

aangegeven is of weergave van het gezegde in de oorspronkelijke taal is opgenomen, of een vertaling betreft. 

Op deze manier zijn de delen te isoleren, die een (gestandaardiseerde, geen clitica bevattende) transcriptie 

betreffen van het Nederlands. De codering is SGML-conformant. Voorbeeld: 

Nederlandse spreker in Nederlands subcorpus: 

〈speaker〉Wijsenbeek 〈party〉(LDR)〈/party〉. -〈/speaker〉 Mevrouw de Voorzitter, het betreft de 

wijze waarop deze vergadering georganiseerd is, dus artikel 19 van het Reglement. 

Niet-Nederlandse, in dit geval Engelse spreker in het Nederlands subcorpus: 

〈speaker〉Andrews 〈party〉(RDE)〈/party〉. -〈language〉(EN)〈/language>

Gesproken teksten (300) Dialoog (180) Privé (100) directe conversatie (90) 

telefoongesprekken (10) 

Publiek (80) klassikaal onderricht (20) 

radio/TV discussies (20) 

radio/TV interviews (10) 

politieke debatten (10) 

gerechtelijke verhoren (10) 

zakentransacties (10) 

Monoloog (120) ’Unscripted’ (70) spontaan commentaar (20) 

toespraken (30) 

demonstraties (10) 

gerechtelijke toespraken (10) 

’Scripted’ (50) radio/tv nieuws (20) 

radio/tv commentaar (20) 

toespraken (niet voor radio of tv) (20) 

Tabel 1: Teksttypen onderscheiden in het gesproken deel van ICE 

• Samenstelling (teksttypes): 200 geschreven en 300 gesproken tekstdelen van elk ± 2.000 woorden per 

taalvariëteit. De precieze tekstsamenstelling van het gesproken deel is te vinden in Tabel 1. 

• Sprekergegevens: sprekers en schrijvers van 18 jaar en ouder met een Engelstalige opleiding, die ofwel 

geboren zijn in het onderzochte land, ofwel hier jong naartoe zijn verhuisd. Verschillende leeftijdsgroepen 

met diverse sociaal-economische status, waarbij evenwel niet is gepoogd alle groepen precies 

tegenover elkaar te balanceren. 

• Opnamedatum: 1990-1996. Ook alle geschreven teksten stammen uit deze periode. 

• Opnameduur: 70 uur per taalvariëteit (gebaseerd op het Britse deel). 


– gehanteerde standaard: SGML-conformant voor tekststructuur (in de zin van tags tussen vissenhaken 

met eindsymbolen); TOSCA (taalkundige en redekundige ontleding). 

– geclitiseerde en andere niet-standaard vormen: ja, voor zover geschreven standaard-equivalent 

bestaat (“he’ll”, “can’t”, “it’s”). 

– sprekerwisseling, behandeling overlap: ja, beide. 


– gehanteerde interpunctie: ja, orthografische interpretatie. 

• Annotatieniveaus: orthografische transcriptie met pauzes, herhalingen, zelfcorrecties, valse starts en 

aarzelingen. Alle ’disfluencies’ zijn genormaliseerd, evenwel met behoud van de oorspronkelijke uitingen. 

Paralinguïstische kenmerken aangegeven. Syntactische analyse (tagging en parsing) met TOSCAprogrammatuur 

van de Nijmeegse vakgroep Taal & Spraak. Het Amerikaanse deel wordt verrijkt met 

een prosodische transcriptie. 

• Status privacy informanten: geanonimiseerd in transcript. 

• Copyright: ICE. Het corpus is uitsluitend verkrijgbaar voor non-profit gebruik voor ong. 900 gulden. 

Een multi-user licentie kost ongeveer 1500 gulden. 

43

• Beschikbaarheid opnames: nu nog niet. Digitalisering in uitvoering. 

– geluidsdrager: oorspronkelijk analoge tapes. Later distributie op CD-ROM. 



– elektronische versie: ja. 

– relatie signaal-transcriptie (volledigheid-koppeling): in uitvoering. 

Alle gegevens zijn elektronisch beschikbaar, en kunnen dankzij de ICECUP user interface (het ICE Corpus 

Utility Program) uitgebreid gemanipuleerd worden, b.v. tot een concordantie op woord- of tagniveau, of 

beide gecombineerd, of tot grammaticale boomstructuren in horizontale of verticale oriëntatie. Daarnaast 

kan worden gezocht op hiërarchische of andersoortige relaties in de boomstructuren (b.v. alle onderwerpen 

gerealiseerd door een zelfstandig-naamwoordgroep die twee opeenvolgende bijvoeglijke naamwoorden bevat). 

Ook zijn zoekacties mogelijk op teksttype en biografische gegevens van de schrijver of spreker, zoals leeftijd en 

sociaal-economische klasse. Er wordt momenteel gewerkt aan ’fuzzy matching’ op in een editor gespecificeerde 

patronen, die het leren van bepaalde zoekalgoritmes overbodig moet maken. 

Voor verdere informatie zie de Website van ICE onder URL: 

4.3.5 Het British National Corpus 

http://www.ucl.ac.uk/english-usage/ 

Aan het project British National Corpus (BNC) werd door de volgende partners deelgenomen: 

• 3 woordenboekuitgevers (Chambers Harrap, Longman, Oxford University Press). 

• 2 universiteiten (Oxford en Lancaster). 

• 1 publieke dienstverlener (British Library). 

Het BNC-project kende een aantal uitgangspunten, die vooraf waren vastgelegd, en waaraan niet getornd 

mocht worden. Het BNC kan zo omschreven worden als: 

• een corpus van steekproeven van taaluitingen (samples), elk niet of nauwelijks groter dan 45.000 tokens. 

• een synchroon corpus, met fictie uit 1960-1993, non-fictie uit 1975-1993. 

• een algemeen corpus, d.w.z. niet specialistisch in samenstelling of doelgroep. 

• een monolinguaal corpus, d.w.z. uitsluitend Brits Engels. 

• een gemengd corpus, d.w.z. zowel bestaand uit het geschreven als gesproken medium (Burnard, 1995: 

5-6). 

Het corpus telt 100 miljoen tokens, waarvan 10 miljoen gesproken. Dit komt overeen met 700 uur spraakopnames 

(niet duidelijk is voor of na editing). Meer dan 4 miljoen tokens van de 10 waren geheel spontane 

spraak, d.w.z. 40%. 

Binnen het gesproken corpus van het BNC is onderscheid te maken tussen twee wijzen van sampling: 

• demografisch gemotiveerde steekproef (gepland 5% van de 100 miljoen tokens, in de praktijk 4,2%), 

nl. informanten met draagbare opnameapparatuur (Walkmans). 

• linguïstisch gemotiveerde steekproef (’context-governed’) (gepland 5% van de 100 miljoen tokens, in de 

praktijk 6,1%) (zie onderstaande tabel (Tabel 2) voor onderverdeling laatste categorie). 

44

1. Educatief en informatief 25% 

- monoloog (asymmetrisch) 40% 

- colleges, voordrachten en lezingen 

- nieuwsberichten en actualiteiten 

- dialoog (symmetrisch) 60% 

- klassikaal en individueel onderricht 

2. Zakelijk 25% 

- monoloog 40% 

- zakelijke presentaties 

- productdemonstraties 

- dialoog 60% 

- zakelijke gesprekken 

- vergaderingen 

- consults 

3. Openbaar en institutioneel 25% 


- politieke toespraken 

- preken 

- dialoog 60% 


- politieke debatten 

- rechtszaken 

4. Recreatief 25% 


- toespraken en voordrachten 

- sportverslagen 

- dialoog 60% 

- praatprogramma’s 


Tabel 2: Teksttypen onderscheiden in linguïstisch gemotiveerd deel gesproken BNC 

45

De exacte gegevens van het gesproken deel van het BNC kunnen als volgt schematisch worden weergeven: 

Gegevens: 

• Omvang: 

– types: ? 

– tokens: 

∗ 6,15 miljoen (linguïstisch gemotiveerd). 

∗ 4,21 miljoen (demografisch gesampled). 

• Samenstelling (teksttypes): 

– 762 linguïstisch gemotiveerde teksten, tot 200.000 tokens per type monoloog, tot 300.000 tokens 

per type dialoog (zie Tabel 2). 

– 153 demografisch gesamplede teksten. 

• Sprekergegevens: 153 informanten (inclusief ongeveer 30 tieners) voor het demografisch gedeelte, geselecteerd 

op grond van een willekeurige, gebalanceerde steekproef per regio (uit heel het Verenigd 

Koninkrijk), leeftijd, geslacht en sociaal-economische klasse. Met gesprekspartners erbij waren meer 

dan 1000 deelnemers te onderscheiden. De informanten zijn in het corpus aangegeven als 〈role=resp〉 

(respondent), terwijl 〈role=other〉 wordt gebruikt voor de gesprekspartners. Naast role zijn verplichte 

persoonsgegevens: 

geslacht m(ale), f(emale) of u(nknown). 

leeftijd 0 tot 15 jaar. 

1 15 tot 24 jaar. 

2 25 tot 34 jaar. 

3 35 tot 44 jaar. 

4 45 tot 59 jaar. 

5 ouder dan tot 59 jaar. 

X onbekend. 

Soms wordt de leeftijd, indien voorhanden, precies aangegeven. 

flang de moedertaal van de spreker. 

dialect het dialect van de spreker. 

soc de sociale klasse van de spreker. 

AB hoger- of middenbestuurskader, administratief of professioneel. 

C1 leidinggevend, afdelingshoofd of administratief. 

C2 geschoold vakman. 

DE halfgeschoold of ongeschoold. 

UU onbekend. 

educ het opleidingsniveau van de spreker. 

0 nog in opleiding. 

1 school verlaten met 14 jaar of jonger. 

2 school verlaten met 15 of 16 jaar. 

3 school verlaten met 17 of 18 jaar. 

4 opleiding gecontinueerd na 18 jaar. 

X onbekend. 

Daarnaast kunnen optioneel de volgende gegevens worden vermeld: 

46

BMRB code code van het marketingbureau voor een demografische klasse. 

naam een (fictieve) voornaam als extra identificatie. 

beroep het beroep van de spreker. 

commentaar 

relatie gelijkwaardige of hiërarchische relatie tussen de participanten, b.v. ’broer van X’, ’klant van 

Y’, ’collega van Z’. 

De informanten kregen maximaal een week een Walkman omgehangen. Hoewel het linguïstisch gemotiveerde 

gedeelte een andere, op teksttype gebaseerde samplestrategie volgde, werd binnen elk van 

de klassen toch zo veel mogelijk gelet op balans tussen regio (3 gebieden: Noord, Zuid en Midlands), 

geslacht, (opleidings)niveau van de spreker/doelgroep en onderwerp. Zo werden zowel nationale als 

regionale radiozenders meegenomen, mannelijke als vrouwelijke onderwijzers, kerkdiensten van verschillende 

geloofsovertuigingen, kantongerechten, arondissements- en hogere rechtbanken, etc. 




– gehanteerde standaard: CDIF (Corpus Document Interchange Format), een door het TEI beïnvloede 

aanpassing van SGML (TEI was tijdens de codeerperiode nog niet afgerond). Geheel 

SGML-conformant. 

– geclitiseerde en andere niet-standaard vormen: ja, meer dan in standaard-orthografie wordt toegelaten, 

dus niet alleen “can’t”, “we’re” en “that’s”, maar ook ’dunno’, ’gimme’, ’innit’, ’wanna’, 

etc. Wanneer woorden genormaliseerd zijn, geeft het element 〈sic〉 de ongenormaliseerde vorm 

weer, en 〈reg〉 de genormaliseerde vorm. 

– sprekerwisseling, behandeling overlap: ja, met het 〈who〉-attribuut en 〈align〉-elementen. 

– behandeling bij- en achtergrondgeluiden: ja, met paralinguïstische tags. 


• Annotatieniveaus: globaal orthografisch, SGML voor teksttructuur, CLAWS-set van grammaticale 

tags. Het element 〈gap〉 dient voor weggelaten (b.v. geanonimiseerde) of onverstaanbare stukken 

tekst. Paralinguïstische codes omvatten stemkwaliteit (〈shift〉), niet-vocale elementen (〈event〉), vocale, 

niet-linguïstische elementen (〈vocal〉), pauzes (〈pause〉), onduidelijke passages (〈unclear〉), afgebroken 

woorden (〈trunc〉) en overlappingen. Het BNC hanteert andere interpretatie van de TEI-voorstellen 

voor overlappingen dan hierboven (zie sectie 4.2.3), nl. een align-declaratie met locaties vooraf, en dan 

pointers in de tekst, zoals in dit voorbeeld: 

 

 

 

... 

 

 

No, I’ll have to ring our Carl then, see if he can shift it, I mean she 

might as well be laid down here watching telly as upstairs laid in bed 

uncomfortable, you know yeah 

 

 

 

once you get in 

bed you’ll be like 

 

47

• Status privacy informanten: geanonimiseerd in de transcripten en de logfiles. Aan alle participanten 

is soms vooraf, soms achteraf toestemming gevraagd. Dit werd overgelaten aan de drager van de 

Walkman voor het demografisch deel. De opnames werden gewist als één der gesprekspartners geen 

toestemming gaf. 

• Copyright: BNC-consortium. Het is verkrijgbaar voor uitsluitend taalkundig onderzoek binnen de EU 

voor ± 700 gulden. 

• Beschikbaarheid opnames: nee, alleen orthografische transcripties. De opnames zijn opgeslagen in het 

National Sound Archive in Londen. Men hoopt dat die eens vrijgegeven worden (Crowdy, 1995: 229). 

– geluidsdrager: DAT-tape, of analoge tapes voor demografisch deel. De laatste werden overgezet 

naar DAT-tape t.b.v. efficiënte transcriptie. 

– opnametechniek: Walkman (demografisch), DAT-recorder (indien mogelijk voor context-governed 

deel). 


– elektronische versie: orthografische transcriptie plus annotaties in SGML en CLAWS in één ASCIIcomputerfile 

per tekst. Het programma SARA (SGML-Aware Retrieval Application), een clientserver 

gebaseerd zoeksysteem dat concordanties kan aanmaken en de SGML-codes herkent, is 

meegeleverd op de CD-ROM. 


Het samengestelde BNC-corpus wordt voorafgegaan door het element 〈bnc〉, en bestaat uit een algemene 

header en een aantal teksten met elk het element 〈bncDoc〉. 

Elk 〈bncDoc〉 bestaat op zijn beurt weer uit een header en een element voor geschreven tekst, 〈text〉, of 

een gesproken tekst, 〈stext〉. Attributen ’complete’ (Y|N) en ’org’ (compo|seq) geven aan of de tekst resp. 

compleet is of een fragment, en of de tekstelementen in willekeurige dan wel sequentiële volgorde voorkomen. 

Elke tekst bevat tenminste een aantal segmenten 〈u〉, nl. voor onderscheiden gesproken uitingen, en 〈s〉, 

voor zinsachtige elementen (eind tag 〈/s〉 heeft hierbij de status ’o’ = omissable), die al dan niet handmatig 

zijn bijgewerkt (attribuut ’p’ (Y|N) voor post-editing, met als normaalwaarde ’N’). Zoals boven beschreven 

in de paragraaf over het TEI, heeft elke 〈u〉 een attribuut ’who’, dat de spreker (abstract) definieert. De 〈s〉elementen 

hebben als attribuut een sequentienummer, b.v. 〈s n=00011〉. Daarnaast kunnen frase-elementen 

voorkomen, 〈phSeq〉, of tekstdivisie-elementen, nl. 〈div〉, of alleen maar gewone karakters, volgens de BNC- 

DTD gekenschetst als #PCDATA, maar niet als zodanig gecodeerd. 

Binnen deze frase-elementen vinden er de tags voor woord, 〈w〉, en leesteken, 〈c〉, die eveneens meestal 

geen eind tag hebben. Woorden kunnen grammaticale attributen hebben als AJO (adjectief stellende trap) en 

AJC (adjectief vergrotende trap) volgens het CLAWS-schema, terwijl leestekens attributen kunnen hebben 

als PUL en PUN voor de realisatie van verschillende tekens, eveneens volgens CLAWS. 

De transcriptiefiles, inclusief de DTD, het SARA-programma en documentatie worden, gearchiveerd met 

tar en gecomprimeerd met gunzip, geleverd op 3 CD-ROMs. 

4.3.6 Het POLYPHONE Corpus 

POLYPHONE is een internationaal corpus van telefoonspraak, gecoördineerd door het Linguistic Data Consortium 

in de VS. Het Nederlandse deel werd verzameld in samenwerking tussen PTT-Telecom en het 

Expertisecentrum SPEX. Het is te verkrijgen bij het Europese consortium ELRA. Er zijn inmiddels ook 

Amerikaans-Engelse, Amerikaans-Spaanse, Franse, Duitse, Japanse, Mandarijns-Chinese, Zwitsers-Franse 

en Deense versies beschikbaar. Het Amerikaanse deel van het POLYPHONE-project staat bekend onder de 

naam MACROPHONE. 

Gegevens: 

• Omvang: 

– types: ? 

48

– tokens: ? 

• Samenstelling (teksttypes): geëliciteerde spontane spraak (beantwoording 14 voorgedrukte vragen, zoals 

“Is Nederlands uw moedertaal?”, “Heeft U ooit in een ander land dan Nederland gewoond?”,”In 

welke plaatsen bent u opgegroeid?”, “Bent u een vrouw of een man?”, en 4 niet-voorgedrukte vragen 

(“Spel uw naam alstublieft”, “Hoe laat is het nu?”), 32 stukken voorgelezen tekst (getallen, woorden, 

gespelde woorden, datum, bedrag, tijdsaanduiding, hoeveelheid, zinnen met een applicatiewoord, 

fonetisch rijke zinnen). In totaal 50 items per spreker. 

• Sprekergegevens: 5050 sprekers, zo mogelijk gelijkelijk verdeeld over geslacht, leeftijd (16-20, 21-40, 

41-60, 61-), regio en sociaal-economische klasse. De sociaal-economische klasse werd gedefinieerd in 

termen van opleiding: alleen lagere school, middelbare school en hbo/universiteit. Dat laatste was 

minder gelukkig: vrijwel iedereen onder de 60 bleek minstens middelbare school genoten te hebben. 

De jongste en de oudste groep bleken te zijn ondergerepresenteerd. 

• Opnamedatum: ? Data uitgegeven in 1995. 






– behandeling bij- en achtergrondgeluiden: ja, in transcriptie. 


• Annotatieniveaus: orthografische transcriptie. 



• Beschikbaarheid opnames: ja, bij ELRA. 


– opnametechniek: digitale ISDN telefoonlijn. Aculab telefoon-interface, een Rhetorex Voice Card 

en driver software, Show-’n-Tel applicatie ontwikkelingssoftware, en een 16 port operational license, 

op een OS/2 PC. Sampling rate 8 kHz, 8-bits A/D-conversie. 


– elektronische versie: 222.075 audiofiles, met file formaat 8-bit raw A-law data. 


De opmerkingen van het Nederlandse POLYPHONE-team over de stratificatie-strategie van dit project 

zijn mogelijk van belang voor het CGN-project. Deze zijn overgenomen van de EAGLES Website voor 

Gesproken Data (http://coral.lili.uni-bielefeld.de/EAGLES/). Ze zijn ook te vinden in Gibbon et al. (1997: 

807): 

Speaker selection and recruitment is still a difficult issue. In the Dutch POLYPHONE project 

much time, effort and money was spent in order to get a maximally uniform sampling of a large 

number of cells. To a considerable extent, these efforts have been to no big avail. The major 

reason to strive towards uniform sampling was scientific: we wanted the corpus to be as attractive 

as possible for linguists and dialectologists, of course without interfering with the requirements of 

speech technology. The latter requirements are ill-defined. It is quite likely that applications like 

Train Time Table Information must deal with the public at large, including low income groups 

whose speech may differ from the general standard. More research is needed to clarify this issue. 

49

4.3.7 Het Oxford Text Archive 

Het Oxford Text Archive (OTA) is een verzamelen distributiecentrum van elektronische teksten aan de 

Universiteit van Oxford. Het werd reeds in 1976 opgericht door Lou Burnard. Anders dan vele ftp-sites 

en elektronische archieven, die vaak een vergaarbak zijn van documenten in talloze formaten en stijlen, 

stimuleert het OTA de opname en verspreiding van teksten volgens internationaal aanvaarde standaards. Zo 

is het OTA een belangrijk pleitbezorger voor de platform- en applicatie-onafhankelijke document-markeertaal 

SGML en in het bijzonder de hierop gebaseerde literaire conventies van het TEI. Als standaard codeerset 

wordt TEI Lite aanbevolen, een ’uitgeklede’ versie van de volledige reeks TEI elementen, attributen en regels 

(zie boven). Niettemin kunnen ook documenten worden geaccepteerd in HTML, XML, (La)TeX, Rich Text 

Format (RTF), ASCII, word processors als WordPerfect of Word, PostScript of Portable Document Format 

(PDF), hoewel dit niet de voorkeur geniet. 

Net als bij het Project Gutenberg bestaat de hoofdmoot van de OTA-collectie uit teksten in het publieke 

domein. Daarnaast zijn er echter, in tegenstelling tot de Amerikaanse equivalent, ook corpora beschikbaar, 

waarvoor speciale contracten afgesloten zijn. 

De meeste teksten zijn vrijelijk verkrijgbaar voor onderzoeksdoeleinden, maar mogen niet verder gedistribueerd 

worden buiten de vakgroep, of verwerkt worden tot een commercieel product. De condities zijn 

echter veelal afhankelijk van het beleid van de leveranciers van de oorspronkelijke teksten. 

Op het gebied van moderne spraakcorpora beschikt het OTA over een versie van het Eindhoven corpus, 

de CHILDES corpora, het London-Lund corpus, het Lexis gesproken Engels corpus, John Kirk’s Noord-Iers 

corpus (400.000 tokens) en de Duitse Ulm Textbank (transcripties van psycho-diagnostische interviews). 

Voor verdere informatie zie de Website van het OTA onder URL: 

4.3.8 Het Project Gutenberg 

http://firth.natcorp.ox.ac.uk/ota/public/index.shtml 

Het Project Gutenberg is een Amerikaans initiatief om zoveel mogelijk geschreven teksten op de computer op 

te slaan en ter beschikking te stellen aan geïnteresseerden. Vanwege de hanteerbaarheid is gekozen voor opslag 

zonder applicatie- of systeemspecifieke code in platte ASCII-tekens. Om allerlei problemen met distributie 

te voorkomen, is gekozen voor de opname van uitsluitend teksten in het publiek domein. Aangezien het 

copyright op een tekst pas kan vervallen 50 jaar na de dood van de auteur, betreft de collectie slechts oude 

teksten. Omdat de selectie bovendien beperkt blijft tot fictieve lectuur, literaire fictie en naslagwerken, is 

dit project qua inhoud en codeerwijze geheel irrelevant voor het CGN-project. Informatie is te vinden op 

het WWW onder URL: 

http://mirrors.org.sg/pg/index.html 

Hierbij zij nog vermeld, dat het eerder opgezette Georgetown University Catalogue of Projects in Electronic 

Text, dat een goed gestructureerd overzicht gaf van elektronische tekstbestanden over de hele wereld, na 

1993 door gebrek aan menskracht niet meer is bijgewerkt, en inmiddels samen met het op VMS gebaseerde 

gopher-systeem is afgesloten (privécorrespondentie met Michael Neuman, Georgetown University). 

4.4 Moderne Nederlandstalige Gesproken Corpora 

4.4.1 Het ANNO Corpus 

Het ANNO-corpus werd ontwikkeld in het kader van het Vlaamse korte-termijnprogramma Spraak- en Taaltechnologie. 

Dit programma werd in 1993 door de Vlaamse regering geïnitieerd met als doel de achterstand 

op het gebied van deze technologie t.o.v. de hoofdtalen binnen de Europese Gemeenschap zoveel mogelijk 

weg te werken. Het aanmaken van corpora werd gezien als een onderdeel van het initiatief, dat “het uitbouwen 

van goede logistieke ondersteuning van het wetenschappelijk onderzoek in verband met taaltechnologie” 

beoogde (zie Spraak- en Taaltechnologie voor het Nederlands, 1993). 

50

ANNO, dat bedoeld is als “een geannoteerde publieke gegevensbank voor het geschreven Nederlands”, is 

te zien als een pilotproject om te komen tot een standaard voor het samenstellen en annoteren van grotere 

Nederlandstalige corpora. Het materiaal bestaat uit BRTN radio-nieuwsberichten en afleveringen van de 

radio actualiteitenrubriek Actueel. Het taalgebruik in deze uitzendingen wordt beschouwd als de nationale 

standaard. De teksten bestaan oorspronkelijk uit geschreven taal die bedoeld is om uitgesproken te worden. 

Daarnaast bevat het tekstmateriaal ook origineel gesproken taal in de vorm van getranscribeerde interviews. 

Het project werd uitgevoerd door het Centrum voor Computerlinguïstiek aan de Katholieke Universiteit 

Leuven. 

Gegevens: 

• Omvang: 

– types: ? 

– tokens: 640.000. 

• Samenstelling (teksttypes): BRTN radio-nieuwsuitzendingen en uitzendingen van de actualiteitenrubriek 

Actueel. Dit laatste deel bevat zowel voorgelezen spraak als spontane interviews. 





– gehanteerde standaard: SGML voor de tekststructuur. 




– gehanteerde interpunctie: orthografisch. 

• Annotatieniveaus: orthografie, tekststructuur in SGML, syntactische tagging volgens WOTAN 

(TOSCA-groep vakgroep Taal en Spraak, KU Nijmegen), fonetische transcriptie van de woorden uit 

CELEX, dan wel gegenereerd met TreeTalk (Walter Daelemans, KU Brabant), morfologische tags 

deels aangebracht met Keper (Polderland Nijmegen), syntactische (redekundige) ontleding deels met 

METAL (Siemens), discourse analyse deels volgens een onbekend systeem. Zie voor een demo van de 

diverse annotatieniveaus de URL: 


http://www.ccl.kuleuven.ac.be/about/ANNO/DEMO/21mrt08u.html 

• Copyright: Aangezien het uitzendingen van de BRTN betreft, zijn er problemen met de openbaarmaking 

van het corpus gerezen. Momenteel kan het corpus niet buiten de KU Leuven gebruikt worden. 

Er zijn onderhandelingen gaande. 

• Beschikbaarheid opnames: momenteel niet. 






51

4.4.2 Het COGEN Corpus 

Het Corpus Gesproken Nederlands COGEN vloeide, net als het ANNO-bestand, voort uit het korte-termijn 

programma Spraak- en Taaltechnologie van de Vlaamse regering. De COGEN-databank moest voorzien in 

een grote variëteit aan opnames van een aantal standaardwoorden en -zinnen en één stuk lopende tekst. 

Sprekers werden gerecruteerd uit alle lagen van de bevolking, waarbij de voorwaarde was dat ze geen dialect 

spraken, maar zich zoveel mogelijk conformeerden aan het Standaard-Nederlands. Het doel was hiermee 

voldoende data te verzamelen voor een systeem voor robuuste continue spraakherkenning. Uitvoering geschiedde 

door het Departement Elektrotechniek (ESAT) van de KU Leuven en de vakgroep Elektronica 

en Informatiesystemen (ELIS) van de Universiteit Gent. De gegevens hieronder komen grotendeels uit 

privécorrespondentie met Wim Goedertier (ELIS). 

Gegevens (zie ook Bouma & Schuurman, 1998: 29-30): 

• Omvang: 

– types: ? 

– tokens: 

∗ 63.510 (RS OFF) 

∗ 23.000 (SS TEL operator) 

∗ 13.230 (SS TEL informant) 

• Samenstelling (teksttypes): 

– WL OFF (word list office): gespelde woorden (10 uit een set van 40), commandowoorden, cijfers en 

fonetisch rijke woorden (100 uit een set van 400), voorgelezen in een normale (enigszins rumoerige) 

kantooromgeving. 

– RS OFF (read speech office): voorgelezen lopende krantentekst (5 alinea’s, gemidd. 73 woorden 

per alinea) in een (enigszins rumoerige) kantooromgeving. 

– WL TEL (word list telephone): voorgelezen woordenlijsten over de telefoon. 

– SS TEL (spontaneous speech telephone): spontane spraak over de telefoon. 3 vragen naar informatie 

via gesimuleerde mens-machine-dialoog. De medewerker (operator) las hierbij de respons 

van de computer op van de monitor. Dit deel is dus voorgelezen spraak. 

• Sprekergegevens: 174 sprekers uit verschillende regio’s, leeftijdsgroepen en sociaal-economische klassen. 

De bedoeling was evenwel dat ze zoveel mogelijk Standaard Nederlands spraken. Het deel WL TEL 

telt 185 sprekers, het deel SS TEL slechts 126. 

• Opnamedatum: 1995? 

• Opnameduur (pauzes steeds weggeknipt): 

– 2,16 uur (WL OFF gespeld) 

– 5,83 uur (WL OFF voorgelezen) 

– 7,02 uur (RS OFF) 

– 5,85 uur (WL TEL) 

– 3,48 uur (SS TEL operator) 

– 2,00 uur (SS TEL informant) 


– gehanteerde standaard: YAPA (fonemische transcriptie). Deze standaard werd in Vlaanderen 

ontwikkeld voor het eerder genoemde korte-termijn programma. 


52

– sprekerwisseling, behandeling overlap: niet relevant. 



• Annotatieniveaus: handmatig geverifieerde orthografische transcriptie (incl. aarzelingen, versprekingen, 

reparaties), automatische fonemische transcriptie door Lernhout & Hauspie, handmatig geverifieerde 

fonemische transcriptie (slechts 3.4% van RS OFF, andere delen niet), daarnaast automatische 

labelling op foonniveau (= fonetische segmentatie), d.w.z. discrete kenmerken binnen een foneem, zoals 

ontploffing, toonbaar, aspiratie, sluiting, glottale stop, door ELIS, handmatig geverifieerde fonetische 

segmentatie (slechts 3,4% van RS OFF, andere delen niet). 

• Status privacy informanten: geanonimiseerd (nr0001, nr0002, etc.) 

• Copyright: 

– ESAT/ELIS(?) (WL OFF) 

– ESAT/ELIS (RS OFF) 

– ESAT/ELIS/Lernhout & Hauspie (WL TEL) 

– ESAT/ELIS (SS TEL) 

• Beschikbaarheid opnames: ja, behalve WL TEL, dat gedeeld eigendom is van Lernhout & Hauspie. 

– geluidsdrager: 6 CD-ROMS. 

– opnametechniek: 

∗ 16 kHz, 16 bit (RS OFF). 

∗ 8 kHz, 8 bit (SS TEL) met analoge telefoonverbinding. File formaat raw A-law data. 


– elektronische versie: ja, orthografische transcriptie in *.txt files, autom. fonemische transcriptie 

in *.tts files, handmatige correctie fonemische transcriptie in *.phn files, autom. fonetische segmentatie 

in *.lab files, handmatige correctie fonetische segmentatie in *.hla files. Soundfiles met 

extensie *.sam. 

– relatie signaal-transcriptie (volledigheid-koppeling): ja, op frase-niveau voor de files *.txt, *.tts, 

*.phn (RS OFF), op sprekerniveau voor de files *.txt, *.tts, *.phn (SS TEL). Samples van de data 

RS OFF en SS TEL bevinden zich op de ftp-site van ELIS onder URL: 

4.4.3 Het PBS Corpus 

ftp://elis.rug.ac.be/pub/speech/cgn/ 

Dit is een Vlaams corpus van Phonetically Balanced Sentences. Het is opgesteld aan de Universiteit van 

Gent, door de vakgroep ELIS. De volgende gegevens komen voort uit privécommunicatie met Wim Goedertier 

(ELIS). 

Gegevens: 

• Omvang: 

– types: 441. 

– tokens: 11.518. 

• Samenstelling (teksttypes): 13 fonetisch gebalanceerde zinnen. 

• Sprekergegevens: 130 sprekers. 

53


• Opnameduur: 1,18 uur. 







• Annotatieniveaus: niet geverifieerde orthografische transcriptie (prompts), fonetische transcriptie in 

*.phn-files, 30,8% fonetisch gesegmenteerd in *.hla-files. 


• Copyright: ELIS. 



– opnametechniek: sampling rate 10 kHz, deel 11 kHz, fileformaat µ-law (12 bit). 


– elektronische versie: ja, orthografische transcriptie (prompts), fonetische transcriptie in *.phnfiles, 

fonetische segmentaties in *.hla-files. 


4.4.4 Het Groningen Corpus 

Dit is een corpus met Nederlandse voorgelezen spraak, verzameld door A.M. Sulter en H.K. Schutte. Het is 

te verkrijgen bij het Europese consortium ELRA. 

Gegevens: 

• Omvang: 

– types: ? 

– tokens: ? 

• Samenstelling (teksttypes): voorgelezen tekst: 20 getallen, 16 eenlettergrepige woorden, 3 lange klinkers 

(a, e, i), 23 fonetisch rijke korte zinnen, twee stukken tekst met veel directe rede om ’emotionele spraak’ 

op te wekken. 

• Sprekergegevens: 238 sprekers. 94 sprekers lezen ook nog een uitgebreide woordenlijst voor. Gegevens 

over leeftijd, lengte, gewicht, rook- en drinkgedrag zijn opgenomen. Er zijn ook pathologische sprekers 

opgenomen. De stemkwaliteit is beschreven door de spreker zelf en een panel van luisteraars. De 

sprekers worden gekarakteriseerd als sprekers van het Standaard-Nederlands. 


• Opnameduur: meer dan 20 uur. 



54





• Annotatieniveaus: orthografische transcriptie. 


• Copyright: ELRA/ELSNET. 

• Beschikbaarheid opnames: ja, bij ELRA. 

– geluidsdrager: 4 CD-ROMS. Oorspronkelijke opname op PCM tapes. 



– elektronische versie: ja, spraakfiles en orthografische transcripties. 


4.4.5 Het Speech Styles Corpus 

Een Nederlands gesproken corpus bestaande uit het spraaksignaal en bijbehorende orthografische transcriptie, 

samengesteld door het Expertisecentrum SPEX (Leidschendam). Het bevat spontane spraak (monologen), 

semi-spontane spraak (plaatjesbeschrijvingen) en voorgelezen spraak. De opstellers en uitvoerenden waren 

R. van Bezooijen en J. van Rie. 

Gegevens: 

• Omvang: 

– types: 6.300. 

– tokens: 118.000. 

• Samenstelling (teksttypes): spontane spraak (monologen), semi-spontane spraak (plaatjesbeschrijvingen) 

en voorgelezen spraak, in aanwezigheid van een begeleider. Het onderwerp van gesprek was steeds 

huishoudelijke zaken, eetgewoonten en voedsel. Hierdoor komt het vocabulaire sterk overeen. 

• Sprekergegevens: 127 sprekers: 

– Man: 60 sprekers. 

– Vrouw: 67 sprekers. 

– Leeftijd -20: 30 sprekers. 

– Leeftijd 20-60: 45 sprekers. 

– Leeftijd 60+: 52 sprekers. 

• Opnamedatum: ? (transcriptiedatum (1994) in *.hdr-files) 

• Opnameduur: meer dan 19 uur. 

– 4,66 uur monoloog. 

– 10,35 uur plaatjesbeschrijvingen. 

– 4,19 uur voorgelezen tekst. 


55


– geclitiseerde en andere niet-standaard vormen: ja, clitica en gereduceerde vormen, volgens meegeleverde 

transliteratielijst (speechstyles.txt). 

– sprekerwisseling, behandeling overlap: overlap tussen hekjes #. 

– behandeling bij- en achtergrondgeluiden: aangegeven door algemeen label ’[noise]’. 

– gehanteerde interpunctie: geen. Interpunctie wordt gebruikt voor de prosodie: punten voor pauzes, 

uitroeptekens voor emfatische klemtoon (contrastief accent), komma voor intonatieve scheiding, 

dubbele punt voor verlenging. 

• Annotatieniveaus: orthografisch (alles onderkast, behalve eigennamen met hoofdletter). Versprekingen 

tussen asterisks, weggelaten woorden tussen ronde haakjes (), gecorrigeerde woorden tussen vissenhaakjes 

, interrupties door de interviewer tussen accolades {}, onduidelijke woorden tussen dubbele ronde 

haakjes (()), paralinguïstische kenmerken tussen rechte haakjes []. Fonetische transcriptie inclusief prosodische 

codes. 

• Status privacy informanten: geanonimiseerd (id-nummers 001, 002 etc., die elk corresponderen met 

een directory tree van die naam). 

• Copyright: SPEX (?) 

• Beschikbaarheid opnames: ja, bij SPEX (?). 


– opnametechniek: sampling rate 16 kHz, 16 bits A/D-conversie. 

– signaal-ruisverhouding: gunstig (studiokwaliteit). 

– elektronische versie: ja, audiofiles in NIST format (*.wav files) en esps format (*.sd files). Bijbehorende 

orthografische transcriptie in *.tra files. Bijbehorende fonetische transcriptie in *.phono 

files. In de root directory van de CD bevindt zich ook een lexicon met de fonetische transcriptie 

van alle woorden in het corpus. Er is ook een apart lexicon met alle gereduceerde vormen en 

clitica. Dit kan van belang zijn voor het CGN-project. 

– relatie signaal-transcriptie (volledigheid-koppeling): op uitingenniveau (uiting is gedefinieerd als 

een semantische eenheid tussen twee pauzes, die minstens een subject en een werkwoord bevat). 

56

Voorbeelden: 

Orthografische transcriptie monoloog spreker 001: 

[000000000] 

ik woon in Ouderkerk aan de Amstel 

[000037808] 

dat is een dorpje . onder Amsterdam 

[000110768] 

zo dicht [uh] bij Amsterdam en dan een echt dorp 

[000167424] 

ut is dus niet zoals Amstelvee:n of als Amsterdam Zuid de Bijlmer . maar een echt ouderwets dorp 

met een dorpspleintje met . heel veel kerken . eromheen 

[000349360] 

Ouderkerk dat zegt ut dus al 〈kerk〉 kerken . [loud breath] is een: . beetje rare gemeente ut is een 

hele oude gemeente 

Bijbehorende fonetische transcriptie monoloog spreker 001: 

[000000000] 

”Ik ”wo:n ”In ”Au-d@r-%kEr-@k ä:n ”d@ ”Am-st@l 

[000037808] 

”dAt ”Is ë:n ”dOr-@p-j@ . ”On-d@r Am-st@r-”dAm 

[000110768] 

”zo: ”dIxt [uh] ”bEi Am-st@r-”dAm ”En ”dAn ë:n ”Ext ”dOr-@p 

[000167424] 

IJt ”Is ”dYs ”nit zo:-”Als Am-st@l-”ve:n ”Of ”Als Am-st@r-”dAm ”z9yt ”d@ ”bEil-m@r . ”ma:r 

ë:n 

”Ext Au-d@r-”wEts ”dOr-@p ”mEt ë:n ”dOr-@ps-plEin-tj@ ”mEt . ”he:l ”fe:l ”kEr-k@ . @-rOm- 

”he:n 

[000349360] 

”Au-d@r-%kEr-@k ”dAt ”zExt IJt ”dYs ”Al 〈”kEr-@k〉 ”kEr-k@ . [loud breath] ”Is ë:n . ”be:-tj@ 

”ra:-r@ x@-”me:n-t@ IJt ”Is ë:n ”he:-l@ ”Au-d@ x@-”me:n-t@ 

4.4.6 Het OVIS Corpus 

Dit corpus is ook bekend onder de naam VIOS. Er zijn verschillende versies in omloop van verschillende 

grootte ten behoeve van verschillende soorten onderzoek en bewerking. Het betreft hier bandopnames van 

het openbaar vervoer-reisinformatiesysteem van de NS. De opnames zijn gemaakt door de KPN t.b.v. het 

uittesten van dit mens-machine dialoogsysteem. De (summiere) gegevens hieronder komen uit persoonlijke 

communicatie met Mieke Rats, wetenschappelijk consulent bij de firma Compuleer, die momenteel bewerking 

van het corpus onderzoekt. 

Gegevens: 

• Omvang: 20.000 dialogen. 

– types: niet bekend. 

– tokens: niet bekend. 

• Samenstelling (teksttypes): machine-gestuurde mens-machine dialoog. Daarnaast ook mens-mens dialogen 

(kennelijk als back-up voor het automatische systeem). 

57






– geclitiseerde en andere niet-standaard vormen: wil men opnemen. 




• Annotatieniveaus: men wil naast orthografie ook syntactische en pragmatische coderingen aanbrengen, 

zodat ook specifieke taalfenomenen kunnen worden geselecteerd als syntactische structuren, ellipsis, 

versprekingen, en specifieke dialoogsituaties zoals bijvoorbeeld correctiestrategieën. 


• Copyright: KPN/OVR/NS (?) 

• Beschikbaarheid opnames: mogelijk problematisch vanwege copyright en privacyoverwegingen. 






4.4.7 Corpora van het Meertensinstituut 

Aan het Meertensinstituut van de KNAW in Amsterdam wordt momenteel gewerkt aan een omvangrijk 

dialectcorpus van het Modern Gesproken Nederlands. Het uiteindelijk streven is 400 Noord-Nederlandse 

(incl. de Friese taal) en 200 Zuid-Nederlandse dialecten vast te leggen in 2000 voorgedefinieerde items, zowel 

woorden in isolatie als zinnetjes. 

58

5 Evaluatie 

Uit de voorafgaande inventarisatie van bestaande spraakcorpora en pogingen tot het definiëren van standaards 

voor het verzamelen, bewerken en openbaar maken van dergelijke corpora vallen een aantal aanbevelingen 

en aandachtspunten af te leiden. 

Het gaat hierbij om eisen die aan de corpusinhoud, het corpusformaat en de corpusannotatie kunnen 

worden gesteld. De meeste hiervan zijn taalkundig van aard, of worden gestuurd door taalkundige behoeften: 

• Corpusinhoud: 

– omvang. 

– representativiteit (sterke eis)/spreiding (zwakke eis). 

– stratificatie. 

– steekproefmethode. 

• Corpusformaat: 

– opnametechniek. 

– medium/drager. 

– opslag en conservering. 

– organisatie fragmenten (filestructuur, database, etc.). 

• Corpusannotatie: 

– orthografische transcriptie. 

– tekstuele structuur: SGML, XML, etc. 

– grammaticale en fonetische annotatieniveaus. 

– koppeling spraaksignaal aan transcriptie en annotatie. 

Een aantal aandachtspunten: 

1. Maak geen gebruik van clandestiene opnames in verband met juridische (en ook ethische) bezwaren. 

Vraag altijd vooraf schriftelijk toestemming, alleen indien dit onmogelijk is achteraf. Regel ook vooraf 

alle auteursrechtelijke kwesties rond het beschikbaarstellen van de gesproken data voor wetenschappelijk 

en commercieel gebruik. Ook openbare opnames, b.v van radio of TV, kunnen problematisch 

zijn in verband met het verkrijgen van persoonlijke gegevens (leeftijd, opleidingsniveau, etc.) van de 

sprekers, en de mogelijk hierbij door hen gevoelde inbreuk op hun privacy. 

2. De opnametechniek moet gegeven de omstandigheden zo goed mogelijk zijn, omdat alle andere transcriptie- 

en annotatieniveaus hiervan afhangen. 

3. De transcriptie moet orthografisch zo nauwkeurig mogelijk zijn, omdat anders de annotatie (b.v. met 

grammaticale tags) problematisch wordt. Daarom zijn er eigenlijk twee orthografische niveaus nodig: 

één transliteratie die nauw aansluit bij het gesprokene, dus met fonetische en prosodische annotaties, 

paralinguïstische verschijnselen en context-notities, die we kunnen betitelen als ’narrow’, en één 

standaard orthografische transcriptie en interpunctie, die tagging vergemakkelijkt en zo vergelijkend 

lexicologisch en grammaticaal onderzoek mogelijk maakt. Deze kunnen we kenschetsen als ’broad’ 

(Edwards, 1995: 20). 

4. Extra-linguïstische gegevens (demografische en persoonlijke data, situationele context, mogelijk communicatieve 

niet-vocale fenomenen) moeten zoveel mogelijk ter plekke worden genoteerd en later opgenomen 

in of bij het transcript, omdat deze essentieel kunnen zijn voor het begrip van de tekst en 

later veelal niet meer te achterhalen zijn. 

59

5. Indien gebruik wordt gemaakt van een fonemische transcriptie (met eventueel prosodische informatie) 

dan dient aansluiting bij Unicode of anders SAMPA te worden overwogen. 

6. Wanneer het signaal wordt meegeleverd in gedigitaliseerde vorm, inclusief oscillo- en spectrogrammen, 

dan beïnvloedt dat de fonologische, fonemische, fonetische en akoestische niveaus van transcriptie. Het 

is discutabel dat dergelijke meer aan interpretatie onderhevige en slecht in absolute grootheden te 

karakteriseren informatie zeer gedetailleerd met de hand moet worden vastgelegd (gesteld dat het al 

binnen redelijke tijd kan worden vastgelegd), als het snel op te zoeken is in (de combinatie van) het 

spraaksignaal en de transcriptie (b.v. Chafe et al., 1991: 72-73). 

7. Er moet zorg voor worden gedragen, dat de corpora herbruikbaar zijn voor verschillende doeleinden. 

8. Herbruikbaarheid impliceert: 

(a) Duidelijke uitgangspunten. 

(b) Aansluiting bij (inter)nationale standaards of minstens bij eerdere succesvolle projecten (’best 

practice’). 

(c) Een van tevoren vastgesteld transcriptieen annotatieprotocol. Codes mogen niet ambigu zijn, 

d.w.z. duidelijk afgebakend zijn ten opzichte van elkaar. Te veel detaillering werkt in die zin 

contraproductief. 

(d) Interactieve en post hoc validatiemethodes voor de kwaliteit en consistentie van transcriptie en 

annotatie. 

(e) Platform- en applicatie-onafhankelijkheid. Wanneer ook zeer gebruikersvriendelijke codeerstrategieën 

gebonden zijn aan platform-specifieke software, zoals syncWRITER voor de Apple Macintosh, 

dan lijdt dat onherroepelijk tot problemen. 

(f) Beschikbaarheid van het signaal en alle codeerniveaus. 

(g) Uitbreidbaarheid voor locale applicaties (b.v. verrijking met discourse tags voor een promotieonderzoek). 

9. Los van mate waarin het transcriptieen annotatieprotocol vastligt, en kan worden gevalideerd tijdens 

en na het codeerproces, geldt dat codes werkbaar moeten zijn voor de codeurs. Er moeten discrete 

sets mnemonische codes worden gedefinieerd, waarbij software zorg kan dragen voor interactieve ondersteuning 

en conversie naar meer abstracte codes, indien gewenst. Uiteraard komt een dergelijke 

formulering ook de efficiency en de consistentie van het coderen ten goede. Gedetailleerde, vaak als 

omslachtig ervaren standaards zoals de TEI-extensies van SGML en XML moeten beoordeeld worden 

op hun toepasbaarheid op grote gesproken corpora (Sinclair, 1995: 106-109). Lijsten met toegestane 

gereduceerde, geclitiseerde vormen, interjecties, dialectwoorden, fonologisch functionele eenheden en 

andere conventies moeten worden opgesteld ter (mogelijk softwarematige) ondersteuning van de codeur 

en, in een later stadium, de eindgebruikers. 

10. Het gebruik van op hypertext en hypermedia gebaseerde middleware, die de orthografische transcriptie 

aan de lineaire tijdsdimensie van het spraaksignaal kan koppelen in samenhang met andere afgeleide 

gegevens, zoals annotaties, databases, header-files, enz. moet worden overwogen, zowel voor annotatieals 

exploratie-doeleinden (resp. codeurs en eindgebruikers). Indexering van veel opgevraagde tiers is 

geboden voor snelle retrieval. 

11. Additieve annotatie (waarbij tags in de tekstsequentie zijn opgenomen) moet op deze en andere (computationele) 

gronden worden afgewogen tegen referentiële annotatie, waarbij bidirectionele pointers via 

byte offsets tekstdelen associëren met bepaalde markeringen. De laatste methode geniet de voorkeur, 

mits het doorzoeken en laden van de relaties niet te veel tijd kost. 

12. Uitgebreide annotatieniveaus moeten per niveau weg te filteren zijn uit de transcripten d.m.v. de 

gebruikersinterface en uit af te drukken versies, omdat anders de tekst onleesbaar wordt. 

13. De gebruikersinterface moet een grafisch en intuïtief benaderbaar karakter hebben. 

60

14. Er moet in weergave van transcriptie en annotatie een balans gevonden worden tussen leesbaarheid en 

presenteerbaarheid enerzijds en efficiënte en betrouwbare quantitatieve exploitatie anderzijds. 

6 Gidsprojecten voor de Toekomst 

In dit hoofdstuk worden een aantal recente of nog lopende initiatieven en projecten vernoemd, die mogen gelden 

als wegbereiders voor de geheel gedigitaliseerde aanleg, annotatie en ontsluiting van met name gesproken 

corpora. Zij kunnen gezien worden als voorbeelden voor waar CGN naar streeft. 

Een bijzonder interessant overzicht van allerhande tools en formaten die op dit gebied voorhanden zijn 

is te vinden op de Webpage Linguistic Annotation van Steven Bird en Mark Liberman: 

6.1 Het GATE Project 

http://morph.ldc.upenn.edu/annotation/ 

Het GATE-project (General Architecture for Text Engineering), opgezet bij de vakgroep Computer Science 

aan de Universiteit van Sheffield, beoogt de bouw van een theorie-neutrale, platform- en applicatie-onafhankelijke 

grafische ontwikkelomgeving voor NLP-tools en tekstbestanden. Het is vooral ondernomen om bestaande 

NLP-modules op een efficiënte manier te hergebruiken en te koppelen (Cunningham et al., 1997). 

Het systeem bestaat uit een databank, inclusief een managementsysteem, waarin documenten en hun diverse 

bewerkingsslagen kunnen worden opgeslagen (GDM - GATE Document Manager) met SGML als opslagformaat 

(input/output), en daarnaast de GATE Graphical Interface (GGI), waarin de documenten kunnen 

worden bewerkt. Via dit interface kan men de data op een grafische manier beheren, benaderen, bekijken, 

bewerken en opslaan. Bewerkingsprocessen kunnen worden opgebouwd door verschillende bestanden 

en tools samen te brengen in een data flow diagram, en te activeren met muiskliks. Het GGI ondersteunt 

ook visualisatie van de output, zoals highlighted matches in een tekst, of boomdiagrammen als output van 

parsering. 

Tenslotte omvat GATE een aantal modules, die een interface vormen tussen GGI en eigen bestanden 

en programma’s van de end-user die vrijelijk kunnen worden ingeplugd in GATE (parsers, taggers, teksten, 

lexica, etc.). Deze gaan onder de naam CREOLE (Collection of REusable Objects for Language Engineering). 

Zij vormen a.h.w. een laag om de tools heen, waardoor geabstraheerd kan worden van concrete 

opslagformaten, programmeertalen en besturingssystemen (Cunningham et al., 1996). De tekstannotaties 

worden referentieel i.p.v. additief aan de documenten toegevoegd d.m.v. pointers tussen de byte offsets van 

de tekstdelen en de in de GDM-database opgeslagen codes, dus het is wel zaak, dat applicaties dit type van 

verwijzingen ondersteunen. 

GATE is geschreven in C++ en Tcl/Tk en draait op UNIX en Windows NT. Een geheel herziene Javaversie 

is in de maak. 

Het systeem, evenals beschikbare CREOLE-objecten, is het stadium van prototyping reeds lang gepasseerd 

en kan worden ingezet in concrete NLP-taken. Het kan na registratie gratis worden opgehaald in 

Sheffield via ftp. 

Zie: 

6.2 Het EUDICO Project 

http://www.dcs.shef.ac.uk/research/groups/nlp/gate/ 

EUDICO (EUropean DIstributed COrpora project) is een initiatief van het Max Planck Instituut in Nijmegen, 

voortvloeiend uit eerdere ervaringen met de ontwikkeling van een MediaTagger (videotranscriptie en 

-analyse) en MediaEditor (audiotranscriptie en -analyse). Het wordt uitgevoerd op het MPI, met financiering 

van SURFnet. 

Hoewel het niet gebaseerd is op GATE, deelt het wel diens uitgangspunten, in de zin van een formaatonafhankelijk, 

grafisch API (application programming interface), waarbinnen een groot aantal, vaak reeds 

61

estaande tools en corpora kunnen worden ’ingeplugd’ door middel van abstractie van de diverse inputformaten. 

Het project voegt hier twee nieuwe elementen aan toe: 

toegang tot tijdgebaseerde media Aangezien GATE is gebaseerd op tekstuele bronnen, worden links 

geëffectueerd op het woordniveau. Aangezien in toenemende mate audio- en videodata de eigenlijke 

bronbestanden gaan vormen, is het nodig snelle toegang te krijgen tot fragmenten en features gebaseerd 

op de tijdcodes in het signaal. Alle annotaties moeten dus gesynchroniseerd worden met de byte offsets 

van het digitale signaal, niet met de afgeleide transcriptie(s). 

gedistribueerde toegang Immers, bij talloze internationale ontwikkelprojecten – maar ook bij end-user 

toegang tot steeds in omvang toenemende multimediale databases – wordt het steeds wenselijker dat 

deelnemers binnen één virtuele Internet-omgeving samen kunnen werken, ongehinderd door gescheiden 

locaties en verschillende computerinfrastructuur. 

Binnen dit model is ook de mogelijkheid van toegang tot klassen van corpora via meta-informatie expliciet 

gemaakt. De gebruiker kan zo een zoekaktie beperken tot een bepaalde taal, tijd, genre of type spreker, 

waarna de server de bewuste corpora of relevante delen daarvan naar de gebruiker downloadt. 

Vanwege het doel van uniforme Internet-toegang is gekozen voor Java als implementatietaal. 

Zie verder de URLs: 

http://www.mpi.nl/world/tg/lapp/lapp.html 

http://www.mpi.nl/world/tg/lapp/eudico/eudico.html 

6.3 De Edinburgh Language Technology Group 

De Edinburgh Language Technology Group houdt zich o.a. bezig met het ontwikkelen van applicaties voor 

het annoteren en ontsluiten van grote taalcorpora. Zij concentreren zich hierbij, zowel op het theoretische als 

op het praktische vlak, op het ontwikkelen van standaards en tools gebaseerd op SGML en XML. Zij hebben 

in die hoedanigheid bijgedragen aan het W3C en het ISO-overleg over de uitwerking van deze standaards. 

De LT XML-toolset omvat een XML-editor, een parser (voor validatie van documenten), een viewer 

voor zowel de sequentiële als de hiërarchische tekststructuur, een tokenizer en een document-zoektaal. Het 

is geschreven in C, en draait op UNIX, Windows95 en Windows NT. Daarnaast produceert de groep ook 

meer specifiek op linguïstisch onderzoek gerichte taggers, parsers, software voor het schrijven van formele 

grammatica’s en boomdiagrameditors en -viewers. 

De programma’s zijn gratis down te loaden voor academisch gebruik na het ondertekenen van een gebruikersovereenkomst. 

De toolset wordt momenteel gebruikt door ongeveer 1500 academische en commerciële 

instellingen in de wereld. 

Zie: 

http://www.ltg.ed.ac.uk/software/index.html 

6.4 Het Paper A Formal Framework for Linguistic Annotation 

In hun paper A Formal Framework for Linguistic Annotation (Bird & Liberman, 1999) presenteren Steven 

Bird en Mark Liberman van het Linguistic Data Consortium een logisch raamwerk voor linguïstische 

annotatie in de vorm van een annotation graph, waarbinnen allerlei bestaande corpusfileformaten en annotatietypen 

(ook transcripties) te representeren zouden zijn. Zij richten zich hierbij vooral op tijdgebaseerde 

bronbestanden zoals audio, video en fysiologische opnames (b.v. 3D-gebarenopnames). Het sluit hiermee 

duidelijk aan bij het werk van het MPI zoals vervat in EUDICO. 

62

Zij poneren de stelling: 

The one thing that ties all of the time series data together is a shared time base. To use these 

arbitrarily diverse data streams [nl. soorten annotatie en transcriptie], we need to be able to line 

them up time-wise. The shared time base is also the only pervasive and systematic connection 

such data is likely to have with annotations of the type we are discussing in this paper. (1999: 26) 

Zie voor verschillende formaten van het document: 

http://xxx.lanl.gov/abs/cs.CL/9903003 

Er is inmiddels een voorstel ingediend bij de NSF (National Science Foundation) om dit idee en een bijbehorende 

toolbox verder uit te breiden. Daarmee zou het, ook gezien de leidende rol van het LDC, wel eens 

een heel invloedrijk project kunnen worden. 

6.5 Het Zweedse Gesproken Corpus Project 

Dit project wordt geleid door Jens Allwood aan de Universiteit van Göteborg. Wat dit corpus bijzonder 

maakt is niet zozeer zijn grootte (1,2 miljoen tokens), als wel de gedegen opzet. Zo is er een opdeling naar diverse 

activiteiten, om zo systematische verschillen in uitspraak, vocabulaire en syntax op het spoor te komen. 

Verder zijn gedetailleerde protocols voorhanden voor orthografische transcriptie (inclusief de behandeling van 

uitspraakvariatie op vier niveaus: standaard-orthografie, modified standard, fonematisch, fonetisch), markering 

van sprekerwisseling en -overlap, niet-verbale klanken, enz. Deze zijn on-line opvraagbaar, voor een deel 

in het Engels. Daarnaast wordt er gewerkt aan een toolset, waaronder transcriptiesoftware (TransTool, geschreven 

in Tcl/Tk, downloadable) en pakketten voor tijdsynchrone codering en presentatie van multimedia 

en transcripties. 

Zie: 

6.6 Het Hyperlex Project 

http://www.ling.gu.se/SLSA/SLcorpus.html 

Steven Bird heeft baanbrekend werk verricht op het gebied van presentatie van doorzoekbare lexica in HTMLformulier-formaat. 

Hierin kunnen restricties worden gespecificeerd op orthografie, fonologie, morfologie etc. 

in de vorm van extended reguliere expressies (ondersteund door een Perl cgi-bin script). Ook kan het 

gesproken signaal worden afgespeeld (weliswaar slechts via hyperlinks naar individuele audiofiles). Zie Bird 

(1997). 

Zie: 

7 Referenties 

http://www.ldc.upenn.edu/hyperlex/ 

Atkins, B.T.S., J. Clear & N. Ostler (1992). Corpus Design Criteria. In: Literary and Linguistic Computing, 

Journal of the Association for Literary and Linguistic Computing 7, 1: 1-16. 

Bird, S. (1997). A Lexical Database Tool for Quantitative Phonological Research. In: Proceedings of the Third 

Meeting of the ACL Special Interest Group in Computational Phonology. July 1997: 33-39. 

Bird, S. & M. Liberman (1999). A Formal Framework for Linguistic Annotation. Technical Report MS-CIS-99- 

01. Department of Computer and Information Science, Linguistic Data Consortium, University of Pennsylvania. 

Boogaart, P.C. Uit den (1975). Woordfrequenties: in Geschreven en Gesproken Nederlands. Utrecht: Oosthoek, 

Scheltema & Holkema. 

63

Bouma, G. & I. Schuurman (1998). De Positie van het Nederlands in Taal- en Spraaktechnolgie. Rapport in 

opdracht van de Nederlandse Taalunie. 

Burnard, L. (ed.) (1995). Users Reference Guide for the British National Corpus. Oxford: Oxford University 

Computing Services. 

Chafe, W.L., J.W. Du Bois & S.A. Thompson (1991). Towards a New Corpus of Spoken American English. 

In: K. Aijmer & B. Altenberg (eds.) English Corpus Linguistics: Studies in Honour of Jan Svartvik. 

London/New York: Longman, 64-82. 

Crowdy, S. (1995). The BNC Spoken Corpus. In: Leech et al., 224-234. 

Cunningham, H., Y. Wilks & R.J. Gaizauskas (1996). New Methods, Current Trends and Software Infrastructure 

for NLP. In: Proceedings of the 2nd Conference on New Methods in Natural Language Processing (NeMLaP- 

2), Bilkent University. 

Cunningham, H., K. Humphreys, Y. Wilks & R. Gaizauskas (1997). Software Infrastructure for Natural Language 

Processing. In. Proceedings of the Fifth Conference on Applied Natural Language Processing (ANLP- 

97). 

De Vriendt-De Man, M.J. (1969). Frequentie van Woorden en Structuren in Spontaan Gesproken Nederlands. 

Brussel: Didier. 

Edwards, J.A. (1992). Computer Methods in Child Language Research: Four Principles for the Use of Archived 

Data.Journal of Child Language 19, 435-458. 

Edwards, J.A. (1995). Principles and Alternative Systems in the Transcription, Coding and Mark-up of Spoken 

Discourse. In: Leech et al., 19-34. 

Feldweg, H. (1992). The European Science Foundation Second Language Databank. Ongepubliceerd document, 

MPI Nijmegen. 

Gibbon, D., R. Moore & R. Winski (eds.) (1997). Handbook of Standards and Resources for Spoken Language 

Systems. Berlin/New York: Mouton de Gruyter. 

Goldfarb, C.F. & P. Prescod (1998). The XML Handbook. Upper Saddle River, NJ: Prentice Hall PTR. 

Hart, J. ’t, R. Collier & A. Cohen (1990). A Perceptual Study of Intonation. Cambridge: Cambridge University 

Press. 

Greenbaum, S. (1991). The Development of the International Corpus of English. In: K. Aijmer & B. Altenberg 

(eds.) English Corpus Linguistics: Studies in Honour of Jan Svartvik. London/New York: Longman. 

Heikens, H. (1978). Een Sociolinguïstisch Opgebouwd Corpus Amsterdamse Spreektaal. In: Taal en Tongval 

30, 36-49. 

Jong, E.D. de (1979). Spreektaal: Woordfrequenties in Gesproken Nederlands. Utrecht: Bohn, Scheltema & 

Holkema. 

Knowles, G., B. Williams & L. Taylor (eds.) (1996). A Corpus of Formal British English Speech: the Lancaster/IBM 

Spoken English Corpus. London/New York: Longman. 

Kohler, K., M. Pätzold & A. Simpson (1995). From Scenario to Segment: The Controlled Elicitation, Transcription, 

Segmentation and Labelling of Spontaneous Speech. Arbeitsberichte (AIPUK) 29, Institut für Phonetik 

und Digitale Sprachverarbeitung, IPDS, Universität Kiel, Duitsland. 

Leech, G. (ed.) (1990). Proceedings of a Workshop on Corpus Resources. Wadham College, Oxford: DTI/Speech 

and Language Technology Club. 

Leech, G., G. Myers & J. Thomas (eds.) (1995). Spoken English on Computer: Transcription, Mark-up and 

Application. Harlow/New York: Longman. 

Linssen-Maes, A. & G. Redeker (1992). Interruptiegedrag van Vrouwen en Mannen in Radio- en Televisiediscussies. 

In: Gramma/TTT - Tijdschrift voor Taalwetenschap 1, 133-148. 

MacWhinney, B. (1995). The CHILDES Project: Tools for Analyzing Talk. Hillsdale(USA)/Hove(UK): Lawrence 

Erlbaum Associates. 

Redeker, G. (1992). ’Kleine woordjes’ in spontaan taalgebruik - stoplapjes of signalen voor de lezer/luisteraar? 

In: Toegepaste Taalwetenschap in Artikelen, 43, 55-65. 

Redeker, G. & A. Maes (1996). Gender Differences in Interruptions. In: D. Slobin et al. (eds.) Social Interaction, 

Social Context and Language, 597-612. 

Roach, P. & S. Arnfield (1995). Linking Prosodic Transcription to the Time Dimension. In: Leech et al., 1995: 

149-160. 

64

Roach, P., G. Knowles, T. Varadi & S. Arnfield (1993). MARSEC: A Machine-Readable Spoken English Corpus 

In: Journal of the International Phonetic Association 23(2): 47-53. 

Schaerlaekens, A.M. (1973). The Two-Word Sentence in Child Language Development: a Study Based on Evidence 

Provided by Dutch-speaking Triplets. The Hague/Paris: Mouton. 

Silverman, K., M. Beckman, J. Pitrelli, M. Ostendorf, C. Wightman, P. Price, J. Pierrehumbert & J. Hirshberg 

(1993). TOBI: A standard for labeling English prosody. In: Proc. Intern. Conf. on Spoken Language 

Processing, Banff, Alberta, Canada, 12-16 October 1993, 867-870. 

Sinclair, J. (1995). From Theory to Practice. In: Leech et al., 99-109. 

Sperberg-McQueen, C.M. & L. Burnard (1994). Guidelines for Electronic Text Encoding and Interchange (TEI 

P3). Vols. I+II. Chicago/Oxford: Text Encoding Initiative. 

Spraak- en Taaltechnologie voor het Nederlands (1993). Nota Vlaamse regering. 

Van de Velde, H. (1996). Variatie en Verandering in het Gesproken Standaard Nederlands (1935-1993). Proefschrift 

Katholieke Universiteit Nijmegen. 

65

Nederlandse Gesproken Corpora: een Inventarisatie

Create successful ePaper yourself

Delete template?

Save as template?