15.09.2013 Views

Nederlandse Gesproken Corpora: een Inventarisatie

Nederlandse Gesproken Corpora: een Inventarisatie

Nederlandse Gesproken Corpora: een Inventarisatie

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Nederlandse</strong> <strong>Gesproken</strong> <strong>Corpora</strong>: <strong>een</strong> <strong>Inventarisatie</strong><br />

Drs. R.J. Piepenbrock<br />

CELEX - Centrum voor Lexicale Informatie<br />

Max Planck Instituut voor Psycholinguïstiek<br />

Postbus 310<br />

6500 AH Nijmegen<br />

Telefoon: +31-(0)24-3615797<br />

Fax: +31-(0)24-3521213<br />

E-mail: celex@mpi.nl<br />

Homepage: http://www.kun.nl/celex/<br />

7 juni 1999<br />

Versie 1.5<br />

1


Inhoudsopgave<br />

1 Inleiding 3<br />

2 Het Historische Perspectief 4<br />

2.1 <strong>Corpora</strong> van de Eerste Generatie (-1980) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

2.1.1 Corpus De Vriendt-De Man . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

2.1.2 Eindhoven Corpus (Corpus Uit den Boogaart) . . . . . . . . . . . . . . . . . . . . . . 6<br />

2.1.3 Corpus De Jong . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />

3 De Eerste Elektronische <strong>Gesproken</strong> <strong>Corpora</strong> 9<br />

3.1 <strong>Corpora</strong> van de Tweede Generatie (1980-1990) . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />

3.1.1 De CHILDES kindertaal-databank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />

3.1.2 De ESF migrantentaal-databank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

3.1.3 <strong>Nederlandse</strong> dialoogcorpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

3.2 Andere <strong>Gesproken</strong> Datacollecties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

4 Recente Ontwikkelingen: <strong>Gesproken</strong> <strong>Corpora</strong> en Standaardisatie 23<br />

4.1 <strong>Corpora</strong> van de Derde Generatie (1990-) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

4.2 De Opkomst van Internationale Standaards . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />

4.2.1 SGML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />

4.2.2 XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

4.2.3 TEI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

4.2.4 EAGLES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34<br />

4.3 Het Ontstaan van Internationale Datacollecties . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />

4.3.1 De EUROM1 databank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />

4.3.2 Het European Corpus Initiative (ECI) . . . . . . . . . . . . . . . . . . . . . . . . . . . 41<br />

4.3.3 Het Multilingual Parallel Corpus (MLCC) . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />

4.3.4 Het International Corpus of English . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />

4.3.5 Het British National Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />

4.3.6 Het POLYPHONE Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48<br />

4.3.7 Het Oxford Text Archive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />

4.3.8 Het Project Gutenberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />

4.4 Moderne Nederlandstalige <strong>Gesproken</strong> <strong>Corpora</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />

4.4.1 Het ANNO Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />

4.4.2 Het COGEN Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52<br />

4.4.3 Het PBS Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53<br />

4.4.4 Het Groningen Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54<br />

4.4.5 Het Speech Styles Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55<br />

4.4.6 Het OVIS Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57<br />

4.4.7 <strong>Corpora</strong> van het Meertensinstituut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58<br />

5 Evaluatie 59<br />

6 Gidsprojecten voor de Toekomst 61<br />

6.1 Het GATE Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61<br />

6.2 Het EUDICO Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61<br />

6.3 De Edinburgh Language Technology Group . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />

6.4 Het Paper A Formal Framework for Linguistic Annotation . . . . . . . . . . . . . . . . . . . . 62<br />

6.5 Het Zweedse <strong>Gesproken</strong> Corpus Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />

6.6 Het Hyperlex Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />

7 Referenties 63<br />

2


1 Inleiding<br />

Wanneer we met elkaar door middel van taal communiceren, dan is spraak het primaire medium. Hoewel<br />

geschreven taal zich in dit informatietijdperk <strong>een</strong> hoge status en <strong>een</strong> wijde verbreiding heeft verworven, blijft<br />

het <strong>een</strong> afgeleide van het gesproken woord. Toch is het huidige fundamentele taalonderzoek qua beschrijving<br />

van grammatica en lexis, evenals de toepassingsgerichte taalstudie (lexicografie, talenonderwijs) grotendeels<br />

gebaseerd op geschreven bronnen. Dit leidt onvermijdelijk tot vertekeningen in de analyse van ons standaard<br />

taalgebruik.<br />

Tot voor kort was gesproken taal echter zo lastig te vergaren, te verwerken, te archiveren en te ontsluiten,<br />

dat uit deze praktische overwegingen nauwelijks tot grootschalige analyse van gesproken taal kon worden<br />

overgegaan. Nu in het laatste decennium <strong>een</strong> veelheid aan geavanceerde computertechnieken de registratie,<br />

bewerking en opslag van grote hoeveelheden spraak mogelijk maakt, en de integratie van spraak in multimediale<br />

pakketten even<strong>een</strong>s in allerlei toepassingen opgeld doet, lijkt het moment aangebroken om substantiële<br />

inspanningen te plegen om de gesproken taal in kaart te brengen. De opzet van <strong>een</strong> Corpus <strong>Gesproken</strong><br />

Nederlands (CGN) van 10 miljoen woorden, <strong>een</strong> samenwerkingsproject tussen de Vlaamse en <strong>Nederlandse</strong><br />

overheden, moet dan ook in dit licht worden bezien.<br />

Behalve dat de samenstelling van <strong>een</strong> corpus van <strong>een</strong> dergelijke omvang ook met de huidige stand der<br />

techniek nog zeer veel financiële ondersteuning vereist, vormt het project ook in taalkundig en computationeel<br />

opzicht <strong>een</strong> grote uitdaging. Zo zullen, op grond van de ervaringen met vergelijkbare initiatieven, zoals<br />

het British National Corpus (BNC), keuzes moeten worden gemaakt op het gebied van de corpusinhoud<br />

(de taalsamples), het corpusformaat (opslag, vorm, interne structuur), de linguïstische annotatie en de<br />

uiteindelijke beschikbaarstelling aan gebruikers.<br />

De uitdaging van het project zal er voor <strong>een</strong> groot deel in bestaan, om, anders dan bij het BNC, de<br />

orthografische transcriptie voor alle uitingen op te lijnen met het akoestisch signaal, en vervolgens beide<br />

beschikbaar te stellen. Immers, juist bij transcriptie van het gesproken signaal gaat, zelfs bij uitgebreide<br />

annotatie, veel akoestische informatie verloren (b.v. tempo, amplitude, duur, intonatie, pauzes, volgens<br />

transcribeur onverstaanbare woorden, overlappingen, aarzelingen, versprekingen). Ook zal <strong>een</strong> transcriptie<br />

volgens één bepaalde methode vaak onbruikbaar zijn voor wetenschappers geïnteresseerd in <strong>een</strong> andere<br />

discipline (b.v. prosodische vs. orthografische transcriptie, standaardisatie van clitica en reducties vs. nauwkeurige<br />

transliteratie van deze varianten, taalkundige vs. redekundige analyse). Daarnaast ontbreekt vaak<br />

informatie over de situationele context, evenals ondersteunende gebaren, lichaamshouding, gelaatsuitdrukkingen<br />

en hoofdbewegingen. Om deze nadelen zoveel mogelijk te beperken, is toegang tot het spraaksignaal,<br />

en wellicht zelfs videofragmenten, waar voorhanden, onontbeerlijk. Bovendien zal het project voorzien in<br />

morfologische en semantische koppeling aan bestaande lexicale bestanden. Ook zal <strong>een</strong> deel van het corpus<br />

verrijkt worden met gedetailleerde fonetische en fonologische informatie.<br />

Bij alle activiteiten in het kader van het CGN-project zal voorop moeten staan, dat het beoogde corpus<br />

aantrekkelijk moet zijn voor <strong>een</strong> groot aantal wetenschappelijke en niet-wetenschappelijke disciplines en<br />

applicaties. Verder zal, in navolging van aanbevelingen van verschillende (inter)nationale instanties, zorg<br />

worden gedragen voor <strong>een</strong> zo laagdrempelig, gebruikersvriendelijk en veelzijdig mogelijke toegang tot het<br />

spraaksignaal, de transcriptie en de diverse annotatielagen. Dat impliceert zo veel mogelijk aansluiting bij<br />

expliciet door de diverse disciplines gedefinieerde, dan wel in de praktijk gegroeide (best practice) standaardmethoden<br />

en -technieken voor de verschillende bewerkingsslagen van het gesproken materiaal.<br />

In het kader van het CGN beoogt dit rapport zo veel mogelijk in kaart te brengen, welke inspanningen<br />

reeds op het vlak van registratie, bewerking en eventueel openbaarmaking van spraak gepleegd zijn binnen het<br />

<strong>Nederlandse</strong> taalgebied (Nederland en Vlaanderen). Ook zal worden ingegaan op internationale standaards<br />

op het gebied van corpora en buitenlandse projecten die voor het CGN <strong>een</strong> voorbeeldfunctie zouden kunnen<br />

vervullen. Het doel is m.a.w. tweeledig: inventarisatie van bestaand materiaal en evaluatie van reeds<br />

gebruikte of nog in ontwikkeling zijnde methoden en technieken. Bronnen worden waar nodig vermeld voor<br />

verdere referentie.<br />

3


2 Het Historische Perspectief<br />

De geschiedenis van de opbouw van gesproken corpora kan ruwweg worden opgedeeld in drie periodes:<br />

het tijdperk van handmatige verwerking van bandopnames, het decennium van geautomatiseerde studie<br />

van het signaal, en tenslotte de (belofte van) volledig computergestuurde opname, transcriptie, annotatie<br />

en ontsluiting van dit moment. Voor het historisch perspectief zal eerst worden ingegaan op <strong>een</strong> aantal in<br />

boekvorm verschenen corpora, die niettemin voor hun tijd revolutionair waren, omdat de computer reeds <strong>een</strong><br />

integraal onderdeel van de bewerkingsslag uitmaakte. Uitgebreide studie van het signaal en de transcripties,<br />

door de samensteller of anderen, was hierbij evenwel niet het uitgangspunt van de verzameling. Opname van<br />

gesproken taal was slechts <strong>een</strong> middel om te komen tot betrouwbare frequentietellingen voor het gesproken<br />

Nederlands met het oog op beter gestructureerd talenonderwijs.<br />

2.1 <strong>Corpora</strong> van de Eerste Generatie (-1980)<br />

In deze periode werd het gesproken signaal opgenomen op analoge audiotapes, waarna de spraak veelal eerst<br />

met de hand werd getranscribeerd, en daarna overgetypt. Waarschijnlijk zijn uit deze periode <strong>een</strong> groot<br />

aantal bandrecorderspoelen en cassettes (indien nog afspeelbaar) met notities en/of transcripties aanwezig<br />

op het Meertensinstituut in Amsterdam. Het betreft hier echter waarschijnlijk vooral dialectmateriaal.<br />

Volgens Heikens (1978: 37) zijn hier all<strong>een</strong> al in de periode 1960-1975 maar liefst 1500 bandopnames met<br />

voornamelijk spontane spraak in dialect verzameld. De status van deze banden (zowel qua conditie als<br />

beschikbaarheid, inclusief mogelijke bewerkingen) is vooralsnog onduidelijk. Systematische analyse van op<br />

het algem<strong>een</strong> spraakgebruik gerichte bestanden vond vooral in het buitenland plaats, zoals het Survey of<br />

English Usage (SEU), opgezet door Randolph Quirk en zijn medewerkers in 1959. De uiteindelijke versie<br />

bestaat uit 200 teksten van elk 5000 woorden uit de periode 1953-1987, waarvan de helft gesproken materiaal<br />

betreft. Allerlei woordkenmerken werden hierbij op kartonnen kaartjes geïllustreerd met getranscribeerde<br />

uitingen van informanten.<br />

Het gesproken deel van het SEU (500.000 tokens) werd later computationeel bewerkt tot het London-<br />

Lund Corpus (LLC) door Jan Svartvik en zijn team. Dit proces van automatisering van oude bestanden<br />

vond en vindt nog steeds plaats voor <strong>een</strong> aantal gelijksoortige corpora. Voor het LLC zijn redelijk uitgebreide<br />

fonologische annotaties voorhanden naast het orthografische niveau, zoals toonhoogte, plaatsing<br />

van de kernaccenten, twee soorten pauze, twee soorten accent, sprekeridentificatie, gelijktijdig spreken, contextueel<br />

commentaar en onverstaanbare woorden. Paralinguïstische kenmerken en bepaalde aanvullende<br />

commentaren over intonatie en accenten zijn niet aangegeven. Ook zijn de geluidsfragmenten (deels?) nog<br />

bewaard gebleven en opvraagbaar aan het University College London.<br />

Zoals gezegd waren de inspanningen voor het vastleggen van algem<strong>een</strong> gangbaar Nederlands geringer. Uit<br />

deze periode stammen drie volgens <strong>een</strong> van tevoren geformuleerde strategie gesamplede en getranscribeerde<br />

corpora van dit teksttype, te weten het corpus De Vriendt-De Man, het Eindhoven Corpus (Uit den Boogaart<br />

corpus), en het corpus De Jong.<br />

2.1.1 Corpus De Vriendt-De Man<br />

Deze studie had als doel gegevens over frequente woorden en zinsstructuren te verzamelen in de spontane<br />

<strong>Nederlandse</strong> (Noord- en Zuid-<strong>Nederlandse</strong>) spreektaal (De Vriendt-De Man, 1969: 5). Het uitgangspunt<br />

diende g<strong>een</strong> zuiver wetenschappelijke interesse: de resultaten moesten bijdragen aan verbeterd Nederlands<br />

onderwijs aan Franstaligen. De methodologie hiervoor was sterk geënt op het werk van G. Gougenheim et<br />

al., L’Elaboration du Français Fondamental uit 1964. Zeker voor <strong>een</strong> uit 1969 stammende dissertatie als deze<br />

zijn de gegevens over sampling, opname en verwerking zeer volledig.<br />

Gegevens:<br />

• Omvang:<br />

– types: niet vast te stellen (altijd morfosyntactische codes aanwezig).<br />

– tokens: 117.122 (58.578 N-N, 58.544 Z-N, volgens opgave boek).<br />

4


– extra info: type-tag combinaties niet vast te stellen door uitsluiten types met F 〈 5.<br />

• Samenstelling (teksttypes): informele, onvoorbereide of nauwelijks voorbereide dialoog in verschillende<br />

situationele context (winkel, vriendenbezoek, radiointerview). 465 gespreksonderwerpen (gecodeerd).<br />

– 29 gesprekken:<br />

∗ 13 Zuid-Nederlands (eigen opnames Grembergen: 1/3, BRT: 1/6),<br />

∗ 16 Noord-Nederlands (eigen opnames Noord-Brabant + Zeeuws-Vlaanderen: 1/3, Radio Omroep<br />

Zuid (Maastricht) 1/6).<br />

• Sprekergegevens: 117 informanten, 73 man, 44 vrouw. Leeftijd, beroep/sociale status, plaats van<br />

herkomst en plaats van opname aangegeven.<br />

• Opnamedatum: ?<br />

• Opnameduur: ± 20 uur.<br />

• Annotatieschema:<br />

– gehanteerde standaard: g<strong>een</strong>.<br />

– geclitiseerde en andere niet-standaard vormen 1 : beperkt (’d’r’, ’d’rbij’, ’ie’, maar ’het’ voluit)<br />

– sprekerwisseling, behandeling overlap: sprekerwisseling: ja, overlap: nee.<br />

– behandeling bij- en achtergrondgeluiden: nee.<br />

– gehanteerde interpunctie: ja, orthografische interpretatie.<br />

• Annotatieniveaus:<br />

– Orthografisch: alles onderkast, behalve eigennamen en afkortingen, getallen uitgeschreven. Aarzelingen<br />

aangegeven, pauzes d.m.v. speciale ASCII-karakters.<br />

– Taalkundig: syntactische tags slechts in afgeleide frequentielijst, niet in lopende tekst.<br />

• Status privacy informanten: ?<br />

• Copyright: ?<br />

• Beschikbaarheid opnames: ?<br />

– geluidsdrager: analoge audiospoelen.<br />

– opnametechniek: verborgen microfoon bij eigen opnames (veel achtergrondgeluiden, ook door<br />

situationele context, professionele apparatuur voor radioopnames BRT en ROZ).<br />

– signaal-ruisverhouding: 120-6.000 Hz ± 3 dB.<br />

– elektronische versie: indertijd ingetypt op 13.858 ponskaarten, Université Libre de Bruxelles.<br />

Onleesbaar?<br />

– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />

1 geclitiseerde vormen zijn twee of meer woorden die zich gedragen als één fonologisch woord, vaak met syllabe-deletie, zoals<br />

[tIs] voor ’het is’. Verder onderscheid kan gemaakt worden naar functionele <strong>een</strong>heden, waarbij het gaat om de combinatie<br />

van functiewoorden, en de term clitica voorbehouden blijft aan combinaties van lexicale woorden en functiewoorden. Bij<br />

gereduceerde vormen gaat het om één oorspronkelijk woord, zonder syllabe-deletie, zoals [@m] voor ’hem’.<br />

5


2.1.2 Eindhoven Corpus (Corpus Uit den Boogaart)<br />

Dit corpus werd opgesteld om <strong>een</strong> nauwkeurig idee te krijgen van in Nederland (niet in Vlaanderen) veel<br />

voorkomend taalgebruik d.m.v. frequentietellingen van woorden. Het onderzoek werd uitgevoerd door de<br />

Werkgroep Frequentie-Onderzoek van het Nederlands, gesubsidieerd door Z.W.O. (het <strong>Nederlandse</strong> Fonds<br />

voor Zuiver Wetenschappelijk Onderzoek, nu het N.W.O.) en de Technische Hogeschool Eindhoven (geschreven<br />

taal) en het Instituut voor Dialectologie, Volks- en Naamkunde van de Koninklijke <strong>Nederlandse</strong><br />

Academie voor Wetenschappen te Amsterdam (nu: Meertensinstituut) (gesproken taal). Het geschreven deel<br />

bevat fragmenten van in totaal 600.000 woorden uit de periode 1964-1971. Het gesproken deel is aanzienlijk<br />

kleiner. Oorspronkelijk in 1975 in boekvorm verschenen als Woordfrequenties: in Geschreven en <strong>Gesproken</strong><br />

Nederlands.<br />

Gegevens:<br />

• Omvang: ABN-file:<br />

– types: 4.041 (minus interpunctie, puur op orthografische string).<br />

– tokens: 59.941 (minus interpunctie).<br />

– extra info: 5.009 unieke type-tag combinaties.<br />

• Omvang: dialectfile:<br />

– types: 4.808 (minus interpunctie, puur op orthografische string).<br />

– tokens: 60.339 (minus interpunctie).<br />

– extra info: 5.901 unieke type-tag combinaties.<br />

• Omvang bronnen gecombineerd:<br />

– types: 7.065 (minus interpunctie, puur op orthografische string).<br />

– tokens: 120.280 (minus interpunctie).<br />

– extra info: 8.696 unieke type-tag combinaties.<br />

• Samenstelling (teksttypes): 26 volledig opgenomen gesprekken (vanwege gebrek aan materiaal), varierend<br />

van groepsdiscussies, interviews en gesproken brieven (academisch niveau) tot informele dialoog<br />

(laag opleidingsniveau) (Uit den Boogaart, 1975: 13).<br />

• Sprekergegevens:<br />

– 13 gesprekken door ’academici of daarmee gelijk te stellen personen die geacht worden ABN te<br />

spreken’ (Uit den Boogaart, 1975: 13).<br />

– 13 gesprekken ’mensen met weinig schoolopleiding uit <strong>een</strong> aantal plaatsen in Noord- en Zuid-<br />

Holland’ (Uit den Boogaart, 1975: 13).<br />

• Participanten: aandeel gespreksleider (van hoger opleidingsniveau) verwijderd bij informele dialoog.<br />

• Opnamedatum: 1960-1973.<br />

• Opnameduur: ?<br />

• Annotatieschema:<br />

– gehanteerde standaard: g<strong>een</strong>.<br />

– geclitiseerde en andere niet-standaard vormen: ja, sporadisch (’ie’, ’effe’, ’gelejen’, ”n’, ’mekaar’,<br />

’bennen’).<br />

– sprekerwisseling, behandeling overlap: nee.<br />

– behandeling bij- en achtergrondgeluiden: nee.<br />

6


– gehanteerde interpunctie: g<strong>een</strong>, soms onduidelijke interpunctietekens.<br />

• Annotatieniveaus:<br />

– Orthografisch: alles onderkast, geverticaliseerd voor Esprit-formaat.<br />

– Taalkundig: morfosyntactische tags (woordsoort en flexievorm).<br />

• Status privacy informanten: onduidelijk. Besproken personen (anders dan informanten) geanonimiseerd<br />

met codes ’x[0-2]’en ’y[0-2]’.<br />

• Copyright: Op verschillende instituten is <strong>een</strong> versie van het corpus aanwezig; het is onduidelijk of er<br />

copyright op het corpus rust. Waarschijnlijk is dit niet het geval voor wetenschappelijk gebruik.<br />

• Beschikbaarheid opnames: ?<br />

– geluidsdrager: nee.<br />

– elektronische versie: ja, ASCII computerfiles, kennelijk in verschillende formaten (transcriptie<br />

met of zonder annotatie) op diverse instituten als Taal & Spraak KUN, Max Planck Instituut<br />

(CELEX), Systeemhuis TU Eindhoven, Mathematisch Centrum Amsterdam.<br />

∗ Lopende tekstversie getagged met Uit den Boogaart’s lexicale codes onder de naam ’Eindhoven<br />

Corpus’, inclusief Jan Renkema’s onderzoek ’De Taal van Den Haag’.<br />

∗ Vertikaal opgesplitste versie onder de naam ’Esprit Corpus’, inclusief het bestand van Renkema<br />

en andere corpora, o.a ’De Gelderlander’, getagged met Esprit 860-codes.<br />

∗ <strong>Gesproken</strong> Esprit files:<br />

· dut abn rel1.uni (ABN-file, academisch).<br />

· dut dia rel1.uni (dialectfile, lager opleidingsniveau).<br />

– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />

2.1.3 Corpus De Jong<br />

Dit corpus bevat uitsluitend spreektaal en is als <strong>een</strong> beter gestratificeerd vervolg opgezet van het onderzoek<br />

naar woordfrequenties in het gesproken Nederlands door Uit den Boogaart (1975). Dezelfde corpusgrootte<br />

(t.o.v. van het deelcorpus) en dezelfde annotatiewijze zijn gehanteerd om vergelijking <strong>een</strong>voudig te maken.<br />

Oorspronkelijk in 1979 in boekvorm verschenen als Spreektaal: Woordfrequenties in <strong>Gesproken</strong> Nederlands.<br />

• Omvang:<br />

– types: niet vast te stellen (altijd morfosyntactische codes aanwezig).<br />

– tokens: 120.000 (volgens opgave boek).<br />

– extra info: 8.603 unieke type-tag combinaties (nauwelijks verschil met Uit den Boogaart (1975)).<br />

• Samenstelling (teksttypes): stratificatie naar 4 niet-linguïstische variabelen: gesprekssituatie, geslacht,<br />

leeftijd en sociaal-economische klasse, volgens Labov (1966), Shuy et al. (1968), en Trudgill (1974):<br />

16 groepen gelijkelijk verdeeld over de 4 variabelen (7500 woorden per groep). Voor gesprekssituatie:<br />

formeel (interview over opleiding en beroep) vs. informeel (huiskamergesprek tussen twee informanten<br />

over vrij onderwerp), beide thuis afgenomen, waardoor veel diversiteit m.b.t. kwaliteit opname,<br />

aanwezigheid gezinsleden, etc. Door allerlei omstandigheden (kwaliteit opname, leeftijds-, geslachts- of<br />

klasseverschil bij informele gesprekken) konden slechts iets minder dan de helft van alle 245 opnames<br />

(in totaal 136 formeel, 109 informeel) gebruikt worden: 59% van de formele (= 80), 34% van de informele<br />

(= 37). Uit elk 3 steekproeven genomen van 250 woorden (formeel) en 6 steekproeven van 250<br />

woorden (informeel). Dit omdat 80 formele en slechts 37 informele gesprekken waren gekozen.<br />

7


• Sprekergegevens: Geografische spreiding: uitsluitend Amsterdam, vanuit praktische overwegingen en<br />

opvatting dat dit redelijk representatief is voor standaardtaal (De Jong: 1979: 10). Gelijkelijke verdeling<br />

over geslacht, leeftijd (jong (24-28 jr.) vs. oud (54-58 jr.)) en opleiding en beroep (hoog vs. laag).<br />

Zo ontstonden 8 groepen van tenminste 10 autochtone Amsterdammers. Uitgebreide vragenlijsten met<br />

sprekerinformatie (ook over hobbies, eventuele vorige plaatsen van huisvesting, buurtcontacten, vorm<br />

en duur relatie(s), sociale status ouders en partner, aard en hoeveelheid tot zich genomen informatie<br />

(kranten, tijdschriften, boeken, radio, TV)) zijn beschikbaar.<br />

• Opnamedatum: ?<br />

• Opnameduur: ± 25 minuten per formeel gesprek, ± 50 minuten per informeel gesprek (Heikens, 1978:<br />

36).<br />

• Annotatieschema:<br />

– gehanteerde standaard: g<strong>een</strong>.<br />

– geclitiseerde en andere niet-standaard vormen: nee, alles genormaliseerd naar standaardvorm<br />

vanwege vergelijking met schrijftaal. Dus: ’ie’ ≫ ’hij’, ’effe’ ≫ ’even’, ’as, az’ ≫ ’als’, ’da’s’ ≫<br />

’dat is’, ’kw<strong>een</strong>ie’ ≫ ’ik weet niet’, etc. Vreemd genoeg bevat Uit den Boogaart wel dit soort<br />

woorden. Onafgemaakte woorden gecompleteerd.<br />

– sprekerwisseling, behandeling overlap: ja.<br />

– behandeling bij- en achtergrondgeluiden: nee.<br />

– gehanteerde interpunctie: g<strong>een</strong>.<br />

• Annotatieniveaus:<br />

– Orthografisch: alles onderkast, behalve eigennamen en afkortingen, getallen uitgeschreven.<br />

– Taalkundig: morfosyntactische tags (woordsoort en flexievorm) volgens Uit den Boogaart (1975).<br />

• Status privacy informanten: geanonimiseerd voor persoonsnamen:<br />

– X = voornaam.<br />

– Y = achternaam.<br />

– Z = voor- of achternaam.<br />

– 0 = geslacht onbekend.<br />

– 1 = geslacht vrouw.<br />

– 2 = geslacht man.<br />

• Copyright: Meertensinstituut Amsterdam.<br />

• Beschikbaarheid opnames: ?<br />

– geluidsdrager: indertijd audiospoelen op Meertensinstituut. Nu onafspeelbaar?<br />

– opnametechniek: handmicrofoon en éénsporige Nagra-bandrecorder voor formele gesprekken, omhangmicrofoon<br />

en tweesporen Uher-bandrecorder voor informele gesprekken (één spoor per gesprekspartner).<br />

– elektronische versie: indertijd magneetband ongeannoteerde en geannoteerde transcriptie en op<br />

Meertensinstituut. Onleesbaar?<br />

– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />

8


3 De Eerste Elektronische <strong>Gesproken</strong> <strong>Corpora</strong><br />

3.1 <strong>Corpora</strong> van de Tweede Generatie (1980-1990)<br />

In deze periode begon de computer <strong>een</strong> integraal onderdeel te worden van het analyseproces. De opnames<br />

geschiedden vaak nog op analoge audiospoelen of cassettes, maar in de tweede helft van de jaren 80 steeds<br />

meer op digitale DAT-tapes. Transcriptie gebeurde in eerste instantie regelmatig met de hand, maar zeker in<br />

<strong>een</strong> later stadium werden alle orthografische transcripten omgezet naar computerfiles, waarna verdere analyse<br />

uitgevoerd kon worden met in de jaren 80 steeds meer standaard wordende statistische software zoals SPSS, en<br />

specifiek op taalkundige analyse toegesneden programmatuur als KWIC-concordanties (KeyWord In Context,<br />

in feite bekend sinds John W. Ellison’s Nelson’s Complete Concordance of the Revised Standard Version Bible<br />

uit 1957), de tekstanalyze-programmatuur HUM (Bill Tuthill, Berkeley 1981), TACT (University of Toronto,<br />

1986-89) en CLAN (zie MacWhinney 1995).<br />

Belangrijke doorbraken op het gebied van gesproken corpora in deze tijd waren het het gesproken deel (1,3<br />

miljoen tokens) van het Birmingham University Corpus, in zijn oorspronkelijke, kleinere vorm bekend als het<br />

COLLINS/COBUILD-corpus, en MARSEC (Machine Readable Spoken English Corpus), dat aanvankelijk<br />

naar de samenstellers het Lancaster/IBM Spoken English Corpus werd genoemd. Het volledig gesproken<br />

MARSEC omvat slechts 52.000 tokens (6 uur spraak), maar ondanks de nadruk op geprepareerde en semigeprepareerde<br />

spraak voor synthesedoeleinden, zijn ook samples spontane spraak aanwezig, zoals <strong>een</strong> aantal<br />

colleges en dialogen. Het belangrijkste aspect van dit corpus is echter zijn volledige machine-leesbaarheid, zowel<br />

voor de transcriptie als annotatie met CLAWS2 woordklasse-tags, <strong>een</strong> <strong>een</strong>voudige redekundige ontleding<br />

(skeleton parse), het complete audiosignaal (gesampled op het professionele niveau van 16 kHz), prosodische<br />

kenmerken (klemtoon, intonatiecontouren), en fonemische transcripties (grotendeels automatisch gegenereerd<br />

door koppeling aan <strong>een</strong> uitspraakwoordenboek met inachtneming van de prosodische transcriptie en de grammaticale<br />

labels). Bovendien werd <strong>een</strong> (althans op het syllabe-niveau) betrouwbare oplijning tussen signaal<br />

en transcriptie bereikt d.m.v. matching tussen grafeem-foneem conversie van de orthografische transcriptie<br />

en de uit de spectraalanalyse even<strong>een</strong>s automatisch gegenereerde fonemische transcriptie (Roach & Arnfield,<br />

1995: 150-155). Daarmee vestigde MARSEC <strong>een</strong> nieuwe standaard voor gesproken corpora als bron voor<br />

<strong>een</strong> grote variëteit aan fundamenteel en toepassingsgericht taalkundig onderzoek.<br />

Andere belangrijke internationale initiatieven op dit terrein waren de CHILDES-corpora van kindertaal en<br />

het ESF-corpus van tweede taalverwerving van migranten. Omdat deze ook Nederlandstalige delen bevatten,<br />

en bovendien in elektronische vorm beschikbaar zijn, meestal zelfs met het oorspronkelijke spraaksignaal,<br />

worden ze hieronder uitgebreid besproken.<br />

3.1.1 De CHILDES kindertaal-databank<br />

CHILDES is <strong>een</strong> reeks internationale, centraal verzamelde, opgeslagen en voor ieder<strong>een</strong> toegankelijke corpora<br />

met orthografisch getranscribeerde data met betrekking tot de eerste en tweede taalverwerving van kinderen.<br />

De grondslag voor deze collectie werd gelegd door Brian MacWhinney en Catherine Snow aan de Carnegie<br />

Mellon Universiteit (Pittsburgh), die ook geldt als distributiepunt. Het Max Planck Instituut in Nijmegen is<br />

<strong>een</strong> van de lokale distributie- en ondersteuningspunten (mirror sites), evenals het Departement Germaanse<br />

Filologie van de Universitaire Instelling Antwerpen. Er is in principe g<strong>een</strong> verschil tussen de volgens <strong>een</strong><br />

filestructuur geordende bestanden in Pittsburgh en op lokale sites, mits natuurlijk de laatste versies van de<br />

centrale site regelmatig worden overgehaald.<br />

Transcripties zijn in het gestandaardiseerde CHAT-formaat (Codes for the Human Analysis of Transcripts).<br />

Dit biedt zowel conventies voor orthografische transcriptie als voor annotatie (verrijking met speech<br />

act codes, semantische, syntactische, morfologische analyses etc.) Dit gebeurt via horizontaal opgelijnde regels:<br />

de hoofdregel bevat de orthografische transcriptie, de onderliggende, daaraan verbonden regels de<br />

annotaties, waarbij elke regel slechts één soort annotatie bevat. CHAT staat dus dynamische uitbreiding van<br />

het aantal ’tiers’ toe naar de wensen van de gebruikers, en is daarmee flexibel genoeg om ook andere data<br />

dan CHILDES te coderen. Vanwege de parallelle tiers is het ook mogelijk om te transcriberen op <strong>een</strong> aantal<br />

niveaus, zoals genormaliseerd orthografisch (volgens de officiële spelling), orthografische transliteratie (b.v.<br />

’hebde’ of ’hedde’ in plaats van ’hebt ge’, ’heeft-ie’ in plaats van ’heeft hij’) en fonetische transcriptie. Zo is<br />

9


er minder noodzaak om te kiezen voor <strong>een</strong> vaak slecht hanteerbaar en nog slechter bevraagbaar compromis.<br />

Voorbeeld (uit JACqueline van Kampen’s corpus van het meisje LAUra; %exp is de verklarende tier, %par<br />

de paralinguïstische):<br />

∗LAU: eh bah.<br />

%exp: LAU wants to go to the kitchen<br />

∗JAC: nee we blijven in de kamer, we doen de deur niet open.<br />

%par: LAU protests<br />

∗JAC: nee want dan wordt het veel te koud in de kamer.<br />

∗JAC: als het straks zomer is, dan doen we alles open.<br />

%par: LAU cries<br />

∗LAU: ik keuke.<br />

∗LAU: ik keuke.<br />

Hoewel goed uitbreidbaar in verticale richting, heeft de horizontale oplijning op het (op zich al slecht definieerbare)<br />

uitingenniveau wel zijn beperkingen. Edwards (1992: 459) signaleert bijvoorbeeld, dat de reikwijdte<br />

van <strong>een</strong> bepaalde situationele context (<strong>een</strong> dependent tier bij <strong>een</strong> uiting) niet geheel duidelijk is; <strong>een</strong> herhaling<br />

van b.v. het non-verbale label laughing kan zowel duiden op de voortzetting van het gelach als op <strong>een</strong> nieuwe<br />

handeling. Regelmatig zullen dergelijke niet-verbale en niet-vocale handelingen ook helemaal niet afhankelijk<br />

zijn van verbale uitingen. Verder is er, zoals hieronder zal blijken, veel aan te merken op onderlinge verschillen<br />

in het aantal weergegeven tiers, en in de weergave en classificatie van bepaalde verschijnselen, zoals de<br />

mate van orthografische standaardisering van gesproken woorden en niet-verbale gebeurtenissen als gelach.<br />

Is dit laatste bijvoorbeeld <strong>een</strong> paralinguïstisch fenom<strong>een</strong>, <strong>een</strong> handeling (activiteit), iets voor commentaar,<br />

uitleg of situationele context? Maakt het onderdeel uit van de uiting binnen dezelfde tier, of hoort het thuis<br />

op <strong>een</strong> aparte, afhankelijke tier?<br />

CLAN (Computerized Language Analysis) is de softwaresuite, die op basis van de CHAT-gecodeerde<br />

corpora snel zoekacties kan ondersteunen en kwantitatieve gegevens af kan leiden, zoals frequentietellingen.<br />

Ook CLAN is niet per definitie gebonden aan het CHILDES-corpus.<br />

Er is <strong>een</strong> CED-editor voorhanden om het coderen van de diverse tiers te vergemakkelijken, en links te<br />

kunnen leggen naar de oorspronkelijke audio- of videotapes.<br />

De laatste versies van de CHILDES databank en de CLAN programmatuur kunnen worden overgehaald<br />

per anonymous ftp vanaf de site poppy.psy.cmu.edu<br />

Een uitgebreide beschrijving van de transcriptiecodes, beschikbare programmatuur en corpora wordt<br />

gegeven in MacWhinney (1995).<br />

Het Nederlandstalige deel van CHILDES omvat momenteel 5 volledig gecodeerde bestanden m.b.t. monolinguale<br />

eerste taalverwerving, en 1 geannoteerd Nederlands-Engels bilinguaal corpus. Deze zullen hieronder<br />

afzonderlijk worden behandeld. Deze lijst kan uiteraard slechts <strong>een</strong> tijdsopname zijn; mogelijk worden er op<br />

dit moment reeds bestanden aan CHILDES toegevoegd die relevant zijn voor deze studie.<br />

Gegevens:<br />

Directory tree ’gillis’: Steven Gillis’ longitudinale studie van de Vlaamse jongen Maarten, afdeling Germaanse<br />

taalkunde, Universiteit Antwerpen. Slechts de laatste 13 files van deze studie zijn aanwezig; de eerste<br />

65 (!) moeten nog worden omgezet naar CHAT-formaat.<br />

• Omvang:<br />

– types: 2.390.<br />

– tokens: 50.964.<br />

• Samenstelling (teksttypes): informele dialoog.<br />

• Sprekergegevens: Maarten, 0;11 jr. tot 1;11 jr. en volwassene, meestal zijn moeder.<br />

10


• Opnamedatum: 1981-1982.<br />

• Opnameduur: 104 uur.<br />

• Annotatieschema:<br />

– gehanteerde standaard: CHAT.<br />

– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’da’s’, ’hebde’,<br />

’moetet’).<br />

– sprekerwisseling, behandeling overlap: in speciale orthografische codes.<br />

– behandeling bij- en achtergrondgeluiden: commentaar tier.<br />

– gehanteerde interpunctie: orthografische interpretatie.<br />

• Annotatieniveaus: orthografie, situationele context, fonetiek (PHONASCII). Hiernaast codering (gesynchroniseerd)<br />

non-verbaal gedrag.<br />

• Status privacy informanten: ?<br />

• Copyright: Steven Gillis.<br />

• Beschikbaarheid opnames: ?<br />

– geluidsdrager: videotapes.<br />

– opnametechniek: ?<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ja, orthografische transcriptie plus annotaties.<br />

– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />

Directory tree ’laura’: Jacqueline van Kampen’s longitudinale studie van het <strong>Nederlandse</strong> meisje Laura,<br />

Faculteit der Letteren, Universiteit Utrecht. Deze directory heet nu ’vankampen’, in over<strong>een</strong>stemming met<br />

de naam van de onderzoeker.<br />

• Omvang:<br />

– types: 1.524.<br />

– tokens: 19.983.<br />

• Samenstelling (teksttypes): informele dialoog.<br />

• Sprekergegevens: Laura, 1;9 jr. tot 5;10 jr. en volwassene (moeder, J. van Kampen zelf).<br />

• Opnamedatum: 1988-1992.<br />

• Opnameduur: 3.600 uur.<br />

• Annotatieschema:<br />

– gehanteerde standaard: CHAT.<br />

– geclitiseerde en andere niet-standaard vormen: nee.<br />

– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap nee.<br />

– behandeling bij- en achtergrondgeluiden: paralinguïstische tier.<br />

– gehanteerde interpunctie: orthografische interpretatie.<br />

• Annotatieniveaus: orthografie, commentaar, verklaring, paralinguïstische tier.<br />

11


• Status privacy informanten: ?<br />

• Copyright: Jacqueline van Kampen.<br />

• Beschikbaarheid opnames: ?<br />

– geluidsdrager: audiospoelen.<br />

– opnametechniek: Prefer OCC/1121 microfoon, Nakamichi 350 recorder.<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ja, orthografische transcriptie plus annotaties.<br />

– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />

Directory tree ’schaer’: A.M. Schaerlaekens’ studie van 2 Vlaamse (?) drielingen, steeds twee jongens en<br />

één meisje. Katholieke Universiteit Leuven (Schaerlaekens 1973).<br />

• Omvang:<br />

– types: 1.695.<br />

– tokens: 35.185.<br />

• Samenstelling (teksttypes): informele dialoog.<br />

• Sprekergegevens:<br />

– ene tweeling: 1;10 jr. tot 3;1 jr.<br />

– andere tweeling: 1;6 jr. tot 2;10 jr.<br />

– (in beide gevallen spraak volwassen gesprekspartner niet weergegeven).<br />

• Opnamedatum: 1969-1970.<br />

• Opnameduur: ?<br />

• Annotatieschema:<br />

– gehanteerde standaard: CHAT.<br />

– geclitiseerde en andere niet-standaard vormen: ja, zie %tra tier.<br />

– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap nee.<br />

– behandeling bij- en achtergrondgeluiden: nee.<br />

– gehanteerde interpunctie: orthografische interpretatie.<br />

• Annotatieniveaus: orthografie, morphosyntax (taalkundig, redekundig, congruentie (%agr)), orthografische<br />

transliteratie (%tra) i.p.v. fonetische tier (b.v.’%tra an peelgoed ale’ voor ’Arnold speelgoed<br />

halen’).<br />

• Status privacy informanten: ?<br />

• Copyright: ?<br />

• Beschikbaarheid opnames: ?<br />

– geluidsdrager: audiospoelen (nu onbruikbaar).<br />

– opnametechniek: draadloze microfoons (nu irrelevant).<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ja, orthografische transcriptie plus annotaties.<br />

12


– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />

Directory tree ’utrecht’: Loekie Elbers’ en Frank Wijnen’s longitudinale studie van <strong>Nederlandse</strong> jongens<br />

Thomas en Hein, Universiteit Utrecht.<br />

• Omvang:<br />

– types: 3.901 (Hein), 3.575 (Thomas).<br />

– tokens: 107.704 (Hein), 95.912 (Thomas).<br />

• Samenstelling (teksttypes): informele dialoog.<br />

• Sprekergegevens: beide van 2;3 jr. tot 3;1 jr., en volwassene (moeder).<br />

• Opnamedatum: 1980-1981.<br />

• Opnameduur: 71 uur.<br />

• Annotatieschema:<br />

– gehanteerde standaard: CHAT.<br />

– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’ie’, ’d’r’, ”t’).<br />

– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap in CHAT-codes<br />

[].<br />

– behandeling bij- en achtergrondgeluiden: paralinguïstische tier.<br />

– gehanteerde interpunctie: orthografische interpretatie.<br />

• Annotatieniveaus: orthografie, handelingen, geadresseerde, alternatieve orthografische transcriptie,<br />

commentaar, Engelse vertaling, versprekingen, verklaring, gebaren en proxemische activiteit, aarzelingen,<br />

morfosyntax (all<strong>een</strong> taalkundig), paralinguïstische tier, fonetiek (incl. interrupties, non-fluencies,<br />

intonatiecontour, amplitude, reparaties), situatie, speech acts (herhaling en imitatie).<br />

• Status privacy informanten: ?<br />

• Copyright: Loekie Elbers en Frank Wijnen.<br />

• Beschikbaarheid opnames: ?<br />

– geluidsdrager: ?<br />

– opnametechniek: ?<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ja, orthografische transcriptie plus annotaties.<br />

– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />

Directory tree ’wijnen’: Frank Wijnen’s longitudinale studie van <strong>Nederlandse</strong> jongen Niek, Universiteit<br />

Utrecht.<br />

• Omvang:<br />

– types: 3.732.<br />

– tokens: 81.527.<br />

• Samenstelling (teksttypes): informele dialoog.<br />

• Sprekergegevens: Niek, van 2;7 jr. tot 3;10 jr. en volwassene (vader, Frank Wijnen zelf).<br />

13


• Opnamedatum: 1983-1984.<br />

• Opnameduur: 31 uur, waarvan 23 uur getranscribeerd.<br />

• Annotatieschema:<br />

– gehanteerde standaard: CHAT.<br />

– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’ie’, ’d’r’, ’(he)t’<br />

i.p.v. ”t’).<br />

– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap in CHAT-codes<br />

[].<br />

– behandeling bij- en achtergrondgeluiden: paralinguïstische tier.<br />

– gehanteerde interpunctie: orthografische interpretatie.<br />

• Annotatieniveaus: orthografie, handelingen, geadresseerde, alternatieve orthografische transcriptie,<br />

commentaar, versprekingen, verklaring, gebaren en proxemische activiteit, aarzelingen, paralinguïstische<br />

tier, fonetiek (incl. interrupties, non-fluencies, intonatiecontour, amplitude, reparaties), situatie,<br />

speech acts (imitatie).<br />

• Status privacy informanten: ?<br />

• Copyright: Frank Wijnen.<br />

• Beschikbaarheid opnames: ?<br />

– geluidsdrager: ?<br />

– opnametechniek: ?<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ja, orthografische transcriptie plus annotaties.<br />

– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />

Directory tree ’dehouwer’: longitudinale bilinguale studie van het Vlaamse meisje Kate (Engels-Nederlands)<br />

door Annick De Houwer, Universiteit Antwerpen.<br />

• Omvang:<br />

– types: 3.562<br />

– tokens: 47.832<br />

• Samenstelling (teksttypes): informele dialoog.<br />

• Sprekergegevens: Kate, van 2;7 jr. tot 3;4 jr., plus onderzoeker(s), moeder en (soms) vader.<br />

• Opnamedatum: ?<br />

• Opnameduur: 19 uur.<br />

• Annotatieschema:<br />

– gehanteerde standaard: CHAT.<br />

– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’wa’s’, ’da’s’, ”t’,<br />

”n’).<br />

– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap: nee.<br />

– behandeling bij- en achtergrondgeluiden: commentaar tier.<br />

14


– gehanteerde interpunctie: orthografische interpretatie.<br />

• Annotatieniveaus: orthografie, morfosyntax (taalkundig en redekundig, incl. info woordvolgorde en<br />

ellipsis), versprekingen, aarzelingen, herhalingen, interrupties, non-fluencies, reparaties, handelingen,<br />

verklaring, situatie, commentaar, fonologie (beperkt).<br />

• Status privacy informanten: geanonimiseerd.<br />

• Copyright: Annick De Houwer.<br />

• Beschikbaarheid opnames: ?<br />

– geluidsdrager: audiocassette.<br />

– opnametechniek: draagbare cassetterecorder met ingebouwde multi-directionele microfoon.<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ja, orthografische transcriptie plus annotaties.<br />

– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />

Daarnaast bevinden zich in het CHILDES-archief op Carnegie Mellon University nog de volledig ongedocumenteerde<br />

’clpf’-data, van kennelijk 12 kinderen uit de jaren 1988-1991, met in totaal 2.722 types, 37.140<br />

tokens.<br />

Verder is er <strong>een</strong> bestand ’groning’, volledig ongedocumenteerd, van kennelijk 7 kinderen uit de jaren<br />

1992-1995. De namen van de codeurs zijn Gerard Bol, Caroline Elskamp, Puck Goossens, Evelien Krikhaar,<br />

Paulien Rijkhoek, Frank Wijnen. In totaal 19.990 types, 977.797 tokens.<br />

3.1.2 De ESF migrantentaal-databank<br />

Dit corpus heet voluit de European Science Foundation Second Language Databank (ESFSLD), <strong>een</strong> elektronisch<br />

archief van longitudinale studies naar de tweede taalverwerving van <strong>een</strong> aantal volwassen immigranten<br />

uit 6 landen (zie: Feldweg 1992). Voor elk van de 6 moedertalen (brontalen, nl. Punjabi, Italiaans, Turks,<br />

Arabisch, Spaans en Fins), werden twee groepen geselecteerd, die elk dezelfde tweede taal (de doeltaal, nl.<br />

Engels, Duits, Nederlands, Frans of Zweeds) in hun nieuwe land moesten leren. De studie startte in 1982,<br />

en werd in 1987 voltooid. Zo werden <strong>een</strong> aantal Spanjaarden gevolgd, die ofwel Frans ofwel Zweeds moesten<br />

leren. Verder werd het Zweeds ook als doeltaal vastgesteld voor <strong>een</strong> groep Finse migranten, evenals het<br />

Frans voor Arabische sprekers.<br />

Dit maakte het mogelijk om zowel verschillen en over<strong>een</strong>komsten te meten tussen het leren van twee doeltalen<br />

door groepen van dezelfde nationaliteit, als het leren van één doeltaal door groepen van verschillende<br />

nationaliteit. In totaal werden 40 allochtone werknemers geselecteerd, wier conversatie met native speakers<br />

van de doeltaal op de band werd vastgelegd en later getranscribeerd volgens <strong>een</strong> centraal vastgesteld protocol.<br />

Alle migranten werden maandelijks geïnterviewd over <strong>een</strong> periode van 2,5 jaar. Daarnaast werd <strong>een</strong> controlegroep<br />

van in totaal 24 migranten aan het begin, in het midden en tegen het einde van de opnameperiode<br />

geïnterviewd ter vergelijking met de hoofdgroepen. Voor het Nederlands werden twee groepen participanten<br />

vastgesteld: één met moedertaal Turks, en één met moedertaal Arabisch. Dit deel van het onderzoek werd<br />

geleid door Guus Extra van de Katholieke Universiteit Brabant. De centrale cordinatie was in handen van<br />

het Max Planck Instituut voor Psycholinguïstiek in Nijmegen.<br />

Aangezien zelfs van de participanten die de hele periode konden worden gevolgd niet alle data orthografisch<br />

konden worden getranscribeerd, in de computer ingevoerd, tweemaal gecontroleerd etc, is van 39<br />

participanten orthografische transcriptie voorhanden (27 over de complete opnameperiode) en slechts van 8<br />

van de controlegroep.<br />

Een grote variëteit aan activiteiten werd vastgelegd: socio-biografische conversatie (soort intake-gesprek),<br />

rollenspel, plaatjesbeschrijving, filmbeschrijving, routebeschrijving, zelf-confrontatie (commentaar op bekijken<br />

eigen handelen), etc.<br />

Op het Max Planck Instituut zijn inmiddels alle data met doeltalen Engels, Duits en Nederlands omgezet<br />

naar het voor CHILDES ontwikkelde CHAT-formaat. Tevens worden de audiotapes, DAT-kopieën van de<br />

15


originele analoge opnames, voor zover voorhanden gelinkt met de orthografische transcriptie. De oorspronkelijke<br />

48 kHz samplefrequentie wordt hierbij teruggebracht tot 16 kHz voor opslag in audiofileformaat. Voor<br />

de Duitse data is de fonetische transcriptie-’tier’ omgezet naar <strong>een</strong> orthografisch formaat compatibel met de<br />

transcripten van de andere doeltalen. Hetzelfde pad zal gevolgd worden voor het Frans en het Zweeds. Het<br />

gehele project zal nog <strong>een</strong> aantal jaren in beslag nemen.<br />

Voor dit doel is de CED (Childes EDitor) van Carnegie Mellon University op het MPI omgezet naar<br />

<strong>een</strong> UNIX-versie geïntegreerd met de superieure audio bewerkings- en weergavefaciliteiten van het XWaves<br />

programma. Een implementatie in Tcl/Tk geeft de mogelijkheid van platform-onafhankelijke toegang op<br />

besturingssystemen als Macintosh, Windows95 en Windows NT. Deze versie staat bekend als de MEDeditor.<br />

Op dit moment zijn de naar CHAT-formaat omgezette ESF-files te benaderen voor interne medewerkers<br />

van het MPI onder URL:<br />

http://www.mpi.nl/world/data/esf archive/html/<br />

Hiervoor moet de gebruiker beschikken over <strong>een</strong> voor geluidsweergave toegeruste computer, en toegang<br />

tot de XWaves en MED software, die als ’helper applications’ vanuit de WWW-pagina’s moeten worden<br />

opgestart.<br />

Gegevens:<br />

• Omvang: steeds migrant plus onderzoeker, soms tolk, minus header-meta-informatie:<br />

– Abdeslam, Arabisch, controlegroep<br />

∗ types: 1.069<br />

∗ tokens: 14.673<br />

– El Mofadel, Arabisch, controlegroep<br />

∗ types: 1.153<br />

∗ tokens: 12.849<br />

– El Yazid, Arabisch, controlegroep<br />

∗ types: 893<br />

∗ tokens: 10.957<br />

– Zeyneb, Arabisch, controlegroep<br />

∗ types: 797<br />

∗ tokens: 6.513<br />

– Fatima, Arabisch, longitudinale groep<br />

∗ types: 3.403<br />

∗ tokens: 76.700<br />

– Hassan, Arabisch, longitudinale groep<br />

∗ types: 4.220<br />

∗ tokens: 109.491<br />

– Hassan M, Arabisch, longitudinale groep<br />

∗ types: 5.135<br />

∗ tokens: 115.526<br />

– Mohammed, Arabisch, longitudinale groep<br />

16


∗ types: 4.031<br />

∗ tokens: 106.374<br />

– Erdal, Turks, controlegroep<br />

∗ types: 913<br />

∗ tokens: 10.923<br />

– Haydar, Turks, controlegroep<br />

∗ types: 1.123<br />

∗ tokens: 9.680<br />

– Hikmet Ulusoy, Turks, controlegroep<br />

∗ types: 1.404<br />

∗ tokens: 14.719<br />

– Miyese, Turks, controlegroep<br />

∗ types: 795<br />

∗ tokens: 7.069<br />

– Abdullah, Turks, longitudinale groep<br />

∗ types: 3.710<br />

∗ tokens: 85.411<br />

– Ergün(?), Turks, longitudinale groep<br />

∗ types: 4.145<br />

∗ tokens: 119.881<br />

– Mahmut, Turks, longitudinale groep<br />

∗ types: 3.855<br />

∗ tokens: 107.870<br />

– Osman, Turks, longitudinale groep<br />

∗ types: 3.673<br />

∗ tokens: 97.508<br />

• Samenstelling (teksttypes): gestuurde dialoog tussen informant en onderzoeker(s) t.b.v. testen taalvaardigheid.<br />

• Sprekergegevens: uitgebreide informatie over leeftijd, geslacht, geboorte- en woonplaats, opleiding,<br />

beroep, religie, burgerlijke staat, mate en wijze van blootstelling aan L2, veranderingen hierin over<br />

opnameperiode. Dit in files met extensie *.bio.<br />

• Opnamedatum: 1981-1986 (2,5 jaar per participant). Van elk gesprek is opnamedatum voorhanden in<br />

*.prt files (protocol).<br />

• Opnameduur: van elk gesprek is gedetailleerde opnameduur voorhanden in *.prt files (protocol).<br />

• Annotatieschema:<br />

– gehanteerde standaard: platte ASCII-files, eigen ESF-transcriptiestandaard (lijkt enigszins op<br />

tiers in CHILDes).<br />

– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’ie’, ’um’ (voor<br />

’hem’), ’ut’ (voor ’het’), ’istie’).<br />

17


– sprekerwisseling, behandeling overlap: ja, in orthografische code.<br />

– behandeling bij- en achtergrondgeluiden: commentaar.<br />

– gehanteerde interpunctie: orthografische interpretatie (voor vraagzin), verder g<strong>een</strong> interpunctie.<br />

• Annotatieniveaus: ruwe orthografische transcriptie met header met meta-informatie, sense units, andere<br />

taal, pauze, commentaar, technisch en situationeel commentaar. G<strong>een</strong> fonetische tier, all<strong>een</strong> voor<br />

in Duitsland gecodeerde data.<br />

• Status privacy informanten: geanonimiseerd.<br />

• Copyright: Max Planck Instituut Nijmegen (contract).<br />

• Beschikbaarheid opnames: ja.<br />

– geluidsdrager: op audiocassettes van soms slechte kwaliteit (veroudering). Momenteel digitalisatie<br />

op MPI vanaf DAT-kopieën.<br />

– opnametechniek: ?<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ja, orthografische transcriptie plus annotaties. Later ook gedigitaliseerd<br />

spraaksignaal. Dit gebeurt in het met het XWaves compatibele *.sd-fileformaat<br />

– relatie signaal-transcriptie (volledigheid-koppeling): ja, time alignment wordt momenteel geïmplementeerd.<br />

3.1.3 <strong>Nederlandse</strong> dialoogcorpora<br />

<strong>Corpora</strong> verzameld door Gisela Redeker, nu verbonden aan de Universiteit van Groningen, rond het<br />

onderzoeksthema spontane spraakproduktie in tv-programma’s (zie: Redeker (1992) en Linssen-Maes &<br />

Redeker (1992)).<br />

• Omvang:<br />

– types: ?<br />

– tokens: ?<br />

• Samenstelling (teksttypes): 34 <strong>Nederlandse</strong> televisieuitzendingen (nieuws- en discussieprogramma’s,<br />

talkshows) w.o. het Capitool, Stellingname (beide video), het Journalistenforum (audio). Dit is dus<br />

het corpus, waarvan gewag wordt gemaakt op de WWW-sites van de STDH<br />

(http://candl.let.ruu.nl/STDH/4corponz.dir/1corpora.dir/vua.html), aangevuld met audiomateriaal<br />

(zonder de visuele component).<br />

• Sprekergegevens: opnamegegevens in WP5.1 bestand in bezit Redeker.<br />

• Opnamedatum: 1989-1990.<br />

• Opnameduur: ± 20 uur.<br />

• Annotatieschema:<br />

– gehanteerde standaard: ?<br />

– geclitiseerde en andere niet-standaard vormen: ?<br />

– sprekerwisseling, behandeling overlap: ja (gedeeltelijk, nl. niet te complexe interrupties).<br />

– behandeling bij- en achtergrondgeluiden: ?<br />

– gehanteerde interpunctie: ?<br />

• Annotatieniveaus: ruwe orthografische transcriptie, discourse markers (segmentatiesignalen) gecodeerd<br />

in deelcorpus van ± 2 uur.<br />

18


• Status privacy informanten: schijnbaar irrelevant, aangezien alle opnames reeds publieke uitzendingen<br />

betreffen. Toch kunnen er problemen rijzen, aangezien zo mogelijk gegevens moeten worden verworven<br />

over leeftijd, opleidingsniveau, afkomst, etc. Ook openbare sprekers kunnen dan <strong>een</strong> beroep doen op<br />

wet op de privacy voor dergelijke gegevens (Van de Velde, 1996: 22). Hetzelfde aspect speelde ook<br />

samenstelling van het BNC (zie sectie 4.3.4) aanvankelijk parten.<br />

• Copyright: ?<br />

• Beschikbaarheid opnames: ja, maar kwaliteit na 10 jaar onzeker (wellicht g<strong>een</strong> fonetische analyse<br />

mogelijk).<br />

– geluidsdrager: videotapes en hiervan gekopieerde audiotapes. Ook oorspronkelijke audiotapes bij<br />

radio-opname.<br />

– opnametechniek: ?<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ?<br />

– relatie signaal-transcriptie (volledigheid-koppeling): ?<br />

Onderzoek naar mogelijke verschillen in interruptiegedrag tussen de beide seksen d.m.v. formele discussies<br />

over het thema ’basisvorming’ door Gisela Redeker en Anny Maes. Zie Redeker & Maes (1996).<br />

• Omvang:<br />

– types: ?<br />

– tokens: ?<br />

• Samenstelling (teksttypes): formele discussies over het thema ’basisvorming’.<br />

• Sprekergegevens: 5 mannen en 5 vrouwen (2 groepen, verdeeld over 8 discussies). Leeftijd: 44 tot 50<br />

jaar. Sociale status: academisch niveau, leidinggevende of adviserende posities.<br />

• Opnamedatum: ?<br />

• Opnameduur: ?<br />

• Annotatieschema:<br />

– gehanteerde standaard: codering overlappende spraak volgens: Roger, D.B., P.E. Bull & S. Smith<br />

(1988) ’The Development of a Comprehensive System for Classifying Interruptions’. In: Journal<br />

of Language and Social Psychology 7, 27-34.<br />

– geclitiseerde en andere niet-standaard vormen: ?<br />

– sprekerwisseling, behandeling overlap: ja, zie boven.<br />

– behandeling bij- en achtergrondgeluiden: ?<br />

– gehanteerde interpunctie: orthografische interpretatie?<br />

• Annotatieniveaus: orthografie (gedeeltelijk), 2373 interrupties volgens Roger et al. (1988).<br />

• Status privacy informanten: toestemming moet gevraagd worden voor gebruik door derden.<br />

• Copyright: G. Redeker.<br />

• Beschikbaarheid opnames: ja, bij G. Redeker.<br />

– geluidsdrager: audiocassette.<br />

– opnametechniek: ? Opname thuis, niet in studio.<br />

19


– signaal-ruisverhouding: ?<br />

– elektronische versie: ?<br />

– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />

Onderzoek door Sandra Timan, taalbeheersing VU, naar man-vrouw onderhandelingen.<br />

• Omvang:<br />

– types: ?<br />

– tokens: ?<br />

• Samenstelling (teksttypes): man-vrouw onderhandelingen.<br />

• Sprekergegevens: cursisten onderhandelingsstrategieën bedrijfsleven.<br />

• Opnamedatum: 1992-1993.<br />

• Opnameduur: ?<br />

• Annotatieschema:<br />

– gehanteerde standaard: VRM-codering volgens Stiles (1993), codering overlappende spraak volgens:<br />

Roger, D.B., P.E. Bull and S. Smith (1988).<br />

– geclitiseerde en andere niet-standaard vormen: ?<br />

– sprekerwisseling, behandeling overlap: ja, zie boven.<br />

– behandeling bij- en achtergrondgeluiden: ?<br />

– gehanteerde interpunctie: orthografische interpretatie.<br />

• Annotatieniveaus: orthografie, VRM-codering, overlappende spraak, aangebracht door Noortje Feije.<br />

• Status privacy informanten: ?<br />

• Copyright: ?<br />

• Beschikbaarheid opnames: ja, bij Gisela Redeker, Universiteit Groningen.<br />

– geluidsdrager: audiocassette.<br />

– opnametechniek: ?<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ?<br />

– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />

Het Van der Wijst Onderhandelingscorpus, opgebouwd door Per van der Wijst, indertijd verbonden aan<br />

de KUB in Tilburg.<br />

• Omvang: ± 56.000 uitingen (voor het onderzoek vastgestelde <strong>een</strong>heid).<br />

– types: niet geteld.<br />

– tokens: niet geteld.<br />

• Samenstelling (teksttypes): 28 gesimuleerde telefonische onderhandelingsgesprekken tussen ervaren<br />

onderhandelaars; gemodificeerde vorm van het ’Kelley game’.<br />

20


• Sprekergegevens: 56 sprekers. Er zijn enquêtegegevens (o.m. oordelen over zichzelf en de gesprekspartner)<br />

van de deelnemende onderhandelaars beschikbaar. Ook extra-linguïstische variabelen zoals<br />

leeftijd, opleiding, geslacht e.d. zijn geregistreerd.<br />

• Opnamedatum: 1991-1992.<br />

• Opnameduur: ± 17 uur.<br />

• Annotatieschema:<br />

– gehanteerde standaard: VRM-codering volgens Stiles (1993). Voor <strong>een</strong> selectie van uitingen zijn<br />

ook beleefdheidsstrategieën gecodeerd.<br />

– geclitiseerde en andere niet-standaard vormen: ja.<br />

– sprekerwisseling, behandeling overlap: ja, aangegeven in Macintosh-transcript, traceerbaar in<br />

DOS-transcript.<br />

– behandeling bij- en achtergrondgeluiden: indien storend, aangegeven tussen [ ]’s.<br />

– gehanteerde interpunctie: orthografische interpretatie.<br />

• Annotatieniveaus: orthografie, uitingen codes in termen van Verbal Response Modes (zie onderzoek).<br />

• Status privacy informanten: geanonimiseerd in transcript, niet op de band.<br />

• Copyright: Per van der Wijst. Er zijn al anderen geweest die ermee gewerkt hebben.<br />

• Beschikbaarheid opnames: ja, bij Per van der Wijst aan de Université de Liège.<br />

– geluidsdrager: DAT-tapes en analoge kopieën op audiocassette.<br />

– opnametechniek: gesprekspartners (steeds 2) op gescheiden sporen.<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ja, orthografie in syncWRITER, <strong>een</strong> Macintosh-partituur programma, daarnaast<br />

in WP-formaat op DOS.<br />

– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />

Onderzoek naar actualiteiten- en talkshow-interviews t.b.v. scriptie Taalbeheersing van Frank Kuijpers,<br />

verbonden aan de VU Amsterdam.<br />

• Omvang:<br />

– types: ?<br />

– tokens: ?<br />

• Samenstelling (teksttypes): 18 interviews, uitgezonden op de <strong>Nederlandse</strong> televisie.<br />

• Sprekergegevens:<br />

• Opnamedatum: voorjaar 1994.<br />

• Opnameduur: ruim 3 uur.<br />

• Annotatieschema:<br />

– gehanteerde standaard: VRM-codering volgens Stiles (1993).<br />

– geclitiseerde en andere niet-standaard vormen: ?<br />

– sprekerwisseling, behandeling overlap: ?<br />

– behandeling bij- en achtergrondgeluiden: ?<br />

21


– gehanteerde interpunctie: ?<br />

• Annotatieniveaus: orthografie, VRM-codering.<br />

• Status privacy informanten: openbaar. Dit geldt echter niet voor alle gewenste biografische informatie<br />

(Van de Velde, 1996: 22).<br />

• Copyright: ?<br />

• Beschikbaarheid opnames: ? Videobanden gearchiveerd met onderzoeksgegevens en enquêtegegevens<br />

beschikbaar met kijkersoordelen.<br />

– geluidsdrager: videotapes.<br />

– opnametechniek: ?<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ?<br />

– relatie signaal-transcriptie (volledigheid-koppeling): ?<br />

Communicatieanalyse van diverse gesprekssituaties, door Harrie Mazeland, verbonden aan Rijksuniversiteit<br />

Groningen (persoonlijke communicatie).<br />

• Omvang:<br />

– types: ?<br />

– tokens: ?<br />

• Samenstelling (teksttypes): meer en minder formele en informele dialogen. Enerzijds niet-gestandaardiseerde<br />

sociaal-wetenschappelijke onderzoeksvraaggesprekken, anderzijds veelsoortig materiaal (arts/patient-consults,<br />

discussies, debatten, vergaderingen, informele telefoongesprekken).<br />

• Sprekergegevens: ?<br />

• Opnamedatum: ?<br />

• Opnameduur: 4 uur (sociale onderzoeksvraaggesprekken), 4 uur of meer andersoortig materiaal.<br />

• Annotatieschema:<br />

– gehanteerde standaard: c.a.-transcriptie (?)<br />

– geclitiseerde en andere niet-standaard vormen: ?<br />

– sprekerwisseling, behandeling overlap: ?<br />

– behandeling bij- en achtergrondgeluiden: ?<br />

– gehanteerde interpunctie: ?<br />

• Annotatieniveaus: c.a.-transcriptie (?), steeds voor de eerste 15 à 20 minuten van het gesprek (niet<br />

volledig).<br />

• Status privacy informanten: moet nog (volgens afspraak) geanonimiseerd worden.<br />

• Copyright: Harrie Mazeland.<br />

• Beschikbaarheid opnames: ?<br />

– geluidsdrager: audiotapes.<br />

– opnametechniek: ?<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ja, in WP5.1-formaat.<br />

– relatie signaal-transcriptie (volledigheid-koppeling): ?<br />

22


3.2 Andere <strong>Gesproken</strong> Datacollecties<br />

Naast de bovengenoemde corpora zijn er ook collecties van gesproken data, meestal radio- en TV-uitzendingen,<br />

die niet aangelegd zijn vanuit onderzoeksdoeleinden, maar om zoveel mogelijk audiovisueel materiaal<br />

te archiveren voor het nageslacht. Volgens de strikte definitie van het EAGLES-consortium (zie sectie 4.1)<br />

zijn dit dus g<strong>een</strong> gesproken corpora. De hier bedoelde media worden in eerste instantie gebruikt voor het<br />

aankleden van radio- en TV-uitzendingen met historische opnames, en daarnaast ook voor commerciële<br />

exploitatie, b.v. verzamel CDs en documentaire video’s. Verder speelt het door de overheid gestimuleerde<br />

en gesubsidieerde aspect van behoud van het nationale culturele erfgoed <strong>een</strong> belangrijke rol.<br />

Tot deze categorie behoort het Historisch Archief van het Audiovisueel Archiefcentrum (AVAC) van<br />

het <strong>Nederlandse</strong> Omroepproductie Bedrijf (NOB). Dit is slechts toegankelijk voor buitenstaanders tegen<br />

commerciële tarieven en betaling van auteursrecht. De uitzendingen zijn gearchiveerd op volspoor magnetische<br />

audiospoelen (éénzijdig bespeeld, 19 cm/sec). Alle bestanden zijn opgenomen in <strong>een</strong> geautomatiseerde<br />

databank, waarbinnen <strong>een</strong>voudig op trefwoord, spreker en opnamedatum gezocht kan worden.<br />

Daarnaast is er het Audiovisueel Archief (AVA) van de Stichting Film en Wetenschap (SFW) in Amsterdam.<br />

Dit is gemakkelijker (en goedkoper) toegankelijk, maar helaas all<strong>een</strong> via <strong>een</strong> ongeautomatiseerd<br />

kaartsysteem (trefwoord, spreker, opnamedatum). Opnames zijn beschikbaar op tweezijdige audiospoelen<br />

met <strong>een</strong> opnamesnelheid van 9,5 cm/sec. De kwaliteit is hiermee minder dan die bij het AVAC. Wel wordt<br />

sinds 1994 gearchiveerd op DAT-tapes.<br />

De Vlaamse pendant hiervan is het Archief <strong>Gesproken</strong> Woord van de Belgische Radio en Televisie - <strong>Nederlandse</strong><br />

Uitzendingen (BRTN). Dit is veel kleiner dan de <strong>Nederlandse</strong> archieven, en nog niet geheel overgezet<br />

op magneetband. Een summier kaartsysteem (trefwoord, spreker en opnamedatum) vergemakkelijkt het<br />

zoeken enigszins, hoewel er plannen zijn de databank te automatiseren (Van de Velde, 1996: 65-68).<br />

Voorgelezen spraak van goede kwaliteit bevindt zich op <strong>een</strong> aantal Blindenbibliotheken in Nederland,<br />

zoals Le Sage ten Broek in Nijmegen. Op 5 van dergelijke locaties is materiaal van ongeveer 700 sprekers<br />

voorhanden.<br />

4 Recente Ontwikkelingen: <strong>Gesproken</strong> <strong>Corpora</strong> en Standaardisatie<br />

4.1 <strong>Corpora</strong> van de Derde Generatie (1990-)<br />

Het is pas in het meest recente stadium dat gesproken corpora werkelijk op effectieve wijze ontsloten kunnen<br />

worden dankzij geïntegreerde computerfaciliteiten voor de opslag en bevraging van geluidsfragmenten<br />

in samenhang met de transcripties en documentatie. Hierom kunnen all<strong>een</strong> recente corpora voldoen aan<br />

de technisch gesproken tamelijk strikte definitie die de EAGLES-werkgroep hanteert, en zijn veel eerdere<br />

verzamelingen gesproken taal, tenzij in <strong>een</strong> later stadium grondig geautomatiseerd en bewerkt, in feite niet<br />

meer dan geluidsarchieven, zoals die bij talrijke omroepen zijn opgeslagen:<br />

[A] spoken language corpus is “any collection of speech recordings which is accessible in computer<br />

readable form and which comes with annotation and documantation sufficient to allow re-use of<br />

the data in-house, or by scientists in other organisations.” (Gibbon et al., 1997: 79) 2<br />

Een belangrijk verschil met eerdere corpora is de overgang naar van vooral tekstgebaseerde ontsluiting<br />

(waarbij eerst gezocht wordt naar <strong>een</strong> bepaald deel van de transcriptie, en dan de bijbehorende signaalfile<br />

wordt afgespeeld) naar <strong>een</strong> centrale rol voor de in het gesproken medium essentiële tijdsdimensie. Deze<br />

ontbreekt geheel bij geschreven tekst, tenzij verschillende versies van dezelfde tekst naast elkaar bestaan.<br />

Computers bieden nu de mogelijkheid, om alle transcripties en annotaties afhankelijk te maken van deze<br />

tijdschaal, zonder overigens directe toegang tot of loskoppeling van de afgeleide tekstfiles onmogelijk te<br />

maken.<br />

In dit stadium wordt het geluidssignaal geheel digitaal opgenomen en verwerkt met <strong>een</strong> sampling frequentie<br />

van 16-20 kHz (8 kHz bij telefoonopnames), met 16-bits A/D-conversie, waarbij g<strong>een</strong> kwaliteitsverlies<br />

van het opgenomen signaal hoeft op te treden. Registratie vindt bij voorkeur plaats op DAT-tapes, met<br />

23


standaard sampling rate van 48 kHz en 16 bits resolutie per sample. DCC-tapes en MiniDisk leiden door<br />

gegevenscompressie t.b.v. van efficiënte opslag tot datareductie, en zijn daarom niet geschikt voor gedetailleerde<br />

analyse van de weergave. Bovendien levert conservering van deze media later problemen op, omdat de<br />

weergaveapparatuur gebruik maakt van speciale algoritmes om het oorspronkelijke signaal zo goed mogelijk<br />

te reconstrueren (Van de Velde, 1996: 62).<br />

Archivering vindt plaats op de originele DAT-tapes, CD-Recordable (<strong>een</strong>maal beschrijfbaar), CD-Re-<br />

Writable (meermaals beschrijfbaar) of audiofiles op de harde schijf van <strong>een</strong> computer. Dat kan in verschillende<br />

fileformaten, zoals wav- of sd-formaat (b.v. in samenhang met de XWaves geluidsweergave en<br />

-bewerkingssoftware), dan wel A-law (gebruikelijk in Europa) of µ-law (gebruikelijk in de USA). Meer permanente<br />

opslag kan gebeuren op slechts éénmaal beschrijfbare media zoals CD-ROM of <strong>een</strong> WORM-CD<br />

(Write Once Read Many). In de toekomst zal DVD (Digitale Video Disk) wellicht als standaard gaan<br />

gelden. Deze staat voor opname op 2 kanalen <strong>een</strong> sampling rate van 192 kHz toe, met 24-bits resolutie.<br />

Voor het CGN-project zouden 10 miljoen woorden spraak neerkomen op <strong>een</strong> opnameduur van 930 uur<br />

bruikbaar materiaal. Aangezien rekening gehouden moet worden met reserve-opnamecapaciteit, en het<br />

wegediten van ruis en onverstaanbare passages, mag men rekenen op 2000 90M DAT-tapes, waarvan dus<br />

1/3 e effectief benut wordt. Het geluidssignaal all<strong>een</strong> neemt bij <strong>een</strong> samplefrequentie van 16 kHz (32.000<br />

byte/sec) 112 GB diskruimte in beslag, dus 172 CD-ROMs of 8 DVDs. Bij <strong>een</strong> samplefrequentie van 20 kHz<br />

(40.000 byte/sec) komt het neer op 134 GB diskruimte, oftewel 207 CD-ROMs/9 DVDs.<br />

4.2 De Opkomst van Internationale Standaards<br />

Het belang van standaards wordt in deze tijd van vele internationale projecten en universeel toegankelijke<br />

tekstbestanden op het World Wide Web steeds meer erkend. Aansluiting bij bepaalde expliciet geformuleerde<br />

normen, dan wel het navolgen van <strong>een</strong> succesvol gebleken project (’best practice’, waarbij conformering aan<br />

de standaard minder expliciet is) heeft <strong>een</strong> aantal voordelen. Zo zullen corpora eerder opnieuw gebruikt<br />

worden binnen andere projecten, wordt contrastief onderzoek tussen verschillende corpora op verschillende<br />

annotatieniveaus werkbaar, kunnen lexica en corpora <strong>een</strong>voudiger worden uitgebreid of samengevoegd, en<br />

heeft het schrijven van complexe annotatie- en exploitatietools meer zin, aangezien zij voor meerdere bestanden<br />

inzetbaar zijn (Bouma & Schuurman, 1998: 16, Leech et al., 1995: 5). Ook moet in het grotere<br />

perspectief gedacht worden aan de mogelijkheid van gedistribueerde opzet van corpora met behulp van tools<br />

die onderling <strong>een</strong>voudig kunnen worden uitgewisseld, of zelfs in <strong>een</strong> virtuele programmeeromgeving voor<br />

projectpartners op fysiek gescheiden locaties inzetbaar zijn. Aangezien taaltechnologische projecten vrijwel<br />

zonder uitzondering kostbare ondernemingen zijn, kan gesteld worden dat uniformiteit zelfs geboden<br />

is, aangezien in het andere geval vrijwel zonder uitzondering sprake zal zijn van substantiële kapitaals- en<br />

kennisvernietiging.<br />

4.2.1 SGML<br />

SGML (Standard Generalized Markup Language) is <strong>een</strong> internationale standaard (ISO 8879: 1986) voor<br />

het <strong>een</strong>duidig beschrijven van de documentstructuur, met het oog op gemakkelijke uitwisselbaarheid tussen<br />

diverse (computer)systemen en druk- of presentatieformaten. Het schrijft dus g<strong>een</strong> lay-out voor, all<strong>een</strong> <strong>een</strong><br />

structuur waarop de lay-out zich moet baseren. Het beschrijft dus teksten niet met <strong>een</strong> ’procedural markup’,<br />

zoals in <strong>een</strong> WP of MS-Word document, maar met <strong>een</strong> ’descriptive’ of ’generic markup’, die de (logische)<br />

documentstructuur weergeeft, niet de stijl of de verschijningsvorm. Toepassingen strekken zich dan ook<br />

tegenwoordig uit boven het leggen van de grondslag voor latere presentatie.<br />

SGML werkt met in ASCII (algem<strong>een</strong> computerleesbare tekst) gespecificeerde begin- en eindlabels<br />

(’tags’), die op verschillende niveaus tekstdelen kunnen markeren. Aangezien veel documenten tegenwoordig<br />

vaak in elektronische èn boekvorm verschijnen, is <strong>een</strong> gestandaardiseerde weergave van de onderscheiden<br />

tekstdelen onontbeerlijk geworden.<br />

Naast de onafhankelijkheid van specifieke besturings-, applicatie- en afdruksystemen, heeft SGML ook<br />

als belangrijke voordelen dat veel van de tags gebaseerd kunnen zijn op de inhoud van de tekst in plaats<br />

van de weergave (b.v. 〈author〉, 〈figure〉, 〈date〉, 〈quote〉), hetg<strong>een</strong> het zeer geschikt maakt voor archivering<br />

en document retrieval op grond van aldus afgebakende tekst, dat gebruikers hun eigen Document Type<br />

Definition (DTD) kunnen specificeren met hun eigen tags, en dat er pointers mogelijk zijn naar andere<br />

24


tekstdelen of documenten, zodat delen van <strong>een</strong> document afzonderlijk kunnen worden opgesteld, en pas<br />

later samengebracht. Zo kan <strong>een</strong> document ook in zijn uiteindelijke vorm in feite <strong>een</strong> compositum zijn van<br />

fragmenten op diverse locaties (hypertext).<br />

Omdat documenten uiteindelijk toch leesbaar moeten zijn in wat voor vorm dan ook, is <strong>een</strong> aparte<br />

standaard ontwikkeld voor de weergave van de van tags voorziene tekstdelen in verschillende applicaties,<br />

zoals bold, italic en typewriter. Deze richtlijnen voor style sheets zijn vervat in DSSSL (Document Style<br />

Semantics and Specification Language).<br />

Editors die het nogal technische en ondoorzichtige opstellen van DTDs en SGML-documenten vergemakkelijken<br />

zijn FrameMaker van Adobe, Author/Editor van Interleaf (vroeger: SoftQuad), Multidoc Pro<br />

Publisher van het Finse bedrijf Citec en ADEPT, het complete editing- en document managementsysteem<br />

van ArborText.<br />

Het bekijken, bevragen en afdrukken van documenten kan worden ondersteund door FrameViewer (Adobe),<br />

Panorama (Interleaf/SoftQuad) en Multidoc Pro Browser (Citec).<br />

4.2.2 XML<br />

Momenteel vindt <strong>een</strong> op basis van SGML ontwikkeld tekstmarkeringsformalisme opgang, met name voor<br />

gebruik op het World Wide Web (ter vervanging van het nu te beperkte HTML). Dit staat bekend onder de<br />

term XML (eXtensible Markup Language). Het is in feite <strong>een</strong> subset van SGML, met <strong>een</strong> iets restrictiever<br />

gedefinieerde DTD-standaard (Goldfarb & Prescod, 1998: 265-275). XML is dan ook geheel compatibel met<br />

SGML. De bedoeling is complete conformering aan de ISO-norm, inclusief mogelijkheden tot uitbreiding<br />

(vandaar extensible) met eigen tags, weergave hiërarchische structuren en goede validatietechnieken.<br />

Voor de steeds toenemende vervlechting van tekst met multimediale data, zoals afbeeldingen, audiofragmenten<br />

en video, is <strong>een</strong> andere uitbreiding van SGML ontwikkeld met de naam HyTime (Hypermedia/Timebased<br />

Structuring Language). Deze is vastgelegd als <strong>een</strong> aparte standaard voor gestructureerde opslag en<br />

retrieval van met hyperlinks gerelateerde multimedia en tijd-gebaseerde systemen (audio, beeld, video, muziek),<br />

nl. ISO 10744: 1992.<br />

Net als in SGML en HTML, is het mogelijk om XML-conformante tekstbestanden te verbinden met<br />

externe, non-XML objecten via hyperlinks, zoals plaatjes, audio en video. Deze worden ongeparseerde<br />

entiteiten genoemd. Voor elke non-XML entiteit is er <strong>een</strong> notatie die aangeeft om welk data-object of<br />

fileformaat het gaat, b.v. Waveform of A-law (Goldfarb & Prescod, 1998: 39). De standaard hiervoor is<br />

gebaseerd op HyTime, en draagt de naam XLink (Extensible Linking Language) 3 . Deze werkt met de<br />

concepten XPointer (voor het link mechanisme) en URI’s (Uniform Resource Identifier, <strong>een</strong> uitbreiding van<br />

de URLs uit de HTML-standaard) voor het identificeren van de verbonden bestanden (Goldfarb & Prescod,<br />

1998: 499-515).<br />

Een extra mogelijkheid binnen XLink is extended linking, zeg maar meervoudige hyperlinks tussen documenten,<br />

zodat niet all<strong>een</strong> 1-1 relaties kunnen worden gelegd zoals in HTML, maar 1-N, b.v. tussen <strong>een</strong><br />

woord en alle documenten waarin het voorkomt. Ook zijn XLinks bidirectioneel, en dus in feite n-directioneel<br />

(N-N), zodat er gemakkelijk h<strong>een</strong> en weer gescrolled kan worden tussen parallelle versies van dezelfde tekst;<br />

wanneer men van ankerpunt A 1 in tekst 1 springt naar ankerpunt A 2 in tekst 2, kan men ofwel via dezelfde<br />

link terug, ofwel in tekst 2 verder scrollen en dan van ankerpunt B 2 weer naar het over<strong>een</strong>komende ankerpunt<br />

B 1 in tekst 1. Dit zou van groot belang kunnen zijn bij het editen maar ook later bevragen van transcripti<strong>een</strong><br />

annotatiefiles voor het CGN (Goldfarb & Prescod, 1998: 177-188).<br />

Een andere uitbreiding is het maken van annotaties (b.v. commentaar, maar ook lijsten met ’related<br />

sites’) bij Webdocumenten, waar men zelf g<strong>een</strong> update privilege voor heeft. Deze worden dan via hyperlinks<br />

verbonden met de brontekst, en zijn zichtbaar voor ieder<strong>een</strong> die met de tekst werkt, zonder dat ze er<br />

onlosmakelijk deel van uitmaken. In termen van het CGN-project zou <strong>een</strong> dergelijk mechanisme nuttig<br />

kunnen zijn voor het leveren van commentaar, b.v. op twijfelachtige of foutieve transcripties, zonder dat de<br />

oorspronkelijke tekst wordt aangetast. Aangezien de standaard voor dit mechanisme nog in ontwikkeling is,<br />

is hier <strong>een</strong> voorbeeld van hoe <strong>een</strong> dergelijke annotatie eruit zou kunnen zien:<br />

3 In feite is er meer dan één inspiratiebron. Xlink is direct gebaseerd op de extended pointer syntax van het TEI; de beide<br />

redacteuren van TEI, Burnard en Sperberg-McQu<strong>een</strong>, hadden dan ook zitting in het comité dat de XML-specificaties opgesteld<br />

heeft.<br />

25


Niet-verbale vocale klanken zijn hier ten onrechte orthografisch<br />

getranscribeerd!<br />

<br />

Wanneer men <strong>een</strong> stap verder denkt, dan komt men al gauw op het gebruik van XML, in combinatie<br />

met object-georiënteerde programmeertalen als Java en C++, voor het creëren van middleware, <strong>een</strong> integratielaag,<br />

waarbij allerlei gerelateerde documenten, databases en multimedia kunnen worden aangeroepen<br />

vanuit <strong>een</strong> interface, die van alle applicatie-specifieke codes abstraheert tot één gem<strong>een</strong>schappelijk datamodel.<br />

Zo kunnen woordgegevens uit heel divers geïmplementeerde lexicale databanken (platte ASCII-files<br />

met delimiters, relationele databanken, gehyperlinkte Webdocumenten, etc.) worden gebruikt om teksten<br />

grammaticaal te verrijken, zolang maar duidelijk is hoe bepaalde velden in de bronnen te mappen zijn op de<br />

(in dit geval door het TEI aanbevolen) elementen 〈entry〉 en 〈pos〉 (part of speech).<br />

Voor deze applicatie-interfaces (API’s) zijn verschillende modellen ontwikkeld, zoals CORBA (Common<br />

Object Request Broker Architecture) en DCOM (Distributed Component Object Model). Om de ene applicatietaal<br />

of DTD-versie naar <strong>een</strong> andere te vertalen (immers, elk bedrijf kan zijn eigen DTD hanteren)<br />

is dan nog <strong>een</strong> IDL (Interface Definition Language) nodig. Zo heeft het bedrijf webMethods b.v. <strong>een</strong> voor<br />

het Web geschikte IDL ontwikkeld onder de naam WIDL, die gebruik maakt van XML als tussentaal. Voor<br />

concrete voorbeelden zie de secties 4.2.4 en 6 over de resource-onafhankelijke NLP-architecturen MATE en<br />

GATE.<br />

Daarnaast is er voor XML <strong>een</strong> variant van de SGML-style sheet DSSSL ontwikkeld onder de naam XSL<br />

(Extensible Style Language). Deze draagt ook elementen in zich van de HTML-extensie Cascading Style<br />

Sheets, en maakt daarmee deze overbodig.<br />

XML maakt voor de karakterrepresentatie gebruik van de nieuwe Unicode-standaard (ISO/IEC 10646-1:<br />

1993). Deze code heeft met zijn 16 bits lengte één byte meer tot zijn beschikking dan 7- of 8-bits ASCII<br />

en kan daarmee alle schrijfsystemen weergeven, inclusief Chinese ideogrammen, hiërogliefen en Arabische<br />

karakters. Van belang voor het CGN-project is, dat er in Unicode 2.0 ook <strong>een</strong> IPA-set is gedefinieerd voor<br />

fonetische symbolen. Zie de URL:<br />

http://www.unicode.org/<br />

Editors die het nogal technische en ondoorzichtige opstellen van DTDs en XML-documenten vergemakkelijken<br />

zijn FrameMaker+SGML van Adobe en XMetaL van SoftQuad. Verder zijn er complete editing- en<br />

document managementsystemen verkrijgbaar, zoals ADEPT, Astoria en POET Content Management Suite<br />

van resp. ArborText, Chrystal Software (<strong>een</strong> onderdeel van Xerox) en POET Software. Deze bieden zoveel<br />

functionaliteit op het gebied van het editen, bekijken, bewerken, opslaan, bevragen en verplaatsen van<br />

document-componenten, dat het nuttig is voor het CGN de inzet van dergelijke pakketten te onderzoeken.<br />

Er zijn trouwens ook steeds meer freeware editors en viewers voorhanden.<br />

Op het meer prozaïsche vlak van integratie van XML-documenten binnen bestaande Webbrowsers – vooral<br />

van belang voor de alledaagse end-user – zal Netscape de functionaliteit van XML inbouwen in Communicator<br />

5.0 onder de applicatienaam Aurora. Microsoft’s Internet Explorer 4.0 laat validatie toe van<br />

XML-documenten d.m.v. <strong>een</strong> parser, maar de viewer vertaalt nog XML naar HTML. Internet Explorer 5<br />

daarentegen biedt reeds volledige ondersteuning van het XML document object model (1.0).<br />

Zeer veel informatie over SGML en XML, evenals veel gratis software (editors, parsers) is tenslotte te vinden<br />

op de Websites van het officiële World Wide Web Consortium (W3C):<br />

http://www.w3.org<br />

en even<strong>een</strong>s bij de zeer fanatieke software-ontwikkelaars James Clark:<br />

http://www.jclark.com<br />

26


en Patrice Bonhomme:<br />

http://www.loria.fr/˜bonhomme/xml.html<br />

Als meer recente ontwikkeling is er bij W3C nu <strong>een</strong> standaard in de maak, die allerlei eerdere hypertext<br />

standaards en aanbevelingen integreert voor de bouw van multimediale databases. Deze staat bekend onder<br />

de naam SMIL (Synchronized Multimedia Integration Language). Deze beoogt:<br />

• Beschrijving van de precieze tijdgebaseerde structuur van de multimedia-applicatie.<br />

• Beschrijving van de precieze verschijningsvorm van de applicatie op het scherm.<br />

• Het verbinden van hyperlinks aan mediaobjecten.<br />

Informatie over deze standaard in wording is het vinden onder URL:<br />

http://www.w3.org/TR/REC-smil<br />

Hierbij moet evenwel worden aangetekend, dat de linguïsten Bird en Liberman in hun paper tot de (omzichtige)<br />

conclusie komen, dat de toekomst van SMIL onzeker is, en SMIL sowieso ongeschikt lijkt voor<br />

linguïstische annotatie (1999: 28). Dit zou betekenen, dat de gedetailleerde synchronisatie van de datastroom<br />

met <strong>een</strong> aantal tiers die CGN wenst binnen SMIL niet mogelijk is, slechts <strong>een</strong> grove specificatie van<br />

objecten die tegelijkertijd moeten worden vertoond.<br />

Een ander teken van convergentie op dit gebied is de evolutie van standaards die gespecificeerd worden<br />

door de internationale ISO/IEC MPEG-werkgroep (Moving Pictures Experts Group). Dit team omvat<br />

deelnemers uit de wereld van de omroepen, hardware- en softwarefabrikanten, telecombedrijven, uitgevers<br />

en academische onderzoeksinstellingen. Aanvankelijk beperkte de MPEG-groep zich tot het formuleren<br />

van standaards voor beeld- en geluidscompressie, -distributie en -decodering, inmiddels hebben zij zich ook<br />

toegelegd op de integrale beschrijving van natuurlijke en synthetische (door computer gegenereerde) beelden<br />

geluidsobjecten. De DDL (Description Definition Language), waarin de diverse mediaobjecten en hun<br />

onderlinge relaties zijn vastgelegd, is gebaseerd op het bovengenoemde XML-protocol.<br />

In het bewuste, laatste voorstel, MPEG-7, houdt men zich bezig met de definitie van <strong>een</strong> Multimedia<br />

content description interface. Hierin zijn temporele en spatiële referenties, die nodig zijn voor <strong>een</strong> vloeiende,<br />

zelfs real-time gebaseerde synchronisatie van beeld, geluid, tekst en andere multimedia geformaliseerd. Het<br />

sluit hiervoor aan bij het Real-Time Protocol (RTP). De relatie met XML impliceert dat de geïntegreerde<br />

data of de te associëren data niet op <strong>een</strong> fysiek locatie of systeem aanwezig hoeven te zijn, maar ook in <strong>een</strong><br />

gedistribueerde omgeving.<br />

De specificaties strekken zich uit tot het integreren van annotatielagen bij het beeld of geluid, zoals al dan<br />

niet automatisch genereerde transcripties, ondertiteling, geluidssporen, gebarentaal en achtergrondinformatie<br />

in diverse talen. MPEG-7 specificeert evenwel niet de methoden van informatie-extractie of retrieval, slechts<br />

de syntax waarin de objecten worden beschreven, hun relaties en <strong>een</strong> aantal min of meer standaardobjecten en<br />

-schemata (vergelijkbaar m.a.w. met de SGML- en TEI-standaards). Het uiteindelijke doel is multimediale<br />

databases op <strong>een</strong> uniforme manier toegankelijk te maken voor Internet-zoekmachines, op <strong>een</strong>zelfde manier<br />

als tekstuele dataverzamelingen momenteel ontsloten kunnen worden d.m.v. tekstgebaseerde zoekvragen<br />

en (sommige) meta-indexen. Een voorlopige versie van de standaard is gepland voor december 1999, <strong>een</strong><br />

definitieve versie voor juli 2001.<br />

Het MPEG-initiatief overlapt gedeeltelijk met de W3C-activiteiten, maar gaat ook <strong>een</strong> stap verder, daar<br />

W3C op dit terrein momenteel (mei 1999) minder actief lijkt te zijn (zie hierboven onder SMIL). In die zin<br />

mag wellicht meer verwacht worden van de MPEG-standaards dan SMIL en dergelijke.<br />

Informatie over deze standaard in wording is het vinden onder URL:<br />

http://www.cselt.it/mpeg/ (of: http://drogo.cselt.stet.it/mpeg/)<br />

27


Het moge duidelijk zijn, dat bij <strong>een</strong> project als het CGN, waarbij ook sprake is van multimediale data,<br />

en mogelijk verschillende wijzen van weergave en publicatie, het in ieder geval noodzakelijk is aansluiting<br />

bij internationale standaards als SGML, XML en MPEG te overwegen. Bovendien is het <strong>een</strong> hoopgevende<br />

ontwikkeling, dat er steeds meer dwarsverbanden aan te wijzen zijn tussen de diverse normalisatie-instituten.<br />

Zo heeft W3C zich niet all<strong>een</strong> in februari 1998 gecomitteerd aan de XML-standaard, maar wil het TEI (zie<br />

sectie 4.2.2) zijn codeerschema volledig gaan aanpassen aan XML. Dit hangt evenwel af van aanvullende<br />

financiering voor het TEI, die op dit moment nog hoogst onzeker is (E-mails C M Sperberg-McQu<strong>een</strong>, TEI-<br />

List, 10-2-98; LINGUIST List 9.1404, 9-10-1998). Het is uiteraard wel zaak <strong>een</strong> onderscheid te kunnen<br />

maken tussen de wezenlijke, breed gedragen initiatieven op dit vlak, en minder gestructureerde zijpaadjes<br />

en doodlopende steegjes.<br />

4.2.3 TEI<br />

Het Text Encoding Initiative is <strong>een</strong> internationaal consortium van wetenschappers, dat als doel heeft nadere<br />

specificaties van de SGML-code op te stellen voor het markeren van de structuur van bepaalde teksttypen,<br />

zoals gesproken teksten, woordenboeken en gedichten. Het doet vooral aanbevelingen voor codering t.b.v.<br />

de uitwisselbaarheid van teksten, maar omvat ook regels voor het samenvoegen van tekst met beeld en<br />

geluid in multimediale applicaties. De codeerschema’s beperken zich niet tot het weergeven van teksten in<br />

de oorspronkelijke vorm, die meestal als doel had de leesbaarheid en expressiviteit te ondersteunen, maar<br />

dienen ook voor het verrijken van de tekst met annotaties met het oog op onderzoek, zoals vertalingen van en<br />

glossen bij passages, voetnoten, pointers (hyperlinks) naar gerelateerde fragmenten, verschillende, parallelle<br />

versies van dezelfde tekst en grammaticale analyse.<br />

De aanbevelingen, Guidelines, werden in 1994 gepubliceerd na 6 jaar research, die gesponsord werd door<br />

<strong>een</strong> groot aantal internationale publieke instanties.<br />

Bij de TEI heeft ieder teksttype heeft zijn eigen DTD (Document Type Definition), die gezien kan worden<br />

als <strong>een</strong> sterk aanbevolen, doch meestal niet verplicht opgelegde grammatica, waaraan de voor presentatie of<br />

publicatie aangeleverde teksten moeten voldoen.<br />

Elke tekst heeft bovendien <strong>een</strong> eigen ’header’, die informatie geeft over de bijbehorende tekst. Deze omvat<br />

bibliografische informatie, zoals je die kunt aantreffen op de titelpagina van <strong>een</strong> boek, aanduidingen van de<br />

manier waarop de elektronische tekst conventies van de brontekst weergeeft (encoding), het tekstprofiel<br />

(aanmaakdatum, gebruikte taal, genre) en revisie-informatie (bij verschillende versies).<br />

Omdat de volledige reeks elementen, attributen en regels zich uitstrekt tot enige honderden codes, die<br />

gedocumenteerd zijn in 1300 pagina’s (sic) Guidelines, is er <strong>een</strong> subset gedefinieerd onder de naam TEI Lite,<br />

die de algemene labels voor alle teksttypen omvat. TEI Lite wordt nu toegepast als minimale codeerset bij<br />

het Oxford Text Archive en de Elektronische Tekstcentra van de Universiteiten van Virginia en Michigan.<br />

Voor het CGN-project zijn vooral de ’tags’ van belang voor gesproken corpora. Een beschrijving hiervan<br />

is te vinden in Sperberg-McQu<strong>een</strong> & Burnard (1994: 297-320). De basis-tagset voor spraak, die in dit<br />

hoofdstuk wordt voorgesteld, is samen met de ’core’ set en alle andere tekst-specifieke sets (m.a.w. de<br />

volledige DTD) kant-en-klaar op te halen op de ftp-site van het TEI onder URL:<br />

Middels <strong>een</strong> <strong>een</strong>voudige declaratie:<br />

ftp://ota.ox.ac.uk/pub/ota/TEI/dtd/p3dtds.tar.gz<br />

〈!ENTITY % TEI.spoken ’INCLUDE’ 〉<br />

kan hij worden opgenomen in de transcriptiefiles. Daarnaast zijn alle standaard-elementen van de ’core’ set<br />

voor alle teksttypes binnen de basiscodes automatisch toepasbaar, zoals 〈s〉 voor ’zins<strong>een</strong>heid’.<br />

Op <strong>een</strong> hoger niveau bevatten de TEI Guidelines ook mechanismen om tekstverzamelingen te coderen,<br />

die uit zeer divers bronmateriaal bestaan, maar niettemin <strong>een</strong> <strong>een</strong>heid vormen. Dit geldt bijvoorbeeld voor<br />

anthologieën, maar zeker ook voor corpora voor linguïstisch onderzoek zoals het CGN. Deze zijn beschreven in<br />

Sperberg-McQu<strong>een</strong> & Burnard (1994: 643-664). Een voorbeeld van <strong>een</strong> dergelijke ’composite text’ voorzien<br />

van TEI-tags is het volgende. Er is <strong>een</strong> algemene teiHeader-file met globale, onveranderlijke informatie over<br />

28


de complete tekstverzameling; daaronder in de hiërarchie bevinden zich individuele teiHeaders voor elke<br />

tekst die de verschillen tussen de teksten tot uitdrukking brengen:<br />

<br />

...<br />

<br />

<br />

<br />

... <br />

... <br />

<br />

<br />

... <br />

... <br />

<br />

<br />

<br />

De extra tag-set voor taalcorpora kan evenals de spoken base set worden aangeroepen vanuit de tekstfile,<br />

zowel vanuit de overkoepelende file van <strong>een</strong> tekstverzameling als vanuit de afzonderlijke teksten of samples.<br />

Het is in feite <strong>een</strong> extensie van het standaard-element 〈profileDesc〉.<br />

〈!ENTITY % TEI.corpus ’INCLUDE’ 〉<br />

Een context-vrije grammatica van alle voordefinieerde elementen die in het bijzonder van belang zijn voor<br />

spraak (samengesteld uit de ’spoken’, en ’corpus’ base sets en relevante delen van de teiHeader) is de volgende:<br />

29


teiHeader (= addtional header file for corpora, either for full corpus or individual texts)<br />

::= any(〈textDesc〉 〈particDesc〉 (= participants) 〈settingDesc〉 〈fileDesc〉<br />

〈encodingDesc〉)<br />

textDesc ::= any(〈channel ’mode’〉 〈constitution ’type 1 ’〉 〈derivation ’type 2 ’〉<br />

〈domain ’type 3 ’〉 〈factuality ’type 4 ’〉<br />

〈interaction any(’type 5 ’ ’active’ (participants) ’passive’ (participants))<br />

〈preparedness ’type 6 ’〉 〈purpose any(’type 7 ’ ’degree’)〉<br />

mode ::= ’s’(poken) | ’w’(ritten) | ’sw’ (= spoken to be written) | ’ws’ (= written to be spoken) |<br />

’m’(’ixed’) | ’x’ (= ’unknown’)<br />

type 1 ::= ’single’ | ’composite’ | ’frags’ | ’unknown’<br />

type 2 ::= ’original’ | ’revision’ | ’translation’ | ’abridgment’ | ’plariarism’ | ’traditional’<br />

type 3 ::= ’art’ | ’domestic’ | ’religious’ | ’business’ | ’education’ | ’govt’ | ’public’<br />

type 4 ::= ’fiction’ | ’fact’ | ’mixed’ | ’inapplicable’<br />

type 5 ::= ’none’ | ’partial’ | ’complete’ | ’inapplicable’<br />

active ::= ’singular’ | ’plural’ | ’corporate’ | ’unknown’<br />

passive ::= ’self’ (e.g. audio diary) | ’single’ | ’many’ | ’group’ | ’world’<br />

type 6 ::= ’none’ | ’scripted’ | ’formulaic’ | ’revised’<br />

type 7 ::= ’persuade’ | ’express’ | ’inform’ | ’entertain’<br />

degree ::= ’high’ | ’medium’ | ’low’ | ’unknown’<br />

particDesc ::= any((〈person〉 | 〈personGrp〉) 〈particLinks〉)<br />

person ::= DemoInfo<br />

personGrp ::= any(DemoInfo ’size’)<br />

DemoInfo ::= any(’role’ ’sex’ ’age’ 〈birth ’date’〉 〈firstLang〉 〈langKnown〉 〈residence〉<br />

〈education〉 〈affilation〉 〈occupation any(’scheme’ ’code’)〉<br />

〈socecStatus any(’scheme’ ’code’)〉)<br />

sex ::= ’m’ | ’f’ | ’u’<br />

particLinks ::= any(〈relation ’type 8 ’ ’desc’ ’active’ ’passive’ ’mutual’)〉<br />

type 8 ::= ’social’ | ’personal’ | ’other’<br />

mutual ::= ’y’ | ’n’<br />

settingDesc ::= any(〈setting ’who’〉 〈name ’type 9 ’〉 〈date ’value 1 ’〉 〈time ’value 2 ’〉 〈locale〉<br />

〈activity〉)<br />

fileDesc ::= any(〈scriptStmt〉 〈recordingStmt〉 〈recording ’type 9 ’ ’dur’〉<br />

〈equipment〉 〈broadcast〉)<br />

type 9 ::= ’audio’ | ’video’<br />

encodingDesc ::= any(〈projectDesc〉 〈samplingDecl〉 〈editorialDecl〉 〈tagsDecl〉 〈refsDecl〉<br />

〈classDecl〉 〈fsdDecl〉 (= feature system) 〈variantEncoding〉)<br />

30


SpokenText ::= 〈div any(’type 1 ’ ’org’ ’sample’ ’part’)〉<br />

type 1 ::= ’sound fragment’ | ’discussion’ | ’interview’ | ’...’<br />

org ::= ’composite’ (= unclear sequence) | ’uniform’ (= logical unit with clear sequence)<br />

sample ::= ’initial’ | ’medial’ | ’final’ | ’unknown’ | ’complete’<br />

part ::= ’y’ | ’n’ | ’i’(nitial) | ’m’(edial) | ’f’(inal) (i.e. whether division is fragmented or not)<br />

div ::= many(〈u(tterance) any(’who’ ’trans’(ition) ’timed’)〉 〈pause any(’who’ (’type 2 ’ |<br />

’dur’(ation)) ’timed’)〉<br />

〈vocal(ized, non-lexical event) any(’who’ ’desc’ ’iterated’ ’timed’)〉<br />

〈kinesic(= non-vocalized, communicative event) any(’who’ ’desc’ ’iterated’ ’timed’)〉<br />

〈event(= non-communicative event) any(’who’ ’desc’ ’iterated’ ’timed’)〉<br />

〈writing(= writing shown while speaking) any(’who’ ’gradual’ (= is writing revealed<br />

gradually?)<br />

’type 3 ’ ’timed’)〉 〈shift any(’feature’ ’new’)〉 EditChg SynchPoint)<br />

trans ::= ’smooth’ | ’latching’ | ’overlap’ | ’pause’<br />

type 2 ::= ’short’ | ’medium’ | ’long’<br />

dur ::= [123456789]+<br />

iterated ::= ’y’ | ’n’ | ’u’(nknown)<br />

gradual ::= ’y’ | ’n’ | ’u’(nknown)<br />

type 3 ::= ’subtitle’ | ’noticeboard’ | ’slide’ | ’...’<br />

timed ::= ’start’ | ’end’ | ’dur’<br />

feature 4 ::= ’tempo’ | ’loud’ | ’pitch’ | ’tension’ | ’rhythm’ | ’voice’<br />

tempo ::= ’a’ | ’aa’ | ’acc’ | ’l’ | ’ll’ | ’rall’<br />

loud ::= ’f’ | ’ff’ | ’cresc’ | ’p’ | ’pp’ | ’dimin’<br />

pitch ::= ’high’ | ’low’ | ’wide’ | ’narrow’ | ’asc’ | ’desc’ | ’monot’ | ’scand’<br />

tension ::= ’sl’ | ’lax’ | ’ten’ | ’pr’ | ’st’ | ’leg’<br />

rhythm ::= ’rh’ | ’arrh’ | ’spr’ | ’spf’ | ’glr’ | ’glf’<br />

voice ::= ’whisp’ | ’breath’ | ’husk’ | ’creak’ | ’fals’ | ’reson’ | ’giggle’ | ’laugh’ | ’trem’ | ’sob’ |<br />

’yawn’ | ’sigh’<br />

EditChg ::= any(〈sic (incorrect/inaccurate text) any(’corr’ ’resp’(onsible editor)<br />

’cert’(certainty))〉 〈corr any(’sic’(original form) ’resp’ ’cert’)〉<br />

〈reg(ularization) any(’orig’ ’resp’)〉 〈orig any(’reg’ ’resp’)〉<br />

〈gap any(’desc’ ’reason’ ’extent’ ’resp’)〉 〈unclear any(’reason’ ’resp’)〉<br />

〈del any(’type’ ’status’ ’resp’ ’hand’ ’cert’)〉 〈...〉)<br />

SynchPoint ::= 〈anchor any(’id’ ’synch’)〉 | 〈timeLine ’unit’〉<br />

timeLine ::= many(〈when any(’id’ ’absolute’ ’interval’ ’since’) 〉)<br />

Een voorbeeld van <strong>een</strong> gesproken fragment, waarin <strong>een</strong> aantal van deze codes is toegepast, is het volgende:<br />

you never take this cat for show\&sp;and\&sp;tell<br />

meow meow<br />

yeah well I dont want to<br />

<br />

<br />

because it is so old<br />

how about your\&stress; cat <br />

yours is new \&stress;<br />

<br />

thats darling<br />

no mine\&stress; isnt old<br />

mine is just um a little dirty<br />

Verder is in uitgebreide mogelijkheden voorzien voor synchronisatie van de transcriptie van overlappende<br />

spraak. Dat varieert van het simpele attribuut ’trans’ met waarde ’overlap’, via 〈anchor〉-elementen op<br />

31


epaalde plaatsen in de tekst tot precieze tijdsaanduidingen met het 〈timeLine〉-element. Deze elementen<br />

en attributen kunnen op talloze manieren worden toegepast. Aspecten van dit onderdeel van de TEI DTD<br />

zijn beschreven in Sperberg-McQu<strong>een</strong> & Burnard (1994: 313-317, 393-440).<br />

Het attribuut 〈trans〉 (overgang) is zeer <strong>een</strong>voudig toepasbaar, maar ook zeer onnauwkeurig (transcriptie<br />

uit het Speech Styles corpus, spreker id 12, door mij voorzien van TEI-tags):<br />

ik denk dat ut wel kan ik weet dat<br />

ut net .<br />

de twee minuten of zo . haalt ja <br />

ja ja <br />

ja ik wil wel verder gaan maar . <br />

Hierbij wordt het niet duidelijk op welk moment het ’ja ja’ overlapt met het commentaar van de interviewer.<br />

Dat gaat <strong>een</strong> stuk nauwkeuriger met behulp van het 〈anchor〉-mechanisme:<br />

ik denk dat ut wel kan ik weet dat<br />

ut net .<br />

de twee minuten of zo<br />

.<br />

haalt ja <br />

ja ja ja ik wil wel verder<br />

gaan maar . <br />

In dit geval is het duidelijk dat het ’ja ja’ samenvalt met de frase ’zo uh’ (de aarzeling) van de interviewer.<br />

Deze soort van synchronisatie is echter nog steeds geheel op de transcriptie gebaseerd, en zegt niets over de<br />

tijdsrelatie, m.a.w. hoe de fragmenten zich tot elkaar verhouden in het akoestisch signaal. Een methode die<br />

het TEI hiervoor aanreikt is het element 〈timeLine〉, hier met centi-seconden als tijds<strong>een</strong>heid:<br />

<br />

<br />

<br />

<br />

ik denk dat ut wel kan ik weet dat<br />

ut net .<br />

de twee minuten of zo<br />

.<br />

haalt ja <br />

ja ja ja ik wil wel<br />

verder gaan maar . <br />

Wat hier echter altijd nog ontbreekt is <strong>een</strong> daadwerkelijke link tussen de transcriptie en het oorspronkelijke<br />

signaal, aangezien iemand die de bovenstaande overlapping wil bestuderen op zoek moet gaan naar de tape<br />

of de audiofile en deze moet aftasten tot het gewenste moment is bereikt. Hiervoor kan <strong>een</strong> op het HyTimeprotocol<br />

gebaseerd link mechanisme dienen, dat gebruik maakt van extended pointers m.b.v. het element<br />

〈xptr〉:<br />

<br />

<br />

ik denk dat ut wel kan ik weet dat<br />

ut net .<br />

de twee minuten of zo<br />

.<br />

haalt ja <br />

ja ja ja ik wil wel<br />

verder gaan maar . <br />

32


De extra tag-set die dergelijke linking met andere files en media beregelt kan worden aangeroepen vanuit de<br />

documentfile met het commando:<br />

〈!ENTITY % TEI.linking ’INCLUDE’ 〉<br />

Een nadeel van de TEI-conventies is dat het slechts aanbevelingen zijn. Aan de ene kant wordt de codeur<br />

hierbij vrijgelaten om zijn eigen definities te hanteren, of de tagset uit te breiden, aan de andere kant betekent<br />

dit dat volgens de Guidelines b.v. de inhoud van het 〈vocal〉-element ook als gewone tekst kan worden<br />

beschouwd (b.v. de aarzeling ’uh’), dat i.p.v. &stress voor ’emfatische klemtoon’ ook 〈emph〉 gebruikt<br />

zou kunnen worden, dat het 〈trans〉-element ook vervangen kan worden door gedetailleerde synchronisatiesymbolen,<br />

dat voorgelezen spraak ook zou kunnen vallen onder de 〈writing〉-tag, of zelfs het 〈event〉 ’reading’,<br />

etc. Hiermee worden wel erg veel opties opengelaten.<br />

Het verdient daarom aanbeveling om bij het gebruik van de TEI-richtlijnen <strong>een</strong> gedetailleerd codeerprotocol<br />

op te stellen, en niet te vertrouwen op de <strong>een</strong>duidigheid van de TEI-codes. Dit protocol kan het best<br />

geïmplementeerd worden in <strong>een</strong> interactieve editor, zodat de codeur met<strong>een</strong> gewezen wordt op niet toegestane<br />

labels, en labels die in <strong>een</strong> verkeerde context (d.w.z. niet in de juiste hiërarchische relatie tot andere<br />

labels) worden gebruikt. Ook zal hij zo steeds all<strong>een</strong> die codes uit het menu kunnen kiezen, die relevant<br />

zijn voor de bepaalde editing context. Dit werkt beter dan controle achteraf. Een ander groot nadeel is de<br />

gedetailleerdheid van de aangeboden codes. Dit blijkt al uit de formulering door het consortium zelf van de<br />

TEI Lite set. Dit aspect wordt ook onderkend door de EAGLES-werkgroep:<br />

An annotation system such as that proposed by the Text Encoding Initiative is very elaborate and<br />

makes heavy demands on a transcriber, but also makes it possible to derive all relevant information<br />

from a transcription. While the TEI system makes use of SGML, which guarantees that existing<br />

software can be used, there is a large initial learning curve for the transcriber, which multiplies<br />

the possibility of human error in the transcription (Gibbon et al., 1997: 168).<br />

Daarom is het verstandig, om bij de grote hoeveelheid van elementen en attributen <strong>een</strong> onderverdeling te<br />

maken naar relevantie:<br />

verplicht code moet in elke transcriptie van opname of sample van opname aanwezig zijn.<br />

aanbevolen code aangeven als het praktisch uitvoerbaar is. Wanneer dat niet gaat, dan is <strong>een</strong> opmerking<br />

hierover verplicht. Deze codes zouden in <strong>een</strong> later stadium, indien er extra tijd of geld overschiet,<br />

alsnog moeten worden aangebracht.<br />

optioneel code all<strong>een</strong> aangeven als dit uitvoerbaar is. Het weglaten is niet zo belangrijk dat hierover <strong>een</strong><br />

notitie gemaakt moet worden.<br />

Deze strategie komt over<strong>een</strong> met het protocol van het SPEECHDAT-project (Gibbon et al., 1997: 825-<br />

834).<br />

Om juist het probleem van de zeer algemene toepasbaarheid van de TEI-aanbevelingen aan te pakken<br />

(waardoor de set aan de ene kant te uitgebreid is, en aan de andere kant niet specifiek genoeg voor bepaalde<br />

teksttypes), hebben onderzoekers die reeds werkzaam waren in de EAGLES-groep, het TEI, het Europese<br />

Multext-project en de afdeling Computer Science van Vassar College, USA (Nancy Ide c.s.) gezamenlijke<br />

stappen ondernomen om <strong>een</strong> minimale set regels op te stellen voor de structuur en annotatie van elektronische<br />

tekstcorpora voor taalkundig onderzoek. Dit staat bekend onder de naam Corpus Encoding Standard (CES).<br />

De aanbevelingen van de CES omvatten in aanzet zowel geschreven als gesproken corpora, en hebben ook<br />

betrekking op taalkundige annotatie met morfosyntactische codes, oplijning van parallelteksten, fonetische<br />

transcriptie, etc. De bedoeling is dat de voorstellen terugvloeien naar het TEI. De CES voorziet in verschillende,<br />

gescheiden niveaus van markering, waarvan het basisniveau (dat de tekststructuur weergeeft) de<br />

uitwisselbaarheid van de teksten tussen verschillende platforms en applicaties moet garanderen. Dit noemt<br />

de CES de primaire data, i.t.t. de taalkundige verrijking, die als supplementair wordt gezien. Volgens de<br />

Website van de CES:<br />

33


http://www.cs.vassar.edu/CES/<br />

zijn momenteel evenwel all<strong>een</strong> richtlijnen voorhanden voor krantenteksten.<br />

Ondanks het in velerlei opzicht nog schetsmatige karakter van de richtlijnen, is CES reeds toegepast in<br />

de Europese projecten Multext, Multext-East (Oost-Europa), PAROLE en TELRI. In de USA is onlangs<br />

besloten dit als standaard te gebruiken voor de TIPSTER-tekstcorpora. Een hernieuwde financiering moet<br />

de geconstateerde hiaten in teksttypen opvullen, en even<strong>een</strong>s de conversie van CES naar XML mogelijk<br />

maken (Nancy Ide, persoonlijke communicatie).<br />

4.2.4 EAGLES<br />

EAGLES (Expert Advisory Group on Language Engineering Standards) is <strong>een</strong> Europese adviesgroep die<br />

standaards definieert voor de opbouw en codering van tekstcorpora, computationele lexica en spraakcorpora,<br />

voor manipulatie en bewerking van deze bestanden met programmatuur, en voor het benaderen en evalueren<br />

van deze bestanden.<br />

Anders dan bij de hierboven genoemde, officieel vastgelegde internationale ISO-standaards, gaat het bij<br />

EAGLES net als bij het TEI niet om dwingend opgelegde criteria, maar eerder om volgens <strong>een</strong> breed forum<br />

van wetenschappers zeer nuttig geachte aanbevelingen. Immers,<br />

(...) spoken language technology is still a relatively young area and thus the so-called standards<br />

that are discussed here represent only the first rung of the ladder towards the more formal standards<br />

which might emerge at a later date. The use of the term “standards” in the R&D community and in<br />

the context of this handbook is more usefully interpreted in terms of guidelines and recommended<br />

practices. The emergence of more prescriptive actions such as professional codes of conduct, quality<br />

marks and formal standards still lies very much in the future (Gibbon et al., 1997: 6).<br />

Niettemin geldt voor EAGLES net als voor het TEI, dat de aanbevelingen in de praktijk hetzelfde gewicht<br />

kunnen hebben als ISO-standaards, aangezien bij het aanvragen van internationale projecten veelal<br />

aansluiting bij deze richtlijnen wordt geëist.<br />

Het EAGLES Handbook bevat aanbevelingen die soms erg algem<strong>een</strong> en voor de hand liggend zijn, en<br />

soms heel concreet. Dat eerste kan niet all<strong>een</strong> verklaard worden uit het gedeelde auteurschap en het onderliggende<br />

Europese consortium. Het heeft er zeker ook mee te maken dat gesproken corpora voor <strong>een</strong> veelheid<br />

aan doeleinden worden aangelegd, van b.v. veldopnames op Walkmans voor sociologisch onderzoek tot in<br />

<strong>een</strong> studio gemaakte, vrijwel geruisloze opnames van afasiepatiënten voor psycholinguïstische analyse. Er is<br />

m.a.w. veelal g<strong>een</strong> <strong>een</strong>duidige richtlijn te hanteren, hoogstens het advies van de best mogelijke organisatie<br />

en techniek gegeven de doeleinden. We zullen hierom niet alle aanbevelingen reproduceren over opnametechnieken,<br />

digitalisering van het signaal, wettelijke problemen, etc. In plaats daarvan concentreren we ons<br />

op <strong>een</strong> aantal hoofdpunten van belang voor de corpusopbouw en -annotatie.<br />

Bij de samenstelling van het corpus valt aan <strong>een</strong> aantal, min of meer duidelijk te onderscheiden tekstcategorieën<br />

te denken, op <strong>een</strong> schaal van zeer artificiële spraak tot de meest spontane spraak (Gibbon et al.,<br />

1997: 99-106):<br />

1. Voorgelezen fonemen, al dan niet in neutrale context (dat laatste is noodzakelijk bij niet-continuante<br />

klanken).<br />

2. Voorgelezen woorden in isolatie: lexicale woorden, dan wel fonotactisch correcte nonsenswoorden.<br />

3. Voorgelezen zinnen in isolatie. Dit varieert van woorden in <strong>een</strong> neutrale, steeds herhaalde ’carrier<br />

sentence’, zinnen met meer betekenisvolle, maar ongerelateerde inhoud, voorgedrukte antwoorden op<br />

even<strong>een</strong>s voorgedrukte vragen, tot fonetisch rijke zinnen (alle fonemen van de taal vertegenwoordigd)<br />

en fonetisch gebalanceerde zinnen (alle fonemen van de taal vertegenwoordigd in hun juiste frequentieverhouding).<br />

4. Voorgelezen tekstfragmenten, dus zinnen in contextuele samenhang.<br />

34


5. Semi-spontane spraak. Deze wordt op de <strong>een</strong> of andere manier geprompt met korte, gerichte vragen.<br />

Typische voorbeelden zijn het noemen van je geboortedatum, je adres, leeftijd, etc. Hierbij is al<br />

redelijke variatie mogelijk, zoals ’ik ben 23 jaar oud’, ’23’, ’23 jaar’, ’net 23’, etc.<br />

6. Spontane spraak over <strong>een</strong> afgesproken onderwerp. B.v. het navertellen van <strong>een</strong> verhaal, het beschrijven<br />

van <strong>een</strong> plaatje, maar ook dialogen waarbij de interviewer de discussie <strong>een</strong> bepaalde richting in stuurt.<br />

7. Gesimuleerde mens-machine dialoog (Wizard of Oz). Hierbij speelt <strong>een</strong> mens de rol van computer in<br />

<strong>een</strong> eerste testfase, om later <strong>een</strong> daadwerkelijk geautomatiseerd systeem te kunnen implementeren.<br />

8. Spontane spraak. Een wezenlijk probleem hierbij is, hoe men <strong>een</strong> situatie kan creëren, waarin de<br />

participant denkt dat hij niet wordt geobserveerd, of zijn uitingen niet worden opgenomen.<br />

• Gebruik verborgen microfoons. Nadelen: slechte opnamekwaliteit en toestemming van participanten<br />

moet achteraf worden gevraagd, met risico van weigering. Hierbij moet wel worden aangetekend,<br />

dat bij het British National Corpus slechts zeer weinig mensen toestemming achteraf<br />

weigerden, mits de opnames werden geanonimiseerd. Evenwel kan het feit dat het BNC slechts<br />

uit transcripties bestaat zonder het geluidssignaal hierop van invloed zijn geweest. EAGLES stelt<br />

daarom voor all<strong>een</strong> clandestiene opnames te maken als dit echt noodzakelijk is (Gibbon et al.,<br />

1997: 122).<br />

• Microfoon open zetten of laten staan buiten de aangekondigde opnametijd, b.v. bij introductiegesprek<br />

of evaluatie/informeel gesprek achteraf.<br />

• Vragen naar emotionele gebeurtenissen, vanuit de verwachting dat deze spraak de aanwezigheid<br />

van microfoon en interviewer doet vergeten.<br />

• Iemand uit de sociale kring van de participant erbij betrekken.<br />

• Adolescenten interviewen. Zij worden geacht nog niet zo goed hun spraak te kunnen formaliseren<br />

en te monitoren.<br />

Voordat met het opnameproces kan worden aangevangen, zal eerst <strong>een</strong> zo representatief dan wel zo gespreid<br />

mogelijke groep sprekers moeten worden aangetrokken. EAGLES reikt hiervoor <strong>een</strong> aantal aandachtspunten<br />

aan:<br />

Bepalen samenstelling van <strong>een</strong> breed geschakeerde groep participanten (Gibbon et al., 1977: 107-118). Stabiele<br />

variabelen:<br />

Demografische factoren geboorteplaats, woonplaats, opleidingsniveau, beroep, inkomen. Onderscheid<br />

moet worden gemaakt tussen geboorteplaats en plaats waar men opgegroeid is. De middelbare schoolperiode<br />

wordt hierbij als de uiteindelijk meest vormende periode gezien. Deze noteren. Het precieze<br />

onderscheid tussen de sociale klassen onderling is lastig vast te stellen. Geadviseerd wordt de grove<br />

indeling in: lagere, midden- en hogere klasse op grond van de factoren opleiding, werk en inkomen.<br />

Voor wat betreft allochtonen adviseert EAGLES slechts mensen met licht accent op te nemen.<br />

Geslacht man-vrouw. Geadviseerd wordt verhouding 50/50. Bij kinderen is dit veel minder van belang.<br />

Leeftijd stemkwaliteit verschilt van leeftijdsgroep tot leeftijdsgroep, maar niet met duidelijke scheidslijnen.<br />

Geadviseerd wordt te denken in termen van 3 categorieën: 0-20, 20-60 en 60+.<br />

Voor wat betreft vocabulaire en syntax, mag men veronderstellen dat de gespreksonderwerpen tussen<br />

ouderen en jongeren verschillen. Of dat echter van invloed is op het vocabulaire en de grammatica is<br />

niet duidelijk.<br />

Gewicht en grootte deze zijn kennelijk van invloed op de stemkwaliteit. Daarom noteren.<br />

Rook- en drinkgewoontes deze zijn kennelijk van invloed op de stemkwaliteit (schorheid/heesheid). Daarom<br />

noteren.<br />

35


Pathologische spraak EAGLES beveelt opname aan in algem<strong>een</strong> corpus, maar dat kan natuurlijk bepaalde<br />

normale fenomenen in zekere mate scheeftrekken. Een compromis kan zijn all<strong>een</strong> b.v. lichte<br />

pathologische spraak (schorheid, heesheid, fluisterstem) toe te laten. Aandachtsgebieden: fysiologische<br />

afwijkingen (gespleten gehemelte, hazenlip, ontbreken van tanden, verlammingen, afasie), fysiologischemotionele<br />

afwijkingen: stotteren, ’cluttering’.<br />

Getraind versus ongetraind men moet er rekening mee houden, dat veel TV- en radiosprekers, maar<br />

ook professionele sprekers (politici, zakenmensen) <strong>een</strong> spraaktraining achter de rug hebben, en daarom<br />

’overdreven correct’ kunnen articuleren.<br />

Het recruteren van sprekers die aan deze sprekerskenmerken moeten voldoen is <strong>een</strong> verhaal apart:<br />

Verzamelen contactadressen hierbij wordt <strong>een</strong> marketingbureau ingeschakeld om de adressen te leveren.<br />

De respons op dergelijke acties is ± 5% bij schriftelijke werving, 25% bij telefonische benadering, en<br />

50% bij huisbezoek.<br />

• Voordelen:<br />

– gecontroleerde demografische opbouw.<br />

– directe aanschrijving mogelijk.<br />

• Nadelen:<br />

– dure informatie met eigendomsrechten.<br />

– bereidwilligheid participanten niet gegeven.<br />

Openbare wervingsactie hierbij wordt <strong>een</strong> advertentie gezet of <strong>een</strong> oproep gedaan via radio, TV of Internet<br />

om zo veel mogelijk mensen te recruteren.<br />

• Voordelen:<br />

– relatief goedkoop.<br />

– hoge motivatie.<br />

– absoluut gezien veel respons.<br />

• Nadelen:<br />

– ongecontroleerde demografische opbouw.<br />

– hoge motivatie kan sample kleuren.<br />

– relatief gezien weinig respons (〈 1%)<br />

Hiërarchische wervingsactie hierbij worden mensen geworven, die weer andere mensen moeten bewegen<br />

deel te nemen. Dat kan binnen de organisatie waar de werver werkt, zijn vriendenkring, etc.<br />

• Voordelen:<br />

– relatief goedkoop.<br />

– gespreide wervingsactiviteit.<br />

• Nadelen:<br />

– ongecontroleerde demografische opbouw.<br />

– onduidelijke respons.<br />

Beloning wat voor wervingsmethode ook wordt gekozen, de respons kan flink toenemen als <strong>een</strong> beloning in<br />

het vooruitzicht wordt gesteld, of <strong>een</strong> kans op <strong>een</strong> prijs.<br />

Sprekergegevens naast de demografische gegevens moeten ook persoonsgebonden data worden geregistreerd<br />

als naam, adres, telefoonnummer en beschikbaarheid.<br />

36


Toestemming toestemming dient vooraf schriftelijk te worden gevraagd. Clandestiene opnames mogen<br />

all<strong>een</strong> met <strong>een</strong> zeer goede motivatie worden gemaakt, en achteraf moet schriftelijk toestemming worden<br />

geregeld. Het audiosignaal en de transcripten moeten worden geanonimiseerd (b.v. met piepjes op de<br />

tape, en met <strong>een</strong> spreker-identificatiecode in de transcripten).<br />

Voor wat betreft de transcriptie stelt EAGLES <strong>een</strong> annotatie op minstens drie niveaus voor:<br />

1. Orthografisch niveau.<br />

Op dit niveau worden de woorden beschouwd als lexicale <strong>een</strong>heden in hun standaardspelling, zodat<br />

verbinding met lexicale databanken en grammaticale tagging vergemakkelijkt worden.<br />

2. Ruwe fonetische transcriptie op grond van de uitspraak van het woord in isolatie.<br />

Dit is dan vaak <strong>een</strong> fonemische transcriptie gegenereerd door grafeem-foneem conversie of overgenomen<br />

uit <strong>een</strong> uitspraakwoordenboek. Dit kan gebeuren op basis van <strong>een</strong> lijst met alle unieke woorden in <strong>een</strong><br />

tekst. Dit is <strong>een</strong> stuk efficiënter bij automatische annotatie en opslag, en kan ook dienen als referentie<br />

voor handmatige controle.<br />

3. Gedetailleerde fonetische transcriptie, waarbij aandacht wordt besteed aan clitisering en reductie.<br />

Dit moet bij grotere corpora dan wel (gedeeltelijk) geautomatiseerd worden, omdat de procedure zo<br />

duur is. Prosodische en paralinguïstische informatie zou zeker moeten worden aangegeven op dit niveau<br />

(Gibbon et al., 1997: 84-86).<br />

Er kan echter nog verder onderscheid tussen de diverse niveaus worden aangebracht; ook kunnen er nog<br />

dimensies aan worden toegevoegd, zoals blijkt uit het volledige overzicht, dat samen met <strong>een</strong> aantal aanbevelingen<br />

hieronder wordt gepresenteerd (Gibbon et al., 1997: 155-172):<br />

1. Opnamescript (bij voorgelezen spraak).<br />

Dit ontslaat de maker van het corpus overigens in de meeste gevallen niet van het maken van <strong>een</strong> transcriptie<br />

waarin voorleesfouten (aarzelingen, valse starts, uitspraakfouten, substituties) worden aangegeven.<br />

Denk ook aan paralinguïstische verschijnselen zoals gevocaliseerde pauzes, hoesten, krakende<br />

stoelen, etc.<br />

2. Orthografische transcriptie (ook: transliteratie).<br />

Dit veronderstelt in zekere mate aanpassing aan de standaardspelling. Projecten verschillen erg in<br />

de mate waarin ze transliteratie in de zin van fonetische spelling toestaan. EAGLES beveelt aan,<br />

om op dit niveau zoveel mogelijk de standaardspelling aan te houden. Eerst zou de standaard orthografische<br />

transcriptie vervaardigd moeten worden, om pas later de prosodische, ’performance’ en<br />

paralinguïstische verschijnselen aan te geven in <strong>een</strong> extra ronde. Dit komt over<strong>een</strong> met het protocol van<br />

het SPEECHDAT-project (Gibbon et al., 1997: 825-834). De orthografische transcriptie kan eventueel<br />

door niet-taalkundig geschoolden gebeuren, b.v. <strong>een</strong> extern bureau. Dit geldt uiteraard niet voor de<br />

andere, hierna volgende niveaus.<br />

Qua tijdsplanning valt de volgende vuistregel aan te houden:<br />

Orthografische transcriptie voorgelezen zinnen 3 x duur signaal<br />

Orthografische transcriptie voorgelezen tekst 5 x duur signaal<br />

Orthografische transcriptie spontane spraak 10 x duur signaal<br />

Controle is noodzakelijk. Minstens moet <strong>een</strong> tweede transcribeur naar het signaal luisteren met de<br />

transcriptie voor zich. Dat kan dan het best in de omgekeerde volgorde: de transcriptiestijl is het<br />

meest consistent aan het einde.<br />

Een aantal probleemgevallen bij de orthografische transcriptie:<br />

37


• Gereduceerde woordvormen.<br />

Vaak wordt als criterium gehanteerd, dat ze in het woordenboek moeten voorkomen om aangegeven<br />

te kunnen worden. Er is dan vaak <strong>een</strong> conventionele spelling, b.v. voor ”zo’n”, ”d’r”, ïe”.<br />

Maar er zijn vaak verschillende spellingen mogelijk voor één vorm, en de lijst in het woordenboek<br />

kan arbitrair zijn. Daarom wordt gepleit te letten op frequentie van voorkomen en het criterium<br />

van gereduceerd aantal syllaben. Zowel voor de transcribeurs als voor de latere gebruikers moet<br />

er <strong>een</strong> complete lijst met deze woorden en hun schrijfwijze beschikbaar zijn.<br />

• Dialectwoorden.<br />

Het criterium kan zijn, dat het niet in het woordenboek staat, of met <strong>een</strong> aanduiding ’dialect’.<br />

Dit op de <strong>een</strong> of andere wijze weergeven, b.v. ’krek’〈dia〉, ’sakkers’〈dia〉.<br />

• Getallen.<br />

Deze uitschrijven zoals ze uitgesproken worden.<br />

• Afkortingen.<br />

Deze uitschrijven zoals ze uitgesproken worden.<br />

• Lettersequenties (b.v. in afkortingen, initialen, postcodes).<br />

In hoofdletters los van elkaar uitschrijven, uiteraard all<strong>een</strong> als ze ook los worden uitgesproken.<br />

• Tussenwerpsels.<br />

Zelfde criterium als bij gereduceerde vormen: kiezen voor standaardspelling indien voorhanden;<br />

lijst aanleggen met wijzigingen/variatie/toegevoegde woorden.<br />

• Weggelaten woorden.<br />

Twijfelgeval, omdat het hierbij moeilijk is vast te stellen of de spreker inderdaad dit woord in<br />

gedachten had.<br />

• Zelfreparaties van woorden.<br />

Dit gaat om complete woorden die impliciet of expliciet gecorrigeerd worden.<br />

• Zelfreparaties van woordfragmenten.<br />

Hierbij wordt al na <strong>een</strong> deel van het foutieve woord het correcte woord uitgesproken.<br />

• Onverstaanbare woorden of woorddelen.<br />

• Aarzelingen en gevocaliseerde pauzes.<br />

• Niet-verbale vocale en niet-vocale klanken.<br />

Deze zouden moeten worden opgenomen bij het relevante uiting(en).<br />

• Simultane spraak.<br />

• Sprekerwisselingen.<br />

3. Morfologische, syntactische, semantische en pragmatische representatie.<br />

4. Fonemische representatie (van de citation form).<br />

Hiervoor is de standaard in Europa SAMPA (Speech Assessment Phonetic Alphabet) (b.v. voor het<br />

project VERBMOBIL). Voor SAMPA, zie de URL:<br />

http://www.phon.ucl.ac.uk/home/sampa/home.htm<br />

Een nadeel hiervan is, dat de 7-bits codering all<strong>een</strong> maar <strong>een</strong> subset van het volledige IPA-alfabet<br />

toestaat, omdat de set binnen de 128 karakters moet blijven. Dit hoeft echter voor <strong>een</strong> monolinguaal<br />

corpus g<strong>een</strong> probleem te zijn, omdat per taal voor <strong>een</strong> fonemische transcriptie 128 posities (effectief,<br />

minus de controlkarakters, 95) meer dan voldoende zijn. Voor het Nederlands zijn er 47 symbolen<br />

beschikbaar, inclusief marginale fonemen. Dit laat nog genoeg ruimte over voor <strong>een</strong> set prosodische<br />

symbolen (klemtoon, toonhoogte, pauzes, grenzen), die ook gedefinieerd zijn in <strong>een</strong> additionele set onder<br />

de naam SAMPROSA (SAM PROSodic Alphabet). SAMPA heeft dan ook all<strong>een</strong> de pretentie iets te<br />

zeggen over intra-linguale opposities tussen fonemen, niet over inter-linguale opposities of equivalenties<br />

van deze klanken (Gibbon et al., 1997: 728). Een alternatief is het meer uitgebreide fonetische alfabet<br />

van Unicode, dat reeds onder het hoofdstuk XML (zie sectie 4.2.1) is besproken.<br />

38


5. Ruwe fonetische transcriptie (ook: fonotypische transcriptie).<br />

Op dit niveau wordt assimilatie, reductie, insertie of deletie weergegeven, maar dan all<strong>een</strong> voor zover<br />

het het fonemisch domein betreft, dus b.v. wel de labialisatie van de /n/ in ’schoenborstel’ en de deletie<br />

van de /t/ in ’kastplank’, maar niet aspiratie van plosieven, of palatalisatie/velarisatie van de /l/. Dit<br />

kan automatisch met regels worden afgeleid, en/of met de hand.<br />

6. Nauwkeurige fonetische transcriptie.<br />

Dit geeft meer gedetailleerde informatie dan het fonemisch niveau, zoals allofonen, glottisslagen, nasalisatie.<br />

Het kan all<strong>een</strong> handmatig worden gecodeerd, en onder nauwkeurige bestudering van het<br />

geluidssignaal, veelal in combinatie met oscillogrammen en spectrogrammen. Vanaf dit niveau wordt<br />

codering eigenlijk ondoenlijk, tenzij voor deelcorpora of met <strong>een</strong> bepaald doel voor ogen (b.v. logopedische<br />

tests bij nasale spraak).<br />

7. Akoestisch-fonetische transcriptie.<br />

Dit gebeurt geheel op grond van akoestische informatie uit oscillo- en spectrogrammen. Dit is uiteraard<br />

zeer arbeidsintensief, en daarmee niet geschikt voor grote corpora voor algem<strong>een</strong> gebruik.<br />

8. Fysische transcriptie.<br />

Het meest volledige niveau waarop gegevens kunnen worden verzameld, b.v. luchtstroommetingen,<br />

laryngogrammen, resonantiemetingen, etc. Dit is uiteraard zeer arbeidsintensief, en daarmee niet<br />

geschikt voor grote corpora voor algem<strong>een</strong> gebruik.<br />

9. Prosodische transcriptie.<br />

Dit betreft, in tegenstelling tot de vorige niveaus, het suprasegmentele niveau, dus op het niveau van<br />

intonatiecontouren, emfatische klemtoon, tempo- en ritmewisselingen, etc. Een aantal systemen en<br />

protocollen zijn hiervoor voorhanden, gebaseerd op metingen van de grondtoon (stijging-daling), al<br />

dan niet in relatie tot de mate van begrenzing tussen toongroepen (intonatiefrasen). Hieronder vallen<br />

de codeersystemen ToBI (Silverman et al., 1993), de IPO-benadering (’t Hart et al., 1990), en die van<br />

de corpora MARSEC (Roach et al., 1993) en VERBMOBIL (Kohler et al., 1995).<br />

Het idee van verschillende codeerrondes is op <strong>een</strong> iets andere manier vormgegeven in het MARSEC-corpus.<br />

Hierin werd de orthografische transcriptie opgedeeld in <strong>een</strong> pure transliteratie zonder aandacht voor de spellingconventies<br />

van geschreven taal, gevolgd door <strong>een</strong> ronde, waarbij wel standaard-interpunctie en hoofdletters<br />

werden toegepast:<br />

”The unpunctuated transcriptions were made using the spoken recordings. The text was typed<br />

directly on to computer, and it was at this point that unacceptable text was noted, and replaced<br />

by a comment in the transcription, for example [speech extract omitted]. Speaker details were<br />

also included in comments, for example [change of speaker: speaker name]. No word-initial capitals<br />

are used apart from those in proper names and abbreviations, thus no indication of start<br />

of sentence is given in this format of text. (...) The unpunctuated transcription was used in the<br />

production of the punctuated transcriptions and the prosodic transcriptions. These versions were<br />

made independently, so that neither influenced the other, i.e. the punctuated version was made<br />

independently of any prosodic information, and the prosodic version was made without any cues<br />

from punctuation. The only way to ensure this was to have the unpunctuated transcription as<br />

the starting point for both of these versions. (...) The volunteer punctuator was asked to insert<br />

punctuation at appropriate points in the text without access to the spoken recording. As an aid,<br />

a handbook on punctuation conventions was provided. (Knowles et al., 1996: 22-23).<br />

Buiten deze dimensies is nog commentaar mogelijk op elk van deze niveaus. EAGLES raadt aan om transcribeurs<br />

notities te laten maken over verschillende aspecten van de aard en kwaliteit van de opnames op <strong>een</strong><br />

vijfpuntsschaal (zoals bij het SWITCHBOARD corpus): moeilijkheidsgraad, natuurlijkheid, echo, statische<br />

ruis, etc.<br />

Inmiddels is er na afsluiting van EAGLES <strong>een</strong> vervolgproject gestart, dat zowel <strong>een</strong> verdere specificatie<br />

van de annotatielagen beoogt, als het bouwen van tools om die annotatie op <strong>een</strong> efficiënte manier aan te<br />

39


engen, te manipuleren en tevens zoekvragen (ook met het oog op de eindgebruiker) te ondersteunen. Dit<br />

is het MATE-project, dat specifiek gericht is op gesproken taal in dialoogvorm. Aangezien hierbinnen ook<br />

protocollen worden opgesteld voor het gedistribueerd werken aan en met dergelijke corpora volgens open<br />

standaards als WWW en Java, wordt ook ingespeeld op de eerder beschreven ontwikkeling naar applicatieonafhankelijke<br />

integratielagen, gebaseerd op SGML en XML.<br />

Zie voor <strong>een</strong> beschrijving van MATE:<br />

http://www.linglink.lu/le/projects/mate/index.html<br />

4.3 Het Ontstaan van Internationale Datacollecties<br />

4.3.1 De EUROM1 databank<br />

Dit is <strong>een</strong> Europees initiatief om platform-onafhankelijke, uniform gecodeerde en ontsloten gesproken taalcorpora<br />

(met slechts voorgelezen spraak) samen te stellen voor alle Europese talen. Het maakt gebruik<br />

van de in Europa erkende SAMPA transcriptiestandaard (ESPRIT SAM 2589). Het is vooral geschikt voor<br />

industriële toepassingen.<br />

Gegevens:<br />

• Omvang:<br />

– types: ?<br />

– tokens: ?<br />

• Samenstelling (teksttypes): 100 voorgelezen getallen, 60-100 CVC-patronen, 10 woorden in isolatie, 50<br />

zinnen en 40 alinea’s van 5 zinnen.<br />

• Sprekergegevens: 60 sprekers per taal. De vertegenwoordigde talen zijn Brits Engels, D<strong>een</strong>s, Duits,<br />

Frans, Grieks, Italiaans, Nederlands, Noors, Portugees, Spaans, en Zweeds. 30 mannelijke en 30<br />

vrouwelijke sprekers per taal, alle tussen de 20 en 60 jaar.<br />

• Opnamedatum: ? (staat in labelfile, voorbeelden melden 1989-1990).<br />

• Opnameduur: ± 12 uur per taal.<br />

• Annotatieschema:<br />

– gehanteerde standaard: SAMPA.<br />

– geclitiseerde en andere niet-standaard vormen: ?<br />

– sprekerwisseling, behandeling overlap: n.v.t.<br />

– behandeling bij- en achtergrondgeluiden: n.v.t. (opname in akoestisch dode (anechoic) ruimte).<br />

– gehanteerde interpunctie: n.v.t.<br />

• Annotatieniveaus: deels laryngogrammen, en oorspronkelijke voor te lezen tekst in ASCII. Daarnaast<br />

beschrijvende (label) files met zeer uitgebreide informatie (filetype, filenaam, sampling rate, opnamedatum<br />

en -tijd, aantal bytes per sample, aantal kanalen, sprekergegevens (moedertaal, geslacht, leeftijd),<br />

protocol, versie, begin- en eindcode).<br />

• Status privacy informanten: geanonimiseerd.<br />

• Copyright: ELRA?<br />

• Beschikbaarheid opnames: ja, via ELRA. In de praktijk blijken er grote problemen vanwege de fijnafstemming<br />

tussen alle Europese partners, het gedeelde auteursrecht, en copyright op het GERSONSdatabasesysteem,<br />

dat berust bij het bedrijf ICP. Momenteel zijn all<strong>een</strong> Italiaanse data beschikbaar bij<br />

ELRA.<br />

40


– geluidsdrager: CD-ROM.<br />

– opnametechniek: samplefrequentie 20 kHz, 16-bits A/D-conversie. Opnames met condensatormicrofoon<br />

in akoestisch dode ruimte.<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ja, spraakfiles en ASCII-files met voor te lezen tekst. Er is tevens <strong>een</strong><br />

databasesysteem beschikbaar voor PC onder de naam GERSONS, waarbinnen de data bevraagd<br />

kunnen worden.<br />

– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />

4.3.2 Het European Corpus Initiative (ECI)<br />

Het European Corpus Initiative (ECI) betreft <strong>een</strong> project uit 1992 om <strong>een</strong> multi-linguaal, algem<strong>een</strong> toegankelijk<br />

tekstcorpus op te bouwen. De CD van dit project bevat, voor het <strong>Nederlandse</strong> deel, naast artikelen uit<br />

de Groninger Universiteitskrant, De Limburger, Onze Taal en <strong>een</strong> nogal merkwaardige reeks citaten (kennelijk<br />

t.b.v. lexicografen), <strong>een</strong> aantal teksten die met enige goede wil gezien kunnen worden als weergaves van<br />

gesproken taal: scripts van het journaal, jeugdjournaal (beide oktober-december 1990, heel 1991, en januari<br />

tot juni 1992) en troonredes (1970-1986/88). Dit zijn dus g<strong>een</strong> transcripten, maar geschreven teksten, bedoeld<br />

om zo voorgelezen te worden. Hiermee valt het ECI-corpus in de traditie van het Engelse MARSEC<br />

en het Vlaamse ANNO-materiaal. Er zijn verschillen tussen de scripts en daadwerkelijk uitgesproken teksten.<br />

De bandopnames zijn helaas niet voorhanden, en er is derhalve g<strong>een</strong> koppeling tussen audiosignaal en<br />

tekst mogelijk, tenzij deze nog beschikbaar zijn bij de NOS. De CD-ROM is te verkrijgen bij het Europese<br />

consortium ELRA. Vervolgprojecten van ECI zijn o.a. Multext (Multilingual Text Tools and <strong>Corpora</strong>) en<br />

RELATOR (Distributed European Linguistic Resources Repository).<br />

Gegevens:<br />

• Omvang:<br />

– types: 42.148 (NOS-journaal), 22.246 (Jeugdjournaal), 4.602 (troonrede).<br />

– tokens: 1.096.725 (NOS-journaal) 478.172 (Jeugdjournaal), 36.288 (troonrede).<br />

• Samenstelling (teksttypes): voor te lezen teksten.<br />

• Sprekergegevens: nee.<br />

• Opnamedatum: oktober-december 1990, heel 1991, en januari tot juni 1992 (NOS-journaal en Jeugdjournaal),<br />

september 1970-1986 en 1988 (troonrede).<br />

• Opnameduur: ?<br />

• Annotatieschema:<br />

– gehanteerde standaard: TEI-conformant SGML.<br />

– geclitiseerde en andere niet-standaard vormen: ja (’t, ’n, is-ie, dat-ie), als leidraad voor het<br />

voorlezen.<br />

– sprekerwisseling, behandeling overlap: n.v.t.<br />

– behandeling bij- en achtergrondgeluiden: n.v.t.<br />

– gehanteerde interpunctie: orthografische interpretatie.<br />

• Annotatieniveaus: orthografie, SGML op aparte regels voor gemakkelijke uitfiltering.<br />

• Status privacy informanten: openbaar. Dit geldt echter niet voor alle gewenste biografische informatie<br />

(Van de Velde, 1996: 22).<br />

• Copyright: NOS (?)<br />

41


• Beschikbaarheid opnames: wellicht bij NOS.<br />

– geluidsdrager: ?<br />

– opnametechniek: ?<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ja, ASCII computerfiles met script en SGML-annotaties:<br />

∗ dut02a0[1-8].eci ≫ NOS-journaal.<br />

∗ dut02b.eci ≫ troonredes.<br />

∗ dut02c0[1-3].eci ≫ Jeugdjournaal.<br />

– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />

4.3.3 Het Multilingual Parallel Corpus (MLCC)<br />

Dit betreft <strong>een</strong> meertalig parallel corpus in de 9 officiële talen van de Europese Unie: D<strong>een</strong>s, Duits, Engels,<br />

Frans, Grieks, Italiaans, Nederlands, Portugees en Spaans. Het deel Beantwoording van schriftelijke vragen is<br />

voor het CGN niet relevant, maar het deel Debatten van het Europees Parlement bevat transcripties, waarbij<br />

aangegeven is of weergave van het gezegde in de oorspronkelijke taal is opgenomen, of <strong>een</strong> vertaling betreft.<br />

Op deze manier zijn de delen te isoleren, die <strong>een</strong> (gestandaardiseerde, g<strong>een</strong> clitica bevattende) transcriptie<br />

betreffen van het Nederlands. De codering is SGML-conformant. Voorbeeld:<br />

<strong>Nederlandse</strong> spreker in Nederlands subcorpus:<br />

〈speaker〉Wijsenbeek 〈party〉(LDR)〈/party〉. -〈/speaker〉 Mevrouw de Voorzitter, het betreft de<br />

wijze waarop deze vergadering georganiseerd is, dus artikel 19 van het Reglement.<br />

Niet-<strong>Nederlandse</strong>, in dit geval Engelse spreker in het Nederlands subcorpus:<br />

〈speaker〉Andrews 〈party〉(RDE)〈/party〉. -〈language〉(EN)〈/language>


<strong>Gesproken</strong> teksten (300) Dialoog (180) Privé (100) directe conversatie (90)<br />

telefoongesprekken (10)<br />

Publiek (80) klassikaal onderricht (20)<br />

radio/TV discussies (20)<br />

radio/TV interviews (10)<br />

politieke debatten (10)<br />

gerechtelijke verhoren (10)<br />

zakentransacties (10)<br />

Monoloog (120) ’Unscripted’ (70) spontaan commentaar (20)<br />

toespraken (30)<br />

demonstraties (10)<br />

gerechtelijke toespraken (10)<br />

’Scripted’ (50) radio/tv nieuws (20)<br />

radio/tv commentaar (20)<br />

toespraken (niet voor radio of tv) (20)<br />

Tabel 1: Teksttypen onderscheiden in het gesproken deel van ICE<br />

• Samenstelling (teksttypes): 200 geschreven en 300 gesproken tekstdelen van elk ± 2.000 woorden per<br />

taalvariëteit. De precieze tekstsamenstelling van het gesproken deel is te vinden in Tabel 1.<br />

• Sprekergegevens: sprekers en schrijvers van 18 jaar en ouder met <strong>een</strong> Engelstalige opleiding, die ofwel<br />

geboren zijn in het onderzochte land, ofwel hier jong naartoe zijn verhuisd. Verschillende leeftijdsgroepen<br />

met diverse sociaal-economische status, waarbij evenwel niet is gepoogd alle groepen precies<br />

tegenover elkaar te balanceren.<br />

• Opnamedatum: 1990-1996. Ook alle geschreven teksten stammen uit deze periode.<br />

• Opnameduur: 70 uur per taalvariëteit (gebaseerd op het Britse deel).<br />

• Annotatieschema:<br />

– gehanteerde standaard: SGML-conformant voor tekststructuur (in de zin van tags tussen vissenhaken<br />

met eindsymbolen); TOSCA (taalkundige en redekundige ontleding).<br />

– geclitiseerde en andere niet-standaard vormen: ja, voor zover geschreven standaard-equivalent<br />

bestaat (“he’ll”, “can’t”, “it’s”).<br />

– sprekerwisseling, behandeling overlap: ja, beide.<br />

– behandeling bij- en achtergrondgeluiden: nee.<br />

– gehanteerde interpunctie: ja, orthografische interpretatie.<br />

• Annotatieniveaus: orthografische transcriptie met pauzes, herhalingen, zelfcorrecties, valse starts en<br />

aarzelingen. Alle ’disfluencies’ zijn genormaliseerd, evenwel met behoud van de oorspronkelijke uitingen.<br />

Paralinguïstische kenmerken aangegeven. Syntactische analyse (tagging en parsing) met TOSCAprogrammatuur<br />

van de Nijmeegse vakgroep Taal & Spraak. Het Amerikaanse deel wordt verrijkt met<br />

<strong>een</strong> prosodische transcriptie.<br />

• Status privacy informanten: geanonimiseerd in transcript.<br />

• Copyright: ICE. Het corpus is uitsluitend verkrijgbaar voor non-profit gebruik voor ong. 900 gulden.<br />

Een multi-user licentie kost ongeveer 1500 gulden.<br />

43


• Beschikbaarheid opnames: nu nog niet. Digitalisering in uitvoering.<br />

– geluidsdrager: oorspronkelijk analoge tapes. Later distributie op CD-ROM.<br />

– opnametechniek: ?<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ja.<br />

– relatie signaal-transcriptie (volledigheid-koppeling): in uitvoering.<br />

Alle gegevens zijn elektronisch beschikbaar, en kunnen dankzij de ICECUP user interface (het ICE Corpus<br />

Utility Program) uitgebreid gemanipuleerd worden, b.v. tot <strong>een</strong> concordantie op woord- of tagniveau, of<br />

beide gecombineerd, of tot grammaticale boomstructuren in horizontale of verticale oriëntatie. Daarnaast<br />

kan worden gezocht op hiërarchische of andersoortige relaties in de boomstructuren (b.v. alle onderwerpen<br />

gerealiseerd door <strong>een</strong> zelfstandig-naamwoordgroep die twee op<strong>een</strong>volgende bijvoeglijke naamwoorden bevat).<br />

Ook zijn zoekacties mogelijk op teksttype en biografische gegevens van de schrijver of spreker, zoals leeftijd en<br />

sociaal-economische klasse. Er wordt momenteel gewerkt aan ’fuzzy matching’ op in <strong>een</strong> editor gespecificeerde<br />

patronen, die het leren van bepaalde zoekalgoritmes overbodig moet maken.<br />

Voor verdere informatie zie de Website van ICE onder URL:<br />

4.3.5 Het British National Corpus<br />

http://www.ucl.ac.uk/english-usage/<br />

Aan het project British National Corpus (BNC) werd door de volgende partners deelgenomen:<br />

• 3 woordenboekuitgevers (Chambers Harrap, Longman, Oxford University Press).<br />

• 2 universiteiten (Oxford en Lancaster).<br />

• 1 publieke dienstverlener (British Library).<br />

Het BNC-project kende <strong>een</strong> aantal uitgangspunten, die vooraf waren vastgelegd, en waaraan niet getornd<br />

mocht worden. Het BNC kan zo omschreven worden als:<br />

• <strong>een</strong> corpus van steekproeven van taaluitingen (samples), elk niet of nauwelijks groter dan 45.000 tokens.<br />

• <strong>een</strong> synchroon corpus, met fictie uit 1960-1993, non-fictie uit 1975-1993.<br />

• <strong>een</strong> algem<strong>een</strong> corpus, d.w.z. niet specialistisch in samenstelling of doelgroep.<br />

• <strong>een</strong> monolinguaal corpus, d.w.z. uitsluitend Brits Engels.<br />

• <strong>een</strong> gemengd corpus, d.w.z. zowel bestaand uit het geschreven als gesproken medium (Burnard, 1995:<br />

5-6).<br />

Het corpus telt 100 miljoen tokens, waarvan 10 miljoen gesproken. Dit komt over<strong>een</strong> met 700 uur spraakopnames<br />

(niet duidelijk is voor of na editing). Meer dan 4 miljoen tokens van de 10 waren geheel spontane<br />

spraak, d.w.z. 40%.<br />

Binnen het gesproken corpus van het BNC is onderscheid te maken tussen twee wijzen van sampling:<br />

• demografisch gemotiveerde steekproef (gepland 5% van de 100 miljoen tokens, in de praktijk 4,2%),<br />

nl. informanten met draagbare opnameapparatuur (Walkmans).<br />

• linguïstisch gemotiveerde steekproef (’context-governed’) (gepland 5% van de 100 miljoen tokens, in de<br />

praktijk 6,1%) (zie onderstaande tabel (Tabel 2) voor onderverdeling laatste categorie).<br />

44


1. Educatief en informatief 25%<br />

- monoloog (asymmetrisch) 40%<br />

- colleges, voordrachten en lezingen<br />

- nieuwsberichten en actualiteiten<br />

- dialoog (symmetrisch) 60%<br />

- klassikaal en individueel onderricht<br />

2. Zakelijk 25%<br />

- monoloog 40%<br />

- zakelijke presentaties<br />

- productdemonstraties<br />

- dialoog 60%<br />

- zakelijke gesprekken<br />

- vergaderingen<br />

- consults<br />

3. Openbaar en institutioneel 25%<br />

- monoloog 40%<br />

- politieke toespraken<br />

- preken<br />

- dialoog 60%<br />

- vergaderingen<br />

- politieke debatten<br />

- rechtszaken<br />

4. Recreatief 25%<br />

- monoloog 40%<br />

- toespraken en voordrachten<br />

- sportverslagen<br />

- dialoog 60%<br />

- praatprogramma’s<br />

- vergaderingen<br />

Tabel 2: Teksttypen onderscheiden in linguïstisch gemotiveerd deel gesproken BNC<br />

45


De exacte gegevens van het gesproken deel van het BNC kunnen als volgt schematisch worden weergeven:<br />

Gegevens:<br />

• Omvang:<br />

– types: ?<br />

– tokens:<br />

∗ 6,15 miljoen (linguïstisch gemotiveerd).<br />

∗ 4,21 miljoen (demografisch gesampled).<br />

• Samenstelling (teksttypes):<br />

– 762 linguïstisch gemotiveerde teksten, tot 200.000 tokens per type monoloog, tot 300.000 tokens<br />

per type dialoog (zie Tabel 2).<br />

– 153 demografisch gesamplede teksten.<br />

• Sprekergegevens: 153 informanten (inclusief ongeveer 30 tieners) voor het demografisch gedeelte, geselecteerd<br />

op grond van <strong>een</strong> willekeurige, gebalanceerde steekproef per regio (uit heel het Verenigd<br />

Koninkrijk), leeftijd, geslacht en sociaal-economische klasse. Met gesprekspartners erbij waren meer<br />

dan 1000 deelnemers te onderscheiden. De informanten zijn in het corpus aangegeven als 〈role=resp〉<br />

(respondent), terwijl 〈role=other〉 wordt gebruikt voor de gesprekspartners. Naast role zijn verplichte<br />

persoonsgegevens:<br />

geslacht m(ale), f(emale) of u(nknown).<br />

leeftijd 0 tot 15 jaar.<br />

1 15 tot 24 jaar.<br />

2 25 tot 34 jaar.<br />

3 35 tot 44 jaar.<br />

4 45 tot 59 jaar.<br />

5 ouder dan tot 59 jaar.<br />

X onbekend.<br />

Soms wordt de leeftijd, indien voorhanden, precies aangegeven.<br />

flang de moedertaal van de spreker.<br />

dialect het dialect van de spreker.<br />

soc de sociale klasse van de spreker.<br />

AB hoger- of middenbestuurskader, administratief of professioneel.<br />

C1 leidinggevend, afdelingshoofd of administratief.<br />

C2 geschoold vakman.<br />

DE halfgeschoold of ongeschoold.<br />

UU onbekend.<br />

educ het opleidingsniveau van de spreker.<br />

0 nog in opleiding.<br />

1 school verlaten met 14 jaar of jonger.<br />

2 school verlaten met 15 of 16 jaar.<br />

3 school verlaten met 17 of 18 jaar.<br />

4 opleiding gecontinueerd na 18 jaar.<br />

X onbekend.<br />

Daarnaast kunnen optioneel de volgende gegevens worden vermeld:<br />

46


BMRB code code van het marketingbureau voor <strong>een</strong> demografische klasse.<br />

naam <strong>een</strong> (fictieve) voornaam als extra identificatie.<br />

beroep het beroep van de spreker.<br />

commentaar<br />

relatie gelijkwaardige of hiërarchische relatie tussen de participanten, b.v. ’broer van X’, ’klant van<br />

Y’, ’collega van Z’.<br />

De informanten kregen maximaal <strong>een</strong> week <strong>een</strong> Walkman omgehangen. Hoewel het linguïstisch gemotiveerde<br />

gedeelte <strong>een</strong> andere, op teksttype gebaseerde samplestrategie volgde, werd binnen elk van<br />

de klassen toch zo veel mogelijk gelet op balans tussen regio (3 gebieden: Noord, Zuid en Midlands),<br />

geslacht, (opleidings)niveau van de spreker/doelgroep en onderwerp. Zo werden zowel nationale als<br />

regionale radiozenders meegenomen, mannelijke als vrouwelijke onderwijzers, kerkdiensten van verschillende<br />

geloofsovertuigingen, kantongerechten, arondissements- en hogere rechtbanken, etc.<br />

• Opnamedatum: 1981-1994.<br />

• Opnameduur: 700 uur.<br />

• Annotatieschema:<br />

– gehanteerde standaard: CDIF (Corpus Document Interchange Format), <strong>een</strong> door het TEI beïnvloede<br />

aanpassing van SGML (TEI was tijdens de codeerperiode nog niet afgerond). Geheel<br />

SGML-conformant.<br />

– geclitiseerde en andere niet-standaard vormen: ja, meer dan in standaard-orthografie wordt toegelaten,<br />

dus niet all<strong>een</strong> “can’t”, “we’re” en “that’s”, maar ook ’dunno’, ’gimme’, ’innit’, ’wanna’,<br />

etc. Wanneer woorden genormaliseerd zijn, geeft het element 〈sic〉 de ongenormaliseerde vorm<br />

weer, en 〈reg〉 de genormaliseerde vorm.<br />

– sprekerwisseling, behandeling overlap: ja, met het 〈who〉-attribuut en 〈align〉-elementen.<br />

– behandeling bij- en achtergrondgeluiden: ja, met paralinguïstische tags.<br />

– gehanteerde interpunctie: orthografische interpretatie.<br />

• Annotatieniveaus: globaal orthografisch, SGML voor teksttructuur, CLAWS-set van grammaticale<br />

tags. Het element 〈gap〉 dient voor weggelaten (b.v. geanonimiseerde) of onverstaanbare stukken<br />

tekst. Paralinguïstische codes omvatten stemkwaliteit (〈shift〉), niet-vocale elementen (〈event〉), vocale,<br />

niet-linguïstische elementen (〈vocal〉), pauzes (〈pause〉), onduidelijke passages (〈unclear〉), afgebroken<br />

woorden (〈trunc〉) en overlappingen. Het BNC hanteert andere interpretatie van de TEI-voorstellen<br />

voor overlappingen dan hierboven (zie sectie 4.2.3), nl. <strong>een</strong> align-declaratie met locaties vooraf, en dan<br />

pointers in de tekst, zoals in dit voorbeeld:<br />

<br />

<br />

<br />

...<br />

<br />

<br />

No, I’ll have to ring our Carl then, see if he can shift it, I mean she<br />

might as well be laid down here watching telly as upstairs laid in bed<br />

uncomfortable, you know yeah <br />

<br />

<br />

<br />

once you get in<br />

bed you’ll be like <br />

<br />

47


• Status privacy informanten: geanonimiseerd in de transcripten en de logfiles. Aan alle participanten<br />

is soms vooraf, soms achteraf toestemming gevraagd. Dit werd overgelaten aan de drager van de<br />

Walkman voor het demografisch deel. De opnames werden gewist als één der gesprekspartners g<strong>een</strong><br />

toestemming gaf.<br />

• Copyright: BNC-consortium. Het is verkrijgbaar voor uitsluitend taalkundig onderzoek binnen de EU<br />

voor ± 700 gulden.<br />

• Beschikbaarheid opnames: nee, all<strong>een</strong> orthografische transcripties. De opnames zijn opgeslagen in het<br />

National Sound Archive in Londen. Men hoopt dat die <strong>een</strong>s vrijgegeven worden (Crowdy, 1995: 229).<br />

– geluidsdrager: DAT-tape, of analoge tapes voor demografisch deel. De laatste werden overgezet<br />

naar DAT-tape t.b.v. efficiënte transcriptie.<br />

– opnametechniek: Walkman (demografisch), DAT-recorder (indien mogelijk voor context-governed<br />

deel).<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: orthografische transcriptie plus annotaties in SGML en CLAWS in één ASCIIcomputerfile<br />

per tekst. Het programma SARA (SGML-Aware Retrieval Application), <strong>een</strong> clientserver<br />

gebaseerd zoeksysteem dat concordanties kan aanmaken en de SGML-codes herkent, is<br />

meegeleverd op de CD-ROM.<br />

– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />

Het samengestelde BNC-corpus wordt voorafgegaan door het element 〈bnc〉, en bestaat uit <strong>een</strong> algemene<br />

header en <strong>een</strong> aantal teksten met elk het element 〈bncDoc〉.<br />

Elk 〈bncDoc〉 bestaat op zijn beurt weer uit <strong>een</strong> header en <strong>een</strong> element voor geschreven tekst, 〈text〉, of<br />

<strong>een</strong> gesproken tekst, 〈stext〉. Attributen ’complete’ (Y|N) en ’org’ (compo|seq) geven aan of de tekst resp.<br />

compleet is of <strong>een</strong> fragment, en of de tekstelementen in willekeurige dan wel sequentiële volgorde voorkomen.<br />

Elke tekst bevat tenminste <strong>een</strong> aantal segmenten 〈u〉, nl. voor onderscheiden gesproken uitingen, en 〈s〉,<br />

voor zinsachtige elementen (eind tag 〈/s〉 heeft hierbij de status ’o’ = omissable), die al dan niet handmatig<br />

zijn bijgewerkt (attribuut ’p’ (Y|N) voor post-editing, met als normaalwaarde ’N’). Zoals boven beschreven<br />

in de paragraaf over het TEI, heeft elke 〈u〉 <strong>een</strong> attribuut ’who’, dat de spreker (abstract) definieert. De 〈s〉elementen<br />

hebben als attribuut <strong>een</strong> sequentienummer, b.v. 〈s n=00011〉. Daarnaast kunnen frase-elementen<br />

voorkomen, 〈phSeq〉, of tekstdivisie-elementen, nl. 〈div〉, of all<strong>een</strong> maar gewone karakters, volgens de BNC-<br />

DTD gekenschetst als #PCDATA, maar niet als zodanig gecodeerd.<br />

Binnen deze frase-elementen vinden er de tags voor woord, 〈w〉, en leesteken, 〈c〉, die even<strong>een</strong>s meestal<br />

g<strong>een</strong> eind tag hebben. Woorden kunnen grammaticale attributen hebben als AJO (adjectief stellende trap) en<br />

AJC (adjectief vergrotende trap) volgens het CLAWS-schema, terwijl leestekens attributen kunnen hebben<br />

als PUL en PUN voor de realisatie van verschillende tekens, even<strong>een</strong>s volgens CLAWS.<br />

De transcriptiefiles, inclusief de DTD, het SARA-programma en documentatie worden, gearchiveerd met<br />

tar en gecomprimeerd met gunzip, geleverd op 3 CD-ROMs.<br />

4.3.6 Het POLYPHONE Corpus<br />

POLYPHONE is <strong>een</strong> internationaal corpus van telefoonspraak, gecoördineerd door het Linguistic Data Consortium<br />

in de VS. Het <strong>Nederlandse</strong> deel werd verzameld in samenwerking tussen PTT-Telecom en het<br />

Expertisecentrum SPEX. Het is te verkrijgen bij het Europese consortium ELRA. Er zijn inmiddels ook<br />

Amerikaans-Engelse, Amerikaans-Spaanse, Franse, Duitse, Japanse, Mandarijns-Chinese, Zwitsers-Franse<br />

en D<strong>een</strong>se versies beschikbaar. Het Amerikaanse deel van het POLYPHONE-project staat bekend onder de<br />

naam MACROPHONE.<br />

Gegevens:<br />

• Omvang:<br />

– types: ?<br />

48


– tokens: ?<br />

• Samenstelling (teksttypes): geëliciteerde spontane spraak (beantwoording 14 voorgedrukte vragen, zoals<br />

“Is Nederlands uw moedertaal?”, “Heeft U ooit in <strong>een</strong> ander land dan Nederland gewoond?”,”In<br />

welke plaatsen bent u opgegroeid?”, “Bent u <strong>een</strong> vrouw of <strong>een</strong> man?”, en 4 niet-voorgedrukte vragen<br />

(“Spel uw naam alstublieft”, “Hoe laat is het nu?”), 32 stukken voorgelezen tekst (getallen, woorden,<br />

gespelde woorden, datum, bedrag, tijdsaanduiding, hoeveelheid, zinnen met <strong>een</strong> applicatiewoord,<br />

fonetisch rijke zinnen). In totaal 50 items per spreker.<br />

• Sprekergegevens: 5050 sprekers, zo mogelijk gelijkelijk verdeeld over geslacht, leeftijd (16-20, 21-40,<br />

41-60, 61-), regio en sociaal-economische klasse. De sociaal-economische klasse werd gedefinieerd in<br />

termen van opleiding: all<strong>een</strong> lagere school, middelbare school en hbo/universiteit. Dat laatste was<br />

minder gelukkig: vrijwel ieder<strong>een</strong> onder de 60 bleek minstens middelbare school genoten te hebben.<br />

De jongste en de oudste groep bleken te zijn ondergerepresenteerd.<br />

• Opnamedatum: ? Data uitgegeven in 1995.<br />

• Opnameduur: ?<br />

• Annotatieschema:<br />

– gehanteerde standaard: ?<br />

– geclitiseerde en andere niet-standaard vormen: ?<br />

– sprekerwisseling, behandeling overlap: n.v.t.<br />

– behandeling bij- en achtergrondgeluiden: ja, in transcriptie.<br />

– gehanteerde interpunctie: ?<br />

• Annotatieniveaus: orthografische transcriptie.<br />

• Status privacy informanten: ?<br />

• Copyright: ?<br />

• Beschikbaarheid opnames: ja, bij ELRA.<br />

– geluidsdrager: CD-ROM.<br />

– opnametechniek: digitale ISDN telefoonlijn. Aculab telefoon-interface, <strong>een</strong> Rhetorex Voice Card<br />

en driver software, Show-’n-Tel applicatie ontwikkelingssoftware, en <strong>een</strong> 16 port operational license,<br />

op <strong>een</strong> OS/2 PC. Sampling rate 8 kHz, 8-bits A/D-conversie.<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: 222.075 audiofiles, met file formaat 8-bit raw A-law data.<br />

– relatie signaal-transcriptie (volledigheid-koppeling): ?<br />

De opmerkingen van het <strong>Nederlandse</strong> POLYPHONE-team over de stratificatie-strategie van dit project<br />

zijn mogelijk van belang voor het CGN-project. Deze zijn overgenomen van de EAGLES Website voor<br />

<strong>Gesproken</strong> Data (http://coral.lili.uni-bielefeld.de/EAGLES/). Ze zijn ook te vinden in Gibbon et al. (1997:<br />

807):<br />

Speaker selection and recruitment is still a difficult issue. In the Dutch POLYPHONE project<br />

much time, effort and money was spent in order to get a maximally uniform sampling of a large<br />

number of cells. To a considerable extent, these efforts have b<strong>een</strong> to no big avail. The major<br />

reason to strive towards uniform sampling was scientific: we wanted the corpus to be as attractive<br />

as possible for linguists and dialectologists, of course without interfering with the requirements of<br />

speech technology. The latter requirements are ill-defined. It is quite likely that applications like<br />

Train Time Table Information must deal with the public at large, including low income groups<br />

whose speech may differ from the general standard. More research is needed to clarify this issue.<br />

49


4.3.7 Het Oxford Text Archive<br />

Het Oxford Text Archive (OTA) is <strong>een</strong> verzamel- en distributiecentrum van elektronische teksten aan de<br />

Universiteit van Oxford. Het werd reeds in 1976 opgericht door Lou Burnard. Anders dan vele ftp-sites<br />

en elektronische archieven, die vaak <strong>een</strong> vergaarbak zijn van documenten in talloze formaten en stijlen,<br />

stimuleert het OTA de opname en verspreiding van teksten volgens internationaal aanvaarde standaards. Zo<br />

is het OTA <strong>een</strong> belangrijk pleitbezorger voor de platform- en applicatie-onafhankelijke document-markeertaal<br />

SGML en in het bijzonder de hierop gebaseerde literaire conventies van het TEI. Als standaard codeerset<br />

wordt TEI Lite aanbevolen, <strong>een</strong> ’uitgeklede’ versie van de volledige reeks TEI elementen, attributen en regels<br />

(zie boven). Niettemin kunnen ook documenten worden geaccepteerd in HTML, XML, (La)TeX, Rich Text<br />

Format (RTF), ASCII, word processors als WordPerfect of Word, PostScript of Portable Document Format<br />

(PDF), hoewel dit niet de voorkeur geniet.<br />

Net als bij het Project Gutenberg bestaat de hoofdmoot van de OTA-collectie uit teksten in het publieke<br />

domein. Daarnaast zijn er echter, in tegenstelling tot de Amerikaanse equivalent, ook corpora beschikbaar,<br />

waarvoor speciale contracten afgesloten zijn.<br />

De meeste teksten zijn vrijelijk verkrijgbaar voor onderzoeksdoeleinden, maar mogen niet verder gedistribueerd<br />

worden buiten de vakgroep, of verwerkt worden tot <strong>een</strong> commercieel product. De condities zijn<br />

echter veelal afhankelijk van het beleid van de leveranciers van de oorspronkelijke teksten.<br />

Op het gebied van moderne spraakcorpora beschikt het OTA over <strong>een</strong> versie van het Eindhoven corpus,<br />

de CHILDES corpora, het London-Lund corpus, het Lexis gesproken Engels corpus, John Kirk’s Noord-Iers<br />

corpus (400.000 tokens) en de Duitse Ulm Textbank (transcripties van psycho-diagnostische interviews).<br />

Voor verdere informatie zie de Website van het OTA onder URL:<br />

4.3.8 Het Project Gutenberg<br />

http://firth.natcorp.ox.ac.uk/ota/public/index.shtml<br />

Het Project Gutenberg is <strong>een</strong> Amerikaans initiatief om zoveel mogelijk geschreven teksten op de computer op<br />

te slaan en ter beschikking te stellen aan geïnteresseerden. Vanwege de hanteerbaarheid is gekozen voor opslag<br />

zonder applicatie- of systeemspecifieke code in platte ASCII-tekens. Om allerlei problemen met distributie<br />

te voorkomen, is gekozen voor de opname van uitsluitend teksten in het publiek domein. Aangezien het<br />

copyright op <strong>een</strong> tekst pas kan vervallen 50 jaar na de dood van de auteur, betreft de collectie slechts oude<br />

teksten. Omdat de selectie bovendien beperkt blijft tot fictieve lectuur, literaire fictie en naslagwerken, is<br />

dit project qua inhoud en codeerwijze geheel irrelevant voor het CGN-project. Informatie is te vinden op<br />

het WWW onder URL:<br />

http://mirrors.org.sg/pg/index.html<br />

Hierbij zij nog vermeld, dat het eerder opgezette Georgetown University Catalogue of Projects in Electronic<br />

Text, dat <strong>een</strong> goed gestructureerd overzicht gaf van elektronische tekstbestanden over de hele wereld, na<br />

1993 door gebrek aan menskracht niet meer is bijgewerkt, en inmiddels samen met het op VMS gebaseerde<br />

gopher-systeem is afgesloten (privécorrespondentie met Michael Neuman, Georgetown University).<br />

4.4 Moderne Nederlandstalige <strong>Gesproken</strong> <strong>Corpora</strong><br />

4.4.1 Het ANNO Corpus<br />

Het ANNO-corpus werd ontwikkeld in het kader van het Vlaamse korte-termijnprogramma Spraak- en Taaltechnologie.<br />

Dit programma werd in 1993 door de Vlaamse regering geïnitieerd met als doel de achterstand<br />

op het gebied van deze technologie t.o.v. de hoofdtalen binnen de Europese Gem<strong>een</strong>schap zoveel mogelijk<br />

weg te werken. Het aanmaken van corpora werd gezien als <strong>een</strong> onderdeel van het initiatief, dat “het uitbouwen<br />

van goede logistieke ondersteuning van het wetenschappelijk onderzoek in verband met taaltechnologie”<br />

beoogde (zie Spraak- en Taaltechnologie voor het Nederlands, 1993).<br />

50


ANNO, dat bedoeld is als “<strong>een</strong> geannoteerde publieke gegevensbank voor het geschreven Nederlands”, is<br />

te zien als <strong>een</strong> pilotproject om te komen tot <strong>een</strong> standaard voor het samenstellen en annoteren van grotere<br />

Nederlandstalige corpora. Het materiaal bestaat uit BRTN radio-nieuwsberichten en afleveringen van de<br />

radio actualiteitenrubriek Actueel. Het taalgebruik in deze uitzendingen wordt beschouwd als de nationale<br />

standaard. De teksten bestaan oorspronkelijk uit geschreven taal die bedoeld is om uitgesproken te worden.<br />

Daarnaast bevat het tekstmateriaal ook origineel gesproken taal in de vorm van getranscribeerde interviews.<br />

Het project werd uitgevoerd door het Centrum voor Computerlinguïstiek aan de Katholieke Universiteit<br />

Leuven.<br />

Gegevens:<br />

• Omvang:<br />

– types: ?<br />

– tokens: 640.000.<br />

• Samenstelling (teksttypes): BRTN radio-nieuwsuitzendingen en uitzendingen van de actualiteitenrubriek<br />

Actueel. Dit laatste deel bevat zowel voorgelezen spraak als spontane interviews.<br />

• Sprekergegevens: ?<br />

• Opnamedatum: ?<br />

• Opnameduur: ?<br />

• Annotatieschema:<br />

– gehanteerde standaard: SGML voor de tekststructuur.<br />

– geclitiseerde en andere niet-standaard vormen: ?<br />

– sprekerwisseling, behandeling overlap: ?<br />

– behandeling bij- en achtergrondgeluiden: ?<br />

– gehanteerde interpunctie: orthografisch.<br />

• Annotatieniveaus: orthografie, tekststructuur in SGML, syntactische tagging volgens WOTAN<br />

(TOSCA-groep vakgroep Taal en Spraak, KU Nijmegen), fonetische transcriptie van de woorden uit<br />

CELEX, dan wel gegenereerd met TreeTalk (Walter Daelemans, KU Brabant), morfologische tags<br />

deels aangebracht met Keper (Polderland Nijmegen), syntactische (redekundige) ontleding deels met<br />

METAL (Siemens), discourse analyse deels volgens <strong>een</strong> onbekend systeem. Zie voor <strong>een</strong> demo van de<br />

diverse annotatieniveaus de URL:<br />

• Status privacy informanten: ?<br />

http://www.ccl.kuleuven.ac.be/about/ANNO/DEMO/21mrt08u.html<br />

• Copyright: Aangezien het uitzendingen van de BRTN betreft, zijn er problemen met de openbaarmaking<br />

van het corpus gerezen. Momenteel kan het corpus niet buiten de KU Leuven gebruikt worden.<br />

Er zijn onderhandelingen gaande.<br />

• Beschikbaarheid opnames: momenteel niet.<br />

– geluidsdrager: ?<br />

– opnametechniek: ?<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ?<br />

– relatie signaal-transcriptie (volledigheid-koppeling): ?<br />

51


4.4.2 Het COGEN Corpus<br />

Het Corpus <strong>Gesproken</strong> Nederlands COGEN vloeide, net als het ANNO-bestand, voort uit het korte-termijn<br />

programma Spraak- en Taaltechnologie van de Vlaamse regering. De COGEN-databank moest voorzien in<br />

<strong>een</strong> grote variëteit aan opnames van <strong>een</strong> aantal standaardwoorden en -zinnen en één stuk lopende tekst.<br />

Sprekers werden gerecruteerd uit alle lagen van de bevolking, waarbij de voorwaarde was dat ze g<strong>een</strong> dialect<br />

spraken, maar zich zoveel mogelijk conformeerden aan het Standaard-Nederlands. Het doel was hiermee<br />

voldoende data te verzamelen voor <strong>een</strong> systeem voor robuuste continue spraakherkenning. Uitvoering geschiedde<br />

door het Departement Elektrotechniek (ESAT) van de KU Leuven en de vakgroep Elektronica<br />

en Informatiesystemen (ELIS) van de Universiteit Gent. De gegevens hieronder komen grotendeels uit<br />

privécorrespondentie met Wim Goedertier (ELIS).<br />

Gegevens (zie ook Bouma & Schuurman, 1998: 29-30):<br />

• Omvang:<br />

– types: ?<br />

– tokens:<br />

∗ 63.510 (RS OFF)<br />

∗ 23.000 (SS TEL operator)<br />

∗ 13.230 (SS TEL informant)<br />

• Samenstelling (teksttypes):<br />

– WL OFF (word list office): gespelde woorden (10 uit <strong>een</strong> set van 40), commandowoorden, cijfers en<br />

fonetisch rijke woorden (100 uit <strong>een</strong> set van 400), voorgelezen in <strong>een</strong> normale (enigszins rumoerige)<br />

kantooromgeving.<br />

– RS OFF (read speech office): voorgelezen lopende krantentekst (5 alinea’s, gemidd. 73 woorden<br />

per alinea) in <strong>een</strong> (enigszins rumoerige) kantooromgeving.<br />

– WL TEL (word list telephone): voorgelezen woordenlijsten over de telefoon.<br />

– SS TEL (spontaneous speech telephone): spontane spraak over de telefoon. 3 vragen naar informatie<br />

via gesimuleerde mens-machine-dialoog. De medewerker (operator) las hierbij de respons<br />

van de computer op van de monitor. Dit deel is dus voorgelezen spraak.<br />

• Sprekergegevens: 174 sprekers uit verschillende regio’s, leeftijdsgroepen en sociaal-economische klassen.<br />

De bedoeling was evenwel dat ze zoveel mogelijk Standaard Nederlands spraken. Het deel WL TEL<br />

telt 185 sprekers, het deel SS TEL slechts 126.<br />

• Opnamedatum: 1995?<br />

• Opnameduur (pauzes steeds weggeknipt):<br />

– 2,16 uur (WL OFF gespeld)<br />

– 5,83 uur (WL OFF voorgelezen)<br />

– 7,02 uur (RS OFF)<br />

– 5,85 uur (WL TEL)<br />

– 3,48 uur (SS TEL operator)<br />

– 2,00 uur (SS TEL informant)<br />

• Annotatieschema:<br />

– gehanteerde standaard: YAPA (fonemische transcriptie). Deze standaard werd in Vlaanderen<br />

ontwikkeld voor het eerder genoemde korte-termijn programma.<br />

– geclitiseerde en andere niet-standaard vormen: ?<br />

52


– sprekerwisseling, behandeling overlap: niet relevant.<br />

– behandeling bij- en achtergrondgeluiden: ?<br />

– gehanteerde interpunctie: ?<br />

• Annotatieniveaus: handmatig geverifieerde orthografische transcriptie (incl. aarzelingen, versprekingen,<br />

reparaties), automatische fonemische transcriptie door Lernhout & Hauspie, handmatig geverifieerde<br />

fonemische transcriptie (slechts 3.4% van RS OFF, andere delen niet), daarnaast automatische<br />

labelling op foonniveau (= fonetische segmentatie), d.w.z. discrete kenmerken binnen <strong>een</strong> foneem, zoals<br />

ontploffing, toonbaar, aspiratie, sluiting, glottale stop, door ELIS, handmatig geverifieerde fonetische<br />

segmentatie (slechts 3,4% van RS OFF, andere delen niet).<br />

• Status privacy informanten: geanonimiseerd (nr0001, nr0002, etc.)<br />

• Copyright:<br />

– ESAT/ELIS(?) (WL OFF)<br />

– ESAT/ELIS (RS OFF)<br />

– ESAT/ELIS/Lernhout & Hauspie (WL TEL)<br />

– ESAT/ELIS (SS TEL)<br />

• Beschikbaarheid opnames: ja, behalve WL TEL, dat gedeeld eigendom is van Lernhout & Hauspie.<br />

– geluidsdrager: 6 CD-ROMS.<br />

– opnametechniek:<br />

∗ 16 kHz, 16 bit (RS OFF).<br />

∗ 8 kHz, 8 bit (SS TEL) met analoge telefoonverbinding. File formaat raw A-law data.<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ja, orthografische transcriptie in *.txt files, autom. fonemische transcriptie<br />

in *.tts files, handmatige correctie fonemische transcriptie in *.phn files, autom. fonetische segmentatie<br />

in *.lab files, handmatige correctie fonetische segmentatie in *.hla files. Soundfiles met<br />

extensie *.sam.<br />

– relatie signaal-transcriptie (volledigheid-koppeling): ja, op frase-niveau voor de files *.txt, *.tts,<br />

*.phn (RS OFF), op sprekerniveau voor de files *.txt, *.tts, *.phn (SS TEL). Samples van de data<br />

RS OFF en SS TEL bevinden zich op de ftp-site van ELIS onder URL:<br />

4.4.3 Het PBS Corpus<br />

ftp://elis.rug.ac.be/pub/speech/cgn/<br />

Dit is <strong>een</strong> Vlaams corpus van Phonetically Balanced Sentences. Het is opgesteld aan de Universiteit van<br />

Gent, door de vakgroep ELIS. De volgende gegevens komen voort uit privécommunicatie met Wim Goedertier<br />

(ELIS).<br />

Gegevens:<br />

• Omvang:<br />

– types: 441.<br />

– tokens: 11.518.<br />

• Samenstelling (teksttypes): 13 fonetisch gebalanceerde zinnen.<br />

• Sprekergegevens: 130 sprekers.<br />

53


• Opnamedatum: ?<br />

• Opnameduur: 1,18 uur.<br />

• Annotatieschema:<br />

– gehanteerde standaard: ?<br />

– geclitiseerde en andere niet-standaard vormen: ?<br />

– sprekerwisseling, behandeling overlap: n.v.t.<br />

– behandeling bij- en achtergrondgeluiden: ?<br />

– gehanteerde interpunctie: ?<br />

• Annotatieniveaus: niet geverifieerde orthografische transcriptie (prompts), fonetische transcriptie in<br />

*.phn-files, 30,8% fonetisch gesegmenteerd in *.hla-files.<br />

• Status privacy informanten: ?<br />

• Copyright: ELIS.<br />

• Beschikbaarheid opnames: ?<br />

– geluidsdrager: ?<br />

– opnametechniek: sampling rate 10 kHz, deel 11 kHz, fileformaat µ-law (12 bit).<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ja, orthografische transcriptie (prompts), fonetische transcriptie in *.phnfiles,<br />

fonetische segmentaties in *.hla-files.<br />

– relatie signaal-transcriptie (volledigheid-koppeling): ?<br />

4.4.4 Het Groningen Corpus<br />

Dit is <strong>een</strong> corpus met <strong>Nederlandse</strong> voorgelezen spraak, verzameld door A.M. Sulter en H.K. Schutte. Het is<br />

te verkrijgen bij het Europese consortium ELRA.<br />

Gegevens:<br />

• Omvang:<br />

– types: ?<br />

– tokens: ?<br />

• Samenstelling (teksttypes): voorgelezen tekst: 20 getallen, 16 <strong>een</strong>lettergrepige woorden, 3 lange klinkers<br />

(a, e, i), 23 fonetisch rijke korte zinnen, twee stukken tekst met veel directe rede om ’emotionele spraak’<br />

op te wekken.<br />

• Sprekergegevens: 238 sprekers. 94 sprekers lezen ook nog <strong>een</strong> uitgebreide woordenlijst voor. Gegevens<br />

over leeftijd, lengte, gewicht, rook- en drinkgedrag zijn opgenomen. Er zijn ook pathologische sprekers<br />

opgenomen. De stemkwaliteit is beschreven door de spreker zelf en <strong>een</strong> panel van luisteraars. De<br />

sprekers worden gekarakteriseerd als sprekers van het Standaard-Nederlands.<br />

• Opnamedatum: ?<br />

• Opnameduur: meer dan 20 uur.<br />

• Annotatieschema:<br />

– gehanteerde standaard: ?<br />

54


– geclitiseerde en andere niet-standaard vormen: ?<br />

– sprekerwisseling, behandeling overlap: n.v.t.<br />

– behandeling bij- en achtergrondgeluiden: ?<br />

– gehanteerde interpunctie: ?<br />

• Annotatieniveaus: orthografische transcriptie.<br />

• Status privacy informanten: ?<br />

• Copyright: ELRA/ELSNET.<br />

• Beschikbaarheid opnames: ja, bij ELRA.<br />

– geluidsdrager: 4 CD-ROMS. Oorspronkelijke opname op PCM tapes.<br />

– opnametechniek: ?<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ja, spraakfiles en orthografische transcripties.<br />

– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />

4.4.5 Het Speech Styles Corpus<br />

Een Nederlands gesproken corpus bestaande uit het spraaksignaal en bijbehorende orthografische transcriptie,<br />

samengesteld door het Expertisecentrum SPEX (Leidschendam). Het bevat spontane spraak (monologen),<br />

semi-spontane spraak (plaatjesbeschrijvingen) en voorgelezen spraak. De opstellers en uitvoerenden waren<br />

R. van Bezooijen en J. van Rie.<br />

Gegevens:<br />

• Omvang:<br />

– types: 6.300.<br />

– tokens: 118.000.<br />

• Samenstelling (teksttypes): spontane spraak (monologen), semi-spontane spraak (plaatjesbeschrijvingen)<br />

en voorgelezen spraak, in aanwezigheid van <strong>een</strong> begeleider. Het onderwerp van gesprek was steeds<br />

huishoudelijke zaken, eetgewoonten en voedsel. Hierdoor komt het vocabulaire sterk over<strong>een</strong>.<br />

• Sprekergegevens: 127 sprekers:<br />

– Man: 60 sprekers.<br />

– Vrouw: 67 sprekers.<br />

– Leeftijd -20: 30 sprekers.<br />

– Leeftijd 20-60: 45 sprekers.<br />

– Leeftijd 60+: 52 sprekers.<br />

• Opnamedatum: ? (transcriptiedatum (1994) in *.hdr-files)<br />

• Opnameduur: meer dan 19 uur.<br />

– 4,66 uur monoloog.<br />

– 10,35 uur plaatjesbeschrijvingen.<br />

– 4,19 uur voorgelezen tekst.<br />

• Annotatieschema:<br />

55


– gehanteerde standaard: ?<br />

– geclitiseerde en andere niet-standaard vormen: ja, clitica en gereduceerde vormen, volgens meegeleverde<br />

transliteratielijst (speechstyles.txt).<br />

– sprekerwisseling, behandeling overlap: overlap tussen hekjes #.<br />

– behandeling bij- en achtergrondgeluiden: aangegeven door algem<strong>een</strong> label ’[noise]’.<br />

– gehanteerde interpunctie: g<strong>een</strong>. Interpunctie wordt gebruikt voor de prosodie: punten voor pauzes,<br />

uitroeptekens voor emfatische klemtoon (contrastief accent), komma voor intonatieve scheiding,<br />

dubbele punt voor verlenging.<br />

• Annotatieniveaus: orthografisch (alles onderkast, behalve eigennamen met hoofdletter). Versprekingen<br />

tussen asterisks, weggelaten woorden tussen ronde haakjes (), gecorrigeerde woorden tussen vissenhaakjes<br />

, interrupties door de interviewer tussen accolades {}, onduidelijke woorden tussen dubbele ronde<br />

haakjes (()), paralinguïstische kenmerken tussen rechte haakjes []. Fonetische transcriptie inclusief prosodische<br />

codes.<br />

• Status privacy informanten: geanonimiseerd (id-nummers 001, 002 etc., die elk corresponderen met<br />

<strong>een</strong> directory tree van die naam).<br />

• Copyright: SPEX (?)<br />

• Beschikbaarheid opnames: ja, bij SPEX (?).<br />

– geluidsdrager: CD-ROM.<br />

– opnametechniek: sampling rate 16 kHz, 16 bits A/D-conversie.<br />

– signaal-ruisverhouding: gunstig (studiokwaliteit).<br />

– elektronische versie: ja, audiofiles in NIST format (*.wav files) en esps format (*.sd files). Bijbehorende<br />

orthografische transcriptie in *.tra files. Bijbehorende fonetische transcriptie in *.phono<br />

files. In de root directory van de CD bevindt zich ook <strong>een</strong> lexicon met de fonetische transcriptie<br />

van alle woorden in het corpus. Er is ook <strong>een</strong> apart lexicon met alle gereduceerde vormen en<br />

clitica. Dit kan van belang zijn voor het CGN-project.<br />

– relatie signaal-transcriptie (volledigheid-koppeling): op uitingenniveau (uiting is gedefinieerd als<br />

<strong>een</strong> semantische <strong>een</strong>heid tussen twee pauzes, die minstens <strong>een</strong> subject en <strong>een</strong> werkwoord bevat).<br />

56


Voorbeelden:<br />

Orthografische transcriptie monoloog spreker 001:<br />

[000000000]<br />

ik woon in Ouderkerk aan de Amstel<br />

[000037808]<br />

dat is <strong>een</strong> dorpje . onder Amsterdam<br />

[000110768]<br />

zo dicht [uh] bij Amsterdam en dan <strong>een</strong> echt dorp<br />

[000167424]<br />

ut is dus niet zoals Amstelvee:n of als Amsterdam Zuid de Bijlmer . maar <strong>een</strong> echt ouderwets dorp<br />

met <strong>een</strong> dorpspleintje met . heel veel kerken . eromh<strong>een</strong><br />

[000349360]<br />

Ouderkerk dat zegt ut dus al 〈kerk〉 kerken . [loud breath] is <strong>een</strong>: . beetje rare gem<strong>een</strong>te ut is <strong>een</strong><br />

hele oude gem<strong>een</strong>te<br />

Bijbehorende fonetische transcriptie monoloog spreker 001:<br />

[000000000]<br />

”Ik ”wo:n ”In ”Au-d@r-%kEr-@k ä:n ”d@ ”Am-st@l<br />

[000037808]<br />

”dAt ”Is ë:n ”dOr-@p-j@ . ”On-d@r Am-st@r-”dAm<br />

[000110768]<br />

”zo: ”dIxt [uh] ”bEi Am-st@r-”dAm ”En ”dAn ë:n ”Ext ”dOr-@p<br />

[000167424]<br />

IJt ”Is ”dYs ”nit zo:-”Als Am-st@l-”ve:n ”Of ”Als Am-st@r-”dAm ”z9yt ”d@ ”bEil-m@r . ”ma:r<br />

ë:n<br />

”Ext Au-d@r-”wEts ”dOr-@p ”mEt ë:n ”dOr-@ps-plEin-tj@ ”mEt . ”he:l ”fe:l ”kEr-k@ . @-rOm-<br />

”he:n<br />

[000349360]<br />

”Au-d@r-%kEr-@k ”dAt ”zExt IJt ”dYs ”Al 〈”kEr-@k〉 ”kEr-k@ . [loud breath] ”Is ë:n . ”be:-tj@<br />

”ra:-r@ x@-”me:n-t@ IJt ”Is ë:n ”he:-l@ ”Au-d@ x@-”me:n-t@<br />

4.4.6 Het OVIS Corpus<br />

Dit corpus is ook bekend onder de naam VIOS. Er zijn verschillende versies in omloop van verschillende<br />

grootte ten behoeve van verschillende soorten onderzoek en bewerking. Het betreft hier bandopnames van<br />

het openbaar vervoer-reisinformatiesysteem van de NS. De opnames zijn gemaakt door de KPN t.b.v. het<br />

uittesten van dit mens-machine dialoogsysteem. De (summiere) gegevens hieronder komen uit persoonlijke<br />

communicatie met Mieke Rats, wetenschappelijk consulent bij de firma Compuleer, die momenteel bewerking<br />

van het corpus onderzoekt.<br />

Gegevens:<br />

• Omvang: 20.000 dialogen.<br />

– types: niet bekend.<br />

– tokens: niet bekend.<br />

• Samenstelling (teksttypes): machine-gestuurde mens-machine dialoog. Daarnaast ook mens-mens dialogen<br />

(kennelijk als back-up voor het automatische systeem).<br />

57


• Sprekergegevens: ?<br />

• Opnamedatum: ?<br />

• Opnameduur: ?<br />

• Annotatieschema:<br />

– gehanteerde standaard: ?<br />

– geclitiseerde en andere niet-standaard vormen: wil men opnemen.<br />

– sprekerwisseling, behandeling overlap: ?<br />

– behandeling bij- en achtergrondgeluiden: ?<br />

– gehanteerde interpunctie: ?<br />

• Annotatieniveaus: men wil naast orthografie ook syntactische en pragmatische coderingen aanbrengen,<br />

zodat ook specifieke taalfenomenen kunnen worden geselecteerd als syntactische structuren, ellipsis,<br />

versprekingen, en specifieke dialoogsituaties zoals bijvoorbeeld correctiestrategieën.<br />

• Status privacy informanten: ?<br />

• Copyright: KPN/OVR/NS (?)<br />

• Beschikbaarheid opnames: mogelijk problematisch vanwege copyright en privacyoverwegingen.<br />

– geluidsdrager: ?<br />

– opnametechniek: ?<br />

– signaal-ruisverhouding: ?<br />

– elektronische versie: ?<br />

– relatie signaal-transcriptie (volledigheid-koppeling): ?<br />

4.4.7 <strong>Corpora</strong> van het Meertensinstituut<br />

Aan het Meertensinstituut van de KNAW in Amsterdam wordt momenteel gewerkt aan <strong>een</strong> omvangrijk<br />

dialectcorpus van het Modern <strong>Gesproken</strong> Nederlands. Het uiteindelijk streven is 400 Noord-<strong>Nederlandse</strong><br />

(incl. de Friese taal) en 200 Zuid-<strong>Nederlandse</strong> dialecten vast te leggen in 2000 voorgedefinieerde items, zowel<br />

woorden in isolatie als zinnetjes.<br />

58


5 Evaluatie<br />

Uit de voorafgaande inventarisatie van bestaande spraakcorpora en pogingen tot het definiëren van standaards<br />

voor het verzamelen, bewerken en openbaar maken van dergelijke corpora vallen <strong>een</strong> aantal aanbevelingen<br />

en aandachtspunten af te leiden.<br />

Het gaat hierbij om eisen die aan de corpusinhoud, het corpusformaat en de corpusannotatie kunnen<br />

worden gesteld. De meeste hiervan zijn taalkundig van aard, of worden gestuurd door taalkundige behoeften:<br />

• Corpusinhoud:<br />

– omvang.<br />

– representativiteit (sterke eis)/spreiding (zwakke eis).<br />

– stratificatie.<br />

– steekproefmethode.<br />

• Corpusformaat:<br />

– opnametechniek.<br />

– medium/drager.<br />

– opslag en conservering.<br />

– organisatie fragmenten (filestructuur, database, etc.).<br />

• Corpusannotatie:<br />

– orthografische transcriptie.<br />

– tekstuele structuur: SGML, XML, etc.<br />

– grammaticale en fonetische annotatieniveaus.<br />

– koppeling spraaksignaal aan transcriptie en annotatie.<br />

Een aantal aandachtspunten:<br />

1. Maak g<strong>een</strong> gebruik van clandestiene opnames in verband met juridische (en ook ethische) bezwaren.<br />

Vraag altijd vooraf schriftelijk toestemming, all<strong>een</strong> indien dit onmogelijk is achteraf. Regel ook vooraf<br />

alle auteursrechtelijke kwesties rond het beschikbaarstellen van de gesproken data voor wetenschappelijk<br />

en commercieel gebruik. Ook openbare opnames, b.v van radio of TV, kunnen problematisch<br />

zijn in verband met het verkrijgen van persoonlijke gegevens (leeftijd, opleidingsniveau, etc.) van de<br />

sprekers, en de mogelijk hierbij door hen gevoelde inbreuk op hun privacy.<br />

2. De opnametechniek moet gegeven de omstandigheden zo goed mogelijk zijn, omdat alle andere transcriptie-<br />

en annotatieniveaus hiervan afhangen.<br />

3. De transcriptie moet orthografisch zo nauwkeurig mogelijk zijn, omdat anders de annotatie (b.v. met<br />

grammaticale tags) problematisch wordt. Daarom zijn er eigenlijk twee orthografische niveaus nodig:<br />

één transliteratie die nauw aansluit bij het gesprokene, dus met fonetische en prosodische annotaties,<br />

paralinguïstische verschijnselen en context-notities, die we kunnen betitelen als ’narrow’, en één<br />

standaard orthografische transcriptie en interpunctie, die tagging vergemakkelijkt en zo vergelijkend<br />

lexicologisch en grammaticaal onderzoek mogelijk maakt. Deze kunnen we kenschetsen als ’broad’<br />

(Edwards, 1995: 20).<br />

4. Extra-linguïstische gegevens (demografische en persoonlijke data, situationele context, mogelijk communicatieve<br />

niet-vocale fenomenen) moeten zoveel mogelijk ter plekke worden genoteerd en later opgenomen<br />

in of bij het transcript, omdat deze essentieel kunnen zijn voor het begrip van de tekst en<br />

later veelal niet meer te achterhalen zijn.<br />

59


5. Indien gebruik wordt gemaakt van <strong>een</strong> fonemische transcriptie (met eventueel prosodische informatie)<br />

dan dient aansluiting bij Unicode of anders SAMPA te worden overwogen.<br />

6. Wanneer het signaal wordt meegeleverd in gedigitaliseerde vorm, inclusief oscillo- en spectrogrammen,<br />

dan beïnvloedt dat de fonologische, fonemische, fonetische en akoestische niveaus van transcriptie. Het<br />

is discutabel dat dergelijke meer aan interpretatie onderhevige en slecht in absolute grootheden te<br />

karakteriseren informatie zeer gedetailleerd met de hand moet worden vastgelegd (gesteld dat het al<br />

binnen redelijke tijd kan worden vastgelegd), als het snel op te zoeken is in (de combinatie van) het<br />

spraaksignaal en de transcriptie (b.v. Chafe et al., 1991: 72-73).<br />

7. Er moet zorg voor worden gedragen, dat de corpora herbruikbaar zijn voor verschillende doeleinden.<br />

8. Herbruikbaarheid impliceert:<br />

(a) Duidelijke uitgangspunten.<br />

(b) Aansluiting bij (inter)nationale standaards of minstens bij eerdere succesvolle projecten (’best<br />

practice’).<br />

(c) Een van tevoren vastgesteld transcriptie- en annotatieprotocol. Codes mogen niet ambigu zijn,<br />

d.w.z. duidelijk afgebakend zijn ten opzichte van elkaar. Te veel detaillering werkt in die zin<br />

contraproductief.<br />

(d) Interactieve en post hoc validatiemethodes voor de kwaliteit en consistentie van transcriptie en<br />

annotatie.<br />

(e) Platform- en applicatie-onafhankelijkheid. Wanneer ook zeer gebruikersvriendelijke codeerstrategieën<br />

gebonden zijn aan platform-specifieke software, zoals syncWRITER voor de Apple Macintosh,<br />

dan lijdt dat onherroepelijk tot problemen.<br />

(f) Beschikbaarheid van het signaal en alle codeerniveaus.<br />

(g) Uitbreidbaarheid voor locale applicaties (b.v. verrijking met discourse tags voor <strong>een</strong> promotieonderzoek).<br />

9. Los van mate waarin het transcriptie- en annotatieprotocol vastligt, en kan worden gevalideerd tijdens<br />

en na het codeerproces, geldt dat codes werkbaar moeten zijn voor de codeurs. Er moeten discrete<br />

sets mnemonische codes worden gedefinieerd, waarbij software zorg kan dragen voor interactieve ondersteuning<br />

en conversie naar meer abstracte codes, indien gewenst. Uiteraard komt <strong>een</strong> dergelijke<br />

formulering ook de efficiency en de consistentie van het coderen ten goede. Gedetailleerde, vaak als<br />

omslachtig ervaren standaards zoals de TEI-extensies van SGML en XML moeten beoordeeld worden<br />

op hun toepasbaarheid op grote gesproken corpora (Sinclair, 1995: 106-109). Lijsten met toegestane<br />

gereduceerde, geclitiseerde vormen, interjecties, dialectwoorden, fonologisch functionele <strong>een</strong>heden en<br />

andere conventies moeten worden opgesteld ter (mogelijk softwarematige) ondersteuning van de codeur<br />

en, in <strong>een</strong> later stadium, de eindgebruikers.<br />

10. Het gebruik van op hypertext en hypermedia gebaseerde middleware, die de orthografische transcriptie<br />

aan de lineaire tijdsdimensie van het spraaksignaal kan koppelen in samenhang met andere afgeleide<br />

gegevens, zoals annotaties, databases, header-files, enz. moet worden overwogen, zowel voor annotatieals<br />

exploratie-doeleinden (resp. codeurs en eindgebruikers). Indexering van veel opgevraagde tiers is<br />

geboden voor snelle retrieval.<br />

11. Additieve annotatie (waarbij tags in de tekstsequentie zijn opgenomen) moet op deze en andere (computationele)<br />

gronden worden afgewogen tegen referentiële annotatie, waarbij bidirectionele pointers via<br />

byte offsets tekstdelen associëren met bepaalde markeringen. De laatste methode geniet de voorkeur,<br />

mits het doorzoeken en laden van de relaties niet te veel tijd kost.<br />

12. Uitgebreide annotatieniveaus moeten per niveau weg te filteren zijn uit de transcripten d.m.v. de<br />

gebruikersinterface en uit af te drukken versies, omdat anders de tekst onleesbaar wordt.<br />

13. De gebruikersinterface moet <strong>een</strong> grafisch en intuïtief benaderbaar karakter hebben.<br />

60


14. Er moet in weergave van transcriptie en annotatie <strong>een</strong> balans gevonden worden tussen leesbaarheid en<br />

presenteerbaarheid enerzijds en efficiënte en betrouwbare quantitatieve exploitatie anderzijds.<br />

6 Gidsprojecten voor de Toekomst<br />

In dit hoofdstuk worden <strong>een</strong> aantal recente of nog lopende initiatieven en projecten vernoemd, die mogen gelden<br />

als wegbereiders voor de geheel gedigitaliseerde aanleg, annotatie en ontsluiting van met name gesproken<br />

corpora. Zij kunnen gezien worden als voorbeelden voor waar CGN naar streeft.<br />

Een bijzonder interessant overzicht van allerhande tools en formaten die op dit gebied voorhanden zijn<br />

is te vinden op de Webpage Linguistic Annotation van Steven Bird en Mark Liberman:<br />

6.1 Het GATE Project<br />

http://morph.ldc.upenn.edu/annotation/<br />

Het GATE-project (General Architecture for Text Engineering), opgezet bij de vakgroep Computer Science<br />

aan de Universiteit van Sheffield, beoogt de bouw van <strong>een</strong> theorie-neutrale, platform- en applicatie-onafhankelijke<br />

grafische ontwikkelomgeving voor NLP-tools en tekstbestanden. Het is vooral ondernomen om bestaande<br />

NLP-modules op <strong>een</strong> efficiënte manier te hergebruiken en te koppelen (Cunningham et al., 1997).<br />

Het systeem bestaat uit <strong>een</strong> databank, inclusief <strong>een</strong> managementsysteem, waarin documenten en hun diverse<br />

bewerkingsslagen kunnen worden opgeslagen (GDM - GATE Document Manager) met SGML als opslagformaat<br />

(input/output), en daarnaast de GATE Graphical Interface (GGI), waarin de documenten kunnen<br />

worden bewerkt. Via dit interface kan men de data op <strong>een</strong> grafische manier beheren, benaderen, bekijken,<br />

bewerken en opslaan. Bewerkingsprocessen kunnen worden opgebouwd door verschillende bestanden<br />

en tools samen te brengen in <strong>een</strong> data flow diagram, en te activeren met muiskliks. Het GGI ondersteunt<br />

ook visualisatie van de output, zoals highlighted matches in <strong>een</strong> tekst, of boomdiagrammen als output van<br />

parsering.<br />

Tenslotte omvat GATE <strong>een</strong> aantal modules, die <strong>een</strong> interface vormen tussen GGI en eigen bestanden<br />

en programma’s van de end-user die vrijelijk kunnen worden ingeplugd in GATE (parsers, taggers, teksten,<br />

lexica, etc.). Deze gaan onder de naam CREOLE (Collection of REusable Objects for Language Engineering).<br />

Zij vormen a.h.w. <strong>een</strong> laag om de tools h<strong>een</strong>, waardoor geabstraheerd kan worden van concrete<br />

opslagformaten, programmeertalen en besturingssystemen (Cunningham et al., 1996). De tekstannotaties<br />

worden referentieel i.p.v. additief aan de documenten toegevoegd d.m.v. pointers tussen de byte offsets van<br />

de tekstdelen en de in de GDM-database opgeslagen codes, dus het is wel zaak, dat applicaties dit type van<br />

verwijzingen ondersteunen.<br />

GATE is geschreven in C++ en Tcl/Tk en draait op UNIX en Windows NT. Een geheel herziene Javaversie<br />

is in de maak.<br />

Het systeem, evenals beschikbare CREOLE-objecten, is het stadium van prototyping reeds lang gepasseerd<br />

en kan worden ingezet in concrete NLP-taken. Het kan na registratie gratis worden opgehaald in<br />

Sheffield via ftp.<br />

Zie:<br />

6.2 Het EUDICO Project<br />

http://www.dcs.shef.ac.uk/research/groups/nlp/gate/<br />

EUDICO (EUropean DIstributed COrpora project) is <strong>een</strong> initiatief van het Max Planck Instituut in Nijmegen,<br />

voortvloeiend uit eerdere ervaringen met de ontwikkeling van <strong>een</strong> MediaTagger (videotranscriptie en<br />

-analyse) en MediaEditor (audiotranscriptie en -analyse). Het wordt uitgevoerd op het MPI, met financiering<br />

van SURFnet.<br />

Hoewel het niet gebaseerd is op GATE, deelt het wel diens uitgangspunten, in de zin van <strong>een</strong> formaatonafhankelijk,<br />

grafisch API (application programming interface), waarbinnen <strong>een</strong> groot aantal, vaak reeds<br />

61


estaande tools en corpora kunnen worden ’ingeplugd’ door middel van abstractie van de diverse inputformaten.<br />

Het project voegt hier twee nieuwe elementen aan toe:<br />

toegang tot tijdgebaseerde media Aangezien GATE is gebaseerd op tekstuele bronnen, worden links<br />

geëffectueerd op het woordniveau. Aangezien in toenemende mate audio- en videodata de eigenlijke<br />

bronbestanden gaan vormen, is het nodig snelle toegang te krijgen tot fragmenten en features gebaseerd<br />

op de tijdcodes in het signaal. Alle annotaties moeten dus gesynchroniseerd worden met de byte offsets<br />

van het digitale signaal, niet met de afgeleide transcriptie(s).<br />

gedistribueerde toegang Immers, bij talloze internationale ontwikkelprojecten – maar ook bij end-user<br />

toegang tot steeds in omvang toenemende multimediale databases – wordt het steeds wenselijker dat<br />

deelnemers binnen één virtuele Internet-omgeving samen kunnen werken, ongehinderd door gescheiden<br />

locaties en verschillende computerinfrastructuur.<br />

Binnen dit model is ook de mogelijkheid van toegang tot klassen van corpora via meta-informatie expliciet<br />

gemaakt. De gebruiker kan zo <strong>een</strong> zoekaktie beperken tot <strong>een</strong> bepaalde taal, tijd, genre of type spreker,<br />

waarna de server de bewuste corpora of relevante delen daarvan naar de gebruiker downloadt.<br />

Vanwege het doel van uniforme Internet-toegang is gekozen voor Java als implementatietaal.<br />

Zie verder de URLs:<br />

http://www.mpi.nl/world/tg/lapp/lapp.html<br />

http://www.mpi.nl/world/tg/lapp/eudico/eudico.html<br />

6.3 De Edinburgh Language Technology Group<br />

De Edinburgh Language Technology Group houdt zich o.a. bezig met het ontwikkelen van applicaties voor<br />

het annoteren en ontsluiten van grote taalcorpora. Zij concentreren zich hierbij, zowel op het theoretische als<br />

op het praktische vlak, op het ontwikkelen van standaards en tools gebaseerd op SGML en XML. Zij hebben<br />

in die hoedanigheid bijgedragen aan het W3C en het ISO-overleg over de uitwerking van deze standaards.<br />

De LT XML-toolset omvat <strong>een</strong> XML-editor, <strong>een</strong> parser (voor validatie van documenten), <strong>een</strong> viewer<br />

voor zowel de sequentiële als de hiërarchische tekststructuur, <strong>een</strong> tokenizer en <strong>een</strong> document-zoektaal. Het<br />

is geschreven in C, en draait op UNIX, Windows95 en Windows NT. Daarnaast produceert de groep ook<br />

meer specifiek op linguïstisch onderzoek gerichte taggers, parsers, software voor het schrijven van formele<br />

grammatica’s en boomdiagrameditors en -viewers.<br />

De programma’s zijn gratis down te loaden voor academisch gebruik na het ondertekenen van <strong>een</strong> gebruikersover<strong>een</strong>komst.<br />

De toolset wordt momenteel gebruikt door ongeveer 1500 academische en commerciële<br />

instellingen in de wereld.<br />

Zie:<br />

http://www.ltg.ed.ac.uk/software/index.html<br />

6.4 Het Paper A Formal Framework for Linguistic Annotation<br />

In hun paper A Formal Framework for Linguistic Annotation (Bird & Liberman, 1999) presenteren Steven<br />

Bird en Mark Liberman van het Linguistic Data Consortium <strong>een</strong> logisch raamwerk voor linguïstische<br />

annotatie in de vorm van <strong>een</strong> annotation graph, waarbinnen allerlei bestaande corpusfileformaten en annotatietypen<br />

(ook transcripties) te representeren zouden zijn. Zij richten zich hierbij vooral op tijdgebaseerde<br />

bronbestanden zoals audio, video en fysiologische opnames (b.v. 3D-gebarenopnames). Het sluit hiermee<br />

duidelijk aan bij het werk van het MPI zoals vervat in EUDICO.<br />

62


Zij poneren de stelling:<br />

The one thing that ties all of the time series data together is a shared time base. To use these<br />

arbitrarily diverse data streams [nl. soorten annotatie en transcriptie], we need to be able to line<br />

them up time-wise. The shared time base is also the only pervasive and systematic connection<br />

such data is likely to have with annotations of the type we are discussing in this paper. (1999: 26)<br />

Zie voor verschillende formaten van het document:<br />

http://xxx.lanl.gov/abs/cs.CL/9903003<br />

Er is inmiddels <strong>een</strong> voorstel ingediend bij de NSF (National Science Foundation) om dit idee en <strong>een</strong> bijbehorende<br />

toolbox verder uit te breiden. Daarmee zou het, ook gezien de leidende rol van het LDC, wel <strong>een</strong>s<br />

<strong>een</strong> heel invloedrijk project kunnen worden.<br />

6.5 Het Zweedse <strong>Gesproken</strong> Corpus Project<br />

Dit project wordt geleid door Jens Allwood aan de Universiteit van Göteborg. Wat dit corpus bijzonder<br />

maakt is niet zozeer zijn grootte (1,2 miljoen tokens), als wel de gedegen opzet. Zo is er <strong>een</strong> opdeling naar diverse<br />

activiteiten, om zo systematische verschillen in uitspraak, vocabulaire en syntax op het spoor te komen.<br />

Verder zijn gedetailleerde protocols voorhanden voor orthografische transcriptie (inclusief de behandeling van<br />

uitspraakvariatie op vier niveaus: standaard-orthografie, modified standard, fonematisch, fonetisch), markering<br />

van sprekerwisseling en -overlap, niet-verbale klanken, enz. Deze zijn on-line opvraagbaar, voor <strong>een</strong> deel<br />

in het Engels. Daarnaast wordt er gewerkt aan <strong>een</strong> toolset, waaronder transcriptiesoftware (TransTool, geschreven<br />

in Tcl/Tk, downloadable) en pakketten voor tijdsynchrone codering en presentatie van multimedia<br />

en transcripties.<br />

Zie:<br />

6.6 Het Hyperlex Project<br />

http://www.ling.gu.se/SLSA/SLcorpus.html<br />

Steven Bird heeft baanbrekend werk verricht op het gebied van presentatie van doorzoekbare lexica in HTMLformulier-formaat.<br />

Hierin kunnen restricties worden gespecificeerd op orthografie, fonologie, morfologie etc.<br />

in de vorm van extended reguliere expressies (ondersteund door <strong>een</strong> Perl cgi-bin script). Ook kan het<br />

gesproken signaal worden afgespeeld (weliswaar slechts via hyperlinks naar individuele audiofiles). Zie Bird<br />

(1997).<br />

Zie:<br />

7 Referenties<br />

http://www.ldc.upenn.edu/hyperlex/<br />

Atkins, B.T.S., J. Clear & N. Ostler (1992). Corpus Design Criteria. In: Literary and Linguistic Computing,<br />

Journal of the Association for Literary and Linguistic Computing 7, 1: 1-16.<br />

Bird, S. (1997). A Lexical Database Tool for Quantitative Phonological Research. In: Proceedings of the Third<br />

Meeting of the ACL Special Interest Group in Computational Phonology. July 1997: 33-39.<br />

Bird, S. & M. Liberman (1999). A Formal Framework for Linguistic Annotation. Technical Report MS-CIS-99-<br />

01. Department of Computer and Information Science, Linguistic Data Consortium, University of Pennsylvania.<br />

Boogaart, P.C. Uit den (1975). Woordfrequenties: in Geschreven en <strong>Gesproken</strong> Nederlands. Utrecht: Oosthoek,<br />

Scheltema & Holkema.<br />

63


Bouma, G. & I. Schuurman (1998). De Positie van het Nederlands in Taal- en Spraaktechnolgie. Rapport in<br />

opdracht van de <strong>Nederlandse</strong> Taalunie.<br />

Burnard, L. (ed.) (1995). Users Reference Guide for the British National Corpus. Oxford: Oxford University<br />

Computing Services.<br />

Chafe, W.L., J.W. Du Bois & S.A. Thompson (1991). Towards a New Corpus of Spoken American English.<br />

In: K. Aijmer & B. Altenberg (eds.) English Corpus Linguistics: Studies in Honour of Jan Svartvik.<br />

London/New York: Longman, 64-82.<br />

Crowdy, S. (1995). The BNC Spoken Corpus. In: Leech et al., 224-234.<br />

Cunningham, H., Y. Wilks & R.J. Gaizauskas (1996). New Methods, Current Trends and Software Infrastructure<br />

for NLP. In: Proceedings of the 2nd Conference on New Methods in Natural Language Processing (NeMLaP-<br />

2), Bilkent University.<br />

Cunningham, H., K. Humphreys, Y. Wilks & R. Gaizauskas (1997). Software Infrastructure for Natural Language<br />

Processing. In. Proceedings of the Fifth Conference on Applied Natural Language Processing (ANLP-<br />

97).<br />

De Vriendt-De Man, M.J. (1969). Frequentie van Woorden en Structuren in Spontaan <strong>Gesproken</strong> Nederlands.<br />

Brussel: Didier.<br />

Edwards, J.A. (1992). Computer Methods in Child Language Research: Four Principles for the Use of Archived<br />

Data.Journal of Child Language 19, 435-458.<br />

Edwards, J.A. (1995). Principles and Alternative Systems in the Transcription, Coding and Mark-up of Spoken<br />

Discourse. In: Leech et al., 19-34.<br />

Feldweg, H. (1992). The European Science Foundation Second Language Databank. Ongepubliceerd document,<br />

MPI Nijmegen.<br />

Gibbon, D., R. Moore & R. Winski (eds.) (1997). Handbook of Standards and Resources for Spoken Language<br />

Systems. Berlin/New York: Mouton de Gruyter.<br />

Goldfarb, C.F. & P. Prescod (1998). The XML Handbook. Upper Saddle River, NJ: Prentice Hall PTR.<br />

Hart, J. ’t, R. Collier & A. Cohen (1990). A Perceptual Study of Intonation. Cambridge: Cambridge University<br />

Press.<br />

Gr<strong>een</strong>baum, S. (1991). The Development of the International Corpus of English. In: K. Aijmer & B. Altenberg<br />

(eds.) English Corpus Linguistics: Studies in Honour of Jan Svartvik. London/New York: Longman.<br />

Heikens, H. (1978). Een Sociolinguïstisch Opgebouwd Corpus Amsterdamse Spreektaal. In: Taal en Tongval<br />

30, 36-49.<br />

Jong, E.D. de (1979). Spreektaal: Woordfrequenties in <strong>Gesproken</strong> Nederlands. Utrecht: Bohn, Scheltema &<br />

Holkema.<br />

Knowles, G., B. Williams & L. Taylor (eds.) (1996). A Corpus of Formal British English Speech: the Lancaster/IBM<br />

Spoken English Corpus. London/New York: Longman.<br />

Kohler, K., M. Pätzold & A. Simpson (1995). From Scenario to Segment: The Controlled Elicitation, Transcription,<br />

Segmentation and Labelling of Spontaneous Speech. Arbeitsberichte (AIPUK) 29, Institut für Phonetik<br />

und Digitale Sprachverarbeitung, IPDS, Universität Kiel, Duitsland.<br />

Leech, G. (ed.) (1990). Proceedings of a Workshop on Corpus Resources. Wadham College, Oxford: DTI/Speech<br />

and Language Technology Club.<br />

Leech, G., G. Myers & J. Thomas (eds.) (1995). Spoken English on Computer: Transcription, Mark-up and<br />

Application. Harlow/New York: Longman.<br />

Linssen-Maes, A. & G. Redeker (1992). Interruptiegedrag van Vrouwen en Mannen in Radio- en Televisiediscussies.<br />

In: Gramma/TTT - Tijdschrift voor Taalwetenschap 1, 133-148.<br />

MacWhinney, B. (1995). The CHILDES Project: Tools for Analyzing Talk. Hillsdale(USA)/Hove(UK): Lawrence<br />

Erlbaum Associates.<br />

Redeker, G. (1992). ’Kleine woordjes’ in spontaan taalgebruik - stoplapjes of signalen voor de lezer/luisteraar?<br />

In: Toegepaste Taalwetenschap in Artikelen, 43, 55-65.<br />

Redeker, G. & A. Maes (1996). Gender Differences in Interruptions. In: D. Slobin et al. (eds.) Social Interaction,<br />

Social Context and Language, 597-612.<br />

Roach, P. & S. Arnfield (1995). Linking Prosodic Transcription to the Time Dimension. In: Leech et al., 1995:<br />

149-160.<br />

64


Roach, P., G. Knowles, T. Varadi & S. Arnfield (1993). MARSEC: A Machine-Readable Spoken English Corpus<br />

In: Journal of the International Phonetic Association 23(2): 47-53.<br />

Schaerlaekens, A.M. (1973). The Two-Word Sentence in Child Language Development: a Study Based on Evidence<br />

Provided by Dutch-speaking Triplets. The Hague/Paris: Mouton.<br />

Silverman, K., M. Beckman, J. Pitrelli, M. Ostendorf, C. Wightman, P. Price, J. Pierrehumbert & J. Hirshberg<br />

(1993). TOBI: A standard for labeling English prosody. In: Proc. Intern. Conf. on Spoken Language<br />

Processing, Banff, Alberta, Canada, 12-16 October 1993, 867-870.<br />

Sinclair, J. (1995). From Theory to Practice. In: Leech et al., 99-109.<br />

Sperberg-McQu<strong>een</strong>, C.M. & L. Burnard (1994). Guidelines for Electronic Text Encoding and Interchange (TEI<br />

P3). Vols. I+II. Chicago/Oxford: Text Encoding Initiative.<br />

Spraak- en Taaltechnologie voor het Nederlands (1993). Nota Vlaamse regering.<br />

Van de Velde, H. (1996). Variatie en Verandering in het <strong>Gesproken</strong> Standaard Nederlands (1935-1993). Proefschrift<br />

Katholieke Universiteit Nijmegen.<br />

65

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!