Nederlandse Gesproken Corpora: een Inventarisatie
Nederlandse Gesproken Corpora: een Inventarisatie
Nederlandse Gesproken Corpora: een Inventarisatie
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>Nederlandse</strong> <strong>Gesproken</strong> <strong>Corpora</strong>: <strong>een</strong> <strong>Inventarisatie</strong><br />
Drs. R.J. Piepenbrock<br />
CELEX - Centrum voor Lexicale Informatie<br />
Max Planck Instituut voor Psycholinguïstiek<br />
Postbus 310<br />
6500 AH Nijmegen<br />
Telefoon: +31-(0)24-3615797<br />
Fax: +31-(0)24-3521213<br />
E-mail: celex@mpi.nl<br />
Homepage: http://www.kun.nl/celex/<br />
7 juni 1999<br />
Versie 1.5<br />
1
Inhoudsopgave<br />
1 Inleiding 3<br />
2 Het Historische Perspectief 4<br />
2.1 <strong>Corpora</strong> van de Eerste Generatie (-1980) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />
2.1.1 Corpus De Vriendt-De Man . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />
2.1.2 Eindhoven Corpus (Corpus Uit den Boogaart) . . . . . . . . . . . . . . . . . . . . . . 6<br />
2.1.3 Corpus De Jong . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />
3 De Eerste Elektronische <strong>Gesproken</strong> <strong>Corpora</strong> 9<br />
3.1 <strong>Corpora</strong> van de Tweede Generatie (1980-1990) . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />
3.1.1 De CHILDES kindertaal-databank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />
3.1.2 De ESF migrantentaal-databank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />
3.1.3 <strong>Nederlandse</strong> dialoogcorpora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />
3.2 Andere <strong>Gesproken</strong> Datacollecties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />
4 Recente Ontwikkelingen: <strong>Gesproken</strong> <strong>Corpora</strong> en Standaardisatie 23<br />
4.1 <strong>Corpora</strong> van de Derde Generatie (1990-) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />
4.2 De Opkomst van Internationale Standaards . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />
4.2.1 SGML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />
4.2.2 XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />
4.2.3 TEI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />
4.2.4 EAGLES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34<br />
4.3 Het Ontstaan van Internationale Datacollecties . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />
4.3.1 De EUROM1 databank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40<br />
4.3.2 Het European Corpus Initiative (ECI) . . . . . . . . . . . . . . . . . . . . . . . . . . . 41<br />
4.3.3 Het Multilingual Parallel Corpus (MLCC) . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />
4.3.4 Het International Corpus of English . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />
4.3.5 Het British National Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />
4.3.6 Het POLYPHONE Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48<br />
4.3.7 Het Oxford Text Archive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />
4.3.8 Het Project Gutenberg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />
4.4 Moderne Nederlandstalige <strong>Gesproken</strong> <strong>Corpora</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />
4.4.1 Het ANNO Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />
4.4.2 Het COGEN Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52<br />
4.4.3 Het PBS Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53<br />
4.4.4 Het Groningen Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54<br />
4.4.5 Het Speech Styles Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55<br />
4.4.6 Het OVIS Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57<br />
4.4.7 <strong>Corpora</strong> van het Meertensinstituut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58<br />
5 Evaluatie 59<br />
6 Gidsprojecten voor de Toekomst 61<br />
6.1 Het GATE Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61<br />
6.2 Het EUDICO Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61<br />
6.3 De Edinburgh Language Technology Group . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />
6.4 Het Paper A Formal Framework for Linguistic Annotation . . . . . . . . . . . . . . . . . . . . 62<br />
6.5 Het Zweedse <strong>Gesproken</strong> Corpus Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />
6.6 Het Hyperlex Project . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />
7 Referenties 63<br />
2
1 Inleiding<br />
Wanneer we met elkaar door middel van taal communiceren, dan is spraak het primaire medium. Hoewel<br />
geschreven taal zich in dit informatietijdperk <strong>een</strong> hoge status en <strong>een</strong> wijde verbreiding heeft verworven, blijft<br />
het <strong>een</strong> afgeleide van het gesproken woord. Toch is het huidige fundamentele taalonderzoek qua beschrijving<br />
van grammatica en lexis, evenals de toepassingsgerichte taalstudie (lexicografie, talenonderwijs) grotendeels<br />
gebaseerd op geschreven bronnen. Dit leidt onvermijdelijk tot vertekeningen in de analyse van ons standaard<br />
taalgebruik.<br />
Tot voor kort was gesproken taal echter zo lastig te vergaren, te verwerken, te archiveren en te ontsluiten,<br />
dat uit deze praktische overwegingen nauwelijks tot grootschalige analyse van gesproken taal kon worden<br />
overgegaan. Nu in het laatste decennium <strong>een</strong> veelheid aan geavanceerde computertechnieken de registratie,<br />
bewerking en opslag van grote hoeveelheden spraak mogelijk maakt, en de integratie van spraak in multimediale<br />
pakketten even<strong>een</strong>s in allerlei toepassingen opgeld doet, lijkt het moment aangebroken om substantiële<br />
inspanningen te plegen om de gesproken taal in kaart te brengen. De opzet van <strong>een</strong> Corpus <strong>Gesproken</strong><br />
Nederlands (CGN) van 10 miljoen woorden, <strong>een</strong> samenwerkingsproject tussen de Vlaamse en <strong>Nederlandse</strong><br />
overheden, moet dan ook in dit licht worden bezien.<br />
Behalve dat de samenstelling van <strong>een</strong> corpus van <strong>een</strong> dergelijke omvang ook met de huidige stand der<br />
techniek nog zeer veel financiële ondersteuning vereist, vormt het project ook in taalkundig en computationeel<br />
opzicht <strong>een</strong> grote uitdaging. Zo zullen, op grond van de ervaringen met vergelijkbare initiatieven, zoals<br />
het British National Corpus (BNC), keuzes moeten worden gemaakt op het gebied van de corpusinhoud<br />
(de taalsamples), het corpusformaat (opslag, vorm, interne structuur), de linguïstische annotatie en de<br />
uiteindelijke beschikbaarstelling aan gebruikers.<br />
De uitdaging van het project zal er voor <strong>een</strong> groot deel in bestaan, om, anders dan bij het BNC, de<br />
orthografische transcriptie voor alle uitingen op te lijnen met het akoestisch signaal, en vervolgens beide<br />
beschikbaar te stellen. Immers, juist bij transcriptie van het gesproken signaal gaat, zelfs bij uitgebreide<br />
annotatie, veel akoestische informatie verloren (b.v. tempo, amplitude, duur, intonatie, pauzes, volgens<br />
transcribeur onverstaanbare woorden, overlappingen, aarzelingen, versprekingen). Ook zal <strong>een</strong> transcriptie<br />
volgens één bepaalde methode vaak onbruikbaar zijn voor wetenschappers geïnteresseerd in <strong>een</strong> andere<br />
discipline (b.v. prosodische vs. orthografische transcriptie, standaardisatie van clitica en reducties vs. nauwkeurige<br />
transliteratie van deze varianten, taalkundige vs. redekundige analyse). Daarnaast ontbreekt vaak<br />
informatie over de situationele context, evenals ondersteunende gebaren, lichaamshouding, gelaatsuitdrukkingen<br />
en hoofdbewegingen. Om deze nadelen zoveel mogelijk te beperken, is toegang tot het spraaksignaal,<br />
en wellicht zelfs videofragmenten, waar voorhanden, onontbeerlijk. Bovendien zal het project voorzien in<br />
morfologische en semantische koppeling aan bestaande lexicale bestanden. Ook zal <strong>een</strong> deel van het corpus<br />
verrijkt worden met gedetailleerde fonetische en fonologische informatie.<br />
Bij alle activiteiten in het kader van het CGN-project zal voorop moeten staan, dat het beoogde corpus<br />
aantrekkelijk moet zijn voor <strong>een</strong> groot aantal wetenschappelijke en niet-wetenschappelijke disciplines en<br />
applicaties. Verder zal, in navolging van aanbevelingen van verschillende (inter)nationale instanties, zorg<br />
worden gedragen voor <strong>een</strong> zo laagdrempelig, gebruikersvriendelijk en veelzijdig mogelijke toegang tot het<br />
spraaksignaal, de transcriptie en de diverse annotatielagen. Dat impliceert zo veel mogelijk aansluiting bij<br />
expliciet door de diverse disciplines gedefinieerde, dan wel in de praktijk gegroeide (best practice) standaardmethoden<br />
en -technieken voor de verschillende bewerkingsslagen van het gesproken materiaal.<br />
In het kader van het CGN beoogt dit rapport zo veel mogelijk in kaart te brengen, welke inspanningen<br />
reeds op het vlak van registratie, bewerking en eventueel openbaarmaking van spraak gepleegd zijn binnen het<br />
<strong>Nederlandse</strong> taalgebied (Nederland en Vlaanderen). Ook zal worden ingegaan op internationale standaards<br />
op het gebied van corpora en buitenlandse projecten die voor het CGN <strong>een</strong> voorbeeldfunctie zouden kunnen<br />
vervullen. Het doel is m.a.w. tweeledig: inventarisatie van bestaand materiaal en evaluatie van reeds<br />
gebruikte of nog in ontwikkeling zijnde methoden en technieken. Bronnen worden waar nodig vermeld voor<br />
verdere referentie.<br />
3
2 Het Historische Perspectief<br />
De geschiedenis van de opbouw van gesproken corpora kan ruwweg worden opgedeeld in drie periodes:<br />
het tijdperk van handmatige verwerking van bandopnames, het decennium van geautomatiseerde studie<br />
van het signaal, en tenslotte de (belofte van) volledig computergestuurde opname, transcriptie, annotatie<br />
en ontsluiting van dit moment. Voor het historisch perspectief zal eerst worden ingegaan op <strong>een</strong> aantal in<br />
boekvorm verschenen corpora, die niettemin voor hun tijd revolutionair waren, omdat de computer reeds <strong>een</strong><br />
integraal onderdeel van de bewerkingsslag uitmaakte. Uitgebreide studie van het signaal en de transcripties,<br />
door de samensteller of anderen, was hierbij evenwel niet het uitgangspunt van de verzameling. Opname van<br />
gesproken taal was slechts <strong>een</strong> middel om te komen tot betrouwbare frequentietellingen voor het gesproken<br />
Nederlands met het oog op beter gestructureerd talenonderwijs.<br />
2.1 <strong>Corpora</strong> van de Eerste Generatie (-1980)<br />
In deze periode werd het gesproken signaal opgenomen op analoge audiotapes, waarna de spraak veelal eerst<br />
met de hand werd getranscribeerd, en daarna overgetypt. Waarschijnlijk zijn uit deze periode <strong>een</strong> groot<br />
aantal bandrecorderspoelen en cassettes (indien nog afspeelbaar) met notities en/of transcripties aanwezig<br />
op het Meertensinstituut in Amsterdam. Het betreft hier echter waarschijnlijk vooral dialectmateriaal.<br />
Volgens Heikens (1978: 37) zijn hier all<strong>een</strong> al in de periode 1960-1975 maar liefst 1500 bandopnames met<br />
voornamelijk spontane spraak in dialect verzameld. De status van deze banden (zowel qua conditie als<br />
beschikbaarheid, inclusief mogelijke bewerkingen) is vooralsnog onduidelijk. Systematische analyse van op<br />
het algem<strong>een</strong> spraakgebruik gerichte bestanden vond vooral in het buitenland plaats, zoals het Survey of<br />
English Usage (SEU), opgezet door Randolph Quirk en zijn medewerkers in 1959. De uiteindelijke versie<br />
bestaat uit 200 teksten van elk 5000 woorden uit de periode 1953-1987, waarvan de helft gesproken materiaal<br />
betreft. Allerlei woordkenmerken werden hierbij op kartonnen kaartjes geïllustreerd met getranscribeerde<br />
uitingen van informanten.<br />
Het gesproken deel van het SEU (500.000 tokens) werd later computationeel bewerkt tot het London-<br />
Lund Corpus (LLC) door Jan Svartvik en zijn team. Dit proces van automatisering van oude bestanden<br />
vond en vindt nog steeds plaats voor <strong>een</strong> aantal gelijksoortige corpora. Voor het LLC zijn redelijk uitgebreide<br />
fonologische annotaties voorhanden naast het orthografische niveau, zoals toonhoogte, plaatsing<br />
van de kernaccenten, twee soorten pauze, twee soorten accent, sprekeridentificatie, gelijktijdig spreken, contextueel<br />
commentaar en onverstaanbare woorden. Paralinguïstische kenmerken en bepaalde aanvullende<br />
commentaren over intonatie en accenten zijn niet aangegeven. Ook zijn de geluidsfragmenten (deels?) nog<br />
bewaard gebleven en opvraagbaar aan het University College London.<br />
Zoals gezegd waren de inspanningen voor het vastleggen van algem<strong>een</strong> gangbaar Nederlands geringer. Uit<br />
deze periode stammen drie volgens <strong>een</strong> van tevoren geformuleerde strategie gesamplede en getranscribeerde<br />
corpora van dit teksttype, te weten het corpus De Vriendt-De Man, het Eindhoven Corpus (Uit den Boogaart<br />
corpus), en het corpus De Jong.<br />
2.1.1 Corpus De Vriendt-De Man<br />
Deze studie had als doel gegevens over frequente woorden en zinsstructuren te verzamelen in de spontane<br />
<strong>Nederlandse</strong> (Noord- en Zuid-<strong>Nederlandse</strong>) spreektaal (De Vriendt-De Man, 1969: 5). Het uitgangspunt<br />
diende g<strong>een</strong> zuiver wetenschappelijke interesse: de resultaten moesten bijdragen aan verbeterd Nederlands<br />
onderwijs aan Franstaligen. De methodologie hiervoor was sterk geënt op het werk van G. Gougenheim et<br />
al., L’Elaboration du Français Fondamental uit 1964. Zeker voor <strong>een</strong> uit 1969 stammende dissertatie als deze<br />
zijn de gegevens over sampling, opname en verwerking zeer volledig.<br />
Gegevens:<br />
• Omvang:<br />
– types: niet vast te stellen (altijd morfosyntactische codes aanwezig).<br />
– tokens: 117.122 (58.578 N-N, 58.544 Z-N, volgens opgave boek).<br />
4
– extra info: type-tag combinaties niet vast te stellen door uitsluiten types met F 〈 5.<br />
• Samenstelling (teksttypes): informele, onvoorbereide of nauwelijks voorbereide dialoog in verschillende<br />
situationele context (winkel, vriendenbezoek, radiointerview). 465 gespreksonderwerpen (gecodeerd).<br />
– 29 gesprekken:<br />
∗ 13 Zuid-Nederlands (eigen opnames Grembergen: 1/3, BRT: 1/6),<br />
∗ 16 Noord-Nederlands (eigen opnames Noord-Brabant + Zeeuws-Vlaanderen: 1/3, Radio Omroep<br />
Zuid (Maastricht) 1/6).<br />
• Sprekergegevens: 117 informanten, 73 man, 44 vrouw. Leeftijd, beroep/sociale status, plaats van<br />
herkomst en plaats van opname aangegeven.<br />
• Opnamedatum: ?<br />
• Opnameduur: ± 20 uur.<br />
• Annotatieschema:<br />
– gehanteerde standaard: g<strong>een</strong>.<br />
– geclitiseerde en andere niet-standaard vormen 1 : beperkt (’d’r’, ’d’rbij’, ’ie’, maar ’het’ voluit)<br />
– sprekerwisseling, behandeling overlap: sprekerwisseling: ja, overlap: nee.<br />
– behandeling bij- en achtergrondgeluiden: nee.<br />
– gehanteerde interpunctie: ja, orthografische interpretatie.<br />
• Annotatieniveaus:<br />
– Orthografisch: alles onderkast, behalve eigennamen en afkortingen, getallen uitgeschreven. Aarzelingen<br />
aangegeven, pauzes d.m.v. speciale ASCII-karakters.<br />
– Taalkundig: syntactische tags slechts in afgeleide frequentielijst, niet in lopende tekst.<br />
• Status privacy informanten: ?<br />
• Copyright: ?<br />
• Beschikbaarheid opnames: ?<br />
– geluidsdrager: analoge audiospoelen.<br />
– opnametechniek: verborgen microfoon bij eigen opnames (veel achtergrondgeluiden, ook door<br />
situationele context, professionele apparatuur voor radioopnames BRT en ROZ).<br />
– signaal-ruisverhouding: 120-6.000 Hz ± 3 dB.<br />
– elektronische versie: indertijd ingetypt op 13.858 ponskaarten, Université Libre de Bruxelles.<br />
Onleesbaar?<br />
– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />
1 geclitiseerde vormen zijn twee of meer woorden die zich gedragen als één fonologisch woord, vaak met syllabe-deletie, zoals<br />
[tIs] voor ’het is’. Verder onderscheid kan gemaakt worden naar functionele <strong>een</strong>heden, waarbij het gaat om de combinatie<br />
van functiewoorden, en de term clitica voorbehouden blijft aan combinaties van lexicale woorden en functiewoorden. Bij<br />
gereduceerde vormen gaat het om één oorspronkelijk woord, zonder syllabe-deletie, zoals [@m] voor ’hem’.<br />
5
2.1.2 Eindhoven Corpus (Corpus Uit den Boogaart)<br />
Dit corpus werd opgesteld om <strong>een</strong> nauwkeurig idee te krijgen van in Nederland (niet in Vlaanderen) veel<br />
voorkomend taalgebruik d.m.v. frequentietellingen van woorden. Het onderzoek werd uitgevoerd door de<br />
Werkgroep Frequentie-Onderzoek van het Nederlands, gesubsidieerd door Z.W.O. (het <strong>Nederlandse</strong> Fonds<br />
voor Zuiver Wetenschappelijk Onderzoek, nu het N.W.O.) en de Technische Hogeschool Eindhoven (geschreven<br />
taal) en het Instituut voor Dialectologie, Volks- en Naamkunde van de Koninklijke <strong>Nederlandse</strong><br />
Academie voor Wetenschappen te Amsterdam (nu: Meertensinstituut) (gesproken taal). Het geschreven deel<br />
bevat fragmenten van in totaal 600.000 woorden uit de periode 1964-1971. Het gesproken deel is aanzienlijk<br />
kleiner. Oorspronkelijk in 1975 in boekvorm verschenen als Woordfrequenties: in Geschreven en <strong>Gesproken</strong><br />
Nederlands.<br />
Gegevens:<br />
• Omvang: ABN-file:<br />
– types: 4.041 (minus interpunctie, puur op orthografische string).<br />
– tokens: 59.941 (minus interpunctie).<br />
– extra info: 5.009 unieke type-tag combinaties.<br />
• Omvang: dialectfile:<br />
– types: 4.808 (minus interpunctie, puur op orthografische string).<br />
– tokens: 60.339 (minus interpunctie).<br />
– extra info: 5.901 unieke type-tag combinaties.<br />
• Omvang bronnen gecombineerd:<br />
– types: 7.065 (minus interpunctie, puur op orthografische string).<br />
– tokens: 120.280 (minus interpunctie).<br />
– extra info: 8.696 unieke type-tag combinaties.<br />
• Samenstelling (teksttypes): 26 volledig opgenomen gesprekken (vanwege gebrek aan materiaal), varierend<br />
van groepsdiscussies, interviews en gesproken brieven (academisch niveau) tot informele dialoog<br />
(laag opleidingsniveau) (Uit den Boogaart, 1975: 13).<br />
• Sprekergegevens:<br />
– 13 gesprekken door ’academici of daarmee gelijk te stellen personen die geacht worden ABN te<br />
spreken’ (Uit den Boogaart, 1975: 13).<br />
– 13 gesprekken ’mensen met weinig schoolopleiding uit <strong>een</strong> aantal plaatsen in Noord- en Zuid-<br />
Holland’ (Uit den Boogaart, 1975: 13).<br />
• Participanten: aandeel gespreksleider (van hoger opleidingsniveau) verwijderd bij informele dialoog.<br />
• Opnamedatum: 1960-1973.<br />
• Opnameduur: ?<br />
• Annotatieschema:<br />
– gehanteerde standaard: g<strong>een</strong>.<br />
– geclitiseerde en andere niet-standaard vormen: ja, sporadisch (’ie’, ’effe’, ’gelejen’, ”n’, ’mekaar’,<br />
’bennen’).<br />
– sprekerwisseling, behandeling overlap: nee.<br />
– behandeling bij- en achtergrondgeluiden: nee.<br />
6
– gehanteerde interpunctie: g<strong>een</strong>, soms onduidelijke interpunctietekens.<br />
• Annotatieniveaus:<br />
– Orthografisch: alles onderkast, geverticaliseerd voor Esprit-formaat.<br />
– Taalkundig: morfosyntactische tags (woordsoort en flexievorm).<br />
• Status privacy informanten: onduidelijk. Besproken personen (anders dan informanten) geanonimiseerd<br />
met codes ’x[0-2]’en ’y[0-2]’.<br />
• Copyright: Op verschillende instituten is <strong>een</strong> versie van het corpus aanwezig; het is onduidelijk of er<br />
copyright op het corpus rust. Waarschijnlijk is dit niet het geval voor wetenschappelijk gebruik.<br />
• Beschikbaarheid opnames: ?<br />
– geluidsdrager: nee.<br />
– elektronische versie: ja, ASCII computerfiles, kennelijk in verschillende formaten (transcriptie<br />
met of zonder annotatie) op diverse instituten als Taal & Spraak KUN, Max Planck Instituut<br />
(CELEX), Systeemhuis TU Eindhoven, Mathematisch Centrum Amsterdam.<br />
∗ Lopende tekstversie getagged met Uit den Boogaart’s lexicale codes onder de naam ’Eindhoven<br />
Corpus’, inclusief Jan Renkema’s onderzoek ’De Taal van Den Haag’.<br />
∗ Vertikaal opgesplitste versie onder de naam ’Esprit Corpus’, inclusief het bestand van Renkema<br />
en andere corpora, o.a ’De Gelderlander’, getagged met Esprit 860-codes.<br />
∗ <strong>Gesproken</strong> Esprit files:<br />
· dut abn rel1.uni (ABN-file, academisch).<br />
· dut dia rel1.uni (dialectfile, lager opleidingsniveau).<br />
– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />
2.1.3 Corpus De Jong<br />
Dit corpus bevat uitsluitend spreektaal en is als <strong>een</strong> beter gestratificeerd vervolg opgezet van het onderzoek<br />
naar woordfrequenties in het gesproken Nederlands door Uit den Boogaart (1975). Dezelfde corpusgrootte<br />
(t.o.v. van het deelcorpus) en dezelfde annotatiewijze zijn gehanteerd om vergelijking <strong>een</strong>voudig te maken.<br />
Oorspronkelijk in 1979 in boekvorm verschenen als Spreektaal: Woordfrequenties in <strong>Gesproken</strong> Nederlands.<br />
• Omvang:<br />
– types: niet vast te stellen (altijd morfosyntactische codes aanwezig).<br />
– tokens: 120.000 (volgens opgave boek).<br />
– extra info: 8.603 unieke type-tag combinaties (nauwelijks verschil met Uit den Boogaart (1975)).<br />
• Samenstelling (teksttypes): stratificatie naar 4 niet-linguïstische variabelen: gesprekssituatie, geslacht,<br />
leeftijd en sociaal-economische klasse, volgens Labov (1966), Shuy et al. (1968), en Trudgill (1974):<br />
16 groepen gelijkelijk verdeeld over de 4 variabelen (7500 woorden per groep). Voor gesprekssituatie:<br />
formeel (interview over opleiding en beroep) vs. informeel (huiskamergesprek tussen twee informanten<br />
over vrij onderwerp), beide thuis afgenomen, waardoor veel diversiteit m.b.t. kwaliteit opname,<br />
aanwezigheid gezinsleden, etc. Door allerlei omstandigheden (kwaliteit opname, leeftijds-, geslachts- of<br />
klasseverschil bij informele gesprekken) konden slechts iets minder dan de helft van alle 245 opnames<br />
(in totaal 136 formeel, 109 informeel) gebruikt worden: 59% van de formele (= 80), 34% van de informele<br />
(= 37). Uit elk 3 steekproeven genomen van 250 woorden (formeel) en 6 steekproeven van 250<br />
woorden (informeel). Dit omdat 80 formele en slechts 37 informele gesprekken waren gekozen.<br />
7
• Sprekergegevens: Geografische spreiding: uitsluitend Amsterdam, vanuit praktische overwegingen en<br />
opvatting dat dit redelijk representatief is voor standaardtaal (De Jong: 1979: 10). Gelijkelijke verdeling<br />
over geslacht, leeftijd (jong (24-28 jr.) vs. oud (54-58 jr.)) en opleiding en beroep (hoog vs. laag).<br />
Zo ontstonden 8 groepen van tenminste 10 autochtone Amsterdammers. Uitgebreide vragenlijsten met<br />
sprekerinformatie (ook over hobbies, eventuele vorige plaatsen van huisvesting, buurtcontacten, vorm<br />
en duur relatie(s), sociale status ouders en partner, aard en hoeveelheid tot zich genomen informatie<br />
(kranten, tijdschriften, boeken, radio, TV)) zijn beschikbaar.<br />
• Opnamedatum: ?<br />
• Opnameduur: ± 25 minuten per formeel gesprek, ± 50 minuten per informeel gesprek (Heikens, 1978:<br />
36).<br />
• Annotatieschema:<br />
– gehanteerde standaard: g<strong>een</strong>.<br />
– geclitiseerde en andere niet-standaard vormen: nee, alles genormaliseerd naar standaardvorm<br />
vanwege vergelijking met schrijftaal. Dus: ’ie’ ≫ ’hij’, ’effe’ ≫ ’even’, ’as, az’ ≫ ’als’, ’da’s’ ≫<br />
’dat is’, ’kw<strong>een</strong>ie’ ≫ ’ik weet niet’, etc. Vreemd genoeg bevat Uit den Boogaart wel dit soort<br />
woorden. Onafgemaakte woorden gecompleteerd.<br />
– sprekerwisseling, behandeling overlap: ja.<br />
– behandeling bij- en achtergrondgeluiden: nee.<br />
– gehanteerde interpunctie: g<strong>een</strong>.<br />
• Annotatieniveaus:<br />
– Orthografisch: alles onderkast, behalve eigennamen en afkortingen, getallen uitgeschreven.<br />
– Taalkundig: morfosyntactische tags (woordsoort en flexievorm) volgens Uit den Boogaart (1975).<br />
• Status privacy informanten: geanonimiseerd voor persoonsnamen:<br />
– X = voornaam.<br />
– Y = achternaam.<br />
– Z = voor- of achternaam.<br />
– 0 = geslacht onbekend.<br />
– 1 = geslacht vrouw.<br />
– 2 = geslacht man.<br />
• Copyright: Meertensinstituut Amsterdam.<br />
• Beschikbaarheid opnames: ?<br />
– geluidsdrager: indertijd audiospoelen op Meertensinstituut. Nu onafspeelbaar?<br />
– opnametechniek: handmicrofoon en éénsporige Nagra-bandrecorder voor formele gesprekken, omhangmicrofoon<br />
en tweesporen Uher-bandrecorder voor informele gesprekken (één spoor per gesprekspartner).<br />
– elektronische versie: indertijd magneetband ongeannoteerde en geannoteerde transcriptie en op<br />
Meertensinstituut. Onleesbaar?<br />
– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />
8
3 De Eerste Elektronische <strong>Gesproken</strong> <strong>Corpora</strong><br />
3.1 <strong>Corpora</strong> van de Tweede Generatie (1980-1990)<br />
In deze periode begon de computer <strong>een</strong> integraal onderdeel te worden van het analyseproces. De opnames<br />
geschiedden vaak nog op analoge audiospoelen of cassettes, maar in de tweede helft van de jaren 80 steeds<br />
meer op digitale DAT-tapes. Transcriptie gebeurde in eerste instantie regelmatig met de hand, maar zeker in<br />
<strong>een</strong> later stadium werden alle orthografische transcripten omgezet naar computerfiles, waarna verdere analyse<br />
uitgevoerd kon worden met in de jaren 80 steeds meer standaard wordende statistische software zoals SPSS, en<br />
specifiek op taalkundige analyse toegesneden programmatuur als KWIC-concordanties (KeyWord In Context,<br />
in feite bekend sinds John W. Ellison’s Nelson’s Complete Concordance of the Revised Standard Version Bible<br />
uit 1957), de tekstanalyze-programmatuur HUM (Bill Tuthill, Berkeley 1981), TACT (University of Toronto,<br />
1986-89) en CLAN (zie MacWhinney 1995).<br />
Belangrijke doorbraken op het gebied van gesproken corpora in deze tijd waren het het gesproken deel (1,3<br />
miljoen tokens) van het Birmingham University Corpus, in zijn oorspronkelijke, kleinere vorm bekend als het<br />
COLLINS/COBUILD-corpus, en MARSEC (Machine Readable Spoken English Corpus), dat aanvankelijk<br />
naar de samenstellers het Lancaster/IBM Spoken English Corpus werd genoemd. Het volledig gesproken<br />
MARSEC omvat slechts 52.000 tokens (6 uur spraak), maar ondanks de nadruk op geprepareerde en semigeprepareerde<br />
spraak voor synthesedoeleinden, zijn ook samples spontane spraak aanwezig, zoals <strong>een</strong> aantal<br />
colleges en dialogen. Het belangrijkste aspect van dit corpus is echter zijn volledige machine-leesbaarheid, zowel<br />
voor de transcriptie als annotatie met CLAWS2 woordklasse-tags, <strong>een</strong> <strong>een</strong>voudige redekundige ontleding<br />
(skeleton parse), het complete audiosignaal (gesampled op het professionele niveau van 16 kHz), prosodische<br />
kenmerken (klemtoon, intonatiecontouren), en fonemische transcripties (grotendeels automatisch gegenereerd<br />
door koppeling aan <strong>een</strong> uitspraakwoordenboek met inachtneming van de prosodische transcriptie en de grammaticale<br />
labels). Bovendien werd <strong>een</strong> (althans op het syllabe-niveau) betrouwbare oplijning tussen signaal<br />
en transcriptie bereikt d.m.v. matching tussen grafeem-foneem conversie van de orthografische transcriptie<br />
en de uit de spectraalanalyse even<strong>een</strong>s automatisch gegenereerde fonemische transcriptie (Roach & Arnfield,<br />
1995: 150-155). Daarmee vestigde MARSEC <strong>een</strong> nieuwe standaard voor gesproken corpora als bron voor<br />
<strong>een</strong> grote variëteit aan fundamenteel en toepassingsgericht taalkundig onderzoek.<br />
Andere belangrijke internationale initiatieven op dit terrein waren de CHILDES-corpora van kindertaal en<br />
het ESF-corpus van tweede taalverwerving van migranten. Omdat deze ook Nederlandstalige delen bevatten,<br />
en bovendien in elektronische vorm beschikbaar zijn, meestal zelfs met het oorspronkelijke spraaksignaal,<br />
worden ze hieronder uitgebreid besproken.<br />
3.1.1 De CHILDES kindertaal-databank<br />
CHILDES is <strong>een</strong> reeks internationale, centraal verzamelde, opgeslagen en voor ieder<strong>een</strong> toegankelijke corpora<br />
met orthografisch getranscribeerde data met betrekking tot de eerste en tweede taalverwerving van kinderen.<br />
De grondslag voor deze collectie werd gelegd door Brian MacWhinney en Catherine Snow aan de Carnegie<br />
Mellon Universiteit (Pittsburgh), die ook geldt als distributiepunt. Het Max Planck Instituut in Nijmegen is<br />
<strong>een</strong> van de lokale distributie- en ondersteuningspunten (mirror sites), evenals het Departement Germaanse<br />
Filologie van de Universitaire Instelling Antwerpen. Er is in principe g<strong>een</strong> verschil tussen de volgens <strong>een</strong><br />
filestructuur geordende bestanden in Pittsburgh en op lokale sites, mits natuurlijk de laatste versies van de<br />
centrale site regelmatig worden overgehaald.<br />
Transcripties zijn in het gestandaardiseerde CHAT-formaat (Codes for the Human Analysis of Transcripts).<br />
Dit biedt zowel conventies voor orthografische transcriptie als voor annotatie (verrijking met speech<br />
act codes, semantische, syntactische, morfologische analyses etc.) Dit gebeurt via horizontaal opgelijnde regels:<br />
de hoofdregel bevat de orthografische transcriptie, de onderliggende, daaraan verbonden regels de<br />
annotaties, waarbij elke regel slechts één soort annotatie bevat. CHAT staat dus dynamische uitbreiding van<br />
het aantal ’tiers’ toe naar de wensen van de gebruikers, en is daarmee flexibel genoeg om ook andere data<br />
dan CHILDES te coderen. Vanwege de parallelle tiers is het ook mogelijk om te transcriberen op <strong>een</strong> aantal<br />
niveaus, zoals genormaliseerd orthografisch (volgens de officiële spelling), orthografische transliteratie (b.v.<br />
’hebde’ of ’hedde’ in plaats van ’hebt ge’, ’heeft-ie’ in plaats van ’heeft hij’) en fonetische transcriptie. Zo is<br />
9
er minder noodzaak om te kiezen voor <strong>een</strong> vaak slecht hanteerbaar en nog slechter bevraagbaar compromis.<br />
Voorbeeld (uit JACqueline van Kampen’s corpus van het meisje LAUra; %exp is de verklarende tier, %par<br />
de paralinguïstische):<br />
∗LAU: eh bah.<br />
%exp: LAU wants to go to the kitchen<br />
∗JAC: nee we blijven in de kamer, we doen de deur niet open.<br />
%par: LAU protests<br />
∗JAC: nee want dan wordt het veel te koud in de kamer.<br />
∗JAC: als het straks zomer is, dan doen we alles open.<br />
%par: LAU cries<br />
∗LAU: ik keuke.<br />
∗LAU: ik keuke.<br />
Hoewel goed uitbreidbaar in verticale richting, heeft de horizontale oplijning op het (op zich al slecht definieerbare)<br />
uitingenniveau wel zijn beperkingen. Edwards (1992: 459) signaleert bijvoorbeeld, dat de reikwijdte<br />
van <strong>een</strong> bepaalde situationele context (<strong>een</strong> dependent tier bij <strong>een</strong> uiting) niet geheel duidelijk is; <strong>een</strong> herhaling<br />
van b.v. het non-verbale label laughing kan zowel duiden op de voortzetting van het gelach als op <strong>een</strong> nieuwe<br />
handeling. Regelmatig zullen dergelijke niet-verbale en niet-vocale handelingen ook helemaal niet afhankelijk<br />
zijn van verbale uitingen. Verder is er, zoals hieronder zal blijken, veel aan te merken op onderlinge verschillen<br />
in het aantal weergegeven tiers, en in de weergave en classificatie van bepaalde verschijnselen, zoals de<br />
mate van orthografische standaardisering van gesproken woorden en niet-verbale gebeurtenissen als gelach.<br />
Is dit laatste bijvoorbeeld <strong>een</strong> paralinguïstisch fenom<strong>een</strong>, <strong>een</strong> handeling (activiteit), iets voor commentaar,<br />
uitleg of situationele context? Maakt het onderdeel uit van de uiting binnen dezelfde tier, of hoort het thuis<br />
op <strong>een</strong> aparte, afhankelijke tier?<br />
CLAN (Computerized Language Analysis) is de softwaresuite, die op basis van de CHAT-gecodeerde<br />
corpora snel zoekacties kan ondersteunen en kwantitatieve gegevens af kan leiden, zoals frequentietellingen.<br />
Ook CLAN is niet per definitie gebonden aan het CHILDES-corpus.<br />
Er is <strong>een</strong> CED-editor voorhanden om het coderen van de diverse tiers te vergemakkelijken, en links te<br />
kunnen leggen naar de oorspronkelijke audio- of videotapes.<br />
De laatste versies van de CHILDES databank en de CLAN programmatuur kunnen worden overgehaald<br />
per anonymous ftp vanaf de site poppy.psy.cmu.edu<br />
Een uitgebreide beschrijving van de transcriptiecodes, beschikbare programmatuur en corpora wordt<br />
gegeven in MacWhinney (1995).<br />
Het Nederlandstalige deel van CHILDES omvat momenteel 5 volledig gecodeerde bestanden m.b.t. monolinguale<br />
eerste taalverwerving, en 1 geannoteerd Nederlands-Engels bilinguaal corpus. Deze zullen hieronder<br />
afzonderlijk worden behandeld. Deze lijst kan uiteraard slechts <strong>een</strong> tijdsopname zijn; mogelijk worden er op<br />
dit moment reeds bestanden aan CHILDES toegevoegd die relevant zijn voor deze studie.<br />
Gegevens:<br />
Directory tree ’gillis’: Steven Gillis’ longitudinale studie van de Vlaamse jongen Maarten, afdeling Germaanse<br />
taalkunde, Universiteit Antwerpen. Slechts de laatste 13 files van deze studie zijn aanwezig; de eerste<br />
65 (!) moeten nog worden omgezet naar CHAT-formaat.<br />
• Omvang:<br />
– types: 2.390.<br />
– tokens: 50.964.<br />
• Samenstelling (teksttypes): informele dialoog.<br />
• Sprekergegevens: Maarten, 0;11 jr. tot 1;11 jr. en volwassene, meestal zijn moeder.<br />
10
• Opnamedatum: 1981-1982.<br />
• Opnameduur: 104 uur.<br />
• Annotatieschema:<br />
– gehanteerde standaard: CHAT.<br />
– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’da’s’, ’hebde’,<br />
’moetet’).<br />
– sprekerwisseling, behandeling overlap: in speciale orthografische codes.<br />
– behandeling bij- en achtergrondgeluiden: commentaar tier.<br />
– gehanteerde interpunctie: orthografische interpretatie.<br />
• Annotatieniveaus: orthografie, situationele context, fonetiek (PHONASCII). Hiernaast codering (gesynchroniseerd)<br />
non-verbaal gedrag.<br />
• Status privacy informanten: ?<br />
• Copyright: Steven Gillis.<br />
• Beschikbaarheid opnames: ?<br />
– geluidsdrager: videotapes.<br />
– opnametechniek: ?<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ja, orthografische transcriptie plus annotaties.<br />
– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />
Directory tree ’laura’: Jacqueline van Kampen’s longitudinale studie van het <strong>Nederlandse</strong> meisje Laura,<br />
Faculteit der Letteren, Universiteit Utrecht. Deze directory heet nu ’vankampen’, in over<strong>een</strong>stemming met<br />
de naam van de onderzoeker.<br />
• Omvang:<br />
– types: 1.524.<br />
– tokens: 19.983.<br />
• Samenstelling (teksttypes): informele dialoog.<br />
• Sprekergegevens: Laura, 1;9 jr. tot 5;10 jr. en volwassene (moeder, J. van Kampen zelf).<br />
• Opnamedatum: 1988-1992.<br />
• Opnameduur: 3.600 uur.<br />
• Annotatieschema:<br />
– gehanteerde standaard: CHAT.<br />
– geclitiseerde en andere niet-standaard vormen: nee.<br />
– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap nee.<br />
– behandeling bij- en achtergrondgeluiden: paralinguïstische tier.<br />
– gehanteerde interpunctie: orthografische interpretatie.<br />
• Annotatieniveaus: orthografie, commentaar, verklaring, paralinguïstische tier.<br />
11
• Status privacy informanten: ?<br />
• Copyright: Jacqueline van Kampen.<br />
• Beschikbaarheid opnames: ?<br />
– geluidsdrager: audiospoelen.<br />
– opnametechniek: Prefer OCC/1121 microfoon, Nakamichi 350 recorder.<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ja, orthografische transcriptie plus annotaties.<br />
– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />
Directory tree ’schaer’: A.M. Schaerlaekens’ studie van 2 Vlaamse (?) drielingen, steeds twee jongens en<br />
één meisje. Katholieke Universiteit Leuven (Schaerlaekens 1973).<br />
• Omvang:<br />
– types: 1.695.<br />
– tokens: 35.185.<br />
• Samenstelling (teksttypes): informele dialoog.<br />
• Sprekergegevens:<br />
– ene tweeling: 1;10 jr. tot 3;1 jr.<br />
– andere tweeling: 1;6 jr. tot 2;10 jr.<br />
– (in beide gevallen spraak volwassen gesprekspartner niet weergegeven).<br />
• Opnamedatum: 1969-1970.<br />
• Opnameduur: ?<br />
• Annotatieschema:<br />
– gehanteerde standaard: CHAT.<br />
– geclitiseerde en andere niet-standaard vormen: ja, zie %tra tier.<br />
– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap nee.<br />
– behandeling bij- en achtergrondgeluiden: nee.<br />
– gehanteerde interpunctie: orthografische interpretatie.<br />
• Annotatieniveaus: orthografie, morphosyntax (taalkundig, redekundig, congruentie (%agr)), orthografische<br />
transliteratie (%tra) i.p.v. fonetische tier (b.v.’%tra an peelgoed ale’ voor ’Arnold speelgoed<br />
halen’).<br />
• Status privacy informanten: ?<br />
• Copyright: ?<br />
• Beschikbaarheid opnames: ?<br />
– geluidsdrager: audiospoelen (nu onbruikbaar).<br />
– opnametechniek: draadloze microfoons (nu irrelevant).<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ja, orthografische transcriptie plus annotaties.<br />
12
– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />
Directory tree ’utrecht’: Loekie Elbers’ en Frank Wijnen’s longitudinale studie van <strong>Nederlandse</strong> jongens<br />
Thomas en Hein, Universiteit Utrecht.<br />
• Omvang:<br />
– types: 3.901 (Hein), 3.575 (Thomas).<br />
– tokens: 107.704 (Hein), 95.912 (Thomas).<br />
• Samenstelling (teksttypes): informele dialoog.<br />
• Sprekergegevens: beide van 2;3 jr. tot 3;1 jr., en volwassene (moeder).<br />
• Opnamedatum: 1980-1981.<br />
• Opnameduur: 71 uur.<br />
• Annotatieschema:<br />
– gehanteerde standaard: CHAT.<br />
– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’ie’, ’d’r’, ”t’).<br />
– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap in CHAT-codes<br />
[].<br />
– behandeling bij- en achtergrondgeluiden: paralinguïstische tier.<br />
– gehanteerde interpunctie: orthografische interpretatie.<br />
• Annotatieniveaus: orthografie, handelingen, geadresseerde, alternatieve orthografische transcriptie,<br />
commentaar, Engelse vertaling, versprekingen, verklaring, gebaren en proxemische activiteit, aarzelingen,<br />
morfosyntax (all<strong>een</strong> taalkundig), paralinguïstische tier, fonetiek (incl. interrupties, non-fluencies,<br />
intonatiecontour, amplitude, reparaties), situatie, speech acts (herhaling en imitatie).<br />
• Status privacy informanten: ?<br />
• Copyright: Loekie Elbers en Frank Wijnen.<br />
• Beschikbaarheid opnames: ?<br />
– geluidsdrager: ?<br />
– opnametechniek: ?<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ja, orthografische transcriptie plus annotaties.<br />
– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />
Directory tree ’wijnen’: Frank Wijnen’s longitudinale studie van <strong>Nederlandse</strong> jongen Niek, Universiteit<br />
Utrecht.<br />
• Omvang:<br />
– types: 3.732.<br />
– tokens: 81.527.<br />
• Samenstelling (teksttypes): informele dialoog.<br />
• Sprekergegevens: Niek, van 2;7 jr. tot 3;10 jr. en volwassene (vader, Frank Wijnen zelf).<br />
13
• Opnamedatum: 1983-1984.<br />
• Opnameduur: 31 uur, waarvan 23 uur getranscribeerd.<br />
• Annotatieschema:<br />
– gehanteerde standaard: CHAT.<br />
– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’ie’, ’d’r’, ’(he)t’<br />
i.p.v. ”t’).<br />
– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap in CHAT-codes<br />
[].<br />
– behandeling bij- en achtergrondgeluiden: paralinguïstische tier.<br />
– gehanteerde interpunctie: orthografische interpretatie.<br />
• Annotatieniveaus: orthografie, handelingen, geadresseerde, alternatieve orthografische transcriptie,<br />
commentaar, versprekingen, verklaring, gebaren en proxemische activiteit, aarzelingen, paralinguïstische<br />
tier, fonetiek (incl. interrupties, non-fluencies, intonatiecontour, amplitude, reparaties), situatie,<br />
speech acts (imitatie).<br />
• Status privacy informanten: ?<br />
• Copyright: Frank Wijnen.<br />
• Beschikbaarheid opnames: ?<br />
– geluidsdrager: ?<br />
– opnametechniek: ?<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ja, orthografische transcriptie plus annotaties.<br />
– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />
Directory tree ’dehouwer’: longitudinale bilinguale studie van het Vlaamse meisje Kate (Engels-Nederlands)<br />
door Annick De Houwer, Universiteit Antwerpen.<br />
• Omvang:<br />
– types: 3.562<br />
– tokens: 47.832<br />
• Samenstelling (teksttypes): informele dialoog.<br />
• Sprekergegevens: Kate, van 2;7 jr. tot 3;4 jr., plus onderzoeker(s), moeder en (soms) vader.<br />
• Opnamedatum: ?<br />
• Opnameduur: 19 uur.<br />
• Annotatieschema:<br />
– gehanteerde standaard: CHAT.<br />
– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’wa’s’, ’da’s’, ”t’,<br />
”n’).<br />
– sprekerwisseling, behandeling overlap: sprekerwisseling in aparte tiers, overlap: nee.<br />
– behandeling bij- en achtergrondgeluiden: commentaar tier.<br />
14
– gehanteerde interpunctie: orthografische interpretatie.<br />
• Annotatieniveaus: orthografie, morfosyntax (taalkundig en redekundig, incl. info woordvolgorde en<br />
ellipsis), versprekingen, aarzelingen, herhalingen, interrupties, non-fluencies, reparaties, handelingen,<br />
verklaring, situatie, commentaar, fonologie (beperkt).<br />
• Status privacy informanten: geanonimiseerd.<br />
• Copyright: Annick De Houwer.<br />
• Beschikbaarheid opnames: ?<br />
– geluidsdrager: audiocassette.<br />
– opnametechniek: draagbare cassetterecorder met ingebouwde multi-directionele microfoon.<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ja, orthografische transcriptie plus annotaties.<br />
– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />
Daarnaast bevinden zich in het CHILDES-archief op Carnegie Mellon University nog de volledig ongedocumenteerde<br />
’clpf’-data, van kennelijk 12 kinderen uit de jaren 1988-1991, met in totaal 2.722 types, 37.140<br />
tokens.<br />
Verder is er <strong>een</strong> bestand ’groning’, volledig ongedocumenteerd, van kennelijk 7 kinderen uit de jaren<br />
1992-1995. De namen van de codeurs zijn Gerard Bol, Caroline Elskamp, Puck Goossens, Evelien Krikhaar,<br />
Paulien Rijkhoek, Frank Wijnen. In totaal 19.990 types, 977.797 tokens.<br />
3.1.2 De ESF migrantentaal-databank<br />
Dit corpus heet voluit de European Science Foundation Second Language Databank (ESFSLD), <strong>een</strong> elektronisch<br />
archief van longitudinale studies naar de tweede taalverwerving van <strong>een</strong> aantal volwassen immigranten<br />
uit 6 landen (zie: Feldweg 1992). Voor elk van de 6 moedertalen (brontalen, nl. Punjabi, Italiaans, Turks,<br />
Arabisch, Spaans en Fins), werden twee groepen geselecteerd, die elk dezelfde tweede taal (de doeltaal, nl.<br />
Engels, Duits, Nederlands, Frans of Zweeds) in hun nieuwe land moesten leren. De studie startte in 1982,<br />
en werd in 1987 voltooid. Zo werden <strong>een</strong> aantal Spanjaarden gevolgd, die ofwel Frans ofwel Zweeds moesten<br />
leren. Verder werd het Zweeds ook als doeltaal vastgesteld voor <strong>een</strong> groep Finse migranten, evenals het<br />
Frans voor Arabische sprekers.<br />
Dit maakte het mogelijk om zowel verschillen en over<strong>een</strong>komsten te meten tussen het leren van twee doeltalen<br />
door groepen van dezelfde nationaliteit, als het leren van één doeltaal door groepen van verschillende<br />
nationaliteit. In totaal werden 40 allochtone werknemers geselecteerd, wier conversatie met native speakers<br />
van de doeltaal op de band werd vastgelegd en later getranscribeerd volgens <strong>een</strong> centraal vastgesteld protocol.<br />
Alle migranten werden maandelijks geïnterviewd over <strong>een</strong> periode van 2,5 jaar. Daarnaast werd <strong>een</strong> controlegroep<br />
van in totaal 24 migranten aan het begin, in het midden en tegen het einde van de opnameperiode<br />
geïnterviewd ter vergelijking met de hoofdgroepen. Voor het Nederlands werden twee groepen participanten<br />
vastgesteld: één met moedertaal Turks, en één met moedertaal Arabisch. Dit deel van het onderzoek werd<br />
geleid door Guus Extra van de Katholieke Universiteit Brabant. De centrale cordinatie was in handen van<br />
het Max Planck Instituut voor Psycholinguïstiek in Nijmegen.<br />
Aangezien zelfs van de participanten die de hele periode konden worden gevolgd niet alle data orthografisch<br />
konden worden getranscribeerd, in de computer ingevoerd, tweemaal gecontroleerd etc, is van 39<br />
participanten orthografische transcriptie voorhanden (27 over de complete opnameperiode) en slechts van 8<br />
van de controlegroep.<br />
Een grote variëteit aan activiteiten werd vastgelegd: socio-biografische conversatie (soort intake-gesprek),<br />
rollenspel, plaatjesbeschrijving, filmbeschrijving, routebeschrijving, zelf-confrontatie (commentaar op bekijken<br />
eigen handelen), etc.<br />
Op het Max Planck Instituut zijn inmiddels alle data met doeltalen Engels, Duits en Nederlands omgezet<br />
naar het voor CHILDES ontwikkelde CHAT-formaat. Tevens worden de audiotapes, DAT-kopieën van de<br />
15
originele analoge opnames, voor zover voorhanden gelinkt met de orthografische transcriptie. De oorspronkelijke<br />
48 kHz samplefrequentie wordt hierbij teruggebracht tot 16 kHz voor opslag in audiofileformaat. Voor<br />
de Duitse data is de fonetische transcriptie-’tier’ omgezet naar <strong>een</strong> orthografisch formaat compatibel met de<br />
transcripten van de andere doeltalen. Hetzelfde pad zal gevolgd worden voor het Frans en het Zweeds. Het<br />
gehele project zal nog <strong>een</strong> aantal jaren in beslag nemen.<br />
Voor dit doel is de CED (Childes EDitor) van Carnegie Mellon University op het MPI omgezet naar<br />
<strong>een</strong> UNIX-versie geïntegreerd met de superieure audio bewerkings- en weergavefaciliteiten van het XWaves<br />
programma. Een implementatie in Tcl/Tk geeft de mogelijkheid van platform-onafhankelijke toegang op<br />
besturingssystemen als Macintosh, Windows95 en Windows NT. Deze versie staat bekend als de MEDeditor.<br />
Op dit moment zijn de naar CHAT-formaat omgezette ESF-files te benaderen voor interne medewerkers<br />
van het MPI onder URL:<br />
http://www.mpi.nl/world/data/esf archive/html/<br />
Hiervoor moet de gebruiker beschikken over <strong>een</strong> voor geluidsweergave toegeruste computer, en toegang<br />
tot de XWaves en MED software, die als ’helper applications’ vanuit de WWW-pagina’s moeten worden<br />
opgestart.<br />
Gegevens:<br />
• Omvang: steeds migrant plus onderzoeker, soms tolk, minus header-meta-informatie:<br />
– Abdeslam, Arabisch, controlegroep<br />
∗ types: 1.069<br />
∗ tokens: 14.673<br />
– El Mofadel, Arabisch, controlegroep<br />
∗ types: 1.153<br />
∗ tokens: 12.849<br />
– El Yazid, Arabisch, controlegroep<br />
∗ types: 893<br />
∗ tokens: 10.957<br />
– Zeyneb, Arabisch, controlegroep<br />
∗ types: 797<br />
∗ tokens: 6.513<br />
– Fatima, Arabisch, longitudinale groep<br />
∗ types: 3.403<br />
∗ tokens: 76.700<br />
– Hassan, Arabisch, longitudinale groep<br />
∗ types: 4.220<br />
∗ tokens: 109.491<br />
– Hassan M, Arabisch, longitudinale groep<br />
∗ types: 5.135<br />
∗ tokens: 115.526<br />
– Mohammed, Arabisch, longitudinale groep<br />
16
∗ types: 4.031<br />
∗ tokens: 106.374<br />
– Erdal, Turks, controlegroep<br />
∗ types: 913<br />
∗ tokens: 10.923<br />
– Haydar, Turks, controlegroep<br />
∗ types: 1.123<br />
∗ tokens: 9.680<br />
– Hikmet Ulusoy, Turks, controlegroep<br />
∗ types: 1.404<br />
∗ tokens: 14.719<br />
– Miyese, Turks, controlegroep<br />
∗ types: 795<br />
∗ tokens: 7.069<br />
– Abdullah, Turks, longitudinale groep<br />
∗ types: 3.710<br />
∗ tokens: 85.411<br />
– Ergün(?), Turks, longitudinale groep<br />
∗ types: 4.145<br />
∗ tokens: 119.881<br />
– Mahmut, Turks, longitudinale groep<br />
∗ types: 3.855<br />
∗ tokens: 107.870<br />
– Osman, Turks, longitudinale groep<br />
∗ types: 3.673<br />
∗ tokens: 97.508<br />
• Samenstelling (teksttypes): gestuurde dialoog tussen informant en onderzoeker(s) t.b.v. testen taalvaardigheid.<br />
• Sprekergegevens: uitgebreide informatie over leeftijd, geslacht, geboorte- en woonplaats, opleiding,<br />
beroep, religie, burgerlijke staat, mate en wijze van blootstelling aan L2, veranderingen hierin over<br />
opnameperiode. Dit in files met extensie *.bio.<br />
• Opnamedatum: 1981-1986 (2,5 jaar per participant). Van elk gesprek is opnamedatum voorhanden in<br />
*.prt files (protocol).<br />
• Opnameduur: van elk gesprek is gedetailleerde opnameduur voorhanden in *.prt files (protocol).<br />
• Annotatieschema:<br />
– gehanteerde standaard: platte ASCII-files, eigen ESF-transcriptiestandaard (lijkt enigszins op<br />
tiers in CHILDes).<br />
– geclitiseerde en andere niet-standaard vormen: ja, in orthografische transcriptie (’ie’, ’um’ (voor<br />
’hem’), ’ut’ (voor ’het’), ’istie’).<br />
17
– sprekerwisseling, behandeling overlap: ja, in orthografische code.<br />
– behandeling bij- en achtergrondgeluiden: commentaar.<br />
– gehanteerde interpunctie: orthografische interpretatie (voor vraagzin), verder g<strong>een</strong> interpunctie.<br />
• Annotatieniveaus: ruwe orthografische transcriptie met header met meta-informatie, sense units, andere<br />
taal, pauze, commentaar, technisch en situationeel commentaar. G<strong>een</strong> fonetische tier, all<strong>een</strong> voor<br />
in Duitsland gecodeerde data.<br />
• Status privacy informanten: geanonimiseerd.<br />
• Copyright: Max Planck Instituut Nijmegen (contract).<br />
• Beschikbaarheid opnames: ja.<br />
– geluidsdrager: op audiocassettes van soms slechte kwaliteit (veroudering). Momenteel digitalisatie<br />
op MPI vanaf DAT-kopieën.<br />
– opnametechniek: ?<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ja, orthografische transcriptie plus annotaties. Later ook gedigitaliseerd<br />
spraaksignaal. Dit gebeurt in het met het XWaves compatibele *.sd-fileformaat<br />
– relatie signaal-transcriptie (volledigheid-koppeling): ja, time alignment wordt momenteel geïmplementeerd.<br />
3.1.3 <strong>Nederlandse</strong> dialoogcorpora<br />
<strong>Corpora</strong> verzameld door Gisela Redeker, nu verbonden aan de Universiteit van Groningen, rond het<br />
onderzoeksthema spontane spraakproduktie in tv-programma’s (zie: Redeker (1992) en Linssen-Maes &<br />
Redeker (1992)).<br />
• Omvang:<br />
– types: ?<br />
– tokens: ?<br />
• Samenstelling (teksttypes): 34 <strong>Nederlandse</strong> televisieuitzendingen (nieuws- en discussieprogramma’s,<br />
talkshows) w.o. het Capitool, Stellingname (beide video), het Journalistenforum (audio). Dit is dus<br />
het corpus, waarvan gewag wordt gemaakt op de WWW-sites van de STDH<br />
(http://candl.let.ruu.nl/STDH/4corponz.dir/1corpora.dir/vua.html), aangevuld met audiomateriaal<br />
(zonder de visuele component).<br />
• Sprekergegevens: opnamegegevens in WP5.1 bestand in bezit Redeker.<br />
• Opnamedatum: 1989-1990.<br />
• Opnameduur: ± 20 uur.<br />
• Annotatieschema:<br />
– gehanteerde standaard: ?<br />
– geclitiseerde en andere niet-standaard vormen: ?<br />
– sprekerwisseling, behandeling overlap: ja (gedeeltelijk, nl. niet te complexe interrupties).<br />
– behandeling bij- en achtergrondgeluiden: ?<br />
– gehanteerde interpunctie: ?<br />
• Annotatieniveaus: ruwe orthografische transcriptie, discourse markers (segmentatiesignalen) gecodeerd<br />
in deelcorpus van ± 2 uur.<br />
18
• Status privacy informanten: schijnbaar irrelevant, aangezien alle opnames reeds publieke uitzendingen<br />
betreffen. Toch kunnen er problemen rijzen, aangezien zo mogelijk gegevens moeten worden verworven<br />
over leeftijd, opleidingsniveau, afkomst, etc. Ook openbare sprekers kunnen dan <strong>een</strong> beroep doen op<br />
wet op de privacy voor dergelijke gegevens (Van de Velde, 1996: 22). Hetzelfde aspect speelde ook<br />
samenstelling van het BNC (zie sectie 4.3.4) aanvankelijk parten.<br />
• Copyright: ?<br />
• Beschikbaarheid opnames: ja, maar kwaliteit na 10 jaar onzeker (wellicht g<strong>een</strong> fonetische analyse<br />
mogelijk).<br />
– geluidsdrager: videotapes en hiervan gekopieerde audiotapes. Ook oorspronkelijke audiotapes bij<br />
radio-opname.<br />
– opnametechniek: ?<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ?<br />
– relatie signaal-transcriptie (volledigheid-koppeling): ?<br />
Onderzoek naar mogelijke verschillen in interruptiegedrag tussen de beide seksen d.m.v. formele discussies<br />
over het thema ’basisvorming’ door Gisela Redeker en Anny Maes. Zie Redeker & Maes (1996).<br />
• Omvang:<br />
– types: ?<br />
– tokens: ?<br />
• Samenstelling (teksttypes): formele discussies over het thema ’basisvorming’.<br />
• Sprekergegevens: 5 mannen en 5 vrouwen (2 groepen, verdeeld over 8 discussies). Leeftijd: 44 tot 50<br />
jaar. Sociale status: academisch niveau, leidinggevende of adviserende posities.<br />
• Opnamedatum: ?<br />
• Opnameduur: ?<br />
• Annotatieschema:<br />
– gehanteerde standaard: codering overlappende spraak volgens: Roger, D.B., P.E. Bull & S. Smith<br />
(1988) ’The Development of a Comprehensive System for Classifying Interruptions’. In: Journal<br />
of Language and Social Psychology 7, 27-34.<br />
– geclitiseerde en andere niet-standaard vormen: ?<br />
– sprekerwisseling, behandeling overlap: ja, zie boven.<br />
– behandeling bij- en achtergrondgeluiden: ?<br />
– gehanteerde interpunctie: orthografische interpretatie?<br />
• Annotatieniveaus: orthografie (gedeeltelijk), 2373 interrupties volgens Roger et al. (1988).<br />
• Status privacy informanten: toestemming moet gevraagd worden voor gebruik door derden.<br />
• Copyright: G. Redeker.<br />
• Beschikbaarheid opnames: ja, bij G. Redeker.<br />
– geluidsdrager: audiocassette.<br />
– opnametechniek: ? Opname thuis, niet in studio.<br />
19
– signaal-ruisverhouding: ?<br />
– elektronische versie: ?<br />
– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />
Onderzoek door Sandra Timan, taalbeheersing VU, naar man-vrouw onderhandelingen.<br />
• Omvang:<br />
– types: ?<br />
– tokens: ?<br />
• Samenstelling (teksttypes): man-vrouw onderhandelingen.<br />
• Sprekergegevens: cursisten onderhandelingsstrategieën bedrijfsleven.<br />
• Opnamedatum: 1992-1993.<br />
• Opnameduur: ?<br />
• Annotatieschema:<br />
– gehanteerde standaard: VRM-codering volgens Stiles (1993), codering overlappende spraak volgens:<br />
Roger, D.B., P.E. Bull and S. Smith (1988).<br />
– geclitiseerde en andere niet-standaard vormen: ?<br />
– sprekerwisseling, behandeling overlap: ja, zie boven.<br />
– behandeling bij- en achtergrondgeluiden: ?<br />
– gehanteerde interpunctie: orthografische interpretatie.<br />
• Annotatieniveaus: orthografie, VRM-codering, overlappende spraak, aangebracht door Noortje Feije.<br />
• Status privacy informanten: ?<br />
• Copyright: ?<br />
• Beschikbaarheid opnames: ja, bij Gisela Redeker, Universiteit Groningen.<br />
– geluidsdrager: audiocassette.<br />
– opnametechniek: ?<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ?<br />
– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />
Het Van der Wijst Onderhandelingscorpus, opgebouwd door Per van der Wijst, indertijd verbonden aan<br />
de KUB in Tilburg.<br />
• Omvang: ± 56.000 uitingen (voor het onderzoek vastgestelde <strong>een</strong>heid).<br />
– types: niet geteld.<br />
– tokens: niet geteld.<br />
• Samenstelling (teksttypes): 28 gesimuleerde telefonische onderhandelingsgesprekken tussen ervaren<br />
onderhandelaars; gemodificeerde vorm van het ’Kelley game’.<br />
20
• Sprekergegevens: 56 sprekers. Er zijn enquêtegegevens (o.m. oordelen over zichzelf en de gesprekspartner)<br />
van de deelnemende onderhandelaars beschikbaar. Ook extra-linguïstische variabelen zoals<br />
leeftijd, opleiding, geslacht e.d. zijn geregistreerd.<br />
• Opnamedatum: 1991-1992.<br />
• Opnameduur: ± 17 uur.<br />
• Annotatieschema:<br />
– gehanteerde standaard: VRM-codering volgens Stiles (1993). Voor <strong>een</strong> selectie van uitingen zijn<br />
ook beleefdheidsstrategieën gecodeerd.<br />
– geclitiseerde en andere niet-standaard vormen: ja.<br />
– sprekerwisseling, behandeling overlap: ja, aangegeven in Macintosh-transcript, traceerbaar in<br />
DOS-transcript.<br />
– behandeling bij- en achtergrondgeluiden: indien storend, aangegeven tussen [ ]’s.<br />
– gehanteerde interpunctie: orthografische interpretatie.<br />
• Annotatieniveaus: orthografie, uitingen codes in termen van Verbal Response Modes (zie onderzoek).<br />
• Status privacy informanten: geanonimiseerd in transcript, niet op de band.<br />
• Copyright: Per van der Wijst. Er zijn al anderen geweest die ermee gewerkt hebben.<br />
• Beschikbaarheid opnames: ja, bij Per van der Wijst aan de Université de Liège.<br />
– geluidsdrager: DAT-tapes en analoge kopieën op audiocassette.<br />
– opnametechniek: gesprekspartners (steeds 2) op gescheiden sporen.<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ja, orthografie in syncWRITER, <strong>een</strong> Macintosh-partituur programma, daarnaast<br />
in WP-formaat op DOS.<br />
– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />
Onderzoek naar actualiteiten- en talkshow-interviews t.b.v. scriptie Taalbeheersing van Frank Kuijpers,<br />
verbonden aan de VU Amsterdam.<br />
• Omvang:<br />
– types: ?<br />
– tokens: ?<br />
• Samenstelling (teksttypes): 18 interviews, uitgezonden op de <strong>Nederlandse</strong> televisie.<br />
• Sprekergegevens:<br />
• Opnamedatum: voorjaar 1994.<br />
• Opnameduur: ruim 3 uur.<br />
• Annotatieschema:<br />
– gehanteerde standaard: VRM-codering volgens Stiles (1993).<br />
– geclitiseerde en andere niet-standaard vormen: ?<br />
– sprekerwisseling, behandeling overlap: ?<br />
– behandeling bij- en achtergrondgeluiden: ?<br />
21
– gehanteerde interpunctie: ?<br />
• Annotatieniveaus: orthografie, VRM-codering.<br />
• Status privacy informanten: openbaar. Dit geldt echter niet voor alle gewenste biografische informatie<br />
(Van de Velde, 1996: 22).<br />
• Copyright: ?<br />
• Beschikbaarheid opnames: ? Videobanden gearchiveerd met onderzoeksgegevens en enquêtegegevens<br />
beschikbaar met kijkersoordelen.<br />
– geluidsdrager: videotapes.<br />
– opnametechniek: ?<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ?<br />
– relatie signaal-transcriptie (volledigheid-koppeling): ?<br />
Communicatieanalyse van diverse gesprekssituaties, door Harrie Mazeland, verbonden aan Rijksuniversiteit<br />
Groningen (persoonlijke communicatie).<br />
• Omvang:<br />
– types: ?<br />
– tokens: ?<br />
• Samenstelling (teksttypes): meer en minder formele en informele dialogen. Enerzijds niet-gestandaardiseerde<br />
sociaal-wetenschappelijke onderzoeksvraaggesprekken, anderzijds veelsoortig materiaal (arts/patient-consults,<br />
discussies, debatten, vergaderingen, informele telefoongesprekken).<br />
• Sprekergegevens: ?<br />
• Opnamedatum: ?<br />
• Opnameduur: 4 uur (sociale onderzoeksvraaggesprekken), 4 uur of meer andersoortig materiaal.<br />
• Annotatieschema:<br />
– gehanteerde standaard: c.a.-transcriptie (?)<br />
– geclitiseerde en andere niet-standaard vormen: ?<br />
– sprekerwisseling, behandeling overlap: ?<br />
– behandeling bij- en achtergrondgeluiden: ?<br />
– gehanteerde interpunctie: ?<br />
• Annotatieniveaus: c.a.-transcriptie (?), steeds voor de eerste 15 à 20 minuten van het gesprek (niet<br />
volledig).<br />
• Status privacy informanten: moet nog (volgens afspraak) geanonimiseerd worden.<br />
• Copyright: Harrie Mazeland.<br />
• Beschikbaarheid opnames: ?<br />
– geluidsdrager: audiotapes.<br />
– opnametechniek: ?<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ja, in WP5.1-formaat.<br />
– relatie signaal-transcriptie (volledigheid-koppeling): ?<br />
22
3.2 Andere <strong>Gesproken</strong> Datacollecties<br />
Naast de bovengenoemde corpora zijn er ook collecties van gesproken data, meestal radio- en TV-uitzendingen,<br />
die niet aangelegd zijn vanuit onderzoeksdoeleinden, maar om zoveel mogelijk audiovisueel materiaal<br />
te archiveren voor het nageslacht. Volgens de strikte definitie van het EAGLES-consortium (zie sectie 4.1)<br />
zijn dit dus g<strong>een</strong> gesproken corpora. De hier bedoelde media worden in eerste instantie gebruikt voor het<br />
aankleden van radio- en TV-uitzendingen met historische opnames, en daarnaast ook voor commerciële<br />
exploitatie, b.v. verzamel CDs en documentaire video’s. Verder speelt het door de overheid gestimuleerde<br />
en gesubsidieerde aspect van behoud van het nationale culturele erfgoed <strong>een</strong> belangrijke rol.<br />
Tot deze categorie behoort het Historisch Archief van het Audiovisueel Archiefcentrum (AVAC) van<br />
het <strong>Nederlandse</strong> Omroepproductie Bedrijf (NOB). Dit is slechts toegankelijk voor buitenstaanders tegen<br />
commerciële tarieven en betaling van auteursrecht. De uitzendingen zijn gearchiveerd op volspoor magnetische<br />
audiospoelen (éénzijdig bespeeld, 19 cm/sec). Alle bestanden zijn opgenomen in <strong>een</strong> geautomatiseerde<br />
databank, waarbinnen <strong>een</strong>voudig op trefwoord, spreker en opnamedatum gezocht kan worden.<br />
Daarnaast is er het Audiovisueel Archief (AVA) van de Stichting Film en Wetenschap (SFW) in Amsterdam.<br />
Dit is gemakkelijker (en goedkoper) toegankelijk, maar helaas all<strong>een</strong> via <strong>een</strong> ongeautomatiseerd<br />
kaartsysteem (trefwoord, spreker, opnamedatum). Opnames zijn beschikbaar op tweezijdige audiospoelen<br />
met <strong>een</strong> opnamesnelheid van 9,5 cm/sec. De kwaliteit is hiermee minder dan die bij het AVAC. Wel wordt<br />
sinds 1994 gearchiveerd op DAT-tapes.<br />
De Vlaamse pendant hiervan is het Archief <strong>Gesproken</strong> Woord van de Belgische Radio en Televisie - <strong>Nederlandse</strong><br />
Uitzendingen (BRTN). Dit is veel kleiner dan de <strong>Nederlandse</strong> archieven, en nog niet geheel overgezet<br />
op magneetband. Een summier kaartsysteem (trefwoord, spreker en opnamedatum) vergemakkelijkt het<br />
zoeken enigszins, hoewel er plannen zijn de databank te automatiseren (Van de Velde, 1996: 65-68).<br />
Voorgelezen spraak van goede kwaliteit bevindt zich op <strong>een</strong> aantal Blindenbibliotheken in Nederland,<br />
zoals Le Sage ten Broek in Nijmegen. Op 5 van dergelijke locaties is materiaal van ongeveer 700 sprekers<br />
voorhanden.<br />
4 Recente Ontwikkelingen: <strong>Gesproken</strong> <strong>Corpora</strong> en Standaardisatie<br />
4.1 <strong>Corpora</strong> van de Derde Generatie (1990-)<br />
Het is pas in het meest recente stadium dat gesproken corpora werkelijk op effectieve wijze ontsloten kunnen<br />
worden dankzij geïntegreerde computerfaciliteiten voor de opslag en bevraging van geluidsfragmenten<br />
in samenhang met de transcripties en documentatie. Hierom kunnen all<strong>een</strong> recente corpora voldoen aan<br />
de technisch gesproken tamelijk strikte definitie die de EAGLES-werkgroep hanteert, en zijn veel eerdere<br />
verzamelingen gesproken taal, tenzij in <strong>een</strong> later stadium grondig geautomatiseerd en bewerkt, in feite niet<br />
meer dan geluidsarchieven, zoals die bij talrijke omroepen zijn opgeslagen:<br />
[A] spoken language corpus is “any collection of speech recordings which is accessible in computer<br />
readable form and which comes with annotation and documantation sufficient to allow re-use of<br />
the data in-house, or by scientists in other organisations.” (Gibbon et al., 1997: 79) 2<br />
Een belangrijk verschil met eerdere corpora is de overgang naar van vooral tekstgebaseerde ontsluiting<br />
(waarbij eerst gezocht wordt naar <strong>een</strong> bepaald deel van de transcriptie, en dan de bijbehorende signaalfile<br />
wordt afgespeeld) naar <strong>een</strong> centrale rol voor de in het gesproken medium essentiële tijdsdimensie. Deze<br />
ontbreekt geheel bij geschreven tekst, tenzij verschillende versies van dezelfde tekst naast elkaar bestaan.<br />
Computers bieden nu de mogelijkheid, om alle transcripties en annotaties afhankelijk te maken van deze<br />
tijdschaal, zonder overigens directe toegang tot of loskoppeling van de afgeleide tekstfiles onmogelijk te<br />
maken.<br />
In dit stadium wordt het geluidssignaal geheel digitaal opgenomen en verwerkt met <strong>een</strong> sampling frequentie<br />
van 16-20 kHz (8 kHz bij telefoonopnames), met 16-bits A/D-conversie, waarbij g<strong>een</strong> kwaliteitsverlies<br />
van het opgenomen signaal hoeft op te treden. Registratie vindt bij voorkeur plaats op DAT-tapes, met<br />
23
standaard sampling rate van 48 kHz en 16 bits resolutie per sample. DCC-tapes en MiniDisk leiden door<br />
gegevenscompressie t.b.v. van efficiënte opslag tot datareductie, en zijn daarom niet geschikt voor gedetailleerde<br />
analyse van de weergave. Bovendien levert conservering van deze media later problemen op, omdat de<br />
weergaveapparatuur gebruik maakt van speciale algoritmes om het oorspronkelijke signaal zo goed mogelijk<br />
te reconstrueren (Van de Velde, 1996: 62).<br />
Archivering vindt plaats op de originele DAT-tapes, CD-Recordable (<strong>een</strong>maal beschrijfbaar), CD-Re-<br />
Writable (meermaals beschrijfbaar) of audiofiles op de harde schijf van <strong>een</strong> computer. Dat kan in verschillende<br />
fileformaten, zoals wav- of sd-formaat (b.v. in samenhang met de XWaves geluidsweergave en<br />
-bewerkingssoftware), dan wel A-law (gebruikelijk in Europa) of µ-law (gebruikelijk in de USA). Meer permanente<br />
opslag kan gebeuren op slechts éénmaal beschrijfbare media zoals CD-ROM of <strong>een</strong> WORM-CD<br />
(Write Once Read Many). In de toekomst zal DVD (Digitale Video Disk) wellicht als standaard gaan<br />
gelden. Deze staat voor opname op 2 kanalen <strong>een</strong> sampling rate van 192 kHz toe, met 24-bits resolutie.<br />
Voor het CGN-project zouden 10 miljoen woorden spraak neerkomen op <strong>een</strong> opnameduur van 930 uur<br />
bruikbaar materiaal. Aangezien rekening gehouden moet worden met reserve-opnamecapaciteit, en het<br />
wegediten van ruis en onverstaanbare passages, mag men rekenen op 2000 90M DAT-tapes, waarvan dus<br />
1/3 e effectief benut wordt. Het geluidssignaal all<strong>een</strong> neemt bij <strong>een</strong> samplefrequentie van 16 kHz (32.000<br />
byte/sec) 112 GB diskruimte in beslag, dus 172 CD-ROMs of 8 DVDs. Bij <strong>een</strong> samplefrequentie van 20 kHz<br />
(40.000 byte/sec) komt het neer op 134 GB diskruimte, oftewel 207 CD-ROMs/9 DVDs.<br />
4.2 De Opkomst van Internationale Standaards<br />
Het belang van standaards wordt in deze tijd van vele internationale projecten en universeel toegankelijke<br />
tekstbestanden op het World Wide Web steeds meer erkend. Aansluiting bij bepaalde expliciet geformuleerde<br />
normen, dan wel het navolgen van <strong>een</strong> succesvol gebleken project (’best practice’, waarbij conformering aan<br />
de standaard minder expliciet is) heeft <strong>een</strong> aantal voordelen. Zo zullen corpora eerder opnieuw gebruikt<br />
worden binnen andere projecten, wordt contrastief onderzoek tussen verschillende corpora op verschillende<br />
annotatieniveaus werkbaar, kunnen lexica en corpora <strong>een</strong>voudiger worden uitgebreid of samengevoegd, en<br />
heeft het schrijven van complexe annotatie- en exploitatietools meer zin, aangezien zij voor meerdere bestanden<br />
inzetbaar zijn (Bouma & Schuurman, 1998: 16, Leech et al., 1995: 5). Ook moet in het grotere<br />
perspectief gedacht worden aan de mogelijkheid van gedistribueerde opzet van corpora met behulp van tools<br />
die onderling <strong>een</strong>voudig kunnen worden uitgewisseld, of zelfs in <strong>een</strong> virtuele programmeeromgeving voor<br />
projectpartners op fysiek gescheiden locaties inzetbaar zijn. Aangezien taaltechnologische projecten vrijwel<br />
zonder uitzondering kostbare ondernemingen zijn, kan gesteld worden dat uniformiteit zelfs geboden<br />
is, aangezien in het andere geval vrijwel zonder uitzondering sprake zal zijn van substantiële kapitaals- en<br />
kennisvernietiging.<br />
4.2.1 SGML<br />
SGML (Standard Generalized Markup Language) is <strong>een</strong> internationale standaard (ISO 8879: 1986) voor<br />
het <strong>een</strong>duidig beschrijven van de documentstructuur, met het oog op gemakkelijke uitwisselbaarheid tussen<br />
diverse (computer)systemen en druk- of presentatieformaten. Het schrijft dus g<strong>een</strong> lay-out voor, all<strong>een</strong> <strong>een</strong><br />
structuur waarop de lay-out zich moet baseren. Het beschrijft dus teksten niet met <strong>een</strong> ’procedural markup’,<br />
zoals in <strong>een</strong> WP of MS-Word document, maar met <strong>een</strong> ’descriptive’ of ’generic markup’, die de (logische)<br />
documentstructuur weergeeft, niet de stijl of de verschijningsvorm. Toepassingen strekken zich dan ook<br />
tegenwoordig uit boven het leggen van de grondslag voor latere presentatie.<br />
SGML werkt met in ASCII (algem<strong>een</strong> computerleesbare tekst) gespecificeerde begin- en eindlabels<br />
(’tags’), die op verschillende niveaus tekstdelen kunnen markeren. Aangezien veel documenten tegenwoordig<br />
vaak in elektronische èn boekvorm verschijnen, is <strong>een</strong> gestandaardiseerde weergave van de onderscheiden<br />
tekstdelen onontbeerlijk geworden.<br />
Naast de onafhankelijkheid van specifieke besturings-, applicatie- en afdruksystemen, heeft SGML ook<br />
als belangrijke voordelen dat veel van de tags gebaseerd kunnen zijn op de inhoud van de tekst in plaats<br />
van de weergave (b.v. 〈author〉, 〈figure〉, 〈date〉, 〈quote〉), hetg<strong>een</strong> het zeer geschikt maakt voor archivering<br />
en document retrieval op grond van aldus afgebakende tekst, dat gebruikers hun eigen Document Type<br />
Definition (DTD) kunnen specificeren met hun eigen tags, en dat er pointers mogelijk zijn naar andere<br />
24
tekstdelen of documenten, zodat delen van <strong>een</strong> document afzonderlijk kunnen worden opgesteld, en pas<br />
later samengebracht. Zo kan <strong>een</strong> document ook in zijn uiteindelijke vorm in feite <strong>een</strong> compositum zijn van<br />
fragmenten op diverse locaties (hypertext).<br />
Omdat documenten uiteindelijk toch leesbaar moeten zijn in wat voor vorm dan ook, is <strong>een</strong> aparte<br />
standaard ontwikkeld voor de weergave van de van tags voorziene tekstdelen in verschillende applicaties,<br />
zoals bold, italic en typewriter. Deze richtlijnen voor style sheets zijn vervat in DSSSL (Document Style<br />
Semantics and Specification Language).<br />
Editors die het nogal technische en ondoorzichtige opstellen van DTDs en SGML-documenten vergemakkelijken<br />
zijn FrameMaker van Adobe, Author/Editor van Interleaf (vroeger: SoftQuad), Multidoc Pro<br />
Publisher van het Finse bedrijf Citec en ADEPT, het complete editing- en document managementsysteem<br />
van ArborText.<br />
Het bekijken, bevragen en afdrukken van documenten kan worden ondersteund door FrameViewer (Adobe),<br />
Panorama (Interleaf/SoftQuad) en Multidoc Pro Browser (Citec).<br />
4.2.2 XML<br />
Momenteel vindt <strong>een</strong> op basis van SGML ontwikkeld tekstmarkeringsformalisme opgang, met name voor<br />
gebruik op het World Wide Web (ter vervanging van het nu te beperkte HTML). Dit staat bekend onder de<br />
term XML (eXtensible Markup Language). Het is in feite <strong>een</strong> subset van SGML, met <strong>een</strong> iets restrictiever<br />
gedefinieerde DTD-standaard (Goldfarb & Prescod, 1998: 265-275). XML is dan ook geheel compatibel met<br />
SGML. De bedoeling is complete conformering aan de ISO-norm, inclusief mogelijkheden tot uitbreiding<br />
(vandaar extensible) met eigen tags, weergave hiërarchische structuren en goede validatietechnieken.<br />
Voor de steeds toenemende vervlechting van tekst met multimediale data, zoals afbeeldingen, audiofragmenten<br />
en video, is <strong>een</strong> andere uitbreiding van SGML ontwikkeld met de naam HyTime (Hypermedia/Timebased<br />
Structuring Language). Deze is vastgelegd als <strong>een</strong> aparte standaard voor gestructureerde opslag en<br />
retrieval van met hyperlinks gerelateerde multimedia en tijd-gebaseerde systemen (audio, beeld, video, muziek),<br />
nl. ISO 10744: 1992.<br />
Net als in SGML en HTML, is het mogelijk om XML-conformante tekstbestanden te verbinden met<br />
externe, non-XML objecten via hyperlinks, zoals plaatjes, audio en video. Deze worden ongeparseerde<br />
entiteiten genoemd. Voor elke non-XML entiteit is er <strong>een</strong> notatie die aangeeft om welk data-object of<br />
fileformaat het gaat, b.v. Waveform of A-law (Goldfarb & Prescod, 1998: 39). De standaard hiervoor is<br />
gebaseerd op HyTime, en draagt de naam XLink (Extensible Linking Language) 3 . Deze werkt met de<br />
concepten XPointer (voor het link mechanisme) en URI’s (Uniform Resource Identifier, <strong>een</strong> uitbreiding van<br />
de URLs uit de HTML-standaard) voor het identificeren van de verbonden bestanden (Goldfarb & Prescod,<br />
1998: 499-515).<br />
Een extra mogelijkheid binnen XLink is extended linking, zeg maar meervoudige hyperlinks tussen documenten,<br />
zodat niet all<strong>een</strong> 1-1 relaties kunnen worden gelegd zoals in HTML, maar 1-N, b.v. tussen <strong>een</strong><br />
woord en alle documenten waarin het voorkomt. Ook zijn XLinks bidirectioneel, en dus in feite n-directioneel<br />
(N-N), zodat er gemakkelijk h<strong>een</strong> en weer gescrolled kan worden tussen parallelle versies van dezelfde tekst;<br />
wanneer men van ankerpunt A 1 in tekst 1 springt naar ankerpunt A 2 in tekst 2, kan men ofwel via dezelfde<br />
link terug, ofwel in tekst 2 verder scrollen en dan van ankerpunt B 2 weer naar het over<strong>een</strong>komende ankerpunt<br />
B 1 in tekst 1. Dit zou van groot belang kunnen zijn bij het editen maar ook later bevragen van transcripti<strong>een</strong><br />
annotatiefiles voor het CGN (Goldfarb & Prescod, 1998: 177-188).<br />
Een andere uitbreiding is het maken van annotaties (b.v. commentaar, maar ook lijsten met ’related<br />
sites’) bij Webdocumenten, waar men zelf g<strong>een</strong> update privilege voor heeft. Deze worden dan via hyperlinks<br />
verbonden met de brontekst, en zijn zichtbaar voor ieder<strong>een</strong> die met de tekst werkt, zonder dat ze er<br />
onlosmakelijk deel van uitmaken. In termen van het CGN-project zou <strong>een</strong> dergelijk mechanisme nuttig<br />
kunnen zijn voor het leveren van commentaar, b.v. op twijfelachtige of foutieve transcripties, zonder dat de<br />
oorspronkelijke tekst wordt aangetast. Aangezien de standaard voor dit mechanisme nog in ontwikkeling is,<br />
is hier <strong>een</strong> voorbeeld van hoe <strong>een</strong> dergelijke annotatie eruit zou kunnen zien:<br />
3 In feite is er meer dan één inspiratiebron. Xlink is direct gebaseerd op de extended pointer syntax van het TEI; de beide<br />
redacteuren van TEI, Burnard en Sperberg-McQu<strong>een</strong>, hadden dan ook zitting in het comité dat de XML-specificaties opgesteld<br />
heeft.<br />
25
Niet-verbale vocale klanken zijn hier ten onrechte orthografisch<br />
getranscribeerd!<br />
<br />
Wanneer men <strong>een</strong> stap verder denkt, dan komt men al gauw op het gebruik van XML, in combinatie<br />
met object-georiënteerde programmeertalen als Java en C++, voor het creëren van middleware, <strong>een</strong> integratielaag,<br />
waarbij allerlei gerelateerde documenten, databases en multimedia kunnen worden aangeroepen<br />
vanuit <strong>een</strong> interface, die van alle applicatie-specifieke codes abstraheert tot één gem<strong>een</strong>schappelijk datamodel.<br />
Zo kunnen woordgegevens uit heel divers geïmplementeerde lexicale databanken (platte ASCII-files<br />
met delimiters, relationele databanken, gehyperlinkte Webdocumenten, etc.) worden gebruikt om teksten<br />
grammaticaal te verrijken, zolang maar duidelijk is hoe bepaalde velden in de bronnen te mappen zijn op de<br />
(in dit geval door het TEI aanbevolen) elementen 〈entry〉 en 〈pos〉 (part of speech).<br />
Voor deze applicatie-interfaces (API’s) zijn verschillende modellen ontwikkeld, zoals CORBA (Common<br />
Object Request Broker Architecture) en DCOM (Distributed Component Object Model). Om de ene applicatietaal<br />
of DTD-versie naar <strong>een</strong> andere te vertalen (immers, elk bedrijf kan zijn eigen DTD hanteren)<br />
is dan nog <strong>een</strong> IDL (Interface Definition Language) nodig. Zo heeft het bedrijf webMethods b.v. <strong>een</strong> voor<br />
het Web geschikte IDL ontwikkeld onder de naam WIDL, die gebruik maakt van XML als tussentaal. Voor<br />
concrete voorbeelden zie de secties 4.2.4 en 6 over de resource-onafhankelijke NLP-architecturen MATE en<br />
GATE.<br />
Daarnaast is er voor XML <strong>een</strong> variant van de SGML-style sheet DSSSL ontwikkeld onder de naam XSL<br />
(Extensible Style Language). Deze draagt ook elementen in zich van de HTML-extensie Cascading Style<br />
Sheets, en maakt daarmee deze overbodig.<br />
XML maakt voor de karakterrepresentatie gebruik van de nieuwe Unicode-standaard (ISO/IEC 10646-1:<br />
1993). Deze code heeft met zijn 16 bits lengte één byte meer tot zijn beschikking dan 7- of 8-bits ASCII<br />
en kan daarmee alle schrijfsystemen weergeven, inclusief Chinese ideogrammen, hiërogliefen en Arabische<br />
karakters. Van belang voor het CGN-project is, dat er in Unicode 2.0 ook <strong>een</strong> IPA-set is gedefinieerd voor<br />
fonetische symbolen. Zie de URL:<br />
http://www.unicode.org/<br />
Editors die het nogal technische en ondoorzichtige opstellen van DTDs en XML-documenten vergemakkelijken<br />
zijn FrameMaker+SGML van Adobe en XMetaL van SoftQuad. Verder zijn er complete editing- en<br />
document managementsystemen verkrijgbaar, zoals ADEPT, Astoria en POET Content Management Suite<br />
van resp. ArborText, Chrystal Software (<strong>een</strong> onderdeel van Xerox) en POET Software. Deze bieden zoveel<br />
functionaliteit op het gebied van het editen, bekijken, bewerken, opslaan, bevragen en verplaatsen van<br />
document-componenten, dat het nuttig is voor het CGN de inzet van dergelijke pakketten te onderzoeken.<br />
Er zijn trouwens ook steeds meer freeware editors en viewers voorhanden.<br />
Op het meer prozaïsche vlak van integratie van XML-documenten binnen bestaande Webbrowsers – vooral<br />
van belang voor de alledaagse end-user – zal Netscape de functionaliteit van XML inbouwen in Communicator<br />
5.0 onder de applicatienaam Aurora. Microsoft’s Internet Explorer 4.0 laat validatie toe van<br />
XML-documenten d.m.v. <strong>een</strong> parser, maar de viewer vertaalt nog XML naar HTML. Internet Explorer 5<br />
daarentegen biedt reeds volledige ondersteuning van het XML document object model (1.0).<br />
Zeer veel informatie over SGML en XML, evenals veel gratis software (editors, parsers) is tenslotte te vinden<br />
op de Websites van het officiële World Wide Web Consortium (W3C):<br />
http://www.w3.org<br />
en even<strong>een</strong>s bij de zeer fanatieke software-ontwikkelaars James Clark:<br />
http://www.jclark.com<br />
26
en Patrice Bonhomme:<br />
http://www.loria.fr/˜bonhomme/xml.html<br />
Als meer recente ontwikkeling is er bij W3C nu <strong>een</strong> standaard in de maak, die allerlei eerdere hypertext<br />
standaards en aanbevelingen integreert voor de bouw van multimediale databases. Deze staat bekend onder<br />
de naam SMIL (Synchronized Multimedia Integration Language). Deze beoogt:<br />
• Beschrijving van de precieze tijdgebaseerde structuur van de multimedia-applicatie.<br />
• Beschrijving van de precieze verschijningsvorm van de applicatie op het scherm.<br />
• Het verbinden van hyperlinks aan mediaobjecten.<br />
Informatie over deze standaard in wording is het vinden onder URL:<br />
http://www.w3.org/TR/REC-smil<br />
Hierbij moet evenwel worden aangetekend, dat de linguïsten Bird en Liberman in hun paper tot de (omzichtige)<br />
conclusie komen, dat de toekomst van SMIL onzeker is, en SMIL sowieso ongeschikt lijkt voor<br />
linguïstische annotatie (1999: 28). Dit zou betekenen, dat de gedetailleerde synchronisatie van de datastroom<br />
met <strong>een</strong> aantal tiers die CGN wenst binnen SMIL niet mogelijk is, slechts <strong>een</strong> grove specificatie van<br />
objecten die tegelijkertijd moeten worden vertoond.<br />
Een ander teken van convergentie op dit gebied is de evolutie van standaards die gespecificeerd worden<br />
door de internationale ISO/IEC MPEG-werkgroep (Moving Pictures Experts Group). Dit team omvat<br />
deelnemers uit de wereld van de omroepen, hardware- en softwarefabrikanten, telecombedrijven, uitgevers<br />
en academische onderzoeksinstellingen. Aanvankelijk beperkte de MPEG-groep zich tot het formuleren<br />
van standaards voor beeld- en geluidscompressie, -distributie en -decodering, inmiddels hebben zij zich ook<br />
toegelegd op de integrale beschrijving van natuurlijke en synthetische (door computer gegenereerde) beelden<br />
geluidsobjecten. De DDL (Description Definition Language), waarin de diverse mediaobjecten en hun<br />
onderlinge relaties zijn vastgelegd, is gebaseerd op het bovengenoemde XML-protocol.<br />
In het bewuste, laatste voorstel, MPEG-7, houdt men zich bezig met de definitie van <strong>een</strong> Multimedia<br />
content description interface. Hierin zijn temporele en spatiële referenties, die nodig zijn voor <strong>een</strong> vloeiende,<br />
zelfs real-time gebaseerde synchronisatie van beeld, geluid, tekst en andere multimedia geformaliseerd. Het<br />
sluit hiervoor aan bij het Real-Time Protocol (RTP). De relatie met XML impliceert dat de geïntegreerde<br />
data of de te associëren data niet op <strong>een</strong> fysiek locatie of systeem aanwezig hoeven te zijn, maar ook in <strong>een</strong><br />
gedistribueerde omgeving.<br />
De specificaties strekken zich uit tot het integreren van annotatielagen bij het beeld of geluid, zoals al dan<br />
niet automatisch genereerde transcripties, ondertiteling, geluidssporen, gebarentaal en achtergrondinformatie<br />
in diverse talen. MPEG-7 specificeert evenwel niet de methoden van informatie-extractie of retrieval, slechts<br />
de syntax waarin de objecten worden beschreven, hun relaties en <strong>een</strong> aantal min of meer standaardobjecten en<br />
-schemata (vergelijkbaar m.a.w. met de SGML- en TEI-standaards). Het uiteindelijke doel is multimediale<br />
databases op <strong>een</strong> uniforme manier toegankelijk te maken voor Internet-zoekmachines, op <strong>een</strong>zelfde manier<br />
als tekstuele dataverzamelingen momenteel ontsloten kunnen worden d.m.v. tekstgebaseerde zoekvragen<br />
en (sommige) meta-indexen. Een voorlopige versie van de standaard is gepland voor december 1999, <strong>een</strong><br />
definitieve versie voor juli 2001.<br />
Het MPEG-initiatief overlapt gedeeltelijk met de W3C-activiteiten, maar gaat ook <strong>een</strong> stap verder, daar<br />
W3C op dit terrein momenteel (mei 1999) minder actief lijkt te zijn (zie hierboven onder SMIL). In die zin<br />
mag wellicht meer verwacht worden van de MPEG-standaards dan SMIL en dergelijke.<br />
Informatie over deze standaard in wording is het vinden onder URL:<br />
http://www.cselt.it/mpeg/ (of: http://drogo.cselt.stet.it/mpeg/)<br />
27
Het moge duidelijk zijn, dat bij <strong>een</strong> project als het CGN, waarbij ook sprake is van multimediale data,<br />
en mogelijk verschillende wijzen van weergave en publicatie, het in ieder geval noodzakelijk is aansluiting<br />
bij internationale standaards als SGML, XML en MPEG te overwegen. Bovendien is het <strong>een</strong> hoopgevende<br />
ontwikkeling, dat er steeds meer dwarsverbanden aan te wijzen zijn tussen de diverse normalisatie-instituten.<br />
Zo heeft W3C zich niet all<strong>een</strong> in februari 1998 gecomitteerd aan de XML-standaard, maar wil het TEI (zie<br />
sectie 4.2.2) zijn codeerschema volledig gaan aanpassen aan XML. Dit hangt evenwel af van aanvullende<br />
financiering voor het TEI, die op dit moment nog hoogst onzeker is (E-mails C M Sperberg-McQu<strong>een</strong>, TEI-<br />
List, 10-2-98; LINGUIST List 9.1404, 9-10-1998). Het is uiteraard wel zaak <strong>een</strong> onderscheid te kunnen<br />
maken tussen de wezenlijke, breed gedragen initiatieven op dit vlak, en minder gestructureerde zijpaadjes<br />
en doodlopende steegjes.<br />
4.2.3 TEI<br />
Het Text Encoding Initiative is <strong>een</strong> internationaal consortium van wetenschappers, dat als doel heeft nadere<br />
specificaties van de SGML-code op te stellen voor het markeren van de structuur van bepaalde teksttypen,<br />
zoals gesproken teksten, woordenboeken en gedichten. Het doet vooral aanbevelingen voor codering t.b.v.<br />
de uitwisselbaarheid van teksten, maar omvat ook regels voor het samenvoegen van tekst met beeld en<br />
geluid in multimediale applicaties. De codeerschema’s beperken zich niet tot het weergeven van teksten in<br />
de oorspronkelijke vorm, die meestal als doel had de leesbaarheid en expressiviteit te ondersteunen, maar<br />
dienen ook voor het verrijken van de tekst met annotaties met het oog op onderzoek, zoals vertalingen van en<br />
glossen bij passages, voetnoten, pointers (hyperlinks) naar gerelateerde fragmenten, verschillende, parallelle<br />
versies van dezelfde tekst en grammaticale analyse.<br />
De aanbevelingen, Guidelines, werden in 1994 gepubliceerd na 6 jaar research, die gesponsord werd door<br />
<strong>een</strong> groot aantal internationale publieke instanties.<br />
Bij de TEI heeft ieder teksttype heeft zijn eigen DTD (Document Type Definition), die gezien kan worden<br />
als <strong>een</strong> sterk aanbevolen, doch meestal niet verplicht opgelegde grammatica, waaraan de voor presentatie of<br />
publicatie aangeleverde teksten moeten voldoen.<br />
Elke tekst heeft bovendien <strong>een</strong> eigen ’header’, die informatie geeft over de bijbehorende tekst. Deze omvat<br />
bibliografische informatie, zoals je die kunt aantreffen op de titelpagina van <strong>een</strong> boek, aanduidingen van de<br />
manier waarop de elektronische tekst conventies van de brontekst weergeeft (encoding), het tekstprofiel<br />
(aanmaakdatum, gebruikte taal, genre) en revisie-informatie (bij verschillende versies).<br />
Omdat de volledige reeks elementen, attributen en regels zich uitstrekt tot enige honderden codes, die<br />
gedocumenteerd zijn in 1300 pagina’s (sic) Guidelines, is er <strong>een</strong> subset gedefinieerd onder de naam TEI Lite,<br />
die de algemene labels voor alle teksttypen omvat. TEI Lite wordt nu toegepast als minimale codeerset bij<br />
het Oxford Text Archive en de Elektronische Tekstcentra van de Universiteiten van Virginia en Michigan.<br />
Voor het CGN-project zijn vooral de ’tags’ van belang voor gesproken corpora. Een beschrijving hiervan<br />
is te vinden in Sperberg-McQu<strong>een</strong> & Burnard (1994: 297-320). De basis-tagset voor spraak, die in dit<br />
hoofdstuk wordt voorgesteld, is samen met de ’core’ set en alle andere tekst-specifieke sets (m.a.w. de<br />
volledige DTD) kant-en-klaar op te halen op de ftp-site van het TEI onder URL:<br />
Middels <strong>een</strong> <strong>een</strong>voudige declaratie:<br />
ftp://ota.ox.ac.uk/pub/ota/TEI/dtd/p3dtds.tar.gz<br />
〈!ENTITY % TEI.spoken ’INCLUDE’ 〉<br />
kan hij worden opgenomen in de transcriptiefiles. Daarnaast zijn alle standaard-elementen van de ’core’ set<br />
voor alle teksttypes binnen de basiscodes automatisch toepasbaar, zoals 〈s〉 voor ’zins<strong>een</strong>heid’.<br />
Op <strong>een</strong> hoger niveau bevatten de TEI Guidelines ook mechanismen om tekstverzamelingen te coderen,<br />
die uit zeer divers bronmateriaal bestaan, maar niettemin <strong>een</strong> <strong>een</strong>heid vormen. Dit geldt bijvoorbeeld voor<br />
anthologieën, maar zeker ook voor corpora voor linguïstisch onderzoek zoals het CGN. Deze zijn beschreven in<br />
Sperberg-McQu<strong>een</strong> & Burnard (1994: 643-664). Een voorbeeld van <strong>een</strong> dergelijke ’composite text’ voorzien<br />
van TEI-tags is het volgende. Er is <strong>een</strong> algemene teiHeader-file met globale, onveranderlijke informatie over<br />
28
de complete tekstverzameling; daaronder in de hiërarchie bevinden zich individuele teiHeaders voor elke<br />
tekst die de verschillen tussen de teksten tot uitdrukking brengen:<br />
<br />
...<br />
<br />
<br />
<br />
... <br />
... <br />
<br />
<br />
... <br />
... <br />
<br />
<br />
<br />
De extra tag-set voor taalcorpora kan evenals de spoken base set worden aangeroepen vanuit de tekstfile,<br />
zowel vanuit de overkoepelende file van <strong>een</strong> tekstverzameling als vanuit de afzonderlijke teksten of samples.<br />
Het is in feite <strong>een</strong> extensie van het standaard-element 〈profileDesc〉.<br />
〈!ENTITY % TEI.corpus ’INCLUDE’ 〉<br />
Een context-vrije grammatica van alle voordefinieerde elementen die in het bijzonder van belang zijn voor<br />
spraak (samengesteld uit de ’spoken’, en ’corpus’ base sets en relevante delen van de teiHeader) is de volgende:<br />
29
teiHeader (= addtional header file for corpora, either for full corpus or individual texts)<br />
::= any(〈textDesc〉 〈particDesc〉 (= participants) 〈settingDesc〉 〈fileDesc〉<br />
〈encodingDesc〉)<br />
textDesc ::= any(〈channel ’mode’〉 〈constitution ’type 1 ’〉 〈derivation ’type 2 ’〉<br />
〈domain ’type 3 ’〉 〈factuality ’type 4 ’〉<br />
〈interaction any(’type 5 ’ ’active’ (participants) ’passive’ (participants))<br />
〈preparedness ’type 6 ’〉 〈purpose any(’type 7 ’ ’degree’)〉<br />
mode ::= ’s’(poken) | ’w’(ritten) | ’sw’ (= spoken to be written) | ’ws’ (= written to be spoken) |<br />
’m’(’ixed’) | ’x’ (= ’unknown’)<br />
type 1 ::= ’single’ | ’composite’ | ’frags’ | ’unknown’<br />
type 2 ::= ’original’ | ’revision’ | ’translation’ | ’abridgment’ | ’plariarism’ | ’traditional’<br />
type 3 ::= ’art’ | ’domestic’ | ’religious’ | ’business’ | ’education’ | ’govt’ | ’public’<br />
type 4 ::= ’fiction’ | ’fact’ | ’mixed’ | ’inapplicable’<br />
type 5 ::= ’none’ | ’partial’ | ’complete’ | ’inapplicable’<br />
active ::= ’singular’ | ’plural’ | ’corporate’ | ’unknown’<br />
passive ::= ’self’ (e.g. audio diary) | ’single’ | ’many’ | ’group’ | ’world’<br />
type 6 ::= ’none’ | ’scripted’ | ’formulaic’ | ’revised’<br />
type 7 ::= ’persuade’ | ’express’ | ’inform’ | ’entertain’<br />
degree ::= ’high’ | ’medium’ | ’low’ | ’unknown’<br />
particDesc ::= any((〈person〉 | 〈personGrp〉) 〈particLinks〉)<br />
person ::= DemoInfo<br />
personGrp ::= any(DemoInfo ’size’)<br />
DemoInfo ::= any(’role’ ’sex’ ’age’ 〈birth ’date’〉 〈firstLang〉 〈langKnown〉 〈residence〉<br />
〈education〉 〈affilation〉 〈occupation any(’scheme’ ’code’)〉<br />
〈socecStatus any(’scheme’ ’code’)〉)<br />
sex ::= ’m’ | ’f’ | ’u’<br />
particLinks ::= any(〈relation ’type 8 ’ ’desc’ ’active’ ’passive’ ’mutual’)〉<br />
type 8 ::= ’social’ | ’personal’ | ’other’<br />
mutual ::= ’y’ | ’n’<br />
settingDesc ::= any(〈setting ’who’〉 〈name ’type 9 ’〉 〈date ’value 1 ’〉 〈time ’value 2 ’〉 〈locale〉<br />
〈activity〉)<br />
fileDesc ::= any(〈scriptStmt〉 〈recordingStmt〉 〈recording ’type 9 ’ ’dur’〉<br />
〈equipment〉 〈broadcast〉)<br />
type 9 ::= ’audio’ | ’video’<br />
encodingDesc ::= any(〈projectDesc〉 〈samplingDecl〉 〈editorialDecl〉 〈tagsDecl〉 〈refsDecl〉<br />
〈classDecl〉 〈fsdDecl〉 (= feature system) 〈variantEncoding〉)<br />
30
SpokenText ::= 〈div any(’type 1 ’ ’org’ ’sample’ ’part’)〉<br />
type 1 ::= ’sound fragment’ | ’discussion’ | ’interview’ | ’...’<br />
org ::= ’composite’ (= unclear sequence) | ’uniform’ (= logical unit with clear sequence)<br />
sample ::= ’initial’ | ’medial’ | ’final’ | ’unknown’ | ’complete’<br />
part ::= ’y’ | ’n’ | ’i’(nitial) | ’m’(edial) | ’f’(inal) (i.e. whether division is fragmented or not)<br />
div ::= many(〈u(tterance) any(’who’ ’trans’(ition) ’timed’)〉 〈pause any(’who’ (’type 2 ’ |<br />
’dur’(ation)) ’timed’)〉<br />
〈vocal(ized, non-lexical event) any(’who’ ’desc’ ’iterated’ ’timed’)〉<br />
〈kinesic(= non-vocalized, communicative event) any(’who’ ’desc’ ’iterated’ ’timed’)〉<br />
〈event(= non-communicative event) any(’who’ ’desc’ ’iterated’ ’timed’)〉<br />
〈writing(= writing shown while speaking) any(’who’ ’gradual’ (= is writing revealed<br />
gradually?)<br />
’type 3 ’ ’timed’)〉 〈shift any(’feature’ ’new’)〉 EditChg SynchPoint)<br />
trans ::= ’smooth’ | ’latching’ | ’overlap’ | ’pause’<br />
type 2 ::= ’short’ | ’medium’ | ’long’<br />
dur ::= [123456789]+<br />
iterated ::= ’y’ | ’n’ | ’u’(nknown)<br />
gradual ::= ’y’ | ’n’ | ’u’(nknown)<br />
type 3 ::= ’subtitle’ | ’noticeboard’ | ’slide’ | ’...’<br />
timed ::= ’start’ | ’end’ | ’dur’<br />
feature 4 ::= ’tempo’ | ’loud’ | ’pitch’ | ’tension’ | ’rhythm’ | ’voice’<br />
tempo ::= ’a’ | ’aa’ | ’acc’ | ’l’ | ’ll’ | ’rall’<br />
loud ::= ’f’ | ’ff’ | ’cresc’ | ’p’ | ’pp’ | ’dimin’<br />
pitch ::= ’high’ | ’low’ | ’wide’ | ’narrow’ | ’asc’ | ’desc’ | ’monot’ | ’scand’<br />
tension ::= ’sl’ | ’lax’ | ’ten’ | ’pr’ | ’st’ | ’leg’<br />
rhythm ::= ’rh’ | ’arrh’ | ’spr’ | ’spf’ | ’glr’ | ’glf’<br />
voice ::= ’whisp’ | ’breath’ | ’husk’ | ’creak’ | ’fals’ | ’reson’ | ’giggle’ | ’laugh’ | ’trem’ | ’sob’ |<br />
’yawn’ | ’sigh’<br />
EditChg ::= any(〈sic (incorrect/inaccurate text) any(’corr’ ’resp’(onsible editor)<br />
’cert’(certainty))〉 〈corr any(’sic’(original form) ’resp’ ’cert’)〉<br />
〈reg(ularization) any(’orig’ ’resp’)〉 〈orig any(’reg’ ’resp’)〉<br />
〈gap any(’desc’ ’reason’ ’extent’ ’resp’)〉 〈unclear any(’reason’ ’resp’)〉<br />
〈del any(’type’ ’status’ ’resp’ ’hand’ ’cert’)〉 〈...〉)<br />
SynchPoint ::= 〈anchor any(’id’ ’synch’)〉 | 〈timeLine ’unit’〉<br />
timeLine ::= many(〈when any(’id’ ’absolute’ ’interval’ ’since’) 〉)<br />
Een voorbeeld van <strong>een</strong> gesproken fragment, waarin <strong>een</strong> aantal van deze codes is toegepast, is het volgende:<br />
you never take this cat for show\&sp;and\&sp;tell<br />
meow meow<br />
yeah well I dont want to<br />
<br />
<br />
because it is so old<br />
how about your\&stress; cat <br />
yours is new \&stress;<br />
<br />
thats darling<br />
no mine\&stress; isnt old<br />
mine is just um a little dirty<br />
Verder is in uitgebreide mogelijkheden voorzien voor synchronisatie van de transcriptie van overlappende<br />
spraak. Dat varieert van het simpele attribuut ’trans’ met waarde ’overlap’, via 〈anchor〉-elementen op<br />
31
epaalde plaatsen in de tekst tot precieze tijdsaanduidingen met het 〈timeLine〉-element. Deze elementen<br />
en attributen kunnen op talloze manieren worden toegepast. Aspecten van dit onderdeel van de TEI DTD<br />
zijn beschreven in Sperberg-McQu<strong>een</strong> & Burnard (1994: 313-317, 393-440).<br />
Het attribuut 〈trans〉 (overgang) is zeer <strong>een</strong>voudig toepasbaar, maar ook zeer onnauwkeurig (transcriptie<br />
uit het Speech Styles corpus, spreker id 12, door mij voorzien van TEI-tags):<br />
ik denk dat ut wel kan ik weet dat<br />
ut net .<br />
de twee minuten of zo . haalt ja <br />
ja ja <br />
ja ik wil wel verder gaan maar . <br />
Hierbij wordt het niet duidelijk op welk moment het ’ja ja’ overlapt met het commentaar van de interviewer.<br />
Dat gaat <strong>een</strong> stuk nauwkeuriger met behulp van het 〈anchor〉-mechanisme:<br />
ik denk dat ut wel kan ik weet dat<br />
ut net .<br />
de twee minuten of zo<br />
.<br />
haalt ja <br />
ja ja ja ik wil wel verder<br />
gaan maar . <br />
In dit geval is het duidelijk dat het ’ja ja’ samenvalt met de frase ’zo uh’ (de aarzeling) van de interviewer.<br />
Deze soort van synchronisatie is echter nog steeds geheel op de transcriptie gebaseerd, en zegt niets over de<br />
tijdsrelatie, m.a.w. hoe de fragmenten zich tot elkaar verhouden in het akoestisch signaal. Een methode die<br />
het TEI hiervoor aanreikt is het element 〈timeLine〉, hier met centi-seconden als tijds<strong>een</strong>heid:<br />
<br />
<br />
<br />
<br />
ik denk dat ut wel kan ik weet dat<br />
ut net .<br />
de twee minuten of zo<br />
.<br />
haalt ja <br />
ja ja ja ik wil wel<br />
verder gaan maar . <br />
Wat hier echter altijd nog ontbreekt is <strong>een</strong> daadwerkelijke link tussen de transcriptie en het oorspronkelijke<br />
signaal, aangezien iemand die de bovenstaande overlapping wil bestuderen op zoek moet gaan naar de tape<br />
of de audiofile en deze moet aftasten tot het gewenste moment is bereikt. Hiervoor kan <strong>een</strong> op het HyTimeprotocol<br />
gebaseerd link mechanisme dienen, dat gebruik maakt van extended pointers m.b.v. het element<br />
〈xptr〉:<br />
<br />
<br />
ik denk dat ut wel kan ik weet dat<br />
ut net .<br />
de twee minuten of zo<br />
.<br />
haalt ja <br />
ja ja ja ik wil wel<br />
verder gaan maar . <br />
32
De extra tag-set die dergelijke linking met andere files en media beregelt kan worden aangeroepen vanuit de<br />
documentfile met het commando:<br />
〈!ENTITY % TEI.linking ’INCLUDE’ 〉<br />
Een nadeel van de TEI-conventies is dat het slechts aanbevelingen zijn. Aan de ene kant wordt de codeur<br />
hierbij vrijgelaten om zijn eigen definities te hanteren, of de tagset uit te breiden, aan de andere kant betekent<br />
dit dat volgens de Guidelines b.v. de inhoud van het 〈vocal〉-element ook als gewone tekst kan worden<br />
beschouwd (b.v. de aarzeling ’uh’), dat i.p.v. &stress voor ’emfatische klemtoon’ ook 〈emph〉 gebruikt<br />
zou kunnen worden, dat het 〈trans〉-element ook vervangen kan worden door gedetailleerde synchronisatiesymbolen,<br />
dat voorgelezen spraak ook zou kunnen vallen onder de 〈writing〉-tag, of zelfs het 〈event〉 ’reading’,<br />
etc. Hiermee worden wel erg veel opties opengelaten.<br />
Het verdient daarom aanbeveling om bij het gebruik van de TEI-richtlijnen <strong>een</strong> gedetailleerd codeerprotocol<br />
op te stellen, en niet te vertrouwen op de <strong>een</strong>duidigheid van de TEI-codes. Dit protocol kan het best<br />
geïmplementeerd worden in <strong>een</strong> interactieve editor, zodat de codeur met<strong>een</strong> gewezen wordt op niet toegestane<br />
labels, en labels die in <strong>een</strong> verkeerde context (d.w.z. niet in de juiste hiërarchische relatie tot andere<br />
labels) worden gebruikt. Ook zal hij zo steeds all<strong>een</strong> die codes uit het menu kunnen kiezen, die relevant<br />
zijn voor de bepaalde editing context. Dit werkt beter dan controle achteraf. Een ander groot nadeel is de<br />
gedetailleerdheid van de aangeboden codes. Dit blijkt al uit de formulering door het consortium zelf van de<br />
TEI Lite set. Dit aspect wordt ook onderkend door de EAGLES-werkgroep:<br />
An annotation system such as that proposed by the Text Encoding Initiative is very elaborate and<br />
makes heavy demands on a transcriber, but also makes it possible to derive all relevant information<br />
from a transcription. While the TEI system makes use of SGML, which guarantees that existing<br />
software can be used, there is a large initial learning curve for the transcriber, which multiplies<br />
the possibility of human error in the transcription (Gibbon et al., 1997: 168).<br />
Daarom is het verstandig, om bij de grote hoeveelheid van elementen en attributen <strong>een</strong> onderverdeling te<br />
maken naar relevantie:<br />
verplicht code moet in elke transcriptie van opname of sample van opname aanwezig zijn.<br />
aanbevolen code aangeven als het praktisch uitvoerbaar is. Wanneer dat niet gaat, dan is <strong>een</strong> opmerking<br />
hierover verplicht. Deze codes zouden in <strong>een</strong> later stadium, indien er extra tijd of geld overschiet,<br />
alsnog moeten worden aangebracht.<br />
optioneel code all<strong>een</strong> aangeven als dit uitvoerbaar is. Het weglaten is niet zo belangrijk dat hierover <strong>een</strong><br />
notitie gemaakt moet worden.<br />
Deze strategie komt over<strong>een</strong> met het protocol van het SPEECHDAT-project (Gibbon et al., 1997: 825-<br />
834).<br />
Om juist het probleem van de zeer algemene toepasbaarheid van de TEI-aanbevelingen aan te pakken<br />
(waardoor de set aan de ene kant te uitgebreid is, en aan de andere kant niet specifiek genoeg voor bepaalde<br />
teksttypes), hebben onderzoekers die reeds werkzaam waren in de EAGLES-groep, het TEI, het Europese<br />
Multext-project en de afdeling Computer Science van Vassar College, USA (Nancy Ide c.s.) gezamenlijke<br />
stappen ondernomen om <strong>een</strong> minimale set regels op te stellen voor de structuur en annotatie van elektronische<br />
tekstcorpora voor taalkundig onderzoek. Dit staat bekend onder de naam Corpus Encoding Standard (CES).<br />
De aanbevelingen van de CES omvatten in aanzet zowel geschreven als gesproken corpora, en hebben ook<br />
betrekking op taalkundige annotatie met morfosyntactische codes, oplijning van parallelteksten, fonetische<br />
transcriptie, etc. De bedoeling is dat de voorstellen terugvloeien naar het TEI. De CES voorziet in verschillende,<br />
gescheiden niveaus van markering, waarvan het basisniveau (dat de tekststructuur weergeeft) de<br />
uitwisselbaarheid van de teksten tussen verschillende platforms en applicaties moet garanderen. Dit noemt<br />
de CES de primaire data, i.t.t. de taalkundige verrijking, die als supplementair wordt gezien. Volgens de<br />
Website van de CES:<br />
33
http://www.cs.vassar.edu/CES/<br />
zijn momenteel evenwel all<strong>een</strong> richtlijnen voorhanden voor krantenteksten.<br />
Ondanks het in velerlei opzicht nog schetsmatige karakter van de richtlijnen, is CES reeds toegepast in<br />
de Europese projecten Multext, Multext-East (Oost-Europa), PAROLE en TELRI. In de USA is onlangs<br />
besloten dit als standaard te gebruiken voor de TIPSTER-tekstcorpora. Een hernieuwde financiering moet<br />
de geconstateerde hiaten in teksttypen opvullen, en even<strong>een</strong>s de conversie van CES naar XML mogelijk<br />
maken (Nancy Ide, persoonlijke communicatie).<br />
4.2.4 EAGLES<br />
EAGLES (Expert Advisory Group on Language Engineering Standards) is <strong>een</strong> Europese adviesgroep die<br />
standaards definieert voor de opbouw en codering van tekstcorpora, computationele lexica en spraakcorpora,<br />
voor manipulatie en bewerking van deze bestanden met programmatuur, en voor het benaderen en evalueren<br />
van deze bestanden.<br />
Anders dan bij de hierboven genoemde, officieel vastgelegde internationale ISO-standaards, gaat het bij<br />
EAGLES net als bij het TEI niet om dwingend opgelegde criteria, maar eerder om volgens <strong>een</strong> breed forum<br />
van wetenschappers zeer nuttig geachte aanbevelingen. Immers,<br />
(...) spoken language technology is still a relatively young area and thus the so-called standards<br />
that are discussed here represent only the first rung of the ladder towards the more formal standards<br />
which might emerge at a later date. The use of the term “standards” in the R&D community and in<br />
the context of this handbook is more usefully interpreted in terms of guidelines and recommended<br />
practices. The emergence of more prescriptive actions such as professional codes of conduct, quality<br />
marks and formal standards still lies very much in the future (Gibbon et al., 1997: 6).<br />
Niettemin geldt voor EAGLES net als voor het TEI, dat de aanbevelingen in de praktijk hetzelfde gewicht<br />
kunnen hebben als ISO-standaards, aangezien bij het aanvragen van internationale projecten veelal<br />
aansluiting bij deze richtlijnen wordt geëist.<br />
Het EAGLES Handbook bevat aanbevelingen die soms erg algem<strong>een</strong> en voor de hand liggend zijn, en<br />
soms heel concreet. Dat eerste kan niet all<strong>een</strong> verklaard worden uit het gedeelde auteurschap en het onderliggende<br />
Europese consortium. Het heeft er zeker ook mee te maken dat gesproken corpora voor <strong>een</strong> veelheid<br />
aan doeleinden worden aangelegd, van b.v. veldopnames op Walkmans voor sociologisch onderzoek tot in<br />
<strong>een</strong> studio gemaakte, vrijwel geruisloze opnames van afasiepatiënten voor psycholinguïstische analyse. Er is<br />
m.a.w. veelal g<strong>een</strong> <strong>een</strong>duidige richtlijn te hanteren, hoogstens het advies van de best mogelijke organisatie<br />
en techniek gegeven de doeleinden. We zullen hierom niet alle aanbevelingen reproduceren over opnametechnieken,<br />
digitalisering van het signaal, wettelijke problemen, etc. In plaats daarvan concentreren we ons<br />
op <strong>een</strong> aantal hoofdpunten van belang voor de corpusopbouw en -annotatie.<br />
Bij de samenstelling van het corpus valt aan <strong>een</strong> aantal, min of meer duidelijk te onderscheiden tekstcategorieën<br />
te denken, op <strong>een</strong> schaal van zeer artificiële spraak tot de meest spontane spraak (Gibbon et al.,<br />
1997: 99-106):<br />
1. Voorgelezen fonemen, al dan niet in neutrale context (dat laatste is noodzakelijk bij niet-continuante<br />
klanken).<br />
2. Voorgelezen woorden in isolatie: lexicale woorden, dan wel fonotactisch correcte nonsenswoorden.<br />
3. Voorgelezen zinnen in isolatie. Dit varieert van woorden in <strong>een</strong> neutrale, steeds herhaalde ’carrier<br />
sentence’, zinnen met meer betekenisvolle, maar ongerelateerde inhoud, voorgedrukte antwoorden op<br />
even<strong>een</strong>s voorgedrukte vragen, tot fonetisch rijke zinnen (alle fonemen van de taal vertegenwoordigd)<br />
en fonetisch gebalanceerde zinnen (alle fonemen van de taal vertegenwoordigd in hun juiste frequentieverhouding).<br />
4. Voorgelezen tekstfragmenten, dus zinnen in contextuele samenhang.<br />
34
5. Semi-spontane spraak. Deze wordt op de <strong>een</strong> of andere manier geprompt met korte, gerichte vragen.<br />
Typische voorbeelden zijn het noemen van je geboortedatum, je adres, leeftijd, etc. Hierbij is al<br />
redelijke variatie mogelijk, zoals ’ik ben 23 jaar oud’, ’23’, ’23 jaar’, ’net 23’, etc.<br />
6. Spontane spraak over <strong>een</strong> afgesproken onderwerp. B.v. het navertellen van <strong>een</strong> verhaal, het beschrijven<br />
van <strong>een</strong> plaatje, maar ook dialogen waarbij de interviewer de discussie <strong>een</strong> bepaalde richting in stuurt.<br />
7. Gesimuleerde mens-machine dialoog (Wizard of Oz). Hierbij speelt <strong>een</strong> mens de rol van computer in<br />
<strong>een</strong> eerste testfase, om later <strong>een</strong> daadwerkelijk geautomatiseerd systeem te kunnen implementeren.<br />
8. Spontane spraak. Een wezenlijk probleem hierbij is, hoe men <strong>een</strong> situatie kan creëren, waarin de<br />
participant denkt dat hij niet wordt geobserveerd, of zijn uitingen niet worden opgenomen.<br />
• Gebruik verborgen microfoons. Nadelen: slechte opnamekwaliteit en toestemming van participanten<br />
moet achteraf worden gevraagd, met risico van weigering. Hierbij moet wel worden aangetekend,<br />
dat bij het British National Corpus slechts zeer weinig mensen toestemming achteraf<br />
weigerden, mits de opnames werden geanonimiseerd. Evenwel kan het feit dat het BNC slechts<br />
uit transcripties bestaat zonder het geluidssignaal hierop van invloed zijn geweest. EAGLES stelt<br />
daarom voor all<strong>een</strong> clandestiene opnames te maken als dit echt noodzakelijk is (Gibbon et al.,<br />
1997: 122).<br />
• Microfoon open zetten of laten staan buiten de aangekondigde opnametijd, b.v. bij introductiegesprek<br />
of evaluatie/informeel gesprek achteraf.<br />
• Vragen naar emotionele gebeurtenissen, vanuit de verwachting dat deze spraak de aanwezigheid<br />
van microfoon en interviewer doet vergeten.<br />
• Iemand uit de sociale kring van de participant erbij betrekken.<br />
• Adolescenten interviewen. Zij worden geacht nog niet zo goed hun spraak te kunnen formaliseren<br />
en te monitoren.<br />
Voordat met het opnameproces kan worden aangevangen, zal eerst <strong>een</strong> zo representatief dan wel zo gespreid<br />
mogelijke groep sprekers moeten worden aangetrokken. EAGLES reikt hiervoor <strong>een</strong> aantal aandachtspunten<br />
aan:<br />
Bepalen samenstelling van <strong>een</strong> breed geschakeerde groep participanten (Gibbon et al., 1977: 107-118). Stabiele<br />
variabelen:<br />
Demografische factoren geboorteplaats, woonplaats, opleidingsniveau, beroep, inkomen. Onderscheid<br />
moet worden gemaakt tussen geboorteplaats en plaats waar men opgegroeid is. De middelbare schoolperiode<br />
wordt hierbij als de uiteindelijk meest vormende periode gezien. Deze noteren. Het precieze<br />
onderscheid tussen de sociale klassen onderling is lastig vast te stellen. Geadviseerd wordt de grove<br />
indeling in: lagere, midden- en hogere klasse op grond van de factoren opleiding, werk en inkomen.<br />
Voor wat betreft allochtonen adviseert EAGLES slechts mensen met licht accent op te nemen.<br />
Geslacht man-vrouw. Geadviseerd wordt verhouding 50/50. Bij kinderen is dit veel minder van belang.<br />
Leeftijd stemkwaliteit verschilt van leeftijdsgroep tot leeftijdsgroep, maar niet met duidelijke scheidslijnen.<br />
Geadviseerd wordt te denken in termen van 3 categorieën: 0-20, 20-60 en 60+.<br />
Voor wat betreft vocabulaire en syntax, mag men veronderstellen dat de gespreksonderwerpen tussen<br />
ouderen en jongeren verschillen. Of dat echter van invloed is op het vocabulaire en de grammatica is<br />
niet duidelijk.<br />
Gewicht en grootte deze zijn kennelijk van invloed op de stemkwaliteit. Daarom noteren.<br />
Rook- en drinkgewoontes deze zijn kennelijk van invloed op de stemkwaliteit (schorheid/heesheid). Daarom<br />
noteren.<br />
35
Pathologische spraak EAGLES beveelt opname aan in algem<strong>een</strong> corpus, maar dat kan natuurlijk bepaalde<br />
normale fenomenen in zekere mate scheeftrekken. Een compromis kan zijn all<strong>een</strong> b.v. lichte<br />
pathologische spraak (schorheid, heesheid, fluisterstem) toe te laten. Aandachtsgebieden: fysiologische<br />
afwijkingen (gespleten gehemelte, hazenlip, ontbreken van tanden, verlammingen, afasie), fysiologischemotionele<br />
afwijkingen: stotteren, ’cluttering’.<br />
Getraind versus ongetraind men moet er rekening mee houden, dat veel TV- en radiosprekers, maar<br />
ook professionele sprekers (politici, zakenmensen) <strong>een</strong> spraaktraining achter de rug hebben, en daarom<br />
’overdreven correct’ kunnen articuleren.<br />
Het recruteren van sprekers die aan deze sprekerskenmerken moeten voldoen is <strong>een</strong> verhaal apart:<br />
Verzamelen contactadressen hierbij wordt <strong>een</strong> marketingbureau ingeschakeld om de adressen te leveren.<br />
De respons op dergelijke acties is ± 5% bij schriftelijke werving, 25% bij telefonische benadering, en<br />
50% bij huisbezoek.<br />
• Voordelen:<br />
– gecontroleerde demografische opbouw.<br />
– directe aanschrijving mogelijk.<br />
• Nadelen:<br />
– dure informatie met eigendomsrechten.<br />
– bereidwilligheid participanten niet gegeven.<br />
Openbare wervingsactie hierbij wordt <strong>een</strong> advertentie gezet of <strong>een</strong> oproep gedaan via radio, TV of Internet<br />
om zo veel mogelijk mensen te recruteren.<br />
• Voordelen:<br />
– relatief goedkoop.<br />
– hoge motivatie.<br />
– absoluut gezien veel respons.<br />
• Nadelen:<br />
– ongecontroleerde demografische opbouw.<br />
– hoge motivatie kan sample kleuren.<br />
– relatief gezien weinig respons (〈 1%)<br />
Hiërarchische wervingsactie hierbij worden mensen geworven, die weer andere mensen moeten bewegen<br />
deel te nemen. Dat kan binnen de organisatie waar de werver werkt, zijn vriendenkring, etc.<br />
• Voordelen:<br />
– relatief goedkoop.<br />
– gespreide wervingsactiviteit.<br />
• Nadelen:<br />
– ongecontroleerde demografische opbouw.<br />
– onduidelijke respons.<br />
Beloning wat voor wervingsmethode ook wordt gekozen, de respons kan flink toenemen als <strong>een</strong> beloning in<br />
het vooruitzicht wordt gesteld, of <strong>een</strong> kans op <strong>een</strong> prijs.<br />
Sprekergegevens naast de demografische gegevens moeten ook persoonsgebonden data worden geregistreerd<br />
als naam, adres, telefoonnummer en beschikbaarheid.<br />
36
Toestemming toestemming dient vooraf schriftelijk te worden gevraagd. Clandestiene opnames mogen<br />
all<strong>een</strong> met <strong>een</strong> zeer goede motivatie worden gemaakt, en achteraf moet schriftelijk toestemming worden<br />
geregeld. Het audiosignaal en de transcripten moeten worden geanonimiseerd (b.v. met piepjes op de<br />
tape, en met <strong>een</strong> spreker-identificatiecode in de transcripten).<br />
Voor wat betreft de transcriptie stelt EAGLES <strong>een</strong> annotatie op minstens drie niveaus voor:<br />
1. Orthografisch niveau.<br />
Op dit niveau worden de woorden beschouwd als lexicale <strong>een</strong>heden in hun standaardspelling, zodat<br />
verbinding met lexicale databanken en grammaticale tagging vergemakkelijkt worden.<br />
2. Ruwe fonetische transcriptie op grond van de uitspraak van het woord in isolatie.<br />
Dit is dan vaak <strong>een</strong> fonemische transcriptie gegenereerd door grafeem-foneem conversie of overgenomen<br />
uit <strong>een</strong> uitspraakwoordenboek. Dit kan gebeuren op basis van <strong>een</strong> lijst met alle unieke woorden in <strong>een</strong><br />
tekst. Dit is <strong>een</strong> stuk efficiënter bij automatische annotatie en opslag, en kan ook dienen als referentie<br />
voor handmatige controle.<br />
3. Gedetailleerde fonetische transcriptie, waarbij aandacht wordt besteed aan clitisering en reductie.<br />
Dit moet bij grotere corpora dan wel (gedeeltelijk) geautomatiseerd worden, omdat de procedure zo<br />
duur is. Prosodische en paralinguïstische informatie zou zeker moeten worden aangegeven op dit niveau<br />
(Gibbon et al., 1997: 84-86).<br />
Er kan echter nog verder onderscheid tussen de diverse niveaus worden aangebracht; ook kunnen er nog<br />
dimensies aan worden toegevoegd, zoals blijkt uit het volledige overzicht, dat samen met <strong>een</strong> aantal aanbevelingen<br />
hieronder wordt gepresenteerd (Gibbon et al., 1997: 155-172):<br />
1. Opnamescript (bij voorgelezen spraak).<br />
Dit ontslaat de maker van het corpus overigens in de meeste gevallen niet van het maken van <strong>een</strong> transcriptie<br />
waarin voorleesfouten (aarzelingen, valse starts, uitspraakfouten, substituties) worden aangegeven.<br />
Denk ook aan paralinguïstische verschijnselen zoals gevocaliseerde pauzes, hoesten, krakende<br />
stoelen, etc.<br />
2. Orthografische transcriptie (ook: transliteratie).<br />
Dit veronderstelt in zekere mate aanpassing aan de standaardspelling. Projecten verschillen erg in<br />
de mate waarin ze transliteratie in de zin van fonetische spelling toestaan. EAGLES beveelt aan,<br />
om op dit niveau zoveel mogelijk de standaardspelling aan te houden. Eerst zou de standaard orthografische<br />
transcriptie vervaardigd moeten worden, om pas later de prosodische, ’performance’ en<br />
paralinguïstische verschijnselen aan te geven in <strong>een</strong> extra ronde. Dit komt over<strong>een</strong> met het protocol van<br />
het SPEECHDAT-project (Gibbon et al., 1997: 825-834). De orthografische transcriptie kan eventueel<br />
door niet-taalkundig geschoolden gebeuren, b.v. <strong>een</strong> extern bureau. Dit geldt uiteraard niet voor de<br />
andere, hierna volgende niveaus.<br />
Qua tijdsplanning valt de volgende vuistregel aan te houden:<br />
Orthografische transcriptie voorgelezen zinnen 3 x duur signaal<br />
Orthografische transcriptie voorgelezen tekst 5 x duur signaal<br />
Orthografische transcriptie spontane spraak 10 x duur signaal<br />
Controle is noodzakelijk. Minstens moet <strong>een</strong> tweede transcribeur naar het signaal luisteren met de<br />
transcriptie voor zich. Dat kan dan het best in de omgekeerde volgorde: de transcriptiestijl is het<br />
meest consistent aan het einde.<br />
Een aantal probleemgevallen bij de orthografische transcriptie:<br />
37
• Gereduceerde woordvormen.<br />
Vaak wordt als criterium gehanteerd, dat ze in het woordenboek moeten voorkomen om aangegeven<br />
te kunnen worden. Er is dan vaak <strong>een</strong> conventionele spelling, b.v. voor ”zo’n”, ”d’r”, ïe”.<br />
Maar er zijn vaak verschillende spellingen mogelijk voor één vorm, en de lijst in het woordenboek<br />
kan arbitrair zijn. Daarom wordt gepleit te letten op frequentie van voorkomen en het criterium<br />
van gereduceerd aantal syllaben. Zowel voor de transcribeurs als voor de latere gebruikers moet<br />
er <strong>een</strong> complete lijst met deze woorden en hun schrijfwijze beschikbaar zijn.<br />
• Dialectwoorden.<br />
Het criterium kan zijn, dat het niet in het woordenboek staat, of met <strong>een</strong> aanduiding ’dialect’.<br />
Dit op de <strong>een</strong> of andere wijze weergeven, b.v. ’krek’〈dia〉, ’sakkers’〈dia〉.<br />
• Getallen.<br />
Deze uitschrijven zoals ze uitgesproken worden.<br />
• Afkortingen.<br />
Deze uitschrijven zoals ze uitgesproken worden.<br />
• Lettersequenties (b.v. in afkortingen, initialen, postcodes).<br />
In hoofdletters los van elkaar uitschrijven, uiteraard all<strong>een</strong> als ze ook los worden uitgesproken.<br />
• Tussenwerpsels.<br />
Zelfde criterium als bij gereduceerde vormen: kiezen voor standaardspelling indien voorhanden;<br />
lijst aanleggen met wijzigingen/variatie/toegevoegde woorden.<br />
• Weggelaten woorden.<br />
Twijfelgeval, omdat het hierbij moeilijk is vast te stellen of de spreker inderdaad dit woord in<br />
gedachten had.<br />
• Zelfreparaties van woorden.<br />
Dit gaat om complete woorden die impliciet of expliciet gecorrigeerd worden.<br />
• Zelfreparaties van woordfragmenten.<br />
Hierbij wordt al na <strong>een</strong> deel van het foutieve woord het correcte woord uitgesproken.<br />
• Onverstaanbare woorden of woorddelen.<br />
• Aarzelingen en gevocaliseerde pauzes.<br />
• Niet-verbale vocale en niet-vocale klanken.<br />
Deze zouden moeten worden opgenomen bij het relevante uiting(en).<br />
• Simultane spraak.<br />
• Sprekerwisselingen.<br />
3. Morfologische, syntactische, semantische en pragmatische representatie.<br />
4. Fonemische representatie (van de citation form).<br />
Hiervoor is de standaard in Europa SAMPA (Speech Assessment Phonetic Alphabet) (b.v. voor het<br />
project VERBMOBIL). Voor SAMPA, zie de URL:<br />
http://www.phon.ucl.ac.uk/home/sampa/home.htm<br />
Een nadeel hiervan is, dat de 7-bits codering all<strong>een</strong> maar <strong>een</strong> subset van het volledige IPA-alfabet<br />
toestaat, omdat de set binnen de 128 karakters moet blijven. Dit hoeft echter voor <strong>een</strong> monolinguaal<br />
corpus g<strong>een</strong> probleem te zijn, omdat per taal voor <strong>een</strong> fonemische transcriptie 128 posities (effectief,<br />
minus de controlkarakters, 95) meer dan voldoende zijn. Voor het Nederlands zijn er 47 symbolen<br />
beschikbaar, inclusief marginale fonemen. Dit laat nog genoeg ruimte over voor <strong>een</strong> set prosodische<br />
symbolen (klemtoon, toonhoogte, pauzes, grenzen), die ook gedefinieerd zijn in <strong>een</strong> additionele set onder<br />
de naam SAMPROSA (SAM PROSodic Alphabet). SAMPA heeft dan ook all<strong>een</strong> de pretentie iets te<br />
zeggen over intra-linguale opposities tussen fonemen, niet over inter-linguale opposities of equivalenties<br />
van deze klanken (Gibbon et al., 1997: 728). Een alternatief is het meer uitgebreide fonetische alfabet<br />
van Unicode, dat reeds onder het hoofdstuk XML (zie sectie 4.2.1) is besproken.<br />
38
5. Ruwe fonetische transcriptie (ook: fonotypische transcriptie).<br />
Op dit niveau wordt assimilatie, reductie, insertie of deletie weergegeven, maar dan all<strong>een</strong> voor zover<br />
het het fonemisch domein betreft, dus b.v. wel de labialisatie van de /n/ in ’schoenborstel’ en de deletie<br />
van de /t/ in ’kastplank’, maar niet aspiratie van plosieven, of palatalisatie/velarisatie van de /l/. Dit<br />
kan automatisch met regels worden afgeleid, en/of met de hand.<br />
6. Nauwkeurige fonetische transcriptie.<br />
Dit geeft meer gedetailleerde informatie dan het fonemisch niveau, zoals allofonen, glottisslagen, nasalisatie.<br />
Het kan all<strong>een</strong> handmatig worden gecodeerd, en onder nauwkeurige bestudering van het<br />
geluidssignaal, veelal in combinatie met oscillogrammen en spectrogrammen. Vanaf dit niveau wordt<br />
codering eigenlijk ondoenlijk, tenzij voor deelcorpora of met <strong>een</strong> bepaald doel voor ogen (b.v. logopedische<br />
tests bij nasale spraak).<br />
7. Akoestisch-fonetische transcriptie.<br />
Dit gebeurt geheel op grond van akoestische informatie uit oscillo- en spectrogrammen. Dit is uiteraard<br />
zeer arbeidsintensief, en daarmee niet geschikt voor grote corpora voor algem<strong>een</strong> gebruik.<br />
8. Fysische transcriptie.<br />
Het meest volledige niveau waarop gegevens kunnen worden verzameld, b.v. luchtstroommetingen,<br />
laryngogrammen, resonantiemetingen, etc. Dit is uiteraard zeer arbeidsintensief, en daarmee niet<br />
geschikt voor grote corpora voor algem<strong>een</strong> gebruik.<br />
9. Prosodische transcriptie.<br />
Dit betreft, in tegenstelling tot de vorige niveaus, het suprasegmentele niveau, dus op het niveau van<br />
intonatiecontouren, emfatische klemtoon, tempo- en ritmewisselingen, etc. Een aantal systemen en<br />
protocollen zijn hiervoor voorhanden, gebaseerd op metingen van de grondtoon (stijging-daling), al<br />
dan niet in relatie tot de mate van begrenzing tussen toongroepen (intonatiefrasen). Hieronder vallen<br />
de codeersystemen ToBI (Silverman et al., 1993), de IPO-benadering (’t Hart et al., 1990), en die van<br />
de corpora MARSEC (Roach et al., 1993) en VERBMOBIL (Kohler et al., 1995).<br />
Het idee van verschillende codeerrondes is op <strong>een</strong> iets andere manier vormgegeven in het MARSEC-corpus.<br />
Hierin werd de orthografische transcriptie opgedeeld in <strong>een</strong> pure transliteratie zonder aandacht voor de spellingconventies<br />
van geschreven taal, gevolgd door <strong>een</strong> ronde, waarbij wel standaard-interpunctie en hoofdletters<br />
werden toegepast:<br />
”The unpunctuated transcriptions were made using the spoken recordings. The text was typed<br />
directly on to computer, and it was at this point that unacceptable text was noted, and replaced<br />
by a comment in the transcription, for example [speech extract omitted]. Speaker details were<br />
also included in comments, for example [change of speaker: speaker name]. No word-initial capitals<br />
are used apart from those in proper names and abbreviations, thus no indication of start<br />
of sentence is given in this format of text. (...) The unpunctuated transcription was used in the<br />
production of the punctuated transcriptions and the prosodic transcriptions. These versions were<br />
made independently, so that neither influenced the other, i.e. the punctuated version was made<br />
independently of any prosodic information, and the prosodic version was made without any cues<br />
from punctuation. The only way to ensure this was to have the unpunctuated transcription as<br />
the starting point for both of these versions. (...) The volunteer punctuator was asked to insert<br />
punctuation at appropriate points in the text without access to the spoken recording. As an aid,<br />
a handbook on punctuation conventions was provided. (Knowles et al., 1996: 22-23).<br />
Buiten deze dimensies is nog commentaar mogelijk op elk van deze niveaus. EAGLES raadt aan om transcribeurs<br />
notities te laten maken over verschillende aspecten van de aard en kwaliteit van de opnames op <strong>een</strong><br />
vijfpuntsschaal (zoals bij het SWITCHBOARD corpus): moeilijkheidsgraad, natuurlijkheid, echo, statische<br />
ruis, etc.<br />
Inmiddels is er na afsluiting van EAGLES <strong>een</strong> vervolgproject gestart, dat zowel <strong>een</strong> verdere specificatie<br />
van de annotatielagen beoogt, als het bouwen van tools om die annotatie op <strong>een</strong> efficiënte manier aan te<br />
39
engen, te manipuleren en tevens zoekvragen (ook met het oog op de eindgebruiker) te ondersteunen. Dit<br />
is het MATE-project, dat specifiek gericht is op gesproken taal in dialoogvorm. Aangezien hierbinnen ook<br />
protocollen worden opgesteld voor het gedistribueerd werken aan en met dergelijke corpora volgens open<br />
standaards als WWW en Java, wordt ook ingespeeld op de eerder beschreven ontwikkeling naar applicatieonafhankelijke<br />
integratielagen, gebaseerd op SGML en XML.<br />
Zie voor <strong>een</strong> beschrijving van MATE:<br />
http://www.linglink.lu/le/projects/mate/index.html<br />
4.3 Het Ontstaan van Internationale Datacollecties<br />
4.3.1 De EUROM1 databank<br />
Dit is <strong>een</strong> Europees initiatief om platform-onafhankelijke, uniform gecodeerde en ontsloten gesproken taalcorpora<br />
(met slechts voorgelezen spraak) samen te stellen voor alle Europese talen. Het maakt gebruik<br />
van de in Europa erkende SAMPA transcriptiestandaard (ESPRIT SAM 2589). Het is vooral geschikt voor<br />
industriële toepassingen.<br />
Gegevens:<br />
• Omvang:<br />
– types: ?<br />
– tokens: ?<br />
• Samenstelling (teksttypes): 100 voorgelezen getallen, 60-100 CVC-patronen, 10 woorden in isolatie, 50<br />
zinnen en 40 alinea’s van 5 zinnen.<br />
• Sprekergegevens: 60 sprekers per taal. De vertegenwoordigde talen zijn Brits Engels, D<strong>een</strong>s, Duits,<br />
Frans, Grieks, Italiaans, Nederlands, Noors, Portugees, Spaans, en Zweeds. 30 mannelijke en 30<br />
vrouwelijke sprekers per taal, alle tussen de 20 en 60 jaar.<br />
• Opnamedatum: ? (staat in labelfile, voorbeelden melden 1989-1990).<br />
• Opnameduur: ± 12 uur per taal.<br />
• Annotatieschema:<br />
– gehanteerde standaard: SAMPA.<br />
– geclitiseerde en andere niet-standaard vormen: ?<br />
– sprekerwisseling, behandeling overlap: n.v.t.<br />
– behandeling bij- en achtergrondgeluiden: n.v.t. (opname in akoestisch dode (anechoic) ruimte).<br />
– gehanteerde interpunctie: n.v.t.<br />
• Annotatieniveaus: deels laryngogrammen, en oorspronkelijke voor te lezen tekst in ASCII. Daarnaast<br />
beschrijvende (label) files met zeer uitgebreide informatie (filetype, filenaam, sampling rate, opnamedatum<br />
en -tijd, aantal bytes per sample, aantal kanalen, sprekergegevens (moedertaal, geslacht, leeftijd),<br />
protocol, versie, begin- en eindcode).<br />
• Status privacy informanten: geanonimiseerd.<br />
• Copyright: ELRA?<br />
• Beschikbaarheid opnames: ja, via ELRA. In de praktijk blijken er grote problemen vanwege de fijnafstemming<br />
tussen alle Europese partners, het gedeelde auteursrecht, en copyright op het GERSONSdatabasesysteem,<br />
dat berust bij het bedrijf ICP. Momenteel zijn all<strong>een</strong> Italiaanse data beschikbaar bij<br />
ELRA.<br />
40
– geluidsdrager: CD-ROM.<br />
– opnametechniek: samplefrequentie 20 kHz, 16-bits A/D-conversie. Opnames met condensatormicrofoon<br />
in akoestisch dode ruimte.<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ja, spraakfiles en ASCII-files met voor te lezen tekst. Er is tevens <strong>een</strong><br />
databasesysteem beschikbaar voor PC onder de naam GERSONS, waarbinnen de data bevraagd<br />
kunnen worden.<br />
– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />
4.3.2 Het European Corpus Initiative (ECI)<br />
Het European Corpus Initiative (ECI) betreft <strong>een</strong> project uit 1992 om <strong>een</strong> multi-linguaal, algem<strong>een</strong> toegankelijk<br />
tekstcorpus op te bouwen. De CD van dit project bevat, voor het <strong>Nederlandse</strong> deel, naast artikelen uit<br />
de Groninger Universiteitskrant, De Limburger, Onze Taal en <strong>een</strong> nogal merkwaardige reeks citaten (kennelijk<br />
t.b.v. lexicografen), <strong>een</strong> aantal teksten die met enige goede wil gezien kunnen worden als weergaves van<br />
gesproken taal: scripts van het journaal, jeugdjournaal (beide oktober-december 1990, heel 1991, en januari<br />
tot juni 1992) en troonredes (1970-1986/88). Dit zijn dus g<strong>een</strong> transcripten, maar geschreven teksten, bedoeld<br />
om zo voorgelezen te worden. Hiermee valt het ECI-corpus in de traditie van het Engelse MARSEC<br />
en het Vlaamse ANNO-materiaal. Er zijn verschillen tussen de scripts en daadwerkelijk uitgesproken teksten.<br />
De bandopnames zijn helaas niet voorhanden, en er is derhalve g<strong>een</strong> koppeling tussen audiosignaal en<br />
tekst mogelijk, tenzij deze nog beschikbaar zijn bij de NOS. De CD-ROM is te verkrijgen bij het Europese<br />
consortium ELRA. Vervolgprojecten van ECI zijn o.a. Multext (Multilingual Text Tools and <strong>Corpora</strong>) en<br />
RELATOR (Distributed European Linguistic Resources Repository).<br />
Gegevens:<br />
• Omvang:<br />
– types: 42.148 (NOS-journaal), 22.246 (Jeugdjournaal), 4.602 (troonrede).<br />
– tokens: 1.096.725 (NOS-journaal) 478.172 (Jeugdjournaal), 36.288 (troonrede).<br />
• Samenstelling (teksttypes): voor te lezen teksten.<br />
• Sprekergegevens: nee.<br />
• Opnamedatum: oktober-december 1990, heel 1991, en januari tot juni 1992 (NOS-journaal en Jeugdjournaal),<br />
september 1970-1986 en 1988 (troonrede).<br />
• Opnameduur: ?<br />
• Annotatieschema:<br />
– gehanteerde standaard: TEI-conformant SGML.<br />
– geclitiseerde en andere niet-standaard vormen: ja (’t, ’n, is-ie, dat-ie), als leidraad voor het<br />
voorlezen.<br />
– sprekerwisseling, behandeling overlap: n.v.t.<br />
– behandeling bij- en achtergrondgeluiden: n.v.t.<br />
– gehanteerde interpunctie: orthografische interpretatie.<br />
• Annotatieniveaus: orthografie, SGML op aparte regels voor gemakkelijke uitfiltering.<br />
• Status privacy informanten: openbaar. Dit geldt echter niet voor alle gewenste biografische informatie<br />
(Van de Velde, 1996: 22).<br />
• Copyright: NOS (?)<br />
41
• Beschikbaarheid opnames: wellicht bij NOS.<br />
– geluidsdrager: ?<br />
– opnametechniek: ?<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ja, ASCII computerfiles met script en SGML-annotaties:<br />
∗ dut02a0[1-8].eci ≫ NOS-journaal.<br />
∗ dut02b.eci ≫ troonredes.<br />
∗ dut02c0[1-3].eci ≫ Jeugdjournaal.<br />
– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />
4.3.3 Het Multilingual Parallel Corpus (MLCC)<br />
Dit betreft <strong>een</strong> meertalig parallel corpus in de 9 officiële talen van de Europese Unie: D<strong>een</strong>s, Duits, Engels,<br />
Frans, Grieks, Italiaans, Nederlands, Portugees en Spaans. Het deel Beantwoording van schriftelijke vragen is<br />
voor het CGN niet relevant, maar het deel Debatten van het Europees Parlement bevat transcripties, waarbij<br />
aangegeven is of weergave van het gezegde in de oorspronkelijke taal is opgenomen, of <strong>een</strong> vertaling betreft.<br />
Op deze manier zijn de delen te isoleren, die <strong>een</strong> (gestandaardiseerde, g<strong>een</strong> clitica bevattende) transcriptie<br />
betreffen van het Nederlands. De codering is SGML-conformant. Voorbeeld:<br />
<strong>Nederlandse</strong> spreker in Nederlands subcorpus:<br />
〈speaker〉Wijsenbeek 〈party〉(LDR)〈/party〉. -〈/speaker〉 Mevrouw de Voorzitter, het betreft de<br />
wijze waarop deze vergadering georganiseerd is, dus artikel 19 van het Reglement.<br />
Niet-<strong>Nederlandse</strong>, in dit geval Engelse spreker in het Nederlands subcorpus:<br />
〈speaker〉Andrews 〈party〉(RDE)〈/party〉. -〈language〉(EN)〈/language>
<strong>Gesproken</strong> teksten (300) Dialoog (180) Privé (100) directe conversatie (90)<br />
telefoongesprekken (10)<br />
Publiek (80) klassikaal onderricht (20)<br />
radio/TV discussies (20)<br />
radio/TV interviews (10)<br />
politieke debatten (10)<br />
gerechtelijke verhoren (10)<br />
zakentransacties (10)<br />
Monoloog (120) ’Unscripted’ (70) spontaan commentaar (20)<br />
toespraken (30)<br />
demonstraties (10)<br />
gerechtelijke toespraken (10)<br />
’Scripted’ (50) radio/tv nieuws (20)<br />
radio/tv commentaar (20)<br />
toespraken (niet voor radio of tv) (20)<br />
Tabel 1: Teksttypen onderscheiden in het gesproken deel van ICE<br />
• Samenstelling (teksttypes): 200 geschreven en 300 gesproken tekstdelen van elk ± 2.000 woorden per<br />
taalvariëteit. De precieze tekstsamenstelling van het gesproken deel is te vinden in Tabel 1.<br />
• Sprekergegevens: sprekers en schrijvers van 18 jaar en ouder met <strong>een</strong> Engelstalige opleiding, die ofwel<br />
geboren zijn in het onderzochte land, ofwel hier jong naartoe zijn verhuisd. Verschillende leeftijdsgroepen<br />
met diverse sociaal-economische status, waarbij evenwel niet is gepoogd alle groepen precies<br />
tegenover elkaar te balanceren.<br />
• Opnamedatum: 1990-1996. Ook alle geschreven teksten stammen uit deze periode.<br />
• Opnameduur: 70 uur per taalvariëteit (gebaseerd op het Britse deel).<br />
• Annotatieschema:<br />
– gehanteerde standaard: SGML-conformant voor tekststructuur (in de zin van tags tussen vissenhaken<br />
met eindsymbolen); TOSCA (taalkundige en redekundige ontleding).<br />
– geclitiseerde en andere niet-standaard vormen: ja, voor zover geschreven standaard-equivalent<br />
bestaat (“he’ll”, “can’t”, “it’s”).<br />
– sprekerwisseling, behandeling overlap: ja, beide.<br />
– behandeling bij- en achtergrondgeluiden: nee.<br />
– gehanteerde interpunctie: ja, orthografische interpretatie.<br />
• Annotatieniveaus: orthografische transcriptie met pauzes, herhalingen, zelfcorrecties, valse starts en<br />
aarzelingen. Alle ’disfluencies’ zijn genormaliseerd, evenwel met behoud van de oorspronkelijke uitingen.<br />
Paralinguïstische kenmerken aangegeven. Syntactische analyse (tagging en parsing) met TOSCAprogrammatuur<br />
van de Nijmeegse vakgroep Taal & Spraak. Het Amerikaanse deel wordt verrijkt met<br />
<strong>een</strong> prosodische transcriptie.<br />
• Status privacy informanten: geanonimiseerd in transcript.<br />
• Copyright: ICE. Het corpus is uitsluitend verkrijgbaar voor non-profit gebruik voor ong. 900 gulden.<br />
Een multi-user licentie kost ongeveer 1500 gulden.<br />
43
• Beschikbaarheid opnames: nu nog niet. Digitalisering in uitvoering.<br />
– geluidsdrager: oorspronkelijk analoge tapes. Later distributie op CD-ROM.<br />
– opnametechniek: ?<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ja.<br />
– relatie signaal-transcriptie (volledigheid-koppeling): in uitvoering.<br />
Alle gegevens zijn elektronisch beschikbaar, en kunnen dankzij de ICECUP user interface (het ICE Corpus<br />
Utility Program) uitgebreid gemanipuleerd worden, b.v. tot <strong>een</strong> concordantie op woord- of tagniveau, of<br />
beide gecombineerd, of tot grammaticale boomstructuren in horizontale of verticale oriëntatie. Daarnaast<br />
kan worden gezocht op hiërarchische of andersoortige relaties in de boomstructuren (b.v. alle onderwerpen<br />
gerealiseerd door <strong>een</strong> zelfstandig-naamwoordgroep die twee op<strong>een</strong>volgende bijvoeglijke naamwoorden bevat).<br />
Ook zijn zoekacties mogelijk op teksttype en biografische gegevens van de schrijver of spreker, zoals leeftijd en<br />
sociaal-economische klasse. Er wordt momenteel gewerkt aan ’fuzzy matching’ op in <strong>een</strong> editor gespecificeerde<br />
patronen, die het leren van bepaalde zoekalgoritmes overbodig moet maken.<br />
Voor verdere informatie zie de Website van ICE onder URL:<br />
4.3.5 Het British National Corpus<br />
http://www.ucl.ac.uk/english-usage/<br />
Aan het project British National Corpus (BNC) werd door de volgende partners deelgenomen:<br />
• 3 woordenboekuitgevers (Chambers Harrap, Longman, Oxford University Press).<br />
• 2 universiteiten (Oxford en Lancaster).<br />
• 1 publieke dienstverlener (British Library).<br />
Het BNC-project kende <strong>een</strong> aantal uitgangspunten, die vooraf waren vastgelegd, en waaraan niet getornd<br />
mocht worden. Het BNC kan zo omschreven worden als:<br />
• <strong>een</strong> corpus van steekproeven van taaluitingen (samples), elk niet of nauwelijks groter dan 45.000 tokens.<br />
• <strong>een</strong> synchroon corpus, met fictie uit 1960-1993, non-fictie uit 1975-1993.<br />
• <strong>een</strong> algem<strong>een</strong> corpus, d.w.z. niet specialistisch in samenstelling of doelgroep.<br />
• <strong>een</strong> monolinguaal corpus, d.w.z. uitsluitend Brits Engels.<br />
• <strong>een</strong> gemengd corpus, d.w.z. zowel bestaand uit het geschreven als gesproken medium (Burnard, 1995:<br />
5-6).<br />
Het corpus telt 100 miljoen tokens, waarvan 10 miljoen gesproken. Dit komt over<strong>een</strong> met 700 uur spraakopnames<br />
(niet duidelijk is voor of na editing). Meer dan 4 miljoen tokens van de 10 waren geheel spontane<br />
spraak, d.w.z. 40%.<br />
Binnen het gesproken corpus van het BNC is onderscheid te maken tussen twee wijzen van sampling:<br />
• demografisch gemotiveerde steekproef (gepland 5% van de 100 miljoen tokens, in de praktijk 4,2%),<br />
nl. informanten met draagbare opnameapparatuur (Walkmans).<br />
• linguïstisch gemotiveerde steekproef (’context-governed’) (gepland 5% van de 100 miljoen tokens, in de<br />
praktijk 6,1%) (zie onderstaande tabel (Tabel 2) voor onderverdeling laatste categorie).<br />
44
1. Educatief en informatief 25%<br />
- monoloog (asymmetrisch) 40%<br />
- colleges, voordrachten en lezingen<br />
- nieuwsberichten en actualiteiten<br />
- dialoog (symmetrisch) 60%<br />
- klassikaal en individueel onderricht<br />
2. Zakelijk 25%<br />
- monoloog 40%<br />
- zakelijke presentaties<br />
- productdemonstraties<br />
- dialoog 60%<br />
- zakelijke gesprekken<br />
- vergaderingen<br />
- consults<br />
3. Openbaar en institutioneel 25%<br />
- monoloog 40%<br />
- politieke toespraken<br />
- preken<br />
- dialoog 60%<br />
- vergaderingen<br />
- politieke debatten<br />
- rechtszaken<br />
4. Recreatief 25%<br />
- monoloog 40%<br />
- toespraken en voordrachten<br />
- sportverslagen<br />
- dialoog 60%<br />
- praatprogramma’s<br />
- vergaderingen<br />
Tabel 2: Teksttypen onderscheiden in linguïstisch gemotiveerd deel gesproken BNC<br />
45
De exacte gegevens van het gesproken deel van het BNC kunnen als volgt schematisch worden weergeven:<br />
Gegevens:<br />
• Omvang:<br />
– types: ?<br />
– tokens:<br />
∗ 6,15 miljoen (linguïstisch gemotiveerd).<br />
∗ 4,21 miljoen (demografisch gesampled).<br />
• Samenstelling (teksttypes):<br />
– 762 linguïstisch gemotiveerde teksten, tot 200.000 tokens per type monoloog, tot 300.000 tokens<br />
per type dialoog (zie Tabel 2).<br />
– 153 demografisch gesamplede teksten.<br />
• Sprekergegevens: 153 informanten (inclusief ongeveer 30 tieners) voor het demografisch gedeelte, geselecteerd<br />
op grond van <strong>een</strong> willekeurige, gebalanceerde steekproef per regio (uit heel het Verenigd<br />
Koninkrijk), leeftijd, geslacht en sociaal-economische klasse. Met gesprekspartners erbij waren meer<br />
dan 1000 deelnemers te onderscheiden. De informanten zijn in het corpus aangegeven als 〈role=resp〉<br />
(respondent), terwijl 〈role=other〉 wordt gebruikt voor de gesprekspartners. Naast role zijn verplichte<br />
persoonsgegevens:<br />
geslacht m(ale), f(emale) of u(nknown).<br />
leeftijd 0 tot 15 jaar.<br />
1 15 tot 24 jaar.<br />
2 25 tot 34 jaar.<br />
3 35 tot 44 jaar.<br />
4 45 tot 59 jaar.<br />
5 ouder dan tot 59 jaar.<br />
X onbekend.<br />
Soms wordt de leeftijd, indien voorhanden, precies aangegeven.<br />
flang de moedertaal van de spreker.<br />
dialect het dialect van de spreker.<br />
soc de sociale klasse van de spreker.<br />
AB hoger- of middenbestuurskader, administratief of professioneel.<br />
C1 leidinggevend, afdelingshoofd of administratief.<br />
C2 geschoold vakman.<br />
DE halfgeschoold of ongeschoold.<br />
UU onbekend.<br />
educ het opleidingsniveau van de spreker.<br />
0 nog in opleiding.<br />
1 school verlaten met 14 jaar of jonger.<br />
2 school verlaten met 15 of 16 jaar.<br />
3 school verlaten met 17 of 18 jaar.<br />
4 opleiding gecontinueerd na 18 jaar.<br />
X onbekend.<br />
Daarnaast kunnen optioneel de volgende gegevens worden vermeld:<br />
46
BMRB code code van het marketingbureau voor <strong>een</strong> demografische klasse.<br />
naam <strong>een</strong> (fictieve) voornaam als extra identificatie.<br />
beroep het beroep van de spreker.<br />
commentaar<br />
relatie gelijkwaardige of hiërarchische relatie tussen de participanten, b.v. ’broer van X’, ’klant van<br />
Y’, ’collega van Z’.<br />
De informanten kregen maximaal <strong>een</strong> week <strong>een</strong> Walkman omgehangen. Hoewel het linguïstisch gemotiveerde<br />
gedeelte <strong>een</strong> andere, op teksttype gebaseerde samplestrategie volgde, werd binnen elk van<br />
de klassen toch zo veel mogelijk gelet op balans tussen regio (3 gebieden: Noord, Zuid en Midlands),<br />
geslacht, (opleidings)niveau van de spreker/doelgroep en onderwerp. Zo werden zowel nationale als<br />
regionale radiozenders meegenomen, mannelijke als vrouwelijke onderwijzers, kerkdiensten van verschillende<br />
geloofsovertuigingen, kantongerechten, arondissements- en hogere rechtbanken, etc.<br />
• Opnamedatum: 1981-1994.<br />
• Opnameduur: 700 uur.<br />
• Annotatieschema:<br />
– gehanteerde standaard: CDIF (Corpus Document Interchange Format), <strong>een</strong> door het TEI beïnvloede<br />
aanpassing van SGML (TEI was tijdens de codeerperiode nog niet afgerond). Geheel<br />
SGML-conformant.<br />
– geclitiseerde en andere niet-standaard vormen: ja, meer dan in standaard-orthografie wordt toegelaten,<br />
dus niet all<strong>een</strong> “can’t”, “we’re” en “that’s”, maar ook ’dunno’, ’gimme’, ’innit’, ’wanna’,<br />
etc. Wanneer woorden genormaliseerd zijn, geeft het element 〈sic〉 de ongenormaliseerde vorm<br />
weer, en 〈reg〉 de genormaliseerde vorm.<br />
– sprekerwisseling, behandeling overlap: ja, met het 〈who〉-attribuut en 〈align〉-elementen.<br />
– behandeling bij- en achtergrondgeluiden: ja, met paralinguïstische tags.<br />
– gehanteerde interpunctie: orthografische interpretatie.<br />
• Annotatieniveaus: globaal orthografisch, SGML voor teksttructuur, CLAWS-set van grammaticale<br />
tags. Het element 〈gap〉 dient voor weggelaten (b.v. geanonimiseerde) of onverstaanbare stukken<br />
tekst. Paralinguïstische codes omvatten stemkwaliteit (〈shift〉), niet-vocale elementen (〈event〉), vocale,<br />
niet-linguïstische elementen (〈vocal〉), pauzes (〈pause〉), onduidelijke passages (〈unclear〉), afgebroken<br />
woorden (〈trunc〉) en overlappingen. Het BNC hanteert andere interpretatie van de TEI-voorstellen<br />
voor overlappingen dan hierboven (zie sectie 4.2.3), nl. <strong>een</strong> align-declaratie met locaties vooraf, en dan<br />
pointers in de tekst, zoals in dit voorbeeld:<br />
<br />
<br />
<br />
...<br />
<br />
<br />
No, I’ll have to ring our Carl then, see if he can shift it, I mean she<br />
might as well be laid down here watching telly as upstairs laid in bed<br />
uncomfortable, you know yeah <br />
<br />
<br />
<br />
once you get in<br />
bed you’ll be like <br />
<br />
47
• Status privacy informanten: geanonimiseerd in de transcripten en de logfiles. Aan alle participanten<br />
is soms vooraf, soms achteraf toestemming gevraagd. Dit werd overgelaten aan de drager van de<br />
Walkman voor het demografisch deel. De opnames werden gewist als één der gesprekspartners g<strong>een</strong><br />
toestemming gaf.<br />
• Copyright: BNC-consortium. Het is verkrijgbaar voor uitsluitend taalkundig onderzoek binnen de EU<br />
voor ± 700 gulden.<br />
• Beschikbaarheid opnames: nee, all<strong>een</strong> orthografische transcripties. De opnames zijn opgeslagen in het<br />
National Sound Archive in Londen. Men hoopt dat die <strong>een</strong>s vrijgegeven worden (Crowdy, 1995: 229).<br />
– geluidsdrager: DAT-tape, of analoge tapes voor demografisch deel. De laatste werden overgezet<br />
naar DAT-tape t.b.v. efficiënte transcriptie.<br />
– opnametechniek: Walkman (demografisch), DAT-recorder (indien mogelijk voor context-governed<br />
deel).<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: orthografische transcriptie plus annotaties in SGML en CLAWS in één ASCIIcomputerfile<br />
per tekst. Het programma SARA (SGML-Aware Retrieval Application), <strong>een</strong> clientserver<br />
gebaseerd zoeksysteem dat concordanties kan aanmaken en de SGML-codes herkent, is<br />
meegeleverd op de CD-ROM.<br />
– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />
Het samengestelde BNC-corpus wordt voorafgegaan door het element 〈bnc〉, en bestaat uit <strong>een</strong> algemene<br />
header en <strong>een</strong> aantal teksten met elk het element 〈bncDoc〉.<br />
Elk 〈bncDoc〉 bestaat op zijn beurt weer uit <strong>een</strong> header en <strong>een</strong> element voor geschreven tekst, 〈text〉, of<br />
<strong>een</strong> gesproken tekst, 〈stext〉. Attributen ’complete’ (Y|N) en ’org’ (compo|seq) geven aan of de tekst resp.<br />
compleet is of <strong>een</strong> fragment, en of de tekstelementen in willekeurige dan wel sequentiële volgorde voorkomen.<br />
Elke tekst bevat tenminste <strong>een</strong> aantal segmenten 〈u〉, nl. voor onderscheiden gesproken uitingen, en 〈s〉,<br />
voor zinsachtige elementen (eind tag 〈/s〉 heeft hierbij de status ’o’ = omissable), die al dan niet handmatig<br />
zijn bijgewerkt (attribuut ’p’ (Y|N) voor post-editing, met als normaalwaarde ’N’). Zoals boven beschreven<br />
in de paragraaf over het TEI, heeft elke 〈u〉 <strong>een</strong> attribuut ’who’, dat de spreker (abstract) definieert. De 〈s〉elementen<br />
hebben als attribuut <strong>een</strong> sequentienummer, b.v. 〈s n=00011〉. Daarnaast kunnen frase-elementen<br />
voorkomen, 〈phSeq〉, of tekstdivisie-elementen, nl. 〈div〉, of all<strong>een</strong> maar gewone karakters, volgens de BNC-<br />
DTD gekenschetst als #PCDATA, maar niet als zodanig gecodeerd.<br />
Binnen deze frase-elementen vinden er de tags voor woord, 〈w〉, en leesteken, 〈c〉, die even<strong>een</strong>s meestal<br />
g<strong>een</strong> eind tag hebben. Woorden kunnen grammaticale attributen hebben als AJO (adjectief stellende trap) en<br />
AJC (adjectief vergrotende trap) volgens het CLAWS-schema, terwijl leestekens attributen kunnen hebben<br />
als PUL en PUN voor de realisatie van verschillende tekens, even<strong>een</strong>s volgens CLAWS.<br />
De transcriptiefiles, inclusief de DTD, het SARA-programma en documentatie worden, gearchiveerd met<br />
tar en gecomprimeerd met gunzip, geleverd op 3 CD-ROMs.<br />
4.3.6 Het POLYPHONE Corpus<br />
POLYPHONE is <strong>een</strong> internationaal corpus van telefoonspraak, gecoördineerd door het Linguistic Data Consortium<br />
in de VS. Het <strong>Nederlandse</strong> deel werd verzameld in samenwerking tussen PTT-Telecom en het<br />
Expertisecentrum SPEX. Het is te verkrijgen bij het Europese consortium ELRA. Er zijn inmiddels ook<br />
Amerikaans-Engelse, Amerikaans-Spaanse, Franse, Duitse, Japanse, Mandarijns-Chinese, Zwitsers-Franse<br />
en D<strong>een</strong>se versies beschikbaar. Het Amerikaanse deel van het POLYPHONE-project staat bekend onder de<br />
naam MACROPHONE.<br />
Gegevens:<br />
• Omvang:<br />
– types: ?<br />
48
– tokens: ?<br />
• Samenstelling (teksttypes): geëliciteerde spontane spraak (beantwoording 14 voorgedrukte vragen, zoals<br />
“Is Nederlands uw moedertaal?”, “Heeft U ooit in <strong>een</strong> ander land dan Nederland gewoond?”,”In<br />
welke plaatsen bent u opgegroeid?”, “Bent u <strong>een</strong> vrouw of <strong>een</strong> man?”, en 4 niet-voorgedrukte vragen<br />
(“Spel uw naam alstublieft”, “Hoe laat is het nu?”), 32 stukken voorgelezen tekst (getallen, woorden,<br />
gespelde woorden, datum, bedrag, tijdsaanduiding, hoeveelheid, zinnen met <strong>een</strong> applicatiewoord,<br />
fonetisch rijke zinnen). In totaal 50 items per spreker.<br />
• Sprekergegevens: 5050 sprekers, zo mogelijk gelijkelijk verdeeld over geslacht, leeftijd (16-20, 21-40,<br />
41-60, 61-), regio en sociaal-economische klasse. De sociaal-economische klasse werd gedefinieerd in<br />
termen van opleiding: all<strong>een</strong> lagere school, middelbare school en hbo/universiteit. Dat laatste was<br />
minder gelukkig: vrijwel ieder<strong>een</strong> onder de 60 bleek minstens middelbare school genoten te hebben.<br />
De jongste en de oudste groep bleken te zijn ondergerepresenteerd.<br />
• Opnamedatum: ? Data uitgegeven in 1995.<br />
• Opnameduur: ?<br />
• Annotatieschema:<br />
– gehanteerde standaard: ?<br />
– geclitiseerde en andere niet-standaard vormen: ?<br />
– sprekerwisseling, behandeling overlap: n.v.t.<br />
– behandeling bij- en achtergrondgeluiden: ja, in transcriptie.<br />
– gehanteerde interpunctie: ?<br />
• Annotatieniveaus: orthografische transcriptie.<br />
• Status privacy informanten: ?<br />
• Copyright: ?<br />
• Beschikbaarheid opnames: ja, bij ELRA.<br />
– geluidsdrager: CD-ROM.<br />
– opnametechniek: digitale ISDN telefoonlijn. Aculab telefoon-interface, <strong>een</strong> Rhetorex Voice Card<br />
en driver software, Show-’n-Tel applicatie ontwikkelingssoftware, en <strong>een</strong> 16 port operational license,<br />
op <strong>een</strong> OS/2 PC. Sampling rate 8 kHz, 8-bits A/D-conversie.<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: 222.075 audiofiles, met file formaat 8-bit raw A-law data.<br />
– relatie signaal-transcriptie (volledigheid-koppeling): ?<br />
De opmerkingen van het <strong>Nederlandse</strong> POLYPHONE-team over de stratificatie-strategie van dit project<br />
zijn mogelijk van belang voor het CGN-project. Deze zijn overgenomen van de EAGLES Website voor<br />
<strong>Gesproken</strong> Data (http://coral.lili.uni-bielefeld.de/EAGLES/). Ze zijn ook te vinden in Gibbon et al. (1997:<br />
807):<br />
Speaker selection and recruitment is still a difficult issue. In the Dutch POLYPHONE project<br />
much time, effort and money was spent in order to get a maximally uniform sampling of a large<br />
number of cells. To a considerable extent, these efforts have b<strong>een</strong> to no big avail. The major<br />
reason to strive towards uniform sampling was scientific: we wanted the corpus to be as attractive<br />
as possible for linguists and dialectologists, of course without interfering with the requirements of<br />
speech technology. The latter requirements are ill-defined. It is quite likely that applications like<br />
Train Time Table Information must deal with the public at large, including low income groups<br />
whose speech may differ from the general standard. More research is needed to clarify this issue.<br />
49
4.3.7 Het Oxford Text Archive<br />
Het Oxford Text Archive (OTA) is <strong>een</strong> verzamel- en distributiecentrum van elektronische teksten aan de<br />
Universiteit van Oxford. Het werd reeds in 1976 opgericht door Lou Burnard. Anders dan vele ftp-sites<br />
en elektronische archieven, die vaak <strong>een</strong> vergaarbak zijn van documenten in talloze formaten en stijlen,<br />
stimuleert het OTA de opname en verspreiding van teksten volgens internationaal aanvaarde standaards. Zo<br />
is het OTA <strong>een</strong> belangrijk pleitbezorger voor de platform- en applicatie-onafhankelijke document-markeertaal<br />
SGML en in het bijzonder de hierop gebaseerde literaire conventies van het TEI. Als standaard codeerset<br />
wordt TEI Lite aanbevolen, <strong>een</strong> ’uitgeklede’ versie van de volledige reeks TEI elementen, attributen en regels<br />
(zie boven). Niettemin kunnen ook documenten worden geaccepteerd in HTML, XML, (La)TeX, Rich Text<br />
Format (RTF), ASCII, word processors als WordPerfect of Word, PostScript of Portable Document Format<br />
(PDF), hoewel dit niet de voorkeur geniet.<br />
Net als bij het Project Gutenberg bestaat de hoofdmoot van de OTA-collectie uit teksten in het publieke<br />
domein. Daarnaast zijn er echter, in tegenstelling tot de Amerikaanse equivalent, ook corpora beschikbaar,<br />
waarvoor speciale contracten afgesloten zijn.<br />
De meeste teksten zijn vrijelijk verkrijgbaar voor onderzoeksdoeleinden, maar mogen niet verder gedistribueerd<br />
worden buiten de vakgroep, of verwerkt worden tot <strong>een</strong> commercieel product. De condities zijn<br />
echter veelal afhankelijk van het beleid van de leveranciers van de oorspronkelijke teksten.<br />
Op het gebied van moderne spraakcorpora beschikt het OTA over <strong>een</strong> versie van het Eindhoven corpus,<br />
de CHILDES corpora, het London-Lund corpus, het Lexis gesproken Engels corpus, John Kirk’s Noord-Iers<br />
corpus (400.000 tokens) en de Duitse Ulm Textbank (transcripties van psycho-diagnostische interviews).<br />
Voor verdere informatie zie de Website van het OTA onder URL:<br />
4.3.8 Het Project Gutenberg<br />
http://firth.natcorp.ox.ac.uk/ota/public/index.shtml<br />
Het Project Gutenberg is <strong>een</strong> Amerikaans initiatief om zoveel mogelijk geschreven teksten op de computer op<br />
te slaan en ter beschikking te stellen aan geïnteresseerden. Vanwege de hanteerbaarheid is gekozen voor opslag<br />
zonder applicatie- of systeemspecifieke code in platte ASCII-tekens. Om allerlei problemen met distributie<br />
te voorkomen, is gekozen voor de opname van uitsluitend teksten in het publiek domein. Aangezien het<br />
copyright op <strong>een</strong> tekst pas kan vervallen 50 jaar na de dood van de auteur, betreft de collectie slechts oude<br />
teksten. Omdat de selectie bovendien beperkt blijft tot fictieve lectuur, literaire fictie en naslagwerken, is<br />
dit project qua inhoud en codeerwijze geheel irrelevant voor het CGN-project. Informatie is te vinden op<br />
het WWW onder URL:<br />
http://mirrors.org.sg/pg/index.html<br />
Hierbij zij nog vermeld, dat het eerder opgezette Georgetown University Catalogue of Projects in Electronic<br />
Text, dat <strong>een</strong> goed gestructureerd overzicht gaf van elektronische tekstbestanden over de hele wereld, na<br />
1993 door gebrek aan menskracht niet meer is bijgewerkt, en inmiddels samen met het op VMS gebaseerde<br />
gopher-systeem is afgesloten (privécorrespondentie met Michael Neuman, Georgetown University).<br />
4.4 Moderne Nederlandstalige <strong>Gesproken</strong> <strong>Corpora</strong><br />
4.4.1 Het ANNO Corpus<br />
Het ANNO-corpus werd ontwikkeld in het kader van het Vlaamse korte-termijnprogramma Spraak- en Taaltechnologie.<br />
Dit programma werd in 1993 door de Vlaamse regering geïnitieerd met als doel de achterstand<br />
op het gebied van deze technologie t.o.v. de hoofdtalen binnen de Europese Gem<strong>een</strong>schap zoveel mogelijk<br />
weg te werken. Het aanmaken van corpora werd gezien als <strong>een</strong> onderdeel van het initiatief, dat “het uitbouwen<br />
van goede logistieke ondersteuning van het wetenschappelijk onderzoek in verband met taaltechnologie”<br />
beoogde (zie Spraak- en Taaltechnologie voor het Nederlands, 1993).<br />
50
ANNO, dat bedoeld is als “<strong>een</strong> geannoteerde publieke gegevensbank voor het geschreven Nederlands”, is<br />
te zien als <strong>een</strong> pilotproject om te komen tot <strong>een</strong> standaard voor het samenstellen en annoteren van grotere<br />
Nederlandstalige corpora. Het materiaal bestaat uit BRTN radio-nieuwsberichten en afleveringen van de<br />
radio actualiteitenrubriek Actueel. Het taalgebruik in deze uitzendingen wordt beschouwd als de nationale<br />
standaard. De teksten bestaan oorspronkelijk uit geschreven taal die bedoeld is om uitgesproken te worden.<br />
Daarnaast bevat het tekstmateriaal ook origineel gesproken taal in de vorm van getranscribeerde interviews.<br />
Het project werd uitgevoerd door het Centrum voor Computerlinguïstiek aan de Katholieke Universiteit<br />
Leuven.<br />
Gegevens:<br />
• Omvang:<br />
– types: ?<br />
– tokens: 640.000.<br />
• Samenstelling (teksttypes): BRTN radio-nieuwsuitzendingen en uitzendingen van de actualiteitenrubriek<br />
Actueel. Dit laatste deel bevat zowel voorgelezen spraak als spontane interviews.<br />
• Sprekergegevens: ?<br />
• Opnamedatum: ?<br />
• Opnameduur: ?<br />
• Annotatieschema:<br />
– gehanteerde standaard: SGML voor de tekststructuur.<br />
– geclitiseerde en andere niet-standaard vormen: ?<br />
– sprekerwisseling, behandeling overlap: ?<br />
– behandeling bij- en achtergrondgeluiden: ?<br />
– gehanteerde interpunctie: orthografisch.<br />
• Annotatieniveaus: orthografie, tekststructuur in SGML, syntactische tagging volgens WOTAN<br />
(TOSCA-groep vakgroep Taal en Spraak, KU Nijmegen), fonetische transcriptie van de woorden uit<br />
CELEX, dan wel gegenereerd met TreeTalk (Walter Daelemans, KU Brabant), morfologische tags<br />
deels aangebracht met Keper (Polderland Nijmegen), syntactische (redekundige) ontleding deels met<br />
METAL (Siemens), discourse analyse deels volgens <strong>een</strong> onbekend systeem. Zie voor <strong>een</strong> demo van de<br />
diverse annotatieniveaus de URL:<br />
• Status privacy informanten: ?<br />
http://www.ccl.kuleuven.ac.be/about/ANNO/DEMO/21mrt08u.html<br />
• Copyright: Aangezien het uitzendingen van de BRTN betreft, zijn er problemen met de openbaarmaking<br />
van het corpus gerezen. Momenteel kan het corpus niet buiten de KU Leuven gebruikt worden.<br />
Er zijn onderhandelingen gaande.<br />
• Beschikbaarheid opnames: momenteel niet.<br />
– geluidsdrager: ?<br />
– opnametechniek: ?<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ?<br />
– relatie signaal-transcriptie (volledigheid-koppeling): ?<br />
51
4.4.2 Het COGEN Corpus<br />
Het Corpus <strong>Gesproken</strong> Nederlands COGEN vloeide, net als het ANNO-bestand, voort uit het korte-termijn<br />
programma Spraak- en Taaltechnologie van de Vlaamse regering. De COGEN-databank moest voorzien in<br />
<strong>een</strong> grote variëteit aan opnames van <strong>een</strong> aantal standaardwoorden en -zinnen en één stuk lopende tekst.<br />
Sprekers werden gerecruteerd uit alle lagen van de bevolking, waarbij de voorwaarde was dat ze g<strong>een</strong> dialect<br />
spraken, maar zich zoveel mogelijk conformeerden aan het Standaard-Nederlands. Het doel was hiermee<br />
voldoende data te verzamelen voor <strong>een</strong> systeem voor robuuste continue spraakherkenning. Uitvoering geschiedde<br />
door het Departement Elektrotechniek (ESAT) van de KU Leuven en de vakgroep Elektronica<br />
en Informatiesystemen (ELIS) van de Universiteit Gent. De gegevens hieronder komen grotendeels uit<br />
privécorrespondentie met Wim Goedertier (ELIS).<br />
Gegevens (zie ook Bouma & Schuurman, 1998: 29-30):<br />
• Omvang:<br />
– types: ?<br />
– tokens:<br />
∗ 63.510 (RS OFF)<br />
∗ 23.000 (SS TEL operator)<br />
∗ 13.230 (SS TEL informant)<br />
• Samenstelling (teksttypes):<br />
– WL OFF (word list office): gespelde woorden (10 uit <strong>een</strong> set van 40), commandowoorden, cijfers en<br />
fonetisch rijke woorden (100 uit <strong>een</strong> set van 400), voorgelezen in <strong>een</strong> normale (enigszins rumoerige)<br />
kantooromgeving.<br />
– RS OFF (read speech office): voorgelezen lopende krantentekst (5 alinea’s, gemidd. 73 woorden<br />
per alinea) in <strong>een</strong> (enigszins rumoerige) kantooromgeving.<br />
– WL TEL (word list telephone): voorgelezen woordenlijsten over de telefoon.<br />
– SS TEL (spontaneous speech telephone): spontane spraak over de telefoon. 3 vragen naar informatie<br />
via gesimuleerde mens-machine-dialoog. De medewerker (operator) las hierbij de respons<br />
van de computer op van de monitor. Dit deel is dus voorgelezen spraak.<br />
• Sprekergegevens: 174 sprekers uit verschillende regio’s, leeftijdsgroepen en sociaal-economische klassen.<br />
De bedoeling was evenwel dat ze zoveel mogelijk Standaard Nederlands spraken. Het deel WL TEL<br />
telt 185 sprekers, het deel SS TEL slechts 126.<br />
• Opnamedatum: 1995?<br />
• Opnameduur (pauzes steeds weggeknipt):<br />
– 2,16 uur (WL OFF gespeld)<br />
– 5,83 uur (WL OFF voorgelezen)<br />
– 7,02 uur (RS OFF)<br />
– 5,85 uur (WL TEL)<br />
– 3,48 uur (SS TEL operator)<br />
– 2,00 uur (SS TEL informant)<br />
• Annotatieschema:<br />
– gehanteerde standaard: YAPA (fonemische transcriptie). Deze standaard werd in Vlaanderen<br />
ontwikkeld voor het eerder genoemde korte-termijn programma.<br />
– geclitiseerde en andere niet-standaard vormen: ?<br />
52
– sprekerwisseling, behandeling overlap: niet relevant.<br />
– behandeling bij- en achtergrondgeluiden: ?<br />
– gehanteerde interpunctie: ?<br />
• Annotatieniveaus: handmatig geverifieerde orthografische transcriptie (incl. aarzelingen, versprekingen,<br />
reparaties), automatische fonemische transcriptie door Lernhout & Hauspie, handmatig geverifieerde<br />
fonemische transcriptie (slechts 3.4% van RS OFF, andere delen niet), daarnaast automatische<br />
labelling op foonniveau (= fonetische segmentatie), d.w.z. discrete kenmerken binnen <strong>een</strong> foneem, zoals<br />
ontploffing, toonbaar, aspiratie, sluiting, glottale stop, door ELIS, handmatig geverifieerde fonetische<br />
segmentatie (slechts 3,4% van RS OFF, andere delen niet).<br />
• Status privacy informanten: geanonimiseerd (nr0001, nr0002, etc.)<br />
• Copyright:<br />
– ESAT/ELIS(?) (WL OFF)<br />
– ESAT/ELIS (RS OFF)<br />
– ESAT/ELIS/Lernhout & Hauspie (WL TEL)<br />
– ESAT/ELIS (SS TEL)<br />
• Beschikbaarheid opnames: ja, behalve WL TEL, dat gedeeld eigendom is van Lernhout & Hauspie.<br />
– geluidsdrager: 6 CD-ROMS.<br />
– opnametechniek:<br />
∗ 16 kHz, 16 bit (RS OFF).<br />
∗ 8 kHz, 8 bit (SS TEL) met analoge telefoonverbinding. File formaat raw A-law data.<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ja, orthografische transcriptie in *.txt files, autom. fonemische transcriptie<br />
in *.tts files, handmatige correctie fonemische transcriptie in *.phn files, autom. fonetische segmentatie<br />
in *.lab files, handmatige correctie fonetische segmentatie in *.hla files. Soundfiles met<br />
extensie *.sam.<br />
– relatie signaal-transcriptie (volledigheid-koppeling): ja, op frase-niveau voor de files *.txt, *.tts,<br />
*.phn (RS OFF), op sprekerniveau voor de files *.txt, *.tts, *.phn (SS TEL). Samples van de data<br />
RS OFF en SS TEL bevinden zich op de ftp-site van ELIS onder URL:<br />
4.4.3 Het PBS Corpus<br />
ftp://elis.rug.ac.be/pub/speech/cgn/<br />
Dit is <strong>een</strong> Vlaams corpus van Phonetically Balanced Sentences. Het is opgesteld aan de Universiteit van<br />
Gent, door de vakgroep ELIS. De volgende gegevens komen voort uit privécommunicatie met Wim Goedertier<br />
(ELIS).<br />
Gegevens:<br />
• Omvang:<br />
– types: 441.<br />
– tokens: 11.518.<br />
• Samenstelling (teksttypes): 13 fonetisch gebalanceerde zinnen.<br />
• Sprekergegevens: 130 sprekers.<br />
53
• Opnamedatum: ?<br />
• Opnameduur: 1,18 uur.<br />
• Annotatieschema:<br />
– gehanteerde standaard: ?<br />
– geclitiseerde en andere niet-standaard vormen: ?<br />
– sprekerwisseling, behandeling overlap: n.v.t.<br />
– behandeling bij- en achtergrondgeluiden: ?<br />
– gehanteerde interpunctie: ?<br />
• Annotatieniveaus: niet geverifieerde orthografische transcriptie (prompts), fonetische transcriptie in<br />
*.phn-files, 30,8% fonetisch gesegmenteerd in *.hla-files.<br />
• Status privacy informanten: ?<br />
• Copyright: ELIS.<br />
• Beschikbaarheid opnames: ?<br />
– geluidsdrager: ?<br />
– opnametechniek: sampling rate 10 kHz, deel 11 kHz, fileformaat µ-law (12 bit).<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ja, orthografische transcriptie (prompts), fonetische transcriptie in *.phnfiles,<br />
fonetische segmentaties in *.hla-files.<br />
– relatie signaal-transcriptie (volledigheid-koppeling): ?<br />
4.4.4 Het Groningen Corpus<br />
Dit is <strong>een</strong> corpus met <strong>Nederlandse</strong> voorgelezen spraak, verzameld door A.M. Sulter en H.K. Schutte. Het is<br />
te verkrijgen bij het Europese consortium ELRA.<br />
Gegevens:<br />
• Omvang:<br />
– types: ?<br />
– tokens: ?<br />
• Samenstelling (teksttypes): voorgelezen tekst: 20 getallen, 16 <strong>een</strong>lettergrepige woorden, 3 lange klinkers<br />
(a, e, i), 23 fonetisch rijke korte zinnen, twee stukken tekst met veel directe rede om ’emotionele spraak’<br />
op te wekken.<br />
• Sprekergegevens: 238 sprekers. 94 sprekers lezen ook nog <strong>een</strong> uitgebreide woordenlijst voor. Gegevens<br />
over leeftijd, lengte, gewicht, rook- en drinkgedrag zijn opgenomen. Er zijn ook pathologische sprekers<br />
opgenomen. De stemkwaliteit is beschreven door de spreker zelf en <strong>een</strong> panel van luisteraars. De<br />
sprekers worden gekarakteriseerd als sprekers van het Standaard-Nederlands.<br />
• Opnamedatum: ?<br />
• Opnameduur: meer dan 20 uur.<br />
• Annotatieschema:<br />
– gehanteerde standaard: ?<br />
54
– geclitiseerde en andere niet-standaard vormen: ?<br />
– sprekerwisseling, behandeling overlap: n.v.t.<br />
– behandeling bij- en achtergrondgeluiden: ?<br />
– gehanteerde interpunctie: ?<br />
• Annotatieniveaus: orthografische transcriptie.<br />
• Status privacy informanten: ?<br />
• Copyright: ELRA/ELSNET.<br />
• Beschikbaarheid opnames: ja, bij ELRA.<br />
– geluidsdrager: 4 CD-ROMS. Oorspronkelijke opname op PCM tapes.<br />
– opnametechniek: ?<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ja, spraakfiles en orthografische transcripties.<br />
– relatie signaal-transcriptie (volledigheid-koppeling): nee.<br />
4.4.5 Het Speech Styles Corpus<br />
Een Nederlands gesproken corpus bestaande uit het spraaksignaal en bijbehorende orthografische transcriptie,<br />
samengesteld door het Expertisecentrum SPEX (Leidschendam). Het bevat spontane spraak (monologen),<br />
semi-spontane spraak (plaatjesbeschrijvingen) en voorgelezen spraak. De opstellers en uitvoerenden waren<br />
R. van Bezooijen en J. van Rie.<br />
Gegevens:<br />
• Omvang:<br />
– types: 6.300.<br />
– tokens: 118.000.<br />
• Samenstelling (teksttypes): spontane spraak (monologen), semi-spontane spraak (plaatjesbeschrijvingen)<br />
en voorgelezen spraak, in aanwezigheid van <strong>een</strong> begeleider. Het onderwerp van gesprek was steeds<br />
huishoudelijke zaken, eetgewoonten en voedsel. Hierdoor komt het vocabulaire sterk over<strong>een</strong>.<br />
• Sprekergegevens: 127 sprekers:<br />
– Man: 60 sprekers.<br />
– Vrouw: 67 sprekers.<br />
– Leeftijd -20: 30 sprekers.<br />
– Leeftijd 20-60: 45 sprekers.<br />
– Leeftijd 60+: 52 sprekers.<br />
• Opnamedatum: ? (transcriptiedatum (1994) in *.hdr-files)<br />
• Opnameduur: meer dan 19 uur.<br />
– 4,66 uur monoloog.<br />
– 10,35 uur plaatjesbeschrijvingen.<br />
– 4,19 uur voorgelezen tekst.<br />
• Annotatieschema:<br />
55
– gehanteerde standaard: ?<br />
– geclitiseerde en andere niet-standaard vormen: ja, clitica en gereduceerde vormen, volgens meegeleverde<br />
transliteratielijst (speechstyles.txt).<br />
– sprekerwisseling, behandeling overlap: overlap tussen hekjes #.<br />
– behandeling bij- en achtergrondgeluiden: aangegeven door algem<strong>een</strong> label ’[noise]’.<br />
– gehanteerde interpunctie: g<strong>een</strong>. Interpunctie wordt gebruikt voor de prosodie: punten voor pauzes,<br />
uitroeptekens voor emfatische klemtoon (contrastief accent), komma voor intonatieve scheiding,<br />
dubbele punt voor verlenging.<br />
• Annotatieniveaus: orthografisch (alles onderkast, behalve eigennamen met hoofdletter). Versprekingen<br />
tussen asterisks, weggelaten woorden tussen ronde haakjes (), gecorrigeerde woorden tussen vissenhaakjes<br />
, interrupties door de interviewer tussen accolades {}, onduidelijke woorden tussen dubbele ronde<br />
haakjes (()), paralinguïstische kenmerken tussen rechte haakjes []. Fonetische transcriptie inclusief prosodische<br />
codes.<br />
• Status privacy informanten: geanonimiseerd (id-nummers 001, 002 etc., die elk corresponderen met<br />
<strong>een</strong> directory tree van die naam).<br />
• Copyright: SPEX (?)<br />
• Beschikbaarheid opnames: ja, bij SPEX (?).<br />
– geluidsdrager: CD-ROM.<br />
– opnametechniek: sampling rate 16 kHz, 16 bits A/D-conversie.<br />
– signaal-ruisverhouding: gunstig (studiokwaliteit).<br />
– elektronische versie: ja, audiofiles in NIST format (*.wav files) en esps format (*.sd files). Bijbehorende<br />
orthografische transcriptie in *.tra files. Bijbehorende fonetische transcriptie in *.phono<br />
files. In de root directory van de CD bevindt zich ook <strong>een</strong> lexicon met de fonetische transcriptie<br />
van alle woorden in het corpus. Er is ook <strong>een</strong> apart lexicon met alle gereduceerde vormen en<br />
clitica. Dit kan van belang zijn voor het CGN-project.<br />
– relatie signaal-transcriptie (volledigheid-koppeling): op uitingenniveau (uiting is gedefinieerd als<br />
<strong>een</strong> semantische <strong>een</strong>heid tussen twee pauzes, die minstens <strong>een</strong> subject en <strong>een</strong> werkwoord bevat).<br />
56
Voorbeelden:<br />
Orthografische transcriptie monoloog spreker 001:<br />
[000000000]<br />
ik woon in Ouderkerk aan de Amstel<br />
[000037808]<br />
dat is <strong>een</strong> dorpje . onder Amsterdam<br />
[000110768]<br />
zo dicht [uh] bij Amsterdam en dan <strong>een</strong> echt dorp<br />
[000167424]<br />
ut is dus niet zoals Amstelvee:n of als Amsterdam Zuid de Bijlmer . maar <strong>een</strong> echt ouderwets dorp<br />
met <strong>een</strong> dorpspleintje met . heel veel kerken . eromh<strong>een</strong><br />
[000349360]<br />
Ouderkerk dat zegt ut dus al 〈kerk〉 kerken . [loud breath] is <strong>een</strong>: . beetje rare gem<strong>een</strong>te ut is <strong>een</strong><br />
hele oude gem<strong>een</strong>te<br />
Bijbehorende fonetische transcriptie monoloog spreker 001:<br />
[000000000]<br />
”Ik ”wo:n ”In ”Au-d@r-%kEr-@k ä:n ”d@ ”Am-st@l<br />
[000037808]<br />
”dAt ”Is ë:n ”dOr-@p-j@ . ”On-d@r Am-st@r-”dAm<br />
[000110768]<br />
”zo: ”dIxt [uh] ”bEi Am-st@r-”dAm ”En ”dAn ë:n ”Ext ”dOr-@p<br />
[000167424]<br />
IJt ”Is ”dYs ”nit zo:-”Als Am-st@l-”ve:n ”Of ”Als Am-st@r-”dAm ”z9yt ”d@ ”bEil-m@r . ”ma:r<br />
ë:n<br />
”Ext Au-d@r-”wEts ”dOr-@p ”mEt ë:n ”dOr-@ps-plEin-tj@ ”mEt . ”he:l ”fe:l ”kEr-k@ . @-rOm-<br />
”he:n<br />
[000349360]<br />
”Au-d@r-%kEr-@k ”dAt ”zExt IJt ”dYs ”Al 〈”kEr-@k〉 ”kEr-k@ . [loud breath] ”Is ë:n . ”be:-tj@<br />
”ra:-r@ x@-”me:n-t@ IJt ”Is ë:n ”he:-l@ ”Au-d@ x@-”me:n-t@<br />
4.4.6 Het OVIS Corpus<br />
Dit corpus is ook bekend onder de naam VIOS. Er zijn verschillende versies in omloop van verschillende<br />
grootte ten behoeve van verschillende soorten onderzoek en bewerking. Het betreft hier bandopnames van<br />
het openbaar vervoer-reisinformatiesysteem van de NS. De opnames zijn gemaakt door de KPN t.b.v. het<br />
uittesten van dit mens-machine dialoogsysteem. De (summiere) gegevens hieronder komen uit persoonlijke<br />
communicatie met Mieke Rats, wetenschappelijk consulent bij de firma Compuleer, die momenteel bewerking<br />
van het corpus onderzoekt.<br />
Gegevens:<br />
• Omvang: 20.000 dialogen.<br />
– types: niet bekend.<br />
– tokens: niet bekend.<br />
• Samenstelling (teksttypes): machine-gestuurde mens-machine dialoog. Daarnaast ook mens-mens dialogen<br />
(kennelijk als back-up voor het automatische systeem).<br />
57
• Sprekergegevens: ?<br />
• Opnamedatum: ?<br />
• Opnameduur: ?<br />
• Annotatieschema:<br />
– gehanteerde standaard: ?<br />
– geclitiseerde en andere niet-standaard vormen: wil men opnemen.<br />
– sprekerwisseling, behandeling overlap: ?<br />
– behandeling bij- en achtergrondgeluiden: ?<br />
– gehanteerde interpunctie: ?<br />
• Annotatieniveaus: men wil naast orthografie ook syntactische en pragmatische coderingen aanbrengen,<br />
zodat ook specifieke taalfenomenen kunnen worden geselecteerd als syntactische structuren, ellipsis,<br />
versprekingen, en specifieke dialoogsituaties zoals bijvoorbeeld correctiestrategieën.<br />
• Status privacy informanten: ?<br />
• Copyright: KPN/OVR/NS (?)<br />
• Beschikbaarheid opnames: mogelijk problematisch vanwege copyright en privacyoverwegingen.<br />
– geluidsdrager: ?<br />
– opnametechniek: ?<br />
– signaal-ruisverhouding: ?<br />
– elektronische versie: ?<br />
– relatie signaal-transcriptie (volledigheid-koppeling): ?<br />
4.4.7 <strong>Corpora</strong> van het Meertensinstituut<br />
Aan het Meertensinstituut van de KNAW in Amsterdam wordt momenteel gewerkt aan <strong>een</strong> omvangrijk<br />
dialectcorpus van het Modern <strong>Gesproken</strong> Nederlands. Het uiteindelijk streven is 400 Noord-<strong>Nederlandse</strong><br />
(incl. de Friese taal) en 200 Zuid-<strong>Nederlandse</strong> dialecten vast te leggen in 2000 voorgedefinieerde items, zowel<br />
woorden in isolatie als zinnetjes.<br />
58
5 Evaluatie<br />
Uit de voorafgaande inventarisatie van bestaande spraakcorpora en pogingen tot het definiëren van standaards<br />
voor het verzamelen, bewerken en openbaar maken van dergelijke corpora vallen <strong>een</strong> aantal aanbevelingen<br />
en aandachtspunten af te leiden.<br />
Het gaat hierbij om eisen die aan de corpusinhoud, het corpusformaat en de corpusannotatie kunnen<br />
worden gesteld. De meeste hiervan zijn taalkundig van aard, of worden gestuurd door taalkundige behoeften:<br />
• Corpusinhoud:<br />
– omvang.<br />
– representativiteit (sterke eis)/spreiding (zwakke eis).<br />
– stratificatie.<br />
– steekproefmethode.<br />
• Corpusformaat:<br />
– opnametechniek.<br />
– medium/drager.<br />
– opslag en conservering.<br />
– organisatie fragmenten (filestructuur, database, etc.).<br />
• Corpusannotatie:<br />
– orthografische transcriptie.<br />
– tekstuele structuur: SGML, XML, etc.<br />
– grammaticale en fonetische annotatieniveaus.<br />
– koppeling spraaksignaal aan transcriptie en annotatie.<br />
Een aantal aandachtspunten:<br />
1. Maak g<strong>een</strong> gebruik van clandestiene opnames in verband met juridische (en ook ethische) bezwaren.<br />
Vraag altijd vooraf schriftelijk toestemming, all<strong>een</strong> indien dit onmogelijk is achteraf. Regel ook vooraf<br />
alle auteursrechtelijke kwesties rond het beschikbaarstellen van de gesproken data voor wetenschappelijk<br />
en commercieel gebruik. Ook openbare opnames, b.v van radio of TV, kunnen problematisch<br />
zijn in verband met het verkrijgen van persoonlijke gegevens (leeftijd, opleidingsniveau, etc.) van de<br />
sprekers, en de mogelijk hierbij door hen gevoelde inbreuk op hun privacy.<br />
2. De opnametechniek moet gegeven de omstandigheden zo goed mogelijk zijn, omdat alle andere transcriptie-<br />
en annotatieniveaus hiervan afhangen.<br />
3. De transcriptie moet orthografisch zo nauwkeurig mogelijk zijn, omdat anders de annotatie (b.v. met<br />
grammaticale tags) problematisch wordt. Daarom zijn er eigenlijk twee orthografische niveaus nodig:<br />
één transliteratie die nauw aansluit bij het gesprokene, dus met fonetische en prosodische annotaties,<br />
paralinguïstische verschijnselen en context-notities, die we kunnen betitelen als ’narrow’, en één<br />
standaard orthografische transcriptie en interpunctie, die tagging vergemakkelijkt en zo vergelijkend<br />
lexicologisch en grammaticaal onderzoek mogelijk maakt. Deze kunnen we kenschetsen als ’broad’<br />
(Edwards, 1995: 20).<br />
4. Extra-linguïstische gegevens (demografische en persoonlijke data, situationele context, mogelijk communicatieve<br />
niet-vocale fenomenen) moeten zoveel mogelijk ter plekke worden genoteerd en later opgenomen<br />
in of bij het transcript, omdat deze essentieel kunnen zijn voor het begrip van de tekst en<br />
later veelal niet meer te achterhalen zijn.<br />
59
5. Indien gebruik wordt gemaakt van <strong>een</strong> fonemische transcriptie (met eventueel prosodische informatie)<br />
dan dient aansluiting bij Unicode of anders SAMPA te worden overwogen.<br />
6. Wanneer het signaal wordt meegeleverd in gedigitaliseerde vorm, inclusief oscillo- en spectrogrammen,<br />
dan beïnvloedt dat de fonologische, fonemische, fonetische en akoestische niveaus van transcriptie. Het<br />
is discutabel dat dergelijke meer aan interpretatie onderhevige en slecht in absolute grootheden te<br />
karakteriseren informatie zeer gedetailleerd met de hand moet worden vastgelegd (gesteld dat het al<br />
binnen redelijke tijd kan worden vastgelegd), als het snel op te zoeken is in (de combinatie van) het<br />
spraaksignaal en de transcriptie (b.v. Chafe et al., 1991: 72-73).<br />
7. Er moet zorg voor worden gedragen, dat de corpora herbruikbaar zijn voor verschillende doeleinden.<br />
8. Herbruikbaarheid impliceert:<br />
(a) Duidelijke uitgangspunten.<br />
(b) Aansluiting bij (inter)nationale standaards of minstens bij eerdere succesvolle projecten (’best<br />
practice’).<br />
(c) Een van tevoren vastgesteld transcriptie- en annotatieprotocol. Codes mogen niet ambigu zijn,<br />
d.w.z. duidelijk afgebakend zijn ten opzichte van elkaar. Te veel detaillering werkt in die zin<br />
contraproductief.<br />
(d) Interactieve en post hoc validatiemethodes voor de kwaliteit en consistentie van transcriptie en<br />
annotatie.<br />
(e) Platform- en applicatie-onafhankelijkheid. Wanneer ook zeer gebruikersvriendelijke codeerstrategieën<br />
gebonden zijn aan platform-specifieke software, zoals syncWRITER voor de Apple Macintosh,<br />
dan lijdt dat onherroepelijk tot problemen.<br />
(f) Beschikbaarheid van het signaal en alle codeerniveaus.<br />
(g) Uitbreidbaarheid voor locale applicaties (b.v. verrijking met discourse tags voor <strong>een</strong> promotieonderzoek).<br />
9. Los van mate waarin het transcriptie- en annotatieprotocol vastligt, en kan worden gevalideerd tijdens<br />
en na het codeerproces, geldt dat codes werkbaar moeten zijn voor de codeurs. Er moeten discrete<br />
sets mnemonische codes worden gedefinieerd, waarbij software zorg kan dragen voor interactieve ondersteuning<br />
en conversie naar meer abstracte codes, indien gewenst. Uiteraard komt <strong>een</strong> dergelijke<br />
formulering ook de efficiency en de consistentie van het coderen ten goede. Gedetailleerde, vaak als<br />
omslachtig ervaren standaards zoals de TEI-extensies van SGML en XML moeten beoordeeld worden<br />
op hun toepasbaarheid op grote gesproken corpora (Sinclair, 1995: 106-109). Lijsten met toegestane<br />
gereduceerde, geclitiseerde vormen, interjecties, dialectwoorden, fonologisch functionele <strong>een</strong>heden en<br />
andere conventies moeten worden opgesteld ter (mogelijk softwarematige) ondersteuning van de codeur<br />
en, in <strong>een</strong> later stadium, de eindgebruikers.<br />
10. Het gebruik van op hypertext en hypermedia gebaseerde middleware, die de orthografische transcriptie<br />
aan de lineaire tijdsdimensie van het spraaksignaal kan koppelen in samenhang met andere afgeleide<br />
gegevens, zoals annotaties, databases, header-files, enz. moet worden overwogen, zowel voor annotatieals<br />
exploratie-doeleinden (resp. codeurs en eindgebruikers). Indexering van veel opgevraagde tiers is<br />
geboden voor snelle retrieval.<br />
11. Additieve annotatie (waarbij tags in de tekstsequentie zijn opgenomen) moet op deze en andere (computationele)<br />
gronden worden afgewogen tegen referentiële annotatie, waarbij bidirectionele pointers via<br />
byte offsets tekstdelen associëren met bepaalde markeringen. De laatste methode geniet de voorkeur,<br />
mits het doorzoeken en laden van de relaties niet te veel tijd kost.<br />
12. Uitgebreide annotatieniveaus moeten per niveau weg te filteren zijn uit de transcripten d.m.v. de<br />
gebruikersinterface en uit af te drukken versies, omdat anders de tekst onleesbaar wordt.<br />
13. De gebruikersinterface moet <strong>een</strong> grafisch en intuïtief benaderbaar karakter hebben.<br />
60
14. Er moet in weergave van transcriptie en annotatie <strong>een</strong> balans gevonden worden tussen leesbaarheid en<br />
presenteerbaarheid enerzijds en efficiënte en betrouwbare quantitatieve exploitatie anderzijds.<br />
6 Gidsprojecten voor de Toekomst<br />
In dit hoofdstuk worden <strong>een</strong> aantal recente of nog lopende initiatieven en projecten vernoemd, die mogen gelden<br />
als wegbereiders voor de geheel gedigitaliseerde aanleg, annotatie en ontsluiting van met name gesproken<br />
corpora. Zij kunnen gezien worden als voorbeelden voor waar CGN naar streeft.<br />
Een bijzonder interessant overzicht van allerhande tools en formaten die op dit gebied voorhanden zijn<br />
is te vinden op de Webpage Linguistic Annotation van Steven Bird en Mark Liberman:<br />
6.1 Het GATE Project<br />
http://morph.ldc.upenn.edu/annotation/<br />
Het GATE-project (General Architecture for Text Engineering), opgezet bij de vakgroep Computer Science<br />
aan de Universiteit van Sheffield, beoogt de bouw van <strong>een</strong> theorie-neutrale, platform- en applicatie-onafhankelijke<br />
grafische ontwikkelomgeving voor NLP-tools en tekstbestanden. Het is vooral ondernomen om bestaande<br />
NLP-modules op <strong>een</strong> efficiënte manier te hergebruiken en te koppelen (Cunningham et al., 1997).<br />
Het systeem bestaat uit <strong>een</strong> databank, inclusief <strong>een</strong> managementsysteem, waarin documenten en hun diverse<br />
bewerkingsslagen kunnen worden opgeslagen (GDM - GATE Document Manager) met SGML als opslagformaat<br />
(input/output), en daarnaast de GATE Graphical Interface (GGI), waarin de documenten kunnen<br />
worden bewerkt. Via dit interface kan men de data op <strong>een</strong> grafische manier beheren, benaderen, bekijken,<br />
bewerken en opslaan. Bewerkingsprocessen kunnen worden opgebouwd door verschillende bestanden<br />
en tools samen te brengen in <strong>een</strong> data flow diagram, en te activeren met muiskliks. Het GGI ondersteunt<br />
ook visualisatie van de output, zoals highlighted matches in <strong>een</strong> tekst, of boomdiagrammen als output van<br />
parsering.<br />
Tenslotte omvat GATE <strong>een</strong> aantal modules, die <strong>een</strong> interface vormen tussen GGI en eigen bestanden<br />
en programma’s van de end-user die vrijelijk kunnen worden ingeplugd in GATE (parsers, taggers, teksten,<br />
lexica, etc.). Deze gaan onder de naam CREOLE (Collection of REusable Objects for Language Engineering).<br />
Zij vormen a.h.w. <strong>een</strong> laag om de tools h<strong>een</strong>, waardoor geabstraheerd kan worden van concrete<br />
opslagformaten, programmeertalen en besturingssystemen (Cunningham et al., 1996). De tekstannotaties<br />
worden referentieel i.p.v. additief aan de documenten toegevoegd d.m.v. pointers tussen de byte offsets van<br />
de tekstdelen en de in de GDM-database opgeslagen codes, dus het is wel zaak, dat applicaties dit type van<br />
verwijzingen ondersteunen.<br />
GATE is geschreven in C++ en Tcl/Tk en draait op UNIX en Windows NT. Een geheel herziene Javaversie<br />
is in de maak.<br />
Het systeem, evenals beschikbare CREOLE-objecten, is het stadium van prototyping reeds lang gepasseerd<br />
en kan worden ingezet in concrete NLP-taken. Het kan na registratie gratis worden opgehaald in<br />
Sheffield via ftp.<br />
Zie:<br />
6.2 Het EUDICO Project<br />
http://www.dcs.shef.ac.uk/research/groups/nlp/gate/<br />
EUDICO (EUropean DIstributed COrpora project) is <strong>een</strong> initiatief van het Max Planck Instituut in Nijmegen,<br />
voortvloeiend uit eerdere ervaringen met de ontwikkeling van <strong>een</strong> MediaTagger (videotranscriptie en<br />
-analyse) en MediaEditor (audiotranscriptie en -analyse). Het wordt uitgevoerd op het MPI, met financiering<br />
van SURFnet.<br />
Hoewel het niet gebaseerd is op GATE, deelt het wel diens uitgangspunten, in de zin van <strong>een</strong> formaatonafhankelijk,<br />
grafisch API (application programming interface), waarbinnen <strong>een</strong> groot aantal, vaak reeds<br />
61
estaande tools en corpora kunnen worden ’ingeplugd’ door middel van abstractie van de diverse inputformaten.<br />
Het project voegt hier twee nieuwe elementen aan toe:<br />
toegang tot tijdgebaseerde media Aangezien GATE is gebaseerd op tekstuele bronnen, worden links<br />
geëffectueerd op het woordniveau. Aangezien in toenemende mate audio- en videodata de eigenlijke<br />
bronbestanden gaan vormen, is het nodig snelle toegang te krijgen tot fragmenten en features gebaseerd<br />
op de tijdcodes in het signaal. Alle annotaties moeten dus gesynchroniseerd worden met de byte offsets<br />
van het digitale signaal, niet met de afgeleide transcriptie(s).<br />
gedistribueerde toegang Immers, bij talloze internationale ontwikkelprojecten – maar ook bij end-user<br />
toegang tot steeds in omvang toenemende multimediale databases – wordt het steeds wenselijker dat<br />
deelnemers binnen één virtuele Internet-omgeving samen kunnen werken, ongehinderd door gescheiden<br />
locaties en verschillende computerinfrastructuur.<br />
Binnen dit model is ook de mogelijkheid van toegang tot klassen van corpora via meta-informatie expliciet<br />
gemaakt. De gebruiker kan zo <strong>een</strong> zoekaktie beperken tot <strong>een</strong> bepaalde taal, tijd, genre of type spreker,<br />
waarna de server de bewuste corpora of relevante delen daarvan naar de gebruiker downloadt.<br />
Vanwege het doel van uniforme Internet-toegang is gekozen voor Java als implementatietaal.<br />
Zie verder de URLs:<br />
http://www.mpi.nl/world/tg/lapp/lapp.html<br />
http://www.mpi.nl/world/tg/lapp/eudico/eudico.html<br />
6.3 De Edinburgh Language Technology Group<br />
De Edinburgh Language Technology Group houdt zich o.a. bezig met het ontwikkelen van applicaties voor<br />
het annoteren en ontsluiten van grote taalcorpora. Zij concentreren zich hierbij, zowel op het theoretische als<br />
op het praktische vlak, op het ontwikkelen van standaards en tools gebaseerd op SGML en XML. Zij hebben<br />
in die hoedanigheid bijgedragen aan het W3C en het ISO-overleg over de uitwerking van deze standaards.<br />
De LT XML-toolset omvat <strong>een</strong> XML-editor, <strong>een</strong> parser (voor validatie van documenten), <strong>een</strong> viewer<br />
voor zowel de sequentiële als de hiërarchische tekststructuur, <strong>een</strong> tokenizer en <strong>een</strong> document-zoektaal. Het<br />
is geschreven in C, en draait op UNIX, Windows95 en Windows NT. Daarnaast produceert de groep ook<br />
meer specifiek op linguïstisch onderzoek gerichte taggers, parsers, software voor het schrijven van formele<br />
grammatica’s en boomdiagrameditors en -viewers.<br />
De programma’s zijn gratis down te loaden voor academisch gebruik na het ondertekenen van <strong>een</strong> gebruikersover<strong>een</strong>komst.<br />
De toolset wordt momenteel gebruikt door ongeveer 1500 academische en commerciële<br />
instellingen in de wereld.<br />
Zie:<br />
http://www.ltg.ed.ac.uk/software/index.html<br />
6.4 Het Paper A Formal Framework for Linguistic Annotation<br />
In hun paper A Formal Framework for Linguistic Annotation (Bird & Liberman, 1999) presenteren Steven<br />
Bird en Mark Liberman van het Linguistic Data Consortium <strong>een</strong> logisch raamwerk voor linguïstische<br />
annotatie in de vorm van <strong>een</strong> annotation graph, waarbinnen allerlei bestaande corpusfileformaten en annotatietypen<br />
(ook transcripties) te representeren zouden zijn. Zij richten zich hierbij vooral op tijdgebaseerde<br />
bronbestanden zoals audio, video en fysiologische opnames (b.v. 3D-gebarenopnames). Het sluit hiermee<br />
duidelijk aan bij het werk van het MPI zoals vervat in EUDICO.<br />
62
Zij poneren de stelling:<br />
The one thing that ties all of the time series data together is a shared time base. To use these<br />
arbitrarily diverse data streams [nl. soorten annotatie en transcriptie], we need to be able to line<br />
them up time-wise. The shared time base is also the only pervasive and systematic connection<br />
such data is likely to have with annotations of the type we are discussing in this paper. (1999: 26)<br />
Zie voor verschillende formaten van het document:<br />
http://xxx.lanl.gov/abs/cs.CL/9903003<br />
Er is inmiddels <strong>een</strong> voorstel ingediend bij de NSF (National Science Foundation) om dit idee en <strong>een</strong> bijbehorende<br />
toolbox verder uit te breiden. Daarmee zou het, ook gezien de leidende rol van het LDC, wel <strong>een</strong>s<br />
<strong>een</strong> heel invloedrijk project kunnen worden.<br />
6.5 Het Zweedse <strong>Gesproken</strong> Corpus Project<br />
Dit project wordt geleid door Jens Allwood aan de Universiteit van Göteborg. Wat dit corpus bijzonder<br />
maakt is niet zozeer zijn grootte (1,2 miljoen tokens), als wel de gedegen opzet. Zo is er <strong>een</strong> opdeling naar diverse<br />
activiteiten, om zo systematische verschillen in uitspraak, vocabulaire en syntax op het spoor te komen.<br />
Verder zijn gedetailleerde protocols voorhanden voor orthografische transcriptie (inclusief de behandeling van<br />
uitspraakvariatie op vier niveaus: standaard-orthografie, modified standard, fonematisch, fonetisch), markering<br />
van sprekerwisseling en -overlap, niet-verbale klanken, enz. Deze zijn on-line opvraagbaar, voor <strong>een</strong> deel<br />
in het Engels. Daarnaast wordt er gewerkt aan <strong>een</strong> toolset, waaronder transcriptiesoftware (TransTool, geschreven<br />
in Tcl/Tk, downloadable) en pakketten voor tijdsynchrone codering en presentatie van multimedia<br />
en transcripties.<br />
Zie:<br />
6.6 Het Hyperlex Project<br />
http://www.ling.gu.se/SLSA/SLcorpus.html<br />
Steven Bird heeft baanbrekend werk verricht op het gebied van presentatie van doorzoekbare lexica in HTMLformulier-formaat.<br />
Hierin kunnen restricties worden gespecificeerd op orthografie, fonologie, morfologie etc.<br />
in de vorm van extended reguliere expressies (ondersteund door <strong>een</strong> Perl cgi-bin script). Ook kan het<br />
gesproken signaal worden afgespeeld (weliswaar slechts via hyperlinks naar individuele audiofiles). Zie Bird<br />
(1997).<br />
Zie:<br />
7 Referenties<br />
http://www.ldc.upenn.edu/hyperlex/<br />
Atkins, B.T.S., J. Clear & N. Ostler (1992). Corpus Design Criteria. In: Literary and Linguistic Computing,<br />
Journal of the Association for Literary and Linguistic Computing 7, 1: 1-16.<br />
Bird, S. (1997). A Lexical Database Tool for Quantitative Phonological Research. In: Proceedings of the Third<br />
Meeting of the ACL Special Interest Group in Computational Phonology. July 1997: 33-39.<br />
Bird, S. & M. Liberman (1999). A Formal Framework for Linguistic Annotation. Technical Report MS-CIS-99-<br />
01. Department of Computer and Information Science, Linguistic Data Consortium, University of Pennsylvania.<br />
Boogaart, P.C. Uit den (1975). Woordfrequenties: in Geschreven en <strong>Gesproken</strong> Nederlands. Utrecht: Oosthoek,<br />
Scheltema & Holkema.<br />
63
Bouma, G. & I. Schuurman (1998). De Positie van het Nederlands in Taal- en Spraaktechnolgie. Rapport in<br />
opdracht van de <strong>Nederlandse</strong> Taalunie.<br />
Burnard, L. (ed.) (1995). Users Reference Guide for the British National Corpus. Oxford: Oxford University<br />
Computing Services.<br />
Chafe, W.L., J.W. Du Bois & S.A. Thompson (1991). Towards a New Corpus of Spoken American English.<br />
In: K. Aijmer & B. Altenberg (eds.) English Corpus Linguistics: Studies in Honour of Jan Svartvik.<br />
London/New York: Longman, 64-82.<br />
Crowdy, S. (1995). The BNC Spoken Corpus. In: Leech et al., 224-234.<br />
Cunningham, H., Y. Wilks & R.J. Gaizauskas (1996). New Methods, Current Trends and Software Infrastructure<br />
for NLP. In: Proceedings of the 2nd Conference on New Methods in Natural Language Processing (NeMLaP-<br />
2), Bilkent University.<br />
Cunningham, H., K. Humphreys, Y. Wilks & R. Gaizauskas (1997). Software Infrastructure for Natural Language<br />
Processing. In. Proceedings of the Fifth Conference on Applied Natural Language Processing (ANLP-<br />
97).<br />
De Vriendt-De Man, M.J. (1969). Frequentie van Woorden en Structuren in Spontaan <strong>Gesproken</strong> Nederlands.<br />
Brussel: Didier.<br />
Edwards, J.A. (1992). Computer Methods in Child Language Research: Four Principles for the Use of Archived<br />
Data.Journal of Child Language 19, 435-458.<br />
Edwards, J.A. (1995). Principles and Alternative Systems in the Transcription, Coding and Mark-up of Spoken<br />
Discourse. In: Leech et al., 19-34.<br />
Feldweg, H. (1992). The European Science Foundation Second Language Databank. Ongepubliceerd document,<br />
MPI Nijmegen.<br />
Gibbon, D., R. Moore & R. Winski (eds.) (1997). Handbook of Standards and Resources for Spoken Language<br />
Systems. Berlin/New York: Mouton de Gruyter.<br />
Goldfarb, C.F. & P. Prescod (1998). The XML Handbook. Upper Saddle River, NJ: Prentice Hall PTR.<br />
Hart, J. ’t, R. Collier & A. Cohen (1990). A Perceptual Study of Intonation. Cambridge: Cambridge University<br />
Press.<br />
Gr<strong>een</strong>baum, S. (1991). The Development of the International Corpus of English. In: K. Aijmer & B. Altenberg<br />
(eds.) English Corpus Linguistics: Studies in Honour of Jan Svartvik. London/New York: Longman.<br />
Heikens, H. (1978). Een Sociolinguïstisch Opgebouwd Corpus Amsterdamse Spreektaal. In: Taal en Tongval<br />
30, 36-49.<br />
Jong, E.D. de (1979). Spreektaal: Woordfrequenties in <strong>Gesproken</strong> Nederlands. Utrecht: Bohn, Scheltema &<br />
Holkema.<br />
Knowles, G., B. Williams & L. Taylor (eds.) (1996). A Corpus of Formal British English Speech: the Lancaster/IBM<br />
Spoken English Corpus. London/New York: Longman.<br />
Kohler, K., M. Pätzold & A. Simpson (1995). From Scenario to Segment: The Controlled Elicitation, Transcription,<br />
Segmentation and Labelling of Spontaneous Speech. Arbeitsberichte (AIPUK) 29, Institut für Phonetik<br />
und Digitale Sprachverarbeitung, IPDS, Universität Kiel, Duitsland.<br />
Leech, G. (ed.) (1990). Proceedings of a Workshop on Corpus Resources. Wadham College, Oxford: DTI/Speech<br />
and Language Technology Club.<br />
Leech, G., G. Myers & J. Thomas (eds.) (1995). Spoken English on Computer: Transcription, Mark-up and<br />
Application. Harlow/New York: Longman.<br />
Linssen-Maes, A. & G. Redeker (1992). Interruptiegedrag van Vrouwen en Mannen in Radio- en Televisiediscussies.<br />
In: Gramma/TTT - Tijdschrift voor Taalwetenschap 1, 133-148.<br />
MacWhinney, B. (1995). The CHILDES Project: Tools for Analyzing Talk. Hillsdale(USA)/Hove(UK): Lawrence<br />
Erlbaum Associates.<br />
Redeker, G. (1992). ’Kleine woordjes’ in spontaan taalgebruik - stoplapjes of signalen voor de lezer/luisteraar?<br />
In: Toegepaste Taalwetenschap in Artikelen, 43, 55-65.<br />
Redeker, G. & A. Maes (1996). Gender Differences in Interruptions. In: D. Slobin et al. (eds.) Social Interaction,<br />
Social Context and Language, 597-612.<br />
Roach, P. & S. Arnfield (1995). Linking Prosodic Transcription to the Time Dimension. In: Leech et al., 1995:<br />
149-160.<br />
64
Roach, P., G. Knowles, T. Varadi & S. Arnfield (1993). MARSEC: A Machine-Readable Spoken English Corpus<br />
In: Journal of the International Phonetic Association 23(2): 47-53.<br />
Schaerlaekens, A.M. (1973). The Two-Word Sentence in Child Language Development: a Study Based on Evidence<br />
Provided by Dutch-speaking Triplets. The Hague/Paris: Mouton.<br />
Silverman, K., M. Beckman, J. Pitrelli, M. Ostendorf, C. Wightman, P. Price, J. Pierrehumbert & J. Hirshberg<br />
(1993). TOBI: A standard for labeling English prosody. In: Proc. Intern. Conf. on Spoken Language<br />
Processing, Banff, Alberta, Canada, 12-16 October 1993, 867-870.<br />
Sinclair, J. (1995). From Theory to Practice. In: Leech et al., 99-109.<br />
Sperberg-McQu<strong>een</strong>, C.M. & L. Burnard (1994). Guidelines for Electronic Text Encoding and Interchange (TEI<br />
P3). Vols. I+II. Chicago/Oxford: Text Encoding Initiative.<br />
Spraak- en Taaltechnologie voor het Nederlands (1993). Nota Vlaamse regering.<br />
Van de Velde, H. (1996). Variatie en Verandering in het <strong>Gesproken</strong> Standaard Nederlands (1935-1993). Proefschrift<br />
Katholieke Universiteit Nijmegen.<br />
65