20.09.2013 Views

Klassificeren van referenties in wetteksten - Leibniz Center for Law ...

Klassificeren van referenties in wetteksten - Leibniz Center for Law ...

Klassificeren van referenties in wetteksten - Leibniz Center for Law ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Klassificeren</strong> <strong>van</strong> <strong>referenties</strong> <strong>in</strong><br />

<strong>wetteksten</strong><br />

2 november 2007<br />

Bachelor Afstudeer Project<br />

Opleid<strong>in</strong>g Kunstmatige Intelligentie<br />

Universiteit <strong>van</strong> Amsterdam<br />

David de Bos (0382930)<br />

dbos@science.uva.nl<br />

Begeleiders<br />

Radboud W<strong>in</strong>kels<br />

R.G.F.W<strong>in</strong>kels@uva.nl<br />

Emile de Maat<br />

e.demaat@uva.nl


Introductie<br />

Indien <strong>in</strong> het geval als bedoeld <strong>in</strong> artikel 3, eerste lid, onderdeel b, het<br />

karakter <strong>van</strong> landgoed niet <strong>in</strong> ernstige mate is aangetast kunnen Onze<br />

M<strong>in</strong>isters bij gezamenlijke beschikk<strong>in</strong>g, <strong>in</strong> afwijk<strong>in</strong>g <strong>in</strong> zoverre <strong>van</strong><br />

het eerste lid, een kortere termijn <strong>van</strong> ten hoogste 5 jaren vaststellen en<br />

kunnen zij daarbij voorwaarden stellen. Alsdan v<strong>in</strong>den de artikelen 8<br />

en 9c geen toepass<strong>in</strong>g. Ingeval de <strong>in</strong> de eerste volz<strong>in</strong> bedoelde aantast<strong>in</strong>g<br />

<strong>van</strong> het karakter <strong>van</strong> landgoed voortvloeit uit omstandigheden die het<br />

gevolg zijn <strong>van</strong> overmacht, wordt bovendien voor de toepass<strong>in</strong>g <strong>van</strong><br />

artikel 5.7, eerste lid, onderdeel c, <strong>van</strong> de Wet <strong>in</strong>komstenbelast<strong>in</strong>g<br />

2001 en <strong>van</strong> artikel 220d, eerste lid, onderdeel d, <strong>van</strong> de<br />

Gemeentewet de onroerende zaak of het desbetreffende gedeelte daar<strong>van</strong><br />

gelijkgesteld met een landgoed.<br />

- stuk uit Artikel 4 <strong>van</strong> de Natuurschoonwet 1928<br />

Dit project was onderdeel <strong>van</strong> het onderzoek dat gedaan wordt door het <strong>Leibniz</strong><br />

<strong>Center</strong> <strong>for</strong> <strong>Law</strong> aan de Universiteit <strong>van</strong> Amsterdam. Hun hoofddoel is het<br />

zoeken naar manieren om <strong>wetteksten</strong> te vertalen naar <strong>for</strong>mele talen. Eén <strong>van</strong> de<br />

onderdelen hierbij gaat over <strong>referenties</strong>. Wetteksten zijn met elkaar verbonden<br />

door middel <strong>van</strong> <strong>referenties</strong>. Bijvoorbeeld def<strong>in</strong>ities <strong>in</strong> een eerder beschreven<br />

artikel kunnen <strong>in</strong> andere artikelen geïmporteerd worden (‘als bedoeld <strong>in</strong> artikel 3,<br />

eerste lid, onderdeel b’); of artikelen kunnen niet <strong>van</strong> toepass<strong>in</strong>g verklaard<br />

worden b<strong>in</strong>nen een bepaalde context (‘Alsdan v<strong>in</strong>den de artikelen 8 en 9c geen<br />

toepass<strong>in</strong>g.’).<br />

Eerder onderzoek gedaan door Emile de Maat [2] heeft een parser opgeleverd<br />

die <strong>referenties</strong> <strong>in</strong> <strong>wetteksten</strong> kan detecteren. Mijn onderzoek bouwt hierop voort<br />

en heeft als doel de gevonden <strong>referenties</strong> te klassificeren.<br />

Het detetecteren <strong>van</strong> <strong>referenties</strong> gebeurde met behulp <strong>van</strong> een grammatica: een<br />

stuk tekst wordt als referentie gezien, als het stuk tekst kan worden ontleed<br />

volgens de regels <strong>van</strong> de grammatica. Deze grammaticaregels zijn met de hand<br />

gemaakt, na het bestuderen <strong>van</strong> de structuur <strong>van</strong> <strong>referenties</strong>. Deze aanpak<br />

leverde een resultaat op <strong>van</strong> meer dan 95% gedetecteerde <strong>referenties</strong>.<br />

Eenzelfde aanpak heb ik gebruikt voor het klassificeren <strong>van</strong> de <strong>referenties</strong>. Iedere<br />

klasse heeft z’n eigen grammaticaregels. Wanneer een referentie en omliggende<br />

tekst herschreven kunnen worden volgens die regels, wordt de referentie als<br />

zodanig geklassificeerd. Hoewel klassificatie lastiger is dan detectie, is de<br />

verwacht<strong>in</strong>g dat eenzelfde resultaat behaald kan worden.


Het verslag is als volgt opgebouwd. In sectie 1 wordt besproken hoe de<br />

patronen, aan de hand waar<strong>van</strong> klassificatie gaat plaatsv<strong>in</strong>den, gevonden zijn.<br />

Daarop volgt een besprek<strong>in</strong>g <strong>van</strong> de gekozen klasse-<strong>in</strong>del<strong>in</strong>g. Sectie 3 behandelt<br />

de uite<strong>in</strong>delijke grammaticaregels en hoe deze regels geïmplementeerd zijn <strong>in</strong> een<br />

parser. Daarna worden de resultaten besproken en wordt afgesloten met een<br />

conclusie.<br />

1 Patronen<br />

Klassificatie gebeurt altijd op basis bepaalde eigenschappen en kenmerken.<br />

Kenmerken <strong>van</strong> <strong>referenties</strong> zijn: de naam <strong>van</strong> de wet waarnaar verwezen wordt,<br />

de naam <strong>van</strong> de wet waar<strong>in</strong> de referentie voorkomt of de woorden voor en na de<br />

referentie. Dit laatste kenmerk is de meest logische om de klassificatie op te<br />

baseren. Aan de hand <strong>van</strong> de woorden die voor (prefix) of na (postfix) een<br />

referentie voorkomen (of eventueel beide) lijkt het mogelijk om te bepalen om<br />

wat voor soort referentie het gaat. Eén <strong>van</strong> de eerste onderdelen <strong>in</strong> het project<br />

was dus om een grote verzamel<strong>in</strong>g patronen te maken.<br />

Voor het verzamelen <strong>van</strong> de patronen zijn 16 <strong>wetteksten</strong> gebruikt. Deze<br />

<strong>wetteksten</strong> zijn door de bestaande parser gehaald om alle <strong>referenties</strong> te<br />

detecteren. Dit leverde een totaal <strong>van</strong> 4536 <strong>referenties</strong> op. Van iedere referentie<br />

moest vervolgens de prefix en postfix bepaald worden. Dit proces moest<br />

handmatig gedaan worden: een computer kan namelijk niet zien waar de prefix<br />

beg<strong>in</strong>t en de postfix e<strong>in</strong>digt. Om deze reden heb ik een willekeurige selectie <strong>van</strong><br />

500 <strong>referenties</strong> gemaakt, die met de hand bestudeerd en de rele<strong>van</strong>te patronen<br />

<strong>van</strong> prefix / postfix opgeschreven. Bijvoorbeeld de z<strong>in</strong> “Alsdan v<strong>in</strong>den de<br />

artikelen 8 en 9c geen toepass<strong>in</strong>g.”, leverde een prefix ‘v<strong>in</strong>den’, een referentie<br />

‘artikelen 8 en 9c’ en een postfix ‘geen toepass<strong>in</strong>g’ op.<br />

Op deze wijze zijn 119 unieke patronen gevonden. Aardig hierbij te vermelden is<br />

dat <strong>in</strong> het beg<strong>in</strong> <strong>van</strong> deze zoektocht vaker een nieuw uniek patroon gevonden<br />

werd, zoals natuurlijk te verwachten is. Echter, ook aan het e<strong>in</strong>d <strong>van</strong> het<br />

zoekproces bleven regelmatig nieuwe patronen opduiken, vaak kle<strong>in</strong>e<br />

(taalkundige) variaties op reeds gevonden patronen. Daarom is het erg<br />

aannemelijk dat de gevonden 119 patronen niet alle mogelijke patronen zijn.<br />

Als je maar lang genoeg doorzoekt, is het <strong>in</strong> theorie mogelijk om alle patronen te<br />

v<strong>in</strong>den. Ik vraag mij alleen sterk af of dit praktisch gezien haalbaar is. Meer<br />

hierover zal ik <strong>in</strong> de conclusie bespreken.


2 Klasse-<strong>in</strong>del<strong>in</strong>g<br />

Om de <strong>referenties</strong> te kunnen klassificeren moet je een klasse-<strong>in</strong>del<strong>in</strong>g hebben. In<br />

[2] is al een voorstel voor een mogelijke <strong>in</strong>del<strong>in</strong>g gemaakt. Deze is gebaseerd op<br />

de <strong>in</strong>houdelijke verschillen tussen de <strong>referenties</strong>. Er wordt onderscheid gemaakt<br />

tussen normatieve <strong>referenties</strong>, meta-normatieve <strong>referenties</strong>, delegerende<br />

<strong>referenties</strong>, levensduur <strong>referenties</strong> en <strong>in</strong><strong>for</strong>matieve <strong>referenties</strong>. Zie [2] voor een<br />

uitgebreide beschrijv<strong>in</strong>g <strong>van</strong> deze klassen.<br />

Een andere manier is om te kijken naar uite<strong>in</strong>delijke toepass<strong>in</strong>gen. Als een<br />

wettekst namelijk <strong>in</strong> een <strong>for</strong>mele taal gepresenteerd wordt aan een gebruiker,<br />

kunnen <strong>referenties</strong> gebruikt worden voor verschillende doelen. Ze kunnen<br />

bijvoorbeeld gebruikt worden om door te klikken naar een wettekst, of om een<br />

lijst te krijgen <strong>van</strong> alle <strong>wetteksten</strong> die op een bepaald artikel <strong>van</strong> toepass<strong>in</strong>g zijn.<br />

De klasse-<strong>in</strong>del<strong>in</strong>g die ik voorstel is gebaseerd op zowel de <strong>in</strong>houdelijke<br />

verschillen als de verschillende toepass<strong>in</strong>gen.<br />

Klasse Voorbeeld patroon Toepass<strong>in</strong>g<br />

Toepass<strong>in</strong>g als ... <strong>van</strong> toepass<strong>in</strong>g is Lijst <strong>van</strong> <strong>wetteksten</strong> die<br />

<strong>van</strong> toepass<strong>in</strong>g zijn op<br />

een bepaald artikel<br />

Def<strong>in</strong>itie als bedoeld <strong>in</strong> ... Hyperl<strong>in</strong>k naar wettekst<br />

of eventueel zonder<br />

hyperl<strong>in</strong>k automatisch de<br />

def<strong>in</strong>itie laten zien<br />

Gevolg <strong>in</strong>gevolge ... Hyperl<strong>in</strong>k naar wettekst<br />

Levensduur <strong>in</strong>werk<strong>in</strong>g treden <strong>van</strong> ... Lijst <strong>van</strong> <strong>wetteksten</strong> die<br />

op een bepaald moment<br />

gelden<br />

Uitzonder<strong>in</strong>g <strong>in</strong> afwijk<strong>in</strong>g <strong>van</strong> ... Lijst <strong>van</strong> <strong>wetteksten</strong> die<br />

afwijken <strong>van</strong> een bepaald<br />

artikel<br />

Onverm<strong>in</strong>derd overm<strong>in</strong>derd ... Extra aandacht voor de<br />

lezer (bv dikgedrukt)<br />

Overig waar<strong>in</strong> ... voorziet Verschillend<br />

Merk op dat ook de ontkenn<strong>in</strong>g <strong>van</strong> bovengenoemde klassen kan voorkomen.<br />

Zo wordt de referentie ‘<strong>in</strong> overeenstemm<strong>in</strong>g met ...’ geklassificeerd als<br />

(negatieve) uitzonder<strong>in</strong>g, en ‘... is niet <strong>van</strong> toepass<strong>in</strong>g’ als (negatieve) toepass<strong>in</strong>g.<br />

De klasse onverm<strong>in</strong>derd is een klasse apart. Het woord ‘onverm<strong>in</strong>derd’ voegt qua<br />

<strong>in</strong>houd namelijk niets toe aan een artikel, men kan het net zo goed weglaten. Het


wordt alleen gebruikt om nog eens extra te benadrukken dat een bepaald artikel<br />

nog steeds geldig is.<br />

Een veelvoorkomend patroon is ook ‘het bepaalde <strong>in</strong> ...’ of variaties daar op.<br />

Deze waren eerst geklassificeerd als def<strong>in</strong>itie. Echter, dit bleek niet juist. ‘het<br />

bepaalde <strong>in</strong> ...’ is namelijk onderdeel <strong>van</strong> de referentie zelf, en is niet onderdeel<br />

<strong>van</strong> het patroon waarop <strong>referenties</strong> geklassificeerd kunnen worden. Inderdaad<br />

bleek dat wanneer je ‘het bepaalde <strong>in</strong> ...’ beschouwd als (uitgebreide) referentie,<br />

daaromheen weer de bekende patronen te v<strong>in</strong>den waren. Bijvoorbeeld: ‘Het<br />

bepaalde onder artikel 2, lid a blijft buiten toepass<strong>in</strong>g’.<br />

Tot slot een vergelijk<strong>in</strong>g met de klasse-<strong>in</strong>del<strong>in</strong>g zoals voorgesteld <strong>in</strong> [2].<br />

Klasse-<strong>in</strong>del<strong>in</strong>g <strong>in</strong> [2] Gebruikte klasse-<strong>in</strong>del<strong>in</strong>g Toepass<strong>in</strong>gen<br />

Normatief def<strong>in</strong>itie en gevolg Hyperl<strong>in</strong>ks naar <strong>wetteksten</strong><br />

toepass<strong>in</strong>g en uitzonder<strong>in</strong>g Lijst <strong>van</strong> <strong>wetteksten</strong> die een<br />

relatie hebben met een<br />

Meta-normatief<br />

bepaalde wettekst<br />

Delegerend (niet tegengekomen)<br />

levensduur Lijst <strong>van</strong> <strong>wetteksten</strong> die op<br />

een bepaald moment geldig<br />

Levensduur<br />

zijn<br />

In<strong>for</strong>matief (niet tegengekomen)<br />

Onverm<strong>in</strong>derd Extra aandacht voor de<br />

(ontbrekende klasse)<br />

lezer<br />

(ontbrekende klasse) Overig Verschillend<br />

Hieruit blijkt dat de klasse-<strong>in</strong>del<strong>in</strong>gen met elkaar overeenkomen, wanneer je ze<br />

groepeert op toepass<strong>in</strong>g.<br />

3 Grammaticaregels<br />

De gevonden patronen zijn vervolgens omgezet naar grammaticaregels. De<br />

gewenste non-term<strong>in</strong>al noemen we citeFull (een volledige referentie), met als<br />

attribuut de klasse. Een citeFull kan worden herschreven:<br />

citeFull(klasse)


citeExtended is een uitgebreide referentie; namelijk de referentie zoals gevonden<br />

door de parser <strong>van</strong> De Maat <strong>in</strong>clusief de woorden ‘het bepaalde <strong>in</strong>...’ en variaties<br />

daarop (zie sectie 2). Als zo’n patroon niet voorkomt, dan is citeExtended gelijk<br />

aan de orig<strong>in</strong>ele cite (de referentie). Hieronder ter illustratie drie soorten<br />

uitgebreide <strong>referenties</strong>:<br />

citeExtended


4.2 Uitvoer<br />

De uitvoer is hetzelfde bestand als de <strong>in</strong>voer, maar dan met extra tags<br />

toegevoegd die aangeven waar een (volledige) referentie beg<strong>in</strong>t en tot welke<br />

klasse de referentie behoort. Tevens is er een tag toegevoegd die de orig<strong>in</strong>ele<br />

<strong>referenties</strong> uitbouwt naar een uitgebreide referentie, zoals besproken <strong>in</strong> sectie 3.<br />

Ter verduidelijk<strong>in</strong>g zullen nu twee voorbeelden behandeld worden.<br />

Invoer:<br />

Alsdan v<strong>in</strong>den de artikelen 8 en 9c geen toepass<strong>in</strong>g.<br />

Uitvoer:<br />

Alsdan v<strong>in</strong>den de artikelen 8 en<br />

9c geen toepass<strong>in</strong>g.<br />

Invoer:<br />

...de schuldsaner<strong>in</strong>gsregel<strong>in</strong>g e<strong>in</strong>digt op grond <strong>van</strong> het bepaalde <strong>in</strong> artikel 312,<br />

tweede lid.<br />

Uitvoer<br />

...de schuldsaner<strong>in</strong>gsregel<strong>in</strong>g e<strong>in</strong>digt op grond <strong>van</strong><br />

het bepaalde <strong>in</strong> artikel 312, tweede<br />

lid.<br />

Merk op dat de pre- en postfix niet apart getagged zijn. Hun tag volgt namelijk<br />

logisch uit de positie ten opzichte <strong>van</strong> de (uitgebreide) referentie.<br />

4.3 Werk<strong>in</strong>g <strong>van</strong> de parser<br />

Aangezien de <strong>in</strong>voer een MetaLex bestand is en daar<strong>in</strong> z<strong>in</strong>nen al getagged zijn,<br />

leek het z<strong>in</strong>vol om de parser alleen z<strong>in</strong>nen te laten verwerken, en deze z<strong>in</strong>nen één<br />

voor één aan de parser te geven. Daarnaast treden patronen nooit op buiten één<br />

z<strong>in</strong> en voorkom je dus op deze manier dat de parser dat per ongeluk wel doet.<br />

Het implementeren <strong>van</strong> de grammatica <strong>in</strong> de eigenlijke parser is gedaan met<br />

behulp <strong>van</strong> JavaCC (Java Compiler Compiler), een programma waarmee parsers<br />

gegenereerd kunnen worden. De parser <strong>van</strong> De Maat is ook hier<strong>in</strong><br />

geprogrammeerd, <strong>van</strong>daar dat het een logische stap was om hiermee verder te<br />

gaan. In JavaCC kan je gebruik maken <strong>van</strong> zowel grammaticaregels, als <strong>van</strong><br />

reguliere expressies en pure javacode. Reguliere expressies zijn gebruikt om<br />

tokens te detecteren, grammaticaregels om de <strong>referenties</strong> te klassificeren, en<br />

vooral om de <strong>in</strong>voer en uitvoer te regelen.


5 Resultaten<br />

De parser is getest op de Natuurschoonwet 1928, waar<strong>in</strong> 92 <strong>referenties</strong><br />

voorkwamen. De resultaten <strong>van</strong> klassificatie waren als volgt:<br />

Klasse Frequentie<br />

Def<strong>in</strong>itie 22<br />

Toepass<strong>in</strong>g 8<br />

Gevolg 10<br />

Levensduur 0<br />

Onverm<strong>in</strong>derd 0<br />

Uitzonder<strong>in</strong>g 4<br />

Overig 52<br />

Zoals reeds gezegd is er slechts 1 wettekst gebruikt om de parser te testen.<br />

Hierdoor kan er we<strong>in</strong>ig gezegd worden over trends b<strong>in</strong>nen <strong>wetteksten</strong> <strong>in</strong> het<br />

algemeen.<br />

Wat wel direct opvalt is dat meer dan de helft <strong>van</strong> de <strong>referenties</strong> geklassificeerd<br />

zijn als ‘Overig’. Dat betekent dat meer dan de helft <strong>van</strong> de <strong>referenties</strong> eigenlijk<br />

niet geklassificeerd zijn. Om meer <strong>in</strong>zicht <strong>in</strong> de onderliggende problemen te heb<br />

ik de categorie ‘overig’ opgesplitst <strong>in</strong> vijf groepen, zodat een overzicht gekregen<br />

wordt <strong>in</strong> aantallen waar de problemen nog zitten.<br />

Probleem Frequentie<br />

Technisch probleem 10<br />

Samengestelde referentie 10<br />

Onbekend patroon 14<br />

Onvolledige referentie 13<br />

Werkelijk ‘overig’ 5<br />

Allereerst zijn er dus m<strong>in</strong> of meer triviale problemen <strong>van</strong> technische aard. De<br />

tokenizer <strong>van</strong> de parser maakt bijvoorbeeld onderscheid tussen spaties en enters.<br />

Als een patroon over meer dan 1 regel doorloopt, slaagt de parser er niet altijd <strong>in</strong><br />

dit op te <strong>van</strong>gen. In sommige gevallen wel, maar <strong>in</strong> de meeste gevallen niet.<br />

Waarom dit gebeurt moet nog onderzocht worden, maar dit beïnvloedt de<br />

prestaties <strong>van</strong> de parser behoorlijk.<br />

Daarnaast zijn er drie <strong>in</strong>houdelijke problemen. Ten eerste komen <strong>referenties</strong> vaak<br />

gecomb<strong>in</strong>eerd voor, zoals ‘...dan is artikel 3 <strong>van</strong> de Natuurschoonwet en artikel<br />

24 <strong>van</strong> het Burgelijk Wetboek niet <strong>van</strong> toepass<strong>in</strong>g.’. Alleen <strong>in</strong> de gevallen waar<strong>in</strong><br />

‘artikel 3 <strong>van</strong> de Natuurschoonwet en artikel 24 <strong>van</strong> het Burgelijk Wetboek’


volledig als 1 referentie gedetecteerd wordt, zal mijn parser deze referentie juist<br />

klassificeren. Waneer ‘artikel 3 <strong>van</strong> de Natuurschoonwet en artikel 24 <strong>van</strong> het<br />

Burgelijk Wetboek’ opgesplitst is <strong>in</strong> 2 losse <strong>referenties</strong>, dan zal mijn parser beide<br />

<strong>referenties</strong> niet kunnen klassificeren. Dit kan opgelost worden door een aantal<br />

extra grammaticaregels op te nemen, die 2 <strong>referenties</strong> en een voegwoord<br />

herschrijft naar 1 (samengestelde) referentie.<br />

Een tweede <strong>in</strong>houdelijk probleem betreft het aantal patronen. Zoals eerder al<br />

gedacht, blijkt nu ook uit de resultaten dat niet alle patronen al gevonden zijn.<br />

Referenties met nieuwe patronen zullen dus als ‘Overig’ geklassificeerd worden.<br />

Het laatste probleem betreft de <strong>in</strong>voer. Nog niet alle <strong>referenties</strong> worden juist<br />

gedetecteerd; bijna álle <strong>referenties</strong> worden wel gedetecteerd, maar niet altijd<br />

volledig. Dus tekst die eigenlijk onderdeel is <strong>van</strong> de referentie, wordt nu gebruikt<br />

als pre- of postfix, en daardoor faalt de klassificatie. Eigenlijk zou de parser <strong>van</strong><br />

De Maat dus nog aangepast moeten worden.<br />

Hier staat tegenover dat de <strong>referenties</strong> die wél geklassificeerd zijn 100% correct<br />

zijn. Er zijn namelijk geen patronen uit de ene klasse, die overeenkomen met<br />

patronen uit een andere klasse. Hierdoor heb je gegarandeerd de juiste klasse<br />

gekozen wanneer een patroon gevonden wordt.<br />

6 Conclusie<br />

De conclusie zal helaas moeten zijn dat de parser op dit moment nog niet<br />

voldoende presteert. Mijn verwacht<strong>in</strong>g is echter dat deze methode wél bruikbaar<br />

is, aangezien <strong>wetteksten</strong> een redelijk strakke structuur hebben, en er niet een<br />

volledig vrije / natuurlijke taal gebruikt wordt. Hierdoor lijkt het mij dat het<br />

aantal patronen e<strong>in</strong>dig is, en ook daarmate kle<strong>in</strong> dat je ze allemaal op kan<br />

schrijven. Daarnaast zou het gebruik <strong>van</strong> sparse-datatechnieken nog een<br />

mogelijkheid kunnen zijn om de <strong>referenties</strong> die als ‘Overig’ geklassificeerd<br />

worden, alsnog aan een andere klasse toe te wijzen.<br />

Verder zijn de problemen die de slechte prestaties veroorzaken niet<br />

onoverkomenlijk. De technische problemen zijn makkelijk op te lossen;<br />

onvolledige <strong>referenties</strong> behoren tot het probleem <strong>van</strong> <strong>referenties</strong> detecteren (en<br />

mijn klassificatie gaat er<strong>van</strong> uit dat dat probleem reeds opgelost is); en het<br />

probleem <strong>van</strong> samengestelde <strong>referenties</strong> is eigenlijk ook een ander probleem. Wel<br />

problemen die opgelost dienen te worden, maar die <strong>in</strong> weze niets met het<br />

klassificatie probleem te maken hebben.<br />

Na dit onderzoek zijn er verder nog volop mogelijkheden om door te gaan. Men<br />

kan kijken naar andere juridische bronnen, zoals jurispredentie. Volstaat daar<br />

dezelfde klasse-<strong>in</strong>del<strong>in</strong>g? V<strong>in</strong>d je daar dezelfde patronen?


Of men kan proberen het detecteren en klassificeren <strong>van</strong> <strong>referenties</strong> eens op een<br />

andere manier aan te pakken. In plaats <strong>van</strong> handmatig opgeschreven<br />

grammaticaregels, valt te denken aan Mach<strong>in</strong>e Learn<strong>in</strong>g technieken die<br />

gespecialiseerd zijn <strong>in</strong> patroon herkenn<strong>in</strong>g, zoals Rapier [3].<br />

Al met al een boeiend onderzoeksgebied waar nog volop te ontdekken valt. En ik<br />

heb geprobeerd mijn steentje daar aan bij te dragen.<br />

Referenties<br />

[1] de Maat, E., W<strong>in</strong>kels, R., <strong>van</strong> Engers, T.. Hoofdstuk _Us<strong>in</strong>g NLP <strong>in</strong> LKS_ v3.4.pdf<br />

(nog niet gepubliceerd)<br />

[2] de Maat, E., W<strong>in</strong>kels, R., <strong>van</strong> Engers, T.. Automated Detection of Reference<br />

Structures <strong>in</strong> <strong>Law</strong>.<br />

[3] Califf, M.E., Mooney, R.J.. Bottom-Up Relational Learn<strong>in</strong>g of Pattern Match<strong>in</strong>g<br />

Rules <strong>for</strong> In<strong>for</strong>mation Extraction, Journal of Mach<strong>in</strong>e Learn<strong>in</strong>g Research 4 (2003) 177-<br />

210.


Bijlage A – de grammaticaregels<br />

/***********************************************************<br />

* Grammar <strong>for</strong> classify<strong>in</strong>g references found <strong>in</strong> legal texts<br />

* Created by David de Bos<br />

* Version September 14 2007<br />

***********************************************************/<br />

// Rules <strong>for</strong> extend<strong>in</strong>g the ref<br />

... = [de bepal<strong>in</strong>gen|een bepal<strong>in</strong>g <strong>van</strong>] [ref]<br />

= [het bepaalde|het gestelde] [bij|<strong>in</strong>|onder] [ref]<br />

= <strong>in</strong> [ref] bepaalde<br />

= [het]0-1 [<strong>in</strong>|bij] [en|of] krachtens [ref] [bepaalde]0-1<br />

= het bepaalde [<strong>in</strong>|bij] [en|of] krachtens [ref]<br />

= hetgeen is bepaald <strong>in</strong> [ref]<br />

= [ref]<br />

// Toepass<strong>in</strong>gsverklar<strong>in</strong>g<br />

S = ... [is|zijn]0-1 [mede|niet|slechts|hier|ook]0-1 <strong>van</strong>(toepass<strong>in</strong>g)<br />

[overeenkomstige](toepass<strong>in</strong>g)0-1 [toepass<strong>in</strong>g(toepass<strong>in</strong>g)|toepasselijk]<br />

= [is|zijn]0-1 ... [mede|niet|slechts|hier|ook]0-1 <strong>van</strong>(toepass<strong>in</strong>g)<br />

[overeenkomstige](toepass<strong>in</strong>g)0-1 [toepass<strong>in</strong>g(toepass<strong>in</strong>g)|toepasselijk]<br />

= [v<strong>in</strong>dt|v<strong>in</strong>den] ... [overeenkomstige]0-1 toepass<strong>in</strong>g<br />

= ... [geldt|gelden] [niet]0-1<br />

= [geldt|gelden] ... [niet]0-1<br />

= ... [houdt|houden] op <strong>van</strong> toepass<strong>in</strong>g te zijn<br />

= ... verder geen toepass<strong>in</strong>g [v<strong>in</strong>dt|v<strong>in</strong>den]<br />

= ... <strong>van</strong> toepass<strong>in</strong>g verklaren<br />

= ... [niet](optioneel) <strong>van</strong> toepass<strong>in</strong>g [bleek|bleken]<br />

= ... <strong>van</strong> toepass<strong>in</strong>g [is|zijn]<br />

= ... geheel of gedeeltelijk buiten toepass<strong>in</strong>g<br />

= ... blijft buiten toepass<strong>in</strong>g<br />

// Als toegepast wordt<br />

S = bij [de]0-1 toepass<strong>in</strong>g <strong>van</strong> ...<br />

= <strong>in</strong> [het]0-1 geval [<strong>van</strong> toepass<strong>in</strong>g]0-1 <strong>van</strong> ...<br />

= <strong>in</strong>dien toepass<strong>in</strong>g is gegeven aan ...<br />

= <strong>in</strong>dien ... toepass<strong>in</strong>g [v<strong>in</strong>dt|v<strong>in</strong>den]<br />

= voor de toepass<strong>in</strong>g <strong>van</strong> ...<br />

= met [<strong>in</strong>achtnem<strong>in</strong>g|toepass<strong>in</strong>g] <strong>van</strong> ...<br />

// Def<strong>in</strong>itie<br />

S = <strong>in</strong> ...<br />

[geregelde|opgenomen|vermelde|bedoelde|genoemde|gesteld|gestelde|toegekend|toegekende|voorziene]<br />

= [als]0-1 [bedoeld|geregeld|omschreven|genoemd|gesteld] [<strong>in</strong>|onder|bij] ...<br />

= als <strong>in</strong> ... [bedoeld|bepaald|is voorgeschreven]<br />

= onder ... [bedoelde|vallen]<br />

= <strong>in</strong> de z<strong>in</strong> <strong>van</strong>…<br />

= zijn vermeld <strong>in</strong>...<br />

// Gevolgtrekk<strong>in</strong>g<br />

S = [op de voet <strong>van</strong>|<strong>in</strong>gevolge|volgens|als gevolg <strong>van</strong>|gegrond op de bepal<strong>in</strong>gen der] ...<br />

= [op grond <strong>van</strong>|<strong>in</strong>gevolge] [het bepaalde <strong>in</strong>] ...<br />

= gegrond op de bepal<strong>in</strong>gen der ...<br />

= uit ... voortvloeiende<br />

// Levensduur<br />

S = ... [Vervallen per<br />

= [<strong>in</strong>werk<strong>in</strong>gtred<strong>in</strong>g|<strong>in</strong> werk<strong>in</strong>g treden] <strong>van</strong> ...<br />

= tot toepass<strong>in</strong>g <strong>van</strong> ... over te gaan<br />

// Onverm<strong>in</strong>derd<br />

S = onverm<strong>in</strong>derd ...<br />

// Uitzonder<strong>in</strong>gen<br />

S = <strong>in</strong> afwijk<strong>in</strong>g <strong>van</strong> ...<br />

= [afwijkt|afwijken] <strong>van</strong> ...<br />

= behoudens ...<br />

= <strong>van</strong> ... kan niet worden afgeweken<br />

= ... [is|zijn] ontheven <strong>van</strong> het verbod <strong>van</strong> ...<br />

// Overeenstemm<strong>in</strong>gen<br />

S = <strong>in</strong> [strijd|overeenstemm<strong>in</strong>g] met ...<br />

= overtred<strong>in</strong>g <strong>van</strong> ...<br />

= overeenkomstig ...<br />

// alles wat niet als bovenstaand te classificeren is, classificeren we als Overig

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!