Kvalitetskontroll av klasseinndelte statistiske kart - Norsk Nettskole

Innledning 

Kvalitetskontroll av klasseinndelte statistiske kart 

Jan Ketil Rød 

Institutt for Geomatikk 

NTNU 

jan.rod@geomatikk.ntnu.no 

Statistiske kart er en type tematiske kart som fremstiller en eller et fåtall antall 

variabler. Variabelen(e) finnes lagret i en tabell som kobles mot et grensekart. Én rad i 

tabellen korresponderer vanligvis med én geografisk enhet i kartet. Både enhetens 

nivå, for eksempel fylke eller kommune, og geografisk område, for eksempel 

Trøndelag, korresponderer både for tabell og kart slik som vist i figur 1. 

KOMMUNE Navn Instpl67 

1601 Trondheim 59,6 

1612 Hemne 59,9 

1613 Snillfjord 130,6 

1617 Hitra 90,9 

1620 Frøya 63,6 

1621 Ørland 59 

1622 Agdenes 85,5 

1624 Rissa 82,7 

1627 Bjugn 93,6 

1630 Åfjord 120 

1632 Roan 67,5 

1633 Osen 75,9 

1634 Oppdal 51,3 

1635 Rennebu 70,1 

1636 Meldal 67,7 

1638 Orkdal 70,5 

1640 Røros 80,2 

1644 Holtålen 101,7 

1648 MidtreGaul 118,7 

1653 Melhus 85,3 

1657 Skaun 97,4 

1662 Klæbu 245 

1663 Malvik 74,5 

1664 Selbu 57,2 

1665 Tydal 161,8 

1702 Steinkjer 54,8 

1703 Namsos 46,4 

1711 Meråker 130 

1714 Stjørdal 77,3 

1717 Frosta 64,8 

1718 Leksvik 78,8 

1719 Levanger 53,2 

1721 Verdal 75,7 

1723 Mosvik 125 

1724 Verran 61,1 

1725 Namdalsei 74,7 

1729 Inderøy 76,1 

1736 Snåsa 90,5 

1738 Lierne 116 

1739 Røyrvik 371,8 

1740 Namsskog 109,3 

1742 Grong 101,5 

1743 Høylandet 105 

1744 Overhalla 91,9 

1748 Fosnes 118,9 

1749 Flatanger 115,7 

1750 Vikna 106,5 

1751 Nærøy 75,7 

1755 Leka 103,2 

KOMMUNE Navn Instpl67 

1601 Trondheim 59,6 

Figur 1: Kobling av tabell og kart for produksjon av statistiske kart. 

Grensekartet blir symbolisert med tegn hvis uttrykk (størrelsesvariasjon eller 

lyshetsvariasjon) korresponderer, mer eller mindre, med variabelens verdibredde. 

Fordelen med statistiske kart er at det ofte er lettere, eller kanskje først da blir mulig, å 

1

oppdage eventuelle geografiske mønstre; hvor det er høye verdier og hvor det er lave 

verdier av en bestemt variabel. Det er vanlig å skille mellom absolutte og relative 

variabelverdier. Størrelsesproporsjonale kart anbefales benyttes for å fremstille 

absolutte tallverdier mens skravurkart anbefales for å fremstille relative tallverdier. 

Absolutte tallverdier kan for eksempel være: 

• Antall individer som utgjør befolkningsmengden 

• Antall individer i en bestemt aldersgruppe eller av et bestemt kjønn 

• Antall sysselsatte totalt eller antall sysselsatte innen en bestemt sektor 

Relative verdier utrykkes ofte som prosenter og er utledede verdier fra absolutte 

verdier, som for eksempel: 

• Befolkningstetthet der absolutte befolkningstall er dividert med bebodd 

areal 

• Befolkningsandel der en bestemt gruppe av befolkningen, som for 

eksempel befolkningen over 67 år, er dividert med total befolkning 

• Sysselsetting innen en bestemt sektor dividert med total sysselsetting. 

I skravurkartet fremstilles variabelverdiene etter metaforen desto mørkere 

symbolisering desto høyere verdi. For eksempel: lys blåfarge – lav verdi, mørk 

blåfarge – høy verdi. Begrunnet ut fra øyets begrensede mulighet til å differensiere 

mellom et større antall lyshetsvariasjoner, er det blitt en kartografisk tradisjon å vise 

variabelverdiene i skravurkartet med et lavt antall klasser, typisk fire til seks klasser. 

Klasseløse eller klasseinndelte skravurkart 

Hvordan en skal klasseinndele et større antall variabelverdier til et mindre antall 

klasser er et problem som er behørig diskutert innenfor den kartografiske litteratur. De 

fleste mente det var best å ha et begrenset antall klasser, men Waldo Tobler mente at 

vi ikke burde klasseinndele overhode (Tobler, 1973). Tobler fremhevet at for 

klasseløse skravurkart korresponderer symboliseringen (‘the visual intensity’) med de 

underliggende dataverdier (‘the data intensity’) og at disse kartene dermed ikke har 

klassifikasjonsfeil (Tobler 1973, 262). Dobson kritiserte Tobler’s løsning og hevdet at 

den ikke hadde noen tilfredstillende løsning med hensyn til ”persepsjonsfeil” 

(‘perceptual error’) som var en funksjon som økte med et økende antall klasser 

(Dobson 1973, 359). 

2

Mange år senere revitaliserte Kennedy (1994) denne debatten og utfordret 

hovedargumentet for å klasseinndele, nemlig for å unngå en degenerert lesbarhet. 

Kennedy utfordret dermed påstanden om at den høye nøyaktigheten for klasseløse 

skravurkart kun var av matematisk og ikke perseptuell art. Hun konkluderte med at en 

er i stand til å regionalisere romlige mønstre i klasseløse skravurkart selv på grunn av 

det store antall klasser, samt at en er i ganske bra stand til å skille mellom 

lyshetsvariasjoner i klasseløse kart (Kennedy 1994, 19). Det siste kan dessuten enkelt 

forbedres med å implementere interaktivitet i programpakken slik at brukeren ved en 

musbevegelse over de geografiske enheter i et klasseløst kart, får frem de 

underliggende dataverdien relatert til denne enhet. Slik kan en sammenlikne 

dataverdier mellom tilgrensende enheter (nabo kommuner). En er dermed ikke 

avhengig av å diskriminere lyshetsvariasjonene for å verdi sammenlikne områder. 

Kennedy’s motivasjon for å gjenoppta debatten om klasseløse skravurkart synes å 

være at ikke alle kartprodusenter har kartografisk opplæring, noe som hun mener gjør 

debatten enda mer aktuell i dag siden tilgjengelig teknologi gjør det mulig for 

nærmest hvem som helst å produsere kart (Kennedy 1994, 16). Kartene produsert av 

slike ”nye” kartprodusenter kan være estetisk attraktive, men meget unøyaktige. 

Følgelig fremhever hun at det er en forpliktelse å kommunisere strukturen til de 

underliggende data (Kennedy 1994, 20), eller sagt på en annen måte: vi har en 

forpliktelse til å lage nøyaktige skravurkart. Jeg vil legge til at selv erfarne kart 

produsenter kan ha vanskelig å oppfylle dette, simpelthen fordi det ikke er vanlig i 

GIS eller kartografiske programpakker og ha noe system for kvalitetsrapportering. 

Dermed vet en ikke om de aktuelle skravurkart en måtte produsere kommuniserer 

strukturen til de underliggende data. 

Behov for kvalitetsrapport 

Denne presentasjonen er om kvalitetskontroll av klasseinndelte statistiske kart. Det er 

flere av de typer kart som kommer innunder benevnelsen statistiske kart hvor 

utformingen av disse kart innebærer en klasseinndeling. Imidlertid skal jeg begrense 

meg her til den mest vanlige type statistiske kart hvor klasseinndeling inngår; nemlig 

skravurkartet. Kvalitet er en viktig egenskap for alle kartografiske produkter og det 

stilles etter hvert krav til leverandører av geodata at disse skal rapportere kvaliteten på 

sine data. Dette er blitt særlig gjeldende som en følge av internasjonalt 

3

standardiseringsarbeid; når data skal deles er dokumentasjon av kvalitet viktig. 

Mindre aktivitet synes det å være rundt dokumentasjon av kartografiske 

sluttprodukter. Det er ingen grunn til å la dette være ugjort når det gjelder 

klasseinndelte skravurkart for her finnes det metoder for å dokumentere kvalitet av 

klasseinndelte skravurkart (Jenks og Caspall, 1971). 

Som allerede nevnt er det vanlig å klasseinndele variabelen som skal fremstilles i 

skravurkart for å forenkle det visuelle uttrykket slik at kartet skal være et ”effektivt 

kommunikasjonsmedium”. MacEachren kritiserer denne iveren etter forenkling, en 

kritikk jeg deler: 

‘In many cases we seem to have lost sight of the fact that maps are intended to communicate 

something about geographic reality. We have instead limited our attention to evaluating the 

reader’s ability to interpret the mapped representation of that reality. To evaluate 

‘communication effectiveness’ of a thematic map, we must first know the underlying accuracy 

of that map’ (MacEachren 1985, 38). 

I følge MacEachren (1985, 39) vil den underliggende nøyaktighet til et hvilket som 

helst kvantitativt statistisk kart være avhengig av fire faktorer: 

1. Prosedyre for kartproduksjon, 

2. Metoder for datainnsamling, 

3. Strategier for data klassifikasjon, og 

4. Symbolisering. 

Mens MacEachren’s artikkel vier spesiell oppmerksomhet til nøyaktighet relatert til 

symbolisering av skravurkart (den fjerde faktor), vies oppmerksomheten her til 

nøyaktighet relatert til data klassifikasjon (den tredje faktor). Et mål for 

klassifikasjonsnøyaktighet som er utviklet er GVF indeksen. GVF er en forkortelse 

for Goodness of Variance Fit. Før jeg kommer inn på hva denne GVF indeksen kan 

fortelle oss om klassifikasjonsnøyaktighet skal jeg motivere litt om hvorfor en bør 

angi klassifikasjonsnøyaktigheten. Jeg skal gjennomføre denne motivasjonen med 

utganspunkt i to ”case” som jeg har hentet fra programpakken Statistisk Sett – Utforsk 

Norge på egen hånd som er utviklet av Statens Kartverk, Statistisk Sentralbyrå og 

Geodata. Statistiske data og kartdata fra disse to ”case” er også benyttet i en 

egenutviklet programpakke, GIB, for nettopp å kunne angi klassifikasjonsnøyaktighet. 

4

I figur 2 ser vi to kart som er produsert i programpakken Statistisk Sett. Begge kartene 

fremstiller variabelen befolkning per 1.1.1998, aldersgruppe 67 år og over, prosent av 

total befolkning inndelt i det samme antall klasser og med lik symbolisering, men 

metode for å klasseinndele dataverdiene er forskjellig. I kartet til venstre, som er 

prototypekartet (”default” løsning), er ”kvantil” metoden benyttet og i kartet til høyre 

er ”like intervall” metoden benyttet. Det geografiske mønsteret er ganske likt i begge 

kartene, men kartet til venstre forsterker en kontrast mellom et ”fjordbelte” og innland 

og forsterker dermed inntrykket av at de gamle bor i de grisgrendte bygdene mens de 

unge bor i byer, bynære områder eller tettsteder. I kartet til høyre er det et ganske likt 

bilde som dannes, men kontrastene er her mye mer dempet – bildet er mer nyansert. 

Hvilke av kartene er det mest nøyaktige? Hvordan kan slik nøyaktighet angis? 

Figur 2: Befolkning per 1.1.1998, aldersgruppe 67 år og over, prosent av total befolkning 

fremstilt etter henholdsvis kvantil (venstre) og like intervall (høyre) inndeling. 

I figur 3 vises også to kart produsert i programpakken Statistisk Sett. Her fremstilles 

variabelen eldreomsorg 1997, institusjonsplasser per 1000 innbyggere 67 år og over. 

Igjen vises samme variabel inndelt i det samme antall klasser og med lik 

symbolisering, men metode for å klasseinndele dataverdiene er forskjellig. Igjen er 

kartet til venstre prototypeløsningen, en kvantilinndeling i fire klasser, mens for kartet 

til venstre er metoden ”like intervall” benyttet. Kontrasten mellom disse to kartene er 

betydelig. Hvilket av disse kartene som benyttes for å formidle nivået på 

5

eldreomsorgen blant trøndelagskommunene vil resultere i to vidt forskjellige 

tolkninger av velferdsnivået. Hvilket av kartene er nærmest virkeligheten? Igjen – vi 

har behov for å kunne angi kvalitet. 

Figur 3: Eldreomsorg 1997, institusjonsplasser per 1000 innbyggere 67 år og over, fremstilt etter 

henholdsvis kvantil (venstre) og like intervall (høyre) inndeling. 

Visualisering og nummerisk angivelse av nøyaktighet 

Det er to komponenter som her foreslås å kunne utgjøre en kvalitetsrapport for 

skravurkart: visualisering av nøyaktighet og en nummerisk angivelse av nøyaktighet. 

For å angi nøyaktighet foreslås det å bruke to mål; GVF (Goodness of Variance Fit) 

og SDCMc (Standard Deviation Class Means – per klasse). GVF verdien sier noe om 

den totale nøyaktighet til kartet, mens SDCMc sier noe om feilbidraget til GVF 

verdien fra de enkelte klassene. Både visualisering og nummerisk angivelse av 

nøyaktighet tar utgangspunkt i et sorterte stolpediagram av den variabel som 

fremstilles i skravurkart. For variabelen befolkning per 1.1.1998, aldersgruppe 67 år 

og over, prosent av total befolkning for de to trøndelagsfylkene vil diagrammet se ut 

som vist i figur 4. 

6

Min: 7,4 

Figur 4: Sortert stolpediagram for variabelen befolkning per 1.1.1998, aldersgruppe 67 år og 

over, prosent av total befolkning for de to trøndelagsfylkene som består av 49 kommuner. 

Minimumsverdier for dette datasettet er 7,4% mens maksimumsverdien er 23,8%. 

Som navnet på GVF indeksen antyder, Goodness of Variance Fit, er nøyaktigheten et 

mål på hvor godt to kurver sammenfaller. Den ene kurven er variabelens fordeling, 

som vist i figur 4, mens den andre kurven er kurven for den klasseinndelte fordeling 

(se figur 5). 

orginal distribusjon 

klasseinndelt distribusjon (kvantiler) 

1. klasse 

12 obs. 

2. klasse 

12 obs. 

49 kommuner 

7 

3. klasse 

12 obs. 

4. klasse 

13 obs. 

Max: 23,8 

Figur 5: Kurvesammenlikning for variabelens originale fordeling og den klasseinndelte 

fordeling (kvantil inndeling).

Nøyaktighetsmålene beregnes ved følgende fremgangsmåte: 

1. Beregn aritmetisk gjennomsnitt av hver klasse: Z c . 

2. For hver klasse, beregn summen av de kvadrerte avvik mellom 

klassegjennomsnitt og observasjonsverdi: ∑ − 

2 

( c ) Z x . Denne verdien 

kalles for SDCMc. (Summen av avvikene (ikke de kvadrerte) mellom 

klassegjennomsnitt og observasjonsverdi er enkelt å visualisere slik som 

det er vist i figur 6). 

3. Summer for alle klassene: ∑∑ − 

2 

( c ) Z x . Denne verdien kalles for 

SDCM (Standard Deviation Class Means). 

4. Beregn aritmetisk gjennomsnitt for alle observasjonsverdier: X 

5. Beregn summen av de kvadrerte avvik mellom observasjonsverdiene og 

gjennomsnittet, for hele datasettet: ∑ − ( X 

8 

i 

x i 

2 

) 

i 

. Denne verdien kalles for 

SDAM (Standard Deviation, Array Mean). 

6. GVF verdien beregnes på grunnlag av SDCM og SDAM: 

GVF 

SDAM − SDCM 

SDAM 

= . 

GVF verdien er altså et mål på klasseinndelingens statistiske tilpassing i forhold til de 

opprinnelige data. Verdien for GVF indeksen er mellom 0 og 1 der høye verdier betyr 

en god statistisk tilpassing mellom de opprinnelige data – altså desto høyere GVF 

verdi desto mer nøyaktig er skravurkartet. 

Feilareal 

Mål på 

nøyaktighet 

Figur 6: Visualisering og mål på nøyaktighet (skjermbilde fra GIB). Variabel er her 

”eldreomsorg 1997, institusjonsplasser per 1000 innbyggere 67 år og over”.

I figur 6 vises det sorterte stolpediagrammet for variabelen ”eldreomsorg 1997, 

institusjonsplasser per 1000 innbyggere 67 år og over” klasseinndelt i fire tilnærmet 

like klasser (kvartilinndeling). Klassifikasjonsfeil visualiseres her som avviket 

mellom observasjonsverdiene og klassens gjennomsnitt. Det resulterende feilareal for 

denne klassifikasjonsfeil vises med en rød farge. Desto mindre dette feilarealet er, 

desto bedre samsvar er det mellom fordelingen av de opprinnelige dataverdiene og 

den klasseinndelte fordeling. Som en forstår ut fra figur 5 og 6 vil nøyaktigheten øke 

med et økende antall klasser. Perfekt samsvar oppnås når antall klasser tilsvarer antall 

observasjoner med unike verdier. Dette gir en GVF verdi lik en. Et klasseløst 

skravurkart har et antall klasser likt antall unike observasjonsverdier og vil følgelig 

være det mest nøyaktige skravurkart. 

Når klassegrenser plasseres mellom to observasjonsverdier som er nær hverandre i 

verdi slik som klassegrensen mellom tredje og fjerde klasse, fremheves det i kartet en 

forskjell som ikke finnes i kartet (se figur 7). Videre finnes det i datasettet store 

forskjeller mellom de 13 observasjonene helt til høyre i diagrammet som er blitt 

tilordner den fjerde klassen. Dermed skjules det i kartet en forskjell som finnes i 

datasettet. For klasseinndelte kart gjelder at desto større homogenitet innad i klassene 

(liten varians) og desto større heterogenitet mellom klassene (stor varians), desto 

bedre GVF verdi og desto bedre klassifikasjon. Følgelig vil kvantil inndelingen som 

er benyttet for kartet i figur 6, gi en dårlig GVF verdi. 

9 

a) 

b)

Figur 7: Plassering av klassegrenser som medfører at variasjon som finnes i datasettet skjules 

(b) i kartet og at en forskjell som ikke (eller i liten grad) finnes i datasettet (b) blir fremhevet i 

kartet. Variabelen er ”eldreomsorg 1997, institusjonsplasser per 1000 innbyggere 67 år og over” 

Som en kvalitetssikring vil jeg foreslå at prototype kartet som systemet velger som 

default blir det skravurkart som er klasseinndelt etter den metode som resulterer i den 

beste GVF verdien. Tilsvarende kunne en kvalitetskontroll innebære at en fikk 

respons på en bestemt klasseinndeling på hvor god klasseinndelingen var og gi 

mulighet til at brukeren kan gjøre om på klassifikasjonen om GVF verdien viser seg å 

være for dårlig. Jeg har utviklet en programpakke der dette er inkludert som et 

interaktivt brukergrensesnitt. Endringer som gjøres i en interaktiv tegnforklaring 

medfører at diagram og kart blir oppdatert (se figur 8). 

a) 

c) 

Figur 8: Sammenkoblede vinduer. Gjøres det endringer i den interaktive tegnforklaringen (b) 

eller i diagrammet (c) oppdateres kart, diagram og statistikken i den interaktive tegnforklaringen 

Variabelen er her ”eldreomsorg 1997, institusjonsplasser per 1000 innbyggere 67 år og over”. 

Vi har nå et verktøy for å sammenlikne nøyaktighet mellom skravurkart med ulike 

klasseinndelinger og den generelle anbefaling er å velge den klasseinndeling som 

10 

b)

medfører den GVF verdi som er nærmest verdien en. ”Case’ene” i denne 

presentasjonen hadde følgende GVF verdier: 

Kvantil Like intervall 

Andel eldre 0,855 0,901 

Eldreomsorg 0,473 0,844 

Konkluderende perspektiv 

I følge Declercq (1995) er GVF verdien 0,95 en terskel for hva en kan betrakte som 

god klassifikasjon. Klassifikasjoner som resulterer i en GVF verdi lik eller større enn 

0,95 vil dermed bli betraktet som en god klassifikasjon. For de ”case” som er 

presentert her behøves det, i alle fall om metodene kvantiler og like intervall skal 

benyttes, et større antall klasser enn de vanlige mellom fire til seks. Basert på 

Kennedy’s konklusjon over, vil det her anbefales, enten å benytte et klasseløst kart 

eller benytte den klasseinndeling som gir høyest GVF og gjerne om nødvendig øke 

antall klasser for å sikre en høyere GVF verdi. Om en har en GVF verdi lik eller større 

enn 0,95 er det større sannsynlighet for at det romlige mønsteret i skravurkartet 

korresponderer med det reelle og det er mindre sannsynlighet for at kartet enten 

fremhever geografiske forskjeller som ikke finnes i datasettet, eller skjuler 

geografiske forskjeller som finnes i datasettet. 

Referanser 

Declercq F A N 1995 Choropleth map accuracy and the number of class intervals in 

Cartography crossing borders 17 th International Cartographic Conference 

Barcelone Sept. 1995, 918–922 

Dobson M W 1973 Choropleth maps without class intervals? A comment. 

Geographical Analysis 5 (3) 358–360 

Jenks and Caspall F C 1971 Error on choroplethic maps: definition, measurement, 

reduction Annals of the Association of American Geographers 61 (2) 217–244 

11

Kennedy S 1994 Unclassed choropleth maps revisited / Some guidelines for the 

construction of unclassed and classed choropleth maps Cartographica 31 (1) 16– 

25 

MacEachren A M 1985 Accuracy of thematic maps / Implications of choropleth 

symbolization Cartographica 22 (1) 38–58 

Tobler W R 1973 Choropleth maps without class intervals? Geographical Analysis 5 

262–264 

12

Kvalitetskontroll av klasseinndelte statistiske kart - Norsk Nettskole

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?