Metoder og instrumenter til resultatmåling af indsatser over for ...

Metoder og instrumenter til resultatmåling 

af indsatser over for demente 

– psykometriske begreber 

Charlotte Horsted 

Terkel Christiansen 

Health Economics Papers 

2004:3

Indhold 

Instrumenter til måling af sundhedsstatus og effektvurdering....5 

1.1. Måling af sundhedsstatus eller sundhedsudfald?................................................................. 7 

1.2. Formålet med at måle sundhed ............................................................................................ 8 

1.3. Operationalisering og måling af sundhed ............................................................................ 9 

1.4. Videnskabelige overvejelser i forbindelse med målingen af sundhed............................... 12 

1.4.1. Reliabilitet (pålidelighed) ........................................................................................... 13 

1.4.1.1 Hvornår er noget reliabelt? .................................................................................. 20 

1.4.2. Validitet (gyldighed) ................................................................................................... 21 

1.4.3. Diskriminationsstyrke og følsomhed........................................................................... 27 

1.4.3.1. Følsomhed over for ændringer ............................................................................ 27 

1.5. Tekniske aspekter af mål for sundhedsstatus og sundheds-udfald. ................................... 29 

1.5.1. Generiske versus sygdomsspecifikke mål.................................................................... 29 

1.5.2. En- versus flerdimensionale mål................................................................................. 30 

1.5.3. Et eller flere items....................................................................................................... 31 

1.5.3.1. Profiler versus indeks........................................................................................... 32 

1.5.4. Numeriske sundhedsestimater: Skaleringsmetoder .................................................... 33 

1.6. Vægtningsteknikker – fra items til skala............................................................................ 37 

1.7. Praktiske overvejelser ........................................................................................................ 39 

1.8. Valg af instrument – opsummering.................................................................................... 41 

Litteraturliste:............................................................................44 

Sekundær litteratur ....................................................................45 

Bilag 1: Klassisk vs. klinimetrisk psykometrisk skala-analyse.48 

Bilag 2: Ordliste ........................................................................57

Forord 

Projektet ”Metoder og instrumenter til effektvurdering af indsatser over for demente” er 

finansieret af Servicestyrelsen (Styrelsen for social service, socialministeriet) og er udført i et 

samarbejde mellem CAST (Center for Anvendt Sundhedstjenesteforskning og 

Teknologivurdering) og Forskningsenheden for Sundhedsøkonomi, IST (Institut for 

Sundhedstjenesteforskning), ved Syddansk Universitet, Odense. 

Der eksisterer i dag et stort antal metoder og instrumenter med det angivne formål at kunne 

vurdere og/eller måle effekten af en indsats over for demensramte. Formålet med projektet har 

været at give potentielle brugere en oversigt derover og i tilknytning hertil at beskrive 

instrumenternes egenskaber, så det bliver muligt at bedømme instrumenternes egnethed til et 

givet formål. 

Projektet afrapporteres ved 4 publikationer, som alle er tilgængelige på: 

http://www.sam.sdu.dk/healtheco/publications/workingpapers.htm 

1) Charlotte Horsted og Terkel Christiansen. Metoder og instrumenter til effektvurdering af 

indsatsen over for demente – en oversigt. Syddansk Universitet: Health Economics Papers 

2004:2 


indsatsen over for demente – psykometriske begreber. Syddansk Universitet: Health Economics 

Papers 2004:3 


indsatsen over for demente – gennemgang og beskrivelse af instrumenterne. Syddansk 

Universitet: Health Economics Papers 2004:4 

4) Charlotte Horsted. Vurdering af generiske livskvalitetsinstrumenter – deres kvaliteter i 

forbindelse med anvendelse på demensramte. Syddansk Universitet: Health Economics Papers 

2004:5. 

Den førstnævnte publikation indeholder en kortfattet oversigt over de metoder og instrumenter, 

der mere uddybende er gennemgået i den tredje publikation. Formålet med rapporten er at give 

læseren et hurtigt overblik over instrumenternes egenskaber – dvs. anvendelse, antal items, 

håndtering, håndteringstid samt vurdering af instrumenternes reliabilitet og validitet. 

Den anden publikation indeholder en beskrivelse af nogle af de metoder og kriterier, som 

anvendes ved kvalitetsvurdering af instrumenter. En vis forståelse herfor kan være væsentlig for 

læsning af den tredje publikation. Den indeholder desuden en ordliste over de mest anvendte 

begreber i rapporterne. 

Den tredje publikation er en bilagsrapport til den første. Rapporten indeholder en gennemgang 

og beskrivelse af de udvalgte ca. 70 instrumenter. Fokus er på instrumenternes formål, deres 

begrebslige grundlag og psykometriske egenskaber (validitet, reliabilitet samt følsomhed over 

for ændring). 

Den fjerde publikation indeholder en beskrivelse af de mest almindelige generiske 

livskvalitetsinstrumenters egenskaber i forbindelse med anvendelse på demensramte individer. 

Dette drejer sig om instrumenterne DUKE, EQ5D, HUI, SIP, 15D, SF-36, QWB.

En stor tak til overlæge Kirsten Abelskov, Gerontopsykiatrisk afdeling i Århus Amt og 

professor, dr. med. Per Bech, Stressklinikken, Hillerød Sygehus, for deres kommentarer til 

rapporterne. Ligeledes tak til Charlotte Bruun Pedersen og Marie Holmgaard Kristiansen for 

korrekturlæsning og opsætning. Evt. resterende fejl og mangler er alene forfatternes. 

Forskningsassistent, Charlotte Horsted 

Professor Terkel Christiansen 

Syddansk Universitet

Instrumenter til måling af sundhedsstatus og effektvurdering 

Vurderingen af demensramtes sundhedsstatus, eller om en indsats over for 

individer med demens har en effekt eller ej, kan vanskeligt måles ved hjælp af 

traditionelle målemetoder som fx en måling af blodtrykket eller andre former for 

biomedicinske indikatorer, som kan observeres objektivt. I stedet må der tyes til 

andre metoder for at fremskaffe den nødvendige viden. 

Måling af mental status og kognitiv funktion 1 har længe været en del af den 

kliniske praksis, især i forbindelse med geriatrien, idet det især er blandt de ældre, 

man oplever kognitiv svækkelse. Epidemiologiske studier af demens og 

sundhedsundersøgelser for at undersøge den reelle kognitive svækkelse er dog 

først kommet til senere. Det skyldes, at individer lever længere i dag, hvilket 

forøger antallet af individer, der får kognitive funktionsproblemer (McDowell, 

1996, p. 287, Sundhedsstyrelsen, 2001, p. 37). 

Formålet med at undersøge ændringerne i den kognitive funktion hos de demente 

er blandt andet: 

• At følge det enkelte individs udvikling, dvs. de intra-personelle ændringer 

over tid 

• At kunne evaluere den (sundheds)behandling, der tilbydes de demente 

• At kunne sammenligne forskellige behandlingstyper og undersøge forskelle i 

udfaldet mellem grupper 

Begrebet ’kognitiv funktion’ er et begreb med mange facetter, hvorfor der ikke 

eksisterer en simpel operationalisering heraf, som er dækkende. Kognitiv funktion 

spænder vidt: Fra mild svækkelse (husker måske knapt så godt mere, forringet 

koncentrationsevne mv., som er en mulig følge af den almindelige ældningsproces) 

til en situation, hvor den demente faktisk ikke kan noget selv mere; hukommelsen 

1 Ordet ’kognitiv’ betyder at opfatte, forstå, vide, og de kognitive funktioner vedrører 

funktioner med erkendelse, opfattelse og tænkning. 

5

er væk, koncentrationsevnen er lav, den pågældende kan ikke tage vare på sig selv, 

og er måske ude af stand til at kommunikere meningsfuldt med omgivelserne. I de 

allersværeste tilfælde reagerer personen eventuelt kun på stimuli i form af 

berøring, lys eller lyde – kendetegn ved meget svær demens). Demens medfører 

således en gradvist progredierende svækkelse af intellekt, følelsesliv og adfærd. 

Demens er en betegnelse for tab af kognitive færdigheder i en grad, så det går ud 

over personens dagligdagsfunktioner. 

Indholdet i de fleste tests af mental status er en vurdering af individets opfattelse af 

tid og sted, koncentrations- og opmærksomhedstests samt hukommelsestests for 

både kort- og langtidshukommelsen (McDowell, 1996, p.288). Anvendelsen af 

tests af mental status er især begrundet med, at man her har at gøre med den facet 

af demens, der kan måles mest objektivt, á la de biomedicinske instrumenter. Den 

kognitive svækkelse er dog ikke det eneste relevante kendetegn ved demens, 

hvorfor andre områder tillige ofte s analyseres i forbindelse med demensstudier. 

For at opnå en bedre oversigt over effekten af en behandling af patienter med 

Alzheimers – eller andre demensformer – vil områder, så som almindelig daglig 

levevis (ADL), adfærd, plejetyngde og livskvalitet være mulige områder, der 

ligeledes kan undersøges nærmere. 

Der eksisterer i litteraturen et utal af instrumenter, hvormed man kan forsøge at 

måle disse effekter. Faren for at vælge et uegnet instrument er dog nærliggende, 

idet det kan være vanskeligt at vurdere, hvilket instrument der er mest 

hensigtsmæssigt at anvende i en given kontekst. Hvert instrument har dets egne 

fordele og ulemper, hvorfor det er væsentligt, at det instrument, man anvender, 

udvælges med omhu, så de resultater, man opnår, er relevante, troværdige og 

informative for formålet med undersøgelsen (Schneider, 2001, p. S8). 

I indeværende notat vil nogle af de vigtige problemstillinger, som man generelt 

skal være opmærksom på og tage stilling til i forbindelse med valg af instrumenter 

6

til effektvurdering, blive gennemgået. I denne forbindelse er det af betydning at 

kende de egenskaber, instrumentet besidder, hvorvidt det er reliabelt og validt, om 

det evt. kan anvendes til at måle ændringer over tid. Det skyldes, at ikke alle 

instrumenter er lige følsomme (sensitive), hvorfor ikke alle instrumenter er lige 

egnede til at måle ændringer i sundhedsstatus. Notatet er et teoretisk notat, der 

begynder med en definition af begreberne sundhedsstatus og sundhedsudfald, idet 

disse ofte i litteraturen anvendes i flæng. Notatet indeholder i øvrigt både 

videnskabelige overvejelser i forbindelse med måling af sundhed og tekniske 

aspekter i forbindelse med målinger. 

1.1. Måling af sundhedsstatus eller sundhedsudfald? 

En væsentlig overvejelse i forbindelse med valg af instrument er, hvad det egentlig 

er, man ønsker, der skal måles. Er det sundhedsstatus (health status) eller 

sundhedsudfaldet (health outcome), der ønskes målt? Problemet med at skelne 

mellem de to begreber er, at de to begreber i litteraturen ofte anvendes i flæng på 

trods af, at der er en forskel mellem begreberne. Sundhedsstatus skal således 

forstås som et øjebliksbillede af et individs sundhed og velvære, mens 

sundhedsudfald defineres som en ændring i et individs sundhed og velfærd som 

følge af (fx) en intervention, eller som følge af mangel på (korrekt) pleje (Bentzen 

et al, 1998, p. 27). Dvs., at sundhedsudfaldsmålet refererer til forskellen mellem to 

målinger af sundhedsstatus. Et instrument, skabt til at måle et individs 

sundhedsstatus på et givet tidspunkt, vil ikke nødvendigvis kunne anvendes til at 

måle ændringen deri som følge af en intervention, idet det måske ikke er 

tilstrækkeligt følsomt. Valg af egnet instrument er således særligt vigtigt i 

interventionsstudier, idet spørgsmålet er, hvorvidt man måler det, der kan ventes 

(og ønskes) påvirket. 

7

1.2. Formålet med at måle sundhed 

Hvorvidt man ønsker at måle sundhedsstatus eller forskellen deri, mellem to 

målinger (sundhedsudfald), afhænger således af formålet med en given analyse. 

For beslutningstagere vil populationens nuværende sundhedstilstand være 

væsentlig for en bedømmelse af, hvor der skal sættes ind i fremtiden: her vil det 

være relevant at undersøge individernes nuværende sundhedsstatus. For udøvere af 

en behandling, forskere mv., der gerne vil vide, hvorvidt en sundhedsintervention 

har en effekt, vil fokus derimod være på instrumenter, der kan anvendes til at måle 

sundhedsudfaldet af interventionen. 

Der findes også instrumenter til andre formål. Visse instrumenter er designet som 

diagnostiske redskaber. I forbindelse med diagnosticeringen af demens gælder 

dette fx instrumentet MMSE 2 (Mini-Mental-Status-Examination, Folstein et al., 

1975), der består af en række simple spørgsmål, instrumentet CAMCOG (Roth et 

al., 1986) samt urskivetesten, der består i at en patient skal tegne og indsætte 

timetal i en urskive. Lægen kan, ud fra patientens besvarelse, samt grundigt 

kendskab til patientens sygehistorie, bedømme, hvorvidt patientens forringede 

hukommelse muligvis skyldes demens eller ej, og om yderligere undersøgelser (fx 

CT-skanning af hjernen) skal foretages. 

Overordnet set kan evalueringen af sundhedsstatus og sundhedsudfald udføres på 

tre niveauer: 

1) Mikroniveauet. Vedrører det enkelte individ. Målingen udgør en kvantitativ 

vurdering af et individs udvikling og af effekten af den behandling, individet 

får. Det målte udfald kan anvendes som en vejledning for klinisk 

beslutningstagning, evaluering af effekter og bivirkninger, eller forudsigelse 

af en prognose. 

2 Er oprindeligt tiltænkt blot at være et screeningsinstrument, men anvendes ofte i 

forbindelse med diagnosticeringen af mulige demente. 

8

2) Mesoniveauet. Repræsenterer en gruppe af individer. Formålet er her at 

beskrive og sammenligne effektiviteten af forskellige behandlinger eller 

forskellige sundhedsprogrammer på definerede populationer – fx undersøge 

behandlingens indflydelse på disses funktionsmæssige evner, eller deres 

velvære. 

3) Makroniveau. Repræsenterer hele samfundet. Her er det 

omkostningseffektivitet, der er i fokus. Formålet er således at evaluere 

omkostningseffektiviteten eller nytten ved udbudte sundhedsbehandlinger. 

Dette kræver en mere generisk tilgang. 

(Ferreira et al., 1997, p. 30) 

1.3. Operationalisering og måling af sundhed 

I de foregående afsnit er begrebet ’sundhed’ nævnt flere gange – men hvad menes 

der egentlig med begrebet ’sundhed’, og sundhed i forbindelse med demens? 

Såfremt man skal anvende et instrument til måling af heraf, må dette være baseret 

på en specifikt begrebsmæssig tilgang hertil. 

WHO definerer sundhed som “a state of complete physical, mental and social 

well-being and not merely the absence of disease” (WHO, 1958). WHO’s 

definition vedrører en idealtilstand, der sjældent er opnåelig. Definitionen påpeger, 

at sundhed er et begreb med mange aspekter. Bl.a. kan ’sundhed’ indeholde 

aspekter vedrørende den kliniske status (tegn, symptomer, diagnosekategorier, 

biokemiske og psykologiske betingelser) eller den funktionsmæssige status (fysisk, 

kognitiv, psykologisk og social udfoldelse). I forbindelse med demens er en ofte 

overset dimension af sundhed de dementes livskvalitet og forbedringer heraf. Dette 

aspekt er relevant, idet det identificerer væsentligheden af udfald udover fysiske og 

mentale ændringer, ligesom det rejser etiske og filosofiske problemstillinger (jf. 

bl.a. Brod et al, 1999, Hughes et al., 2003). Definitionen af livskvalitet er dog ofte 

meget bred, hvilket WHOs definition er et godt eksempel på: ”an individual’s 

9

perception of their position in life in the context of the culture and value systems in 

which they live and in relation to their goals, expectations, standards and 

concerns. It is a broad ranging concept affected in a complex way by the person’s 

physical health, psychological state, personal beliefs, social relationships and their 

relationship to salient features of their environment” (WHO 2003). Definitionen 

forudsætter, at individer har intellektuel kapacitet til at varetage komplekse, 

subjektive vurderinger af eget liv. Der kan dog sættes spørgsmålstegn ved de 

dementes evner i denne henseende – især er det et problem, hvor grænsen går 

mellem at være i stand til at vurdere eget liv, og hvornår man ikke længere kan. 

Hvilke områder, der bliver relevante at fokusere på i forbindelse med 

effektvurderinger af indsatser over for personer med demens, afhænger derfor af 

definitionen af sundhed, herunder livskvalitet, man lægger til grund herfor. 

Måling af sundhed finder ofte sted som en indirekte proces, der medfører 

anvendelse af en standard skala på hvert aspekt, hvormed man opnår en numerisk 

score for det pågældende aspekt af begrebet sundhed. Disse scorer kan evt. 

efterfølgende kombineres til en fælles score for sundhed - et såkaldt indeks - eller 

man kan bibeholde de enkelte scorer, som tilsammen udgør en profil. Dette 

uddybes i afsnit 1.5.3.1. 

Sundhed er et begreb, der sjældent kan beskrives med kun en enkel parameter, men 

i stedet beskrives ved at anvende en række forskellige parametre, der hver især 

repræsenterer et element af begrebet ’sundhed’. Hvilke parametre, der anvendes, 

afhænger af, hvorvidt man søger at besvare spørgsmål om den generelle 

sundhedstilstand eller om specifikke aspekter af sundhed. I forbindelse med 

udvælgelse af et instrument er det således væsentligt, at man præcist ved, hvem 

målepopulationen er, idet det ikke er sikkert, at et instrument, dannet til at vurdere 

sundhedsstatus eller sundhedsudfald i den generelle population (generiske mål), vil 

kunne anvendes på en specificeret delpopulation heraf – fx på individer med 

10

demens. Her vil det ofte være mere relevant at anvende et situationsbetinget mål. 

Ligeledes kan man ikke nødvendigvis anvende et instrument, udviklet til vurdering 

af sundhedsudfald for individer med demens, som fortsat er bosat hjemme, i andre 

omgivelser - fx for individer med demens bosat på plejehjem - idet konsekvenserne 

af sygdommen kan være forskellig, da der måske ikke er samme professionelle 

hjælp i hjemmet som på et plejehjem. 

Det er heller ikke sikkert, at instrumenter, udviklet til brug i ét land, direkte kan 

oversættes til brug i andet land, idet der kan være kulturelle forskelle, som spiller 

ind på anvendeligheden af instrumentet. Her er det nødvendigt med en ’korrekt’ 

oversættelse af instrumentet med bevarelse af den oprindelige mening, og en 

gentestning af instrumentets reliabiliet og validitet, inden det kan anvendes. Dette 

uddybes i afsnit 1.7.3. Grundlæggende set er det væsentligt, at man i forbindelse 

med udvælgelsen af et instrument vælger, så denne indeholder de aspekter af 

sundhed, der er relevante i målepopulationen, samt den situation/de omgivelser, de 

befinder sig i. 

Et andet forhold, der skal tages højde for i forbindelse med valg af instrument, er, 

hvorvidt man ønsker at måle positive aspekter ved sundhed, fx psykologisk 

velvære og funktionelle evner, eller negative aspekter så som angst, depression og 

funktionel begrænsning (McColl et al, 1997, p.14). Endvidere er nogle 

instrumenter designet til at fremkomme med faktuelle resultater, mens andre måler 

fx intentionelle eller fortolkende informationer. Fx kan funktionelle statusskalaer 

enten anvendes til at måle hvorvidt en aktivitet ’faktisk er’ eller ’kan blive’ udført. 

Eksempelvis kan man spørge, om en mild dement selv finder vej til nærmeste 

købmand, eller om vedkommende ville kunne gøre det, om han eller hun blev bedt 

derom. 

Det er også forskelligt hvem, der har været med til at udvikle instrumenterne, og 

dermed vil perspektivet være forskelligt. Visse instrumenter og metoder er udviklet 

11

ud fra et rent professionelt perspektiv mens andre vedrører målinger set fra 

patientens eller de pårørendes perspektiv. . Det er derfor væsentligt at få en 

klargøring af det begrebsmæssige grundlag for målingen af sundhed, inden det 

måles. 

1.4. Videnskabelige overvejelser i forbindelse med målingen af sundhed 

I forbindelse med valg af instrumenter er det ikke nok ’blot’ at definere målet for 

udfaldsvurderingen og det begrebslige grundlag for måling af sundhed – fokus på 

instrumentets videnskabelige eller psykometriske egenskaber er ligeledes yderst 

relevant. 

De psykometriske egenskaber vedrører grundlæggende kvaliteten af instrumentet: 

om man kan stole på de resultater, der opnås med instrumentet, samt om 

instrumentet faktisk måler det, det har til hensigt at måle. Der findes en række 

statistiske metoder til validering af instrumenter, og der foreligger efterhånden en 

vis konsensus om hvilke statistiske metoder, der som et minimum bør inddrages i 

valideringen deraf. Dette gør det lettere at sammenligne forskellige instrumenters 

pålidelighed og gyldighed, idet disses kvaliteter ofte vil være afprøvet efter stort 

set samme mønster. 

De efterfølgende afsnit er centrale, da de giver et billede af nogle af de metoder og 

kriterier, som anvendes ved kvalitetsvurdering af målingsinstrumenter. 

Egenskaberne, der skal vurderes, er: reliabiliteten, validiteten, diskriminationsevne 

og følsomhed over for ændring. 

12

1.4.1. Reliabilitet (pålidelighed) 

Reliabilitet referer til reproduktionsegenskaben, dvs. instrumentets evne til at nå 

det samme resultat ved gentagne målinger. Hvis man tager et individs temperatur 

med 5 minutters mellemrum med samme termometer, må man forvente, at denne 

viser samme resultat. Hvis termometeret det ene øjeblik viser 36,5 °C, det næste 

øjeblik 37,5 °C for derefter det næste øjeblik at vise 37 °C, er der tilsyneladende en 

vis tilfældig variation i resultaterne ved brug af det pågældende termometer. Med 

andre ord, instrumentet er ikke pålideligt, og termometeret bør derfor kasseres. På 

samme måde bør et instrument ikke anvendes, hvis det ikke har en acceptabel 

pålidelighed. 

Der er mange kilder til målefejl, og der eksisterer ikke kun én måde at udtrykke 

reliabiliteten på. De antagelser, der grundlæggende er indeholdt i 

reliabilitetsteorien, er, at enhver observeret score består af to komponenter: en 

’sand score’ - det, der skal måles (er i virkeligheden ukendt) - og en tilfældig 3 

målefejl som mulig følge af unøjagtigheder i instrumentet. Hvis fejlen er lille, er 

observationerne reliable. Hvis den er stor, har vi en dårlig reliabilitet. Det, man 

derfor er interesseret i at vide, er fejlens størrelse i forhold til den sande værdi. Det 

kan bemærkes, at reliabiliteten vil stige, når den sande variation stiger og 

fejlvariationen mindskes. Ordet reliabilitet bruges således som en generel 

betegnelse for datas pålidelighed. Reliabilitet bruges dog også som et mere 

specifikt teknisk udtryk, der referer til korrelationen mellem sæt af 

observationsværdier – fx to eller flere individers bedømmelse af et antal objekter. 

Her står reliabiliten i modsætning til begrebet enighed, og denne sondring er 

væsentlig, idet man godt kan have en høj reliabilitet, men en ringe enighed. Denne 

3 Normalt inddeles målefejl i to typer, en tilfældig og en systematisk målefejl (eller bias). 

I forbindelse med reliabilitet er det kun de tilfældige målefejl, der fokuseres på, idet den 

systematiske bias ikke har nogen indvirkning på reliabiliteten af instrumentet, da det er 

en bias konsistent i samme retning (Stewart, 1990, p. 5). De systematiske målefejl 

henhører i stedet til validitetsproblematikken. 

13

situation kan fx opstå ved, at der er en systematisk bias i den ene observatørs 

vurdering af en situation, så denne konsekvent bedømmer fx et punkt anderledes på 

en skala end en anden observatør. Korrelation mellem de to observatører er lig 1, 

som er lig perfekt reliabilitet - dette til trods for at der ikke er enighed mellem de 

afgivne bedømmelser. 

Tabel 1. Forskellige korrelations- og enighedsmål. 

Type Beskrivelse 

Korrelation Korrelation (r) er et mål, som indikerer graden af lineær 

sammenhæng mellem to eller flere observationssæt. Der er 

forskellige formler, der kan bringes i anvendelse til estimeringen 

af korrelationens styrke; i hvert tilfælde er de indordnet mellem -1 

og +1. En korrelation tæt på nul indikerer, at der ingen 

sammenhæng er mellem observationerne. Idet korrelationen stiger, 

bliver det muligt bedre at forudsige den anden observations værdi 

ud fra et kendskab til den første. Den formel, der oftest anvendes 

er Pearson’s r, der er egnet til data målt på interval- eller 

rationiveau. Kendall’s tau og Spearman’s rho korrelationer kan 

anvendes til at udtrykke sammenhængen mellem variable målt på 

Intraklasse 

korrelation 

(ICC) 

ordinalt niveau, og kaldes rangordningskorrelationer. 

I forbindelse med testning af et instruments reliabilitet kan 

korrelationskoefficienter, så som Pearson’s r, anvendes til at 

sammenligne to observatørers vurdering af et antal patienter. 

Intraklasse korrelation generaliserer denne procedure og udtrykker 

enigheden mellem flere end to observatører. I modsætning til 

Pearson’s korrelation er intraklasse korrelation et mål for enighed, 

der viser den gennemsnitlige overensstemmelse mellem 

observatørers faktiske score på de observationer, der 

sammenlignes. 

Enighed Cohen’s Kappa er en koefficient for graden af enighed mellem to 

observatører. Den kan anvendes på dikotone variable eller variable 

med flere kategorier. Kappaudregnes som den diagonale sum af 

relative hyppigheder, justeret for forventede værdier, og 

standardiseret med den maksimale værdi. Den udtrykker således 

graden af enighed, som er observeret udover det niveau, der ville 

være forventet ved en tilfældig fordeling i en bivariat tabel, givet 

marginalfordelingen. En formel for kappa er: κ = (p0 –pc)/(1 - pc), 

hvor p0 er den observerede andel af enighed og pc er den 

enighedsandel, der er forventet ved tilfældighed. 

Tilfældighedsenighed kan forstås som den enighed, der ville opstå 

hvis en observatør blot gættede eller lod en mønt bestemme 

vurderingen. pc er fastsat på følgende vis: pc = p1p2 + (1 – p1) (1 – 

14

p2), hvor p1 er sandsynligheden, og p2 er den ækvivalente 

sandsynlighed for den anden observatør. Selvom spændevidden af 

Kappa ligger i området 0 til 1, er dets øvre grænse begrænset af 

instrumentets sensitivitet og specificitet. Cohen’s Kappa anvendes, 

hvis items er nominal eller ordinalt skalerede. Undertiden udregnes 

en vægtet kappa, hvor afstande fra diagonalen vægtes med en eller 

anden valgt vægt. Et andet mål for associationsgraden mellem to 

binære variable er Phi koefficienten. Fortolkningsmæssigt er 

resultatet lig korrelationskoefficienten. 

Når der tales om reliabilitet, skelner man traditionelt set mellem fire begreber. 

Disse er: test-retest reliabilitet, intern konsistens, interrater reliabilitet, og 

reproducerbarhed (CR) og hver af disse reliabilitetstests fremkommer med 

forskellige koefficienter for reliabiliteten. 

Tabel 2. Oversigt over de mest almindelige reliabilitetstyper 

Reliabilitetstype Definition/beskrivelse Anvendelig for 

Test-retest Graden af overensstemmelse mellem to Alle målingstyper 

målinger af det samme fænomen under (dvs. både single- og 

den forudsætning, at fænomenet ikke 

har ændret sig. Test-retest reliabilitet 

siger noget om en tests eller et 

instruments stabilitet over tid. Svarer 

til intra-rater reliabilitet. 

multi-itemsskalaer) 

Intern konsistens Graden hvori alle items i skalaen måler Multi-item (Likert 

(fx 

det samme underliggende begreb, eller skalaer) 

målt ved 

konvergensen af items på det begreb, 

Cronbach’s alpha – der måles. Koefficienten stiger jo mere 

se iøvrigt bilag 1) homogene items bliver, ligesom den 

stiger, jo flere items, der medtages i 

skalaen. 

Inter-rater Graden ved hvilken en observatørs Observatørvurderede 

vurdering er konsistent med en anden 

observatørs vurdering i samme 

måleseance. 

målinger 

Reproducerbarheds- Reflekterer graden ved hvilken en Guttman skalaer 

koefficient persons item respons kan forudsiges 

fra kendskab til deres Guttman 

skalascore. 

Kilde: Stewart (1990, p.7) 

15

Test-retest reliabilitet. De samme undersøgelsesenheder (individer) udsættes for 

den samme måling to gange i træk, og korrelationen mellem de 2 sæt 

måleresultater bestemmer reliabiliteten. Test-retest reliabiliteten angiver således et 

måleinstruments evne til at producere konsistente resultater, når måleinstrumentet 

benyttes igen under samme betingelser. Test-retest reliabiliteten af en skalas scorer 

har en tendens til at være højere end reliabiliteten af de enkelte items (McColl et al, 

1997, p. 16). Resultatet angiver således stabiliteten – eller manglen på samme. 

Der findes ingen faste regler for tidsrummet mellem de to besvarelser, og denne 

kan derfor variere på tværs af valideringsundersøgelser. Hvis der er for kort tid 

mellem besvarelserne, kan respondenterne måske huske besvarelserne på første 

måling, og det kan resultere i en meget høj korrelationskoefficient, som måske ikke 

afspejler instrumentets faktiske pålidelighed. Omvendt gælder, at hvis varigheden 

mellem de to besvarelser er relativ lang, kan der være sket en faktisk ændring (fx i 

velværen, livskvaliteten eller i et andet parameter). En lav test-retest korrelation 

over lang tid er således ikke nødvendigvis udtryk for en lav reliablilitet, men kan 

være udtryk for, at instrumentet er følsomt over for ændringer. Der kan derfor 

opstilles to betingelser for test-retest undersøgelsen: 

• at disse skal udføres med et tidsinterval, der gør, at respondenterne ikke kan 

huske besvarelserne, 

• men indenfor en tidsperiode, så tilstanden ikke er forværret/ændret. 

Hvis disse forudsætninger ikke er opfyldte, giver beregningen af test-retest 

korrelationskoefficienterne ingen mening. 

Intern konsistens. En anden ofte anvendt metode til vurderingen af instrumenters 

reliaibilitet er udregningen af graden af overensstemmelse mellem spørgsmål, som 

hævder at måle det samme - også kaldet skalaens interne konsistens. Intern 

konsistens reliabilitet anvendes kun for multiitem Likert skalaer, som fremkommer 

ved at addere flere items, som har en lignende responsskala (Stewart, 1990, p. 6). 

Mål for intern konsistens er baseret på en enkel gennemførelse af testen. Her 

korrelerer man spørgsmål, der adresserer samme dimension. Det forventes, at 

16

esultaterne for hvert af spørgsmålene vil korrelere med hinanden, såfremt disse er 

placeret korrekt i samme skala. Grundlæggende er det homogeniteten af de 

forskellige items, man ønsker at undersøge for, dvs. i hvilken grad de forskellige 

items i en skala måler den samme egenskab. 

Homogenitet kan måles med: split halves, Kuder-Richardson, eller Cronbach’s 

alpha, alternativt kan det måles med item-total korrelationer eller faktoranalyse. 

Tabel 3. Reliabilitetstests – intern konsistens 

Metode Beskrivelse af metoden 

Split halves Et begreb undersøges med flere indikatormålinger 

(items/spørgsmål) og korrelationen mellem svarene på 

eksempelvis spørgsmål med lige nummer og svarene på 

spørgsmål med ulige nummer beregnes som et udtryk for 

reliabiliteten. Hvis skalaen er intern konsistent, skulle de to 

halvdele korrelere højt med hinanden. Et problem ved denne 

tilgang er, at korrelationen er en underestimering af skalaens 

reliabilitet, idet reliabiliteten af en skala er direkte proportional 

med antallet af items (observationer), der er indeholdt deri. 

Reliabilitetskoefficienten for den interne konsistens afhænger 

således af: 

• graden, hvori items har noget fælles, samt 

• antallet af items i skalaen. 

Ved et split halveres længden heraf. Dette kan dog korrigeres 

med Sperman-Browns ’prophesy formel’ (jf. fx Streiner, 1995, p. 

63). Et af problemerne med denne test er dog, at der er mange 

måder, hvormed man kan dele, samt denne metode ikke siger 

noget om, hvilke(n) items der er med til at give en evt. lav 

Kuder- 

Richardson 20 

(KR-20) 

Cronbach’s 

alpha 

(koefficient α) 

reliabilitet. 

Denne test tager hånd om problemerne ved ovenstående tests. 

Den er anvendelig for skalaer indeholdende items, som besvares 

dikotomt. 

n ⎛ 

Formlen for Kurder-Richardson er: KR − 20 = ⎜ − 

n − 1 ⎜ 

⎝ 

T 

1 2 

σ 

17 

∑ 

pq 

i i 

hvor n er antallet af items, pi er andelen, som svarer korrekt på 

spørgsmål i, qi = (1-p) for hvert item, og σT er standardafvigelsen 

på den totale score (Streiner, 1995, p. 64). 

Cronbachs alpha er en udvidelse af Kuder-Richardson testet, der 

kan anvendes, hvis der er mere end to responsalternativer. 

Såfremt alpha anvendes på dikotome udfald, vil resultatet være 

lig det resultat, Kuder-Richardson fremkommer med. Formlen 

⎞ 

⎟ , 

⎠

Item-total 

korrelationer 

Multifaktor 

egenskaber 

n ⎛ σ ⎞ i 

for Cronbachs alpha er: α = ⎜ − 

− ⎜ 

⎟ 

n 1 ⎝ σ ⎟ 

T ⎠ 

1 

2 

2 . 

Begrebsmæssigt giver Kuder-Richardson og Cronbach’s alpha 

gennemsnittet af alle mulige ’split-halve’ reliabiliteter af en 

skala. Hvis et item udelades, og alpha stiger, er dette 

ensbetydende med, at skalaens homogenitet ligeledes stiger. 

Der er dog problemer ved anvendelsen af Cronbach’s alpha, 

hvorfor man ikke ukritisk bør accepterer høje alphaværdier. Det 

skyldes, at: 

• alpha er afhængig af antal items i skalaen. Dvs. man opnår 

et mere homogent resultat ved at fordoble antallet af items, 

selvom korrelationen forbliver den samme. Det skyldes, at 

standardafvigelsen bliver mindre, hvorfor man får et mere 

akkurat estimat af middelværdien. 

• en sammensætning af to skalaer, som undersøger noget 

forskelligt, kan resultere i en høj alpha. 

• en (for) høj alpha kan være tegn på høj grad af item 

overflødighed; at der er for mange items, som stiller 

samme spørgsmål på forskellig vis (redundans). Hvis item 

interkorrelationer holdes på et moderat niveau, vil hvert 

item tillægge ny information til skalaen. 

En tommelfingerregel siger, at for en optimal reliabilitet bør 

alpha ikke være under 0,70, men heller ikke over 0,90 (Streiner, 

1995, p. 65; McColl et al, 1997, p. 16). Grundlæggende set 

accepteres værdier helt ned til 0,50 dog som værende evidens for 

tilfredsstillende intern-konsistens reliabilitet (Stewart, 1990, p. 

6). 

En anden anvendt indikator for intern konsistens er anvendelsen 

af item-total korrelationer. Homogenitet blandt items er som 

beskrevet nødvendig, såfremt alle items skal opfange forskellige 

aspekter ved den samme attribut. De forskellige items skal derfor 

ikke blot korrelere med hinanden (til en vis grad), men det 

enkelte item skal også korrelere med den totale skala score, hvor 

det specifikke item, hvis korrelation ønskes undersøgt, er udeladt 

fra den totale score 4 . En tommelfingerregel er, at item-total 

korrelationer bør overstige 0,2 (McColl, 1997, p. 16, Streiner, 

1995, p. 62), ellers bør den ikke medtages. Her er det således 

muligt at finde de items, der er med til at give en lav reliabilitet. 

Såfremt instrumentet er en del af en opgørelse bestående af flere 

skalaer (multifaktor eller multidimentionale opgørelser), 

eksisterer andre og mere sofistikerede (udvidede) analytiske 

4 

Anvendelse af Person’s product-moment korrelation er, ifølge Streiner (1995, p. 62), 

den bedste koefficient at anvende. 

18 

∑

teknikker til at undersøge for den interne homogenitet. 

• Udvidelse af item-total proceduren: I item-total 

procedueren bliver et item korreleret med dets egen 

skalatotalscore. I den udvidede procedure bliver itemet 

ligeledes korreleret med totalen af de øvrige skalascorer i 

instrumentet. Da itemet ikke tilhører disse skalaer, bør 

denne korrelation være mindre end korrelationen med egen 

skala. 

• Faktor analyse (bør ikke anvendes på dikotome udfald), 

hvor hvert item behandles som en individuel test. Hvert 

item skulle gerne korrelere med den skala, den tilhører, og 

ingen af de øvrige skalaer. Hvis den korrelerer med flere 

skalaer, eller blot med en ’forkert’ skala, er det 

sandsynligt, at itemet opfanger noget andet, end hensigten 

var hermed. 

Inter-rater reliabilitet. For observatør- og interview-baserede mål er det 

væsentligt, at der er en høj overensstemmelse mellem de forskellige observatører 

og deres vurdering af et individ (inter-observer reliabilitet). Herudover er det 

ligeledes væsentlig, at en observatør er konsistent i måden, hvorpå han vurderer et 

individ (intra-observer reliabilitet). Det er således væsentligt, at der ikke anvendes 

forskellige standarder fra dag til dag. En måde at undersøge en observatørs 

evalueringskonsistens er fx ved at videotape en situation og lade ham bedømme 

denne med ugers mellemrum. Interrater reliabilitets-forskrifter rangerer fra 0,80 til 

1 (Stewart, 1990, p. 7). 

Reproducerbarhedskoefficient (CR 5 ). Reproducerbarhedskoefficienten 

udtrykker graden ved hvilken en Guttman (kumulativ skala) skalascore giver 

mulighed for præcist at kende et individs responsmønster. Hvorvidt en skala i 

virkeligheden er kumulativ, er et empirisk spørgsmål og afhænger af de 

svarmønstre, man finder hos respondenterne. For Guttman skalaen er der sat en 

reproducerbarheds-koefficient på 0,90 eller mere for at kunne acceptere en skala 

som kumulativ. Denne kan beregnes ud fra følgende ’formel’: 

5 Coefficient of reproducibility 

19

eproducerbarhed 

ne 

= 1 − , hvor N er antallet af individer, n er antallet af individer 

I × N 

hvor der var fejl i rangordenen, og I er lig antallet af items. Af hensyn til 

fortolkningen af reproducerbarhedskoefficienten kan der endvidere udregnes en 

minimal marginal reproducerbarhedskoefficient (MMR), som er baseret på, at et 

items reproducerbarhed ikke kan være mindre end andelen af svar i dets modale 

kategori. Således kan den totale reproducerbarhed ikke blive mindre end summen 

af andele af svar i de modale kategorier for hvert item i en skala, divideret med 

antallet af items. Kravet til skalaegenskaber, baseret på MMR, er bl.a., at den skal 

have en størrelse, så det er muligt at se en forbedring i prædiktionen af 

responsmønsteret ved at benytte CR. Med andre ord skal MMR være lavere end 

CR (McIver og Carmines, 1981, p. 48). 

1.4.1.1 Hvornår er noget reliabelt? 

Stort set alle målinger indeholder en eller anden form for tilfældig fejl. 

Reliabilitetsmålet giver dog ikke umiddelbart nogen intuitiv tolkning af et givent 

fænomens reliabilitet, idet koefficienten ikke kan tages ud af en sammenhæng. At 

en reliabilitetskoefficient på 0,80 indikerer, at 20% af den observerede varians 

skyldes målefejl kan derfor i nogle situationer være tegn på et meget pålideligt 

instrument, mens det i andre tilfælde ikke er det. Det primære spørgsmål bliver 

derfor: Hvad er den mindste værdi, der kan accepteres, før noget accepteres som 

værende pålideligt i en given sammenhæng? Her er der ikke fuld enighed i 

litteraturen. En tommelfingerregel er dog, at den interne konsistens bør være højere 

end 0,8 (ifølge Stewart, 1990, kan en reliabilitet på 0,50 accepteres), og interrater 

reliabiliteten, intra-observer reliabiliteten og test-retest reliabiliteten bør være 

højere end 0,5 (Streiner, 1995, p. 7). 

Afhængigt af hvad det er, der undersøges, kan der dog i visse situationer kræves 

endnu højere koefficientværdier, ligesom populationsstørrelsen har en indflydelse 

herpå. Således kan store populationer bedre tåle mindre reliable instrumenter end 

20

meget små populationer (McDowell, 1996, p.41; Streiner, 1995, p. 121). Ligeledes 

har testens længde også en indflydelse på det fremkomne reliabilitetsresultat. 

Således har instrumenter, der indeholder mange items, større sandsynlighed for at 

være reliable end ’korte’ instrumenter. 

1.4.2. Validitet (gyldighed) 

Overordnet set udtrykker et instruments reliabilitet ikke instrumentets evne til at 

måle eller beskrive hele det fænomen, som instrumentet antages at måle, men kun 

instrumentets egenskab til at opnå det samme måleresultat hver gang det anvendes. 

At et instrument er reliabelt, er ikke en stærk nok kriterium for valg af instrument. 

Reliabilitet kan heller ikke anvendes som substitut for validitet, idet et instrument 

kan være reliabelt uden at være validt. 

Validitet er grundlæggende et udtryk for, om et instrument måler det, som det er 

tænkt at skulle måle. Validitet er således et udsagn, som vedrører, om et instrument 

er gyldigt for et specifikt formål og ved brug over for en specifik 

befolkningsgruppe.. Spørgsmålet bliver derfor, om det valgte instrument 

succesfuldt måler en eksplicit og accepteret definition af fx kognitiv svækkelse, og 

til bedømmelse heraf kræves empirisk evidens for at dokumentere, at man faktisk 

får målt det, man ønsker at måle. 

Validitet kan ikke opnås uden at instrumentet samtidigt er reliabelt. Det skyldes, at 

reliabiliteten definerer den øvre grænse for validitet, de målte data kan besidde. 

Teknisk set er den maksimale validitetsgrænse kvadratroden af reliabiliteten. Dvs., 

jo mere reliabelt et instrument er, desto højere kan den maksimale validitet blive. 

En undtagelse fra denne regel er dog forholdet mellem intern konsistens og den 

validitetsform, der kaldes indholdsvaliditet. Det skyldes, at man kan manipulere 

med reliablitetsscoren for den interne konsistens: Hvis man undersøger et fænomen 

21

med meget uhomogene karakteregenskaber, som fx voldelig adfærd blandt 

demente, er det muligt, at man ved den anvendte skala vil have lav intern 

konsistens, idet ikke alle demente med problematisk adfærd er voldelige. Den 

interne validitet kunne øges ved at eliminere de items, som ikke er højt korrelerede 

med hinanden eller den totale score. Problemet er her, at man ender med et indeks, 

der kun opfanger et aspekt ved problematisk adfærd – voldelig opførsel – hvorved 

man opnår en lav indholdsvaliditet. I sådanne situationer er det bedre at acceptere 

en lav intern konsistens (Streiner, 1995, p. 147). 

Der eksisterer flere aspekter af validitet end blot indholdsvaliditet, som egentlig 

ikke er testbar. De mest almindelige skal her nævnes sammen med en redegørelse 

for, hvordan man evt. kan teste validitet. 

Tabel 4. Oversigt over forskellige validitetstyper 

VALIDITETSTYPE DEFINITION OG EKSEMPLER 

Indholdsvaliditet Er alle relevante begreber repræsenteret i 

Indholdsvaliditet af et 

batteri eller samling 

af flere instrumenter 

Indholdsvaliditet af 

en enkel multi-item 

skala 

instrumentet eller i sættet af instrumenter? 

Er alle væsentlige aspekter af virke og velvære 

repræsenteret i sættet af sundhedsmål? 

Er alle aspekter af definitionen af begrebet, der måles, 

repræsenteret i skalaen? Repræsenterer den anvendte 

betegnelse for skalaen de items der er indeholdt i 

denne? 

Umiddelbar validitet Synes de medtagne items umiddelbart at måle det 

ønskede begreb? 

Kriterie-relateret Korrelerer et mål højt med det gyldne standardmål 

validitet 

for begrebet? 

Kriterievaliditet Korrelerer et nyt mål for fx depression højt med det 

gyldne standardmål herfor? 

Kriterie-relateret Korrelerer en kort udgave af et mål for fx emotionel 

validitet 

status højt med en valideret lang udgave af et mål for 

emotionel status? 

Prædiktiv validitet Kan en score på et mål for sundhedsopfattelse 

forudsige, hvorvidt individer anvender sundhedsydelser 

i det efterfølgende år, eller et ufavorabelt klinisk 

udfald? 

Begrebsvaliditet Korrelerer skalaen højt med mål for de øvrige 

variable, som hypoteserne herom har forudsagt? 

22

Konvergent validitet Korrelerer et mål for fx smerte højt med et mål for 

effekterne af smerte? 

Diskriminant (eller Har et mål for fysisk virke en lavere korrelation med et 

divergent) validitet mål for mental sundhed end med et mål for mobilitet? 

Mulittræk- 

Har et selvrapporteret mål for depression en højere 

multimetode korrelation med en observatør vurdering af depression 

tilgangen 

end med et selvrapporteret mål for angst? 

Known groups Er den gennemsnitlige score af sundhedsopfattelse 

validitet 

signifikant lavere for en gruppe af patienter end for en 

general populationssample. 

Kilde: Stewart 1990, p. 9 

Indholdsvaliditet 6 (content validity). Indholdsvaliditet er en kvalitativ tilgang til 

vurderingen af validiteten. Denne validitetstype udtrykker, i hvilken grad items i en 

skala/instrument repræsenterer universet af instrumentets mulige indhold. 

Indholdsvaliditet referer således til, om målingen indeholder alle de aspekter, der 

er vigtige for det, man ønsker at måle – dvs. om målemetoden omfatter et 

repræsentativt udvalg af de (dys)funktioner, aktiviteter, mv., som er relevante for 

den aktuelle problemstilling. 

Indholdsvaliditet bliver kun sjældent formelt testet; i stedet vurderes ofte den 

umiddelbare validitet (face validity). Denne vurderes af eksperter (evt. i samråd 

med patienter og/eller pårørende), og disse bliver enige om, hvorvidt instrumentets 

forskellige items opfanger den væsentlige information for den definition af 

sundhed, man nu engang har valgt (McDowell, 1996, p. 31; Streiner, 1995, p. 5). 

Det er dog muligt at undersøge for indholdsvaliditeten via statistiske analyser, fx 

faktoranalyser af datamaterialet. Herved fås en indikation af, hvorvidt det 

teoretiske begreb, defineret af instrumentets udvikler, kan observeres empirisk, og 

om komponenterne falder i den forventede homogene gruppe, som de ifølge 

teorien bør gøre (McDowell, 1996, p. 35). 

6 Nogle teoretikere argumenterer for, at bedre dækkende begreber ville være ’content 

relevance’ og ’content coverage’ (Streiner, 1995, p. 20). 

23

Kriterievaliditet (criterion validity). Denne validitetstype betragtes ofte som det 

klassiske validitetsbegreb. Her undersøges i hvilken grad et instrumentet korrelerer 

med et andet mål, ideelt en ’gylden standard’, som fx kan være fremkommet ved 

hjælp af et andet valideret måleredskab til undersøgelse af samme karaktertræk 

eller fænomen. Kriterievaliditeten kan både udføres på hele instrumentet eller blot 

på enkelte items indeholdt i denne (items-analyse). 

Kriterievaliditet er typisk inddelt i to typer, hvor testen vurderes i relation til 

objektive kriterier. For det første samtidig validitet, der drejer sig om, hvorvidt 

resultaterne ved en test stemmer overens med resultaterne ved andre etablerede 

tests, som antages at måle samme fænomen. Denne metode har dog en 

begrænsning: hvis andre måleinstrumenter for samme egenskaber eksisterer, er det 

vanskeligt at forsvare udviklingen af et nyt, med mindre dette er billigere eller 

mere simpelt at anvende end det eksisterende. 

Den anden type er prædiktiv validitet, der referer til et instruments evne til at 

forudsige noget centralt vedrørende det fænomen, man ønsker målt – fx hvis man 

ønsker at kende et instruments evne til at forudsige en fremtidig tilstand. Det nye 

instrument anvendes til tid 1, og den gyldne standard til tid 2. Det nye instrument 

kan således ikke anvendes til beslutningstagning til tid 1; man må først vente og se, 

om det var godt nok til at forudsige fremtiden, når man sammenligner instrumentet 

med den gyldne standard i tid 2 (Streiner, 1995, p.149-50). 

Begrebssvaliditet (construct validity). Såfremt der ikke eksisterer en ’gylden 

standard’, man kan teste et karaktertræk op mod, er det nødvendigt at teste for 

validitet på anden vis. Blandt andet vil mange af de kendetegn, der er ved demens, 

kunne kaldes hypotetiske begreber, idet diagnosen ’demens’ er baseret på 

konstellationer af symptomer; man kan ikke ’se’ demens, men kan i stedet 

observere adfærd, som ifølge vores teori om demens er et resultat heraf. Et begreb 

kan derfor opfattes som en mini-teori til at forklare forskellige adfærdsformer eller 

attituder, som fx demensramte individer udviser (Streiner, 1995, p. 151). 

24

Begrebsvaliditeten udtrykker derfor, om skalaen til at måle disse begreber kan 

siges at være dannet på baggrund af den rigtige teori. Denne validitetstype bliver 

understøttet, hvis forventede mønstre observeres empirisk. Et eksempel på en 

hypotese kunne være, at sværhedsgraden ved demens (eller anden sygdom) er 

negativt korreleret med individets livskvalitet. Det bør bemærkes om denne 

validitetstype, at den begrebsmæssigt set ikke afviger fra de øvrige (indholds- og 

kriterievaliditet), idet alle validitetstyper grundlæggende er en form for 

begrebsvaliditet. Der eksisterer forskellige metoder, hvormed man kan undersøge 

for begrebsvaliditet, jf. efterfølgende tabel. 

Tabel 5. Måling af begrebsvaliditet 

Known group 

validitet: 

Anvendelse af 

ekstreme grupper 

Konvergent- og 

diskriminant (eller 

divergent) 

validitet 

En tilgang til at måle begrebsvaliditeten er via begrebet known 

group validitet. Her anvendes instrumentet på to grupper af 

individer, som vides at divergere mht. ’begrebsinteressen’ (fx 

demens) – fx sammenlignes svært demente med ikke-demente 

(men måske nok glemsomme) ældre individer. Her skulle de 

svært demente gerne score signifikant forskelligt fra de ikkedemente 

ældre individer på instrumentet. 

Der er dog mange problemer forbundet med denne metode – 

blandt andet, at det ikke er på de to grupper, instrumentet 

(nødvendigvis) skal anvendes i praksis. I stedet er det fx på 

demente med varierende demensgrader, hvor spørgsmålet i 

forbindelse med fx diagnostik af demens er, hvorvidt individet 

er rent faktisk er dement eller ej. Instrumentet skal derfor 

være meget fintfølende, idet det skal anvendes i situationer, 

hvor man er i tvivl – ikke i ekstreme situationer. 

Konvergent validitet siger noget om, hvorvidt der er 

association mellem forskellige mål og eller metoder. I 

forbindelse med undersøgelsen af konvergent validitet skal 

korrelationen være høj, men ikke for høj, med andre mål for 

samme begreb. En perfekt – eller næsten perfekt – korrelation 

mellem den nye skala og dens relation til øvrige variable og 

mål for samme begreb vil blot indikere, at de måler det 

samme. Konvergentvaliditet er derfor meget lig sensitivitet; et 

mål bør korrelere med andre mål for samme begreb. Man kan 

teste sammenhængen mellem to mål for samme begreb ved fx 

at anvende forskellige metoder (fx selv-rapporterede versus 

observerede data), og en anvendelig indikator for konvergent 

validitet er korrelationskoefficienten. Jo højere denne er, jo 

mere validt er instrumentet. Som minimum bør denne være 

25

Multikaraktertrækmulitimetode 

Statistiske 

metoder 

0,40 (Stewart, 1990, p. 13). 

Da det nye instrument ikke er dannet for at være en præcis 

kopi af det eksisterende instrument, kan der heller ikke være 

nogen perfekt korrelation herimellem. Generelt vil de nye 

instrumenter være dannet, så de er de gamle overlegne. I 

forbindelse med beregning af konvergentvaliditeten bør det 

derfor være kommenteret, hvad det forventede resultat vil 

være, inden dette beregnes empirisk. 

Diskriminant validitet drejer sig om, at målet skal være 

særegent. I forbindelse med diskriminantvaliditeten beskrives 

fraværet af sammenhæng mellem testen og andre mål. Hvis 

teorien om demens siger, at hukommelsesgraden er uafhængig 

af uddannelsesgraden for den demente, må der derfor ikke 

findes korrelation mellem disse to. Korrelationer på 0 er dog 

utænkelige, hvorfor det ’blot’ er nødvendigt at se efter 

korrelationer, der er lavere end korrelationerne, der er fundet 

ved undersøgelse af konvergent validitet. 

Generelt set kan den maksimale korrelation mellem de to 

instrumenter/metoder være lig kvadratroden af målet for deres 

reliabilitet. Såfremt disse er kendt, er det muligt at 

sammenligne den observerede korrelation med den teoretisk 

mulige. Dette hjælper i forbindelse med fortolkningen af 

konvergentvaliditeten. Således kan en lav 

korrelationskoefficient pludselig synes god, såfremt 

reliabilitetskoefficenten ligeledes er lav (McDowell, 1996, p. 

34). 

En anden, men tæt relateret metode til at undersøge for 

begrebsvaliditet, er via anvendelsen af multikaraktertrækmultimetode 

teknikker, som kortlægger korrelationen mellem 

alternative tilgange til at måle samme begreb. Dette gælder, 

hvis der fx er anvendt mere end én metode til at indsamle data 

for en specifik variabel (selvrapporterede og observerede 

data). Essensen i denne tilgang er at undersøge, hvorvidt to 

mål for samme begreb, opgjort ved anvendelsen af forskellige 

metoder, korrelerer højere end to mål for forskellige begreber, 

der anvender samme metode (Stewart, 1990, p. 14). 

Faktoranalyse kan ligeledes anvendes i forbindelse med 

undersøgelse af begrebsvaliditeten. Her anvendes 

faktoranalysen til at indikere forbindelsen mellem forskellige 

målemetoder. Skalaer, der måler samme emne, forventes at 

blive grupperet i samme faktor – test for konvergent validitet, 

mens skalaer, der måler forskellige emner, vil blive grupperet 

i forskellige faktorer - test for divergent validitet. 

Faktoranalyse bør dog kun anvendes, såfremt; 

1) de items, der analyseres, er opgjort på intervalskaleret 

26

1.4.3. Diskriminationsstyrke og følsomhed 

niveau 

2) responsfordelingen er approksimativt normalfordelt 

3) der er mindst 5 gange flere respondenter i samplet end 

variable/items, der skal analyseres(McDowell, 1996, p. 

35). 

Tidligere har der været tradition for, at visse typer instrumenter anvendes til at 

skelne imellem personer på baggrund af fx færdigheder (klassifikationsmål), mens 

andre instrumenttyper måler subjektive fænomener til beskrivelse af forskelle over 

tid hos samme individ. I forbindelse med visse undersøgelser er det dog 

hensigtsmæssigt, at de anvendte instrumenter både skal kunne anvendes til at finde 

forskelle imellem individer og forskelle hos samme individ over tid. Såfremt 

formålet med en undersøgelse er at kunne påvise mulige effekter af en intervention 

over for en bestemt målgruppe, er det væsentligt, at det valgte instrument evner at 

vise forskellen mellem et individs sundhedsstatus på forskellige tidspunkter. Det er 

således væsentligt, at instrumentet er forholdsvist følsomt. 

1.4.3.1. Følsomhed over for ændringer 

Hvis det er biomedicinske mål, der indgår som effektmål i forbindelse med 

undersøgelse af et individ, kan man med en vis sikkerhed antage, at den 

behandling, som afprøves, er uden effekt, såfremt der ikke sker en ændring i de 

biomedicinske målinger før og efter interventionen. Anderledes forholder det sig 

med målinger af fx livskvalitet. Her kan en manglende forskel i målingen af 

livskvaliteten før og efter en intervention enten tilskrives en ineffektiv intervention 

og/eller manglende følsomhed i instrumentet over for ændringer. Inden 

instrumenter til måling af velvære anvendes til effektvurdering, er det derfor 

vigtigt, at følsomhedsgraden er afprøvet. Dette kan fx være gjort ved at 

27

sammenholde ændringer i kliniske variable over tid med ændringer i fx velværen. 

Viser de kliniske variable således tegn på forværring, forventes svarpersonen at 

rapportere lavere velvære ved efterfølgende målinger, og omvendt såfremt det 

drejer sig om forbedring i velværen. 

Hvor følsomt et instrument er, er grundlæggende set et aspekt af 

validitetsproblematikken. Et måleredskab analogt de øvrige psykometriske 

egenskaber, der er vurderet, til at måle instrumentets evner til at opfange 

effektændringerne som følge af interventioner, vil være ønskeligt. 

Én mulig tilgang til vurderingen af et instruments følsomhed er at foretage multiple 

observationer vedrørende det aspekt, man ønsker undersøgt – fx interventioner, der 

har til hensigt at bremse den kognitive svækkelse hos demente, idet denne aftager 

over tid og er forskellig individer imellem. Det vil derfor være ukorrekt kun at 

anvende resultater fra start og sluttidspunktet ved en intervention for at se, om 

denne har haft nogen effekt. 

Hvis man ønsker at vælge et instrument, der skal have potentiale for at være 

følsomt overfor ændringer, er der dog visse umiddelbare forholdsregler, man kan 

følge. Bl.a. en fokusering på instrumentets anvendte skalaniveau. Binære 

svarkategorier (fx ja/nej) er lette at besvare, men giver ikke mulighed for at 

nuancere besvarelsen. Disse itemstyper besidder derfor ofte lav grad af følsomhed, 

da der ofte skal ske store forandringer, før man flytter markeringen fra et ja til et 

nej eller omvendt. Likert-, VAS eller lignende skalaer synes at være bedre egnede 

m.h.t. følsomhed. Ligeledes kan instrumenttypen have indflydelse på følsomheden. 

Der vil ofte være en tendens til, at sygdomsspecifikke instrumenter er mere 

følsomme overfor ændringer end de generiske instrumenter, hvilket skyldes, at 

sygdomsspecifikke instrumenter indeholder spørgsmål om symptomer, der er 

relevante for den bestemte gruppe af individer. 

Specifikke instrumenter har ligeledes (oftest) færre problemer med gulv- og 

lofteffekter. Gulveffekt ses, hvor et instrument har en spændvidde, som ikke fuld 

ud dækker respondenternes, idet nogle respondenter vil kunne score lavere end 

28

hvad instrumentet tillader. Omvendt ses en lofteffekt, hvor respondenterne ville 

kunne score højere end instrumentet tillader. 

1.5. Tekniske aspekter af mål for sundhedsstatus og sundheds-udfald. 

I forbindelse med valg af instrumenter er det væsentligt at holde flere faktorer for 

øje, inden man vælger, hvilket instrument man ønsker at anvende i en given 

situation. I indeværende afsnit sættes fokus på visse tekniske aspekter ved 

sundhedsstatus- og sundhedsudfaldsmålene, hvoraf nogle allerede kort er berørt i 

forbindelse med tidligere afsnit. 

1.5.1. Generiske versus sygdomsspecifikke mål 

Instrumenter er, som allerede nævnt, dannet men henblik på at belyse forskellige 

problemstillinger. Nogle instrumenter dannes, så de kan anvendes i mange 

forskellige omgivelser/populationer (generiske mål), andre har en mere specifik 

populationsgruppe for øje (situationsspecifikke mål). Hvilken type instrument man 

bør vælge, afhænger af formålet med det, der ønskes undersøgt. 

En af fordele med de generiske mål er, at de letter sammenligninger over 

sygdomsgrupper – de er således mere genrealiserbare end de situationsspecifikke 

mål. En anden fordel er, at der som regel er mere dokumentation at finde 

vedrørende skalaens reliabilitet og validitet, end for de sygdomsspecifikke mål, 

idet de generiske mål oftere anvendes. Ulempen ved de generiske mål er, at de kan 

indeholde items, som er irrelevante for en specifik problemstilling. For eksempel 

er spørgsmål om inkontinens ret irrelevant i forbindelse astmapatienter, hvorfor 

sådanne spørgsmål blot vil være ’støj’ i instrumentet. Ligeledes kan der være 

mangel på items, som er meget relevante for en anden sygdomsgruppe – fx fokus 

på diætrestriktioner blandt diabetikere. Et andet problem ved de generiske mål er, 

at de kan være ret upåvirkelige overfor små, men væsentlige ændringer, som følge 

29

af en given sygdomsspecifik intervention. De generiske mål kan derfor have lavere 

følsomhed, end de mere sygdomsspecifikke mål. Man må derfor ofte opveje 

fordelene mod ulemperne, eller finde et generisk mål, der indeholder alle de 

komponenter, som gerne ses undersøgt i det mere situationsspecifikke mål. Det 

ideelle vil derfor i visse situationer være en kombination af de to måletyper 

(McColl et al, 1997, p. 18). Også fordi items tiltænkt at kunne diskriminere med 

indenfor en bestemt population (demente) måske ikke er anvendelige til at 

diskriminere blandt ikke-demente, idet stort set alle disse individer vil være i stand 

til at op nå maksimal score (Rabins, 1999, p. 39). 

1.5.2. En- versus flerdimensionale mål. 

Det begrebslige grundlag for opfattelsen af fx sundhed beror på, at sundhed er et 

multifacettet begreb, der ikke kan måles direkte. Begreber er ofte konstruktioner, 

der ikke kan måles direkte, men som udtrykker noget latent, som man ønsker 

empirisk undersøgt. Da begreber ofte er ret komplekse, består disse undertiden af 

flere domæner og dimensioner, der tilsammen udgør et begreb. 

Man vil i litteraturen se begreberne domæne, dimension og komponent benyttet 

forskelligt. Domæner refererer her til de forskellige facetter, som er indeholdt i et 

begreb, fx sundhed, se Figur 1. Domæner kan bestå af flere dimensioner hvorved 

forstås et sæt af beslægtede variable, der kan ses som forskellige aspekter ved 

samme egenskab/domæne. Eksempler på dimensioner af sundhed er: fysisk, 

psykisk og social sundhed. 

30

Figur 1: Illustration af et domæne, dimensioner, komponenter og items for et 

begreb (sundhed) under undersøgelse. 

Item/indikator - de 

enkelte items skal 

udvælges, så de 

dækker dimensionen 

Hvis de variable, som er indeholdende i et domæne, er meget forskellige, er 

egenskaben flerdimensional – dvs., domænet består af flere dimensioner, 

indeholdende hver deres sæt af variable, der indbyrdes er meget lige, men 

forskellig dimensionerne imellem (Hellevik, 1997, p. 95). Dimensioner kan f.eks. 

være fysisk, psykisk eller social sundhed. En dimension kan igen være opdelt i 

komponenter. Fx kan en psykisk dimension være opdelt i ”positiv velvære” og 

”ængstelse og depression”. De variable, der repræsenterer en komponent, kaldes 

ofte for indikatorer for komponenten. 

1.5.3. Et eller flere items 

Domæne for sundhed (hele cirklen) 

● 

● ● ● ● ● ● ● 

● ● ● ● ● ● ● ● 

● ● ● ● ● ● 

● ● ● ● ● 

● ● ● ● ● ● 

● ● 

Illustration af tre dimensioner indeholdt i domænet for sundhed 

- fx fysisk, kognitiv og social udfoldelse. 

Hvordan det er valgt at operationalisere et begreb, har indflydelse på omfanget af 

instrumentets spørgsmål/items. Således rangerer instrumenter fra kun at indeholde 

et enkelt globalt spørgsmål (fx ”Hvorledes er dit helbred?”), til multidimensionale 

instrumenter - fx COOP/WONCA-skemaer, hvor seks primære aspekter af 

31 

Komponent

individets funktionsstatus (fysiske form, følelser, daglige aktiviteter, sociale 

aktiviteter, ændring i sundhed og overordnet sundhedsstilstand) måles, eller 

instrumentet 15D (Sintonen, 2001), som indeholder 15 såkaldte dimensioner. Her 

opfanger et enkelt item dimensionen, alternativt domænet. 

Et instrument kan dog bestå af multi-item multidimensionale mål, hvor der for 

hvert domæne eksisterer flere dimensioner, som igen har forskellige komponenter, 

der beskrives ved flere items. Hver metode har sine fordele, men også sine 

begrænsninger. Bl.a. vil valget få indflydelse på instrumentets evne til at være 

følsomt over for individrelaterede ændringer over tid. 

Fordelen ved de globale spørgsmål er, at de er forholdsvis hurtige og lette at 

besvare og analysere. Ulempen ved disse og ved en-skala items er, at deres evner i 

forbindelse med diskriminering og følsomhed over for ændringer, er meget 

begrænsede (McColl, 1997, p. 19). Her vil multi-item multidimensionale 

instrumenter således være mere relevante. 

1.5.3.1. Profiler versus indeks 

For multi-item multidimensionale instrumenter eksisterer der grundlæggende to 

måder, hvormed man kan præsentere resultaterne; nemlig som profiler eller som 

indeks. 

Profiler skal forstås som sæt af separate dimensionsscorer. Fortalere for 

profiltilgangen argumenterer, at da sundhed er et multidimensional begreb, bør 

scorerne på de forskellige dimensioner præsenteres separat, idet man ikke vil 

kunne tolke noget ud fra en samlet score. Især i de situationer, hvor det er 

nødvendigt at kunne bedømme et individs præstation på forskellige dimensioner, 

er profiler det mest anvendelige. 

Til forskel fra profiler er indeks et enkelt tal på grundlag af alle dimensioner. 

Grunden til, at man i visse situationer vælger at indeksere scorerne er bl.a., at det 

32

gøres lettere at besvare spørgsmålet om, hvorvidt den ene behandlingsmetode 

synes bedre end en anden. I forbindelse med økonomiske analyser i tilknytning til 

politisk beslutningstagning vil indekstal derfor ofte blive anvendt (McDowell, 

1996, p. 14). Der eksisterer dog mange problemer ved at indeksere de forskellige 

dimensioners scorer, især at man herved mister information – blandt andet 

vedrørende variabiliteten blandt individerne. Således kan ens totalscore for de 

forskellige individer, hvis egenskaber søges målt, opnås på mange forskellige 

måder, alt efter deres præstationer i de forskellige dimensioner. Dette er især 

problematisk i forbindelse med studier over tid, idet et individs nettoscorer kan 

være lig nul, selvom der faktisk er sket en ændring. Det kan skyldes at der kan 

være sket en forbedring på nogle af dimensionerne i et domæne, mens der er sket 

en forværring i andre. Evalueringer af ændringer over tid vil derfor bedre kunne 

opfange de forskellige variationer, såfremt man holder sig til profiler. 

1.5.4. Numeriske sundhedsestimater: Skaleringsmetoder 

For i det hele taget at kunne danne profiler eller indeks, er det nødvendigt at kunne 

tildele en dimension af begrebet ’sundhed’ en numerisk værdi. 

Der eksisterer forskellige metoder til at kvantificere sundhed. Generelt skelnes der 

mellem fire skaleringsmetoder, hvormed man kan udføre kvantitative målinger. 

Disse er: kategori-, ordinal-, interval- og ratioskalaer, som beskrives efterfølgende. 

Kategoriskala (nominalt niveau). Denne skaleringsmetode er ikke en egentlig 

målingsmetode, men referer i stedet til en klassificeringsmetode, så som 

inddelingen: Ja = 1, Nej = 0; Kvinde =1, Mand = 0 (dikotome udfald) eller farver: 

grøn = 1, blå = 2, rød = 3 gul = 4 hvid = 5. 

Tallet i en nominalskala siger i sig selv intet om objektets karakteristika, hvorfor 

man kan bytte om på rækkefølgen af objekterne, uden dette ville få nogen 

indflydelse, ligesom man kun kan lave få statistiske og matematiske beregninger 

på nominalskalerede data. 

33

Rangordningsskalaer (ordinalt niveau). I andre situationer består måling i at 

klassificere enheder i kategorier, som udover at være gensidigt udelukkende også 

er rangordnede. I rangordningsskalaen foregår der en graduering fra meget til lidt, 

hvorfor det er meningsfuldt at tale om hvilken af to enheder, der sammenlignes, 

som er placeret højest eller lavest på en variabel, hvilket fremgår af kodetallets 

størrelse. Kendetegnende for de items, denne skalatype er baseret på, er derfor, at 

de danner en kumulativ serie. Det betyder, at man foretrækker A > B > C > D. Det 

er imidlertid kun rækkefølgen af tallene, som har betydning – afstanden mellem to 

kodetal har ingen mening. Det skyldes, at en ordinal-skaleret svarfordeling blot 

indikerer i hvilken udstrækning et objekt/individ besidder visse karakteristika - 

dvs., det er muligt at bestemme, hvorvidt et individ har mere eller mindre af et 

givent karakteristikum sammenlignet med andre individer. Et eksempel på en 

rangordningsskala er en tilstand, der vurderes fra værende enten ’mild’, ’moderat’, 

eller ’alvorlig’. Ulempen er, at individer kan vurdere de forskellige tilstande 

forskelligt, ligesom der ikke nødvendigvis er lige stor afstand mellem ’mild’ og 

’moderat’, som mellem ’moderat’ og ’slem’, hvilket begrænser 

analysemulighederne, når dette niveau anvendes. 

Intervalskala (kontinuum). Til forskel fra måleenhederne anvendt i den ordinale 

skaleringsmetode, anvender intervalniveauet måleenheder med et nulpunkt, som 

ganske vist er arbitrært. Intervalniveauet anvendes i situationer, hvor det kræves, at 

der er lige stor afstand mellem målepunkterne - man kender intervallet mellem 

punkterne; nulpunktet er arbitrært, men afstanden mellem målepunkterne er ens. 

Når man sammenligner kodetallet mellem forskellige enheder, viser differencen 

mellem dem derfor hvor langt, de befinder sig fra hinanden på variablen. Dette 

gælder fx temperatur eller begyndelsestidspunktet for vor tidsregning. Brug af et 

arbitrært nulpunkt betyder dog, at fx skalaværdien 50 ikke er det dobbelte af 25, 

men afstanden mellem 0 og 25 er den samme som mellem 25 og 50. Man kan 

derfor ikke sammenligne forholdet mellem de forskellige værdier – kun 

differencen mellem dem. 

34

Ratioskala (forholdstal): Denne skaleringstype udtrykker, til forskel fra 

intervalskalaen, måleenheder med naturligt nulpunkt. Det gør det muligt at sige 

noget om, hvorvidt en score er dobbelt så god som en anden score. En ratio-skala 

indeholder alt fra nominal, ordinal og intervalskalerede data, men har samtidigt et 

naturligt nulpunkt. Det sætter én i stand til at: 1) identificere og klassificere 

objekter, 2) rangordne objekterne, 3) sammenligne intervaller og/eller forskelle. 

Eksempler på måleenheder med naturlige nulpunkter er fx: alder, afstande/længder 

og markedsandele. Tabel 5. giver en oversigt over de forskellige måleniveauer og 

deres matematiske egenskaber. 

Tabel 5. Egenskaber ved måleniveauerne 

Hvad 

om? 

fortæller kodetallene 

Nominal Ordinal Interval Ratio/forhold 

Forskel og lighed + + + + 

Rangorden - + + + 

Afstand - - + + 

Forhold - - - + 

Hvilke 

udføres? 

operationer kan 

Nominal Ordinal Interval Ratio/forhold 

Skelne mellem enheder med 

forskellige 

hinanden 

værdier fra + + + + 

Ordne enhederne 

værdiernes størrelse 

efter 

- + + + 

Addition og subtraktion af 

- 

værdier 

- + + 

Multiplikation og division af 

- 

værdier 

Kilde: Hellevik, 1997, p. 156 

- - + 

Anmærkning: Et minus i tabellen betyder at en variabel målt på dette niveau 

mangler den pågældende egenskab. 

Bemærkning: Måleniveauerne danner en kumulativ skala. Variablene på et niveau 

har alle egenskaberne, som variabler på lavere niveauer besidder. Ligeledes er alle 

operationer, som er mulige på et lavere niveau, mulige på et højere niveau. 

35

Hvilke skalaniveauer instrumentets forskellige items (spørgsmål) består af, har 

indflydelse på hvilke test, man kan udføre herpå. Jo højere niveau, jo flere 

statistiske tests og hermed information kan man trække ud af data. Man bør derfor 

eksempelvis være tilbageholdende med at diktomisere en kontinuert variabel (over 

nominelt niveau), idet man herved vil miste information, ligesom instrumentets 

effektivitet mindskes, og dets korrelation med øvrige mål reduceres (Streiner, 

1995, p. 30). Som følge heraf vil man ved at reducere instrumentets skalaniveau 

mindske instrumentets reliabilitet. Det er derfor vigtigt at vurdere, hvorvidt de 

enkelte spørgsmåls skalaniveau er hensigtsmæssigt. I forbindelse med valg af 

instrument er der derfor visse overvejelser, man bør gøre sig vedrørende 

maksimering af præcision og minimering af bias. Nogen af disse overvejelser 

gengives i tabel 6. 

Tabel 6. Skalaovervejelser – hvordan vurderes items i instrumentet? 

Overvejelse Kommentar 

Antal 

Hvis der vælges for få, kan resultatet blive tab af information. 

inddelinger i Undersøgelser har vist, at der mindst bør være 5 til 7 

skalaen inddelinger, idet antallet har indvirkning på 

reliabilitetskoefficienten. Jo færre kategorier, en skala er 

inddelt i, desto lavere reliabilitet. 

Maksimalt antal Undersøgelser har vist, at individer har vanskeligt ved at 

af kategorier håndtere for mange ting på én gang, hvorfor man bør 

begrænse sig til maksimalt 7 kategorier. 

Lige eller ulige 

antal 

kategorier? 

Bør alle punkter 

på en skala 

være givet en 

betegnelse, eller 

kun 

endepunkterne? 

Giver 

tillægsordene 

(adjektiverne) 

I bipolare skalaer (uenig – enig), giver ulige antal inddelinger 

individer mulighed for ’ikke at have nogen mening’, altså 

være neutrale, hvorimod et lige antal tvinger respondenterne 

til at have en mening, uanset at det måtte være misvisende. 

Undersøgelser har vist, at der er relativ lille forskel i 

besvarelser mellem skaler, hvor kun endepunkterne er givet 

betegnelser, og skalaer, hvor de intermediære tilstande 

ligeledes er givet en betegnelse. 

Betydningen vil afhænge af konteksten, ligesom individer kan 

tillægge ordene forskellige fortolkninger; hvor ofte er 

eksempelvis ’ofte’? Er det tættere på ’næsten altid’ eller på 

36

altid samme 

mening? 

Påvirker tal 

under skalaen 

individernes 

respons? 

Skal 

rækkefølgen af 

successive 

spørgsmål 

tilkendegive 

ændring? 

Kan det 

antages, at data 

er på 

intervalniveau? 

’en gang imellem’? 

Kilde: Streiner, 1995, p.35-8. 

Individer kan anvende tallene til at tolke tillægsordenes 

betydning. En negativ skala kan frembringe en anden 

betydning end en positiv skala. 

Visse instrumenter skifter ’retning’ af spørgsmål eller udsagn, 

så efterfølgende spørgsmål fx går fra enig – uenig, i stedet for 

fra uenig – enig, for at tvinge respondenterne til at tænke over 

hvert enkelt svar i stedet for fortløbende at sætte kryds det 

samme sted (responsmønster bias). Problemet er imidlertid, at 

ikke alle respondenter bider mærke heri, hvorfor man kan 

opnå resultater, der er utolkelige. 

Rangordningsskalaer er ordinale af natur. Det skyldes, at det 

ikke med sikkerhed kan antages, at afstanden mellem fx 

meget enig og enig er den samme som fx afstanden mellem 

enig og neutral. I forbindelse med analyse heraf behandles 

rangordnings-skalerne dog (ofte), som var de 

intervalskalerede. 

1.6. Vægtningsteknikker – fra items til skala 

Det er forskelligt, hvor mange items skalaer består af. Fx består VAS 7 kun af et 

enkelt. I visse tilfælde er det dog mere hensigtsmæssigt at have flere items, der kan 

være med til at vurdere et underliggende karakteristisk træk ved et begreb. 

Spørgsmålet er, hvordan man sammenlægger disse forskellige items til en enkelt 

værdi? 

I de fleste instrumenter tildeles items samme vægt i forbindelse med beregningen 

af en overordnet skalascore. Denne tilgang er simpel – både matematisk og 

forståelsesmæssigt. 

Spørgsmålet er blot, hvorvidt items altid kan tænkes at vægte ens? Det kan tænkes, 

at der i visse situationer er items, der er mere vigtige end øvrige, og at man bør 

tage højde herfor. I disse situationer kan man tildele de forskellige items i skalaen 

7 Visuel Analog Skala (Jf. ’temperaturskalaer’). 

37

forskellige vægte. Et problem ved denne metode er at afgøre hvordan de 

forskellige vægte skal bestemmes, samt at der er mere regnearbejde forbundet 

hermed. 

Der er forskellige tilgange til udledningen af vægte. Man kan fx bede eksperter 

eller et panel, som repræsenterer befolkningen, om at allokere værdier til hver item 

eller tilstand. Disse skulle gerne være overensstemmende med det begrebsmæssige 

grundlag for målingen og omgivelserne, hvori instrumentet anvendes. Det er 

således ikke sikkert, at vægte, anvendt i forbindelse med én omgivelse, kan 

anvendes i en anden. Her må vægtene reevalueres. 

Som alternativ til eksperternes/panelets vurdering af vægte kan disse eventuelt 

udledes empirisk gennem anvendelsen af statistiske metoder - fx multipel 

regressionsmetoden, hvor man forsøger at forudsige en score fra et antal 

uafhængige items, der tillægges forskellige vægte, der vælges, så ligningens 

forudsigelsesevne maksimeres, eller faktoranalyse, hvor de enkelte items’ score på 

en faktor bruges som relative vægte. 

Hvorvidt anvendelsen af forskellige vægte empirisk viser sig at have nogen 

indflydelse på de psykometriske egenskaber, afhænger af hvilke kilder, man 

spørger. Således viser nogle fund, at vægtene ikke har megen indflydelse herpå, 

mens andre finder, at det signifikant øger et indeks’ evne til at forudsige en score 

for et karaktertræk eller adfærd. Dette synes dog til en vis grad at afhænge af, hvor 

mange items der er med. Hvis der er mange (ca. 40) vil vægtning ikke påvirke den 

samlede score, mens man ved færre items kan opnå en vis effekt (Streiner, 1995, p. 

87). Ligeledes kan vægtning være relevant, såfremt man har mange urelaterede 

items, som ofte set i forbindelse med funktionel statusmåling. Ellers er 

konklusionen ofte den, at vægtning som regel ikke er anstrengelserne herved værd. 

38

1.7. Praktiske overvejelser 

Ud over den grundlæggende teori bag instrumenterne og skalaerne indeholdt i 

disse, er der andre overvejelser, der må vurderes, inden valg af instrument og/eller 

metode kan træffes. Dette gælder blandt andet, hvad der overhovedet er muligt og 

mest praktisk, givet en specifik situation. 

Håndteringsmetoder. Hvilken metode til praktisk håndtering 

(administrationsmetode), man bør vælge at anvende, afhænger meget af omgivelser 

og målepopulation. I forbindelse med demente vil brug af spørgeskemaer, som skal 

udfyldes af dem selv, måske være knapt så anvendelige, med mindre det er en 

population af meget mildt demente. I stedet vil anvendelse af observatører eller 

proxy-respondenter oftest være mere relevant. 

Hvilken metode man vælger til håndtering af instrumentet, har indflydelse på bias- 

kilder og svarprocenten 8 , ligesom omkostningerne herved kan divergere meget, alt 

efter om man vælger at lade respondenterne udfylde et spørgeskema, om man lader 

proxy-respondenter udfylde dette, eller om man optræner nogle 

interviewere/observatører til at interviewe/bedømme respondenterne, hvilket ofte 

kan være relevant i forbindelse med netop vurderingen af demente. 

Håndteringsvarighed. Alt efter instrumentets kompleksitet og antallet af items 

heri, kan en håndtering af et instrument enten forløbe forholdsvis hurtigt, eller tage 

lang tid. I forbindelse med (mild) demente kan dette have indflydelse på 

responsraten; hvis de selv skal være med til at udfylde 

spørgeskemaet/instrumentet, skal denne være kort og let at gå til, mens den kan 

være længere og spørgsmålene være mere komplekse, såfremt det er observatører, 

hvis arbejde det er at observere andre mennesker, der skal udfylde denne, eller 

vurderingerne pålægges proxy-respondenter. 

8 Der henvises til gængse metodebøger (fx Hellevik, 1997) for en uddybning af mulige 

biaskilder forbundet med forskellige håndteringsmetoder. 

39

Oversættelsesproblemer. Hvis det instrument, der synes mest anvendelig i en 

given situation, ikke er tilgængelig på dansk, er det nødvendig med en oversættelse 

og en tilpasning til den danske kultur. Det skyldes, at instrumenter kan være meget 

kulturspecifikke, hvorfor en direkte oversættelse til dansk (eller andet sprog) kan 

være problematisk. Det er derfor nødvendigt, at der anvendes en accepteret metode 

for oversættelse - fx i form af paneler, bestående af eksperter (defineret ved sprog, 

profession eller begge dele) eller lægfolk. Deres opgave er at fremkomme med det 

mest dækkende indhold og sprogbrug. Én af de mest anvendte procedurer i 

forbindelse med tilpasningen af et instrument til brug i et nyt land/kultur er at 

anvende oversættelse og tilbage-oversættelse, hvilket skal gøres af individer, der er 

flydende i begge sprog. Den første oversættelse bør gøres af individer, hvis 

modersmål er det sprog, instrumentet skal oversættes til (her dansk), mens tilbage- 

oversættelsen skal foretages af individer, hvis modersmål er det sprog, det 

originale instrument er skrevet i (Bentzen, 1998, p. 32). 

Translatørerne skal være opmærksomme på de underliggende karakteristika ved 

begreberne/spørgsmålene, der skal oversættes, da man ikke blot kan oversætte 

direkte: et eksempel på problem ved direkte oversættelse er fx begrebet angst fra 

det engelske anxiety. Hvor begrebet angst på dansk er tættere forbundet med 

skræk, er det engelske begreb anxiety tættere forbundet med bekymring. Sådanne 

forskelle er ikke altid umiddelbart tydelige, og der er risiko for, at de ikke vil blive 

opdaget. 

At der kan være problemer ved direkte oversættelse af et instrument til et andet 

sprog end oprindeligt tiltænkt, er følgende et klassisk eksempel på. En ukorrekt 

oversættelse af spørgsmål i Nottingham Health Profile til bengalsk blev for 

følgende spørgsmål: ”I’m feeling on edge” i oversættelsen til ”I’m walking along”. 

”I’m finding it hard to make contact with people” blev til ”I don’t have a phone 

and can’t write” og ”I feel there is nobody I am close to” blev til ”All my 

immediate family are dead”. (New Scientist, p. 56, 1994) 

40

Et eksempel på et kulturelt problem er, at man i amerikansk sammenhæng har 

anvendt hyppigheden af kirkegang som udtryk for graden af social integration. 

Hyppigheden af kirkegang har i dansk kontekst ikke samme betydning, hvorfor 

anden tilgang til måling af social integration må anvendes. 

En oversættelse af et instrument skal derfor tilstræbe ækvivalens i det, der måles. 

Kravene til oversættelsen er således: 

• Indholdsmæssig ækvivalens: man må udskifte et spørgsmål med et 

tilsvarende, men mere kulturelt overensstemmende. Dette kan dog være 

vanskeligt og ikke altid muligt. 

• Semantisk ækvivalens: oversættelsen skal bevare den samme mening. 

”Downhearted and blue” vil på dansk kræve en omskrivning for at fange 

meningen. Ligeledes vil det danske ord ’hygge’ være vanskelig at overføre 

til et andet sprog, som ikke har det begreb. Kulturbundne begreber, forskelle 

i grammatik, syntaks og idiomer er kun nogle blandt mange af de 

fænomener, der umuliggør den absolutte semantiske ækvivalens. 

• Krav om teknisk ækvivalens, kriterieækvivalens og begrebsmæssig 

ækvivalens (validering). Man skal revalidere instrumentet for at sikre, at der 

ikke er gået noget tabt i oversættelsen. 

En oversættelse af et instrument er ikke noget, man blot lige gør – det kan, såfremt 

det skal gøres korrekt, tage ligeså lang til at få oversat et instrument fra et andet 

sprog til dansk, som det tager at udvikle et nyt instrument. For yderligere 

information, se fx Meadows et al, 1997. 

1.8. Valg af instrument – opsummering 

Ud fra de foregående afsnits diskussion/gennemgang bør det fremstå klart, at det at 

skulle træffe et valg vedrørende hvilket instrument, man skal/bør anvende i en 

given situation, ikke er nogen simpel beslutning. I stedet er der flere overvejelser, 

41

der bør gøres, inden det endelige valg træffes. McColl et al. (1997, p. 22-23) 

opstiller nogle ’trin’, man kan gennemgå, førend dette valg træffes. Disse trin er: 

• Oplys formålet med målingen af sundhed 

• Definer det begrebslige grundlag for sundhedsvurderingen i den pågældende 

situation. 

• Oprems domænerne indeholdt i sundhedsdefinitionen, der skal måles. 

• Identificer de psykometriske egenskaber, der er nødvendige for den 

pågældende vurdering. Høj validitet og reliabilitet er altid væsentlig, men 

hvilke typer afhænger at den specifikke situation; inter-rater reliablitet bør fx 

kun overvejes, såfremt håndteringen af instrumentet er via observatører eller 

interviews. Ligeledes afhænger væsentligheden af instrumentets evne til at 

diskriminere, samt evt. følsomhed over for ændringer, af de specifikke 

omstændigheder, instrumentet skal anvendes i. 

• Identificer følgende: 

o Omgivelserne for dataindsamling 

o Hvor megen tid, personale, ressourcer(penge), der til råde 

o Indsamlingsmetode: information direkte fra patienterne selv eller skal 

der anvendes proxy-respondenter? 

• Bestem hvorvidt et generisk eller situations-specifikt instrument er påkrævet 

– måske en kombination. 

• Bestem hvorvidt resultaterne skal præsenteres via profiler eller som indeks. 

• Indsaml information om de forskellige instrumenter. Evaluer hvert af disse 

mod eksplicitte kriterier: 

o Var instrumentet designet eller har det været anvendt til det formål, 

som pågældende undersøgelse omhandler? 

o Matcher instrumentets begrebslige grundlag, det begrebslige grundlag 

for sundhed for den forestående vurdering? 

o Er alle relevante sundhedsdomæner dækket – enten ved et enkelt 

instrument eller ved en kombination? 

o Er der tilstrækkelig evidens for reliabilitet, validitet, 

diskriminationsevne og følsomhed over for ændring? Er denne 

evidens udledt i en omgivelse tilsvarende de omgivelser, som den 

forestående evaluering skal udføres i? 

o Er tids-referencen anvendelig i konteksten af den forestående 

evaluering? Hvis data skal indsamles 2 uger efter en intervention, kan 

der opstå fortolkningsproblemer, hvis der anvendes et instrument, der 

udspørger om sundhed inden for de sidste fire uger. 

o Hvilke ressourcer er påkrævede. Matcher de ressourcer der er til 

rådighed for dataindsamlingen? 

o Hvor acceptabel forventes instrumentet at være? Vil responsraten 

være tilstrækkelig? 

• Vælg det instrument, der bedst opfylder de eksplicitte kriterier. 

• Hvis nødvendigt, udfør kulturel tilpasning af instrumentet 

42

• Hvis nødvendigt, udfør pilotstudie og reevaluer de psykometriske 

egenskaber ved instrumentet/instrumenterne. Overvej valg af instrument(er) 

hvis dette viser svaghedstegn på et eller flere områder. 

Det er blandt andet disse trin, der ligger til grund for strukturen/undersøgelsen af 

de for indeværende arbejdsnotat undersøgte instrumenter. 

43

Litteraturliste: 

1. Allerup, P. (1987): Raschmodeller – principper og anvendelse. Danmarks 

pædagogiske Institut. 

2. Andrich, D. (1988): Rasch models for measurement. Quantitative 

Applications in the Social Sciences. John L. Sullivan (Series editor). 

SAGE Publications 

3. Bech, P. (2002): Measurement Issues. In: D’haenen, H., JA. Den Boer and 

P. Willner (eds). Biological Psychiatry. II. NY, John Wiley, pp. 25-36. 

4. Bech, P. (2004a): Modern psychometrics in clinimetrics. Psychotherapy 

and Psychosomatics; 73; 134-138. 

5. Bech, P., R. Licht, K. Stage, W. Abildgaard, G. Bech-Andersen, S. 

Søndergaard, K. Martiny. (2004): Kompendium: Rating Scales for 

affective lidelser. Psykiatrisk Forskningsenhed, Psykiatrisk Sygehus. 

Hillerød. 

6. Bentzen, N., T. Christiansen, E. McColl, K. Meadows (1998): Selection 

and cross-cultural adaptation of health outcome measures. European 

Journal of General Practice, vol. 4. 

7. Brod, M., A. L. Stewart, L. Sands, P. Walton (1999): Conceptualization 

and Measurement of Quality of Life in Dementia: The Dementia Quality of 

Life Instrument (DqoL). The Gerontologist, vol. 39(1) p. 25-35. 

8. Ferreira, P., J. Heyrman, K. van Hoeck (1997): Some concepts of health 

in outcome assessment. In Hutchinson. A, N. Bentzen, C. König-Zahn 

(red.): Cross Cultural Health Outcome Assessment; a user’s guide. 

European Research Group on Health Outcomes. 

9. Folstein,M.F., S.E. Folstein, P.R. McHugh (1975): ”Mini-Mental State”: a 

practical method for rading the cognitive state of patients for the clinician. 

Journal of Psychiatric Research 12: 189-98. 

10. Hellevik, O. (1997): Forskningsmetode i sociologi og statsvitenskap. 

Universitetsforlaget, Oslo. 

11. Hughes, J.C. (2003): Quality of life in dementia: an ethical and 

Philosophical perspective. Expert Rev. Pharmacoeconomics Outcomes 

Res. 3(5), 525-534. 

12. Kiresuk, T., Smith, A. & Cardillo, J. (Eds.). (1994): Goal Attainment 

Scaling: Applications, Theory, and Measurement Hillsdale, NJ: Lawrence 

Erlbaum Associates. 

13. McColl, E, T. Christiansen, C. König-Zahn (1997): Making the right 

choice of outcome measure. In Hutchinson. A, N. Bentzen, C. König-Zahn 

(red.): Cross Cultural Health Outcome Assessment; a user’s guide. 


14. McDowell, I., C. Newell (1996): Measuring Health. A Guide to Rating 

Scales and Questionnaires. Oxford University Press. 

15. McIver, J.P., Carmines, E.G. (1981): Unidimensional Scaling. 

Quantitative Applications in the Social Sciences. John L. Sullivan (Series 

editor). Sage Publications, Indiana University 

44

16. Meadows, K. N. Bentzen, F. Touw-Otten (1997): Cross-cultural issues: an 

outline of the important principles in establishing cross-cultural validity in 

health outcome assessment. In Hutchinson. A, N. Bentzen, C. König-Zahn 

(red.) (199x): Cross Cultural Health Outcome Assessment; a user’s guide. 


17. Mokken, R.J, C. Lewis (1982): A non-parametric approach to the analysis 

of dichotomous responses. Applied Psychological Measuremtent. 

18. New Scientist (maj 1994). 

19. Rabins, P. J. D. Kasper, L. Kleinman, B. S. Black (1999): Concepts and 

Methods in the Development of the ADRQL: An Instrument for Assessing 

Health-Related Quality of Life in Persons With Alzheimer’s Disease. 

Journal of Mental Health and Aging, vol. 5, no.1, p. 33-48. 

20. Roth, M., E. Tym, C.Q. Mountjoy et al. (1986): CAMDEX. A 

standardised instrument for the diagnosis om mental disorder in the elderly 

with special reference to the early detection of dementia. British Journal of 

Psychiatry 149: 168-709 

21. Schneider, L.S. (2001): Assessing Outcomes in Alzheimer Disease. 

Alzheimer Disease and Associated Disorders, vol. 15, suppl. 1, pp. S8-S18. 

22. Sintonen H. The 15D instyrumenmt of health-related quality of life: 

properties and applications. Ann Med 2001; 33: 328-336. 

23. Streiner, D.L., G. R. Norman (1995): Health Measurement Scales – A 

Practical Guide to Their Development and Use. Oxford University Press. 

24. Sundhedsstyrelsen (2001): Demens – den fremtidige tilrettelæggelse af 

sundhedsvæsnets indsats vedrørende diagnostik og behandling. 

Redegørelse fra Sundhedsstyrelsens arbejdsgruppe vedrørende demens. 

25. WHO (1958) World Health Organisation: The first ten years: the health 

organisation. Geneva: World Health Organisation. 

26. WHO (jan 2003): http://www.who.int/evidence/assessmentinstruments/qol/ql1.htm 

(jan. 2003) 

Sekundær litteratur 

27. Alzheimerforeningen: www.alzheimer.dk 

Alzheimer Insight. An overview of rating scales used in dementia research 

(1996). Alzheimer Insights online – An international Educational 

Newsletter. Volume 2, No3. http://www.alzheimerinsights.com/insights/vol2no3/vol2no3.htm 

28. Bowling, A (1991): Measuring Health. A review of quality of life 

measurement scales. Open University Press, Buckingham, England 

29. Brazier J., M. Deverill (1999): A Checklist for Judging Preference-based 

Measures of Health Related Qoulity of Life: Learning from Psychometrics. 

Health Economics. 8: 41-51. 

45

30. Christiansen, T (1990a): Measurement of Health Status I. Descriptions of 

the Instruments Used in the Danish Health Study. Odense Universitets 

Trykkeri. 

31. Christiansen, T (1990b): Measurement of Health Status I. Scalability of 

the Instruments Used in the Danish Health Study. Odense Universitets 

Trykkeri. 

32. Christiansen, T (1990c): Measurement of Health Status I. Reliability and 

Validity of Scores in the Danish Health Study. Odense Universitets 

Trykkeri. 

33. Cohen, M. (1998): Goal Attainment Scaling – GAS. Orientering og 

erfaringsopsamling. Center for Evaluering, Psykiatrien i Århus Amt. 

(Rapporten kan downloades fra http://www.ceps.suite.dk/gaserfa.pdf ) 

34. Doody, Rachelle Smith (1998): Test Scores in Clinical Trials vs. 

Performance in Real Life: Can Clical Global Assessment Bridge the Gap? 

In A. Wimo, B. Jönsson, G. Karlsson, B. Winblad (eds): Health Economics 

of Dementia. John Wiley & Sons, England. 

35. Fratiglioni, L. (1998): Classification and Diagnosis. In A. Wimo, B. 

Jönsson, G. Karlsson, B. Winblad (eds): Health Economics of Dementia. 

John Wiley & Sons, England. 

36. König-Zahn C., J. Heyink, B. Meyboom-de Jong (1997): Using the 

reviews: a user’s guide to the manual. In Hutchinson. A, N. Bentzen, C. 

König-Zahn (red.): Cross Cultural Health Outcome Assessment; a user’s 

guide. European Research Group on Health Outcomes. 

37. Larsen, J.K (2003): Kompetenceændringer og økonomiske aspekter ved 

rehabiliterings-indsats blandt senhjerneskadede. Master of Public Health, 

Aarhus Universitet, Udgivelse nr. 69. 

38. Lee, A. (2003): Pleje- og omsorgsmetoder til demensramte: Et 

litteraturstudie af den dokumenterede effekt. 

www.servicestyrelsen.dk/log/pdf/pleje_omsorg_demente_rapport.pdf 

(2004) 

39. Licht, R.W et al. (2004): Is the total score a valid measure of items 

severity. Acta Psychiatr Scand (in press). 

40. MacKeigan L.D., A. Gafni, B.J. O’Brien (2003): Double discounting of 

QALYs. Health Economics. Vol. 12(3), p. 165-169. 

41. Netdoktor (jan 2003): www.netdoktor.dk/sygdomme/Fakta/demens.htm 

(2003) 

42. Nygård, L. (1998): Assessing ADL/IADL in Persons with Dementia. In A. 

Wimo, B. Jönsson, G. Karlsson, B. Winblad (eds): Health Economics of 

Dementia. John Wiley & Sons, England. 

43. Pedersen, A.F., Zachariae,B (2003): Livskvalitetsmåling i sundhedsvæsnet 

– en introduktion. Delpublikation nr. 3 i skriftserien om ”De 

mellemmenneskelige relationer”. http://www.patientrelationer.dk/rapporter/bobby-liv.pdf 

46

44. Reisberg, B. E. Franssen, L. Souren, S. Kenowski, S. Auer (1998): 

Severity Scales. In A. Wimo, B. Jönsson, G. Karlsson, B. Winblad (eds): 

Health Economics of Dementia. John Wiley & Sons, England. 

45. SACMOT (Scientific Advisory Committee of the Medical Outcomes 

Trust) (2002): Assessing health status and quality-of-life instruments: 

Attributes and review criteria. Quality of Life Research 11: 193-205. 

46. Sharma, S. (1996): Applied Multivariate Techniques. John Wiley & Sons, 

Inc (NY). 

47. Steward, A.L (1990): Psychometric Considerations in Functional Status 

Instruments. In Lipkin Jr, M. (Series Ed.) Functional Status Masurement 

in Primary Care. Springer-Verlag, New York. 

48. Swedner, H. (1979): Sociologisk Metod. En bok om konskapsproduktion 

och förändringsarbete. Bröderna Ekstrands Tryckeri AB, Lund. 

49. Torrance G. (1986): Measurement of health state utilities for economic 

appraisal – a review. Journal of Health policy, vol.5, p. 1-30 (2003) 

47

Bilag 1: Klassisk vs. klinimetrisk psykometrisk skala-analyse 

Det er som udgangspunkt valgt at anvende den klassiske begrebstilgang til 

reliabilitets- og validitets-vurderingen i modsætning til den ’klinimetriske’ tilgang, 

som er en mere moderne tilgang til valideringen af vurderinsgsskalaer. At 

udgangspunktet for vurderingerne er foretaget via den klassiske 

begrebsterminologi skyldes, at de fleste af de vurderede skalaer/instrumenter er 

vurderet via de begreber, der netop anvendes heri. Ligeledes er der et overlap 

mellem de to begrebstilgange, hvorfor et instrument, der er vurderet via den 

klinimetriske vurderingstilgang, godt kan passes ind under de klassiske 

valideringsbegreber. 

Forskelle og ligheder mellem de to begrebstilgange til psykemetrien søges kort 

belyst i det følgende. I den klinimetriske tilgang benyttes begreberne intern- og 

ekstern validitet samt reliabilitet som illustreret i Figur 1A. Fortolkningen heraf 

fremgår af det følgende 9 

9 Professor, overlæge, dr.med. Per Bech, Psykiatrisk Forskningsenhed, Psykiatrisk 

Sygehus, Frederiksborg Amt, har bidraget til dette afsnit. Ansvaret for den endelige 

udformning er dog alene forfatternes. 

48

Figur 1A. Psykometrisk skala-analyse – klinimetrisk tilgang til vurdering af 

skalaegenskaber 

Intern validitet 

Endimensionale 

skalaer 

Total score 

tilstrækkelig 

flerdimensionale 

skalaer 

Profil score 

nødvendig 

Kilde: Efter Bech, 2002. 

Intern validitet 

Ekstern validitet 

Diagnostiske 

screeningsskalaer 

Sensitivitet og specificitet 

Skalaer for 

behandlingseffekt 

Acceptabel effekt 

størrelse over for placebo 

Ifølge den klinimetriske tilgang vedrører intern validitet spørgsmålet, hvorvidt den 

kliniske tilstand, der ønskes målt, er en- eller flerdimensional. Idet demens i sig 

selv er et flerdimensionalt begreb (rummer bl.a. en kognitiv, en funktionel og en 

adfærdsmæssig dimension), er det nødvendigt at få indholdsmæssigt afdækket, 

hvilken af disse dimensioner en skala tilhører. Herefter kan der foretages en 

analyse, der afklarer, hvorvidt en totalscore er et tilfredsstillende statistisk udtryk 

for skalaens interne validitet, se nedenfor. Dette svarer grundlæggende set til 

begrebet ’intern konsistens’ (reliabilitetsvurdering), som anvendes under den 

klassiske tilgang, samt begrebsvaliditet - om den totale skalascore er et 

tilfredsstillende mål for det kliniske syndrom/tilstand. 

49 

Reliabilitet 

Spørgeskemaer 

Test-retest 

reliabilitet 

Interviewskalaer 

Inter-rater reliabilitet

Reliabilitet 

Reliabilitet udtrykkes ofte ved test-retest reliabilitet eller, hvor der ikke er 

tidsforskel mellem observationerne, ved en split-half koefficient, som udtrykker 

korrelationen mellem den ene og den anden halvdel af items i en skala. Den 

hyppigst anvendte koefficient er Chronbach’s alpha koefficient. Der er imidlertid, 

som påpeget af Bech (2002), nogle problemer med anvendelsen af Chronbach’s 

alpha koefficient. Således vil en høj værdi af koefficienten kunne skyldes, at alle 

items er lige svære. Endvidere kan selve skalaens længde bidrage til en høj 

koefficient, idet antallet af items indgår i formlen. Herudover indikerer Cronbach’s 

alpha ikke nødvendigvis endimensionalitet, da alpha er en funktion af item 

kovarians. Kovarians mellem items kan således definere mere end én faktor i en 

faktoranalyse 

Den klinimetriske analyse-tilgang til vurderingen af en skalas egenskab anvender 

som regel den ikke-parametriske item-response-teori analyse (Mokken-analyse) 

eller Rasch-analyse (parametrisk item-respons analyse) (Bech, 2002). En kort 

beskrivelse af Mokken- og Rasch-analyse gives i afsnit 1.A. 

Ekstern validitet 

Den eksterne validitet i den klinimetriske tilgang kan opdeles i kriterier, der 

vedrører dels screeningsskalaer, dels behandlingseffekt skalaer. Kriterierne 

omfatter hhv. skalaernes sensitivitet og specificitet (for diagnostiske screenings 

skalaer), samt lydhørhed over for ændring (eng: responsiveness) og følsomhed 

(eng: sensitivity) (for behandlingsskalaer). En skalas lydhørhed over for en 

ændring refererer til dens evne til at måle ændringer i en patients symptomatologi i 

en behandlingsperiode. En skalas følsomhed drejer sig om, hvorvidt en skala kan 

diskriminere mellem en aktiv terapi og ’placebo’. Dette kan vurderes ved en 

effektstørrelse, der viser størrelsen af forbedringen i en skalas score i en given 

behandlingstid, når en aktiv behandling sammenlignes med inaktiv behandling, og 

kan defineres som den gennemsnitlige forskel divideret med spredningen. 

50

I den klassiske begrebsterminologi eksisterer ligeledes begreberne responsiveness 

og sensitivity. Begreberne tilhører grundlæggende set validitetsproblematikken, 

men da et instruments følsomhed/lydhørhed over for ændringer kan være en 

vanskelig egenskab af få bekræftet, og da der ikke er konsensus om, hvilken 

tilgang, der er ’mest’ korrekt, beskrives vurderingen heraf ofte separat. Én måde, 

hvormed man vurdere følsomheden over for ændringer, er ved gentagne 

anvendelser af en skala på et individ (test-retest tilgang). En anden er via 

vurderinger af gulv/loft-effekter, samt vurdering af de anvendte svarmuligheder i 

forbindelse med itemsvurderingen (dikotomt ja/nej vs. fx Likertskalaer (altid - 

aldrig). Endelig kan selve effektstørrelsen vurderes. Følsomheden kan også 

vurderes ved at sammenholde ændring i et instrument med ændring i et andet 

klinisk instrument. Hvis der forekommer en ændring i det ene instrument, vil det 

forventes, at der ligeledes vil kunne observeres en ændring i det andet instrument. 

Såfremt der ikke fremkommer en signifikant effektstørrelse, kan dette dog både 

tilskrives en ineffektiv intervention, og/eller manglende følsomhed i instrumentet 

over for ændringer, eller at instrumentet ikke har kunnet anvendes i den situation, 

det er blevet anvendt i. 

1.A. Skalaers homogenitet 

Det grundliggende problem med den klassiske psykometriske tilgang til 

vurderingen af en skalas interne konsistens (vurderet ved Cronbach’s alpha og/eller 

faktor analyse) bliver bl.a. refereret til som det ’psykosociale forskerproblem’. 

Problemet her er, at visse af de forskere, der udvikler nye skalaer, mangler en solid 

klinisk erfaring, hvorfor deres fokus fæstnes på fremkomne 

korrelationskoefficienter, som måske nok er statistiske, men ikke nødvendigvist 

klinisk signifikante (Bech, 2004a). 

51

I forbindelse med klinisk vurdering af en patient anvendes ofte vurderingsskalaer, 

der vurderer en dimensions sværhedsgrad. For at kunne summere de individuelle 

items til en enkelt score, skal skalaen opfylde kriterierne for endimensionalitet. 

Dette betyder, at de individuelle skalaitems skal være rangordnet i henhold til deres 

relation til patientens funktionsindskrænkning, hvormed forstås, at et respons på et 

højere liggende item (tilstedeværelsen af symptom eller tegn) vil indeholde 

informationen vedrørende respons på de lavere liggende items. Dette er i 

modsætning til en Likert skala, hvor scoren opnås ved at summere responsscoren 

for de enkelte items. De enkelte items/udsagn i en Likertskala vurderes fx ud fra 

graden af enighed eller uenigheden i et udsagn på et item, hvor man fx kan være 

meget enig, enig, neutral, uenig eller meget uenig i denne. Den specifikke respons 

på de enkelte items kombineres, så individer med den mindst favorable 

attitude/tilstand vil opnå lavest score (eller højest), og individer med mest 

favorable attitude/tilstand vil opnå højest (eller lavest) score (McIver og Carmines, 

1981). 

1.A.1. Mokken-analyse 

Mokken skalaanalyse (Mokken, 1982) er en hierarkisk skaleringsmetode meget lig 

Guttman skalering 10 . Begge teknikker antager eksistensen af en underliggende 

latent (ikke-observerbar) attribut, som er repræsenteret ved et sæt af items relateret 

hertil. Den hierarkiske egenskab betyder, at items kan rangordnes efter 

sværhedsgraden heraf, så et individ, som opnår et bestemt itemniveau, også vil 

kunne opnå alle de itemsniveauer, der ligger lavere i rangordenen. Et individs 

skalascore er derfor scoren på det højeste item, individet kan give tilslutning til. 

Den primære forskel mellem Guttman- og Mokken skalering er, at Mokken 

10 http://www.blackwellpublishing.com/specialarticles/jcn_8_388.pdf 

52

skalering er probabilistisk 11 af natur, medens Guttman skalering er 

deterministisk 12 . 

Reproducerbarhed måles i Mokken-analysen ved Loevinger’s koefficient Hi for 

hvert item i, og H for hele skalaen. Beregningen af Hi og H afhænger af 

sammenligning af sandsynligheden for fejl i rangordningen over for 

sandsynligheden for, at en sådan rangorden opstod, hvis items var urelaterede. Hi 

og H vil antage værdier mellem 0 og 1. En skala anses for dimensionalt svag hvis 

Loevinger koefficienten er mellem 0,30-0,39, acceptabel ved koefficienter mellem 

0,40-0,49, og stærk ved koefficienter fra 0,50 og opefter. 

1.A.2. Rasch-model 

Rasch 13 modellerne er specifikt udviklet med det formål at kunne anvendes til 

objektiv sammenligning af patienter, og er ligesom Mokken metoden probablistisk 

af natur. 

En grundliggende antagelse bag Rasch analyse er, at forholdet mellem et individs 

besvarelse på et item og den latente attribut kan beskrives ved en item 

karakteristisk kurve (ICC). 

11 Kan opfattes som uperfekte Guttman skalaer, hvor sandsynligheden for respons på et 

item gradvist øges med den latente attribut (fx med øget kognitiv svækkelse) – i stedet for 

at hoppe fra 0 til 100 %, som ved Guttman skalering (i stedet for trinfunktion er 

forløbsgrafen s-formet). 

12 Guttman skalering er deterministisk. Deterministiske modeller kan ikke tage højde for 

målefejl (som udgangspunkt). Som følge heraf vil sandsynligheden for en given respons 

være 0 eller 1. Probablistiske modeller tillader målefejl. Som følge heraf kan 

sandsynligheden for respons på et item ligge et sted mellem 0 og 1 (McIver og Carmines 

1981). 

13 George Rasch (1901-1980) var en dansk statistiker, som udviklede de psykometriske 

metoder, der i dag går under betegnelsen item-response-teori-modeller (eller Raschmodeller). 

53

Figur 2A viser tre hypotetiske kurver (ICC), der viser responsen på tre 

spørgsmål/opgaver, i forbindelsen med vurderingen af en latent egenskab. 

Figur 2A. Item karakteristik kurver (ICC) 

Sandsynlighed 

100% 

0% 

Item A Item B Item C 

0 5 10 15 20 25 30 

Latente træk 

Kilde: Streiner og Norman, 1995. 

Bemærkning: Items A og B, har samme evne til at diskriminere (indikeret ved parallelle 

kurver) men forskellige sværhedsgrader (indikeret ved de forskellige placeringer). Item C 

er dårligere til at diskriminere end både A og B, da denne har en fladere hældning. 

Anmærkning: Indtegnet i figuren er en horisontal linje, hvor sandsynligheden er 50%. 

Dette betyder, at vis man tog 100 individer med samme mængde af den latente egenskab, 

da ville 50 af dem svare på én måde og 50 på anden måde (ved dikotome 

svarmuligheder). 

54 

0,5

ICC har visse fælles kendetegn 

• Er S-formede 

• Er monotone; sandsynligheden for at score i en positiv retning øges, når 

scoren på den latente attribut stiger. 

ICC afviger fra hinanden i relation til 

• hældningen (stejl eller flad?). Jo mere stejl hældning, jo bedre er itemet til at 

diskriminere. Det skyldes, at andelen af individer, der reagerer/svarer i 

positiv retning, ændres relativt hurtigere på en stejl kurve (fx A og B i figur 

A2), når værdien af det latente træk øges. 

• hvor på den latente træk, de er placeret 

• hvor de flader ud (i bunden) 

I Rasch modellerne antages det, at der er en lineær sammenhæng mellem 

patienternes funktionsevne og items/opgavers sværhedsgrad. Det betyder i 

realiteten, at det ikke altid er nødvendigt at håndtere alle items på alle individer, 

men kan nøjes med ’subtests’. Man kan nøjes med at vurdere de items, der ligger i 

det ’kritiske’ område – dvs. det område, hvor man er i tvivl om hvorvidt et individ 

fx kan besvare et spørgsmål eller ej (Streiner og Norman, 1995). 

1.A.2.1. Rasch-analyse 

En Rasch-analyse er en empirisk baseret statistisk analyse, der kræver data fra 

relativt mange individer (minimum 200, hvis det forventes at items har samme 

evne til at diskriminere, Streiner og Norman (1995)) til udledningen af ICC. En 

Rasch-analyse kræver, at en score på items med lav prævalens er gået forud af en 

score på items med højere prævalens. Det skyldes, at items med lav prævalens 

måler de mere alvorlige eller sværere grader af den dimension (latente træk), som 

ønskes målt, medens items med høj prævalens måler de lettere grader. 

55

I de tilfælde hvor empiriske data ikke kan tilpasses Rasch modellen (dvs. 

enkeltbesvarelserne ikke kan ikke reduceres til en total, som dækker 

informationsindholdet i alle enkeltbesvarelserne), kan objektive mål ikke udledes 

fra data. Kun i de tilfælde, hvor empirisk data behørigt passer en Rasch-model, kan 

summarisk statistisk over data (total vurderingsskalascore) anvendes til en objektiv 

patientsammenligning (Bech, 2004). For yderligere information vedrørende Rasch- 

analyse til vurdering af skalas endimensionalitet henvises til Andrich (1988) eller 

Allerup (1987). 

56

Bilag 2: Ordliste 14 

Cronbach’s alpha: Reliabilitetsestimat, der er baseret på inter-item- 

korrelationsmatrixen. Anvendes ofte som mål for en skalas interne konsistens. 

Begrebsvalidietet (Construct validity): Hvorvidt måleresultater ved brug af et 

instrument er korreleret med andre variable på en teoretisk begrundet forventet 

måde. Omfatter konvergent og diskriminant begrebsvaliditet, multitræk- 

multimetoder (multitrait-multimethod approach) samt kendt gruppe validitet 

(known group validity). Se disse. Se også: validitet. 

Bias: Hvorvidt score på en skala er systematisk højere eller lavere end den sande 

score. Årsager til bias kan være systematiske responsfejl. 

Diskriminant begrebsvaliditet: Hvorvidt f.eks. et mål for fysisk funktionsevne 

korrelerer lavere med et mål for mental sundhed end med et mål for mobilitet. Se: 

validitet. 

Endimensionalitet: En vurderingsskala kan siges at være endimensional, hvis den 

er accepteret som sådan gennem fx en Rasch-, Mokken- eller Guttman-analyse. Se 

disse. 

Ekstern validitet: Benyttes i epidemiologien som udtryk for mulighederne for at 

generalisere måleresultater til andre personer end de, der indgik i en konkret 

undersøgelse. I den klinimetriske tilgang opdeles ekstern validitet i kriterier, der 

vedrører dels screeningsskalaer, dels behandlingseffektskalaer. Kriterierne 

omfatter hhv. skalaernes sensitivitet og specificitet (for diagnostiske 

screeningsskalaer) samt lydhørhed over for ændring og følsomhed (for 

behandlingsskalaer). Omfatter f.eks. en analyse af, hvorvidt en skala korrelerer 

14 Som kilder er især benyttet. Stewart (1990) samt Bech et al. (2004). 

57

med variable uden for skalaen (fx alder), eller kan diskriminere mellem aktiv og 

inaktiv behandling. Se: validitet, intern validitet. 

Effektstørrelse: Størrelsen af forbedringen i en skalas score i en given 

behandlingstid, når en aktiv behandling sammenlignes med en inaktiv behandling. 

Vurderes ved at tage den gennemsnitlige forskel og dividere denne med 

spredningen. 

Face validity (umiddelbar validitet): Hvorvidt items i en skala forekommer at 

måle det begreb, der måles. Er ikke testbar. Se: validitet. 

Guttman skala: Skala i hvilken items udgør en endimensional serie, således at et 

svar på et givent item forudsiger svaret på alle de tidligere items i serien. Det 

betyder, at en respondent, som har svaret positivt på et item, ligeledes må besvare 

et mindre vanskeligt item positivt. 

Intern validitet: Benyttes i epidemiologien som udtryk for gyldigheden af fundne 

måleresultater; kræver bl.a. fravær af bias i måleresultater. I den klinimetriske 

tilgang til vurdering af skalaer benyttes begrebet som udtryk for, hvorvidt de 

enkelte symptomer i en skala tilhører den samme kliniske dimension, således at 

summen af de enkelte symptomer er et sufficient eller adækvat mål for tilstandens 

sværhedsgrad. Se: validitet, ekstern validitet. 

Intraklasse koefficient (ICC): Et statistisk udtryk for graden af overensstemmelse 

når flere observatører vurderer den samme patientgruppe (inter-rater reliabilitet). 

Se: reliabilitet. 

Indholdsvaliditet vedrørende 1) et sæt af flere mål: Hvorvidt alle vigtige aspekter 

af f.eks. funktionsevne eller velvære er repræsenteret i instrumentet; vedrørende 2) 

en enkel multi-item skala: Hvorvidt alle aspekter af definitionen af det begreb, der 

måles, er repræsenteret i skalaen. Under indholdsvaliditet henføres undertiden face 

validity (umiddelbar validitet), se face validity. Se også: validitet. 

58

Inter-item korrelationer: Anvendes til vurderingen af hvilke items, der muligvis 

er overflødige i en skala, eller urelateret til det begreb, der undersøges. Anvendes i 

forbindelse med vurdering af intern konsistens. Se også: intern konsistens. 

Intern konsistens (alfa koefficient): Den grad, hvori alle items i en skala måler det 

samme underliggende (latente) begreb, eller konvergensen af items vedrørende det 

begreb, der måles: koefficienten vokser, når de anvendte items bliver mere 

ensartede, og når antallet af items vokser. Anvendes i forbindelse med multi-item 

skaler. Se: reliabilitet, item-total korrelationer, inter-item korrelationer, Cronbach’s 

alpha. 

Interrater reliabilitet: Den grad, hvori en observatørs vurdering (rating) af et 

fænomen er konsistent med en anden observatørs vurdering. Anvendes i 

forbindelse med målinger, der er baseret på observatør vurderinger. Se: reliabilitet. 

Item-total korrelationer: Korrelation af individuelle items med skalaens 

totalscore. Itemet, der er under undersøgelse, udelades fra skalaen. Gøres for at 

undersøge om items vurderer forskellige begreber eller forskellige komponenter af 

samme begreb. Anvendes til vurderingen en skalas interne konsistens. Se også: 

Intern konsistens, reliabilitet, Cronbach’s alpha. 

Kendt gruppe validitet (known groups validity): Hvorvidt f.eks. en score på en 

mental sundhedsskala for en gruppe af patienter er lavere end for befolkningen 

som helhed. Se også: begrebsvaliditet. 

Klinimetri: Er videnskaben om kliniske målinger. Er et medicinsk udtryk for 

måling af kliniske symptomer, bivirkninger, sociale faktorer og livskvalitet. 

Vurderingsinstrumenter/ skalaer er klinimetriske instrumenter. 

Konvergent begrebsvaliditet: Hvorvidt f.eks. et mål for demensgrad korrelerer 

med et mål for konsekvenserne af demens. Se: validitet. 

59

Kriterie og kriterie-relateret validitet: Hvorvidt et mål korrelerer højt med den 

”gyldne standard” for måling af pågældende begreb. Omfatter kriterie-validiet, 

kriterie-relateret validitet og prædiktiv validitet (se disse). Se: validitet. 

Kriterie validitet: Hvorvidt et nyt mål på et fænomen eller tilstand korrelerer med 

en ”gylden standard” for måling af fænomenet. Se: validitet, begrebsvaliditet. 

Kriterie-relateret validitet: Hvorvidt målinger ved brug af f.eks. en kort form af 

et instrument korrelerer højt med målinger ved brug af en valideret, længere form 

af instrumentet. Se: validitet. 

Kumulativ skalering: Minder meget om summeret skalering, man kan kun 

anvendes når der er to svaralternativer for hvert spørgsmål. Som for summeret 

skalering (Likert skalering) er der tale om monotone items og en persons 

skalaværdi udregnes som antal positive svar. Et yderligere krav er, at personens 

svar skal danne et kumulativt mønster. Dette betyder, at hvis items ordnes efter 

antal positive svar, vil en person med fx 3 positive svare have svaret positivt på de 

tre første items og negativt på resten, jf. Guttman skalering (se dette). 

Likert skala: Svaret på hvert udsagn er gradueret på en vuderingsskala fra 1 til fx 

5, hvor 5 fx betyder, ’meget enig’ i et udsagn og 1 betyder ’meget uenig’ i et 

udsagn. En persons skalaværdi måles ved summen af points på alle udsagn. 

Mokken analyse: Er en latent strukturanalyse, der fremkommer med en 

koefficient for homogenitet/endimensionalitet (Loevinger koefficient). Det er en 

ikke-parametrisk item-respons analyse af datas struktur, som udtrykker graden, ved 

hvilken en ekstra item passer ind i den struktur, der ydes af de øvrige skalaitems. 

Ved Mokken-analyen undersøges hypotesen om, at hver skalaitem i skalaen under 

observation kun reflekterer én latent parameter. En skala anses for dimensionalt 

svag, hvis Loevinger koefficienten er mellem 0,30-0,39, acceptabel ved 

koefficienter mellem 0,40-0,49, og stærk ved koefficienter fra 0,50 og opefter. 

60

Multitræk-multi metode (multitrait-multimethod approach) tilgang til 

begrebsvaliditet: Hvorvidt f.eks. et selvrapporteret mål for depression har en højere 

korrelation med en observatør-vurdering deraf end med selvrapporteret ængstelse. 

Se: validitet, begrebsvaliditet. 

Proxy-respondent: Respondent, som svarer på vegne af den person, som er 

genstand for undersøgelse. 

Prædiktiv validitet: Hvorvidt det er muligt på grundlag af kendskab til værdien af 

en variabel at forudsige værdien af en anden variabel, f.eks. hvorvidt en score på et 

instrument til måling af funktionsindskrænkning forudsiger brug af 

sundhedsydelser til afhjælpning af problemet. I modsætning hertil benyttes 

begrebet samtidig validitet (concurrent validity), se dette, om validitetsvurderinger, 

der er baseret på samtidige målinger. Se: validitet. 

Psykometri: Den videnskabsgren, der analyser en skalas reliabilitet og validitet på 

et statisk grundlag. 

Rasch: George Rasch var dansk statistiker (1901-1980), som udviklede item- 

reponse-teori-modellerne, der anvendes til undersøgelser af endimensionalitet. Se: 

Rasch-modeller. 

Rasch-modeller er modeller, som specifikt er udviklet med det formål at kunne 

være objektive i forbindelse med patientsammenligninger. Rasch modellerne 

antager, at der er en lineær struktur mellem patienternes funktionsindskrænkning 

og item-sværhedsgraden (prævalens). En Rasch-analyse kræver således, at en score 

på items med lav prævalens er forudgået af en score på items med højere 

prævalens, idet items med lav prævalens måler de mere alvorlige eller sværere 

grader af dimensionen, mens items med høj prævalens måler de lettere grader. 

Reliabilitet: Den grad, hvormed en score er fri for tilfældige fejl. Hypotetisk er det 

den grad, hvori samme score kan opnås igen ved brug af samme måleinstrument 

61

under de samme betingelser. Udtrykkes undertiden også som konsistens, 

reproducerbarhed og mulighed for gentagelse. De fire mest anvendt reliabilitetsmål 

er: intern konsistens (alfa kofficient), test-retest, inter-rater og 

reproducerbarhedskoefficient (se disse). 

Reproducerbarhedskoefficient: Den grad, hvori en persons respons på et item 

kan forudsiges ud fra kendskab til skala-score på en Guttman skala. Se: Guttman 

skala. 

Samtidig validietet (concurrent validitet): Vurdering af kriterie-relateret validitet, 

som er baseret på samtidige målinger af score på et instrument og andre variable, i 

modsætning til prædiktiv validitet. Se: prædiktiv validitet og validitet. 

Skalering: Konstruktionen af en sammensat skala (flere variable/items). Der 

anvendes skalering til at sammenfatte flere svar i et instrument/spørgeskema. 

Summeret skalering: Bygger på en type spørgsmål (monotone items) hvor 

tilbøjeligheden til at give et positivt svar eller erklære sig enig enten stiger eller 

falder monotont med stigende skalaværdi. Likert skalering er eksempel på 

summeret skalering. 

Test-retest reliabilitet: Den grad, hvori gentagne anvendelser af det samme mål er 

konsistent, udtrykt ved korrelation af den samme måling, udført ved forskellige 

tidspunkter. Anvendes ved alle typer af instrumenter. Se: reliabilitet. 

Validitet udtrykker den grad, hvori et mål faktisk måler, hvad der ønskes, at det 

skal måle, og omvendt ikke måler det, som det ikke ønskes, at det skal måle. 

Validitet er ikke et spørgsmål om enten eller, men om grad. Validitetsbegrebet 

knytter sig ikke til et instrument alene (det giver ikke mening alene at sige, at et 

instrument er validt), men det knytter sig også til, om det er gyldigt for et specifikt 

formål og ved brug over for en specifik befolkningsgruppe. F.eks. kan et 

instrument til måling af depression i den ældre befolkning være et gyldigt udtryk 

62

for depression deri, men ikke nødvendigvis for depression hos demente. At et 

instrument er ”valideret”, er ikke et tilstrækkeligt grundlag at vælge instrument på; 

dels kræves der oplysning om formål og befolkningsgruppe, dels kræves der 

oplysninger om resultatet af valideringsarbejdet. Der benyttes forskellige typer af 

validitetsmål: indholdsvaliditet, kriterievaliditet, begrebsvaliditet samt studier af 

bias (se disse). Se også ekstern og intern validitet. 

VAS: Visuel Analog Scala (VAS) er betegnelsen for en ret linje, hvor de to 

yderpunkter repræsenterer hhv. den bedst og den værst tænkelige tilstand. Her 

anmodes respondenten om at markere sin aktuelle tilstand med et kryds på linjen 

mellem de to yderpunkter. 

63

Metoder og instrumenter til resultatmåling af indsatser over for ...

Create successful ePaper yourself

Delete template?

Save as template?