29.07.2013 Views

Metoder og instrumenter til resultatmåling af indsatser over for ...

Metoder og instrumenter til resultatmåling af indsatser over for ...

Metoder og instrumenter til resultatmåling af indsatser over for ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Metoder</strong> <strong>og</strong> <strong>instrumenter</strong> <strong>til</strong> <strong>resultatmåling</strong><br />

<strong>af</strong> <strong>indsatser</strong> <strong>over</strong> <strong>for</strong> demente<br />

– psykometriske begreber<br />

Charlotte Horsted<br />

Terkel Christiansen<br />

Health Economics Papers<br />

2004:3


Indhold<br />

Instrumenter <strong>til</strong> måling <strong>af</strong> sundhedsstatus <strong>og</strong> effektvurdering....5<br />

1.1. Måling <strong>af</strong> sundhedsstatus eller sundhedsudfald?................................................................. 7<br />

1.2. Formålet med at måle sundhed ............................................................................................ 8<br />

1.3. Operationalisering <strong>og</strong> måling <strong>af</strong> sundhed ............................................................................ 9<br />

1.4. Videnskabelige <strong>over</strong>vejelser i <strong>for</strong>bindelse med målingen <strong>af</strong> sundhed............................... 12<br />

1.4.1. Reliabilitet (pålidelighed) ........................................................................................... 13<br />

1.4.1.1 Hvornår er n<strong>og</strong>et reliabelt? .................................................................................. 20<br />

1.4.2. Validitet (gyldighed) ................................................................................................... 21<br />

1.4.3. Diskriminationsstyrke <strong>og</strong> følsomhed........................................................................... 27<br />

1.4.3.1. Følsomhed <strong>over</strong> <strong>for</strong> ændringer ............................................................................ 27<br />

1.5. Tekniske aspekter <strong>af</strong> mål <strong>for</strong> sundhedsstatus <strong>og</strong> sundheds-udfald. ................................... 29<br />

1.5.1. Generiske versus sygdomsspecifikke mål.................................................................... 29<br />

1.5.2. En- versus flerdimensionale mål................................................................................. 30<br />

1.5.3. Et eller flere items....................................................................................................... 31<br />

1.5.3.1. Profiler versus indeks........................................................................................... 32<br />

1.5.4. Numeriske sundhedsestimater: Skaleringsmetoder .................................................... 33<br />

1.6. Vægtningsteknikker – fra items <strong>til</strong> skala............................................................................ 37<br />

1.7. Praktiske <strong>over</strong>vejelser ........................................................................................................ 39<br />

1.8. Valg <strong>af</strong> instrument – opsummering.................................................................................... 41<br />

Litteraturliste:............................................................................44<br />

Sekundær litteratur ....................................................................45<br />

Bilag 1: Klassisk vs. klinimetrisk psykometrisk skala-analyse.48<br />

Bilag 2: Ordliste ........................................................................57


Forord<br />

Projektet ”<strong>Metoder</strong> <strong>og</strong> <strong>instrumenter</strong> <strong>til</strong> effektvurdering <strong>af</strong> <strong>indsatser</strong> <strong>over</strong> <strong>for</strong> demente” er<br />

finansieret <strong>af</strong> Servicestyrelsen (Styrelsen <strong>for</strong> social service, socialministeriet) <strong>og</strong> er udført i et<br />

samarbejde mellem CAST (Center <strong>for</strong> Anvendt Sundhedstjeneste<strong>for</strong>skning <strong>og</strong><br />

Teknol<strong>og</strong>ivurdering) <strong>og</strong> Forskningsenheden <strong>for</strong> Sundhedsøkonomi, IST (Institut <strong>for</strong><br />

Sundhedstjeneste<strong>for</strong>skning), ved Syddansk Universitet, Odense.<br />

Der eksisterer i dag et stort antal metoder <strong>og</strong> <strong>instrumenter</strong> med det angivne <strong>for</strong>mål at kunne<br />

vurdere <strong>og</strong>/eller måle effekten <strong>af</strong> en indsats <strong>over</strong> <strong>for</strong> demensramte. Formålet med projektet har<br />

været at give potentielle brugere en <strong>over</strong>sigt der<strong>over</strong> <strong>og</strong> i <strong>til</strong>knytning her<strong>til</strong> at beskrive<br />

<strong>instrumenter</strong>nes egenskaber, så det bliver muligt at bedømme <strong>instrumenter</strong>nes egnethed <strong>til</strong> et<br />

givet <strong>for</strong>mål.<br />

Projektet <strong>af</strong>rapporteres ved 4 publikationer, som alle er <strong>til</strong>gængelige på:<br />

http://www.sam.sdu.dk/healtheco/publications/workingpapers.htm<br />

1) Charlotte Horsted <strong>og</strong> Terkel Christiansen. <strong>Metoder</strong> <strong>og</strong> <strong>instrumenter</strong> <strong>til</strong> effektvurdering <strong>af</strong><br />

indsatsen <strong>over</strong> <strong>for</strong> demente – en <strong>over</strong>sigt. Syddansk Universitet: Health Economics Papers<br />

2004:2<br />

2) Charlotte Horsted <strong>og</strong> Terkel Christiansen. <strong>Metoder</strong> <strong>og</strong> <strong>instrumenter</strong> <strong>til</strong> effektvurdering <strong>af</strong><br />

indsatsen <strong>over</strong> <strong>for</strong> demente – psykometriske begreber. Syddansk Universitet: Health Economics<br />

Papers 2004:3<br />

3) Charlotte Horsted <strong>og</strong> Terkel Christiansen. <strong>Metoder</strong> <strong>og</strong> <strong>instrumenter</strong> <strong>til</strong> effektvurdering <strong>af</strong><br />

indsatsen <strong>over</strong> <strong>for</strong> demente – gennemgang <strong>og</strong> beskrivelse <strong>af</strong> <strong>instrumenter</strong>ne. Syddansk<br />

Universitet: Health Economics Papers 2004:4<br />

4) Charlotte Horsted. Vurdering <strong>af</strong> generiske livskvalitets<strong>instrumenter</strong> – deres kvaliteter i<br />

<strong>for</strong>bindelse med anvendelse på demensramte. Syddansk Universitet: Health Economics Papers<br />

2004:5.<br />

Den førstnævnte publikation indeholder en kortfattet <strong>over</strong>sigt <strong>over</strong> de metoder <strong>og</strong> <strong>instrumenter</strong>,<br />

der mere uddybende er gennemgået i den tredje publikation. Formålet med rapporten er at give<br />

læseren et hurtigt <strong>over</strong>blik <strong>over</strong> <strong>instrumenter</strong>nes egenskaber – dvs. anvendelse, antal items,<br />

håndtering, håndteringstid samt vurdering <strong>af</strong> <strong>instrumenter</strong>nes reliabilitet <strong>og</strong> validitet.<br />

Den anden publikation indeholder en beskrivelse <strong>af</strong> n<strong>og</strong>le <strong>af</strong> de metoder <strong>og</strong> kriterier, som<br />

anvendes ved kvalitetsvurdering <strong>af</strong> <strong>instrumenter</strong>. En vis <strong>for</strong>ståelse her<strong>for</strong> kan være væsentlig <strong>for</strong><br />

læsning <strong>af</strong> den tredje publikation. Den indeholder desuden en ordliste <strong>over</strong> de mest anvendte<br />

begreber i rapporterne.<br />

Den tredje publikation er en bilagsrapport <strong>til</strong> den første. Rapporten indeholder en gennemgang<br />

<strong>og</strong> beskrivelse <strong>af</strong> de udvalgte ca. 70 <strong>instrumenter</strong>. Fokus er på <strong>instrumenter</strong>nes <strong>for</strong>mål, deres<br />

begrebslige grundlag <strong>og</strong> psykometriske egenskaber (validitet, reliabilitet samt følsomhed <strong>over</strong><br />

<strong>for</strong> ændring).<br />

Den fjerde publikation indeholder en beskrivelse <strong>af</strong> de mest almindelige generiske<br />

livskvalitets<strong>instrumenter</strong>s egenskaber i <strong>for</strong>bindelse med anvendelse på demensramte individer.<br />

Dette drejer sig om <strong>instrumenter</strong>ne DUKE, EQ5D, HUI, SIP, 15D, SF-36, QWB.


En stor tak <strong>til</strong> <strong>over</strong>læge Kirsten Abelskov, Gerontopsykiatrisk <strong>af</strong>deling i Århus Amt <strong>og</strong><br />

professor, dr. med. Per Bech, Stressklinikken, Hillerød Sygehus, <strong>for</strong> deres kommentarer <strong>til</strong><br />

rapporterne. Ligeledes tak <strong>til</strong> Charlotte Bruun Pedersen <strong>og</strong> Marie Holmgaard Kristiansen <strong>for</strong><br />

korrekturlæsning <strong>og</strong> opsætning. Evt. resterende fejl <strong>og</strong> mangler er alene <strong>for</strong>fatternes.<br />

Forskningsassistent, Charlotte Horsted<br />

Professor Terkel Christiansen<br />

Syddansk Universitet


Instrumenter <strong>til</strong> måling <strong>af</strong> sundhedsstatus <strong>og</strong> effektvurdering<br />

Vurderingen <strong>af</strong> demensramtes sundhedsstatus, eller om en indsats <strong>over</strong> <strong>for</strong><br />

individer med demens har en effekt eller ej, kan vanskeligt måles ved hjælp <strong>af</strong><br />

traditionelle målemetoder som fx en måling <strong>af</strong> blodtrykket eller andre <strong>for</strong>mer <strong>for</strong><br />

biomedicinske indikatorer, som kan observeres objektivt. I stedet må der tyes <strong>til</strong><br />

andre metoder <strong>for</strong> at fremsk<strong>af</strong>fe den nødvendige viden.<br />

Måling <strong>af</strong> mental status <strong>og</strong> k<strong>og</strong>nitiv funktion 1 har længe været en del <strong>af</strong> den<br />

kliniske praksis, især i <strong>for</strong>bindelse med geriatrien, idet det især er blandt de ældre,<br />

man oplever k<strong>og</strong>nitiv svækkelse. Epidemiol<strong>og</strong>iske studier <strong>af</strong> demens <strong>og</strong><br />

sundhedsundersøgelser <strong>for</strong> at undersøge den reelle k<strong>og</strong>nitive svækkelse er d<strong>og</strong><br />

først kommet <strong>til</strong> senere. Det skyldes, at individer lever længere i dag, hvilket<br />

<strong>for</strong>øger antallet <strong>af</strong> individer, der får k<strong>og</strong>nitive funktionsproblemer (McDowell,<br />

1996, p. 287, Sundhedsstyrelsen, 2001, p. 37).<br />

Formålet med at undersøge ændringerne i den k<strong>og</strong>nitive funktion hos de demente<br />

er blandt andet:<br />

• At følge det enkelte individs udvikling, dvs. de intra-personelle ændringer<br />

<strong>over</strong> tid<br />

• At kunne evaluere den (sundheds)behandling, der <strong>til</strong>bydes de demente<br />

• At kunne sammenligne <strong>for</strong>skellige behandlingstyper <strong>og</strong> undersøge <strong>for</strong>skelle i<br />

udfaldet mellem grupper<br />

Begrebet ’k<strong>og</strong>nitiv funktion’ er et begreb med mange facetter, hvor<strong>for</strong> der ikke<br />

eksisterer en simpel operationalisering her<strong>af</strong>, som er dækkende. K<strong>og</strong>nitiv funktion<br />

spænder vidt: Fra mild svækkelse (husker måske knapt så godt mere, <strong>for</strong>ringet<br />

koncentrationsevne mv., som er en mulig følge <strong>af</strong> den almindelige ældningsproces)<br />

<strong>til</strong> en situation, hvor den demente faktisk ikke kan n<strong>og</strong>et selv mere; hukommelsen<br />

1 Ordet ’k<strong>og</strong>nitiv’ betyder at opfatte, <strong>for</strong>stå, vide, <strong>og</strong> de k<strong>og</strong>nitive funktioner vedrører<br />

funktioner med erkendelse, opfattelse <strong>og</strong> tænkning.<br />

5


er væk, koncentrationsevnen er lav, den pågældende kan ikke tage vare på sig selv,<br />

<strong>og</strong> er måske ude <strong>af</strong> stand <strong>til</strong> at kommunikere meningsfuldt med omgivelserne. I de<br />

allersværeste <strong>til</strong>fælde reagerer personen eventuelt kun på stimuli i <strong>for</strong>m <strong>af</strong><br />

berøring, lys eller lyde – kendetegn ved meget svær demens). Demens medfører<br />

således en gradvist pr<strong>og</strong>redierende svækkelse <strong>af</strong> intellekt, følelsesliv <strong>og</strong> adfærd.<br />

Demens er en betegnelse <strong>for</strong> tab <strong>af</strong> k<strong>og</strong>nitive færdigheder i en grad, så det går ud<br />

<strong>over</strong> personens dagligdagsfunktioner.<br />

Indholdet i de fleste tests <strong>af</strong> mental status er en vurdering <strong>af</strong> individets opfattelse <strong>af</strong><br />

tid <strong>og</strong> sted, koncentrations- <strong>og</strong> opmærksomhedstests samt hukommelsestests <strong>for</strong><br />

både kort- <strong>og</strong> langtidshukommelsen (McDowell, 1996, p.288). Anvendelsen <strong>af</strong><br />

tests <strong>af</strong> mental status er især begrundet med, at man her har at gøre med den facet<br />

<strong>af</strong> demens, der kan måles mest objektivt, á la de biomedicinske <strong>instrumenter</strong>. Den<br />

k<strong>og</strong>nitive svækkelse er d<strong>og</strong> ikke det eneste relevante kendetegn ved demens,<br />

hvor<strong>for</strong> andre områder <strong>til</strong>lige ofte s analyseres i <strong>for</strong>bindelse med demensstudier.<br />

For at opnå en bedre <strong>over</strong>sigt <strong>over</strong> effekten <strong>af</strong> en behandling <strong>af</strong> patienter med<br />

Alzheimers – eller andre demens<strong>for</strong>mer – vil områder, så som almindelig daglig<br />

levevis (ADL), adfærd, plejetyngde <strong>og</strong> livskvalitet være mulige områder, der<br />

ligeledes kan undersøges nærmere.<br />

Der eksisterer i litteraturen et utal <strong>af</strong> <strong>instrumenter</strong>, hvormed man kan <strong>for</strong>søge at<br />

måle disse effekter. Faren <strong>for</strong> at vælge et uegnet instrument er d<strong>og</strong> nærliggende,<br />

idet det kan være vanskeligt at vurdere, hvilket instrument der er mest<br />

hensigtsmæssigt at anvende i en given kontekst. Hvert instrument har dets egne<br />

<strong>for</strong>dele <strong>og</strong> ulemper, hvor<strong>for</strong> det er væsentligt, at det instrument, man anvender,<br />

udvælges med omhu, så de resultater, man opnår, er relevante, troværdige <strong>og</strong><br />

in<strong>for</strong>mative <strong>for</strong> <strong>for</strong>målet med undersøgelsen (Schneider, 2001, p. S8).<br />

I indeværende notat vil n<strong>og</strong>le <strong>af</strong> de vigtige problems<strong>til</strong>linger, som man generelt<br />

skal være opmærksom på <strong>og</strong> tage s<strong>til</strong>ling <strong>til</strong> i <strong>for</strong>bindelse med valg <strong>af</strong> <strong>instrumenter</strong><br />

6


<strong>til</strong> effektvurdering, blive gennemgået. I denne <strong>for</strong>bindelse er det <strong>af</strong> betydning at<br />

kende de egenskaber, instrumentet besidder, hvorvidt det er reliabelt <strong>og</strong> validt, om<br />

det evt. kan anvendes <strong>til</strong> at måle ændringer <strong>over</strong> tid. Det skyldes, at ikke alle<br />

<strong>instrumenter</strong> er lige følsomme (sensitive), hvor<strong>for</strong> ikke alle <strong>instrumenter</strong> er lige<br />

egnede <strong>til</strong> at måle ændringer i sundhedsstatus. Notatet er et teoretisk notat, der<br />

begynder med en definition <strong>af</strong> begreberne sundhedsstatus <strong>og</strong> sundhedsudfald, idet<br />

disse ofte i litteraturen anvendes i flæng. Notatet indeholder i øvrigt både<br />

videnskabelige <strong>over</strong>vejelser i <strong>for</strong>bindelse med måling <strong>af</strong> sundhed <strong>og</strong> tekniske<br />

aspekter i <strong>for</strong>bindelse med målinger.<br />

1.1. Måling <strong>af</strong> sundhedsstatus eller sundhedsudfald?<br />

En væsentlig <strong>over</strong>vejelse i <strong>for</strong>bindelse med valg <strong>af</strong> instrument er, hvad det egentlig<br />

er, man ønsker, der skal måles. Er det sundhedsstatus (health status) eller<br />

sundhedsudfaldet (health outcome), der ønskes målt? Problemet med at skelne<br />

mellem de to begreber er, at de to begreber i litteraturen ofte anvendes i flæng på<br />

trods <strong>af</strong>, at der er en <strong>for</strong>skel mellem begreberne. Sundhedsstatus skal således<br />

<strong>for</strong>stås som et øjebliksbillede <strong>af</strong> et individs sundhed <strong>og</strong> velvære, mens<br />

sundhedsudfald defineres som en ændring i et individs sundhed <strong>og</strong> velfærd som<br />

følge <strong>af</strong> (fx) en intervention, eller som følge <strong>af</strong> mangel på (korrekt) pleje (Bentzen<br />

et al, 1998, p. 27). Dvs., at sundhedsudfaldsmålet refererer <strong>til</strong> <strong>for</strong>skellen mellem to<br />

målinger <strong>af</strong> sundhedsstatus. Et instrument, skabt <strong>til</strong> at måle et individs<br />

sundhedsstatus på et givet tidspunkt, vil ikke nødvendigvis kunne anvendes <strong>til</strong> at<br />

måle ændringen deri som følge <strong>af</strong> en intervention, idet det måske ikke er<br />

<strong>til</strong>strækkeligt følsomt. Valg <strong>af</strong> egnet instrument er således særligt vigtigt i<br />

interventionsstudier, idet spørgsmålet er, hvorvidt man måler det, der kan ventes<br />

(<strong>og</strong> ønskes) påvirket.<br />

7


1.2. Formålet med at måle sundhed<br />

Hvorvidt man ønsker at måle sundhedsstatus eller <strong>for</strong>skellen deri, mellem to<br />

målinger (sundhedsudfald), <strong>af</strong>hænger således <strong>af</strong> <strong>for</strong>målet med en given analyse.<br />

For beslutningstagere vil populationens nuværende sundheds<strong>til</strong>stand være<br />

væsentlig <strong>for</strong> en bedømmelse <strong>af</strong>, hvor der skal sættes ind i fremtiden: her vil det<br />

være relevant at undersøge individernes nuværende sundhedsstatus. For udøvere <strong>af</strong><br />

en behandling, <strong>for</strong>skere mv., der gerne vil vide, hvorvidt en sundhedsintervention<br />

har en effekt, vil fokus derimod være på <strong>instrumenter</strong>, der kan anvendes <strong>til</strong> at måle<br />

sundhedsudfaldet <strong>af</strong> interventionen.<br />

Der findes <strong>og</strong>så <strong>instrumenter</strong> <strong>til</strong> andre <strong>for</strong>mål. Visse <strong>instrumenter</strong> er designet som<br />

diagnostiske redskaber. I <strong>for</strong>bindelse med diagnosticeringen <strong>af</strong> demens gælder<br />

dette fx instrumentet MMSE 2 (Mini-Mental-Status-Examination, Folstein et al.,<br />

1975), der består <strong>af</strong> en række simple spørgsmål, instrumentet CAMCOG (Roth et<br />

al., 1986) samt urskivetesten, der består i at en patient skal tegne <strong>og</strong> indsætte<br />

timetal i en urskive. Lægen kan, ud fra patientens besvarelse, samt grundigt<br />

kendskab <strong>til</strong> patientens sygehistorie, bedømme, hvorvidt patientens <strong>for</strong>ringede<br />

hukommelse muligvis skyldes demens eller ej, <strong>og</strong> om yderligere undersøgelser (fx<br />

CT-skanning <strong>af</strong> hjernen) skal <strong>for</strong>etages.<br />

Overordnet set kan evalueringen <strong>af</strong> sundhedsstatus <strong>og</strong> sundhedsudfald udføres på<br />

tre niveauer:<br />

1) Mikroniveauet. Vedrører det enkelte individ. Målingen udgør en kvantitativ<br />

vurdering <strong>af</strong> et individs udvikling <strong>og</strong> <strong>af</strong> effekten <strong>af</strong> den behandling, individet<br />

får. Det målte udfald kan anvendes som en vejledning <strong>for</strong> klinisk<br />

beslutningstagning, evaluering <strong>af</strong> effekter <strong>og</strong> bivirkninger, eller <strong>for</strong>udsigelse<br />

<strong>af</strong> en pr<strong>og</strong>nose.<br />

2 Er oprindeligt <strong>til</strong>tænkt blot at være et screeningsinstrument, men anvendes ofte i<br />

<strong>for</strong>bindelse med diagnosticeringen <strong>af</strong> mulige demente.<br />

8


2) Mesoniveauet. Repræsenterer en gruppe <strong>af</strong> individer. Formålet er her at<br />

beskrive <strong>og</strong> sammenligne effektiviteten <strong>af</strong> <strong>for</strong>skellige behandlinger eller<br />

<strong>for</strong>skellige sundhedspr<strong>og</strong>rammer på definerede populationer – fx undersøge<br />

behandlingens indflydelse på disses funktionsmæssige evner, eller deres<br />

velvære.<br />

3) Makroniveau. Repræsenterer hele samfundet. Her er det<br />

omkostningseffektivitet, der er i fokus. Formålet er således at evaluere<br />

omkostningseffektiviteten eller nytten ved udbudte sundhedsbehandlinger.<br />

Dette kræver en mere generisk <strong>til</strong>gang.<br />

(Ferreira et al., 1997, p. 30)<br />

1.3. Operationalisering <strong>og</strong> måling <strong>af</strong> sundhed<br />

I de <strong>for</strong>egående <strong>af</strong>snit er begrebet ’sundhed’ nævnt flere gange – men hvad menes<br />

der egentlig med begrebet ’sundhed’, <strong>og</strong> sundhed i <strong>for</strong>bindelse med demens?<br />

Såfremt man skal anvende et instrument <strong>til</strong> måling <strong>af</strong> her<strong>af</strong>, må dette være baseret<br />

på en specifikt begrebsmæssig <strong>til</strong>gang her<strong>til</strong>.<br />

WHO definerer sundhed som “a state of complete physical, mental and social<br />

well-being and not merely the absence of disease” (WHO, 1958). WHO’s<br />

definition vedrører en ideal<strong>til</strong>stand, der sjældent er opnåelig. Definitionen påpeger,<br />

at sundhed er et begreb med mange aspekter. Bl.a. kan ’sundhed’ indeholde<br />

aspekter vedrørende den kliniske status (tegn, symptomer, diagnosekategorier,<br />

biokemiske <strong>og</strong> psykol<strong>og</strong>iske betingelser) eller den funktionsmæssige status (fysisk,<br />

k<strong>og</strong>nitiv, psykol<strong>og</strong>isk <strong>og</strong> social udfoldelse). I <strong>for</strong>bindelse med demens er en ofte<br />

<strong>over</strong>set dimension <strong>af</strong> sundhed de dementes livskvalitet <strong>og</strong> <strong>for</strong>bedringer her<strong>af</strong>. Dette<br />

aspekt er relevant, idet det identificerer væsentligheden <strong>af</strong> udfald ud<strong>over</strong> fysiske <strong>og</strong><br />

mentale ændringer, ligesom det rejser etiske <strong>og</strong> filosofiske problems<strong>til</strong>linger (jf.<br />

bl.a. Brod et al, 1999, Hughes et al., 2003). Definitionen <strong>af</strong> livskvalitet er d<strong>og</strong> ofte<br />

meget bred, hvilket WHOs definition er et godt eksempel på: ”an individual’s<br />

9


perception of their position in life in the context of the culture and value systems in<br />

which they live and in relation to their goals, expectations, standards and<br />

concerns. It is a broad ranging concept <strong>af</strong>fected in a complex way by the person’s<br />

physical health, psychol<strong>og</strong>ical state, personal beliefs, social relationships and their<br />

relationship to salient features of their environment” (WHO 2003). Definitionen<br />

<strong>for</strong>udsætter, at individer har intellektuel kapacitet <strong>til</strong> at varetage komplekse,<br />

subjektive vurderinger <strong>af</strong> eget liv. Der kan d<strong>og</strong> sættes spørgsmålstegn ved de<br />

dementes evner i denne henseende – især er det et problem, hvor grænsen går<br />

mellem at være i stand <strong>til</strong> at vurdere eget liv, <strong>og</strong> hvornår man ikke længere kan.<br />

Hvilke områder, der bliver relevante at fokusere på i <strong>for</strong>bindelse med<br />

effektvurderinger <strong>af</strong> <strong>indsatser</strong> <strong>over</strong> <strong>for</strong> personer med demens, <strong>af</strong>hænger der<strong>for</strong> <strong>af</strong><br />

definitionen <strong>af</strong> sundhed, herunder livskvalitet, man lægger <strong>til</strong> grund her<strong>for</strong>.<br />

Måling <strong>af</strong> sundhed finder ofte sted som en indirekte proces, der medfører<br />

anvendelse <strong>af</strong> en standard skala på hvert aspekt, hvormed man opnår en numerisk<br />

score <strong>for</strong> det pågældende aspekt <strong>af</strong> begrebet sundhed. Disse scorer kan evt.<br />

efterfølgende kombineres <strong>til</strong> en fælles score <strong>for</strong> sundhed - et såkaldt indeks - eller<br />

man kan bibeholde de enkelte scorer, som <strong>til</strong>sammen udgør en profil. Dette<br />

uddybes i <strong>af</strong>snit 1.5.3.1.<br />

Sundhed er et begreb, der sjældent kan beskrives med kun en enkel parameter, men<br />

i stedet beskrives ved at anvende en række <strong>for</strong>skellige parametre, der hver især<br />

repræsenterer et element <strong>af</strong> begrebet ’sundhed’. Hvilke parametre, der anvendes,<br />

<strong>af</strong>hænger <strong>af</strong>, hvorvidt man søger at besvare spørgsmål om den generelle<br />

sundheds<strong>til</strong>stand eller om specifikke aspekter <strong>af</strong> sundhed. I <strong>for</strong>bindelse med<br />

udvælgelse <strong>af</strong> et instrument er det således væsentligt, at man præcist ved, hvem<br />

målepopulationen er, idet det ikke er sikkert, at et instrument, dannet <strong>til</strong> at vurdere<br />

sundhedsstatus eller sundhedsudfald i den generelle population (generiske mål), vil<br />

kunne anvendes på en specificeret delpopulation her<strong>af</strong> – fx på individer med<br />

10


demens. Her vil det ofte være mere relevant at anvende et situationsbetinget mål.<br />

Ligeledes kan man ikke nødvendigvis anvende et instrument, udviklet <strong>til</strong> vurdering<br />

<strong>af</strong> sundhedsudfald <strong>for</strong> individer med demens, som <strong>for</strong>tsat er bosat hjemme, i andre<br />

omgivelser - fx <strong>for</strong> individer med demens bosat på plejehjem - idet konsekvenserne<br />

<strong>af</strong> sygdommen kan være <strong>for</strong>skellig, da der måske ikke er samme professionelle<br />

hjælp i hjemmet som på et plejehjem.<br />

Det er heller ikke sikkert, at <strong>instrumenter</strong>, udviklet <strong>til</strong> brug i ét land, direkte kan<br />

<strong>over</strong>sættes <strong>til</strong> brug i andet land, idet der kan være kulturelle <strong>for</strong>skelle, som spiller<br />

ind på anvendeligheden <strong>af</strong> instrumentet. Her er det nødvendigt med en ’korrekt’<br />

<strong>over</strong>sættelse <strong>af</strong> instrumentet med bevarelse <strong>af</strong> den oprindelige mening, <strong>og</strong> en<br />

gentestning <strong>af</strong> instrumentets reliabiliet <strong>og</strong> validitet, inden det kan anvendes. Dette<br />

uddybes i <strong>af</strong>snit 1.7.3. Grundlæggende set er det væsentligt, at man i <strong>for</strong>bindelse<br />

med udvælgelsen <strong>af</strong> et instrument vælger, så denne indeholder de aspekter <strong>af</strong><br />

sundhed, der er relevante i målepopulationen, samt den situation/de omgivelser, de<br />

befinder sig i.<br />

Et andet <strong>for</strong>hold, der skal tages højde <strong>for</strong> i <strong>for</strong>bindelse med valg <strong>af</strong> instrument, er,<br />

hvorvidt man ønsker at måle positive aspekter ved sundhed, fx psykol<strong>og</strong>isk<br />

velvære <strong>og</strong> funktionelle evner, eller negative aspekter så som angst, depression <strong>og</strong><br />

funktionel begrænsning (McColl et al, 1997, p.14). Endvidere er n<strong>og</strong>le<br />

<strong>instrumenter</strong> designet <strong>til</strong> at fremkomme med faktuelle resultater, mens andre måler<br />

fx intentionelle eller <strong>for</strong>tolkende in<strong>for</strong>mationer. Fx kan funktionelle statusskalaer<br />

enten anvendes <strong>til</strong> at måle hvorvidt en aktivitet ’faktisk er’ eller ’kan blive’ udført.<br />

Eksempelvis kan man spørge, om en mild dement selv finder vej <strong>til</strong> nærmeste<br />

købmand, eller om vedkommende ville kunne gøre det, om han eller hun blev bedt<br />

derom.<br />

Det er <strong>og</strong>så <strong>for</strong>skelligt hvem, der har været med <strong>til</strong> at udvikle <strong>instrumenter</strong>ne, <strong>og</strong><br />

dermed vil perspektivet være <strong>for</strong>skelligt. Visse <strong>instrumenter</strong> <strong>og</strong> metoder er udviklet<br />

11


ud fra et rent professionelt perspektiv mens andre vedrører målinger set fra<br />

patientens eller de pårørendes perspektiv. . Det er der<strong>for</strong> væsentligt at få en<br />

klargøring <strong>af</strong> det begrebsmæssige grundlag <strong>for</strong> målingen <strong>af</strong> sundhed, inden det<br />

måles.<br />

1.4. Videnskabelige <strong>over</strong>vejelser i <strong>for</strong>bindelse med målingen <strong>af</strong> sundhed<br />

I <strong>for</strong>bindelse med valg <strong>af</strong> <strong>instrumenter</strong> er det ikke nok ’blot’ at definere målet <strong>for</strong><br />

udfaldsvurderingen <strong>og</strong> det begrebslige grundlag <strong>for</strong> måling <strong>af</strong> sundhed – fokus på<br />

instrumentets videnskabelige eller psykometriske egenskaber er ligeledes yderst<br />

relevant.<br />

De psykometriske egenskaber vedrører grundlæggende kvaliteten <strong>af</strong> instrumentet:<br />

om man kan stole på de resultater, der opnås med instrumentet, samt om<br />

instrumentet faktisk måler det, det har <strong>til</strong> hensigt at måle. Der findes en række<br />

statistiske metoder <strong>til</strong> validering <strong>af</strong> <strong>instrumenter</strong>, <strong>og</strong> der <strong>for</strong>eligger efterhånden en<br />

vis konsensus om hvilke statistiske metoder, der som et minimum bør inddrages i<br />

valideringen der<strong>af</strong>. Dette gør det lettere at sammenligne <strong>for</strong>skellige <strong>instrumenter</strong>s<br />

pålidelighed <strong>og</strong> gyldighed, idet disses kvaliteter ofte vil være <strong>af</strong>prøvet efter stort<br />

set samme mønster.<br />

De efterfølgende <strong>af</strong>snit er centrale, da de giver et billede <strong>af</strong> n<strong>og</strong>le <strong>af</strong> de metoder <strong>og</strong><br />

kriterier, som anvendes ved kvalitetsvurdering <strong>af</strong> målings<strong>instrumenter</strong>.<br />

Egenskaberne, der skal vurderes, er: reliabiliteten, validiteten, diskriminationsevne<br />

<strong>og</strong> følsomhed <strong>over</strong> <strong>for</strong> ændring.<br />

12


1.4.1. Reliabilitet (pålidelighed)<br />

Reliabilitet referer <strong>til</strong> reproduktionsegenskaben, dvs. instrumentets evne <strong>til</strong> at nå<br />

det samme resultat ved gentagne målinger. Hvis man tager et individs temperatur<br />

med 5 minutters mellemrum med samme termometer, må man <strong>for</strong>vente, at denne<br />

viser samme resultat. Hvis termometeret det ene øjeblik viser 36,5 °C, det næste<br />

øjeblik 37,5 °C <strong>for</strong> derefter det næste øjeblik at vise 37 °C, er der <strong>til</strong>syneladende en<br />

vis <strong>til</strong>fældig variation i resultaterne ved brug <strong>af</strong> det pågældende termometer. Med<br />

andre ord, instrumentet er ikke pålideligt, <strong>og</strong> termometeret bør der<strong>for</strong> kasseres. På<br />

samme måde bør et instrument ikke anvendes, hvis det ikke har en acceptabel<br />

pålidelighed.<br />

Der er mange kilder <strong>til</strong> målefejl, <strong>og</strong> der eksisterer ikke kun én måde at udtrykke<br />

reliabiliteten på. De antagelser, der grundlæggende er indeholdt i<br />

reliabilitetsteorien, er, at enhver observeret score består <strong>af</strong> to komponenter: en<br />

’sand score’ - det, der skal måles (er i virkeligheden ukendt) - <strong>og</strong> en <strong>til</strong>fældig 3<br />

målefejl som mulig følge <strong>af</strong> unøjagtigheder i instrumentet. Hvis fejlen er lille, er<br />

observationerne reliable. Hvis den er stor, har vi en dårlig reliabilitet. Det, man<br />

der<strong>for</strong> er interesseret i at vide, er fejlens størrelse i <strong>for</strong>hold <strong>til</strong> den sande værdi. Det<br />

kan bemærkes, at reliabiliteten vil stige, når den sande variation stiger <strong>og</strong><br />

fejlvariationen mindskes. Ordet reliabilitet bruges således som en generel<br />

betegnelse <strong>for</strong> datas pålidelighed. Reliabilitet bruges d<strong>og</strong> <strong>og</strong>så som et mere<br />

specifikt teknisk udtryk, der referer <strong>til</strong> korrelationen mellem sæt <strong>af</strong><br />

observationsværdier – fx to eller flere individers bedømmelse <strong>af</strong> et antal objekter.<br />

Her står reliabiliten i modsætning <strong>til</strong> begrebet enighed, <strong>og</strong> denne sondring er<br />

væsentlig, idet man godt kan have en høj reliabilitet, men en ringe enighed. Denne<br />

3 Normalt inddeles målefejl i to typer, en <strong>til</strong>fældig <strong>og</strong> en systematisk målefejl (eller bias).<br />

I <strong>for</strong>bindelse med reliabilitet er det kun de <strong>til</strong>fældige målefejl, der fokuseres på, idet den<br />

systematiske bias ikke har n<strong>og</strong>en indvirkning på reliabiliteten <strong>af</strong> instrumentet, da det er<br />

en bias konsistent i samme retning (Stewart, 1990, p. 5). De systematiske målefejl<br />

henhører i stedet <strong>til</strong> validitetsproblematikken.<br />

13


situation kan fx opstå ved, at der er en systematisk bias i den ene observatørs<br />

vurdering <strong>af</strong> en situation, så denne konsekvent bedømmer fx et punkt anderledes på<br />

en skala end en anden observatør. Korrelation mellem de to observatører er lig 1,<br />

som er lig perfekt reliabilitet - dette <strong>til</strong> trods <strong>for</strong> at der ikke er enighed mellem de<br />

<strong>af</strong>givne bedømmelser.<br />

Tabel 1. Forskellige korrelations- <strong>og</strong> enighedsmål.<br />

Type Beskrivelse<br />

Korrelation Korrelation (r) er et mål, som indikerer graden <strong>af</strong> lineær<br />

sammenhæng mellem to eller flere observationssæt. Der er<br />

<strong>for</strong>skellige <strong>for</strong>mler, der kan bringes i anvendelse <strong>til</strong> estimeringen<br />

<strong>af</strong> korrelationens styrke; i hvert <strong>til</strong>fælde er de indordnet mellem -1<br />

<strong>og</strong> +1. En korrelation tæt på nul indikerer, at der ingen<br />

sammenhæng er mellem observationerne. Idet korrelationen stiger,<br />

bliver det muligt bedre at <strong>for</strong>udsige den anden observations værdi<br />

ud fra et kendskab <strong>til</strong> den første. Den <strong>for</strong>mel, der oftest anvendes<br />

er Pearson’s r, der er egnet <strong>til</strong> data målt på interval- eller<br />

rationiveau. Kendall’s tau <strong>og</strong> Spearman’s rho korrelationer kan<br />

anvendes <strong>til</strong> at udtrykke sammenhængen mellem variable målt på<br />

Intraklasse<br />

korrelation<br />

(ICC)<br />

ordinalt niveau, <strong>og</strong> kaldes rangordningskorrelationer.<br />

I <strong>for</strong>bindelse med testning <strong>af</strong> et instruments reliabilitet kan<br />

korrelationskoefficienter, så som Pearson’s r, anvendes <strong>til</strong> at<br />

sammenligne to observatørers vurdering <strong>af</strong> et antal patienter.<br />

Intraklasse korrelation generaliserer denne procedure <strong>og</strong> udtrykker<br />

enigheden mellem flere end to observatører. I modsætning <strong>til</strong><br />

Pearson’s korrelation er intraklasse korrelation et mål <strong>for</strong> enighed,<br />

der viser den gennemsnitlige <strong>over</strong>ensstemmelse mellem<br />

observatørers faktiske score på de observationer, der<br />

sammenlignes.<br />

Enighed Cohen’s Kappa er en koefficient <strong>for</strong> graden <strong>af</strong> enighed mellem to<br />

observatører. Den kan anvendes på dikotone variable eller variable<br />

med flere kategorier. Kappaudregnes som den diagonale sum <strong>af</strong><br />

relative hyppigheder, justeret <strong>for</strong> <strong>for</strong>ventede værdier, <strong>og</strong><br />

standardiseret med den maksimale værdi. Den udtrykker således<br />

graden <strong>af</strong> enighed, som er observeret ud<strong>over</strong> det niveau, der ville<br />

være <strong>for</strong>ventet ved en <strong>til</strong>fældig <strong>for</strong>deling i en bivariat tabel, givet<br />

marginal<strong>for</strong>delingen. En <strong>for</strong>mel <strong>for</strong> kappa er: κ = (p0 –pc)/(1 - pc),<br />

hvor p0 er den observerede andel <strong>af</strong> enighed <strong>og</strong> pc er den<br />

enighedsandel, der er <strong>for</strong>ventet ved <strong>til</strong>fældighed.<br />

Tilfældighedsenighed kan <strong>for</strong>stås som den enighed, der ville opstå<br />

hvis en observatør blot gættede eller lod en mønt bestemme<br />

vurderingen. pc er fastsat på følgende vis: pc = p1p2 + (1 – p1) (1 –<br />

14


p2), hvor p1 er sandsynligheden, <strong>og</strong> p2 er den ækvivalente<br />

sandsynlighed <strong>for</strong> den anden observatør. Selvom spændevidden <strong>af</strong><br />

Kappa ligger i området 0 <strong>til</strong> 1, er dets øvre grænse begrænset <strong>af</strong><br />

instrumentets sensitivitet <strong>og</strong> specificitet. Cohen’s Kappa anvendes,<br />

hvis items er nominal eller ordinalt skalerede. Undertiden udregnes<br />

en vægtet kappa, hvor <strong>af</strong>stande fra diagonalen vægtes med en eller<br />

anden valgt vægt. Et andet mål <strong>for</strong> associationsgraden mellem to<br />

binære variable er Phi koefficienten. Fortolkningsmæssigt er<br />

resultatet lig korrelationskoefficienten.<br />

Når der tales om reliabilitet, skelner man traditionelt set mellem fire begreber.<br />

Disse er: test-retest reliabilitet, intern konsistens, interrater reliabilitet, <strong>og</strong><br />

reproducerbarhed (CR) <strong>og</strong> hver <strong>af</strong> disse reliabilitetstests fremkommer med<br />

<strong>for</strong>skellige koefficienter <strong>for</strong> reliabiliteten.<br />

Tabel 2. Oversigt <strong>over</strong> de mest almindelige reliabilitetstyper<br />

Reliabilitetstype Definition/beskrivelse Anvendelig <strong>for</strong><br />

Test-retest Graden <strong>af</strong> <strong>over</strong>ensstemmelse mellem to Alle målingstyper<br />

målinger <strong>af</strong> det samme fænomen under (dvs. både single- <strong>og</strong><br />

den <strong>for</strong>udsætning, at fænomenet ikke<br />

har ændret sig. Test-retest reliabilitet<br />

siger n<strong>og</strong>et om en tests eller et<br />

instruments stabilitet <strong>over</strong> tid. Svarer<br />

<strong>til</strong> intra-rater reliabilitet.<br />

multi-itemsskalaer)<br />

Intern konsistens Graden hvori alle items i skalaen måler Multi-item (Likert<br />

(fx<br />

det samme underliggende begreb, eller skalaer)<br />

målt ved<br />

konvergensen <strong>af</strong> items på det begreb,<br />

Cronbach’s alpha – der måles. Koefficienten stiger jo mere<br />

se iøvrigt bilag 1) hom<strong>og</strong>ene items bliver, ligesom den<br />

stiger, jo flere items, der medtages i<br />

skalaen.<br />

Inter-rater Graden ved hvilken en observatørs Observatørvurderede<br />

vurdering er konsistent med en anden<br />

observatørs vurdering i samme<br />

måleseance.<br />

målinger<br />

Reproducerbarheds- Reflekterer graden ved hvilken en Guttman skalaer<br />

koefficient persons item respons kan <strong>for</strong>udsiges<br />

fra kendskab <strong>til</strong> deres Guttman<br />

skalascore.<br />

Kilde: Stewart (1990, p.7)<br />

15


Test-retest reliabilitet. De samme undersøgelsesenheder (individer) udsættes <strong>for</strong><br />

den samme måling to gange i træk, <strong>og</strong> korrelationen mellem de 2 sæt<br />

måleresultater bestemmer reliabiliteten. Test-retest reliabiliteten angiver således et<br />

måleinstruments evne <strong>til</strong> at producere konsistente resultater, når måleinstrumentet<br />

benyttes igen under samme betingelser. Test-retest reliabiliteten <strong>af</strong> en skalas scorer<br />

har en tendens <strong>til</strong> at være højere end reliabiliteten <strong>af</strong> de enkelte items (McColl et al,<br />

1997, p. 16). Resultatet angiver således stabiliteten – eller manglen på samme.<br />

Der findes ingen faste regler <strong>for</strong> tidsrummet mellem de to besvarelser, <strong>og</strong> denne<br />

kan der<strong>for</strong> variere på tværs <strong>af</strong> valideringsundersøgelser. Hvis der er <strong>for</strong> kort tid<br />

mellem besvarelserne, kan respondenterne måske huske besvarelserne på første<br />

måling, <strong>og</strong> det kan resultere i en meget høj korrelationskoefficient, som måske ikke<br />

<strong>af</strong>spejler instrumentets faktiske pålidelighed. Omvendt gælder, at hvis varigheden<br />

mellem de to besvarelser er relativ lang, kan der være sket en faktisk ændring (fx i<br />

velværen, livskvaliteten eller i et andet parameter). En lav test-retest korrelation<br />

<strong>over</strong> lang tid er således ikke nødvendigvis udtryk <strong>for</strong> en lav reliablilitet, men kan<br />

være udtryk <strong>for</strong>, at instrumentet er følsomt <strong>over</strong> <strong>for</strong> ændringer. Der kan der<strong>for</strong><br />

ops<strong>til</strong>les to betingelser <strong>for</strong> test-retest undersøgelsen:<br />

• at disse skal udføres med et tidsinterval, der gør, at respondenterne ikke kan<br />

huske besvarelserne,<br />

• men inden<strong>for</strong> en tidsperiode, så <strong>til</strong>standen ikke er <strong>for</strong>værret/ændret.<br />

Hvis disse <strong>for</strong>udsætninger ikke er opfyldte, giver beregningen <strong>af</strong> test-retest<br />

korrelationskoefficienterne ingen mening.<br />

Intern konsistens. En anden ofte anvendt metode <strong>til</strong> vurderingen <strong>af</strong> <strong>instrumenter</strong>s<br />

reliaibilitet er udregningen <strong>af</strong> graden <strong>af</strong> <strong>over</strong>ensstemmelse mellem spørgsmål, som<br />

hævder at måle det samme - <strong>og</strong>så kaldet skalaens interne konsistens. Intern<br />

konsistens reliabilitet anvendes kun <strong>for</strong> multiitem Likert skalaer, som fremkommer<br />

ved at addere flere items, som har en lignende responsskala (Stewart, 1990, p. 6).<br />

Mål <strong>for</strong> intern konsistens er baseret på en enkel gennemførelse <strong>af</strong> testen. Her<br />

korrelerer man spørgsmål, der adresserer samme dimension. Det <strong>for</strong>ventes, at<br />

16


esultaterne <strong>for</strong> hvert <strong>af</strong> spørgsmålene vil korrelere med hinanden, såfremt disse er<br />

placeret korrekt i samme skala. Grundlæggende er det hom<strong>og</strong>eniteten <strong>af</strong> de<br />

<strong>for</strong>skellige items, man ønsker at undersøge <strong>for</strong>, dvs. i hvilken grad de <strong>for</strong>skellige<br />

items i en skala måler den samme egenskab.<br />

Hom<strong>og</strong>enitet kan måles med: split halves, Kuder-Richardson, eller Cronbach’s<br />

alpha, alternativt kan det måles med item-total korrelationer eller faktoranalyse.<br />

Tabel 3. Reliabilitetstests – intern konsistens<br />

Metode Beskrivelse <strong>af</strong> metoden<br />

Split halves Et begreb undersøges med flere indikatormålinger<br />

(items/spørgsmål) <strong>og</strong> korrelationen mellem svarene på<br />

eksempelvis spørgsmål med lige nummer <strong>og</strong> svarene på<br />

spørgsmål med ulige nummer beregnes som et udtryk <strong>for</strong><br />

reliabiliteten. Hvis skalaen er intern konsistent, skulle de to<br />

halvdele korrelere højt med hinanden. Et problem ved denne<br />

<strong>til</strong>gang er, at korrelationen er en underestimering <strong>af</strong> skalaens<br />

reliabilitet, idet reliabiliteten <strong>af</strong> en skala er direkte proportional<br />

med antallet <strong>af</strong> items (observationer), der er indeholdt deri.<br />

Reliabilitetskoefficienten <strong>for</strong> den interne konsistens <strong>af</strong>hænger<br />

således <strong>af</strong>:<br />

• graden, hvori items har n<strong>og</strong>et fælles, samt<br />

• antallet <strong>af</strong> items i skalaen.<br />

Ved et split halveres længden her<strong>af</strong>. Dette kan d<strong>og</strong> korrigeres<br />

med Sperman-Browns ’prophesy <strong>for</strong>mel’ (jf. fx Streiner, 1995, p.<br />

63). Et <strong>af</strong> problemerne med denne test er d<strong>og</strong>, at der er mange<br />

måder, hvormed man kan dele, samt denne metode ikke siger<br />

n<strong>og</strong>et om, hvilke(n) items der er med <strong>til</strong> at give en evt. lav<br />

Kuder-<br />

Richardson 20<br />

(KR-20)<br />

Cronbach’s<br />

alpha<br />

(koefficient α)<br />

reliabilitet.<br />

Denne test tager hånd om problemerne ved ovenstående tests.<br />

Den er anvendelig <strong>for</strong> skalaer indeholdende items, som besvares<br />

dikotomt.<br />

n ⎛<br />

Formlen <strong>for</strong> Kurder-Richardson er: KR − 20 = ⎜ −<br />

n − 1 ⎜<br />

⎝<br />

T<br />

1 2<br />

σ<br />

17<br />

∑<br />

pq<br />

i i<br />

hvor n er antallet <strong>af</strong> items, pi er andelen, som svarer korrekt på<br />

spørgsmål i, qi = (1-p) <strong>for</strong> hvert item, <strong>og</strong> σT er standard<strong>af</strong>vigelsen<br />

på den totale score (Streiner, 1995, p. 64).<br />

Cronbachs alpha er en udvidelse <strong>af</strong> Kuder-Richardson testet, der<br />

kan anvendes, hvis der er mere end to responsalternativer.<br />

Såfremt alpha anvendes på dikotome udfald, vil resultatet være<br />

lig det resultat, Kuder-Richardson fremkommer med. Formlen<br />

⎞<br />

⎟ ,<br />


Item-total<br />

korrelationer<br />

Multifaktor<br />

egenskaber<br />

n ⎛ σ ⎞ i<br />

<strong>for</strong> Cronbachs alpha er: α = ⎜ −<br />

− ⎜<br />

⎟<br />

n 1 ⎝ σ ⎟<br />

T ⎠<br />

1<br />

2<br />

2 .<br />

Begrebsmæssigt giver Kuder-Richardson <strong>og</strong> Cronbach’s alpha<br />

gennemsnittet <strong>af</strong> alle mulige ’split-halve’ reliabiliteter <strong>af</strong> en<br />

skala. Hvis et item udelades, <strong>og</strong> alpha stiger, er dette<br />

ensbetydende med, at skalaens hom<strong>og</strong>enitet ligeledes stiger.<br />

Der er d<strong>og</strong> problemer ved anvendelsen <strong>af</strong> Cronbach’s alpha,<br />

hvor<strong>for</strong> man ikke ukritisk bør accepterer høje alphaværdier. Det<br />

skyldes, at:<br />

• alpha er <strong>af</strong>hængig <strong>af</strong> antal items i skalaen. Dvs. man opnår<br />

et mere hom<strong>og</strong>ent resultat ved at <strong>for</strong>doble antallet <strong>af</strong> items,<br />

selvom korrelationen <strong>for</strong>bliver den samme. Det skyldes, at<br />

standard<strong>af</strong>vigelsen bliver mindre, hvor<strong>for</strong> man får et mere<br />

akkurat estimat <strong>af</strong> middelværdien.<br />

• en sammensætning <strong>af</strong> to skalaer, som undersøger n<strong>og</strong>et<br />

<strong>for</strong>skelligt, kan resultere i en høj alpha.<br />

• en (<strong>for</strong>) høj alpha kan være tegn på høj grad <strong>af</strong> item<br />

<strong>over</strong>flødighed; at der er <strong>for</strong> mange items, som s<strong>til</strong>ler<br />

samme spørgsmål på <strong>for</strong>skellig vis (redundans). Hvis item<br />

interkorrelationer holdes på et moderat niveau, vil hvert<br />

item <strong>til</strong>lægge ny in<strong>for</strong>mation <strong>til</strong> skalaen.<br />

En tommelfingerregel siger, at <strong>for</strong> en optimal reliabilitet bør<br />

alpha ikke være under 0,70, men heller ikke <strong>over</strong> 0,90 (Streiner,<br />

1995, p. 65; McColl et al, 1997, p. 16). Grundlæggende set<br />

accepteres værdier helt ned <strong>til</strong> 0,50 d<strong>og</strong> som værende evidens <strong>for</strong><br />

<strong>til</strong>fredss<strong>til</strong>lende intern-konsistens reliabilitet (Stewart, 1990, p.<br />

6).<br />

En anden anvendt indikator <strong>for</strong> intern konsistens er anvendelsen<br />

<strong>af</strong> item-total korrelationer. Hom<strong>og</strong>enitet blandt items er som<br />

beskrevet nødvendig, såfremt alle items skal opfange <strong>for</strong>skellige<br />

aspekter ved den samme attribut. De <strong>for</strong>skellige items skal der<strong>for</strong><br />

ikke blot korrelere med hinanden (<strong>til</strong> en vis grad), men det<br />

enkelte item skal <strong>og</strong>så korrelere med den totale skala score, hvor<br />

det specifikke item, hvis korrelation ønskes undersøgt, er udeladt<br />

fra den totale score 4 . En tommelfingerregel er, at item-total<br />

korrelationer bør <strong>over</strong>stige 0,2 (McColl, 1997, p. 16, Streiner,<br />

1995, p. 62), ellers bør den ikke medtages. Her er det således<br />

muligt at finde de items, der er med <strong>til</strong> at give en lav reliabilitet.<br />

Såfremt instrumentet er en del <strong>af</strong> en opgørelse bestående <strong>af</strong> flere<br />

skalaer (multifaktor eller multidimentionale opgørelser),<br />

eksisterer andre <strong>og</strong> mere sofistikerede (udvidede) analytiske<br />

4<br />

Anvendelse <strong>af</strong> Person’s product-moment korrelation er, ifølge Streiner (1995, p. 62),<br />

den bedste koefficient at anvende.<br />

18<br />


teknikker <strong>til</strong> at undersøge <strong>for</strong> den interne hom<strong>og</strong>enitet.<br />

• Udvidelse <strong>af</strong> item-total proceduren: I item-total<br />

procedueren bliver et item korreleret med dets egen<br />

skalatotalscore. I den udvidede procedure bliver itemet<br />

ligeledes korreleret med totalen <strong>af</strong> de øvrige skalascorer i<br />

instrumentet. Da itemet ikke <strong>til</strong>hører disse skalaer, bør<br />

denne korrelation være mindre end korrelationen med egen<br />

skala.<br />

• Faktor analyse (bør ikke anvendes på dikotome udfald),<br />

hvor hvert item behandles som en individuel test. Hvert<br />

item skulle gerne korrelere med den skala, den <strong>til</strong>hører, <strong>og</strong><br />

ingen <strong>af</strong> de øvrige skalaer. Hvis den korrelerer med flere<br />

skalaer, eller blot med en ’<strong>for</strong>kert’ skala, er det<br />

sandsynligt, at itemet opfanger n<strong>og</strong>et andet, end hensigten<br />

var hermed.<br />

Inter-rater reliabilitet. For observatør- <strong>og</strong> interview-baserede mål er det<br />

væsentligt, at der er en høj <strong>over</strong>ensstemmelse mellem de <strong>for</strong>skellige observatører<br />

<strong>og</strong> deres vurdering <strong>af</strong> et individ (inter-observer reliabilitet). Herud<strong>over</strong> er det<br />

ligeledes væsentlig, at en observatør er konsistent i måden, hvorpå han vurderer et<br />

individ (intra-observer reliabilitet). Det er således væsentligt, at der ikke anvendes<br />

<strong>for</strong>skellige standarder fra dag <strong>til</strong> dag. En måde at undersøge en observatørs<br />

evalueringskonsistens er fx ved at videotape en situation <strong>og</strong> lade ham bedømme<br />

denne med ugers mellemrum. Interrater reliabilitets-<strong>for</strong>skrifter rangerer fra 0,80 <strong>til</strong><br />

1 (Stewart, 1990, p. 7).<br />

Reproducerbarhedskoefficient (CR 5 ). Reproducerbarhedskoefficienten<br />

udtrykker graden ved hvilken en Guttman (kumulativ skala) skalascore giver<br />

mulighed <strong>for</strong> præcist at kende et individs responsmønster. Hvorvidt en skala i<br />

virkeligheden er kumulativ, er et empirisk spørgsmål <strong>og</strong> <strong>af</strong>hænger <strong>af</strong> de<br />

svarmønstre, man finder hos respondenterne. For Guttman skalaen er der sat en<br />

reproducerbarheds-koefficient på 0,90 eller mere <strong>for</strong> at kunne acceptere en skala<br />

som kumulativ. Denne kan beregnes ud fra følgende ’<strong>for</strong>mel’:<br />

5 Coefficient of reproducibility<br />

19


eproducerbarhed<br />

ne<br />

= 1 − , hvor N er antallet <strong>af</strong> individer, n er antallet <strong>af</strong> individer<br />

I × N<br />

hvor der var fejl i rangordenen, <strong>og</strong> I er lig antallet <strong>af</strong> items. Af hensyn <strong>til</strong><br />

<strong>for</strong>tolkningen <strong>af</strong> reproducerbarhedskoefficienten kan der endvidere udregnes en<br />

minimal marginal reproducerbarhedskoefficient (MMR), som er baseret på, at et<br />

items reproducerbarhed ikke kan være mindre end andelen <strong>af</strong> svar i dets modale<br />

kategori. Således kan den totale reproducerbarhed ikke blive mindre end summen<br />

<strong>af</strong> andele <strong>af</strong> svar i de modale kategorier <strong>for</strong> hvert item i en skala, divideret med<br />

antallet <strong>af</strong> items. Kravet <strong>til</strong> skalaegenskaber, baseret på MMR, er bl.a., at den skal<br />

have en størrelse, så det er muligt at se en <strong>for</strong>bedring i prædiktionen <strong>af</strong><br />

responsmønsteret ved at benytte CR. Med andre ord skal MMR være lavere end<br />

CR (McIver <strong>og</strong> Carmines, 1981, p. 48).<br />

1.4.1.1 Hvornår er n<strong>og</strong>et reliabelt?<br />

Stort set alle målinger indeholder en eller anden <strong>for</strong>m <strong>for</strong> <strong>til</strong>fældig fejl.<br />

Reliabilitetsmålet giver d<strong>og</strong> ikke umiddelbart n<strong>og</strong>en intuitiv tolkning <strong>af</strong> et givent<br />

fænomens reliabilitet, idet koefficienten ikke kan tages ud <strong>af</strong> en sammenhæng. At<br />

en reliabilitetskoefficient på 0,80 indikerer, at 20% <strong>af</strong> den observerede varians<br />

skyldes målefejl kan der<strong>for</strong> i n<strong>og</strong>le situationer være tegn på et meget pålideligt<br />

instrument, mens det i andre <strong>til</strong>fælde ikke er det. Det primære spørgsmål bliver<br />

der<strong>for</strong>: Hvad er den mindste værdi, der kan accepteres, før n<strong>og</strong>et accepteres som<br />

værende pålideligt i en given sammenhæng? Her er der ikke fuld enighed i<br />

litteraturen. En tommelfingerregel er d<strong>og</strong>, at den interne konsistens bør være højere<br />

end 0,8 (ifølge Stewart, 1990, kan en reliabilitet på 0,50 accepteres), <strong>og</strong> interrater<br />

reliabiliteten, intra-observer reliabiliteten <strong>og</strong> test-retest reliabiliteten bør være<br />

højere end 0,5 (Streiner, 1995, p. 7).<br />

Afhængigt <strong>af</strong> hvad det er, der undersøges, kan der d<strong>og</strong> i visse situationer kræves<br />

endnu højere koefficientværdier, ligesom populationsstørrelsen har en indflydelse<br />

herpå. Således kan store populationer bedre tåle mindre reliable <strong>instrumenter</strong> end<br />

20


meget små populationer (McDowell, 1996, p.41; Streiner, 1995, p. 121). Ligeledes<br />

har testens længde <strong>og</strong>så en indflydelse på det fremkomne reliabilitetsresultat.<br />

Således har <strong>instrumenter</strong>, der indeholder mange items, større sandsynlighed <strong>for</strong> at<br />

være reliable end ’korte’ <strong>instrumenter</strong>.<br />

1.4.2. Validitet (gyldighed)<br />

Overordnet set udtrykker et instruments reliabilitet ikke instrumentets evne <strong>til</strong> at<br />

måle eller beskrive hele det fænomen, som instrumentet antages at måle, men kun<br />

instrumentets egenskab <strong>til</strong> at opnå det samme måleresultat hver gang det anvendes.<br />

At et instrument er reliabelt, er ikke en stærk nok kriterium <strong>for</strong> valg <strong>af</strong> instrument.<br />

Reliabilitet kan heller ikke anvendes som substitut <strong>for</strong> validitet, idet et instrument<br />

kan være reliabelt uden at være validt.<br />

Validitet er grundlæggende et udtryk <strong>for</strong>, om et instrument måler det, som det er<br />

tænkt at skulle måle. Validitet er således et udsagn, som vedrører, om et instrument<br />

er gyldigt <strong>for</strong> et specifikt <strong>for</strong>mål <strong>og</strong> ved brug <strong>over</strong> <strong>for</strong> en specifik<br />

befolkningsgruppe.. Spørgsmålet bliver der<strong>for</strong>, om det valgte instrument<br />

succesfuldt måler en eksplicit <strong>og</strong> accepteret definition <strong>af</strong> fx k<strong>og</strong>nitiv svækkelse, <strong>og</strong><br />

<strong>til</strong> bedømmelse her<strong>af</strong> kræves empirisk evidens <strong>for</strong> at dokumentere, at man faktisk<br />

får målt det, man ønsker at måle.<br />

Validitet kan ikke opnås uden at instrumentet samtidigt er reliabelt. Det skyldes, at<br />

reliabiliteten definerer den øvre grænse <strong>for</strong> validitet, de målte data kan besidde.<br />

Teknisk set er den maksimale validitetsgrænse kvadratroden <strong>af</strong> reliabiliteten. Dvs.,<br />

jo mere reliabelt et instrument er, desto højere kan den maksimale validitet blive.<br />

En undtagelse fra denne regel er d<strong>og</strong> <strong>for</strong>holdet mellem intern konsistens <strong>og</strong> den<br />

validitets<strong>for</strong>m, der kaldes indholdsvaliditet. Det skyldes, at man kan manipulere<br />

med reliablitetsscoren <strong>for</strong> den interne konsistens: Hvis man undersøger et fænomen<br />

21


med meget uhom<strong>og</strong>ene karakteregenskaber, som fx voldelig adfærd blandt<br />

demente, er det muligt, at man ved den anvendte skala vil have lav intern<br />

konsistens, idet ikke alle demente med problematisk adfærd er voldelige. Den<br />

interne validitet kunne øges ved at eliminere de items, som ikke er højt korrelerede<br />

med hinanden eller den totale score. Problemet er her, at man ender med et indeks,<br />

der kun opfanger et aspekt ved problematisk adfærd – voldelig opførsel – hvorved<br />

man opnår en lav indholdsvaliditet. I sådanne situationer er det bedre at acceptere<br />

en lav intern konsistens (Streiner, 1995, p. 147).<br />

Der eksisterer flere aspekter <strong>af</strong> validitet end blot indholdsvaliditet, som egentlig<br />

ikke er testbar. De mest almindelige skal her nævnes sammen med en redegørelse<br />

<strong>for</strong>, hvordan man evt. kan teste validitet.<br />

Tabel 4. Oversigt <strong>over</strong> <strong>for</strong>skellige validitetstyper<br />

VALIDITETSTYPE DEFINITION OG EKSEMPLER<br />

Indholdsvaliditet Er alle relevante begreber repræsenteret i<br />

Indholdsvaliditet <strong>af</strong> et<br />

batteri eller samling<br />

<strong>af</strong> flere <strong>instrumenter</strong><br />

Indholdsvaliditet <strong>af</strong><br />

en enkel multi-item<br />

skala<br />

instrumentet eller i sættet <strong>af</strong> <strong>instrumenter</strong>?<br />

Er alle væsentlige aspekter <strong>af</strong> virke <strong>og</strong> velvære<br />

repræsenteret i sættet <strong>af</strong> sundhedsmål?<br />

Er alle aspekter <strong>af</strong> definitionen <strong>af</strong> begrebet, der måles,<br />

repræsenteret i skalaen? Repræsenterer den anvendte<br />

betegnelse <strong>for</strong> skalaen de items der er indeholdt i<br />

denne?<br />

Umiddelbar validitet Synes de medtagne items umiddelbart at måle det<br />

ønskede begreb?<br />

Kriterie-relateret Korrelerer et mål højt med det gyldne standardmål<br />

validitet<br />

<strong>for</strong> begrebet?<br />

Kriterievaliditet Korrelerer et nyt mål <strong>for</strong> fx depression højt med det<br />

gyldne standardmål her<strong>for</strong>?<br />

Kriterie-relateret Korrelerer en kort udgave <strong>af</strong> et mål <strong>for</strong> fx emotionel<br />

validitet<br />

status højt med en valideret lang udgave <strong>af</strong> et mål <strong>for</strong><br />

emotionel status?<br />

Prædiktiv validitet Kan en score på et mål <strong>for</strong> sundhedsopfattelse<br />

<strong>for</strong>udsige, hvorvidt individer anvender sundhedsydelser<br />

i det efterfølgende år, eller et ufavorabelt klinisk<br />

udfald?<br />

Begrebsvaliditet Korrelerer skalaen højt med mål <strong>for</strong> de øvrige<br />

variable, som hypoteserne herom har <strong>for</strong>udsagt?<br />

22


Konvergent validitet Korrelerer et mål <strong>for</strong> fx smerte højt med et mål <strong>for</strong><br />

effekterne <strong>af</strong> smerte?<br />

Diskriminant (eller Har et mål <strong>for</strong> fysisk virke en lavere korrelation med et<br />

divergent) validitet mål <strong>for</strong> mental sundhed end med et mål <strong>for</strong> mobilitet?<br />

Mulittræk-<br />

Har et selvrapporteret mål <strong>for</strong> depression en højere<br />

multimetode korrelation med en observatør vurdering <strong>af</strong> depression<br />

<strong>til</strong>gangen<br />

end med et selvrapporteret mål <strong>for</strong> angst?<br />

Known groups Er den gennemsnitlige score <strong>af</strong> sundhedsopfattelse<br />

validitet<br />

signifikant lavere <strong>for</strong> en gruppe <strong>af</strong> patienter end <strong>for</strong> en<br />

general populationssample.<br />

Kilde: Stewart 1990, p. 9<br />

Indholdsvaliditet 6 (content validity). Indholdsvaliditet er en kvalitativ <strong>til</strong>gang <strong>til</strong><br />

vurderingen <strong>af</strong> validiteten. Denne validitetstype udtrykker, i hvilken grad items i en<br />

skala/instrument repræsenterer universet <strong>af</strong> instrumentets mulige indhold.<br />

Indholdsvaliditet referer således <strong>til</strong>, om målingen indeholder alle de aspekter, der<br />

er vigtige <strong>for</strong> det, man ønsker at måle – dvs. om målemetoden omfatter et<br />

repræsentativt udvalg <strong>af</strong> de (dys)funktioner, aktiviteter, mv., som er relevante <strong>for</strong><br />

den aktuelle problems<strong>til</strong>ling.<br />

Indholdsvaliditet bliver kun sjældent <strong>for</strong>melt testet; i stedet vurderes ofte den<br />

umiddelbare validitet (face validity). Denne vurderes <strong>af</strong> eksperter (evt. i samråd<br />

med patienter <strong>og</strong>/eller pårørende), <strong>og</strong> disse bliver enige om, hvorvidt instrumentets<br />

<strong>for</strong>skellige items opfanger den væsentlige in<strong>for</strong>mation <strong>for</strong> den definition <strong>af</strong><br />

sundhed, man nu engang har valgt (McDowell, 1996, p. 31; Streiner, 1995, p. 5).<br />

Det er d<strong>og</strong> muligt at undersøge <strong>for</strong> indholdsvaliditeten via statistiske analyser, fx<br />

faktoranalyser <strong>af</strong> datamaterialet. Herved fås en indikation <strong>af</strong>, hvorvidt det<br />

teoretiske begreb, defineret <strong>af</strong> instrumentets udvikler, kan observeres empirisk, <strong>og</strong><br />

om komponenterne falder i den <strong>for</strong>ventede hom<strong>og</strong>ene gruppe, som de ifølge<br />

teorien bør gøre (McDowell, 1996, p. 35).<br />

6 N<strong>og</strong>le teoretikere argumenterer <strong>for</strong>, at bedre dækkende begreber ville være ’content<br />

relevance’ <strong>og</strong> ’content c<strong>over</strong>age’ (Streiner, 1995, p. 20).<br />

23


Kriterievaliditet (criterion validity). Denne validitetstype betragtes ofte som det<br />

klassiske validitetsbegreb. Her undersøges i hvilken grad et instrumentet korrelerer<br />

med et andet mål, ideelt en ’gylden standard’, som fx kan være fremkommet ved<br />

hjælp <strong>af</strong> et andet valideret måleredskab <strong>til</strong> undersøgelse <strong>af</strong> samme karaktertræk<br />

eller fænomen. Kriterievaliditeten kan både udføres på hele instrumentet eller blot<br />

på enkelte items indeholdt i denne (items-analyse).<br />

Kriterievaliditet er typisk inddelt i to typer, hvor testen vurderes i relation <strong>til</strong><br />

objektive kriterier. For det første samtidig validitet, der drejer sig om, hvorvidt<br />

resultaterne ved en test stemmer <strong>over</strong>ens med resultaterne ved andre etablerede<br />

tests, som antages at måle samme fænomen. Denne metode har d<strong>og</strong> en<br />

begrænsning: hvis andre måle<strong>instrumenter</strong> <strong>for</strong> samme egenskaber eksisterer, er det<br />

vanskeligt at <strong>for</strong>svare udviklingen <strong>af</strong> et nyt, med mindre dette er billigere eller<br />

mere simpelt at anvende end det eksisterende.<br />

Den anden type er prædiktiv validitet, der referer <strong>til</strong> et instruments evne <strong>til</strong> at<br />

<strong>for</strong>udsige n<strong>og</strong>et centralt vedrørende det fænomen, man ønsker målt – fx hvis man<br />

ønsker at kende et instruments evne <strong>til</strong> at <strong>for</strong>udsige en fremtidig <strong>til</strong>stand. Det nye<br />

instrument anvendes <strong>til</strong> tid 1, <strong>og</strong> den gyldne standard <strong>til</strong> tid 2. Det nye instrument<br />

kan således ikke anvendes <strong>til</strong> beslutningstagning <strong>til</strong> tid 1; man må først vente <strong>og</strong> se,<br />

om det var godt nok <strong>til</strong> at <strong>for</strong>udsige fremtiden, når man sammenligner instrumentet<br />

med den gyldne standard i tid 2 (Streiner, 1995, p.149-50).<br />

Begrebssvaliditet (construct validity). Såfremt der ikke eksisterer en ’gylden<br />

standard’, man kan teste et karaktertræk op mod, er det nødvendigt at teste <strong>for</strong><br />

validitet på anden vis. Blandt andet vil mange <strong>af</strong> de kendetegn, der er ved demens,<br />

kunne kaldes hypotetiske begreber, idet diagnosen ’demens’ er baseret på<br />

konstellationer <strong>af</strong> symptomer; man kan ikke ’se’ demens, men kan i stedet<br />

observere adfærd, som ifølge vores teori om demens er et resultat her<strong>af</strong>. Et begreb<br />

kan der<strong>for</strong> opfattes som en mini-teori <strong>til</strong> at <strong>for</strong>klare <strong>for</strong>skellige adfærds<strong>for</strong>mer eller<br />

attituder, som fx demensramte individer udviser (Streiner, 1995, p. 151).<br />

24


Begrebsvaliditeten udtrykker der<strong>for</strong>, om skalaen <strong>til</strong> at måle disse begreber kan<br />

siges at være dannet på baggrund <strong>af</strong> den rigtige teori. Denne validitetstype bliver<br />

understøttet, hvis <strong>for</strong>ventede mønstre observeres empirisk. Et eksempel på en<br />

hypotese kunne være, at sværhedsgraden ved demens (eller anden sygdom) er<br />

negativt korreleret med individets livskvalitet. Det bør bemærkes om denne<br />

validitetstype, at den begrebsmæssigt set ikke <strong>af</strong>viger fra de øvrige (indholds- <strong>og</strong><br />

kriterievaliditet), idet alle validitetstyper grundlæggende er en <strong>for</strong>m <strong>for</strong><br />

begrebsvaliditet. Der eksisterer <strong>for</strong>skellige metoder, hvormed man kan undersøge<br />

<strong>for</strong> begrebsvaliditet, jf. efterfølgende tabel.<br />

Tabel 5. Måling <strong>af</strong> begrebsvaliditet<br />

Known group<br />

validitet:<br />

Anvendelse <strong>af</strong><br />

ekstreme grupper<br />

Konvergent- <strong>og</strong><br />

diskriminant (eller<br />

divergent)<br />

validitet<br />

En <strong>til</strong>gang <strong>til</strong> at måle begrebsvaliditeten er via begrebet known<br />

group validitet. Her anvendes instrumentet på to grupper <strong>af</strong><br />

individer, som vides at divergere mht. ’begrebsinteressen’ (fx<br />

demens) – fx sammenlignes svært demente med ikke-demente<br />

(men måske nok glemsomme) ældre individer. Her skulle de<br />

svært demente gerne score signifikant <strong>for</strong>skelligt fra de ikkedemente<br />

ældre individer på instrumentet.<br />

Der er d<strong>og</strong> mange problemer <strong>for</strong>bundet med denne metode –<br />

blandt andet, at det ikke er på de to grupper, instrumentet<br />

(nødvendigvis) skal anvendes i praksis. I stedet er det fx på<br />

demente med varierende demensgrader, hvor spørgsmålet i<br />

<strong>for</strong>bindelse med fx diagnostik <strong>af</strong> demens er, hvorvidt individet<br />

er rent faktisk er dement eller ej. Instrumentet skal der<strong>for</strong><br />

være meget fintfølende, idet det skal anvendes i situationer,<br />

hvor man er i tvivl – ikke i ekstreme situationer.<br />

Konvergent validitet siger n<strong>og</strong>et om, hvorvidt der er<br />

association mellem <strong>for</strong>skellige mål <strong>og</strong> eller metoder. I<br />

<strong>for</strong>bindelse med undersøgelsen <strong>af</strong> konvergent validitet skal<br />

korrelationen være høj, men ikke <strong>for</strong> høj, med andre mål <strong>for</strong><br />

samme begreb. En perfekt – eller næsten perfekt – korrelation<br />

mellem den nye skala <strong>og</strong> dens relation <strong>til</strong> øvrige variable <strong>og</strong><br />

mål <strong>for</strong> samme begreb vil blot indikere, at de måler det<br />

samme. Konvergentvaliditet er der<strong>for</strong> meget lig sensitivitet; et<br />

mål bør korrelere med andre mål <strong>for</strong> samme begreb. Man kan<br />

teste sammenhængen mellem to mål <strong>for</strong> samme begreb ved fx<br />

at anvende <strong>for</strong>skellige metoder (fx selv-rapporterede versus<br />

observerede data), <strong>og</strong> en anvendelig indikator <strong>for</strong> konvergent<br />

validitet er korrelationskoefficienten. Jo højere denne er, jo<br />

mere validt er instrumentet. Som minimum bør denne være<br />

25


Multikaraktertrækmulitimetode<br />

Statistiske<br />

metoder<br />

0,40 (Stewart, 1990, p. 13).<br />

Da det nye instrument ikke er dannet <strong>for</strong> at være en præcis<br />

kopi <strong>af</strong> det eksisterende instrument, kan der heller ikke være<br />

n<strong>og</strong>en perfekt korrelation herimellem. Generelt vil de nye<br />

<strong>instrumenter</strong> være dannet, så de er de gamle <strong>over</strong>legne. I<br />

<strong>for</strong>bindelse med beregning <strong>af</strong> konvergentvaliditeten bør det<br />

der<strong>for</strong> være kommenteret, hvad det <strong>for</strong>ventede resultat vil<br />

være, inden dette beregnes empirisk.<br />

Diskriminant validitet drejer sig om, at målet skal være<br />

særegent. I <strong>for</strong>bindelse med diskriminantvaliditeten beskrives<br />

fraværet <strong>af</strong> sammenhæng mellem testen <strong>og</strong> andre mål. Hvis<br />

teorien om demens siger, at hukommelsesgraden er u<strong>af</strong>hængig<br />

<strong>af</strong> uddannelsesgraden <strong>for</strong> den demente, må der der<strong>for</strong> ikke<br />

findes korrelation mellem disse to. Korrelationer på 0 er d<strong>og</strong><br />

utænkelige, hvor<strong>for</strong> det ’blot’ er nødvendigt at se efter<br />

korrelationer, der er lavere end korrelationerne, der er fundet<br />

ved undersøgelse <strong>af</strong> konvergent validitet.<br />

Generelt set kan den maksimale korrelation mellem de to<br />

<strong>instrumenter</strong>/metoder være lig kvadratroden <strong>af</strong> målet <strong>for</strong> deres<br />

reliabilitet. Såfremt disse er kendt, er det muligt at<br />

sammenligne den observerede korrelation med den teoretisk<br />

mulige. Dette hjælper i <strong>for</strong>bindelse med <strong>for</strong>tolkningen <strong>af</strong><br />

konvergentvaliditeten. Således kan en lav<br />

korrelationskoefficient pludselig synes god, såfremt<br />

reliabilitetskoefficenten ligeledes er lav (McDowell, 1996, p.<br />

34).<br />

En anden, men tæt relateret metode <strong>til</strong> at undersøge <strong>for</strong><br />

begrebsvaliditet, er via anvendelsen <strong>af</strong> multikaraktertrækmultimetode<br />

teknikker, som kortlægger korrelationen mellem<br />

alternative <strong>til</strong>gange <strong>til</strong> at måle samme begreb. Dette gælder,<br />

hvis der fx er anvendt mere end én metode <strong>til</strong> at indsamle data<br />

<strong>for</strong> en specifik variabel (selvrapporterede <strong>og</strong> observerede<br />

data). Essensen i denne <strong>til</strong>gang er at undersøge, hvorvidt to<br />

mål <strong>for</strong> samme begreb, opgjort ved anvendelsen <strong>af</strong> <strong>for</strong>skellige<br />

metoder, korrelerer højere end to mål <strong>for</strong> <strong>for</strong>skellige begreber,<br />

der anvender samme metode (Stewart, 1990, p. 14).<br />

Faktoranalyse kan ligeledes anvendes i <strong>for</strong>bindelse med<br />

undersøgelse <strong>af</strong> begrebsvaliditeten. Her anvendes<br />

faktoranalysen <strong>til</strong> at indikere <strong>for</strong>bindelsen mellem <strong>for</strong>skellige<br />

målemetoder. Skalaer, der måler samme emne, <strong>for</strong>ventes at<br />

blive grupperet i samme faktor – test <strong>for</strong> konvergent validitet,<br />

mens skalaer, der måler <strong>for</strong>skellige emner, vil blive grupperet<br />

i <strong>for</strong>skellige faktorer - test <strong>for</strong> divergent validitet.<br />

Faktoranalyse bør d<strong>og</strong> kun anvendes, såfremt;<br />

1) de items, der analyseres, er opgjort på intervalskaleret<br />

26


1.4.3. Diskriminationsstyrke <strong>og</strong> følsomhed<br />

niveau<br />

2) respons<strong>for</strong>delingen er approksimativt normal<strong>for</strong>delt<br />

3) der er mindst 5 gange flere respondenter i samplet end<br />

variable/items, der skal analyseres(McDowell, 1996, p.<br />

35).<br />

Tidligere har der været tradition <strong>for</strong>, at visse typer <strong>instrumenter</strong> anvendes <strong>til</strong> at<br />

skelne imellem personer på baggrund <strong>af</strong> fx færdigheder (klassifikationsmål), mens<br />

andre instrumenttyper måler subjektive fænomener <strong>til</strong> beskrivelse <strong>af</strong> <strong>for</strong>skelle <strong>over</strong><br />

tid hos samme individ. I <strong>for</strong>bindelse med visse undersøgelser er det d<strong>og</strong><br />

hensigtsmæssigt, at de anvendte <strong>instrumenter</strong> både skal kunne anvendes <strong>til</strong> at finde<br />

<strong>for</strong>skelle imellem individer <strong>og</strong> <strong>for</strong>skelle hos samme individ <strong>over</strong> tid. Såfremt<br />

<strong>for</strong>målet med en undersøgelse er at kunne påvise mulige effekter <strong>af</strong> en intervention<br />

<strong>over</strong> <strong>for</strong> en bestemt målgruppe, er det væsentligt, at det valgte instrument evner at<br />

vise <strong>for</strong>skellen mellem et individs sundhedsstatus på <strong>for</strong>skellige tidspunkter. Det er<br />

således væsentligt, at instrumentet er <strong>for</strong>holdsvist følsomt.<br />

1.4.3.1. Følsomhed <strong>over</strong> <strong>for</strong> ændringer<br />

Hvis det er biomedicinske mål, der indgår som effektmål i <strong>for</strong>bindelse med<br />

undersøgelse <strong>af</strong> et individ, kan man med en vis sikkerhed antage, at den<br />

behandling, som <strong>af</strong>prøves, er uden effekt, såfremt der ikke sker en ændring i de<br />

biomedicinske målinger før <strong>og</strong> efter interventionen. Anderledes <strong>for</strong>holder det sig<br />

med målinger <strong>af</strong> fx livskvalitet. Her kan en manglende <strong>for</strong>skel i målingen <strong>af</strong><br />

livskvaliteten før <strong>og</strong> efter en intervention enten <strong>til</strong>skrives en ineffektiv intervention<br />

<strong>og</strong>/eller manglende følsomhed i instrumentet <strong>over</strong> <strong>for</strong> ændringer. Inden<br />

<strong>instrumenter</strong> <strong>til</strong> måling <strong>af</strong> velvære anvendes <strong>til</strong> effektvurdering, er det der<strong>for</strong><br />

vigtigt, at følsomhedsgraden er <strong>af</strong>prøvet. Dette kan fx være gjort ved at<br />

27


sammenholde ændringer i kliniske variable <strong>over</strong> tid med ændringer i fx velværen.<br />

Viser de kliniske variable således tegn på <strong>for</strong>værring, <strong>for</strong>ventes svarpersonen at<br />

rapportere lavere velvære ved efterfølgende målinger, <strong>og</strong> omvendt såfremt det<br />

drejer sig om <strong>for</strong>bedring i velværen.<br />

Hvor følsomt et instrument er, er grundlæggende set et aspekt <strong>af</strong><br />

validitetsproblematikken. Et måleredskab anal<strong>og</strong>t de øvrige psykometriske<br />

egenskaber, der er vurderet, <strong>til</strong> at måle instrumentets evner <strong>til</strong> at opfange<br />

effektændringerne som følge <strong>af</strong> interventioner, vil være ønskeligt.<br />

Én mulig <strong>til</strong>gang <strong>til</strong> vurderingen <strong>af</strong> et instruments følsomhed er at <strong>for</strong>etage multiple<br />

observationer vedrørende det aspekt, man ønsker undersøgt – fx interventioner, der<br />

har <strong>til</strong> hensigt at bremse den k<strong>og</strong>nitive svækkelse hos demente, idet denne <strong>af</strong>tager<br />

<strong>over</strong> tid <strong>og</strong> er <strong>for</strong>skellig individer imellem. Det vil der<strong>for</strong> være ukorrekt kun at<br />

anvende resultater fra start <strong>og</strong> sluttidspunktet ved en intervention <strong>for</strong> at se, om<br />

denne har h<strong>af</strong>t n<strong>og</strong>en effekt.<br />

Hvis man ønsker at vælge et instrument, der skal have potentiale <strong>for</strong> at være<br />

følsomt <strong>over</strong><strong>for</strong> ændringer, er der d<strong>og</strong> visse umiddelbare <strong>for</strong>holdsregler, man kan<br />

følge. Bl.a. en fokusering på instrumentets anvendte skalaniveau. Binære<br />

svarkategorier (fx ja/nej) er lette at besvare, men giver ikke mulighed <strong>for</strong> at<br />

nuancere besvarelsen. Disse itemstyper besidder der<strong>for</strong> ofte lav grad <strong>af</strong> følsomhed,<br />

da der ofte skal ske store <strong>for</strong>andringer, før man flytter markeringen fra et ja <strong>til</strong> et<br />

nej eller omvendt. Likert-, VAS eller lignende skalaer synes at være bedre egnede<br />

m.h.t. følsomhed. Ligeledes kan instrumenttypen have indflydelse på følsomheden.<br />

Der vil ofte være en tendens <strong>til</strong>, at sygdomsspecifikke <strong>instrumenter</strong> er mere<br />

følsomme <strong>over</strong><strong>for</strong> ændringer end de generiske <strong>instrumenter</strong>, hvilket skyldes, at<br />

sygdomsspecifikke <strong>instrumenter</strong> indeholder spørgsmål om symptomer, der er<br />

relevante <strong>for</strong> den bestemte gruppe <strong>af</strong> individer.<br />

Specifikke <strong>instrumenter</strong> har ligeledes (oftest) færre problemer med gulv- <strong>og</strong><br />

lofteffekter. Gulveffekt ses, hvor et instrument har en spændvidde, som ikke fuld<br />

ud dækker respondenternes, idet n<strong>og</strong>le respondenter vil kunne score lavere end<br />

28


hvad instrumentet <strong>til</strong>lader. Omvendt ses en lofteffekt, hvor respondenterne ville<br />

kunne score højere end instrumentet <strong>til</strong>lader.<br />

1.5. Tekniske aspekter <strong>af</strong> mål <strong>for</strong> sundhedsstatus <strong>og</strong> sundheds-udfald.<br />

I <strong>for</strong>bindelse med valg <strong>af</strong> <strong>instrumenter</strong> er det væsentligt at holde flere faktorer <strong>for</strong><br />

øje, inden man vælger, hvilket instrument man ønsker at anvende i en given<br />

situation. I indeværende <strong>af</strong>snit sættes fokus på visse tekniske aspekter ved<br />

sundhedsstatus- <strong>og</strong> sundhedsudfaldsmålene, hvor<strong>af</strong> n<strong>og</strong>le allerede kort er berørt i<br />

<strong>for</strong>bindelse med tidligere <strong>af</strong>snit.<br />

1.5.1. Generiske versus sygdomsspecifikke mål<br />

Instrumenter er, som allerede nævnt, dannet men henblik på at belyse <strong>for</strong>skellige<br />

problems<strong>til</strong>linger. N<strong>og</strong>le <strong>instrumenter</strong> dannes, så de kan anvendes i mange<br />

<strong>for</strong>skellige omgivelser/populationer (generiske mål), andre har en mere specifik<br />

populationsgruppe <strong>for</strong> øje (situationsspecifikke mål). Hvilken type instrument man<br />

bør vælge, <strong>af</strong>hænger <strong>af</strong> <strong>for</strong>målet med det, der ønskes undersøgt.<br />

En <strong>af</strong> <strong>for</strong>dele med de generiske mål er, at de letter sammenligninger <strong>over</strong><br />

sygdomsgrupper – de er således mere genrealiserbare end de situationsspecifikke<br />

mål. En anden <strong>for</strong>del er, at der som regel er mere dokumentation at finde<br />

vedrørende skalaens reliabilitet <strong>og</strong> validitet, end <strong>for</strong> de sygdomsspecifikke mål,<br />

idet de generiske mål oftere anvendes. Ulempen ved de generiske mål er, at de kan<br />

indeholde items, som er irrelevante <strong>for</strong> en specifik problems<strong>til</strong>ling. For eksempel<br />

er spørgsmål om inkontinens ret irrelevant i <strong>for</strong>bindelse astmapatienter, hvor<strong>for</strong><br />

sådanne spørgsmål blot vil være ’støj’ i instrumentet. Ligeledes kan der være<br />

mangel på items, som er meget relevante <strong>for</strong> en anden sygdomsgruppe – fx fokus<br />

på diætrestriktioner blandt diabetikere. Et andet problem ved de generiske mål er,<br />

at de kan være ret upåvirkelige <strong>over</strong><strong>for</strong> små, men væsentlige ændringer, som følge<br />

29


<strong>af</strong> en given sygdomsspecifik intervention. De generiske mål kan der<strong>for</strong> have lavere<br />

følsomhed, end de mere sygdomsspecifikke mål. Man må der<strong>for</strong> ofte opveje<br />

<strong>for</strong>delene mod ulemperne, eller finde et generisk mål, der indeholder alle de<br />

komponenter, som gerne ses undersøgt i det mere situationsspecifikke mål. Det<br />

ideelle vil der<strong>for</strong> i visse situationer være en kombination <strong>af</strong> de to måletyper<br />

(McColl et al, 1997, p. 18). Også <strong>for</strong>di items <strong>til</strong>tænkt at kunne diskriminere med<br />

inden<strong>for</strong> en bestemt population (demente) måske ikke er anvendelige <strong>til</strong> at<br />

diskriminere blandt ikke-demente, idet stort set alle disse individer vil være i stand<br />

<strong>til</strong> at op nå maksimal score (Rabins, 1999, p. 39).<br />

1.5.2. En- versus flerdimensionale mål.<br />

Det begrebslige grundlag <strong>for</strong> opfattelsen <strong>af</strong> fx sundhed beror på, at sundhed er et<br />

multifacettet begreb, der ikke kan måles direkte. Begreber er ofte konstruktioner,<br />

der ikke kan måles direkte, men som udtrykker n<strong>og</strong>et latent, som man ønsker<br />

empirisk undersøgt. Da begreber ofte er ret komplekse, består disse undertiden <strong>af</strong><br />

flere domæner <strong>og</strong> dimensioner, der <strong>til</strong>sammen udgør et begreb.<br />

Man vil i litteraturen se begreberne domæne, dimension <strong>og</strong> komponent benyttet<br />

<strong>for</strong>skelligt. Domæner refererer her <strong>til</strong> de <strong>for</strong>skellige facetter, som er indeholdt i et<br />

begreb, fx sundhed, se Figur 1. Domæner kan bestå <strong>af</strong> flere dimensioner hvorved<br />

<strong>for</strong>stås et sæt <strong>af</strong> beslægtede variable, der kan ses som <strong>for</strong>skellige aspekter ved<br />

samme egenskab/domæne. Eksempler på dimensioner <strong>af</strong> sundhed er: fysisk,<br />

psykisk <strong>og</strong> social sundhed.<br />

30


Figur 1: Illustration <strong>af</strong> et domæne, dimensioner, komponenter <strong>og</strong> items <strong>for</strong> et<br />

begreb (sundhed) under undersøgelse.<br />

Item/indikator - de<br />

enkelte items skal<br />

udvælges, så de<br />

dækker dimensionen<br />

Hvis de variable, som er indeholdende i et domæne, er meget <strong>for</strong>skellige, er<br />

egenskaben flerdimensional – dvs., domænet består <strong>af</strong> flere dimensioner,<br />

indeholdende hver deres sæt <strong>af</strong> variable, der indbyrdes er meget lige, men<br />

<strong>for</strong>skellig dimensionerne imellem (Hellevik, 1997, p. 95). Dimensioner kan f.eks.<br />

være fysisk, psykisk eller social sundhed. En dimension kan igen være opdelt i<br />

komponenter. Fx kan en psykisk dimension være opdelt i ”positiv velvære” <strong>og</strong><br />

”ængstelse <strong>og</strong> depression”. De variable, der repræsenterer en komponent, kaldes<br />

ofte <strong>for</strong> indikatorer <strong>for</strong> komponenten.<br />

1.5.3. Et eller flere items<br />

Domæne <strong>for</strong> sundhed (hele cirklen)<br />

●<br />

● ● ● ● ● ● ●<br />

● ● ● ● ● ● ● ●<br />

● ● ● ● ● ●<br />

● ● ● ● ●<br />

● ● ● ● ● ●<br />

● ●<br />

Illustration <strong>af</strong> tre dimensioner indeholdt i domænet <strong>for</strong> sundhed<br />

- fx fysisk, k<strong>og</strong>nitiv <strong>og</strong> social udfoldelse.<br />

Hvordan det er valgt at operationalisere et begreb, har indflydelse på omfanget <strong>af</strong><br />

instrumentets spørgsmål/items. Således rangerer <strong>instrumenter</strong> fra kun at indeholde<br />

et enkelt globalt spørgsmål (fx ”Hvorledes er dit helbred?”), <strong>til</strong> multidimensionale<br />

<strong>instrumenter</strong> - fx COOP/WONCA-skemaer, hvor seks primære aspekter <strong>af</strong><br />

31<br />

Komponent


individets funktionsstatus (fysiske <strong>for</strong>m, følelser, daglige aktiviteter, sociale<br />

aktiviteter, ændring i sundhed <strong>og</strong> <strong>over</strong>ordnet sundhedss<strong>til</strong>stand) måles, eller<br />

instrumentet 15D (Sintonen, 2001), som indeholder 15 såkaldte dimensioner. Her<br />

opfanger et enkelt item dimensionen, alternativt domænet.<br />

Et instrument kan d<strong>og</strong> bestå <strong>af</strong> multi-item multidimensionale mål, hvor der <strong>for</strong><br />

hvert domæne eksisterer flere dimensioner, som igen har <strong>for</strong>skellige komponenter,<br />

der beskrives ved flere items. Hver metode har sine <strong>for</strong>dele, men <strong>og</strong>så sine<br />

begrænsninger. Bl.a. vil valget få indflydelse på instrumentets evne <strong>til</strong> at være<br />

følsomt <strong>over</strong> <strong>for</strong> individrelaterede ændringer <strong>over</strong> tid.<br />

Fordelen ved de globale spørgsmål er, at de er <strong>for</strong>holdsvis hurtige <strong>og</strong> lette at<br />

besvare <strong>og</strong> analysere. Ulempen ved disse <strong>og</strong> ved en-skala items er, at deres evner i<br />

<strong>for</strong>bindelse med diskriminering <strong>og</strong> følsomhed <strong>over</strong> <strong>for</strong> ændringer, er meget<br />

begrænsede (McColl, 1997, p. 19). Her vil multi-item multidimensionale<br />

<strong>instrumenter</strong> således være mere relevante.<br />

1.5.3.1. Profiler versus indeks<br />

For multi-item multidimensionale <strong>instrumenter</strong> eksisterer der grundlæggende to<br />

måder, hvormed man kan præsentere resultaterne; nemlig som profiler eller som<br />

indeks.<br />

Profiler skal <strong>for</strong>stås som sæt <strong>af</strong> separate dimensionsscorer. Fortalere <strong>for</strong><br />

profil<strong>til</strong>gangen argumenterer, at da sundhed er et multidimensional begreb, bør<br />

scorerne på de <strong>for</strong>skellige dimensioner præsenteres separat, idet man ikke vil<br />

kunne tolke n<strong>og</strong>et ud fra en samlet score. Især i de situationer, hvor det er<br />

nødvendigt at kunne bedømme et individs præstation på <strong>for</strong>skellige dimensioner,<br />

er profiler det mest anvendelige.<br />

Til <strong>for</strong>skel fra profiler er indeks et enkelt tal på grundlag <strong>af</strong> alle dimensioner.<br />

Grunden <strong>til</strong>, at man i visse situationer vælger at indeksere scorerne er bl.a., at det<br />

32


gøres lettere at besvare spørgsmålet om, hvorvidt den ene behandlingsmetode<br />

synes bedre end en anden. I <strong>for</strong>bindelse med økonomiske analyser i <strong>til</strong>knytning <strong>til</strong><br />

politisk beslutningstagning vil indekstal der<strong>for</strong> ofte blive anvendt (McDowell,<br />

1996, p. 14). Der eksisterer d<strong>og</strong> mange problemer ved at indeksere de <strong>for</strong>skellige<br />

dimensioners scorer, især at man herved mister in<strong>for</strong>mation – blandt andet<br />

vedrørende variabiliteten blandt individerne. Således kan ens totalscore <strong>for</strong> de<br />

<strong>for</strong>skellige individer, hvis egenskaber søges målt, opnås på mange <strong>for</strong>skellige<br />

måder, alt efter deres præstationer i de <strong>for</strong>skellige dimensioner. Dette er især<br />

problematisk i <strong>for</strong>bindelse med studier <strong>over</strong> tid, idet et individs nettoscorer kan<br />

være lig nul, selvom der faktisk er sket en ændring. Det kan skyldes at der kan<br />

være sket en <strong>for</strong>bedring på n<strong>og</strong>le <strong>af</strong> dimensionerne i et domæne, mens der er sket<br />

en <strong>for</strong>værring i andre. Evalueringer <strong>af</strong> ændringer <strong>over</strong> tid vil der<strong>for</strong> bedre kunne<br />

opfange de <strong>for</strong>skellige variationer, såfremt man holder sig <strong>til</strong> profiler.<br />

1.5.4. Numeriske sundhedsestimater: Skaleringsmetoder<br />

For i det hele taget at kunne danne profiler eller indeks, er det nødvendigt at kunne<br />

<strong>til</strong>dele en dimension <strong>af</strong> begrebet ’sundhed’ en numerisk værdi.<br />

Der eksisterer <strong>for</strong>skellige metoder <strong>til</strong> at kvantificere sundhed. Generelt skelnes der<br />

mellem fire skaleringsmetoder, hvormed man kan udføre kvantitative målinger.<br />

Disse er: kategori-, ordinal-, interval- <strong>og</strong> ratioskalaer, som beskrives efterfølgende.<br />

Kategoriskala (nominalt niveau). Denne skaleringsmetode er ikke en egentlig<br />

målingsmetode, men referer i stedet <strong>til</strong> en klassificeringsmetode, så som<br />

inddelingen: Ja = 1, Nej = 0; Kvinde =1, Mand = 0 (dikotome udfald) eller farver:<br />

grøn = 1, blå = 2, rød = 3 gul = 4 hvid = 5.<br />

Tallet i en nominalskala siger i sig selv intet om objektets karakteristika, hvor<strong>for</strong><br />

man kan bytte om på rækkefølgen <strong>af</strong> objekterne, uden dette ville få n<strong>og</strong>en<br />

indflydelse, ligesom man kun kan lave få statistiske <strong>og</strong> matematiske beregninger<br />

på nominalskalerede data.<br />

33


Rangordningsskalaer (ordinalt niveau). I andre situationer består måling i at<br />

klassificere enheder i kategorier, som ud<strong>over</strong> at være gensidigt udelukkende <strong>og</strong>så<br />

er rangordnede. I rangordningsskalaen <strong>for</strong>egår der en graduering fra meget <strong>til</strong> lidt,<br />

hvor<strong>for</strong> det er meningsfuldt at tale om hvilken <strong>af</strong> to enheder, der sammenlignes,<br />

som er placeret højest eller lavest på en variabel, hvilket fremgår <strong>af</strong> kodetallets<br />

størrelse. Kendetegnende <strong>for</strong> de items, denne skalatype er baseret på, er der<strong>for</strong>, at<br />

de danner en kumulativ serie. Det betyder, at man <strong>for</strong>etrækker A > B > C > D. Det<br />

er imidlertid kun rækkefølgen <strong>af</strong> tallene, som har betydning – <strong>af</strong>standen mellem to<br />

kodetal har ingen mening. Det skyldes, at en ordinal-skaleret svar<strong>for</strong>deling blot<br />

indikerer i hvilken udstrækning et objekt/individ besidder visse karakteristika -<br />

dvs., det er muligt at bestemme, hvorvidt et individ har mere eller mindre <strong>af</strong> et<br />

givent karakteristikum sammenlignet med andre individer. Et eksempel på en<br />

rangordningsskala er en <strong>til</strong>stand, der vurderes fra værende enten ’mild’, ’moderat’,<br />

eller ’alvorlig’. Ulempen er, at individer kan vurdere de <strong>for</strong>skellige <strong>til</strong>stande<br />

<strong>for</strong>skelligt, ligesom der ikke nødvendigvis er lige stor <strong>af</strong>stand mellem ’mild’ <strong>og</strong><br />

’moderat’, som mellem ’moderat’ <strong>og</strong> ’slem’, hvilket begrænser<br />

analysemulighederne, når dette niveau anvendes.<br />

Intervalskala (kontinuum). Til <strong>for</strong>skel fra måleenhederne anvendt i den ordinale<br />

skaleringsmetode, anvender intervalniveauet måleenheder med et nulpunkt, som<br />

ganske vist er arbitrært. Intervalniveauet anvendes i situationer, hvor det kræves, at<br />

der er lige stor <strong>af</strong>stand mellem målepunkterne - man kender intervallet mellem<br />

punkterne; nulpunktet er arbitrært, men <strong>af</strong>standen mellem målepunkterne er ens.<br />

Når man sammenligner kodetallet mellem <strong>for</strong>skellige enheder, viser differencen<br />

mellem dem der<strong>for</strong> hvor langt, de befinder sig fra hinanden på variablen. Dette<br />

gælder fx temperatur eller begyndelsestidspunktet <strong>for</strong> vor tidsregning. Brug <strong>af</strong> et<br />

arbitrært nulpunkt betyder d<strong>og</strong>, at fx skalaværdien 50 ikke er det dobbelte <strong>af</strong> 25,<br />

men <strong>af</strong>standen mellem 0 <strong>og</strong> 25 er den samme som mellem 25 <strong>og</strong> 50. Man kan<br />

der<strong>for</strong> ikke sammenligne <strong>for</strong>holdet mellem de <strong>for</strong>skellige værdier – kun<br />

differencen mellem dem.<br />

34


Ratioskala (<strong>for</strong>holdstal): Denne skaleringstype udtrykker, <strong>til</strong> <strong>for</strong>skel fra<br />

intervalskalaen, måleenheder med naturligt nulpunkt. Det gør det muligt at sige<br />

n<strong>og</strong>et om, hvorvidt en score er dobbelt så god som en anden score. En ratio-skala<br />

indeholder alt fra nominal, ordinal <strong>og</strong> intervalskalerede data, men har samtidigt et<br />

naturligt nulpunkt. Det sætter én i stand <strong>til</strong> at: 1) identificere <strong>og</strong> klassificere<br />

objekter, 2) rangordne objekterne, 3) sammenligne intervaller <strong>og</strong>/eller <strong>for</strong>skelle.<br />

Eksempler på måleenheder med naturlige nulpunkter er fx: alder, <strong>af</strong>stande/længder<br />

<strong>og</strong> markedsandele. Tabel 5. giver en <strong>over</strong>sigt <strong>over</strong> de <strong>for</strong>skellige måleniveauer <strong>og</strong><br />

deres matematiske egenskaber.<br />

Tabel 5. Egenskaber ved måleniveauerne<br />

Hvad<br />

om?<br />

<strong>for</strong>tæller kodetallene<br />

Nominal Ordinal Interval Ratio/<strong>for</strong>hold<br />

Forskel <strong>og</strong> lighed + + + +<br />

Rangorden - + + +<br />

Afstand - - + +<br />

Forhold - - - +<br />

Hvilke<br />

udføres?<br />

operationer kan<br />

Nominal Ordinal Interval Ratio/<strong>for</strong>hold<br />

Skelne mellem enheder med<br />

<strong>for</strong>skellige<br />

hinanden<br />

værdier fra + + + +<br />

Ordne enhederne<br />

værdiernes størrelse<br />

efter<br />

- + + +<br />

Addition <strong>og</strong> subtraktion <strong>af</strong><br />

-<br />

værdier<br />

- + +<br />

Multiplikation <strong>og</strong> division <strong>af</strong><br />

-<br />

værdier<br />

Kilde: Hellevik, 1997, p. 156<br />

- - +<br />

Anmærkning: Et minus i tabellen betyder at en variabel målt på dette niveau<br />

mangler den pågældende egenskab.<br />

Bemærkning: Måleniveauerne danner en kumulativ skala. Variablene på et niveau<br />

har alle egenskaberne, som variabler på lavere niveauer besidder. Ligeledes er alle<br />

operationer, som er mulige på et lavere niveau, mulige på et højere niveau.<br />

35


Hvilke skalaniveauer instrumentets <strong>for</strong>skellige items (spørgsmål) består <strong>af</strong>, har<br />

indflydelse på hvilke test, man kan udføre herpå. Jo højere niveau, jo flere<br />

statistiske tests <strong>og</strong> hermed in<strong>for</strong>mation kan man trække ud <strong>af</strong> data. Man bør der<strong>for</strong><br />

eksempelvis være <strong>til</strong>bageholdende med at diktomisere en kontinuert variabel (<strong>over</strong><br />

nominelt niveau), idet man herved vil miste in<strong>for</strong>mation, ligesom instrumentets<br />

effektivitet mindskes, <strong>og</strong> dets korrelation med øvrige mål reduceres (Streiner,<br />

1995, p. 30). Som følge her<strong>af</strong> vil man ved at reducere instrumentets skalaniveau<br />

mindske instrumentets reliabilitet. Det er der<strong>for</strong> vigtigt at vurdere, hvorvidt de<br />

enkelte spørgsmåls skalaniveau er hensigtsmæssigt. I <strong>for</strong>bindelse med valg <strong>af</strong><br />

instrument er der der<strong>for</strong> visse <strong>over</strong>vejelser, man bør gøre sig vedrørende<br />

maksimering <strong>af</strong> præcision <strong>og</strong> minimering <strong>af</strong> bias. N<strong>og</strong>en <strong>af</strong> disse <strong>over</strong>vejelser<br />

gengives i tabel 6.<br />

Tabel 6. Skala<strong>over</strong>vejelser – hvordan vurderes items i instrumentet?<br />

Overvejelse Kommentar<br />

Antal<br />

Hvis der vælges <strong>for</strong> få, kan resultatet blive tab <strong>af</strong> in<strong>for</strong>mation.<br />

inddelinger i Undersøgelser har vist, at der mindst bør være 5 <strong>til</strong> 7<br />

skalaen inddelinger, idet antallet har indvirkning på<br />

reliabilitetskoefficienten. Jo færre kategorier, en skala er<br />

inddelt i, desto lavere reliabilitet.<br />

Maksimalt antal Undersøgelser har vist, at individer har vanskeligt ved at<br />

<strong>af</strong> kategorier håndtere <strong>for</strong> mange ting på én gang, hvor<strong>for</strong> man bør<br />

begrænse sig <strong>til</strong> maksimalt 7 kategorier.<br />

Lige eller ulige<br />

antal<br />

kategorier?<br />

Bør alle punkter<br />

på en skala<br />

være givet en<br />

betegnelse, eller<br />

kun<br />

endepunkterne?<br />

Giver<br />

<strong>til</strong>lægsordene<br />

(adjektiverne)<br />

I bipolare skalaer (uenig – enig), giver ulige antal inddelinger<br />

individer mulighed <strong>for</strong> ’ikke at have n<strong>og</strong>en mening’, altså<br />

være neutrale, hvorimod et lige antal tvinger respondenterne<br />

<strong>til</strong> at have en mening, uanset at det måtte være misvisende.<br />

Undersøgelser har vist, at der er relativ lille <strong>for</strong>skel i<br />

besvarelser mellem skaler, hvor kun endepunkterne er givet<br />

betegnelser, <strong>og</strong> skalaer, hvor de intermediære <strong>til</strong>stande<br />

ligeledes er givet en betegnelse.<br />

Betydningen vil <strong>af</strong>hænge <strong>af</strong> konteksten, ligesom individer kan<br />

<strong>til</strong>lægge ordene <strong>for</strong>skellige <strong>for</strong>tolkninger; hvor ofte er<br />

eksempelvis ’ofte’? Er det tættere på ’næsten altid’ eller på<br />

36


altid samme<br />

mening?<br />

Påvirker tal<br />

under skalaen<br />

individernes<br />

respons?<br />

Skal<br />

rækkefølgen <strong>af</strong><br />

successive<br />

spørgsmål<br />

<strong>til</strong>kendegive<br />

ændring?<br />

Kan det<br />

antages, at data<br />

er på<br />

intervalniveau?<br />

’en gang imellem’?<br />

Kilde: Streiner, 1995, p.35-8.<br />

Individer kan anvende tallene <strong>til</strong> at tolke <strong>til</strong>lægsordenes<br />

betydning. En negativ skala kan frembringe en anden<br />

betydning end en positiv skala.<br />

Visse <strong>instrumenter</strong> skifter ’retning’ <strong>af</strong> spørgsmål eller udsagn,<br />

så efterfølgende spørgsmål fx går fra enig – uenig, i stedet <strong>for</strong><br />

fra uenig – enig, <strong>for</strong> at tvinge respondenterne <strong>til</strong> at tænke <strong>over</strong><br />

hvert enkelt svar i stedet <strong>for</strong> <strong>for</strong>tløbende at sætte kryds det<br />

samme sted (responsmønster bias). Problemet er imidlertid, at<br />

ikke alle respondenter bider mærke heri, hvor<strong>for</strong> man kan<br />

opnå resultater, der er utolkelige.<br />

Rangordningsskalaer er ordinale <strong>af</strong> natur. Det skyldes, at det<br />

ikke med sikkerhed kan antages, at <strong>af</strong>standen mellem fx<br />

meget enig <strong>og</strong> enig er den samme som fx <strong>af</strong>standen mellem<br />

enig <strong>og</strong> neutral. I <strong>for</strong>bindelse med analyse her<strong>af</strong> behandles<br />

rangordnings-skalerne d<strong>og</strong> (ofte), som var de<br />

intervalskalerede.<br />

1.6. Vægtningsteknikker – fra items <strong>til</strong> skala<br />

Det er <strong>for</strong>skelligt, hvor mange items skalaer består <strong>af</strong>. Fx består VAS 7 kun <strong>af</strong> et<br />

enkelt. I visse <strong>til</strong>fælde er det d<strong>og</strong> mere hensigtsmæssigt at have flere items, der kan<br />

være med <strong>til</strong> at vurdere et underliggende karakteristisk træk ved et begreb.<br />

Spørgsmålet er, hvordan man sammenlægger disse <strong>for</strong>skellige items <strong>til</strong> en enkelt<br />

værdi?<br />

I de fleste <strong>instrumenter</strong> <strong>til</strong>deles items samme vægt i <strong>for</strong>bindelse med beregningen<br />

<strong>af</strong> en <strong>over</strong>ordnet skalascore. Denne <strong>til</strong>gang er simpel – både matematisk <strong>og</strong><br />

<strong>for</strong>ståelsesmæssigt.<br />

Spørgsmålet er blot, hvorvidt items altid kan tænkes at vægte ens? Det kan tænkes,<br />

at der i visse situationer er items, der er mere vigtige end øvrige, <strong>og</strong> at man bør<br />

tage højde her<strong>for</strong>. I disse situationer kan man <strong>til</strong>dele de <strong>for</strong>skellige items i skalaen<br />

7 Visuel Anal<strong>og</strong> Skala (Jf. ’temperaturskalaer’).<br />

37


<strong>for</strong>skellige vægte. Et problem ved denne metode er at <strong>af</strong>gøre hvordan de<br />

<strong>for</strong>skellige vægte skal bestemmes, samt at der er mere regnearbejde <strong>for</strong>bundet<br />

hermed.<br />

Der er <strong>for</strong>skellige <strong>til</strong>gange <strong>til</strong> udledningen <strong>af</strong> vægte. Man kan fx bede eksperter<br />

eller et panel, som repræsenterer befolkningen, om at allokere værdier <strong>til</strong> hver item<br />

eller <strong>til</strong>stand. Disse skulle gerne være <strong>over</strong>ensstemmende med det begrebsmæssige<br />

grundlag <strong>for</strong> målingen <strong>og</strong> omgivelserne, hvori instrumentet anvendes. Det er<br />

således ikke sikkert, at vægte, anvendt i <strong>for</strong>bindelse med én omgivelse, kan<br />

anvendes i en anden. Her må vægtene reevalueres.<br />

Som alternativ <strong>til</strong> eksperternes/panelets vurdering <strong>af</strong> vægte kan disse eventuelt<br />

udledes empirisk gennem anvendelsen <strong>af</strong> statistiske metoder - fx multipel<br />

regressionsmetoden, hvor man <strong>for</strong>søger at <strong>for</strong>udsige en score fra et antal<br />

u<strong>af</strong>hængige items, der <strong>til</strong>lægges <strong>for</strong>skellige vægte, der vælges, så ligningens<br />

<strong>for</strong>udsigelsesevne maksimeres, eller faktoranalyse, hvor de enkelte items’ score på<br />

en faktor bruges som relative vægte.<br />

Hvorvidt anvendelsen <strong>af</strong> <strong>for</strong>skellige vægte empirisk viser sig at have n<strong>og</strong>en<br />

indflydelse på de psykometriske egenskaber, <strong>af</strong>hænger <strong>af</strong> hvilke kilder, man<br />

spørger. Således viser n<strong>og</strong>le fund, at vægtene ikke har megen indflydelse herpå,<br />

mens andre finder, at det signifikant øger et indeks’ evne <strong>til</strong> at <strong>for</strong>udsige en score<br />

<strong>for</strong> et karaktertræk eller adfærd. Dette synes d<strong>og</strong> <strong>til</strong> en vis grad at <strong>af</strong>hænge <strong>af</strong>, hvor<br />

mange items der er med. Hvis der er mange (ca. 40) vil vægtning ikke påvirke den<br />

samlede score, mens man ved færre items kan opnå en vis effekt (Streiner, 1995, p.<br />

87). Ligeledes kan vægtning være relevant, såfremt man har mange urelaterede<br />

items, som ofte set i <strong>for</strong>bindelse med funktionel statusmåling. Ellers er<br />

konklusionen ofte den, at vægtning som regel ikke er anstrengelserne herved værd.<br />

38


1.7. Praktiske <strong>over</strong>vejelser<br />

Ud <strong>over</strong> den grundlæggende teori bag <strong>instrumenter</strong>ne <strong>og</strong> skalaerne indeholdt i<br />

disse, er der andre <strong>over</strong>vejelser, der må vurderes, inden valg <strong>af</strong> instrument <strong>og</strong>/eller<br />

metode kan træffes. Dette gælder blandt andet, hvad der <strong>over</strong>hovedet er muligt <strong>og</strong><br />

mest praktisk, givet en specifik situation.<br />

Håndteringsmetoder. Hvilken metode <strong>til</strong> praktisk håndtering<br />

(administrationsmetode), man bør vælge at anvende, <strong>af</strong>hænger meget <strong>af</strong> omgivelser<br />

<strong>og</strong> målepopulation. I <strong>for</strong>bindelse med demente vil brug <strong>af</strong> spørgeskemaer, som skal<br />

udfyldes <strong>af</strong> dem selv, måske være knapt så anvendelige, med mindre det er en<br />

population <strong>af</strong> meget mildt demente. I stedet vil anvendelse <strong>af</strong> observatører eller<br />

proxy-respondenter oftest være mere relevant.<br />

Hvilken metode man vælger <strong>til</strong> håndtering <strong>af</strong> instrumentet, har indflydelse på bias-<br />

kilder <strong>og</strong> svarprocenten 8 , ligesom omkostningerne herved kan divergere meget, alt<br />

efter om man vælger at lade respondenterne udfylde et spørgeskema, om man lader<br />

proxy-respondenter udfylde dette, eller om man optræner n<strong>og</strong>le<br />

interviewere/observatører <strong>til</strong> at interviewe/bedømme respondenterne, hvilket ofte<br />

kan være relevant i <strong>for</strong>bindelse med netop vurderingen <strong>af</strong> demente.<br />

Håndteringsvarighed. Alt efter instrumentets kompleksitet <strong>og</strong> antallet <strong>af</strong> items<br />

heri, kan en håndtering <strong>af</strong> et instrument enten <strong>for</strong>løbe <strong>for</strong>holdsvis hurtigt, eller tage<br />

lang tid. I <strong>for</strong>bindelse med (mild) demente kan dette have indflydelse på<br />

responsraten; hvis de selv skal være med <strong>til</strong> at udfylde<br />

spørgeskemaet/instrumentet, skal denne være kort <strong>og</strong> let at gå <strong>til</strong>, mens den kan<br />

være længere <strong>og</strong> spørgsmålene være mere komplekse, såfremt det er observatører,<br />

hvis arbejde det er at observere andre mennesker, der skal udfylde denne, eller<br />

vurderingerne pålægges proxy-respondenter.<br />

8 Der henvises <strong>til</strong> gængse metodebøger (fx Hellevik, 1997) <strong>for</strong> en uddybning <strong>af</strong> mulige<br />

biaskilder <strong>for</strong>bundet med <strong>for</strong>skellige håndteringsmetoder.<br />

39


Oversættelsesproblemer. Hvis det instrument, der synes mest anvendelig i en<br />

given situation, ikke er <strong>til</strong>gængelig på dansk, er det nødvendig med en <strong>over</strong>sættelse<br />

<strong>og</strong> en <strong>til</strong>pasning <strong>til</strong> den danske kultur. Det skyldes, at <strong>instrumenter</strong> kan være meget<br />

kulturspecifikke, hvor<strong>for</strong> en direkte <strong>over</strong>sættelse <strong>til</strong> dansk (eller andet spr<strong>og</strong>) kan<br />

være problematisk. Det er der<strong>for</strong> nødvendigt, at der anvendes en accepteret metode<br />

<strong>for</strong> <strong>over</strong>sættelse - fx i <strong>for</strong>m <strong>af</strong> paneler, bestående <strong>af</strong> eksperter (defineret ved spr<strong>og</strong>,<br />

profession eller begge dele) eller lægfolk. Deres opgave er at fremkomme med det<br />

mest dækkende indhold <strong>og</strong> spr<strong>og</strong>brug. Én <strong>af</strong> de mest anvendte procedurer i<br />

<strong>for</strong>bindelse med <strong>til</strong>pasningen <strong>af</strong> et instrument <strong>til</strong> brug i et nyt land/kultur er at<br />

anvende <strong>over</strong>sættelse <strong>og</strong> <strong>til</strong>bage-<strong>over</strong>sættelse, hvilket skal gøres <strong>af</strong> individer, der er<br />

flydende i begge spr<strong>og</strong>. Den første <strong>over</strong>sættelse bør gøres <strong>af</strong> individer, hvis<br />

modersmål er det spr<strong>og</strong>, instrumentet skal <strong>over</strong>sættes <strong>til</strong> (her dansk), mens <strong>til</strong>bage-<br />

<strong>over</strong>sættelsen skal <strong>for</strong>etages <strong>af</strong> individer, hvis modersmål er det spr<strong>og</strong>, det<br />

originale instrument er skrevet i (Bentzen, 1998, p. 32).<br />

Translatørerne skal være opmærksomme på de underliggende karakteristika ved<br />

begreberne/spørgsmålene, der skal <strong>over</strong>sættes, da man ikke blot kan <strong>over</strong>sætte<br />

direkte: et eksempel på problem ved direkte <strong>over</strong>sættelse er fx begrebet angst fra<br />

det engelske anxiety. Hvor begrebet angst på dansk er tættere <strong>for</strong>bundet med<br />

skræk, er det engelske begreb anxiety tættere <strong>for</strong>bundet med bekymring. Sådanne<br />

<strong>for</strong>skelle er ikke altid umiddelbart tydelige, <strong>og</strong> der er risiko <strong>for</strong>, at de ikke vil blive<br />

opdaget.<br />

At der kan være problemer ved direkte <strong>over</strong>sættelse <strong>af</strong> et instrument <strong>til</strong> et andet<br />

spr<strong>og</strong> end oprindeligt <strong>til</strong>tænkt, er følgende et klassisk eksempel på. En ukorrekt<br />

<strong>over</strong>sættelse <strong>af</strong> spørgsmål i Nottingham Health Profile <strong>til</strong> bengalsk blev <strong>for</strong><br />

følgende spørgsmål: ”I’m feeling on edge” i <strong>over</strong>sættelsen <strong>til</strong> ”I’m walking along”.<br />

”I’m finding it hard to make contact with people” blev <strong>til</strong> ”I don’t have a phone<br />

and can’t write” <strong>og</strong> ”I feel there is nobody I am close to” blev <strong>til</strong> ”All my<br />

immediate family are dead”. (New Scientist, p. 56, 1994)<br />

40


Et eksempel på et kulturelt problem er, at man i amerikansk sammenhæng har<br />

anvendt hyppigheden <strong>af</strong> kirkegang som udtryk <strong>for</strong> graden <strong>af</strong> social integration.<br />

Hyppigheden <strong>af</strong> kirkegang har i dansk kontekst ikke samme betydning, hvor<strong>for</strong><br />

anden <strong>til</strong>gang <strong>til</strong> måling <strong>af</strong> social integration må anvendes.<br />

En <strong>over</strong>sættelse <strong>af</strong> et instrument skal der<strong>for</strong> <strong>til</strong>stræbe ækvivalens i det, der måles.<br />

Kravene <strong>til</strong> <strong>over</strong>sættelsen er således:<br />

• Indholdsmæssig ækvivalens: man må udskifte et spørgsmål med et<br />

<strong>til</strong>svarende, men mere kulturelt <strong>over</strong>ensstemmende. Dette kan d<strong>og</strong> være<br />

vanskeligt <strong>og</strong> ikke altid muligt.<br />

• Semantisk ækvivalens: <strong>over</strong>sættelsen skal bevare den samme mening.<br />

”Downhearted and blue” vil på dansk kræve en omskrivning <strong>for</strong> at fange<br />

meningen. Ligeledes vil det danske ord ’hygge’ være vanskelig at <strong>over</strong>føre<br />

<strong>til</strong> et andet spr<strong>og</strong>, som ikke har det begreb. Kulturbundne begreber, <strong>for</strong>skelle<br />

i grammatik, syntaks <strong>og</strong> idiomer er kun n<strong>og</strong>le blandt mange <strong>af</strong> de<br />

fænomener, der umuliggør den absolutte semantiske ækvivalens.<br />

• Krav om teknisk ækvivalens, kriterieækvivalens <strong>og</strong> begrebsmæssig<br />

ækvivalens (validering). Man skal revalidere instrumentet <strong>for</strong> at sikre, at der<br />

ikke er gået n<strong>og</strong>et tabt i <strong>over</strong>sættelsen.<br />

En <strong>over</strong>sættelse <strong>af</strong> et instrument er ikke n<strong>og</strong>et, man blot lige gør – det kan, såfremt<br />

det skal gøres korrekt, tage ligeså lang <strong>til</strong> at få <strong>over</strong>sat et instrument fra et andet<br />

spr<strong>og</strong> <strong>til</strong> dansk, som det tager at udvikle et nyt instrument. For yderligere<br />

in<strong>for</strong>mation, se fx Meadows et al, 1997.<br />

1.8. Valg <strong>af</strong> instrument – opsummering<br />

Ud fra de <strong>for</strong>egående <strong>af</strong>snits diskussion/gennemgang bør det fremstå klart, at det at<br />

skulle træffe et valg vedrørende hvilket instrument, man skal/bør anvende i en<br />

given situation, ikke er n<strong>og</strong>en simpel beslutning. I stedet er der flere <strong>over</strong>vejelser,<br />

41


der bør gøres, inden det endelige valg træffes. McColl et al. (1997, p. 22-23)<br />

ops<strong>til</strong>ler n<strong>og</strong>le ’trin’, man kan gennemgå, førend dette valg træffes. Disse trin er:<br />

• Oplys <strong>for</strong>målet med målingen <strong>af</strong> sundhed<br />

• Definer det begrebslige grundlag <strong>for</strong> sundhedsvurderingen i den pågældende<br />

situation.<br />

• Oprems domænerne indeholdt i sundhedsdefinitionen, der skal måles.<br />

• Identificer de psykometriske egenskaber, der er nødvendige <strong>for</strong> den<br />

pågældende vurdering. Høj validitet <strong>og</strong> reliabilitet er altid væsentlig, men<br />

hvilke typer <strong>af</strong>hænger at den specifikke situation; inter-rater reliablitet bør fx<br />

kun <strong>over</strong>vejes, såfremt håndteringen <strong>af</strong> instrumentet er via observatører eller<br />

interviews. Ligeledes <strong>af</strong>hænger væsentligheden <strong>af</strong> instrumentets evne <strong>til</strong> at<br />

diskriminere, samt evt. følsomhed <strong>over</strong> <strong>for</strong> ændringer, <strong>af</strong> de specifikke<br />

omstændigheder, instrumentet skal anvendes i.<br />

• Identificer følgende:<br />

o Omgivelserne <strong>for</strong> dataindsamling<br />

o Hvor megen tid, personale, ressourcer(penge), der <strong>til</strong> råde<br />

o Indsamlingsmetode: in<strong>for</strong>mation direkte fra patienterne selv eller skal<br />

der anvendes proxy-respondenter?<br />

• Bestem hvorvidt et generisk eller situations-specifikt instrument er påkrævet<br />

– måske en kombination.<br />

• Bestem hvorvidt resultaterne skal præsenteres via profiler eller som indeks.<br />

• Indsaml in<strong>for</strong>mation om de <strong>for</strong>skellige <strong>instrumenter</strong>. Evaluer hvert <strong>af</strong> disse<br />

mod eksplicitte kriterier:<br />

o Var instrumentet designet eller har det været anvendt <strong>til</strong> det <strong>for</strong>mål,<br />

som pågældende undersøgelse omhandler?<br />

o Matcher instrumentets begrebslige grundlag, det begrebslige grundlag<br />

<strong>for</strong> sundhed <strong>for</strong> den <strong>for</strong>estående vurdering?<br />

o Er alle relevante sundhedsdomæner dækket – enten ved et enkelt<br />

instrument eller ved en kombination?<br />

o Er der <strong>til</strong>strækkelig evidens <strong>for</strong> reliabilitet, validitet,<br />

diskriminationsevne <strong>og</strong> følsomhed <strong>over</strong> <strong>for</strong> ændring? Er denne<br />

evidens udledt i en omgivelse <strong>til</strong>svarende de omgivelser, som den<br />

<strong>for</strong>estående evaluering skal udføres i?<br />

o Er tids-referencen anvendelig i konteksten <strong>af</strong> den <strong>for</strong>estående<br />

evaluering? Hvis data skal indsamles 2 uger efter en intervention, kan<br />

der opstå <strong>for</strong>tolkningsproblemer, hvis der anvendes et instrument, der<br />

udspørger om sundhed inden <strong>for</strong> de sidste fire uger.<br />

o Hvilke ressourcer er påkrævede. Matcher de ressourcer der er <strong>til</strong><br />

rådighed <strong>for</strong> dataindsamlingen?<br />

o Hvor acceptabel <strong>for</strong>ventes instrumentet at være? Vil responsraten<br />

være <strong>til</strong>strækkelig?<br />

• Vælg det instrument, der bedst opfylder de eksplicitte kriterier.<br />

• Hvis nødvendigt, udfør kulturel <strong>til</strong>pasning <strong>af</strong> instrumentet<br />

42


• Hvis nødvendigt, udfør pilotstudie <strong>og</strong> reevaluer de psykometriske<br />

egenskaber ved instrumentet/<strong>instrumenter</strong>ne. Overvej valg <strong>af</strong> instrument(er)<br />

hvis dette viser svaghedstegn på et eller flere områder.<br />

Det er blandt andet disse trin, der ligger <strong>til</strong> grund <strong>for</strong> strukturen/undersøgelsen <strong>af</strong><br />

de <strong>for</strong> indeværende arbejdsnotat undersøgte <strong>instrumenter</strong>.<br />

43


Litteraturliste:<br />

1. Allerup, P. (1987): Raschmodeller – principper <strong>og</strong> anvendelse. Danmarks<br />

pædag<strong>og</strong>iske Institut.<br />

2. Andrich, D. (1988): Rasch models <strong>for</strong> measurement. Quantitative<br />

Applications in the Social Sciences. John L. Sullivan (Series editor).<br />

SAGE Publications<br />

3. Bech, P. (2002): Measurement Issues. In: D’haenen, H., JA. Den Boer and<br />

P. Willner (eds). Biol<strong>og</strong>ical Psychiatry. II. NY, John Wiley, pp. 25-36.<br />

4. Bech, P. (2004a): Modern psychometrics in clinimetrics. Psychotherapy<br />

and Psychosomatics; 73; 134-138.<br />

5. Bech, P., R. Licht, K. Stage, W. Abildgaard, G. Bech-Andersen, S.<br />

Søndergaard, K. Martiny. (2004): Kompendium: Rating Scales <strong>for</strong><br />

<strong>af</strong>fective lidelser. Psykiatrisk Forskningsenhed, Psykiatrisk Sygehus.<br />

Hillerød.<br />

6. Bentzen, N., T. Christiansen, E. McColl, K. Meadows (1998): Selection<br />

and cross-cultural adaptation of health outcome measures. European<br />

Journal of General Practice, vol. 4.<br />

7. Brod, M., A. L. Stewart, L. Sands, P. Walton (1999): Conceptualization<br />

and Measurement of Quality of Life in Dementia: The Dementia Quality of<br />

Life Instrument (DqoL). The Gerontol<strong>og</strong>ist, vol. 39(1) p. 25-35.<br />

8. Ferreira, P., J. Heyrman, K. van Hoeck (1997): Some concepts of health<br />

in outcome assessment. In Hutchinson. A, N. Bentzen, C. König-Zahn<br />

(red.): Cross Cultural Health Outcome Assessment; a user’s guide.<br />

European Research Group on Health Outcomes.<br />

9. Folstein,M.F., S.E. Folstein, P.R. McHugh (1975): ”Mini-Mental State”: a<br />

practical method <strong>for</strong> rading the c<strong>og</strong>nitive state of patients <strong>for</strong> the clinician.<br />

Journal of Psychiatric Research 12: 189-98.<br />

10. Hellevik, O. (1997): Forskningsmetode i sociol<strong>og</strong>i <strong>og</strong> statsvitenskap.<br />

Universitets<strong>for</strong>laget, Oslo.<br />

11. Hughes, J.C. (2003): Quality of life in dementia: an ethical and<br />

Philosophical perspective. Expert Rev. Pharmacoeconomics Outcomes<br />

Res. 3(5), 525-534.<br />

12. Kiresuk, T., Smith, A. & Cardillo, J. (Eds.). (1994): Goal Attainment<br />

Scaling: Applications, Theory, and Measurement Hillsdale, NJ: Lawrence<br />

Erlbaum Associates.<br />

13. McColl, E, T. Christiansen, C. König-Zahn (1997): Making the right<br />

choice of outcome measure. In Hutchinson. A, N. Bentzen, C. König-Zahn<br />

(red.): Cross Cultural Health Outcome Assessment; a user’s guide.<br />

European Research Group on Health Outcomes.<br />

14. McDowell, I., C. Newell (1996): Measuring Health. A Guide to Rating<br />

Scales and Questionnaires. Ox<strong>for</strong>d University Press.<br />

15. McIver, J.P., Carmines, E.G. (1981): Unidimensional Scaling.<br />

Quantitative Applications in the Social Sciences. John L. Sullivan (Series<br />

editor). Sage Publications, Indiana University<br />

44


16. Meadows, K. N. Bentzen, F. Touw-Otten (1997): Cross-cultural issues: an<br />

outline of the important principles in establishing cross-cultural validity in<br />

health outcome assessment. In Hutchinson. A, N. Bentzen, C. König-Zahn<br />

(red.) (199x): Cross Cultural Health Outcome Assessment; a user’s guide.<br />

European Research Group on Health Outcomes.<br />

17. Mokken, R.J, C. Lewis (1982): A non-parametric approach to the analysis<br />

of dichotomous responses. Applied Psychol<strong>og</strong>ical Measuremtent.<br />

18. New Scientist (maj 1994).<br />

19. Rabins, P. J. D. Kasper, L. Kleinman, B. S. Black (1999): Concepts and<br />

Methods in the Development of the ADRQL: An Instrument <strong>for</strong> Assessing<br />

Health-Related Quality of Life in Persons With Alzheimer’s Disease.<br />

Journal of Mental Health and Aging, vol. 5, no.1, p. 33-48.<br />

20. Roth, M., E. Tym, C.Q. Mountjoy et al. (1986): CAMDEX. A<br />

standardised instrument <strong>for</strong> the diagnosis om mental disorder in the elderly<br />

with special reference to the early detection of dementia. British Journal of<br />

Psychiatry 149: 168-709<br />

21. Schneider, L.S. (2001): Assessing Outcomes in Alzheimer Disease.<br />

Alzheimer Disease and Associated Disorders, vol. 15, suppl. 1, pp. S8-S18.<br />

22. Sintonen H. The 15D instyrumenmt of health-related quality of life:<br />

properties and applications. Ann Med 2001; 33: 328-336.<br />

23. Streiner, D.L., G. R. Norman (1995): Health Measurement Scales – A<br />

Practical Guide to Their Development and Use. Ox<strong>for</strong>d University Press.<br />

24. Sundhedsstyrelsen (2001): Demens – den fremtidige <strong>til</strong>rettelæggelse <strong>af</strong><br />

sundhedsvæsnets indsats vedrørende diagnostik <strong>og</strong> behandling.<br />

Redegørelse fra Sundhedsstyrelsens arbejdsgruppe vedrørende demens.<br />

25. WHO (1958) World Health Organisation: The first ten years: the health<br />

organisation. Geneva: World Health Organisation.<br />

26. WHO (jan 2003): http://www.who.int/evidence/assessmentinstruments/qol/ql1.htm<br />

(jan. 2003)<br />

Sekundær litteratur<br />

27. Alzheimer<strong>for</strong>eningen: www.alzheimer.dk<br />

Alzheimer Insight. An <strong>over</strong>view of rating scales used in dementia research<br />

(1996). Alzheimer Insights online – An international Educational<br />

Newsletter. Volume 2, No3. http://www.alzheimerinsights.com/insights/vol2no3/vol2no3.htm<br />

28. Bowling, A (1991): Measuring Health. A review of quality of life<br />

measurement scales. Open University Press, Buckingham, England<br />

29. Brazier J., M. Deverill (1999): A Checklist <strong>for</strong> Judging Preference-based<br />

Measures of Health Related Qoulity of Life: Learning from Psychometrics.<br />

Health Economics. 8: 41-51.<br />

45


30. Christiansen, T (1990a): Measurement of Health Status I. Descriptions of<br />

the Instruments Used in the Danish Health Study. Odense Universitets<br />

Trykkeri.<br />

31. Christiansen, T (1990b): Measurement of Health Status I. Scalability of<br />

the Instruments Used in the Danish Health Study. Odense Universitets<br />

Trykkeri.<br />

32. Christiansen, T (1990c): Measurement of Health Status I. Reliability and<br />

Validity of Scores in the Danish Health Study. Odense Universitets<br />

Trykkeri.<br />

33. Cohen, M. (1998): Goal Attainment Scaling – GAS. Orientering <strong>og</strong><br />

erfaringsopsamling. Center <strong>for</strong> Evaluering, Psykiatrien i Århus Amt.<br />

(Rapporten kan downloades fra http://www.ceps.suite.dk/gaserfa.pdf )<br />

34. Doody, Rachelle Smith (1998): Test Scores in Clinical Trials vs.<br />

Per<strong>for</strong>mance in Real Life: Can Clical Global Assessment Bridge the Gap?<br />

In A. Wimo, B. Jönsson, G. Karlsson, B. Winblad (eds): Health Economics<br />

of Dementia. John Wiley & Sons, England.<br />

35. Fratiglioni, L. (1998): Classification and Diagnosis. In A. Wimo, B.<br />

Jönsson, G. Karlsson, B. Winblad (eds): Health Economics of Dementia.<br />

John Wiley & Sons, England.<br />

36. König-Zahn C., J. Heyink, B. Meyboom-de Jong (1997): Using the<br />

reviews: a user’s guide to the manual. In Hutchinson. A, N. Bentzen, C.<br />

König-Zahn (red.): Cross Cultural Health Outcome Assessment; a user’s<br />

guide. European Research Group on Health Outcomes.<br />

37. Larsen, J.K (2003): Kompetenceændringer <strong>og</strong> økonomiske aspekter ved<br />

rehabiliterings-indsats blandt senhjerneskadede. Master of Public Health,<br />

Aarhus Universitet, Udgivelse nr. 69.<br />

38. Lee, A. (2003): Pleje- <strong>og</strong> omsorgsmetoder <strong>til</strong> demensramte: Et<br />

litteraturstudie <strong>af</strong> den dokumenterede effekt.<br />

www.servicestyrelsen.dk/l<strong>og</strong>/pdf/pleje_omsorg_demente_rapport.pdf<br />

(2004)<br />

39. Licht, R.W et al. (2004): Is the total score a valid measure of items<br />

severity. Acta Psychiatr Scand (in press).<br />

40. MacKeigan L.D., A. G<strong>af</strong>ni, B.J. O’Brien (2003): Double discounting of<br />

QALYs. Health Economics. Vol. 12(3), p. 165-169.<br />

41. Netdoktor (jan 2003): www.netdoktor.dk/sygdomme/Fakta/demens.htm<br />

(2003)<br />

42. Nygård, L. (1998): Assessing ADL/IADL in Persons with Dementia. In A.<br />

Wimo, B. Jönsson, G. Karlsson, B. Winblad (eds): Health Economics of<br />

Dementia. John Wiley & Sons, England.<br />

43. Pedersen, A.F., Zachariae,B (2003): Livskvalitetsmåling i sundhedsvæsnet<br />

– en introduktion. Delpublikation nr. 3 i skriftserien om ”De<br />

mellemmenneskelige relationer”. http://www.patientrelationer.dk/rapporter/bobby-liv.pdf<br />

46


44. Reisberg, B. E. Franssen, L. Souren, S. Kenowski, S. Auer (1998):<br />

Severity Scales. In A. Wimo, B. Jönsson, G. Karlsson, B. Winblad (eds):<br />

Health Economics of Dementia. John Wiley & Sons, England.<br />

45. SACMOT (Scientific Advisory Committee of the Medical Outcomes<br />

Trust) (2002): Assessing health status and quality-of-life instruments:<br />

Attributes and review criteria. Quality of Life Research 11: 193-205.<br />

46. Sharma, S. (1996): Applied Multivariate Techniques. John Wiley & Sons,<br />

Inc (NY).<br />

47. Steward, A.L (1990): Psychometric Considerations in Functional Status<br />

Instruments. In Lipkin Jr, M. (Series Ed.) Functional Status Masurement<br />

in Primary Care. Springer-Verlag, New York.<br />

48. Swedner, H. (1979): Sociol<strong>og</strong>isk Metod. En bok om konskapsproduktion<br />

och förändringsarbete. Bröderna Ekstrands Tryckeri AB, Lund.<br />

49. Torrance G. (1986): Measurement of health state u<strong>til</strong>ities <strong>for</strong> economic<br />

appraisal – a review. Journal of Health policy, vol.5, p. 1-30 (2003)<br />

47


Bilag 1: Klassisk vs. klinimetrisk psykometrisk skala-analyse<br />

Det er som udgangspunkt valgt at anvende den klassiske begrebs<strong>til</strong>gang <strong>til</strong><br />

reliabilitets- <strong>og</strong> validitets-vurderingen i modsætning <strong>til</strong> den ’klinimetriske’ <strong>til</strong>gang,<br />

som er en mere moderne <strong>til</strong>gang <strong>til</strong> valideringen <strong>af</strong> vurderinsgsskalaer. At<br />

udgangspunktet <strong>for</strong> vurderingerne er <strong>for</strong>etaget via den klassiske<br />

begrebsterminol<strong>og</strong>i skyldes, at de fleste <strong>af</strong> de vurderede skalaer/<strong>instrumenter</strong> er<br />

vurderet via de begreber, der netop anvendes heri. Ligeledes er der et <strong>over</strong>lap<br />

mellem de to begrebs<strong>til</strong>gange, hvor<strong>for</strong> et instrument, der er vurderet via den<br />

klinimetriske vurderings<strong>til</strong>gang, godt kan passes ind under de klassiske<br />

valideringsbegreber.<br />

Forskelle <strong>og</strong> ligheder mellem de to begrebs<strong>til</strong>gange <strong>til</strong> psykemetrien søges kort<br />

belyst i det følgende. I den klinimetriske <strong>til</strong>gang benyttes begreberne intern- <strong>og</strong><br />

ekstern validitet samt reliabilitet som illustreret i Figur 1A. Fortolkningen her<strong>af</strong><br />

fremgår <strong>af</strong> det følgende 9<br />

9 Professor, <strong>over</strong>læge, dr.med. Per Bech, Psykiatrisk Forskningsenhed, Psykiatrisk<br />

Sygehus, Frederiksborg Amt, har bidraget <strong>til</strong> dette <strong>af</strong>snit. Ansvaret <strong>for</strong> den endelige<br />

ud<strong>for</strong>mning er d<strong>og</strong> alene <strong>for</strong>fatternes.<br />

48


Figur 1A. Psykometrisk skala-analyse – klinimetrisk <strong>til</strong>gang <strong>til</strong> vurdering <strong>af</strong><br />

skalaegenskaber<br />

Intern validitet<br />

Endimensionale<br />

skalaer<br />

Total score<br />

<strong>til</strong>strækkelig<br />

flerdimensionale<br />

skalaer<br />

Profil score<br />

nødvendig<br />

Kilde: Efter Bech, 2002.<br />

Intern validitet<br />

Ekstern validitet<br />

Diagnostiske<br />

screeningsskalaer<br />

Sensitivitet <strong>og</strong> specificitet<br />

Skalaer <strong>for</strong><br />

behandlingseffekt<br />

Acceptabel effekt<br />

størrelse <strong>over</strong> <strong>for</strong> placebo<br />

Ifølge den klinimetriske <strong>til</strong>gang vedrører intern validitet spørgsmålet, hvorvidt den<br />

kliniske <strong>til</strong>stand, der ønskes målt, er en- eller flerdimensional. Idet demens i sig<br />

selv er et flerdimensionalt begreb (rummer bl.a. en k<strong>og</strong>nitiv, en funktionel <strong>og</strong> en<br />

adfærdsmæssig dimension), er det nødvendigt at få indholdsmæssigt <strong>af</strong>dækket,<br />

hvilken <strong>af</strong> disse dimensioner en skala <strong>til</strong>hører. Herefter kan der <strong>for</strong>etages en<br />

analyse, der <strong>af</strong>klarer, hvorvidt en totalscore er et <strong>til</strong>fredss<strong>til</strong>lende statistisk udtryk<br />

<strong>for</strong> skalaens interne validitet, se neden<strong>for</strong>. Dette svarer grundlæggende set <strong>til</strong><br />

begrebet ’intern konsistens’ (reliabilitetsvurdering), som anvendes under den<br />

klassiske <strong>til</strong>gang, samt begrebsvaliditet - om den totale skalascore er et<br />

<strong>til</strong>fredss<strong>til</strong>lende mål <strong>for</strong> det kliniske syndrom/<strong>til</strong>stand.<br />

49<br />

Reliabilitet<br />

Spørgeskemaer<br />

Test-retest<br />

reliabilitet<br />

Interviewskalaer<br />

Inter-rater reliabilitet


Reliabilitet<br />

Reliabilitet udtrykkes ofte ved test-retest reliabilitet eller, hvor der ikke er<br />

tids<strong>for</strong>skel mellem observationerne, ved en split-half koefficient, som udtrykker<br />

korrelationen mellem den ene <strong>og</strong> den anden halvdel <strong>af</strong> items i en skala. Den<br />

hyppigst anvendte koefficient er Chronbach’s alpha koefficient. Der er imidlertid,<br />

som påpeget <strong>af</strong> Bech (2002), n<strong>og</strong>le problemer med anvendelsen <strong>af</strong> Chronbach’s<br />

alpha koefficient. Således vil en høj værdi <strong>af</strong> koefficienten kunne skyldes, at alle<br />

items er lige svære. Endvidere kan selve skalaens længde bidrage <strong>til</strong> en høj<br />

koefficient, idet antallet <strong>af</strong> items indgår i <strong>for</strong>mlen. Herud<strong>over</strong> indikerer Cronbach’s<br />

alpha ikke nødvendigvis endimensionalitet, da alpha er en funktion <strong>af</strong> item<br />

kovarians. Kovarians mellem items kan således definere mere end én faktor i en<br />

faktoranalyse<br />

Den klinimetriske analyse-<strong>til</strong>gang <strong>til</strong> vurderingen <strong>af</strong> en skalas egenskab anvender<br />

som regel den ikke-parametriske item-response-teori analyse (Mokken-analyse)<br />

eller Rasch-analyse (parametrisk item-respons analyse) (Bech, 2002). En kort<br />

beskrivelse <strong>af</strong> Mokken- <strong>og</strong> Rasch-analyse gives i <strong>af</strong>snit 1.A.<br />

Ekstern validitet<br />

Den eksterne validitet i den klinimetriske <strong>til</strong>gang kan opdeles i kriterier, der<br />

vedrører dels screeningsskalaer, dels behandlingseffekt skalaer. Kriterierne<br />

omfatter hhv. skalaernes sensitivitet <strong>og</strong> specificitet (<strong>for</strong> diagnostiske screenings<br />

skalaer), samt lydhørhed <strong>over</strong> <strong>for</strong> ændring (eng: responsiveness) <strong>og</strong> følsomhed<br />

(eng: sensitivity) (<strong>for</strong> behandlingsskalaer). En skalas lydhørhed <strong>over</strong> <strong>for</strong> en<br />

ændring refererer <strong>til</strong> dens evne <strong>til</strong> at måle ændringer i en patients symptomatol<strong>og</strong>i i<br />

en behandlingsperiode. En skalas følsomhed drejer sig om, hvorvidt en skala kan<br />

diskriminere mellem en aktiv terapi <strong>og</strong> ’placebo’. Dette kan vurderes ved en<br />

effektstørrelse, der viser størrelsen <strong>af</strong> <strong>for</strong>bedringen i en skalas score i en given<br />

behandlingstid, når en aktiv behandling sammenlignes med inaktiv behandling, <strong>og</strong><br />

kan defineres som den gennemsnitlige <strong>for</strong>skel divideret med spredningen.<br />

50


I den klassiske begrebsterminol<strong>og</strong>i eksisterer ligeledes begreberne responsiveness<br />

<strong>og</strong> sensitivity. Begreberne <strong>til</strong>hører grundlæggende set validitetsproblematikken,<br />

men da et instruments følsomhed/lydhørhed <strong>over</strong> <strong>for</strong> ændringer kan være en<br />

vanskelig egenskab <strong>af</strong> få bekræftet, <strong>og</strong> da der ikke er konsensus om, hvilken<br />

<strong>til</strong>gang, der er ’mest’ korrekt, beskrives vurderingen her<strong>af</strong> ofte separat. Én måde,<br />

hvormed man vurdere følsomheden <strong>over</strong> <strong>for</strong> ændringer, er ved gentagne<br />

anvendelser <strong>af</strong> en skala på et individ (test-retest <strong>til</strong>gang). En anden er via<br />

vurderinger <strong>af</strong> gulv/loft-effekter, samt vurdering <strong>af</strong> de anvendte svarmuligheder i<br />

<strong>for</strong>bindelse med itemsvurderingen (dikotomt ja/nej vs. fx Likertskalaer (altid -<br />

aldrig). Endelig kan selve effektstørrelsen vurderes. Følsomheden kan <strong>og</strong>så<br />

vurderes ved at sammenholde ændring i et instrument med ændring i et andet<br />

klinisk instrument. Hvis der <strong>for</strong>ekommer en ændring i det ene instrument, vil det<br />

<strong>for</strong>ventes, at der ligeledes vil kunne observeres en ændring i det andet instrument.<br />

Såfremt der ikke fremkommer en signifikant effektstørrelse, kan dette d<strong>og</strong> både<br />

<strong>til</strong>skrives en ineffektiv intervention, <strong>og</strong>/eller manglende følsomhed i instrumentet<br />

<strong>over</strong> <strong>for</strong> ændringer, eller at instrumentet ikke har kunnet anvendes i den situation,<br />

det er blevet anvendt i.<br />

1.A. Skalaers hom<strong>og</strong>enitet<br />

Det grundliggende problem med den klassiske psykometriske <strong>til</strong>gang <strong>til</strong><br />

vurderingen <strong>af</strong> en skalas interne konsistens (vurderet ved Cronbach’s alpha <strong>og</strong>/eller<br />

faktor analyse) bliver bl.a. refereret <strong>til</strong> som det ’psykosociale <strong>for</strong>skerproblem’.<br />

Problemet her er, at visse <strong>af</strong> de <strong>for</strong>skere, der udvikler nye skalaer, mangler en solid<br />

klinisk erfaring, hvor<strong>for</strong> deres fokus fæstnes på fremkomne<br />

korrelationskoefficienter, som måske nok er statistiske, men ikke nødvendigvist<br />

klinisk signifikante (Bech, 2004a).<br />

51


I <strong>for</strong>bindelse med klinisk vurdering <strong>af</strong> en patient anvendes ofte vurderingsskalaer,<br />

der vurderer en dimensions sværhedsgrad. For at kunne summere de individuelle<br />

items <strong>til</strong> en enkelt score, skal skalaen opfylde kriterierne <strong>for</strong> endimensionalitet.<br />

Dette betyder, at de individuelle skalaitems skal være rangordnet i henhold <strong>til</strong> deres<br />

relation <strong>til</strong> patientens funktionsindskrænkning, hvormed <strong>for</strong>stås, at et respons på et<br />

højere liggende item (<strong>til</strong>stedeværelsen <strong>af</strong> symptom eller tegn) vil indeholde<br />

in<strong>for</strong>mationen vedrørende respons på de lavere liggende items. Dette er i<br />

modsætning <strong>til</strong> en Likert skala, hvor scoren opnås ved at summere responsscoren<br />

<strong>for</strong> de enkelte items. De enkelte items/udsagn i en Likertskala vurderes fx ud fra<br />

graden <strong>af</strong> enighed eller uenigheden i et udsagn på et item, hvor man fx kan være<br />

meget enig, enig, neutral, uenig eller meget uenig i denne. Den specifikke respons<br />

på de enkelte items kombineres, så individer med den mindst favorable<br />

attitude/<strong>til</strong>stand vil opnå lavest score (eller højest), <strong>og</strong> individer med mest<br />

favorable attitude/<strong>til</strong>stand vil opnå højest (eller lavest) score (McIver <strong>og</strong> Carmines,<br />

1981).<br />

1.A.1. Mokken-analyse<br />

Mokken skalaanalyse (Mokken, 1982) er en hierarkisk skaleringsmetode meget lig<br />

Guttman skalering 10 . Begge teknikker antager eksistensen <strong>af</strong> en underliggende<br />

latent (ikke-observerbar) attribut, som er repræsenteret ved et sæt <strong>af</strong> items relateret<br />

her<strong>til</strong>. Den hierarkiske egenskab betyder, at items kan rangordnes efter<br />

sværhedsgraden her<strong>af</strong>, så et individ, som opnår et bestemt itemniveau, <strong>og</strong>så vil<br />

kunne opnå alle de itemsniveauer, der ligger lavere i rangordenen. Et individs<br />

skalascore er der<strong>for</strong> scoren på det højeste item, individet kan give <strong>til</strong>slutning <strong>til</strong>.<br />

Den primære <strong>for</strong>skel mellem Guttman- <strong>og</strong> Mokken skalering er, at Mokken<br />

10 http://www.blackwellpublishing.com/specialarticles/jcn_8_388.pdf<br />

52


skalering er probabilistisk 11 <strong>af</strong> natur, medens Guttman skalering er<br />

deterministisk 12 .<br />

Reproducerbarhed måles i Mokken-analysen ved Loevinger’s koefficient Hi <strong>for</strong><br />

hvert item i, <strong>og</strong> H <strong>for</strong> hele skalaen. Beregningen <strong>af</strong> Hi <strong>og</strong> H <strong>af</strong>hænger <strong>af</strong><br />

sammenligning <strong>af</strong> sandsynligheden <strong>for</strong> fejl i rangordningen <strong>over</strong> <strong>for</strong><br />

sandsynligheden <strong>for</strong>, at en sådan rangorden opstod, hvis items var urelaterede. Hi<br />

<strong>og</strong> H vil antage værdier mellem 0 <strong>og</strong> 1. En skala anses <strong>for</strong> dimensionalt svag hvis<br />

Loevinger koefficienten er mellem 0,30-0,39, acceptabel ved koefficienter mellem<br />

0,40-0,49, <strong>og</strong> stærk ved koefficienter fra 0,50 <strong>og</strong> opefter.<br />

1.A.2. Rasch-model<br />

Rasch 13 modellerne er specifikt udviklet med det <strong>for</strong>mål at kunne anvendes <strong>til</strong><br />

objektiv sammenligning <strong>af</strong> patienter, <strong>og</strong> er ligesom Mokken metoden probablistisk<br />

<strong>af</strong> natur.<br />

En grundliggende antagelse bag Rasch analyse er, at <strong>for</strong>holdet mellem et individs<br />

besvarelse på et item <strong>og</strong> den latente attribut kan beskrives ved en item<br />

karakteristisk kurve (ICC).<br />

11 Kan opfattes som uperfekte Guttman skalaer, hvor sandsynligheden <strong>for</strong> respons på et<br />

item gradvist øges med den latente attribut (fx med øget k<strong>og</strong>nitiv svækkelse) – i stedet <strong>for</strong><br />

at hoppe fra 0 <strong>til</strong> 100 %, som ved Guttman skalering (i stedet <strong>for</strong> trinfunktion er<br />

<strong>for</strong>løbsgr<strong>af</strong>en s-<strong>for</strong>met).<br />

12 Guttman skalering er deterministisk. Deterministiske modeller kan ikke tage højde <strong>for</strong><br />

målefejl (som udgangspunkt). Som følge her<strong>af</strong> vil sandsynligheden <strong>for</strong> en given respons<br />

være 0 eller 1. Probablistiske modeller <strong>til</strong>lader målefejl. Som følge her<strong>af</strong> kan<br />

sandsynligheden <strong>for</strong> respons på et item ligge et sted mellem 0 <strong>og</strong> 1 (McIver <strong>og</strong> Carmines<br />

1981).<br />

13 George Rasch (1901-1980) var en dansk statistiker, som udviklede de psykometriske<br />

metoder, der i dag går under betegnelsen item-response-teori-modeller (eller Raschmodeller).<br />

53


Figur 2A viser tre hypotetiske kurver (ICC), der viser responsen på tre<br />

spørgsmål/opgaver, i <strong>for</strong>bindelsen med vurderingen <strong>af</strong> en latent egenskab.<br />

Figur 2A. Item karakteristik kurver (ICC)<br />

Sandsynlighed<br />

100%<br />

0%<br />

Item A Item B Item C<br />

0 5 10 15 20 25 30<br />

Latente træk <br />

Kilde: Streiner <strong>og</strong> Norman, 1995.<br />

Bemærkning: Items A <strong>og</strong> B, har samme evne <strong>til</strong> at diskriminere (indikeret ved parallelle<br />

kurver) men <strong>for</strong>skellige sværhedsgrader (indikeret ved de <strong>for</strong>skellige placeringer). Item C<br />

er dårligere <strong>til</strong> at diskriminere end både A <strong>og</strong> B, da denne har en fladere hældning.<br />

Anmærkning: Indtegnet i figuren er en horisontal linje, hvor sandsynligheden er 50%.<br />

Dette betyder, at vis man t<strong>og</strong> 100 individer med samme mængde <strong>af</strong> den latente egenskab,<br />

da ville 50 <strong>af</strong> dem svare på én måde <strong>og</strong> 50 på anden måde (ved dikotome<br />

svarmuligheder).<br />

54<br />

0,5


ICC har visse fælles kendetegn<br />

• Er S-<strong>for</strong>mede<br />

• Er monotone; sandsynligheden <strong>for</strong> at score i en positiv retning øges, når<br />

scoren på den latente attribut stiger.<br />

ICC <strong>af</strong>viger fra hinanden i relation <strong>til</strong><br />

• hældningen (stejl eller flad?). Jo mere stejl hældning, jo bedre er itemet <strong>til</strong> at<br />

diskriminere. Det skyldes, at andelen <strong>af</strong> individer, der reagerer/svarer i<br />

positiv retning, ændres relativt hurtigere på en stejl kurve (fx A <strong>og</strong> B i figur<br />

A2), når værdien <strong>af</strong> det latente træk øges.<br />

• hvor på den latente træk, de er placeret<br />

• hvor de flader ud (i bunden)<br />

I Rasch modellerne antages det, at der er en lineær sammenhæng mellem<br />

patienternes funktionsevne <strong>og</strong> items/opgavers sværhedsgrad. Det betyder i<br />

realiteten, at det ikke altid er nødvendigt at håndtere alle items på alle individer,<br />

men kan nøjes med ’subtests’. Man kan nøjes med at vurdere de items, der ligger i<br />

det ’kritiske’ område – dvs. det område, hvor man er i tvivl om hvorvidt et individ<br />

fx kan besvare et spørgsmål eller ej (Streiner <strong>og</strong> Norman, 1995).<br />

1.A.2.1. Rasch-analyse<br />

En Rasch-analyse er en empirisk baseret statistisk analyse, der kræver data fra<br />

relativt mange individer (minimum 200, hvis det <strong>for</strong>ventes at items har samme<br />

evne <strong>til</strong> at diskriminere, Streiner <strong>og</strong> Norman (1995)) <strong>til</strong> udledningen <strong>af</strong> ICC. En<br />

Rasch-analyse kræver, at en score på items med lav prævalens er gået <strong>for</strong>ud <strong>af</strong> en<br />

score på items med højere prævalens. Det skyldes, at items med lav prævalens<br />

måler de mere alvorlige eller sværere grader <strong>af</strong> den dimension (latente træk), som<br />

ønskes målt, medens items med høj prævalens måler de lettere grader.<br />

55


I de <strong>til</strong>fælde hvor empiriske data ikke kan <strong>til</strong>passes Rasch modellen (dvs.<br />

enkeltbesvarelserne ikke kan ikke reduceres <strong>til</strong> en total, som dækker<br />

in<strong>for</strong>mationsindholdet i alle enkeltbesvarelserne), kan objektive mål ikke udledes<br />

fra data. Kun i de <strong>til</strong>fælde, hvor empirisk data behørigt passer en Rasch-model, kan<br />

summarisk statistisk <strong>over</strong> data (total vurderingsskalascore) anvendes <strong>til</strong> en objektiv<br />

patientsammenligning (Bech, 2004). For yderligere in<strong>for</strong>mation vedrørende Rasch-<br />

analyse <strong>til</strong> vurdering <strong>af</strong> skalas endimensionalitet henvises <strong>til</strong> Andrich (1988) eller<br />

Allerup (1987).<br />

56


Bilag 2: Ordliste 14<br />

Cronbach’s alpha: Reliabilitetsestimat, der er baseret på inter-item-<br />

korrelationsmatrixen. Anvendes ofte som mål <strong>for</strong> en skalas interne konsistens.<br />

Begrebsvalidietet (Construct validity): Hvorvidt måleresultater ved brug <strong>af</strong> et<br />

instrument er korreleret med andre variable på en teoretisk begrundet <strong>for</strong>ventet<br />

måde. Omfatter konvergent <strong>og</strong> diskriminant begrebsvaliditet, multitræk-<br />

multimetoder (multitrait-multimethod approach) samt kendt gruppe validitet<br />

(known group validity). Se disse. Se <strong>og</strong>så: validitet.<br />

Bias: Hvorvidt score på en skala er systematisk højere eller lavere end den sande<br />

score. Årsager <strong>til</strong> bias kan være systematiske responsfejl.<br />

Diskriminant begrebsvaliditet: Hvorvidt f.eks. et mål <strong>for</strong> fysisk funktionsevne<br />

korrelerer lavere med et mål <strong>for</strong> mental sundhed end med et mål <strong>for</strong> mobilitet. Se:<br />

validitet.<br />

Endimensionalitet: En vurderingsskala kan siges at være endimensional, hvis den<br />

er accepteret som sådan gennem fx en Rasch-, Mokken- eller Guttman-analyse. Se<br />

disse.<br />

Ekstern validitet: Benyttes i epidemiol<strong>og</strong>ien som udtryk <strong>for</strong> mulighederne <strong>for</strong> at<br />

generalisere måleresultater <strong>til</strong> andre personer end de, der indgik i en konkret<br />

undersøgelse. I den klinimetriske <strong>til</strong>gang opdeles ekstern validitet i kriterier, der<br />

vedrører dels screeningsskalaer, dels behandlingseffektskalaer. Kriterierne<br />

omfatter hhv. skalaernes sensitivitet <strong>og</strong> specificitet (<strong>for</strong> diagnostiske<br />

screeningsskalaer) samt lydhørhed <strong>over</strong> <strong>for</strong> ændring <strong>og</strong> følsomhed (<strong>for</strong><br />

behandlingsskalaer). Omfatter f.eks. en analyse <strong>af</strong>, hvorvidt en skala korrelerer<br />

14 Som kilder er især benyttet. Stewart (1990) samt Bech et al. (2004).<br />

57


med variable uden <strong>for</strong> skalaen (fx alder), eller kan diskriminere mellem aktiv <strong>og</strong><br />

inaktiv behandling. Se: validitet, intern validitet.<br />

Effektstørrelse: Størrelsen <strong>af</strong> <strong>for</strong>bedringen i en skalas score i en given<br />

behandlingstid, når en aktiv behandling sammenlignes med en inaktiv behandling.<br />

Vurderes ved at tage den gennemsnitlige <strong>for</strong>skel <strong>og</strong> dividere denne med<br />

spredningen.<br />

Face validity (umiddelbar validitet): Hvorvidt items i en skala <strong>for</strong>ekommer at<br />

måle det begreb, der måles. Er ikke testbar. Se: validitet.<br />

Guttman skala: Skala i hvilken items udgør en endimensional serie, således at et<br />

svar på et givent item <strong>for</strong>udsiger svaret på alle de tidligere items i serien. Det<br />

betyder, at en respondent, som har svaret positivt på et item, ligeledes må besvare<br />

et mindre vanskeligt item positivt.<br />

Intern validitet: Benyttes i epidemiol<strong>og</strong>ien som udtryk <strong>for</strong> gyldigheden <strong>af</strong> fundne<br />

måleresultater; kræver bl.a. fravær <strong>af</strong> bias i måleresultater. I den klinimetriske<br />

<strong>til</strong>gang <strong>til</strong> vurdering <strong>af</strong> skalaer benyttes begrebet som udtryk <strong>for</strong>, hvorvidt de<br />

enkelte symptomer i en skala <strong>til</strong>hører den samme kliniske dimension, således at<br />

summen <strong>af</strong> de enkelte symptomer er et sufficient eller adækvat mål <strong>for</strong> <strong>til</strong>standens<br />

sværhedsgrad. Se: validitet, ekstern validitet.<br />

Intraklasse koefficient (ICC): Et statistisk udtryk <strong>for</strong> graden <strong>af</strong> <strong>over</strong>ensstemmelse<br />

når flere observatører vurderer den samme patientgruppe (inter-rater reliabilitet).<br />

Se: reliabilitet.<br />

Indholdsvaliditet vedrørende 1) et sæt <strong>af</strong> flere mål: Hvorvidt alle vigtige aspekter<br />

<strong>af</strong> f.eks. funktionsevne eller velvære er repræsenteret i instrumentet; vedrørende 2)<br />

en enkel multi-item skala: Hvorvidt alle aspekter <strong>af</strong> definitionen <strong>af</strong> det begreb, der<br />

måles, er repræsenteret i skalaen. Under indholdsvaliditet henføres undertiden face<br />

validity (umiddelbar validitet), se face validity. Se <strong>og</strong>så: validitet.<br />

58


Inter-item korrelationer: Anvendes <strong>til</strong> vurderingen <strong>af</strong> hvilke items, der muligvis<br />

er <strong>over</strong>flødige i en skala, eller urelateret <strong>til</strong> det begreb, der undersøges. Anvendes i<br />

<strong>for</strong>bindelse med vurdering <strong>af</strong> intern konsistens. Se <strong>og</strong>så: intern konsistens.<br />

Intern konsistens (alfa koefficient): Den grad, hvori alle items i en skala måler det<br />

samme underliggende (latente) begreb, eller konvergensen <strong>af</strong> items vedrørende det<br />

begreb, der måles: koefficienten vokser, når de anvendte items bliver mere<br />

ensartede, <strong>og</strong> når antallet <strong>af</strong> items vokser. Anvendes i <strong>for</strong>bindelse med multi-item<br />

skaler. Se: reliabilitet, item-total korrelationer, inter-item korrelationer, Cronbach’s<br />

alpha.<br />

Interrater reliabilitet: Den grad, hvori en observatørs vurdering (rating) <strong>af</strong> et<br />

fænomen er konsistent med en anden observatørs vurdering. Anvendes i<br />

<strong>for</strong>bindelse med målinger, der er baseret på observatør vurderinger. Se: reliabilitet.<br />

Item-total korrelationer: Korrelation <strong>af</strong> individuelle items med skalaens<br />

totalscore. Itemet, der er under undersøgelse, udelades fra skalaen. Gøres <strong>for</strong> at<br />

undersøge om items vurderer <strong>for</strong>skellige begreber eller <strong>for</strong>skellige komponenter <strong>af</strong><br />

samme begreb. Anvendes <strong>til</strong> vurderingen en skalas interne konsistens. Se <strong>og</strong>så:<br />

Intern konsistens, reliabilitet, Cronbach’s alpha.<br />

Kendt gruppe validitet (known groups validity): Hvorvidt f.eks. en score på en<br />

mental sundhedsskala <strong>for</strong> en gruppe <strong>af</strong> patienter er lavere end <strong>for</strong> befolkningen<br />

som helhed. Se <strong>og</strong>så: begrebsvaliditet.<br />

Klinimetri: Er videnskaben om kliniske målinger. Er et medicinsk udtryk <strong>for</strong><br />

måling <strong>af</strong> kliniske symptomer, bivirkninger, sociale faktorer <strong>og</strong> livskvalitet.<br />

Vurderings<strong>instrumenter</strong>/ skalaer er klinimetriske <strong>instrumenter</strong>.<br />

Konvergent begrebsvaliditet: Hvorvidt f.eks. et mål <strong>for</strong> demensgrad korrelerer<br />

med et mål <strong>for</strong> konsekvenserne <strong>af</strong> demens. Se: validitet.<br />

59


Kriterie <strong>og</strong> kriterie-relateret validitet: Hvorvidt et mål korrelerer højt med den<br />

”gyldne standard” <strong>for</strong> måling <strong>af</strong> pågældende begreb. Omfatter kriterie-validiet,<br />

kriterie-relateret validitet <strong>og</strong> prædiktiv validitet (se disse). Se: validitet.<br />

Kriterie validitet: Hvorvidt et nyt mål på et fænomen eller <strong>til</strong>stand korrelerer med<br />

en ”gylden standard” <strong>for</strong> måling <strong>af</strong> fænomenet. Se: validitet, begrebsvaliditet.<br />

Kriterie-relateret validitet: Hvorvidt målinger ved brug <strong>af</strong> f.eks. en kort <strong>for</strong>m <strong>af</strong><br />

et instrument korrelerer højt med målinger ved brug <strong>af</strong> en valideret, længere <strong>for</strong>m<br />

<strong>af</strong> instrumentet. Se: validitet.<br />

Kumulativ skalering: Minder meget om summeret skalering, man kan kun<br />

anvendes når der er to svaralternativer <strong>for</strong> hvert spørgsmål. Som <strong>for</strong> summeret<br />

skalering (Likert skalering) er der tale om monotone items <strong>og</strong> en persons<br />

skalaværdi udregnes som antal positive svar. Et yderligere krav er, at personens<br />

svar skal danne et kumulativt mønster. Dette betyder, at hvis items ordnes efter<br />

antal positive svar, vil en person med fx 3 positive svare have svaret positivt på de<br />

tre første items <strong>og</strong> negativt på resten, jf. Guttman skalering (se dette).<br />

Likert skala: Svaret på hvert udsagn er gradueret på en vuderingsskala fra 1 <strong>til</strong> fx<br />

5, hvor 5 fx betyder, ’meget enig’ i et udsagn <strong>og</strong> 1 betyder ’meget uenig’ i et<br />

udsagn. En persons skalaværdi måles ved summen <strong>af</strong> points på alle udsagn.<br />

Mokken analyse: Er en latent strukturanalyse, der fremkommer med en<br />

koefficient <strong>for</strong> hom<strong>og</strong>enitet/endimensionalitet (Loevinger koefficient). Det er en<br />

ikke-parametrisk item-respons analyse <strong>af</strong> datas struktur, som udtrykker graden, ved<br />

hvilken en ekstra item passer ind i den struktur, der ydes <strong>af</strong> de øvrige skalaitems.<br />

Ved Mokken-analyen undersøges hypotesen om, at hver skalaitem i skalaen under<br />

observation kun reflekterer én latent parameter. En skala anses <strong>for</strong> dimensionalt<br />

svag, hvis Loevinger koefficienten er mellem 0,30-0,39, acceptabel ved<br />

koefficienter mellem 0,40-0,49, <strong>og</strong> stærk ved koefficienter fra 0,50 <strong>og</strong> opefter.<br />

60


Multitræk-multi metode (multitrait-multimethod approach) <strong>til</strong>gang <strong>til</strong><br />

begrebsvaliditet: Hvorvidt f.eks. et selvrapporteret mål <strong>for</strong> depression har en højere<br />

korrelation med en observatør-vurdering der<strong>af</strong> end med selvrapporteret ængstelse.<br />

Se: validitet, begrebsvaliditet.<br />

Proxy-respondent: Respondent, som svarer på vegne <strong>af</strong> den person, som er<br />

genstand <strong>for</strong> undersøgelse.<br />

Prædiktiv validitet: Hvorvidt det er muligt på grundlag <strong>af</strong> kendskab <strong>til</strong> værdien <strong>af</strong><br />

en variabel at <strong>for</strong>udsige værdien <strong>af</strong> en anden variabel, f.eks. hvorvidt en score på et<br />

instrument <strong>til</strong> måling <strong>af</strong> funktionsindskrænkning <strong>for</strong>udsiger brug <strong>af</strong><br />

sundhedsydelser <strong>til</strong> <strong>af</strong>hjælpning <strong>af</strong> problemet. I modsætning her<strong>til</strong> benyttes<br />

begrebet samtidig validitet (concurrent validity), se dette, om validitetsvurderinger,<br />

der er baseret på samtidige målinger. Se: validitet.<br />

Psykometri: Den videnskabsgren, der analyser en skalas reliabilitet <strong>og</strong> validitet på<br />

et statisk grundlag.<br />

Rasch: George Rasch var dansk statistiker (1901-1980), som udviklede item-<br />

reponse-teori-modellerne, der anvendes <strong>til</strong> undersøgelser <strong>af</strong> endimensionalitet. Se:<br />

Rasch-modeller.<br />

Rasch-modeller er modeller, som specifikt er udviklet med det <strong>for</strong>mål at kunne<br />

være objektive i <strong>for</strong>bindelse med patientsammenligninger. Rasch modellerne<br />

antager, at der er en lineær struktur mellem patienternes funktionsindskrænkning<br />

<strong>og</strong> item-sværhedsgraden (prævalens). En Rasch-analyse kræver således, at en score<br />

på items med lav prævalens er <strong>for</strong>udgået <strong>af</strong> en score på items med højere<br />

prævalens, idet items med lav prævalens måler de mere alvorlige eller sværere<br />

grader <strong>af</strong> dimensionen, mens items med høj prævalens måler de lettere grader.<br />

Reliabilitet: Den grad, hvormed en score er fri <strong>for</strong> <strong>til</strong>fældige fejl. Hypotetisk er det<br />

den grad, hvori samme score kan opnås igen ved brug <strong>af</strong> samme måleinstrument<br />

61


under de samme betingelser. Udtrykkes undertiden <strong>og</strong>så som konsistens,<br />

reproducerbarhed <strong>og</strong> mulighed <strong>for</strong> gentagelse. De fire mest anvendt reliabilitetsmål<br />

er: intern konsistens (alfa kofficient), test-retest, inter-rater <strong>og</strong><br />

reproducerbarhedskoefficient (se disse).<br />

Reproducerbarhedskoefficient: Den grad, hvori en persons respons på et item<br />

kan <strong>for</strong>udsiges ud fra kendskab <strong>til</strong> skala-score på en Guttman skala. Se: Guttman<br />

skala.<br />

Samtidig validietet (concurrent validitet): Vurdering <strong>af</strong> kriterie-relateret validitet,<br />

som er baseret på samtidige målinger <strong>af</strong> score på et instrument <strong>og</strong> andre variable, i<br />

modsætning <strong>til</strong> prædiktiv validitet. Se: prædiktiv validitet <strong>og</strong> validitet.<br />

Skalering: Konstruktionen <strong>af</strong> en sammensat skala (flere variable/items). Der<br />

anvendes skalering <strong>til</strong> at sammenfatte flere svar i et instrument/spørgeskema.<br />

Summeret skalering: Bygger på en type spørgsmål (monotone items) hvor<br />

<strong>til</strong>bøjeligheden <strong>til</strong> at give et positivt svar eller erklære sig enig enten stiger eller<br />

falder monotont med stigende skalaværdi. Likert skalering er eksempel på<br />

summeret skalering.<br />

Test-retest reliabilitet: Den grad, hvori gentagne anvendelser <strong>af</strong> det samme mål er<br />

konsistent, udtrykt ved korrelation <strong>af</strong> den samme måling, udført ved <strong>for</strong>skellige<br />

tidspunkter. Anvendes ved alle typer <strong>af</strong> <strong>instrumenter</strong>. Se: reliabilitet.<br />

Validitet udtrykker den grad, hvori et mål faktisk måler, hvad der ønskes, at det<br />

skal måle, <strong>og</strong> omvendt ikke måler det, som det ikke ønskes, at det skal måle.<br />

Validitet er ikke et spørgsmål om enten eller, men om grad. Validitetsbegrebet<br />

knytter sig ikke <strong>til</strong> et instrument alene (det giver ikke mening alene at sige, at et<br />

instrument er validt), men det knytter sig <strong>og</strong>så <strong>til</strong>, om det er gyldigt <strong>for</strong> et specifikt<br />

<strong>for</strong>mål <strong>og</strong> ved brug <strong>over</strong> <strong>for</strong> en specifik befolkningsgruppe. F.eks. kan et<br />

instrument <strong>til</strong> måling <strong>af</strong> depression i den ældre befolkning være et gyldigt udtryk<br />

62


<strong>for</strong> depression deri, men ikke nødvendigvis <strong>for</strong> depression hos demente. At et<br />

instrument er ”valideret”, er ikke et <strong>til</strong>strækkeligt grundlag at vælge instrument på;<br />

dels kræves der oplysning om <strong>for</strong>mål <strong>og</strong> befolkningsgruppe, dels kræves der<br />

oplysninger om resultatet <strong>af</strong> valideringsarbejdet. Der benyttes <strong>for</strong>skellige typer <strong>af</strong><br />

validitetsmål: indholdsvaliditet, kriterievaliditet, begrebsvaliditet samt studier <strong>af</strong><br />

bias (se disse). Se <strong>og</strong>så ekstern <strong>og</strong> intern validitet.<br />

VAS: Visuel Anal<strong>og</strong> Scala (VAS) er betegnelsen <strong>for</strong> en ret linje, hvor de to<br />

yderpunkter repræsenterer hhv. den bedst <strong>og</strong> den værst tænkelige <strong>til</strong>stand. Her<br />

anmodes respondenten om at markere sin aktuelle <strong>til</strong>stand med et kryds på linjen<br />

mellem de to yderpunkter.<br />

63

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!