29.08.2013 Views

Analys och presentation av fysikexperiment - Fysikum

Analys och presentation av fysikexperiment - Fysikum

Analys och presentation av fysikexperiment - Fysikum

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Analys</strong> <strong>och</strong> <strong>presentation</strong> <strong>av</strong><br />

<strong>fysikexperiment</strong><br />

K.Hultqvist, 9/3 2008


Inneh˚allsförteckning<br />

1 Inledning 7<br />

2 Att skriva fysik 9<br />

2.1 Inledning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />

2.2 Disposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

2.3 Logik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

2.4 Storheter <strong>och</strong> enheter . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

2.4.1 Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

2.4.2 Mätetal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

2.4.3 Beräkningar . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

2.4.4 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14<br />

2.5 Ekvationer <strong>och</strong> formler . . . . . . . . . . . . . . . . . . . . . . . 14<br />

2.5.1 Stil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

2.5.2 Storheter <strong>och</strong> enheter i formler . . . . . . . . . . . . . . . 16<br />

2.5.3 Variabelnamn, multiplikation <strong>och</strong> datorspr˚ak . . . . . . . 17<br />

2.6 Figurer <strong>och</strong> tabeller . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

2.7 Fel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

2.8 Sammanfattning . . . . . . . . . . . . . . . . . . . . . . . . . . . 24<br />

3 Mätningar <strong>och</strong> fel 25<br />

3.1 Felfortplantning . . . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

3.2 Felfortplantningsformeln . . . . . . . . . . . . . . . . . . . . . . 31<br />

3.3 Relativa fel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />

3.4 Systematiska <strong>och</strong> statistiska fel . . . . . . . . . . . . . . . . . . . 34<br />

4 Sannolikheter <strong>och</strong> statistik 37<br />

4.1 Sannolikhetsfördelningar . . . . . . . . . . . . . . . . . . . . . . 37<br />

4.2 Medelvärde <strong>och</strong> standard<strong>av</strong>vikelse . . . . . . . . . . . . . . . . . 40<br />

4.3 N˚agra sannolikhetsfördelningar . . . . . . . . . . . . . . . . . . . 42<br />

4.4 Statistisk feluppskattning <strong>och</strong> felpropagering . . . . . . . . . . . 46<br />

4.5 Att kombinera mätresultat . . . . . . . . . . . . . . . . . . . . . 50<br />

4.6 Normalfördelningen <strong>och</strong> centrala gränsvärdessatsen . . . . . . . . 53<br />

5 Att uppskatta fel 57<br />

3


4<br />

6 Parameteranpassningar 59<br />

6.1 Maximum Likelihood-principen . . . . . . . . . . . . . . . . . . . 59<br />

6.2 Minsta kvadratmetoden . . . . . . . . . . . . . . . . . . . . . . . 62<br />

6.2.1 Funktionsanpassningar med minsta kvadratmetoden . . . 65<br />

6.2.2 Residualer <strong>och</strong> pulls . . . . . . . . . . . . . . . . . . . . . 68<br />

6.2.3 Ekvivalenta fel . . . . . . . . . . . . . . . . . . . . . . . . 72<br />

6.2.4 Oviktade minsta kvadratanpassningar . . . . . . . . . . . 73<br />

7 Histogram <strong>och</strong> poissonfördelade variabler 75<br />

7.1 Multinomial- <strong>och</strong> poissonfördelningarna . . . . . . . . . . . . . . 75<br />

7.2 Histogram med felstaplar . . . . . . . . . . . . . . . . . . . . . . 79<br />

8 Kovarians <strong>och</strong> korrelation 83<br />

9 Konfidensintervall <strong>och</strong> Hypotestest 89<br />

9.1 Hypotestest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93<br />

9.2 Korrelationstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96<br />

9.3 Chikvadrattest . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98


Förord<br />

Grundidén för kursen i experimentella metoder vid <strong>Fysikum</strong> är att ge övning<br />

i att planera <strong>och</strong> genomföra mätningar <strong>och</strong> analysera dem för att bestämma<br />

fysikaliska storheter, samt att presentera resultaten. Den best˚ar därför till största<br />

delen <strong>av</strong> laborationer, analys <strong>av</strong> insamlade data <strong>och</strong> arbete med redovisningar<br />

(skriftliga eller muntliga).<br />

Föreläsningarna är tänkta som ett stöd för den experimentella delen <strong>och</strong><br />

skall ge den kunskap <strong>och</strong> först˚aelse som krävs för att genomföra beräkningar <strong>och</strong><br />

redovisa resultaten kor-rekt. Detta innefattar en diskussion <strong>av</strong> grundläggande<br />

statistik med inom fysiken vanliga tillämpningar. Dessutom ges en bakgrund<br />

om fysiken som experimentell vetenskap.<br />

Detta kompendium utgör en grund för föreläsningarna v˚arterminen 2010,<br />

framför allt vad gäller felkalkyl <strong>och</strong> statistiska metoder.<br />

5


Kapitel 1<br />

Inledning<br />

Fysiken är den mest grundläggande naturvetenskapen, <strong>och</strong> den har ofta f˚att st˚a<br />

modell för vad vetenskap är. När sanningsanspr˚ak inom samhällsvetenskap eller<br />

humaniora diskuteras sägs ofta att ”det här är inte fysik”. Med detta menar man<br />

att man inte kan förvänta sig s˚a tydliga <strong>och</strong> exakta samband som inom fysiken.<br />

Att fysiken räknas som en exakt vetenskap beror p˚a att naturen mirakulöst nog<br />

visat sig bete sig väldigt exakt i m˚anga sammanhang.<br />

Fysik är allts˚a en empirisk vetenskap. Med detta menas att den är baserad<br />

p˚a observationer <strong>av</strong> hur det faktiskt förh˚aller sig, snarare än resonemang om hur<br />

det borde vara. Även den mest eleganta teoribyggnad m˚aste överges (eller byggas<br />

om) om den leder till konsekvenser som strider mot fakta. Thomas Huxley, en<br />

brittisk biolog samtida med Darwin, beskrev det som ”That great tragedy of<br />

Science – the slaying of a beautiful hypothesis by an ugly fact”. Det är n˚agot<br />

<strong>av</strong> ett mysterium att man inom fysiken lyckats beskriva s˚a m˚anga ”fula” fakta<br />

om naturen p˚a ett s˚a enhetligt <strong>och</strong> elegant sätt.<br />

MyckEt <strong>av</strong> det som idag studeras inom fysiken var under den större delen<br />

<strong>av</strong> v˚ar historia s˚adant som hörde till filosofins eller religionens domäner.<br />

P˚ast˚aenden om världen baserades p˚a myter, religiösa berättelser, eller metafysiska<br />

resonemang. När flera <strong>av</strong> dessa p˚ast˚aenden visade sig vara felaktiga blev<br />

det uppenbart att det var en god idé att göra mätningar <strong>och</strong> använda resultaten<br />

för att beskriva världen. Detta kan tyckas självklart, men man skall komma ih˚ag<br />

att de mätmetoder som fanns inte var särskilt noggranna. Nya rön g<strong>av</strong> bättre<br />

mätinstrument, vilka i sin tur ledde till nya upptäckter.<br />

Denna ”vetenskapliga revolution” började runt ˚ar 1600 med Copernicus <strong>och</strong><br />

Galileo <strong>och</strong> har fullständigt förändrat v˚ar syn p˚a världen <strong>och</strong> universum. Framstegen<br />

inom naturvetenskapen sedan antiken är otvetydiga <strong>och</strong> närmast obegripligt<br />

stora. Detta gäller inte m˚anga, om ens n˚agra, andra aspekter p˚a v˚art<br />

liv här p˚a jorden.<br />

L˚at oss för ett ögonblick ta ett steg tillbaka <strong>och</strong> ställa den största <strong>av</strong> alla<br />

fr˚agor: ”Vad finns?” Det är en filosofisk (ontologisk) fr˚aga. Descartes skrev ”Jag<br />

tänker, allts˚a är jag”. Jag är säker p˚a att jag tänker <strong>och</strong> förnimmer saker. Sinnesintrycken<br />

finns där även om vi inte kan säga med absolut säkerhet vad som<br />

ger upphov till dem. Fr˚agan om vad som existerar bortom det enskilda medvetandet<br />

är omöjlig att besvara, annat än möjligen genom mystiska upplevelser<br />

(som m˚aste vara självupplevda). De flesta funderar inte s˚a mycket p˚a detta<br />

utan antar helt enkelt att det finns en objektiv verklighet <strong>och</strong> att vi kan vinna<br />

7


8 KAPITEL 1. INLEDNING<br />

kunskap om den genom att observera den.<br />

Detta är det enda antagande som fungerar i det dagliga livet, <strong>och</strong> det leder<br />

ocks˚a direkt till den empiriska vetenskapen: Vi observerar verkligheten <strong>och</strong><br />

beskriver v˚ara observationer p˚a ett s˚a enkelt sätt som möjligt. Den ”naturvetenskapliga<br />

metoden” är mycket naturlig!<br />

Skillnaden mellan den naturvetenskapliga metoden <strong>och</strong> v˚art sätt att hantera<br />

fakta om världen i v˚art dagliga liv ligger framför allt i att vetenskap är en kollektiv<br />

verksamhet. Det gäller att samla in data <strong>och</strong> beskriva dem s˚a att andra kan<br />

först˚a exakt vad de beskriver, ocks˚a l˚angt efter˚at. Det gäller att förfina andras<br />

instrument <strong>och</strong> mäta saker som intresserar andra. Det gäller att formulera sina<br />

hypoteser s˚a att de kan testas <strong>av</strong> andra. Dessutom är experiment inom fysiken<br />

numera oftast stora projekt med m˚anga deltagande fysiker (ibland flera tusen).<br />

I korthet ser den naturvetenskapliga metoden ut s˚a här:<br />

1: Nya experimentella observationer görs. Resultaten kan inte förklaras <strong>av</strong><br />

existerande modeller eller teorier.<br />

2: Nya teorier läggs fram. De m˚aste stämma överens med alla data, inte bara<br />

de nya.<br />

3: Fenomen <strong>och</strong> samband som dyker upp i teorierna identifieras.<br />

4: Experiment designas <strong>och</strong> genomförs för att <strong>av</strong>göra om förutsägelserna<br />

stämmer.<br />

5: De teorier som ger felaktiga förutsägelser förkastas. D˚a ingen ˚aterst˚ar är<br />

vi tillbaka vid punkt 1. Om n˚agon teori överlever f˚ar vi g˚a tillbaka till 3<br />

eller 4.<br />

Lägg märke till att vi aldrig kommer att n˚a fram till en slutgiltig teori s˚a länge<br />

vi följer detta schema.<br />

En teori som inte ger n˚agra förutsägelser som kan testas kan aldrig förkastas.<br />

Ett viktigt kriterium, som uppställdes <strong>av</strong> Karl Popper, är därför att teorin skall<br />

vara falsifierbar, ˚atminstone i princip. Det räcker inte med att man listar alla<br />

mätresultat eller kommer med p˚ast˚aenden om skeenden som inte p˚<strong>av</strong>erkar vad<br />

vi kan observera. ˚A andra sidan är det inte alltid klart om en teori kommer att<br />

kunna testas inom rimlig tid, eller om den kommer att kunna utvecklas till en<br />

testbar teori. I allmänhet är dock en teori som kan ges en kompakt formulering<br />

byggd p˚a enkla principer mer kraftfull när det gäller att göra nya förutsägelser<br />

än en med m˚anga parametrar som kan ges olika värden.<br />

I praktiken är processen inte heller s˚a välordnad som ovanst˚aende schema<br />

kan ge intryck <strong>av</strong>. Det kan ta l˚ang tid att utföra beräkningar <strong>och</strong> först˚a konsekvenserna<br />

för vissa teorier, <strong>och</strong> att experiment är under uppbyggnad hindrar<br />

först˚as inte utvecklingen <strong>av</strong> nya teorier. Teoribygget kan ocks˚a ske p˚a olika plan,<br />

där fenomenologiska modeller med m˚anga parametrar kan f˚as att beskriva en<br />

del data mycket väl medan teorier byggda p˚a fundamentala antaganden ännu<br />

inte gör det.<br />

Ämnet här är emellertid inte teori utan experiment. Detta kompendium<br />

beskriver hur man analyserar mätdata <strong>och</strong> presenterar dem i en skriftlig rapport.<br />

Kapitel 2 behandlar rapportskrivning, medan de följande kapitlen beskriver<br />

databehandlingen.


Kapitel 2<br />

Att skriva fysik<br />

2.1 Inledning<br />

Observationer <strong>och</strong> experiment är en <strong>av</strong> tv˚a grundpelare inom fysiken. Den andra<br />

är logisk-matematiska resonemang. Genom s˚adana resonemang har man lyckats<br />

knyta ihop företeelser som i förstone framst˚att som helt orelaterade (som Newtons<br />

äpple <strong>och</strong> planetrörelsen eller magnetism <strong>och</strong> elektricitet). Det har ocks˚a<br />

visat sig att den matematiska formuleringen ofta ger en mycket exakt beskrivning<br />

<strong>av</strong> vad som kommer att hända i olika situationer. Kan man förutsäga vad<br />

som kommer att ske när ett nytt försök görs första g˚angen är det ett mycket<br />

starkt argument för att teorin har ˚atminstone ett visst m˚att <strong>av</strong> sanning. De<br />

delar <strong>av</strong> modern fysik som kan kallas ”etablerade” har st˚att pall för en stor<br />

mängd s˚adana prov <strong>och</strong> representerar en imponerande mängd ”sann kunskap”<br />

om naturen.<br />

För att kommunicera sina resultat, vare sig det gäller teoretiska resonemang<br />

eller resultatet <strong>av</strong> en mätning, m˚aste man använda sig <strong>av</strong> ett spr˚ak. Fysikens<br />

spr˚ak är en kombination <strong>av</strong> ”vanligt” spr˚ak <strong>och</strong> matematiska uttryck <strong>och</strong> diagram.<br />

Matematisk statistik <strong>och</strong> sannolikhetslära spelar ocks˚a en central roll.<br />

Spr˚aket är oftast lite mindre formellt än matematikens, men betydligt mer<br />

formellt än vardaglig svenska (eller engelska, vilket är vanligare). Att skriva<br />

formellt korrekt är nödvändigt. Vill man kommunicera en exakt tanke m˚aste<br />

man ha ett exakt spr˚ak. Kan man inte uttrycka det man vill säga exakt, har<br />

man oftast inte först˚att vad det är man vill säga.<br />

Samtidigt är det inte säkert att läsaren först˚ar vad idéer <strong>och</strong> tankar säger<br />

om verkligheten, bara för att de uttrycks med ett precist <strong>och</strong> minimalt matematiskt<br />

spr˚ak. Exempel, paralleller <strong>och</strong> diskussioner är bra för att hjälpa läsaren<br />

först˚a, men man bör först˚as klargöra hur de är relaterade till det grundläggande<br />

resonemanget.<br />

Det finns ett antal konventioner för hur man skriver matematiska uttryck,<br />

<strong>och</strong> hur man strukturerar en framställning. Ocks˚a dessa kan i en vidare mening<br />

sägas vara en del <strong>av</strong> fysikens spr˚ak. Vissa <strong>av</strong> dem är mer allmänt utbredda än<br />

andra, <strong>och</strong> vissa förekommer i flera varianter.<br />

Syftet med en skriven framställning är först˚as alltid att kommunicera n˚agot.<br />

Man kan välja att medvetet bryta mot en spr˚aklig regel för att ˚astadkomma en<br />

viss effekt. James Joyce skrev ett helt kapitel i ”Ulysses” utan skiljetecken, <strong>och</strong><br />

9


10 KAPITEL 2. ATT SKRIVA FYSIK<br />

Heidenstams ”jag längtar stenarna där barn jag lekt” är grammatiskt nonsens.<br />

Ocks˚a när det gäller att skriva fysik kan man välja att bryta mot regler om<br />

det p˚a ett effektivare sätt kommunicerar det man vill ha sagt. Man behöver<br />

inte nödvändigtvis vara p˚a en niv˚a motsvarande Joyce eller Heidenstam för att<br />

till˚ata sig att bryta mot en eller annan regel när man skriver fysik, men man<br />

bör vara medveten om att man är okonventionell. Anledningen bör i första hand<br />

vara att underlätta för läsaren, men ibland kan det ocks˚a vara besvärligt <strong>och</strong><br />

tidskrävande att f˚a de program man använder att ˚astadkomma precis det man<br />

vill (det kan man i s˚a fall inte veta förrän man har försökt). Ju mer man skriver<br />

desto viktigare blir det naturligtvis att det skrivna är lättolkat.<br />

För den som övar p˚a att skriva fysik är det en god idé att i möjligaste m˚an<br />

försöka följa de regler <strong>och</strong> konventioner som finns, <strong>och</strong> som är <strong>av</strong>sedda att ge en<br />

s˚a tydlig kommunikation som möjligt.<br />

De följande <strong>av</strong>snitten ger en sammanfattning <strong>av</strong> regler <strong>och</strong> konventioner<br />

för hur man skriver fysik. Avsnitt 2.2 ger n˚agra allmänna riktlinjer för hur<br />

man disponerar en rapport, <strong>av</strong>snitt 2.3 beskriver hur man hanterar den logiska<br />

strukturen i ett resonemang. Storheter <strong>och</strong> enheter diskuteras i <strong>av</strong>snitt 2.4 <strong>och</strong><br />

ekvationer <strong>och</strong> formler i <strong>av</strong>snitt 2.5. Tabeller <strong>och</strong> figurer diskuteras i <strong>av</strong>snitt 2.6.<br />

Avsnitt 2.7, slutligen, gäller <strong>presentation</strong> <strong>av</strong> mätosäkerheter.<br />

2.2 Disposition<br />

I en skriflig rapport är det vanligt att man har ett försättsblad med titel <strong>och</strong><br />

författare <strong>och</strong> n˚agon information om vilken typ <strong>av</strong> rapport det rör sig om. Dessutom<br />

brukar försättsbladet inneh˚alla ett abstract som ger en mycket kortfattad<br />

beskrivning <strong>av</strong> inneh˚allet. Är rapporten omfattande kan det vara lämpligt att<br />

inleda med en inneh˚allsförteckning. I annat fall är det änd˚a ofta lämpligt att<br />

nämna vad de olika <strong>av</strong>snitten inneh˚aller i slutet <strong>av</strong> inledningen.<br />

Om man skriver en rapport bör man först göra klart för sig hur man vill<br />

disponera den. Ju mer material som presenteras desto viktigare blir dispositionen.<br />

För att hjälpa läsaren att hitta är det lämpligt att använda numrerade<br />

<strong>av</strong>snitt. Det kan ocks˚a vara lämpligt att införa numrerade underrubriker (som<br />

t.ex. <strong>av</strong>snitt 2.4.1). Det är viktigt att alla rubriker som är p˚a samma niv˚a är<br />

utformade p˚a samma sätt. Annars blir strukturen inte tydlig för läsaren.<br />

Hur man delar upp materialet i <strong>av</strong>snitt beror först˚as p˚a vad man beskriver,<br />

men det är naturligt att börja med en inledning som ger lite bakgrund <strong>och</strong><br />

förklarar varför rapporten skrivits <strong>och</strong> vad den behandlar. Man bör ocks˚a nämna<br />

de grundläggande principerna <strong>och</strong> förbereda läsaren för vad som komma skall.<br />

Det kan t.ex. finnas anledning att berätta om n˚agot utelämnats s˚a att läsaren<br />

inte letar förgäves efter det.<br />

Gäller det en <strong>presentation</strong> <strong>av</strong> ett experimentellt arbete är det naturligt att<br />

först beskriva teorin som ligger bakom, sedan diskutera den apparatur som<br />

används, mätningarnas utförande, analysen <strong>av</strong> data, <strong>och</strong> tolkningen <strong>av</strong> resultaten.<br />

Hur dessa olika moment grupperas i <strong>av</strong>snitt eller under<strong>av</strong>snitt beror p˚a<br />

rapportens omfattning <strong>och</strong> är delvis en smaksak. Huvudprincipen är att underlätta<br />

för läsaren att hitta i rapporten.<br />

För en vetenskaplig rapport (men inte nödvändigtvis för laborationsrapporter)<br />

är det viktigt att citera andra arbeten s˚a att läsaren kan g˚a tillbaka <strong>och</strong><br />

först˚a bakgrunden. Det kan gälla allmänna diskussioner, antaganden, metoder,


2.3. LOGIK 11<br />

eller värden som använts. I den löpande texten anger man d˚a hänvisningar till<br />

referenslistan, som placeras sist i rapporten.<br />

2.3 Logik<br />

Ett grundkr<strong>av</strong> är att resonemanget är logiskt sammanhängande. Alla p˚ast˚aenden,<br />

som inte är uppenbart sanna, bör motiveras genom att man refererar till kända<br />

fakta, andra arbeten, eller egna observationer. De kan ocks˚a motiveras indirekt<br />

genom slutledningar baserade p˚a fakta.<br />

Vad menar man d˚a med ett p˚ast˚aende? Det kan först˚as vara en s˚adan sak<br />

som att man säger att experimentet utfördes p˚a en viss plats, eller att man<br />

använde ett st˚alm˚attband för mätningen. Gäller det platsen, <strong>och</strong> den valts p˚a<br />

särskilt sätt för att vara lämplig, är det bra att tala om hur <strong>och</strong> varför. Är<br />

platsen helt betydelselös is sammanhanget behöver man inte nämna den alls.<br />

Men ett p˚ast˚aende kan ocks˚a vara ett uttryck <strong>av</strong> typen ”x = a − b”. I detta<br />

fall är det likhetstecknet som gör att det rör sig om en utsaga. Vi p˚ast˚ar att ”x<br />

är lika med a − b”. Vi kan skriva om v˚art uttryck som b = a − x, vilket betyder<br />

att vi gör ett nytt p˚ast˚aende som logisk-matematiskt följer <strong>av</strong> det första. Denna<br />

enkla slutledning kan vi skriva som<br />

x = a − b ⇒ b = a − x<br />

Symbolen ”⇒” är en implikationspil som betyder att det andra p˚ast˚aendet följer<br />

logiskt <strong>av</strong> det första. Raden ovan är allts˚a ett utsaga om utsagor som betyder<br />

”b = a − x följer logiskt <strong>av</strong> att x = a − b” eller ”om x = a − b s˚a s˚a gäller<br />

b = a − x”. Den säger inte att b = a − x, bara att detta gäller om x = a − b.<br />

När det gäller en diskussion om fysik är vi oftast intresserade <strong>av</strong> vad som följer<br />

<strong>av</strong> sanna p˚ast˚aenden. Vi kan säga ”x = a − b, <strong>och</strong> x = a − b ⇒ b = a − x, allts˚a<br />

är b = a − x”.<br />

Uppenbarligen gäller ocks˚a att om b = a −x s˚a är x = a −b, s˚a vi kan vända<br />

p˚a implikationspilen:<br />

x = a − b ⇐ b = a − x<br />

När implikationen som här g˚ar ˚at b˚ada h˚allen är den en ekvivalens: ”x = a − b<br />

om <strong>och</strong> endast om b = a − x”. Detta skrivs som<br />

x = a − b ⇔ b = a − x<br />

Ett förv˚anande vanligt missförst˚and verkar vara att ”⇔” eller ”⇒” betecknar<br />

matematisk likhet <strong>och</strong> man skriver felaktigt<br />

R 2 − 1<br />

4 ⇔<br />

<br />

R + 1<br />

<br />

R −<br />

2<br />

1<br />

<br />

2<br />

eller kanske R2 − 1<br />

4<br />

1 1<br />

⇒ (R + 2 )(R − 2 ). Detta är fullständigt fel, för de tv˚a<br />

matematiska uttrycken representerar inga utsagor (p˚ast˚aenden). För att de skall<br />

göra det m˚aste de inneh˚alla t.ex. ett likhetstecken eller olikhetstecken.<br />

Implikationer <strong>och</strong> ekvivalenser är begrepp inom satslogiken som bl.a. ocks˚a<br />

inneh˚aller symboler för <strong>och</strong> (∧) <strong>och</strong> eller (∨), samt för negation (¬). 1 Det finns<br />

1 Om p <strong>och</strong> q är tv˚a p˚ast˚aenden är p ∧ q sant om <strong>och</strong> endast om b˚ade p <strong>och</strong> q är sanna.


12 KAPITEL 2. ATT SKRIVA FYSIK<br />

först˚as en mängd ytterligare symboler som används i matematisk text. Tv˚a<br />

s˚adana symboler är ∴ (därför) <strong>och</strong> ∵ (eftersom). Den förra betecknar samma<br />

(”vanliga”) implikation som ”⇒” medan den senare, liksom ”⇐”, betecknar<br />

”bakvänd” implikation.<br />

Det g˚ar att undvika logiska symboler när man skriver fysik, men skall man<br />

använda dem skall man först˚as göra det p˚a rätt sätt! Annars förvirrar de bara.<br />

Och även om man kan klara sig utan logiska symboler klarar man sig inte utan<br />

logik! Det g˚ar inte att skriva att när x = 4ξ, y = 3 <strong>och</strong> z 2 = x 2 + y 2 f˚ar vi<br />

x 2 + 9<br />

16ξ 2 + 9<br />

<strong>och</strong> allts˚a z = ± 16ξ 2 + 9. De tv˚a raderna ovan är inga utsagor om n˚agonting,<br />

speciellt inte om z 2 .<br />

2.4 Storheter <strong>och</strong> enheter<br />

Fysiken baseras p˚a mätningar <strong>av</strong> olika storheter i den observerbara verkligheten.<br />

Det kan t.ex. gälla en längd, en tid eller en massa. En god först˚aelse <strong>av</strong> hur man<br />

behandlar storheter <strong>och</strong> enheter korrekt är ofta till stor hjälp för att först˚a<br />

fysiken. Utan s˚adan först˚aelse gör man lätt misstag som leder till nonsensresultat.<br />

”Dimensionsfel” är allvarliga.<br />

2.4.1 Dimension<br />

I det här sammanhanget är begreppet dimension bara löst kopplat till vad man<br />

menar när man talar om rummets tre dimensioner. Man säger att tv˚a olika<br />

storheter har samma dimension om man kan jämföra dem med varandra <strong>och</strong><br />

säga att den ena är större än den andra. Vi kan t.ex. säga att massan hos ett<br />

kylsk˚ap är större än massan hos en korv. Däremot kan vi inte säga att kylsk˚apets<br />

massa är större än korvens längd. Dessa b˚ada storheter (massa respektive längd)<br />

har olika dimension. Storheter <strong>av</strong> en viss dimension är (i princip) mätbara om<br />

det g˚ar att göra kvantitativa jämförelser <strong>och</strong> säga hur stor en är relativt en<br />

annan. Kanske kylsk˚apets massa är 200 g˚anger s˚a stor som korvens, till exempel.<br />

Betecknar vi kylsk˚apets massa med M <strong>och</strong> korvens med Mkorv kan vi d˚a skriva<br />

eller<br />

M = 200Mkorv<br />

M<br />

Mkorv<br />

= 200<br />

Kvoten mellan tv˚a mätbara storheter <strong>av</strong> samma dimension är allts˚a ett vanligt<br />

(dimensionslöst) tal.<br />

p ∨ q är falskt om p eller q b˚ada är falska, annars sant. Negationen <strong>av</strong> p, icke-p, skrivs ¬p <strong>och</strong><br />

är sann om p är falsk <strong>och</strong> falsk om p är sann. Utsagan<br />

(p ⇒ q) ⇔ ¬(p ∧ ¬q)<br />

är allts˚a sann, <strong>och</strong> kan sägas vara en definition <strong>av</strong> begreppet implikation. Inom fysiken används<br />

ofta ”vanligt spr˚ak” istället för dessa logiska symboler, även om de förekommer.


2.4. STORHETER OCH ENHETER 13<br />

2.4.2 Mätetal<br />

Att mäta en storhet innebär att man jämför den med en ”standardstorhet” <strong>av</strong><br />

samma dimension, en enhet. Om vi t.ex. vill mäta massan hos kylsk˚apet jämför<br />

vi den med massan hos kilogram-prototypen i Paris. Mätetalet för kylsk˚apets<br />

massa är<br />

M(kg) = M<br />

Mkg<br />

Här är M(kg) mätetalet, M kylsk˚apets massa <strong>och</strong> Mkg massan hos kilogramprototypen.<br />

Men massan hos kilogram-prototypen är ju per definition ett kg, s˚a<br />

v˚art mätetal blir<br />

M(kg) = M<br />

kg<br />

Vi har allts˚a att<br />

t.ex.<br />

storhet = mätetal · enhet<br />

M = 87 kg<br />

Ett vanligt fel är att blanda ihop storheten med mätetalet, men distinktionen<br />

är viktig. I detta exempel är storheten M en massa som kan uttryckas i olika<br />

enheter, medan mätetalet beror p˚a val <strong>av</strong> enhet. Normalt arbetar man med<br />

storheter <strong>och</strong> använder ingen speciell symbol för mätetalet.<br />

Lägg märke till att mätetalet, namnet till trots, är definierat ocks˚a för<br />

storheter som inte mätts direkt utan beräknats fr˚an andra storheter. Om vi<br />

t.ex. gör ett försök att beräkna hur l˚ang tid det kommer att ta innan jordens<br />

oljereserver börjar sina blir resultatet kanske 10 ˚ar. Det är i s˚a fall ett kontroversiellt<br />

resultat <strong>och</strong> knappast en mätning. Änd˚a är ”10 ˚ar”, liksom alla andra<br />

tidsintervall vi kan välja att diskutera i olika sammanhang, en produkt <strong>av</strong> ett<br />

mätetal (10) <strong>och</strong> en enhet (˚ar). Ett mer närliggande exempel är ett tentamenstal<br />

<strong>av</strong> typen ”Hur stor skall massan M vara för att systemet skall befinna sig<br />

i jämvikt?”. Svaret, ”M = 14kg” är en produkt <strong>av</strong> mätetal <strong>och</strong> enhet.<br />

2.4.3 Beräkningar<br />

Storheter med samma dimension kan adderas <strong>och</strong> subtraheras, men det kan<br />

inte storheter med olika dimension. En subtraktion, t.ex. ger ju ett positivt eller<br />

negativt resultat beroende p˚a vilken <strong>av</strong> tv˚a storheter som är störst, <strong>och</strong> kan vi<br />

säga vilken som är störst har de ju samma dimension. Däremot g˚ar det förs˚as<br />

bra att multiplicera eller dividera storheter <strong>av</strong> olika dimension. En hastighet,<br />

t.ex., är ju en kvot mellan en sträcka <strong>och</strong> en tid.<br />

Man kan ersätta storheterna med mätetal i en beräkning s˚a länge man h˚aller<br />

sig till ett <strong>och</strong> samma enhetssystem. Slutresultatet blir i s˚a fall ett mätetal. Det<br />

m˚aste multipliceras med den enhet som i det valda systemet svarar mot dess<br />

dimension. Men man bör s˚a l˚angt det är praktiskt möjligt räkna med storheter<br />

istället för mätetal. Det hjälper läsaren att se att allting stämmer, <strong>och</strong> det kan<br />

vara till stor hjälp när det gäller att kontrollera utförda räkningar. Vill vi t.ex.<br />

behandla en svängande pendel bör vi säga att ”pendelns längd är L” <strong>och</strong> inte<br />

”pendelns längd är L m” <strong>och</strong> inte heller ”pendelns längd är L (m)”.<br />

Antag, som ett ytterligare exempel, att vi vill använda formeln s = vt för<br />

att bestämma hur l˚ang en vägsträcka är genom att mäta den tid t det tar en


14 KAPITEL 2. ATT SKRIVA FYSIK<br />

förbipasserande bil att med farten v köra sträckan i fr˚aga. Vi bestämmer v<br />

genom att mäta upp den tid, ∆t, det tar för bilen att passera en kort sträcka<br />

∆s där vi st˚ar. Vi f˚ar d˚a<br />

v = ∆s<br />

∆t<br />

Om ∆s = 10m <strong>och</strong> ∆t = 0,5s blir v = 20m/s. Ersätter v med 20 kan vi skriva<br />

den sökta sträckan som<br />

s = 20 t (2.1)<br />

Men detta är fel! Uttrycket innebär att s <strong>och</strong> t har samma dimension, vilket<br />

inte är sant. Vi har utan att blinka bytt mening p˚a symbolerna, <strong>och</strong> s <strong>och</strong> t är<br />

nu mätetalen i v˚art valda enhetssystem, inte storheterna själva. Istället borde<br />

vi skriva t.ex.<br />

s = ∆s<br />

t (2.2)<br />

∆t<br />

<strong>och</strong> sedan sätta in värden p˚a alla v˚ara storheter. Om den uppmätta tiden är<br />

t = 45s f˚ar vi t.ex.<br />

s = 10<br />

· 45 m = 900 m<br />

0,5<br />

Ekvation 2.1 kan inte användas för att kontrollera att enheterna stämmer, men<br />

det kan ekvation 2.2. Om vi t.ex. hade r˚akat beräkna v felaktigt som v = ∆t<br />

∆s s˚a<br />

hade vi bara f˚att en annan siffra istället för 20 i ekvation 2.1, men i ekvation 2.2<br />

hade enheten för högerledet blivit s 2 /m vilket inte stämmer med vänsterledet. I<br />

mer komplicerade beräkningar är det ovärderligt att kunna kontrollera att resultatet<br />

är dimensionsmässigt korrekt. Man bör därför alltid räkna med storheter<br />

med dimension s˚a l˚angt det är praktiskt möjligt.<br />

2.4.4 Notation<br />

För att beteckna dimensionen <strong>av</strong> en storhet används ibland hakparentes. T.ex.<br />

beteckar [M] dimensionen hos kylsk˚apets massa <strong>och</strong> [g] dimensionen hos tyngdaccelerationen.<br />

För att beteckna dimensionen massa använder man ofta samma<br />

beteckning som för enheten för massa, kg, <strong>och</strong> motsvarande för andra storheter.<br />

Man skriver t.ex.<br />

[M] = kg<br />

[g] = ms −2<br />

(2.3)<br />

Detta är egentligen inte helt korrekt. Man borde skriva [M] = [kg] för att<br />

beteckna att kylsk˚apets massa M <strong>och</strong> kilogramprototypens massa kg har samma<br />

dimension, men notationen i ekvationerna 2.3 är den brukliga. Att t.ex. ange en<br />

höjd som h = 2 [m] istället för h = 2 m vore däremot fel. Det finns ingen som<br />

helst anledning att sätta enheten inom hakparentes när man ger värdet för en<br />

storhet.<br />

2.5 Ekvationer <strong>och</strong> formler<br />

Matematiken är en mycket viktig del i fysikens spr˚ak. Ekvationer <strong>och</strong> formler<br />

är en s˚a integrerad del <strong>av</strong> spr˚aket att de behandlas p˚a samma sätt som andra


2.5. EKVATIONER OCH FORMLER 15<br />

p˚ast˚aenden eller spr˚akliga beteckningar. Man skriver t.ex. ”Vi vill förenkla ut-<br />

trycket x2 −y 2<br />

x+y .”, eller ”Eftersom z = x2 + y 2 är z ≥ 0”. Observera att den<br />

matematiska utsagan i det senare exemplet behandlas precis som en vanlig<br />

spr˚aklig s˚adan, som i meningen ”Eftersom den radiostyrda rakapparaten är s˚a<br />

dyr är försäljningssiffrorna l˚aga.” En del spr˚akliga konstruktioner är mer vanliga<br />

i fysiksammanhang än i ”vanligt spr˚ak”. Vi skulle t.ex. kunna skriva ”Eftersom<br />

z = x 2 + y 2 gäller att z ≥ 0.”, eller ”Den tillryggalagda sträckan s = v0t + a<br />

2 t2<br />

växer kvadratiskt med tiden.” Det sista exemplet <strong>av</strong>viker faktiskt lite fr˚an van-<br />

ligt spr˚ak. Utsagan ”s = v0t + a<br />

2 t2 ” behandlas inte som en s˚adan, utan som om<br />

där bara stod s. Detta är ett ganska vanligt sätt att förenkla texten.<br />

Att rada upp en mängd formler utan att de binds samman <strong>av</strong> ett logiskt<br />

resonemang är inte acceptabelt. Det vore som att skriva upp ett stort antal<br />

lösryckta ord. Som personliga anteckningar kanske de duger, men inte om de<br />

är tänkta att läsas <strong>av</strong> n˚agon annan. Det är inte heller bra att uttrycka en<br />

l˚ang räkning som en serie <strong>av</strong> uttryck sammanbundna med likhetstecken. Som<br />

ett exempel kan vi beräkna logaritmen <strong>av</strong> antalet sätt, Ω, som q förem˚al kan<br />

placeras i N ”fack”, där b˚ade q <strong>och</strong> N är stora tal (q,N >> 1), när q >> N. Vi<br />

kan beräkna logaritmen som följer (det är inte själva räkningen som är intressant<br />

här):<br />

<br />

q + N − 1<br />

ln Ω(N,q) = ln = ln<br />

q<br />

(q + N − 1)!<br />

q!(N − 1)!<br />

= ln(q+N−1)!−ln q!−ln(N−1)! ≈<br />

(q + N − 1)ln(q + N − 1) − q − N + 1 − q lnq + q − (N − 1)ln(N − 1) + N − 1 =<br />

= (q + N − 1)ln(q + N − 1) − q lnq − (N − 1)ln(N − 1) ≈<br />

(q+N)ln(q+N)−q lnq −N lnN = (q+N)ln<br />

<br />

(q + N) lnq + ln 1 + N<br />

<br />

q<br />

<br />

1 + N<br />

q<br />

<br />

− q lnq − N lnN ≈<br />

<br />

−q lnq −N lnN =<br />

q<br />

<br />

(q + N) lnq + N<br />

<br />

− q lnq − N lnN = N + N lnq +<br />

q<br />

N2<br />

− N lnN =<br />

q<br />

N ln q<br />

<br />

N2<br />

+ N + ≈ N ln<br />

N q q<br />

<br />

+ 1<br />

N<br />

Men detta är inte bra! Vi borde ha brutit upp resonemanget i flera steg <strong>och</strong><br />

förklarat vad vi gjorde (t.ex. där vi använde Stirlings formel n! ≈ n n e −n för<br />

fakulteten eller taylorutvecklade logaritmfunktionen runt 1).<br />

Även om ekvationer <strong>och</strong> matematiska samband är en del <strong>av</strong> själva texten är<br />

det ofta lämpligt att skriva dem p˚a en egen rad för översk˚adlighetens skull. Att<br />

klämma in Sackur-Tetrodes ekvation för entropin hos en monoatomär ideal gas,<br />

<br />

V 4πmU<br />

S = Nk ln<br />

N 3Nh2 <br />

3/2<br />

+ 5<br />

<br />

,<br />

2<br />

p˚a en vanlig textrad skulle bli besvärligt. Det kan ocks˚a vara s˚a att ett samband<br />

är speciellt viktigt, <strong>och</strong> därför bör st˚a p˚a en egen rad s˚a att det framhävs <strong>och</strong><br />

är lätt att hitta igen. Vill man kunna referera till ett samband lite längre fram i<br />

texten är det dessutom bra att ge det ett nummer, som jag gjorde med uttrycket


16 KAPITEL 2. ATT SKRIVA FYSIK<br />

för den sökta sträckan i ekvation 2.2. För att göra detta är det nödvändigt att<br />

skriva ekvationen p˚a en egen rad, annars blir det alldeles för sv˚art att hitta ekvationsnumret.<br />

Observera ocks˚a att ekvationsnumret skrivs längst ut till höger,<br />

<strong>och</strong> att ekvationen är en del <strong>av</strong> den löpande texten ocks˚a när den är numrerad.<br />

En annan sak som kan tyckas självklar, men som det händer att det slarvas<br />

med, är att man bara kan ha en ekvation med ett givet nummer. Annars uppst˚ar<br />

förvirring.<br />

Tanken är inte att här beskriva i detalj hur man skriver matematiska formler,<br />

men det finns en del konventioner som det kan vara bra att känna till.<br />

2.5.1 Stil<br />

En grundläggande regel är att en <strong>och</strong> samma symbol ska skrivas p˚a samma<br />

sätt överallt. Man bör inte byta mellan stor <strong>och</strong> liten bokst<strong>av</strong>, kursiverat <strong>och</strong><br />

okursiverat, eller fet <strong>och</strong> normal stil. En anledning till detta, förutom att inte<br />

trötta läsaren i onödan, är att själva stilen utgör en del <strong>av</strong> symbolen. Detta kan<br />

tyckas som en f˚anig konvention, men bryter man mot den kanske läsaren undrar<br />

om man verkligen menar samma sak med m <strong>och</strong> m, till exempel. Dessutom<br />

f˚ar man p˚a detta vis tillg˚ang till flera symboler. Man kan t.ex. l˚ata u beteckna<br />

beloppet <strong>av</strong> vektorn u.<br />

Som ett exempel kan vi ta ”trigonometriska ettan”,<br />

cos 2 x + sin 2 x = 1 .<br />

Här skrivs de matematiska standardfunktionerna med rak stil, medan variabeln<br />

x skrivs kursiverat. Detta är den normala notationen i matematiska texter.<br />

Andra standardfunktioner som skrivs med rak stil är t.ex. ”exp” <strong>och</strong> ”ln”. I<br />

detta sammanhang kan det vara värt att p˚apeka att man normalt skriver t.ex.<br />

sin θ<br />

2 snarare än sin <br />

θ 2 θ<br />

2 <strong>och</strong> sin 2 istället för sin <br />

θ 2.<br />

2 (Är argumentet alltför<br />

l˚angt blir man först˚as tvungen att sätta det inom parentes.)<br />

Lägg märke till att enheter skrivs med rak stil, inte kursiv. Enheter är ocks˚a<br />

fysikaliska storheter, s˚a detta är allts˚a ett undantag fr˚an regeln att storheter<br />

skrivs med kursiverad stil, men ett motiverat undantag. Om vi har en storhet,<br />

s, som är en sträcka, <strong>och</strong> en annan, m, som är en massa kan vi t.ex. bilda<br />

ln s m<br />

s m<br />

m +ln kg . Skriver vi istället ln m +ln kg har vi plötsligt infört tv˚a nya storheter,<br />

l <strong>och</strong> n, <strong>och</strong> dessutom är s<br />

m inte enhetslöst, s˚a det skulle inte g˚a att bilda logaritmen<br />

<strong>av</strong> det. (Produkten ln m˚aste ha dimensionen kg/m för att uttrycket<br />

skall vara giltigt.)<br />

ln s<br />

m<br />

+ ln m<br />

kg<br />

2.5.2 Storheter <strong>och</strong> enheter i formler<br />

När det gäller fysik är de variabler som förekommer oftast fysikaliska storheter.<br />

De skrivs, liksom matematiska variabler i allmänhet, med kursiv stil. Men en<br />

fysikalisk storhet är inte bara ett tal, s˚a vi kan inte sätta in den som argument<br />

i en matematisk standardfunktion. Om vi t.ex. har en längdkoordinat, x, <strong>och</strong><br />

bildar<br />

f(x) = cos x<br />

är det fel! Argumentet för cosinusfunktionen m˚aste vara ett dimensionslöst tal<br />

(observera att en vinkel är dimensionslös eftersom den definieras som kvoten


2.5. EKVATIONER OCH FORMLER 17<br />

mellan tv˚a sträckor). S˚a för att kunna ange x som argument för cosinusfunktionen<br />

m˚aste vi dividera med en längd. Om vi t.ex. skriver<br />

f(x) = cos 2πx<br />

λ ,<br />

där λ är en sträcka, f˚ar vi en funktion som blir periodisk i x <strong>och</strong> antar samma<br />

värde i punkter som skiljer sig ˚at i x-led med sträckan λ. Vi skulle ocks˚a kunna<br />

skriva<br />

f(x) = cos x<br />

m<br />

dvs bilda cosinus <strong>av</strong> mätetalet för x i meter. Men detta betyder att vi valt en<br />

speciell periodlängd, nämligen λ = 2π m.<br />

Ett illustrativt <strong>och</strong> intressant exempel för den mer fundersamma läsaren är<br />

den i fysikaliska sammanhang mycket vanliga integralen I = x=b dx<br />

x=a x där x<br />

är en storhet med dimension, t.ex. en radie eller (den absoluta) temperaturen.<br />

Integralen kan beräknas enligt<br />

b<br />

I =<br />

a<br />

dx<br />

x<br />

b<br />

= [lnx]b a = lnb − lna = ln<br />

a<br />

Eftersom dx <strong>och</strong> x har samma dimension är dx<br />

x<br />

p˚a vilken enhet vi använder. Integralen (summan <strong>av</strong> alla dx<br />

x<br />

(2.4)<br />

dimensionslöst <strong>och</strong> beror inte<br />

) är därför ocks˚a<br />

dimensionslös. Ocks˚a argumentet för logaritmfunktionen i sista ledet ( b<br />

a ) är dimensionslöst,<br />

vilket är i sin ordning. Däremot är a <strong>och</strong> b inte dimensionslösa<br />

tal utan gränser för x, s˚a ln a resp. lnb har inga definierade värden (argumentet<br />

för logaritmfunktionen m˚aste ju vara dimensionslöst). S˚aledes är de tv˚a mellanleden<br />

i räkningen ovan strängt taget ogiltiga. Vi kan dock tänka oss att vi gör<br />

substitutionen x ′ = x/c där c har samma dimension som x. I s˚a fall f˚ar vi<br />

b<br />

I =<br />

a<br />

dx<br />

x =<br />

′<br />

b<br />

a ′<br />

dx ′<br />

x ′ = lnb′ − lna ′ = ln b<br />

a<br />

(2.5)<br />

där a ′ = a/c <strong>och</strong> b ′ = b/c är dimensionslösa, s˚a att lna ′ <strong>och</strong> ln b ′ är väldefinierade.<br />

Betraktar vi c som en enhet är a ′ <strong>och</strong> b ′ mätetalen för a <strong>och</strong> b. Om vi byter<br />

enhetssystem (c) ändrar sig lna ′ <strong>och</strong> ln b ′ , men inte lnb ′ − lna ′ = ln b<br />

a . S˚a i<br />

räkningen i ekvation 2.4 har vi implicit bytt betydelse p˚a a <strong>och</strong> b s˚a att de<br />

i mellanleden betecknar mätetal (utan att vi för den skull blivit tvugna att<br />

specificera för vilket enhet mätetalen gäller). Räkningen i ekvation 2.4 är ganska<br />

vanlig, s˚a det kanske kan vara bra att n˚agon g˚ang ha funderat p˚a hur det<br />

egentligen hänger ihop med enheterna.<br />

2.5.3 Variabelnamn, multiplikation <strong>och</strong> datorspr˚ak<br />

Enheter som kännetecknas <strong>av</strong> ett enda värde, som massa eller tid, kallas skalärer.<br />

För storheter som inte är skalärer används speciella skrivsätt som är mer varierande.<br />

Ett viktigt fall är vektorer, storheter med storlek <strong>och</strong> riktning. De skrivs<br />

ofta med fetstil. Om t.ex. u <strong>och</strong> v är tv˚a vektorer ges skalärprodukten (en skalär!)<br />

<strong>av</strong> u · v = |u||v|cos θ, där |u| <strong>och</strong> |v| är vektorernas storlekar (belopp) <strong>och</strong> θ är<br />

vinkeln mellan dem. Vi kan ocks˚a bilda den s˚a kallade vektorprodukten, u × v,<br />

s˚a det är viktigt att sätta ut rätt sorts g˚angertecken när man multiplicerar<br />

vektorer.


18 KAPITEL 2. ATT SKRIVA FYSIK<br />

När man multiplicerar med ett tal (en skalär) däremot sätter man normalt<br />

inte ut n˚agot g˚angertecken. Om det verkligen behövs för läsbarheten skriver<br />

man ”·” eller möjligen ”×”, men definitivt inte ”∗”, trots att detta används<br />

för att beteckna multiplikation när man programmerar. Man skall i allmänhet<br />

undvika att överhuvudtaget blanda in programmeringsspr˚ak eller programmeringstekniker<br />

när man skriver om fysik. Ett annat exempel p˚a detta är valet <strong>av</strong><br />

variabelnamn. När man programmerar är det ofta lämpligt att använda l˚anga<br />

textsträngar som namn p˚a storheter, t.ex. TFall för en falltid. I en skriftlig<br />

framställning om fysik är detta däremot inte bra (mer om detta nedan). Ett undantag<br />

fr˚an regeln att inte blanda in programmeringsspr˚ak är först˚as när man<br />

ska dokumentera hur datorkod man skrivit skall användas <strong>av</strong> andra.<br />

Det kan vara värt att p˚apeka att man m˚aste definiera de beteckningar man<br />

inför för olika storheter. Det är egentligen ganska självklart, men ibland kanske<br />

man tycker att man använder en s˚a självklar beteckning att man inte behöver<br />

definiera den. Vad som är självklart är dock i högsta grad subjektivt, <strong>och</strong> man<br />

bör därför alltid se till att uttryckligen tala om vilka storheter de olika beteckningarna<br />

st˚ar för.<br />

Ibland händer det att n˚agon försöker ge storheterna namn som skall vara<br />

”självförklarande”, t.ex.<br />

Falltid = 2,3 s .<br />

Detta är inte bra. Dels blir ”variabelnamnen” mycket otympliga, vilket gör<br />

formlerna sv˚arlästa, dels skulle ”Falltid ” i princip kunna vara en produkt som<br />

ocks˚a kan skrivas l2diFat. Är variabelnamnet kortare, som ”xny ”, finns det<br />

en verklig risk att det tolkas som en produkt. Ett sätt att undvika detta vore<br />

att skriva variabelnamnen med upprätt stil, som för enheter <strong>och</strong> standardfunktioner,<br />

men bättre är att l˚ata eventuella textsträngar bli subskript (som inte är<br />

alltför l˚anga). Vi kan t.ex. skriva ”Falltiden var<br />

Tfall = 2,3 s .<br />

Lägg märke till att Tfall definieras som beteckningen för falltiden i föreg˚aende<br />

mening. Vi hade istället kunnat använda beteckningen T för falltiden genom<br />

att byta ut Tfall mot T. Om falltiden är den mest centrala tiden i problemet<br />

<strong>och</strong> ing˚ar i m˚anga formler, hade nog T varit bättre. Är framställningen korrekt<br />

skall det g˚a att byta ut en variabelbeteckning mot en annan överallt utan<br />

det blir obegripligt (under förutsättning att det nya namnet inte är upptaget).<br />

Men det underlättar naturligtivs för läsaren om man använder konventionella<br />

beteckningar som p för rörelsemängd, x,y,z för rymdkoordinater, T eller t för<br />

tid etc. När s˚a behövs lägger man sedan till subskripttext för att skilja olika<br />

storheter <strong>av</strong> samma dimension ˚at.<br />

2.6 Figurer <strong>och</strong> tabeller<br />

Figurer <strong>och</strong> tabeller är nästan alltid viktiga inslag i en beskrivning <strong>av</strong> fysikaliska<br />

data <strong>och</strong> resonemang. Till skillnad fr˚an ekvationer <strong>och</strong> formler är figurer <strong>och</strong><br />

tabeller inte en del <strong>av</strong> den löpande texten. De inneh˚aller oftast för mycket information<br />

(mer än tusen ord) vilket gör det nödvändigt att diskutera dem i flera<br />

meningar. De kan dessutom vara stora, vilket gör att det kan vara sv˚art att f˚a<br />

plats med dem just vid det ställe i den texten där de behandlas.


2.6. FIGURER OCH TABELLER 19<br />

Det är den löpande texten som bär upp en skriftlig <strong>presentation</strong>. Läser men<br />

den fr˚an början till slut skall man inte missa n˚agot. Därför m˚aste alla figurer<br />

<strong>och</strong> tabeller refereras till fr˚an texten. Är det en mycket kort framställning<br />

kanske det räcker med att skriva t.ex. ”...som figuren nedan visar...”, men i<br />

allmänhet bör man numrera figurer <strong>och</strong> tabeller <strong>och</strong> referera till dem med nummer.<br />

Numret anges först˚as intill figur- eller tabelltexten, eventuellt med fetstil,<br />

som t.ex. ”Figur 8”. Sedan refererar man till figuren fr˚an den löpande texten<br />

som ”Figur 8”, gärna med stor bokst<strong>av</strong>. För att de skall bli lättare att hitta bör<br />

figurer <strong>och</strong> tabeller komma i nummerordning, <strong>och</strong> även refereras i den ordningen.<br />

Figur 2.1, som beskriver fritt fall fr˚an ett hopptorn ned till vattnet i en<br />

bassäng, kan tjäna som exempel. Innan man börjar diskutera figuren refererar<br />

man till den med nummer (som i föreg˚aende mening). Sedan beskriver man<br />

vad figuren visar <strong>och</strong> vad den skall illustrera. För att undvika missförst˚and,<br />

<strong>och</strong> för att det skall vara möjligt att titta p˚a figuren <strong>och</strong> f˚a en uppfattning om<br />

vad den inneh˚aller utan att man läst motsvarande <strong>av</strong>snitt i den löpande texten<br />

bör figuren ˚atföljas <strong>av</strong> en förklarande text (i detta fall ”Höjden h ...”). Det är<br />

ocks˚a viktigt med tydliga axelbeteckningar. Man m˚aste ange vilken storhet som<br />

plottas <strong>och</strong> i vilken enhet. I detta exempel är t.ex. h en höjd, <strong>och</strong> figuren visar<br />

mätetalet för h i meter, dvs h/m. Ett vanligare, men mindre tydligt, skrivsätt<br />

är ”h (m)”. Ibland ser man ocks˚a ”h [m]”, vilket inte är s˚a lyckat.<br />

För figurer <strong>av</strong> olika slag används ibland olika beteckningar som ”diagram”<br />

eller ”bild”. När det gäller skriven fysik är det normalt bäst att kalla alla s˚adana<br />

visuella beskrivningar för ”figurer”, det gör det lättare att orientera sig ibland<br />

dem när de alla numreras med samma nummerserie.<br />

Tabeller behandlas p˚a samma sätt som figurer. De numreras (med en annan<br />

nummerserie än för figurer) <strong>och</strong> refereras till fr˚an texten. De skall ocks˚a förses<br />

med en sammanfattande tabelltext, som oftast (som här) skrivs ovanför tabellen.<br />

Poängen med tabeller är att man kan sammanfatta mycket information p˚a ett<br />

tydligt sätt. Att presentera ett eller ett par värden i tabellform är knappast<br />

motiverat. Har man flera uppsättningar värden är det oftast mer översk˚adligt<br />

att presentera dem i en tabell än att göra flera sm˚a tabeller.<br />

Som exempel l˚atsas vi att vi genomfört ett fallförsök där vi släppt tre olika<br />

stora klot <strong>av</strong> olika material fr˚an olika fönster i höghusen vid Sergels Torg <strong>och</strong><br />

mätt falltiden. Resultatet <strong>av</strong> mätningarna presenteras i tabell 2.1. De tre olika<br />

kloten betecknas med A, B <strong>och</strong> C. Tabellen ger klotens egenskaper, liksom<br />

falltiderna fr˚an olika höjder. Den sista kolumnen är det värde p˚a tyngdaccelerationen<br />

g som kan beräknas utifr˚an formeln g = 2h<br />

t2 (som gäller om luftmost˚andet<br />

kan försummas). Siffrorna i tabellen är ofta (som här) mätetal för olika storheter.<br />

Man m˚aste d˚a i tabellhuvudet ange vilka storheterna är <strong>och</strong> vilka enheter som<br />

använts. Vi hade först˚as ocks˚a kunnat införa beteckningen M för klotets massa<br />

<strong>och</strong> skriva ”M/kg” istället för ”Massa (kg)” i tabellhuvudet.<br />

I tabell 2.1 har vi valt att inkludera klotens diameter <strong>och</strong> massa. Men eftersom<br />

vi bestämt diametern <strong>och</strong> massan för vart <strong>och</strong> ett <strong>av</strong> kloten en g˚ang vore<br />

det förvirrande att ange dem för alla fallförsök. Det skulle ge ett intryck <strong>av</strong> att<br />

vi har flera mätningar än vi faktiskt har. Om vi bara haft ett klot hade det<br />

varit direkt olämpligt att inkludera diameter, massa eller klotets beteckning i<br />

tabellen överhuvudtaget. Värden p˚a storheter som inte varierar är det bättre<br />

att ge i tabelltexten, eller i den löpande texten.


20 KAPITEL 2. ATT SKRIVA FYSIK<br />

h /m<br />

10<br />

9<br />

8<br />

7<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

-0.4 -0.2 0 0.2 0.4 0.6 0.8 1 1.2 1.4<br />

t /s<br />

Figur 2.1: Höjden h över bassängens yta som funktion <strong>av</strong> tiden t fr˚an att<br />

en person tagit ett steg rakt fram fr˚an sjumeterstornet. Luftmotst˚andet <strong>och</strong><br />

personens längd har försummats.<br />

Tabell 2.1: Resultat <strong>av</strong> ett fallförsök med tre olika stora klot <strong>av</strong> olika material<br />

(se texten).<br />

Klot Diameter (cm) Massa (kg) Höjd (m) Falltid (s) g (ms −2 )<br />

A 8,0 1,1 5,0 1,012 9,76<br />

B 15 12,0 5,0 1,009 9,83<br />

C 5,0 0,3 5,0 1,015 9,71<br />

A 25,0 2,262 9,77<br />

B 25,0 2,260 9,79<br />

C 25,0 2,265 9,75<br />

A 60,0 3,530 9,63<br />

B 60,0 3,510 9,74<br />

C 60,0 3,555 9,50<br />

2.7 Fel<br />

Det g˚ar inte att mäta n˚agonting med oändlig precision, utan alla mätningar<br />

<strong>av</strong> fysikaliska storheter är behäftade med en osäkerhet, ett mätfel. Att ange<br />

ett värde utan att säga n˚agot om felet i det är därför egentligen meningslöst.<br />

Skriver n˚agon t.ex. att tyngdaccelerationen g = 9,81 m/s 2 utan att ange n˚agot<br />

fel kan det sanna värdet p˚a g vara vilket som helst. Men riktigt s˚a illa är det<br />

änd˚a inte! Den som anger g med tre siffrors noggrannhet m˚aste rimligen mena<br />

att felet inte är s˚a mycket större än en enhet i tredje siffran, annars skull det ju<br />

inte finnas n˚agon anledning att specificera den!


2.7. FEL 21<br />

När man anger ett värde m˚aste man alltid ha detta i ˚atanke. Ger man<br />

m˚anga värdesiffror betyder det att man hävdar att värdet är känt med stor<br />

precision. Tänker man sig inte för, utan skriver upp alla siffror som datorn eller<br />

miniräknaren levererar, kan man göra de mest häpnadsväckande (<strong>och</strong> löjliga)<br />

anspr˚ak p˚a mätkvalitet 2 . S˚a om n˚agon ger oss värdet g = 9,81 m/s 2 är den<br />

rimligaste tolkningen att felet, ∆g är en halv enhet i sista siffran, dvs ∆g =<br />

0,005 m/s 2 .<br />

Att använda en halv enhet i sista siffran är dock en mycket grov metod. Den<br />

duger bra om det rör sig om ett värde som är känt med s˚a god precision att<br />

vi inte behöver bekymra oss om felet i det eftersom felen i andra storheter är<br />

s˚a mycket större. Ett exempel är när man använder litteraturvärdet p˚a n˚agon<br />

naturkonstant. Presenterar man värdet <strong>av</strong> en egen mätning m˚aste man däremot<br />

alltid uttryckligen ange felet. Normalt anger man felet <strong>och</strong> värdet för en storhet<br />

x som x ± ∆x, t.ex.<br />

h = (7,03 ± 0,07)m .<br />

Lägg märke till att signifikansen hos den sista siffran m˚aste vara densamma i<br />

värdet som i felet. Att ge extra siffror i värdet är inte meningsfullt eftersom<br />

det inte är känt med tillräcklig precision, <strong>och</strong> extra siffror i felet är ointressanta<br />

eftersom de inte ger n˚agon ytterligare information om det faktiska värdet. Som<br />

tumregel kan man säga att det sällan är meningsfullt med mer än tv˚a signifikanta<br />

siffror i felet.<br />

Att bestämma korrekta fel kan ofta vara ganska besvärligt, men för den<br />

skull ska man inte helt fokusera p˚a själva felen. Det är t.ex. inte lämpligt att<br />

sammanfatta alla värden i en tabell <strong>och</strong> alla fel i en annan. Man skall alltid s˚a<br />

l˚angt möjligt se till att ange felet tillsammans med värdet eftersom b˚ada tv˚a<br />

tillsammans utgör slutresultatet. Tabell 2.2 visar hur tabellen över fallförsöket<br />

skulle kunna se ut med mätfel inkluderade.<br />

Tabell 2.2: Resultat, inklusive mätfel, <strong>av</strong> ett fallförsök med tre olika stora klot<br />

<strong>av</strong> olika material (se texten).<br />

Klot Diameter (cm) Massa (kg) Höjd (m) Falltid (s) g (ms −2 )<br />

(±0,05kg) (±0,2 m) (±0,0005s)<br />

A 8,0 ± 0,5 1,1 5,0 1,012 9,76 ± 0,39<br />

B 15 ± 1 12,0 5,0 1,009 9,83 ± 0,39<br />

C 5,0 ± 0,5 0,3 5,0 1,015 9,71 ± 0,39<br />

A 25,0 2,262 9,77 ± 0,08<br />

B 25,0 2,260 9,79 ± 0,08<br />

C 25,0 2,265 9,75 ± 0,08<br />

A 60,0 3,530 9,63 ± 0,03<br />

B 60,0 3,510 9,74 ± 0,03<br />

C 60,0 3,555 9,50 ± 0,03<br />

Här är det acceptabelt (men inte nödvändigt) att vara lite frikostig med<br />

2 Däremot är det vare sig nödvändigt eller lämpligt att <strong>av</strong>runda mellanresultat som inte<br />

presenteras, speciellt inte om beräkningarna utförs p˚a dator. S˚adana <strong>av</strong>rundningar kan ge<br />

onödiga bidrag till felet i slutresultatet. När det gäller laborationsrapporter, t.ex., kan det<br />

ocks˚a vara bra att beh˚alla lite fler värdesiffror än normalt eftersom det gör det lättare för<br />

läraren att kontrollera räkningarna. Slutresultatet bör dock ges med korrekt precision.


22 KAPITEL 2. ATT SKRIVA FYSIK<br />

antalet värdesiffror för de första g-bestämningarna s˚a att alla värden i en kolumn<br />

skrivs med lika m˚anga siffor.<br />

Som ett sista sammanfattande exempel kan vi tänka oss att vi släpper upp en<br />

väderballong som vi utrustat med en barometer som mäter lufttrycket. Genom<br />

att samtidigt bestämma riktningen mot ballongen fr˚an tv˚a olika platser p˚a<br />

marken kan vi bestämma dess flyghöjd. P˚a s˚a sätt f˚ar vi en mätserie över trycket<br />

p som en funktion <strong>av</strong> höjden över h<strong>av</strong>et, h. Den kan vi presentera som i tabell<br />

2.3.<br />

Tabell 2.3: Mätserie över lufttrycket p för olika höjder h i atmosfären.<br />

h/km p/(10 5 Pa) log 10 (p/Pa)<br />

0,032 ± 0,001 1,0 ± 0,2 5,0 ± 0,2<br />

5,5 ± 0,8 0,51 ± 0,14 4,7 ± 0,3<br />

17,1 ± 1,0 0,12 ± 0,03 4,1 ± 0,3<br />

21,0 ± 1,2 0,06 ± 0,02 3,7 ± 0,4<br />

26,4 ± 1,5 0,025 ± 0,010 3,4 ± 0,4<br />

32,1 ± 2,0 0,009 ± 0,007 3,0 +0,3<br />

−0,7<br />

Eftersom trycket faller hastigt med höjden (<strong>och</strong> för att detta exempel skall<br />

bli mer intressant) anger vi ocks˚a tio-logaritmen <strong>av</strong> trycket i pascal. När felets<br />

storlek börjar närma sig värdet självt blir osäkerheten i logaritmen större ned˚at<br />

än upp˚at (noll svarar ju mot −∞). I s˚adana fall kan det vara lämpligt att ange<br />

asymmetriska fel, som i den sista punkten i tabellen.<br />

Observera att i tabell 2.3 är det höjden dividerad med kilometer som anges,<br />

liksom trycket i pascal dividerat med 10 5 . Ofta ser man istället uttryck som<br />

” p(Pa) × 10 5 ” i tabellhuvudet, vilket allts˚a är fel (med en faktor tio miljarder,<br />

faktiskt).<br />

Vi sammanfattar v˚ar ballongflygning i Figur 2.2, som visar sammanhörande<br />

värdena p˚a höjd <strong>och</strong> tryck med fel. Felen anges genom felstaplarna. De logaritmerade<br />

värdena ligger p˚a en rät linje (inom felgränserna), vilket kännetecknar<br />

ett exponentiellt beroende.<br />

Figur 2.2: Uppmätta värden p˚a logaritmen <strong>av</strong> trycket, p, som en funktion <strong>av</strong><br />

höjden över h<strong>av</strong>et, h, vid ballongflygningen.


2.7. FEL 23<br />

Ofta är felet i x-koordinaten litet, eller definitionsmässigt noll. I s˚adana fall<br />

anger man bara fel i y-led. Ibland händer det att man binder ihop punkterna<br />

med räta linjer. Det hade inte varit bra i Figur 2.2, utan är bara lämpligt när<br />

felen är försumbara. Man m˚aste i s˚a fall ocks˚a se till att själva mätpunkterna<br />

syns tydligt.


24 KAPITEL 2. ATT SKRIVA FYSIK<br />

2.8 Sammanfattning<br />

Det finns m˚anga konventioner <strong>och</strong> regler för hur man skriver fysik, en del tycks<br />

närmast självklara vid lite eftertanke. Men en regel som för n˚agon är närmast<br />

självklar kan <strong>av</strong> n˚agon annan anses vara en ren smaksak, <strong>och</strong> även konventioner<br />

som man känner väl till kan man välja att bryta mot <strong>av</strong> en eller annan anledning.<br />

Den enda regel som är absolut är att man ska skriva för läsaren. Förhoppningen<br />

är att den som läst denna lilla sammanställning ska ha f˚att tillräcklig överblick<br />

för att kunna skriva p˚a ett sätt som gör att läsaren lätt kan först˚a <strong>och</strong> koncentrera<br />

sig p˚a inneh˚allet i det skrivna, utan att distraheras <strong>av</strong> allför m˚anga brott<br />

mot konvention, konsistens, eller logik.


Kapitel 3<br />

Mätningar <strong>och</strong> fel<br />

I det här kapitlet ska vi börja diskutera mätningar <strong>och</strong> mätfel, vilket är n˚agot<br />

absolut fundamentalt inom s˚<strong>av</strong>äl experimentell som teoretisk fysik.<br />

En mätning <strong>av</strong> en fysikalisk storhet innebär att man mer eller mindre indirekt<br />

jämför dess storlek med storleken <strong>av</strong> en annan storhet <strong>av</strong> samma dimension.<br />

Vanligast är naturligtvis att denna andra storhet är en allmänt accepterad enhet,<br />

t.ex. ett kilogram, en meter eller en fjärdingsväg. Resultatet <strong>av</strong> en s˚adan mätning<br />

blir ett värde, eller mätetal, för storheten i den valda enheten.<br />

Men ett mätvärde är alltid behäftat med ett mätfel, dvs det <strong>av</strong>viker fr˚an det<br />

sanna värdet 1 . Om vi t.ex. uppskattar ˚aldern, T p˚a en boplats fr˚an sten˚aldern<br />

med 14 C-metoden kanske vi f˚ar resultatet till T = 9814˚ar, fastän den verkliga<br />

˚aldern är T = 9754˚ar. Här använder jag hatt-symbolen ” ” för att poängtera<br />

att det rör sig om v˚art mätresultat för T. I det här exemplet är mätfelet δT =<br />

T − T = 60˚ar. Om vi vet hur stort mätfelet är kan vi helt enkelt dra ifr˚an det<br />

fr˚an det uppmätta värdet <strong>och</strong> p˚a s˚a sätt f˚a fram exakt det sanna värdet. Detta<br />

görs naturligtvis, men det finns alltid (som i detta exempel) <strong>av</strong>vikelser som man<br />

inte känner till. Det är dessa okända <strong>av</strong>vikelser som man vanligen kallar mätfel.<br />

För att ta hänsyn till dem m˚aste vi uppskatta hur stora de kan vara, dvs hur<br />

stor osäkerheten i v˚ar mätning är.<br />

Kanske vi uppskattar osäkerheten i v˚art värde T till ∆T = 50˚ar. Vi skriver<br />

d˚a<br />

T = T ± ∆T ,<br />

dvs<br />

T = (9810 ± 50)˚ar (3.1)<br />

Detta betyder att vi uppskattar att v˚art värde (9810˚ar) kan vara sis˚adär<br />

50˚ar fr˚an det sanna värdet, men inte s˚a mycket mer. (Vi ˚aterkommer med<br />

en mer kvantitativ diskussion). Att det sanna värdet hamnar lite utanför v˚ar<br />

felgräns är allts˚a helt i sin ordning.<br />

I praktiska räkningar är det ofta inte nödvändigt att använda hatt-beteckningar<br />

för att poängtera att man inte känner det sanna värdet. Vi kan beteckna<br />

det värde vi f˚ar p˚a boplatsens ˚alder med T s˚a länge det inte finns risk för<br />

missförst˚and.<br />

1 Ett undantag är om den uppmätta storheten är ett heltal, t.ex. antalet atomer i en molekyl.<br />

D˚a kan resultatet bli exakt rätt, men i s˚a fall kan man inte veta med säkerhet att s˚a är fallet.<br />

25


26 KAPITEL 3. MÄTNINGAR OCH FEL<br />

Ofta säger eller skriver man ”mätfelet” eller ”felet” när man menar den<br />

uppskattade osäkerheten. Det beror p˚a att man i praktiken aldrig vet hur stort<br />

det faktiska felet i en mätning är. (Om man visste det skulle man ju kunna ange<br />

det sanna värdet utan fel.) Men det är viktigt att först˚a skillnaden mellan det<br />

egentliga mätfelet (<strong>av</strong>vikelsen fr˚an det sanna värdet) <strong>och</strong> uppskattningen <strong>av</strong> hur<br />

stort det kan vara. I diskussionen som följer här är distinktionen väsentlig.<br />

3.1 Felfortplantning<br />

Ofta är den storhet vi vill bestämma inte direkt mätbar, utan vi m˚aste mäta<br />

en eller flera storheter <strong>och</strong> sedan beräkna den vi är intresserade <strong>av</strong>, l˚at oss kalla<br />

den a (i praktiken använder vi först˚as den brukliga beteckningen, t.ex. g för<br />

tyngdaccelerationen eller G för Newtons gr<strong>av</strong>itationskonstant).<br />

Antag allts˚a att vi bestämmer a utifr˚an mätningar <strong>av</strong> ett antal variabler<br />

x,y,z... Till att börja med begränsar vi oss till en variabel, x. För att se hur<br />

mycket osäkerheten i x p˚<strong>av</strong>erkar v˚art värde för a m˚aste vi ändra p˚a x s˚a mycket<br />

som osäkerheten till˚ater <strong>och</strong> se hur a ändras. Även om beräkningen <strong>av</strong> a är<br />

ganska kr˚anglig s˚a är det mycket lätt att göra om den för ett annat värde p˚a x.<br />

Allt vi behöver göra är att ändra in-värdet till v˚art program 2 .<br />

För att uttrycka det lite mer precist kan vi kalla v˚art mätvärde p˚a x för<br />

x, <strong>och</strong> motsvarande beräknade värde p˚a a kallar vi a. Om v˚ar uppskattning <strong>av</strong><br />

osäkerheten i mätningen är ∆x ersätter vi allts˚a x med x + ∆x, vilket ger ett<br />

nytt a-värde som vi kan kalla a + . Vi kan ocks˚a använda x−∆x <strong>och</strong> f˚a ett annat<br />

a-värde, a − . Intervallet mellan a − <strong>och</strong> a + svarar allts˚a mot osäkerheten i a. Om<br />

detta intervall är n˚agorlunda symmetriskt runt a kan vi säga att osäkerheten i<br />

a är ∆a = 1<br />

2 |a+ − a − | <strong>och</strong> skriva v˚art resultat för a som a = a ± ∆a 3 .<br />

Att bestämma vilken effekt felet (osäkerheten) i en variabel har efter att den<br />

använts i en beräkning kallas för felpropagering eller felfortplantning. Metoden<br />

för felpropagering som beskrivits ovan brukar ibland kallas för störningsräkning.<br />

Vi ”stör” ing˚angsvärdet för x <strong>och</strong> upprepar beräkningen för att se hur resultatet<br />

p˚<strong>av</strong>erkas.<br />

Men hur blir det om a beror p˚a flera uppmätta storhete, t.ex. x,y,z? Egentligen<br />

borde vi variera x, y <strong>och</strong> z tillsammans för att se hur mycket a kan variera.<br />

Det kan ju vara s˚a att n˚agon speciell kombination <strong>av</strong> x,y,z gör att a antar<br />

extrema värden. Oftast kan vi emellertid behandla osäkerheterna som sm˚a <strong>och</strong><br />

betrakta a som en linjär funktion <strong>av</strong> de uppmätta variablerna. Vi kan d˚a skriva<br />

a = as + α(x − xs) + β(y − ys) + γ(z − zs) (3.2)<br />

där α,β <strong>och</strong> γ är konstanter, index s betecknar ett sant värde, <strong>och</strong> a = a(x, y, z)<br />

är det värde p˚a a som svarar mot v˚ara uppskattningar <strong>av</strong> x, y <strong>och</strong> z. För<br />

diskussionen här inför vi det faktiska felet i x,<br />

δx = x − xs<br />

2 Att koda den kr˚angliga beräkningen som ett (väl dokumenterat <strong>och</strong> kommenterat) datorprogram<br />

gör det lätt att kontrollera vad man gjort <strong>och</strong> att variera olika saker <strong>och</strong> kontrollera<br />

att resultatet bär sig rimligt ˚at.<br />

3 Om <strong>av</strong>vikelsen fr˚an ba är mycket större˚at ena h˚allet än˚at andra bör vi ange asymmetriska<br />

fel för a, som t.ex. a = 3,0 +0,3<br />

−0,7. Vi kan först˚as ocks˚a ta hänsyn till asymmetriska fel för x i<br />

den här metoden om vi har anledning till det.


3.1. FELFORTPLANTNING 27<br />

<strong>och</strong> motsvarande för y <strong>och</strong> z. Det faktiska felet i a är<br />

<strong>och</strong> vi kan skriva<br />

δa = a − as ,<br />

δa = αδx + βδy + γδz . (3.3)<br />

Felet i a är allts˚a en summa <strong>av</strong> bidrag fr˚an felen i x, y <strong>och</strong> z. Mätfelet i x<br />

innebär att värdet p˚a a ändras med αδx fr˚an vad det skulle ha blivit om vi<br />

känt till det sanna värdet xs, <strong>och</strong> motsvarande för y <strong>och</strong> z. Ändringen αδx blir<br />

densamma o<strong>av</strong>sett vilka felen i y <strong>och</strong> z är, <strong>och</strong> de tre bidragen adderas enligt<br />

ovan. Allts˚a kan vi bestämma effekten <strong>av</strong> osäkerheterna i x, y <strong>och</strong> z, var för<br />

sig, genom störningsräkning eller annan felpropagering. V˚ara uppskattningar <strong>av</strong><br />

osäkerheterna, ∆x, ∆y <strong>och</strong> ∆z, ger oss d˚a tre feluppskattningar för a som vi<br />

kan kalla ∆xa, ∆ya <strong>och</strong> ∆za. Om vi känner α, β <strong>och</strong> γ kan vi direkt beräkna<br />

t.ex. ∆xa som<br />

∆xa = α∆x .<br />

Detta är den osäkerhet vi skulle ha f˚att i a om vi inte haft n˚agra osäkerheter<br />

alls i y eller z.<br />

Men vi vill först˚as uppskatta en osäkerhet i a, s˚a vi m˚aste p˚a n˚agot sätt<br />

kombinera osäkerheterna fr˚an x,y <strong>och</strong> z. Observera att här är skillnade mellan<br />

felen <strong>och</strong> osäkerheterna betydelsefull. Felen kombineras enligt ekvation 3.3, men<br />

det betyder inte att osäkerheterna gör det. För att kunna göra kombinationen<br />

<strong>av</strong> osäkerheter p˚a ett lämpligt sätt m˚aste vi först lite bättre definiera vad vi<br />

faktiskt menar med osäkerheten i en variabel, t.ex. x.<br />

I en del sammanhang används s˚a kallade maximala fel. Tanken är att ”felet”<br />

eller osäkerheten, ∆x, är s˚a väl tilltaget att det är uteslutet att det sanna<br />

värdet ligger utanför felgränsen. En s˚adan filosofi kanske kan vara motiverad<br />

inom ingenjörsvetenskap t.ex. där tanken är att det bara inte f˚ar bli fel. Om vi<br />

använder s˚adana maximala fel m˚aste vi beräkna osäkerheten i a enligt<br />

∆maxa = ∆xa + ∆ya + ∆za , (3.4)<br />

eftersom den maximala <strong>av</strong>vikelsen i a svarar mot att bidragen fr˚an x, y <strong>och</strong> z<br />

alla är maximala. Inom fysiken (<strong>och</strong> absolut inom den här kursen) använder<br />

man inte s˚adana maximala fel. Problemet är att det oftast är omöjligt att vara<br />

säker p˚a att felet verkligen är maximalt. Man m˚aste definera felet med mycket<br />

god marginal, <strong>och</strong> kan änd˚a inte vara helt säker.<br />

I vetenskapliga sammanhang strävar man därför istället efter att ange felgränser<br />

som är ”typiska”, dvs. motsvarar den förväntade <strong>av</strong>vikelsen fr˚an det<br />

sanna värdet. I detta fall är det inte rimligt att använda ekvation 3.4. Om felen<br />

i x, y <strong>och</strong> z är oberoende <strong>av</strong> varandra vore det nämligen otur om de skulle<br />

samverka <strong>och</strong> ”dra˚at samma h˚all”. Det är troligare att n˚agot värde inte <strong>av</strong>viker<br />

nämnvärt, eller att <strong>av</strong>vikelserna i tv˚a <strong>av</strong> variablerna motverkar varandra. S˚a det<br />

”typiska” felet blir mindre än i ekvation 3.4.<br />

Det är ofta inte möjligt att ge en precis definition <strong>av</strong> vad man menar med att<br />

felet är ”typiskt”. Antag t.ex. att vi vill ta reda p˚a hur mycket en häst väger.<br />

Vi använder ett recept som säger att vikten är<br />

M = kO 2 L


28 KAPITEL 3. MÄTNINGAR OCH FEL<br />

där O är omkretsen vid manken, L är hästens längd (fr˚an bringan till bärbensknölen)<br />

<strong>och</strong> k = 0,084g/cm 3 är en konstant. Vi mäter O <strong>och</strong> L med ett m˚attband (se<br />

Figur 3.1) <strong>och</strong> beräknar vikten till 374kg. Hur mycket fel det blir beror p˚a om vi<br />

har tillg˚ang till ett ordentligt m˚attband, om vi läser <strong>av</strong> ordentligt, om vi lyckas<br />

mäta just där det är tänkt, hur bra receptet är, <strong>och</strong> om v˚ar häst är <strong>av</strong> normala<br />

proportioner. Vi kan uppskatta hur stort felet kan vara, men knappast p˚ast˚a att<br />

det har n˚agra väl definierade matematiska eller statistiska egenskaper. Vi skulle<br />

Figur 3.1: M˚attagning för uppskattning <strong>av</strong> vikten hos en häst.<br />

kunna ta fram en bättre feluppskattning genom att g˚a igenom vad som skrivits<br />

om receptet <strong>och</strong> kontrollmäta med olika m˚attband <strong>och</strong> p˚a olika hästar, t.ex. en<br />

som nyligen vägts p˚a en veterinärstation. Det är ganska typiskt att arbetet för<br />

att f˚a fram en bra feluppskattning är mer krävande än själva mätningen. Hur<br />

som helst är det ganska ofta oundvikligt att uppskattningar <strong>av</strong> osäkerheten är<br />

subjektiva <strong>och</strong> inte i överensstämmelse med n˚agon exakt definition.<br />

S˚a hur kan vi beräkna det typiska felet i a om vi har bidrag fr˚an mätningar<br />

<strong>av</strong> flera storheter? För enkelhets skull betraktar vi först fallet där a beror p˚a<br />

tv˚a variabler, x <strong>och</strong> y. I s˚a fall förenklas ekvation 3.3 till<br />

δa = αδx + βδy ≡ δxa + δya<br />

där felet δa = a − as delats upp i tv˚a termer som beror p˚a felet i x resp. y.<br />

Om mätningarna <strong>av</strong> x <strong>och</strong> y är oberoende kommer δxa <strong>och</strong> δya att anta tv˚a för<br />

oss okända värden som är oberoende <strong>av</strong> varandra. Om vi lyckats n˚agorlunda<br />

med v˚ar feluppskattning skall dessa värden inte vara s˚a mycket större än v˚ara<br />

uppskattningar ∆xa <strong>och</strong> ∆ya som vi f˚att genom att göra felpropagering för x<br />

<strong>och</strong> y var för sig. Nu vill vi allts˚a kombinera ∆xa <strong>och</strong> ∆ya till en uppskattning<br />

<strong>av</strong> osäkerheten i a. Följande diskussion, som ”leder” till ekvation 3.6, är i högsta<br />

grad kvalitativ <strong>och</strong> ingen egentlig härledning. Förhoppningsvis kan den övertyga<br />

den kritiska läsaren om att ekvation 3.6 är rimlig att använda trots att det ofta<br />

är sv˚art eller omöjligt att exakt definiera de ing˚aende storheterna.<br />

Om δxa <strong>och</strong> δya är oberoende faller det sig naturligt att <strong>av</strong>sätta dem p˚a<br />

axlarna i ett rätvinkligt koordinatsystem. Figur 3.2 visar ett s˚adant diagram


3.1. FELFORTPLANTNING 29<br />

för det fall d˚a felet fr˚an y-mätningen är försumbart. För enkelhets skull tolkar<br />

vi osäkerheten som att det faktiska felbidraget fr˚an x, δxa, ligger i intervallet<br />

[−2∆xa,+2∆xa]. Detta är rimligt eftersom ∆xa skall vara ett ”typiskt” värde<br />

för felet. (Som redan nämnts är det ofta omöjligt att definiera exakt vad feluppskattningen<br />

innebär.) De punkter i (δxa,δya)-planet som kan förekomma ligger<br />

Figur 3.2: Planet (δxa,δya) för det fall d˚a felet i y är försumbart, <strong>och</strong> vi<br />

förutsätter att |δxa| < 2∆xa (den tjocka linjen). Det sanna värdet p˚a a, dvs<br />

δa = 0 f˚as p˚a en linje med lutningen −1 som g˚ar genom origo.<br />

Figur 3.3: Planet (δxa,δya) för det fall d˚a osäkerheterna i x <strong>och</strong> y är lika stora<br />

(∆ya = ∆xa).<br />

d˚a p˚a δxa-axeln (den feta linjen i figur 3.2). Vet vi inget mer än detta kan vi<br />

tycka att alla punkter p˚a den feta linjen är lika troliga.<br />

Om osäkerheten fr˚an y-mätningen istället är lika stor som fr˚an x-mätningen<br />

(∆ya = ∆xa = ∆) f˚ar vi istället situationen i Figur 3.3. De möjliga punkterna i


30 KAPITEL 3. MÄTNINGAR OCH FEL<br />

(δxa,δya)-planet hamnar i en kvadrat, <strong>och</strong> en fjärdededel <strong>av</strong> dem har en större<br />

<strong>av</strong>vikelse än |2∆|. Om vi anser att alla till˚atna δya <strong>och</strong> δxa är lika troliga, tror vi<br />

lika mycket p˚a alla punkter i rektangeln. I s˚a fall är det tydligt att det faktiska<br />

felet i a troligen (med en ”trolighet” <strong>av</strong> 75%) ligger under 2∆ Allts˚a är det<br />

typiska felet mindre än ∆xa+∆ya = 2∆. Tyngdpunkten i en triangel ligger vid<br />

en tredjedel <strong>av</strong> höjden. Tyngdpunkten <strong>av</strong> triangeln som svarar mot δa > 0 ligger<br />

allts˚a vid δa = 1 4<br />

34∆ = 3∆. Vi skulle allts˚a kunna säga att de tv˚a lika stora felen<br />

fr˚an x <strong>och</strong> y kombineras till ett typiskt fel i a som är ∆a = 1,33∆. När vi inför<br />

en osäkerhet fr˚an y som ocks˚a är ∆ betyder det allts˚a bara en ökning med 33%<br />

<strong>av</strong> det totala felet i a.<br />

Om osäkerheten i y, ∆y, inte är noll, men svarar mot en betydligt mindre<br />

osäkerhet i a än vad x-mätningen gör (∆ya 2(∆xa − ∆ya) förskjuts fr˚an<br />

2∆xa − ∆ya (tyngdpunkten utan osäkerhet i y). Förskjutningen, 1<br />

3 ∆ya, blir<br />

proportionell mot ∆ya. Det betyder emellertid inte att det typiska felet ökar<br />

linjärt med ∆ya. Triangeln svarar ju bara mot en liten andel <strong>av</strong> alla möjliga<br />

punkter, nämligen hälften <strong>av</strong> punkterna med δxa > 2∆xa − 4∆ya. Denna andel<br />

ökar linjärt med ∆ya (s˚a länge ∆ya är tillräckligt litet). B˚ade andelen punkter<br />

som bidrar till ökningen <strong>av</strong> osäkerheten <strong>och</strong> tyngdpunktens förskjutning för<br />

de bidragande punkter är allts˚a proportionella mot ∆ya. Det betyder att det<br />

typiska felet för sm˚a ∆ya ökar kvadratiskt med ∆ya.<br />

Figur 3.4: Det till˚atna omr˚adet i (δxa,δya)-planet när bidraget till osäkerheten<br />

i a fr˚an y-mätningen, ∆ya, är betydligt mindre än den fr˚an x-mätningen.<br />

Ovanst˚aende diskussion är bara en kvalitativ illustration. Det är inte s˚a ofta<br />

man kan anse alla värden lika troliga, bara de faller inom vissa gränser. Tvärtom


3.2. FELFORTPLANTNINGSFORMELN 31<br />

är det ofta omöjligt att ge matematiskt definierade osäkerheter. Vad vi kan lära<br />

<strong>av</strong> ovanst˚aende är att om en <strong>av</strong> tv˚a oberoende osäkerheter blir mindre än den<br />

andra kommer den ganska snart att bli försumbar eftersom bidraget till den<br />

totala osäkerheten g˚ar mot noll kvadratiskt snarare än linjärt. Vi kan ocks˚a lära<br />

att om vi har tv˚a lika stora <strong>och</strong> oberoende fel <strong>av</strong> storleken ∆ blir det totala felet<br />

∼ 4<br />

3∆. Oftast väljer man att addera oberoende osäkerheter kvadratiskt enligt<br />

<br />

∆a = (∆xa) 2 + (∆ya) 2 . (3.5)<br />

Detta recept stämmer med v˚ar kvalitativa diskussion. Om vi t.ex. har ∆xa = ∆<br />

<strong>och</strong> ∆ya = ∆ f˚ar vi ∆a = √ 2∆, inte s˚a l˚angt fr˚an 4<br />

3 ∆. Om istället ∆ya = 1<br />

10 ∆<br />

blir ∆a = 1 + (1/10) 2∆ = 1,005∆, medan ∆ya = 2<br />

10∆ ger ∆a = 1,02∆. Om<br />

vi inkluderar ett fel fr˚an en mätning <strong>av</strong> den tredje variabeln z blir receptet<br />

<br />

∆a = (∆xa) 2 + (∆ya) 2 + (∆za) 2 , (3.6)<br />

vilket kan generaliseras till flera variabler.<br />

I de fall osäkerheterna kan ges en väldefinierad matematisk/statistisk mening<br />

kan ekvation 3.6 ges en stringent härledning. Detta är ett viktigt specialfall som<br />

vi kommer att ägna en hel del tid ˚at. Att använda samma formel för osäkerhetsuppskattningar<br />

baserade p˚a subjektiva rimlighetsresonemang är naturligt,<br />

men ger naturligtvis inte matematiskt väldefinierade osäkerheter i a om osäkerheterna<br />

i ing˚angsvariablerna inte är väldefinierade.<br />

3.2 Felfortplantningsformeln<br />

I föreg˚aende <strong>av</strong>snitt beskrevs hur man kan använda störningsräkning för att<br />

bestämma hur osäkerheten i en ing˚angsvariabel, x, ger en osäkerhet i en storhet<br />

a som beräknas fr˚an x. Om osäkerheten i x är ∆x beräknar vi helt enkelt a<br />

för värden p˚a x som skiljer sig med ∆x fr˚an det uppmätta (eller p˚a annat sätt<br />

bestämda) värdet p˚a x, <strong>och</strong> ser hur mycket a ändras. Detta fungerar även om<br />

funktionssambandet som som ger a inte är linjärt4 .<br />

Om felen är sm˚a kan vi använda en linjär approximation. Om a beror linjärt<br />

p˚a flera värden, bestämda oberoende <strong>av</strong> varandra, ger de oberoende bidrag till<br />

felet i a, <strong>och</strong> vi kan kombinera bidragen enligt ekvation 3.6, där t.ex. ∆xa =<br />

α∆x. Här är koefficienten α fr˚an ekvation 3.3 derivatan <strong>av</strong> a med <strong>av</strong>seende p˚a<br />

x. Den kan beräknas för de x, y <strong>och</strong> z som mätningarna gett, <strong>och</strong> är i den linjära<br />

approximationen konstant. Allts˚a kan vi skriva om ekvation 3.6 som<br />

<br />

<br />

∂a<br />

∆a =<br />

∂x ∆x<br />

2 <br />

∂a<br />

+<br />

∂y ∆y<br />

2 <br />

∂a<br />

+<br />

∂z ∆z<br />

2 (3.7)<br />

Ovanst˚aende ekvation brukar kallas för felfortplantningsformeln för oberoende<br />

mätningar. Den är användbar om vi har ett n˚agorlunda enkelt funktionssamband<br />

för a(x,y,z) <strong>och</strong> kan beräkna derivatorna. Observera dock att det ocks˚a<br />

g˚ar bra att beräkna ∆xa, ∆ya <strong>och</strong> ∆za med störningsräkning. Bäst är att utföra<br />

b˚ada beräkningarna <strong>och</strong> kontrollera att resultatet stämmer!<br />

4 Däremot fungerar det inte nödvändigtvis om a har lokala extrempunkter när x varierar<br />

inom ±∆x


32 KAPITEL 3. MÄTNINGAR OCH FEL<br />

Observera ocks˚a att om ing˚angsvärdena inte är oberoende fungerar formel<br />

3.7 inte alls. Antag t.ex. att jag hittar en guldtacka i form <strong>av</strong> ett rätblock i<br />

skogen <strong>och</strong> vill bestämma dess volym. Jag tar fram ett snöre <strong>och</strong> tillverkar ett<br />

m˚attband genom att dela upp det i skaldelar lika l˚anga som min tumme är<br />

bred. Sedan mäter jag med m˚attbandet bredd, längd, <strong>och</strong> höjd <strong>och</strong> bestämmer<br />

volymen som<br />

V = blh .<br />

Jag gissar att min tumme inte <strong>av</strong>viker mer än 20% fr˚an en tum (2,54cm), s˚a<br />

jag uppskattar osäkerheterna till ∆b = 0,2b, ∆l = 0,2l,∆h = 0,2h. I s˚a fall blir<br />

∆bV = ∂V<br />

∂b ∆b = (lh)(0,2b), ∆lV = ∂V<br />

∂l ∆l = (bh)(0,2l) <strong>och</strong> ∆hV = ∂V<br />

∆h =<br />

∂h<br />

(bl)(0,2h) alla lika stora. Ekvation 3.7 ger d˚a att<br />

∆V = 3(0,2V ) 2 = √ 3 · 0,2V = 0,34V<br />

Men detta innebär en underskattning <strong>av</strong> osäkerheten! Om mätvärdet för b är<br />

20% för litet blir ju ocks˚a värdena för l <strong>och</strong> h det eftersom de mätts med<br />

samma felaktiga m˚attband. Det är inte längre ”otur” om <strong>av</strong>vikelserna i de tre<br />

mätningarna samverkar, det är tvärtom exakt vad de kommer att göra. När vi<br />

gör en störningsräkning m˚aste vi öka alla tre värdena med 20%, <strong>och</strong> f˚ar att<br />

∆V = 1,2 3 V − V = 0,72V .<br />

Att direkt använda felfortplantningsformeln för oberoende variabler underskattar<br />

allts˚a i det här fallet felet med ungefär en faktor 2.<br />

Här antog jag att det enda som bidrar till felen är min tummes felaktiga<br />

bredd. Men det är inte heller s˚a lätt att läsa <strong>av</strong> br˚akdelar <strong>av</strong> <strong>av</strong>st˚andet mellan<br />

tumstrecken p˚a m˚attbandet, <strong>och</strong> olika streck kanske hamnat lite olika fel. Dessa<br />

fel är antagligen n˚agorlunda oberoende mellan de tre mätningarna. Antag att<br />

mina mätningar g<strong>av</strong> b/t = 3,5, l/t = 7,0 <strong>och</strong> h/t = 1,7 där t är min tummes<br />

bredd. Jag kan uppskatta felen i dessa värden till 0,2, <strong>och</strong> jag kan ocks˚a införa<br />

särskilda beteckningar för dem:<br />

bt = b/t = 3,4 ± 0,2<br />

lt = l/t = 7,0 ± 0,2<br />

ht = h/t = 1,7 ± 0,2<br />

Att använda bt istället för b, t.ex., har fördelen att bt, inte b, är vad som direkt<br />

mäts. Förutom felen i de tre mätningarna <strong>av</strong> bt, lt <strong>och</strong> ht, som är (n˚agorlunda)<br />

oberoende, har jag ytterligare ett oberoende fel i bredden <strong>av</strong> min tumme, t. Jag<br />

kan nu skriva<br />

V = btlthtt 3<br />

<strong>och</strong> eftersom felen i de fyra storheterna i högerledet nu är oberoende kan jag<br />

direkt använda ekvation 3.7.<br />

En annan variant som kan vara bra att ta till ibland är följande: Vi ignorerar<br />

först helt osäkerheten i tumbredden (sätter t = 2,54cm) <strong>och</strong> f˚ar t.ex.<br />

b = (8,64 ± 0,51)cm .<br />

Sedan beräknar vi en osäkerhet i V genom felfortplantning <strong>av</strong> felen i b,l <strong>och</strong> h<br />

enligt ekvation 3.7. Genom att variera t inom felgränserna <strong>och</strong> använda felfortplantning<br />

kan vi sedan uppskatta bidraget till osäkerheten i V fr˚an tumbredden.


3.3. RELATIVA FEL 33<br />

Detta är oberoende <strong>av</strong> felet i V fr˚an övriga källor, <strong>och</strong> kan adderas kvadratiskt<br />

enligt ekvation 3.6. Detta recept är framför allt användbart när man har ett<br />

mera komplicerat samband utan n˚agon enkel formel för slutresultatet. Speciellt<br />

om man kombinerar värden med olika stora osäkerheter vill man inte inkludera<br />

n˚agon global osäkerhet innan man genomfört kombinationen (se <strong>av</strong>snitt 4.5).<br />

3.3 Relativa fel<br />

Om felet i en storhet a är δa är det relativa felet δa<br />

a . Ofta menar man med<br />

”relativa felet” egentligen den relativa osäkerheten<br />

∆a<br />

a<br />

Detta är en dimensionslös storhet (till skillnad fr˚an ∆a som har samma dimension<br />

som a). Relativa fel kan ofta användas för att förenkla felpropageringen i<br />

ekvation 3.7. Om vi t.ex. har att<br />

blir ∂a<br />

∂x = yz = a/x, s˚a att<br />

.<br />

a = xyz<br />

∂a<br />

∆x = a∆x<br />

∂x x<br />

<strong>och</strong> motsvarande för y <strong>och</strong> z. Ekvation 3.7 ger nu att<br />

∆a<br />

a =<br />

<br />

∆x 2 2 2 ∆y ∆z<br />

+ +<br />

x y z<br />

dvs. relativa felet i a kan vi f˚a genom att addera de relativa felen i x,y <strong>och</strong> z<br />

kvadratiskt. Detta gäller faktiskt ocks˚a om en eller flera <strong>av</strong> x,y <strong>och</strong> z förekommer<br />

i nämnaren. Mera allmänt kan vi anta att<br />

a = x α y β z γ<br />

där exponenterna är konstanter. Derivatan med <strong>av</strong>seende p˚a x, t.ex., blir nu<br />

∂a<br />

∂x = αxα−1 yz = αa/x, <strong>och</strong> vi f˚ar<br />

<br />

<br />

∆a = a α ∆x<br />

x<br />

2<br />

<br />

+ β ∆y<br />

2 <br />

+ γ<br />

y<br />

∆z<br />

2 z<br />

,<br />

. (3.8)<br />

Eftersom vi hur som helst m˚aste beräkna a är det ofta enklare att använda<br />

denna formel än ekvation 3.7.<br />

En annan anledning till att det relativa felet är betydelsefullt är att om vi<br />

har en logaritmisk funktion,<br />

a = lnx ,<br />

blir da 1<br />

dx = x , s˚a att osäkerheten i logaritmen a blir lika med den relativa osäkerheten<br />

i x:<br />

∆ln x = ∆x<br />

(3.9)<br />

x


34 KAPITEL 3. MÄTNINGAR OCH FEL<br />

3.4 Systematiska <strong>och</strong> statistiska fel<br />

Vi har sett att när man p˚a basis <strong>av</strong> utförda mätningar bestämmer n˚agon<br />

fysikalisk storhet kan man vara säker p˚a att resultatet inte blir exakt rätt. Om<br />

man upprepar mätningarna f˚ar man i allmänhet ett annat värde. Om metoden<br />

är bra kommer sannolikheten för att f˚a ett värde i närheten <strong>av</strong> det sanna att vara<br />

större än sannolikheten för att f˚a ett starkt <strong>av</strong>vikande värde. Om man gör en<br />

mätning kan man änd˚a ha otur <strong>och</strong> f˚a ett d˚aligt värde (med stort fel), men om<br />

man mäter m˚anga g˚anger kommer man att kunna f˚a en allt bättre bestämning<br />

<strong>av</strong> storheten man är ute efter.<br />

S˚adana slumpmässiga <strong>av</strong>vikelser kallas för statistiska fel. Genom att samla<br />

mer statistik, dvs. genom att mäta flera g˚anger, kan vi minska den statistiska<br />

osäkerheten, <strong>och</strong> genom att se hur v˚ara värden sprider sig kan vi bestämma hur<br />

stor den är. Men vi kan inte mäta oändligt m˚anga g˚anger, s˚a vi kommer inte<br />

undan de statistiska felen. Även om vi bara mäter en g˚ang kommer vi att ha ett<br />

slumpmässigt (statistiskt) fel, men det blir i allmänhet sv˚art att veta hur stort<br />

det är (ibland g˚ar det dock genom en god först˚aelse <strong>av</strong> själva mätprocessen).<br />

Statistiska fel är trevliga, för de kan behandlas exakt med hjälp <strong>av</strong> matematisk<br />

statistik. Den andra kategorin <strong>av</strong> fel, de systematiska felen, är betydligt<br />

besvärligare att hantera korrekt. Ett systematiskt fel är ett som p˚<strong>av</strong>erkar v˚art<br />

resultat p˚a ett sätt om inte är slumpmässigt. Ett exempel är felet i tummens<br />

bredd i exemplet i föreg˚aende <strong>av</strong>snitt (dvs. hur mycket den <strong>av</strong>viker fr˚an en tum).<br />

O<strong>av</strong>sett hur m˚anga g˚anger vi mäter kommer denna <strong>av</strong>vikelse att ge ett lika stort<br />

fel i slutresultatet. Vi kommer ju helt enkelt att stoppa in fel värde (2,54cm)<br />

varje g˚ang, <strong>och</strong> d˚a f˚ar vi först˚as fel svar. Det kan ocks˚a vara s˚a att metoden<br />

som vi använder för att ta fram värdet fr˚an mätningarna i medeltal inte ger<br />

rätt svar. Kanske beror det p˚a den statistiska proceduren ger en <strong>av</strong>vikelse (en<br />

bias), som vi inte lyckats korrigera för. Kanske har vi helt enkelt r˚akat använda<br />

fel formel!<br />

P˚a sätt <strong>och</strong> vis kan man säga att systematiska fel uppst˚ar när vi gör n˚agot<br />

fel i behandlingen <strong>av</strong> v˚ara mätresultat. V˚ar kalibreringskonstant (t.ex. tummens<br />

bredd) kanske är lite fel, vi kanske m˚aste använda n˚agon annans ganska osäkra<br />

bestämning <strong>av</strong> n˚agonting i v˚ara beräkningar, vi kanske använder en för grov<br />

approximation, eller vi kanske räknar fel. Om vi vet hur mycket fel det blev<br />

n˚agonstans korrigerar vi först˚as själva resultatet, s˚a de systematiska felen är de<br />

<strong>av</strong>vikelser som vi inte känner till. Att uppskatta hur stora de kan vara kan vara<br />

mycket sv˚art, eller i princip omöjligt. Men det är absolut nödvändigt!<br />

Ibland behandlar man systematiska fel ungefär som statistiska. Det är ett<br />

sätt att motivera varför vi använder ekvation 3.6 även för s˚adana fel. Vi kan<br />

tänka oss att s˚adant som v˚art resultat beror p˚a görs om, inklusive s˚adant som<br />

tidigare gjorts <strong>av</strong> andra <strong>och</strong> kalibreringar vi gjort 5 . Detta ger lite andra värden,<br />

<strong>och</strong> vi kan tänka oss att processen som lett till dem är slumpmässig. Men<br />

eftersom vi inte kan göra om bestämningar som gjorts <strong>av</strong> andra, <strong>och</strong> eftersom<br />

slumpmässiga ändringar i programmet vi kört kan ge precis vad som helst<br />

(inklusive kompileringsfel) kan detta vara en tvivelaktig procedur. Som en illustreration<br />

<strong>av</strong> varför den kan vara tvivelaktig kan vi g˚a tillbaka till guldexperimentet.<br />

En tum är 2,54cm. Min tumme är 2,40cm bred (vilket jag inte vet<br />

där i skogen). Om jag tänker mig att jag gör om uppskattningen flera g˚anger<br />

5 Däremot ska vi inte tänka oss att själva mätningarna görs om. Vi är ju t.ex. intresserade<br />

<strong>av</strong> hur resultatet p˚<strong>av</strong>erkas om ett värde mätt <strong>av</strong> n˚agon annan är lite fel


3.4. SYSTEMATISKA OCH STATISTISKA FEL 35<br />

kommer jag att ”uppskatta” tummen till 2,54cm (en tum) varje g˚ang. Detta<br />

är sant även om jag p˚a n˚agot sätt skulle lyckas helt glömma att jag gjort uppskattningen<br />

tidigare. Värdet blir helt enkelt fel med 1,4mm, <strong>och</strong> det finns inget<br />

statistiskt i detta.<br />

Om jag har med mig en mobiltelefon i skogen kan jag förbättra min uppskattning<br />

<strong>av</strong> felet i tumbredden genom att ringa upp n˚agon som kan leta fram<br />

information om hur mycket tumbredden varierar mellan olika människor. Detta<br />

är en statistisk variation, som kan ges en exakt definition, <strong>och</strong> som jag kan<br />

använda som en bättre uppskattning <strong>av</strong> osäkerheten i min tumbredd. Felet i<br />

min tumsbredd blir fortfarande 1,4mm, <strong>och</strong> är fortfarande systematiskt. Det<br />

som ändrats är att jag uppskattat den systematiska osäkerheten med statistiska<br />

metoder. Detta är ˚a andra sidan värdefullt, eftersom en s˚adan osäkerhet är<br />

mycket lättare att handskas med. Jag kan nu tänka mig att jag valt en tumme<br />

p˚a m˚af˚a istället för att ta min egen, <strong>och</strong> jag vet hur stor statistisk osäkerhet<br />

detta skulle ge. Det är allts˚a nu väl motiverat att behandla det systematiska<br />

felet i tumbredden som statistiskt!<br />

Om personen jag ringer upptäcker att en genomsnittlig tumme är 2,49cm<br />

hade jag ytterligare ett systematiskt fel, nämligen att jag gjort det felaktiga<br />

antagandet att en tum är en genomsnittlig tumsbredd. Men det kan jag direkt<br />

korrigera för genom att använda 2,49cm istället, för 2,54cm. vilket skulle minska<br />

felet (inte osäkerheten) i tumbredden tll 0,9mm.<br />

Statistiska fel är som sagt lättare att handskas med. De kan ges en väldefinierad<br />

mening, de kan behandlas med väldefinierade metoder, <strong>och</strong> ekvation<br />

3.6, t.ex., kan ges en exakt härledning. Kommande kapitel beskriver statistiska<br />

metoder för databehandling.


36 KAPITEL 3. MÄTNINGAR OCH FEL


Kapitel 4<br />

Sannolikheter <strong>och</strong> statistik<br />

Sannolikhetsbegreppet är centralt när det gäller mätningar inom fysiken. I detta<br />

sammanhang definieras sannolikheten för ett visst utfall (allts˚a n˚agot speciellt<br />

som sker) utifr˚an den relativa frekvensen. Om vi upprepar ett försök, t.ex. ett<br />

tärningsslag, m˚anga g˚anger kommer vi att f˚a en sexa en g˚ang <strong>av</strong> sex. Sl˚ar vi bara<br />

en g˚ang f˚ar vi antingen en sexa eller n˚agot annat, men sl˚ar vi väldigt m˚anga<br />

g˚anger kommer 1/6 <strong>av</strong> slagen att ge en sexa. Vi kan definiera sannolikheten som<br />

N6<br />

P(6) ≡ lim<br />

N→∞ N<br />

där N är antalet g˚anger vi sl˚ar <strong>och</strong> N6 antalet sexor. Är tärningen inte ideal,<br />

(vilket den inte är!) kommer sannolikheten inte att vara exakt 1/6. För att se<br />

hur mycket den <strong>av</strong>viker m˚aste vi sl˚a m˚anga g˚anger, <strong>och</strong> ju mindre <strong>av</strong>vikelsen<br />

är, desto fler g˚anger m˚aste vi sl˚a för att komma tillräckligt nära oändligheten i<br />

definitionen ovan.<br />

4.1 Sannolikhetsfördelningar<br />

När vi mäter en reell storhet (t.ex. en massa eller längd) f˚ar vi ett värde (som<br />

vi vill skall ligga nära det sanna värdet). Om vi upprepar mätningen f˚ar vi ett<br />

annat värde. En variabel som p˚a detta sätt antar slumpmässiga värden kallas<br />

för en stokastisk variabel.<br />

Om x är en s˚adan variabel som kan anta reella värden p˚a en kontinuerlig<br />

skala kan vi inte tala om sannolikheten för ett specifikt värde p˚a x. Det finns ju<br />

oändligt m˚anga värden, s˚a sannolikheten att exakt f˚a ett i förväg givet m˚aste<br />

vara noll. Däremot kan vi tala om sannolikheten för att värdet skall ligga i<br />

ett visst intervall, <strong>och</strong> vi kan definiera sannolikhetstätheten (eng. ”probability<br />

density function”) vid ett visst värde x0 som<br />

P(x ∈ ∆x)<br />

f(x0) = lim<br />

∆x→0 ∆x<br />

Här är ∆x ett intervall runt x0 p˚a x-axeln <strong>och</strong> P(x ∈ ∆x) är sannolikheten för<br />

att x hamnar i detta intervall. 1<br />

1 Om intervallet är litet är det naturligt att inget värde i intervallet är mer sannolikt än<br />

n˚agot annat, <strong>och</strong> d˚a blir sannolikheten proportionell mot intervallets längd, vilket krävs för<br />

att definitionen skall fungera.<br />

37


38 KAPITEL 4. SANNOLIKHETER OCH STATISTIK<br />

Sannolikheten att f˚a ett värde i ett litet intervall dx blir allts˚a f(x)dx, <strong>och</strong><br />

sannolikheten att x hamnar mellan a <strong>och</strong> b blir allts˚a<br />

b<br />

P(a < x < b) = f(x)dx (4.1)<br />

Man säger att värdena p˚a x är fördelade längs x-axeln p˚a ett sätt som beskrivs<br />

<strong>av</strong> sannolikhetstätheten f(x), <strong>och</strong> ibland talar man om f(x) som en sannolikhetsfördelning.<br />

Eftersom sannolikheten att f˚a n˚agot värde p˚a x när man väljer<br />

ett slumpmässigt är 1, blir<br />

∞<br />

f(x)dx = 1 . (4.2)<br />

−∞<br />

Figur 4.1 visar ett exempel p˚a en sannolikhetsfördelning. Det skulle kunna<br />

vara sannolikhetstätheten för olika värden vid en mätning där det sanna värdet<br />

är 105,5. Varje mätning ger ett slumpmässigt värde, <strong>och</strong> med fem mätningar<br />

skulle vi t.ex. kunna f˚a den uppsättning värden som är markerade med pilar.<br />

Gör vi fem mätningar till f˚ar vi fem andra värden. Det g˚ar inte att säga vilka,<br />

men eftersom sannolikhetstätheten är mycket nära noll utanför intervallet som<br />

visas i figuren är det ytterst osannolikt att n˚agot skulle hamna där. Om vi<br />

f(x)<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

95 100 105 110 115<br />

x<br />

Figur 4.1: Ett exempel p˚a fem värden dragna fr˚an en sannolikhetstäthet centrerad<br />

vid x = 105,5.<br />

inte känner till fördelningen kan vi uppskatta hur den ser ut genom att göra<br />

m˚anga mätningar. I s˚a fall är det inte särskilt praktiskt att markera de enskilda<br />

mätningarna som i Figur 4.1. Det är inte heller särskilt översk˚adligt att<br />

bara lista dem i en tabell. Ett praktiskt <strong>och</strong> ofta använt sätt att ˚ask˚adliggöra<br />

värden dragna ur en sannolikhetsfördelning är ett histogram. Antag att vi gör<br />

200 mätningar istället för fem. Att lista alla 200 värdena blir inte s˚a översk˚adligt.<br />

Istället kan vi dela in dem i klasser (eller ”binnar” efter engelskans bins). Varje<br />

klass svarar mot en del <strong>av</strong> x-axeln. Väljer vi klassbredden 2 i exemplet kanske<br />

v˚ara 200 värden fördelar sig som i tabell 4.1. Detta blir mycket mer ˚ask˚adligt<br />

om vi representerar v˚ara data i ett histogram som i Figur 4.2. Histogrammet<br />

a


4.1. SANNOLIKHETSFÖRDELNINGAR 39<br />

Tabell 4.1: Fördelning <strong>av</strong> 200 värden dragna ur sannolikhetsfördelningen i<br />

Figur 4.1.<br />

Klass Frekvens Klass Frekvens<br />

95 − 96 0 105 − 106 74<br />

96 − 97 0 106 − 107 41<br />

97 − 98 1 107 − 108 6<br />

98 − 99 23 108 − 109 2<br />

99 − 100 53 109 − 110 0


40 KAPITEL 4. SANNOLIKHETER OCH STATISTIK<br />

ger en god bild <strong>av</strong> hur fördelningen ser ut. Klasserna bör väljas s˚a breda att<br />

man i det mest sannolika omr˚adet inte f˚ar stora fluktuationer mellan dem. ˚A<br />

andra sidan förlorar man information genom att välja dem alltför breda. I det<br />

här exemplet kunde vi ha valt en mindre binbredd än 2, men knappast större.<br />

värden/bin<br />

60<br />

40<br />

20<br />

0<br />

95 100 105 110 115<br />

x<br />

Figur 4.2: Ett histogram över värdena i tabell 4.1. Sannolikhetstätheten i Figur<br />

4.1 har multiplicerats med 200, eftersom vi har 200 värden, <strong>och</strong> med 2, eftersom<br />

varje värde bidrar till histogrammet över över en klassbredd. P˚a detta sätt blir<br />

ytan under kurvan densamma som under histogrammet.<br />

4.2 Medelvärde <strong>och</strong> standard<strong>av</strong>vikelse<br />

Antag nu att vi drar N stycken x-värden, x1,x2, ... xN, ur fördelningen f(x)<br />

(t.ex. genom upprepade mätningar). L˚at oss bilda det aritmetiska medelvärdet<br />

<strong>av</strong> dessa värden:<br />

x =<br />

N<br />

i=1 xi<br />

N<br />

(4.3)<br />

Eftersom de olika xi är dragna slumpmässigt (stokastiskt) kommer ocks˚a x att<br />

bli en stokastisk variabel. Sannolikheten att f˚a ett x-värde i ett intervall ∆x<br />

som är s˚a litet att f kan anses konstant blir f(x)∆x. Om vi l˚ater N bli mycket<br />

stort blir antalet värden i ∆x lika med Nf(x)∆x (se tärningsexemplet ovan).<br />

För mycket stora N kan vi skriva xi = xNf(x)dx, <strong>och</strong> vi f˚ar allts˚a att<br />

<br />

x → xf(x)dx (4.4)<br />

d˚a N → ∞. Vi inför nu fördelningens medelvärde<br />

<br />

µ = xf(x)dx (4.5)<br />

som allts˚a är det asymptotiska värde som det aritmetiska medelvärdet närmar<br />

sig när vi har m˚anga x-värden. Integralen i ekvation 4.5 kallas ocks˚a för förväntansvärdet<br />

<strong>av</strong> x. Den är en ”summa” <strong>av</strong> alla möjliga x-värden med en vikt<br />

som är proportionell mot hur sannolika de är.


4.2. MEDELVÄRDE OCH STANDARDAVVIKELSE 41<br />

Analogt med det aritmetiska medelvärdet <strong>av</strong> x i ekvation 4.3 kan vi skriva<br />

medelvärdet <strong>av</strong> x2 som<br />

x 2 =<br />

N<br />

1 x2 i<br />

N<br />

P˚a samma sätt som för x ser vi att medelvärdet <strong>av</strong> x2 närmar sig integralen<br />

2 x f(x)dx för stora N. Allmänt kan vi skriva förväntansvärdet eller väntevärdet<br />

(eng. ”expectation value”) <strong>av</strong> en funktion h(x) som<br />

<br />

E(h(x)) = h(x)f(x)dx (4.6)<br />

Medelvärdet µ är ett lägesm˚att som beskriver var längs x-axeln fördelningen<br />

ligger. Ett annat lägesm˚att är medianen, xm, som delar fördelningen i tv˚a halvor<br />

med samma sannolikhet:<br />

xm<br />

−∞<br />

∞<br />

f(x)dx =<br />

xm<br />

.<br />

f(x)dx = 1<br />

2<br />

Ytterligare ett lägesm˚att är typvärdet eller modalvärdet, som är det vanligaste<br />

värdet, dvs. det x-värde där f(x) har sitt maximum.<br />

Om f(x) beskriver hur sannolika olika värdena är d˚a vi gör en mätning<br />

vill vi först˚as att lägesm˚atten hamnar nära det sanna värdet p˚a x, som vi kan<br />

kalla xs. Men det räcker inte med det, vi mäter ju bara en g˚ang, <strong>och</strong> även om<br />

förväntansvärdet µ ligger nära xs s˚a kanske det värde vi r˚akar f˚a hamnar l˚angt<br />

därifr˚an 2 . Det som spelar roll här är hur spridda värden som dras ur f(x) är,<br />

dvs. hur snabbt f(x) faller när vi <strong>av</strong>lägsnar oss fr˚an centralvärdet.<br />

Vi vill nu definiera ett m˚att p˚a spridningen hos fördelningen. Det är naturligt<br />

att utg˚a ifr˚an fördelningens medelvärde µ <strong>och</strong> betrakta skillnaden x − µ. Om<br />

denna skillnad är stor (till beloppet) för värden p˚a x som är vanliga (dvs. har<br />

stora värden p˚a f(x)) betyder det att värdena har en stor spridning. Vi skulle<br />

kunna bilda förväntansvärdet <strong>av</strong> x−µ, men det blir noll eftersom de positiva <strong>och</strong><br />

negativa bidragen tar ut varandra (kontrollera gärna). Istället kunde vi bilda<br />

förväntansvärdet <strong>av</strong> |x − µ|, men absolutbelopp är inte s˚a praktiska att räkna<br />

med. Ett bättre m˚att p˚a spridningen är därför förväntansvärdet <strong>av</strong> (x − µ) 2 ,<br />

dvs<br />

V (x) = E((x − µ) 2 <br />

) = (x − µ) 2 f(x)dx (4.7)<br />

där vi integrerar över alla x med f(x) = 0. Storheten V är allts˚a medelvärdet<br />

<strong>av</strong> kvadraten <strong>av</strong> <strong>av</strong>vikelsen fr˚an medelvärdet <strong>av</strong> x. Den kallas för variansen <strong>av</strong><br />

x. Kvadratroten <strong>av</strong> variansen,<br />

σ = √ V (4.8)<br />

är fördelningens standard<strong>av</strong>vikelse.<br />

Om vi jämför med hur vi gick fr˚an de aritmetiska medelvärdena <strong>av</strong> x resp. x 2<br />

till förväntansvärden uttryckta som integraler ser vi att fr˚an N stycken x-värden<br />

kan vi uppskatta V som 1 N 1 (xi − µ) 2 , om vi känner µ.<br />

N<br />

I praktiken vill vi ofta fr˚an N stycken värden uppskatta b˚ade medelvärde <strong>och</strong><br />

varians hos den bakomliggande fördelningen. Uppskattningen <strong>av</strong> medelvärdet<br />

blir µ = x. Jag använder hatt-symbolen (cirkumflex, ” ”) för att poängtera<br />

2 Vi kan öka precisionen genom att mäta flera g˚anger, men i s˚a fall m˚aste vi i alla fall<br />

kombinera ihop v˚ara resultat till ett slutvärde. Det är det värdet som diskuteras här.


42 KAPITEL 4. SANNOLIKHETER OCH STATISTIK<br />

att detta är en uppskattning, ett estimat, <strong>av</strong> fördelningens medelvärde. Vi kan<br />

uppskatta variansen som 1 N N 1 (xi − µ) 2 <strong>och</strong> använda µ = x istället för µ (som<br />

vi inte känner). Men eftersom µ = x är beräknat fr˚an v˚ara x-värden kommer de<br />

att ligga bättre centrerade runt µ än runt fördelningens medelvärde µ. Det gör<br />

att vi underskattar spridningen om vi använder uttrycket ovan. Om N är stort<br />

s˚a att medelvärdet är välbestämt spelar det ingen större roll, men för f˚a värden<br />

(litet N) har det betydelse. (Om man bara har ett värde är det uppenbarligen<br />

nonsens att uppskatta spridningen över huvudtaget, s˚<strong>av</strong>ida man inte känner till<br />

mer om den underliggande fördelningen än detta enda x-värde.)<br />

Man kan visa att det är möjligt att korrigera för problemet att spridningen<br />

runt det aritmetiska medelvärdet är ”för liten”, genom att dividera med N − 1<br />

istället för med N, <strong>och</strong> uppskatta variansen som<br />

s 2 = V = 1<br />

N − 1<br />

N<br />

(xi − µ) 2<br />

1<br />

. (4.9)<br />

Uppskattningen för fördelningens standard<strong>av</strong>vikelsen blir d˚a den s.k. stickprovsstandard<strong>av</strong>vikelsen<br />

<br />

N<br />

1 s = σ =<br />

(xi − x) 2<br />

N − 1<br />

. (4.10)<br />

Det är ofta inte nödvändigt att använda hatt-beteckningar för att poängtera<br />

att det rör sig om uppskattningar <strong>av</strong> den bakomliggande fördelningens egenskaper.<br />

Har man bestämt standard<strong>av</strong>vikelsen fr˚an sina data med ekvation 4.10<br />

kan man beteckna den med σ s˚a länge det inte finns risk för missförst˚and. I<br />

de praktiska räkningarna har man ingen glädje <strong>av</strong> fördelningens sanna (men<br />

okända) standard<strong>av</strong>vikelse. Motsvarande gäller för medelvärdet.<br />

När man ska beräkna standard<strong>av</strong>vikelsen för ett urval x-värden är ekvation<br />

4.10 lite besvärlig eftersom man först m˚aste g˚a igenom alla x-värden för att<br />

bestämma x <strong>och</strong> sedan bilda (xi − x) 2 för alla xi. Men man kan skriva om<br />

uttrycket för s2 enligt s2 = 1 <br />

<br />

2 xi + x2 − 2xix =<br />

N−1 i (xi − x) 2 = 1<br />

N−1 i<br />

1 2<br />

N−1 x + Nx2 − 2( x) x . Insättning <strong>av</strong> x = ( x)/N ger att<br />

s =<br />

<br />

1<br />

N − 1<br />

<br />

x2 − 1<br />

<br />

2<br />

x<br />

N<br />

. (4.11)<br />

Om vi allts˚a summerar v˚ara x-värden <strong>och</strong> deras kvadrater kan vi direkt beräkna<br />

variansen enligt ovan utan att bilda skillnaderna (xi − x).<br />

4.3 N˚agra sannolikhetsfördelningar<br />

Det finns m˚anga olika sannolikhetstätheter som dyker upp i olika sammanhang<br />

<strong>och</strong> som kan härledas fr˚an tämligen enkla antaganden. Här följer n˚agra exempel.<br />

Tanken med det här <strong>av</strong>snittet är just att ge exempel för att konkretisera.<br />

Dessutom kanske det kan vara bra att g˚a tillbaka <strong>och</strong> titta i när man stöter p˚a<br />

dessa fördelningar senare.<br />

Den enklaste sannolikhetsfördelning kan i viss mening sägas vara den likformiga<br />

fördelningen, som visas i Figur 4.3. Alla värden inom ett intervall är


4.3. N˚AGRA SANNOLIKHETSFÖRDELNINGAR 43<br />

f(x)<br />

1/(a-b)<br />

0<br />

a b<br />

Figur 4.3: En likformig sannolikhetsfördelning är konstant i ett intervall [a,b]<br />

<strong>och</strong> noll utanför.<br />

lika sannolika, <strong>och</strong> värden utanför intervallet är uteslutna. Storleken <strong>av</strong> sannolikhetstätheten<br />

blir omvänt proportionell mot intervallets bredd eftersom ytan<br />

under kurvan skall vara ett ( f(x)dx = 1).<br />

Fördelningen i Figur 4.1) är en s˚a kallad normalfördelning, eller gaussfördelning.<br />

Det är den viktigaste <strong>av</strong> alla sannolikhetsfördelningar. Därför använder<br />

man ofta en särskild beteckning, f(x) = G(x|µ,σ), för en normalfördelning med<br />

medelvärde µ <strong>och</strong> standard<strong>av</strong>vikelse σ. Sannolikhetstätheten G ges <strong>av</strong> uttrycket<br />

G(x|µ,σ) =<br />

1<br />

√ e<br />

2π σ 1<br />

2( x−µ<br />

σ ) 2<br />

x<br />

(4.12)<br />

De olika numeriska konstanterna har de värden de har för att σ skall vara<br />

standard<strong>av</strong>vikelsen, definierad som roten ur variansen, <strong>och</strong> för att totala sannolikhetsinneh˚allet<br />

skall vara ett, enligt ekvation 4.2.<br />

Medelvärdet för normalfördelningen i Figur 4.1 är µ = 105,5 <strong>och</strong> standard-<br />

<strong>av</strong>vikelsen är σ = 2,3. En standardnormal fördelning är en normalfördelning med<br />

medelvärde 0 <strong>och</strong> standard<strong>av</strong>vikelse σ = 1, dvs G(x|0,1) = 1<br />

√ 2π exp − 1<br />

2 x2 . En<br />

s˚adan visas i Figur 4.4. Lägg märke till att om vi har en variabel x fördelad enligt<br />

en normalfördelning med medelvärde µ <strong>och</strong> standard<strong>av</strong>vikelse σ kan vi bilda<br />

z =<br />

x − µ<br />

σ<br />

(4.13)<br />

som har en standardnormal fördelning. Den stokastiska variabeln x ′ = x − µ<br />

har ju medelvärdet noll, men samma spridning som x. Och skalar vi om alla<br />

x-värden med en faktor skalar standard<strong>av</strong>vikelsen med samma faktor. Faktor 1<br />

σ<br />

gör allts˚a att z f˚ar standard<strong>av</strong>vikelsen ett.<br />

Om man drar ett värde z ur en standardnormal fördelning <strong>och</strong> kvadrerar det<br />

f˚ar x = z 2 en fördelning som snabbt faller fr˚an ett maximim vid x = 0 (när de<br />

sannolika z-värdena nära noll kvadreras kommer de ännu närmare noll). Drar<br />

man sex z-värden <strong>och</strong> bildar summan x = 6 i=1 z2 i f˚ar man fördelningen i Figur<br />

4.5. Detta är en s˚a kallad χ2-fördelning med sex ”frihetsgrader” (standardnormala<br />

termer). Ofta betecknar man en variabel som fördelas p˚a detta sätt med


44 KAPITEL 4. SANNOLIKHETER OCH STATISTIK<br />

f(x)<br />

0,5<br />

0<br />

-4 -3 -2 -1 0 1 2 3 4<br />

Figur 4.4: En normalfördelning (gaussfördelning) med medelvärde noll <strong>och</strong><br />

standard<strong>av</strong>vikelse σ = 1. Denna speciella normalfördelning kallas för standardnormal.<br />

f(x)<br />

0.15<br />

0.10<br />

0.05<br />

0<br />

0 5 10 15 20<br />

Figur 4.5: En χ 2 -fördelning med sex frihetsgrader. En s˚adan fördelning f˚as<br />

om man drar sex värden ur en standardnormal fördelning <strong>och</strong> bildar summan<br />

<strong>av</strong> deras kvadrater. Pilarna visar, fr˚an vänster till höger, typvärde, median <strong>och</strong><br />

medelvärde.<br />

χ 2 (chi-kvadrat, eng. ”chi-square”), t.ex.<br />

χ 2 =<br />

6<br />

i=1<br />

z 2 i .<br />

Som synes är fördelningen i Figur 4.5 inte symmetrisk, utan har en ”svans”<br />

som sträcker sig mot höga värden, medan tätheten däremot faller snabbt d˚a<br />

x = χ 2 närmar sig noll. Detta f˚ar till följd att typvärde, median, <strong>och</strong> medelvärde<br />

(de tre pilarna i figuren) inte sammanfaller. Typvärdet är det lägsta <strong>av</strong> de<br />

x<br />

x


4.3. N˚AGRA SANNOLIKHETSFÖRDELNINGAR 45<br />

tre, medelvärdet det högsta. Ju fler frihetsgrader, desto mer symmetrisk blir<br />

fördelningen, <strong>och</strong> den närmar sig asymptotiskt en normalfördelning.<br />

Figur 4.6 visar en exponentiell fördelning, där sannolikhetstätheten faller<br />

exponentiellt med x för positiva x, <strong>och</strong> är noll för x < 0. Sannolikhetstätheten<br />

kan skrivas<br />

f(x|µ) = 1<br />

µ e− x<br />

µ , (4.14)<br />

där µ är medelvärdet <strong>och</strong> konstanten 1<br />

µ garanterar att integralen blir ett. Vi ser<br />

att för x = µ har f fallit med en faktor e−1 jämfört med värdet för x = 0. Ofta<br />

är variabeln x = t en tid, <strong>och</strong> fördelningen beskriver t.ex.sannolikheten för att<br />

en instabil partikel, som ännu inte söderfallit vid tiden noll, ska sönderfalla vid<br />

tiden t. I s˚a fall brukar medelvärdet betecknas med τ istället. Det är partikelns<br />

(medel)livstid.<br />

f(x)<br />

1/μ<br />

0<br />

0 μ<br />

e −1 /μ<br />

Figur 4.6: En exponentiell fördelning <strong>av</strong> positiva värden med medelvärde µ.<br />

Som ett sista exempel tar vi poissonfördelningen. Den är inte en sannolikhetstäthet,<br />

utan ger istället sannoliheter för att f˚a olika heltal. Oftast gäller<br />

det antalet händelser, eller observationer, <strong>av</strong> n˚agot visst slag. För en s˚adan<br />

diskret fördelning blir formlerna för medelvärde <strong>och</strong> varians lite enklare eftersom<br />

man inte behöver integrera, utan kan summera istället. Fördelningens<br />

medelvärde blir t.ex.<br />

∞<br />

µ = νP(ν)<br />

ν=0<br />

där P(ν) är sannolikheten för heltalet ν. Poissonfördelningen med medelvärdet<br />

µ ges <strong>av</strong> uttrycket<br />

−µ µν<br />

P(ν|µ) = e (4.15)<br />

ν!<br />

För att˚ask˚adliggöra en s˚adan diskret fördelning är det lämpligt att använda ett<br />

stapeldiagram som i Figur 4.7. Sannolikheten är ju bara definierad för heltal, s˚a<br />

man bör inte rita en kontinuerlig kurva. Poissonfördelningen har den speciella<br />

x


46 KAPITEL 4. SANNOLIKHETER OCH STATISTIK<br />

P(ν)<br />

0.25<br />

0.2<br />

0.15<br />

0.1<br />

0.05<br />

0<br />

0 2 4 6 8 10<br />

Figur 4.7: En poissonfördelning med medelvärde µ = 2,3. Detta är en diskret<br />

fördelning <strong>av</strong> heltalsvärden,<strong>och</strong> ingen sannolikhetstäthet. Fördelningen anger<br />

sannolikheten för olika heltal ν.<br />

egenskapen att variansen är lika med medelvärdet,<br />

σ 2 = µ , (4.16)<br />

vilket betyder att om vi vet att en observation <strong>av</strong> ett antal är dragen ur en<br />

poissonfördelning kan vi uppskatta b˚ade fördelningens medelvärde <strong>och</strong> standard<strong>av</strong>vikelse<br />

utifr˚an denna enda observation <strong>av</strong> ett antal ν:<br />

µ = ν<br />

σ = √ ν .<br />

4.4 Statistisk feluppskattning <strong>och</strong> felpropagering<br />

Om vi mäter en storhet x en g˚ang kan slumpmässiga <strong>av</strong>vikelser fr˚an det sanna<br />

värdet xs beskrivas <strong>av</strong> en sannolikhetsfördelning. Dess medelvärde µ = xs är det<br />

sanna värde vi vill bestämma 3 , <strong>och</strong> standard<strong>av</strong>vikelsen σx är ett m˚att p˚a den<br />

typiska <strong>av</strong>vikelsen fr˚an detta värde. Men den typiska <strong>av</strong>vikelsen fr˚an det sanna<br />

värdet är ju just osäkerheten i mätningen. Om vi känner standard<strong>av</strong>vikelsen<br />

kan vi allts˚a ange osäkerheten som<br />

∆x = σx<br />

Om vi vill bestämma värdet <strong>och</strong> osäkerheten p˚a en annan storhet a som är en<br />

funktion <strong>av</strong> x sätter vi först˚as in resultatet <strong>av</strong> v˚ar x-mätning i funktionsuttrycket<br />

för a(x). I princip m˚aste vi därför bestämma hur den stokastiska variabeln a(x)<br />

är fördelad. Det kan vara besvärligt att göra detta för en godtycklig funktion<br />

3 Om vi kan försumma, eller i alla fall för tillfället ignorera, systematiska fel.<br />

ν


4.4. STATISTISK FELUPPSKATTNING OCH FELPROPAGERING 47<br />

<strong>och</strong> för stora osäkerheter, men om <strong>av</strong>vikelserna är tillräckligt sm˚a fungerar en<br />

linjär approximation. I s˚a fall kan vi skriva förväntansvärdet (medelvärdet) <strong>av</strong><br />

a(x) enligt ekvation 4.6:<br />

<br />

<br />

E(a(x)) = a(x)f(x)dx = a(xs) + da<br />

<br />

(x − xs) f(x)dx<br />

dx<br />

där a(xs) = as är det sanna värdet <strong>av</strong> a <strong>och</strong> derivatan är konstant inom det<br />

omr˚ade där f(x) inte är försumbart. Ovanst˚aende integral kan delas upp enligt<br />

E(a(x)) = as<br />

<br />

f(x)dx+ da<br />

<br />

dx<br />

xf(x)dx − xs<br />

<br />

<br />

f(x)dx = as+ da<br />

dx (µ−xs) ,<br />

där den sista likheten följer <strong>av</strong> uttrycket för fördelningens medelvärde µ (ekvation<br />

4.5) <strong>och</strong> normeringen <strong>av</strong> sannolikhetstätheten ( f(x)dx = 1). Eftersom<br />

medelvärdet µ = E(x) är lika med det sanna värdet xs ser vi att<br />

E(a(x)) = a(E(x)) . (4.17)<br />

Detta är ett matematiskt samband som gäller om a är en linjär funktion <strong>av</strong> x.<br />

Här identifierar vi E(x) = µ med det sanna värdet xs, men själva räkningen<br />

fungerar lika bra utan att vi inför n˚agot sant värde. Uttryckt i ord säger ekvation<br />

4.17 att medelvärdet <strong>av</strong> en funktion kan vi f˚a genom att i funktionsuttrycket<br />

sätta in medelvärdet <strong>av</strong> variabeln.<br />

Vi behöver ocks˚a bestämma hur stora variationerna i a(x) är, dvs. bestämma<br />

standard<strong>av</strong>vikelsen för a(x). Vi börjar med kvadraten <strong>av</strong> standard<strong>av</strong>vikelsen,<br />

allts˚a variansen. Den ges <strong>av</strong> ekvation 4.7, där vi f˚ar byta ut x mot a(x) <strong>och</strong><br />

medelvärdet µ = E(x) mot E(a(x)). Om vi använder ekvation 4.17 f˚ar vi<br />

V (a) = E (a(x) − E(a(x)) 2 = E (a(x) − a(µ)) 2 =<br />

E a(x) 2 + a(µ) 2 − 2a(x)a(µ) <br />

Eftersom E betecknar en integration som i ekvation 4.6 kan vi dela upp det<br />

sista ledet:<br />

V (a) = E a(x) 2 + a(µ) 2 − 2a(µ)E(a(x))<br />

Den sista termen kan nu skrivas om enligt ekvation 4.17, <strong>och</strong> i den första termen<br />

kan vi ˚aterigen anta att a kan anses (eller approximeras som) linjär. Vi f˚ar att<br />

V (a) = E a(µ) + da<br />

<br />

2<br />

(x − µ) − a(µ)<br />

dx 2<br />

<strong>och</strong> om vi utvecklar kvadraten <strong>och</strong> tar ut konstanter ur väntevärdesintegralerna<br />

f˚ar vi<br />

<br />

V (a) = E a(µ) 2 2 da<br />

+ (x − µ) + 2a(µ)<br />

dx da<br />

<br />

(x − µ) − a(µ)<br />

dx 2 =<br />

a(µ) 2 +<br />

2 da<br />

dx<br />

E((x − µ) 2 ) + 2a(µ) da<br />

E(x − µ) − a(µ)2<br />

dx<br />

.<br />

,<br />

.


48 KAPITEL 4. SANNOLIKHETER OCH STATISTIK<br />

Men E(x − µ) = 0 <strong>och</strong> E((x − µ) 2 ) = V (x) = σ2 x, s˚a<br />

2 da<br />

V (a) = σ<br />

dx<br />

2 x .<br />

Standard<strong>av</strong>vikelsen för a blir allts˚a<br />

σa = da<br />

dx σx<br />

(4.18)<br />

Detta resultat för σa är egentligen självklart! Vi har approximerat a med en<br />

linjär funktion. Det betyder att a-värdena f˚as fr˚an x-värdena genom en translation<br />

<strong>och</strong> en ändring <strong>av</strong> skalan. Fördelningen ser allts˚a likadan ut, men den<br />

hamnar p˚a ett annat ställe <strong>och</strong> bredden ändras med en faktor da<br />

dx .<br />

Ekvation 4.18 är felfortplantningsformeln, ekvation 3.7, för en variabel. Nu<br />

antar vi att vi har mätningar <strong>av</strong> tv˚a oberoende variabler, x <strong>och</strong> y som beskrivs<br />

<strong>av</strong> sannolikhetstätheter f(x) <strong>och</strong> g(y) med medelvärden µx <strong>och</strong> µy <strong>och</strong> standard<strong>av</strong>vikelser<br />

σx <strong>och</strong> σy. Att variablerna är oberoende betyder att sannolikheten<br />

f(x)dx för att hamna i ett litet intervall dx är oberoende <strong>av</strong> vilket värde ymätningen<br />

g<strong>av</strong> <strong>och</strong> vice versa. Sannolikheten för att x ska hamna i intervallet<br />

dx samtidigt som y hamnar i intervallet dy blir d˚a f(x)g(y)dxdy. Om vi upprepar<br />

mätningarna m˚anga g˚anger kommer ju en andel f(x)dx att hamna i dx<br />

<strong>och</strong> <strong>av</strong> den andelen kommer en andel g(y)dy att hamna i dy.<br />

Vi vill nu bestämma medelvärde <strong>och</strong> standard<strong>av</strong>vikelse för en funktion a =<br />

a(x,y) som beror p˚a b˚ada variablerna. Räkningarna blir väldigt lika envariabelfallet<br />

som behandlades ovan. Istället för att som i <strong>av</strong>snitt 4.2 integrera över x-<br />

axeln m˚aste vi nu integrera över xy-planet när vi bildar väntevärden. Medelvärdet<br />

<strong>av</strong> a blir<br />

<br />

E(a(x,y)) = a(x,y)f(x)g(y)dxdy , (4.19)<br />

vilket vi kan skriva som<br />

<br />

E(a(x,y)) =<br />

<br />

dy g(y)<br />

dx a(x,y)f(x)<br />

<strong>och</strong> utföra integrationen över x först, för y fixt. Ekvation 4.17 ger d˚a att E(a(x,y)) =<br />

dy g(y)a(µx,y). Nu är a(µx,y) en funktion <strong>av</strong> en variabel, s˚a ekvation 4.17<br />

ger att<br />

E(a(x,y)) = a(µx,µy) (4.20)<br />

En förutsättning är liksom tidigare att a kan behandlas som en linjär funktion.<br />

För funktioner som faktiskt är linjära blir sambandet exakt. Vi ser till exempel<br />

att a = x + y ger<br />

E(x + y) = µx + µy ,<br />

dvs. medelvärdet <strong>av</strong> en summa är summan <strong>av</strong> medelvärdena. Detta beror p˚a att<br />

integralen <strong>av</strong> en summa är summanP <strong>av</strong> integralerna. P P Motsvarande gäller ocks˚a<br />

(x+y) x+ y<br />

aritmetiska medelvärden: x + y = N = N = x + y. Det är ganska<br />

självklart, men viktigt!<br />

När vi nu har medelvärdet <strong>av</strong> a kan vi bestämma variansen som tidigare<br />

(”E()” betecknar nu integration över xy-planet, men fortfarande är E(C) = C<br />

om C är en konstant):<br />

V (a) = E [a(x,y) − E(a(x,y))] 2 = E [a(x,y) − a(µx,µy)] 2 =


4.4. STATISTISK FELUPPSKATTNING OCH FELPROPAGERING 49<br />

E a(x,y) 2 + a(µx,µy) 2 − 2a(x,y)a(µx,µy) =<br />

Ekvation 4.20 ger nu att<br />

E a(x,y) 2 + a(µx,µy) 2 − 2a(µx,µy)E(a(x,y))<br />

V (a) = E(a(x,y) 2 ) − a(µx,µy) 2<br />

där vi ˚aterigen approximerar a som linjär, men nu som en funktion <strong>av</strong> tv˚a<br />

variabler. Vi betraktar allts˚a partialderivatorna som konstanta, <strong>och</strong> f˚ar att<br />

V (a) = E a(µx,µy) + ∂a<br />

∂x (x − µx) + ∂a<br />

<br />

2<br />

(y − µy) − a(µx,µy)<br />

∂y 2 =<br />

2a(µx,µy) ∂a<br />

∂x<br />

<br />

E a(µx,µy) 2 2 2 ∂a<br />

∂a<br />

+ (x − µx) + (y − µy) +<br />

∂x ∂y<br />

(x−µx)+2a(µx,µy) ∂a<br />

∂y<br />

∂a ∂a<br />

(y−µy)+2 (x−µx)<br />

∂x ∂y (y−µy)<br />

<br />

−a(µx,µy) 2<br />

Eftersom vi integrerar b˚ade över x <strong>och</strong> y <strong>och</strong> f(x)(x − µx)dx = g(y)(y −<br />

µy)dy = 0 kommer de tre dubbla produkterna att integreras till noll. Dessutom<br />

blir E(a(µx,µy) 2 ) = a(µx,µy) 2 eftersom a(µx,µy) 2 är en konstant. Eftersom<br />

derivatorna kan anses konstanta kan vi flytta ut dem ur förväntansvärdesintegralerna.<br />

Kvar blir<br />

V (a) =<br />

2 ∂a<br />

E<br />

∂x<br />

(x − µx) 2 +<br />

<br />

∂a<br />

∂y<br />

2<br />

E (y − µy) 2 =<br />

I termer <strong>av</strong> standard<strong>av</strong>vikelser kan detta skrivas som<br />

<br />

<br />

∂a<br />

σa =<br />

∂x σx<br />

2 <br />

∂a<br />

+<br />

∂y σy<br />

2 ,<br />

2 ∂a<br />

V (x)+<br />

∂x<br />

<br />

∂a<br />

∂y<br />

<strong>och</strong> vi kan generalisera till det fall att vi har N stycken variabler xi;i = 1,N,<br />

istället för x <strong>och</strong> y: <br />

<br />

<br />

∂a<br />

σa =<br />

2 . (4.21)<br />

σi<br />

∂xi<br />

Här har vi betecknat standard<strong>av</strong>vikelsen för xi med σi. Vi ser att vi har visat<br />

ekvation 3.7 om vi identifierar v˚art ”typiska fel” ∆x med standard<strong>av</strong>vikelsen<br />

σx. Om a är en enkel summa,<br />

blir partialderivatorna ett <strong>och</strong><br />

a = x + y ,<br />

σ 2 a = σ 2 x + σ 2 y . (4.22)<br />

När vi adderar tv˚a oberoende variabler (fel) adderas allts˚a varianserna, medan<br />

standard<strong>av</strong>vikelserna (osäkerheterna) adderas kvadratiskt, som i ekvation 3.5.<br />

I det ovanst˚aende resonemanget använde jag standard<strong>av</strong>vikelserna för mätningarna<br />

<strong>av</strong> x <strong>och</strong> y. Det är dock inte alls säkert att vi vet hur stora de är.<br />

2<br />

V (y) .


50 KAPITEL 4. SANNOLIKHETER OCH STATISTIK<br />

Tvärtom behöver vi ofta mäta x flera g˚anger för att f˚a en uppfattning om spridningen<br />

mellan olika mätningar. I föreg˚aende <strong>av</strong>snitt s˚ag vi att utifr˚an N värden<br />

dragna fr˚an en sannolikhetsfördelning kan uppskatta dess medelvärde som det<br />

PN<br />

aritmetiska medelvärdet, x, <strong>och</strong> dess standard<strong>av</strong>vikelse som s =<br />

1 (xi−bµ)2<br />

N−1<br />

Den typiska <strong>av</strong>vikelsen är ju just vad vi önskar ange som fel, s˚a man kanske<br />

kan tycka att vi borde skriva resultatet <strong>av</strong> v˚ar mätning som x ± s. Men s är<br />

den typiska <strong>av</strong>vikelsen <strong>av</strong> ett mätvärde fr˚an det sanna värdet µ. När vi bildar<br />

medelvärdet <strong>av</strong> N mätningar f˚ar vi n˚agot som har en mindre standard<strong>av</strong>vikelse<br />

(i gränsen N → ∞ gäller ju att x → µ). Vi m˚aste P allts˚a ta fram standar-<br />

xi<br />

d<strong>av</strong>vikelsen för den stokastiska variabeln x = N , vilket är lätt gjort med<br />

ekvation 4.21. Medelvärdet x är ju en funktion <strong>av</strong> de N värdena xi, all dragna<br />

ur samma förelning, <strong>och</strong> ∂x<br />

∂xi = 1 N , s˚a<br />

<br />

<br />

<br />

σx = <br />

<br />

1<br />

N σx<br />

<br />

<br />

2<br />

= N<br />

i<br />

<br />

1<br />

N σx<br />

2 eftersom alla termerna i summan är identiska. Vi f˚ar allts˚a att<br />

σx = σx<br />

√N . (4.23)<br />

Detta är en mycket viktig formel. Den beskriver hur vi kan minska spridningen<br />

runt medelvärdet (felet) genom att göra flera mätningar. Faktorn √ N som<br />

beskriver hur v˚ar osäkerhet minskar förekommer alltid när man samlar in data<br />

för att bestämma n˚agonting. Om vi vill minska den statistiska osäkerheten till<br />

en tiondel, t.ex., m˚aste vi allts˚a göra 100 g˚anger s˚a m˚anga mätningar.<br />

Om vi upprepar en mätning flera g˚anger <strong>och</strong> bildar medelvärdet f˚ar vi allts˚a<br />

en mindre statistisk osäkerhet, vilket är bra. Dessutom kan vi bestämma den<br />

statistiska osäkerheten, vilket är ännu bättre. För att göra detta uppskattar vi<br />

standard<strong>av</strong>vikelsen enligt ekvation 4.10. I praktiken kan vi kalla v˚ar uppskattning<br />

för σx istället för s. Ibland är vi intresserade <strong>av</strong> spridningen σx för de<br />

enskilda mätningarna, men för att ta fram ett fel i v˚ar bestämning <strong>av</strong> det sanna<br />

värdet (fördelningens medelvärde) dividerar vi med √ N.<br />

4.5 Att kombinera mätresultat<br />

Antag att vi mäter flera g˚anger för att bestämma medelvärdet <strong>av</strong> en fördelning.<br />

För att vara lite konkreta kan vi tänka oss att vi mäter tyngdaccelerationen g.<br />

Vi mäter fyra g˚anger, f˚ar värdena ga,i,i = 1,4, beräknar medelvärdet som vi<br />

kan kalla ga, <strong>och</strong> uppskattar medelvärdets standard<strong>av</strong>vikelse som σa = s<br />

√ 4 , där<br />

s enligt ekvation 4.10 är v˚ar uppskattning <strong>av</strong> standard<strong>av</strong>vikelsen σ i en enskild<br />

mätning. V˚art resultat för tyngdaccelerationen blir d˚a<br />

g = ga ± σa .<br />

Egendomligt nog visar det sig att n˚agon annan r˚akar ha gjort exakt samma typ<br />

<strong>av</strong> mätningar med samma apparatur. Denne person är dock en riktig streber<br />

<strong>och</strong> har gjort 16 mätningar, gb,j,j = 1,16. Hans resultat är<br />

g = gb ± σb .<br />

.


4.5. ATT KOMBINERA MÄTRESULTAT 51<br />

Eftersom vi nu har 20 mätningar totalt vill vi använda allihop för att f˚a fram<br />

ett bästa värde p˚a g. Vi bildar medelvärdet <strong>av</strong> de 20 mätningarna:<br />

g =<br />

4<br />

i=1 ga,i + 16<br />

j=1 gb,j<br />

4 + 16<br />

Om vi l˚ater Na = 4 vara antalet mätningar vi gjort, <strong>och</strong> Nb = 16 antalet som<br />

gjorts <strong>av</strong> den andra personen, s˚a att totala antalet mätningar är N = Na + Nb,<br />

kan vi uttrycka ovanst˚aende direkt i v˚ara respektive mätseriers medelvärden<br />

som<br />

g = Naga + Nbgb<br />

. (4.24)<br />

N<br />

Varje medelvärde f˚ar allts˚a en vikt som svarar mot antalet mätningar det baserats<br />

p˚a. Vi skulle ocks˚a kunna beräkna standard<strong>av</strong>vikelsen för alla 20 värdena,<br />

men istället utnyttjar vi de uppskattade standard<strong>av</strong>vikelserna i medelvärdena<br />

ga <strong>och</strong> gb. De är baserade p˚a standard<strong>av</strong>vikelsen i en enskild mätning, σ, som<br />

vi kan betrakta som välbestämd i b˚ada mätserierna. Ekvation 4.23 betyder d˚a<br />

att<br />

σa = σ/ Na<br />

σb = σ/ Nb<br />

σg = σ/ √ N<br />

Om vi löser ut Na, Nb <strong>och</strong> N ur ovanst˚aende ger sedan sambandet N = Na+Nb<br />

att<br />

1<br />

σ 2 g<br />

= 1<br />

σ2 +<br />

a<br />

1<br />

σ2 b<br />

.<br />

. (4.25)<br />

Vi kan ocks˚a sätta in uttrycken för Na, Nb <strong>och</strong> N i ekvation 4.24 <strong>och</strong> f˚a<br />

g =<br />

1<br />

σ2 ga +<br />

a<br />

1<br />

σ2 gb<br />

b<br />

1<br />

σ2 +<br />

a<br />

1<br />

σ2 b<br />

. (4.26)<br />

Det enda som ing˚ar i de tv˚a ekvationerna ovan är de tv˚a resultaten g = ga ± σa<br />

resp. g = gb ± σb. Vi behöver allts˚a inte vet hur m˚anga mätningar som gjordes,<br />

eller vad de enskilda mätningarna g<strong>av</strong>. Allt vi behöver för att kombinera de tv˚a<br />

resultaten är just de tv˚a resultaten. Vi generaliserar nu till det fall d˚a vi kombinerar<br />

N mätserier (vi behöver inte längre symbolen N för antalet mätningar i<br />

en serie). Resultatet <strong>av</strong> mätserie i blir en uppskattning xi för en storhet x, med<br />

osäkerhet σi. Det resulterande medelvärdet kan vi t.ex. beteckna med xwa där<br />

wa st˚ar för ”weighted <strong>av</strong>erage”, eller viktat medelvärde. Det viktade medelvärdet<br />

med fel beräknas allts˚a enligt<br />

wi = 1<br />

σ2 ; i = 1,N<br />

i<br />

<br />

i<br />

xwa =<br />

wixi<br />

<br />

i wi<br />

σwa =<br />

1<br />

<br />

i wi<br />

(4.27)


52 KAPITEL 4. SANNOLIKHETER OCH STATISTIK<br />

Här har vi tänkt oss att vi kombinerar resultaten fr˚an N stycken mätserier<br />

som endast skiljer sig ˚at genom att de inneh˚aller olika m˚anga mätningar, men<br />

det viktade medelvärdet är mycket mer allmänt användbart än s˚a. Antag att<br />

v˚ar vän i själva verket inte bringade ned sin osäkerhet till hälften <strong>av</strong> v˚ar genom<br />

att mäta 16 g˚anger. Han kanske istället hittat ett bättre sätt att mäta som<br />

minskade spridningen <strong>och</strong> gjorde att han fick hälften <strong>av</strong> v˚ar osäkerhet, trots<br />

att han mätt lika m˚anga g˚anger som vi. Det spelar egentligen ingen roll hur<br />

han minskat sitt fel. Vi kan l˚atsas att han vunnit i precision genom att öka<br />

antalet mätningar, vilket betyder att ekvation 4.27 fortfarande fungerar för att<br />

kombinera resultaten.<br />

Det viktade medelvärdet kan allts˚a användas för att att kombinera mätningar<br />

<strong>av</strong> en <strong>och</strong> samma storhet som har olika statistisk precision. Vikten 1<br />

σ2 innebär<br />

att om vissa fel är betydligt större än andra kommer de inte att p˚<strong>av</strong>erka det viktade<br />

medelvärdet särskilt mycket. Om vi ska kombinera mätningar med olika<br />

systematiska osäkerheter är det viktade medelvärdet faktiskt ocks˚a en rimlig<br />

metod. Vi kan tänka oss att de systematiska osäkerheterna svarar mot en standard<strong>av</strong>vikelse<br />

i n˚agon mätning som vi inte har möjlighet att göra om. Ibland<br />

kanske detta är sant, ibland är felen inte alls s˚a väldefinierade. I det senare fallet<br />

är först˚as felet i det viktade medelvärdet inte väldefinierat heller.<br />

Om man bildar ett viktat medelvärde m˚aste man kontrollera att värdena<br />

inte <strong>av</strong>viker för mycket fr˚an varandra. Om t.ex. en mätning ger ga = (9,71 ±<br />

0,005)m/s2 <strong>och</strong> en annan ger gb = (9,82 ± 0,005)m/s2 skulle ett viktat medelvärde<br />

bli (9,765 ± 0,004)m/s2 . B˚ada värdena ligger l˚angt bortom felgränserna<br />

för medelvärdet, vilket betyder att felet är underskattat. Om vi bildar skillnaden<br />

mellan de tv˚a värdena <strong>och</strong> beräknar felet i den f˚ar vi gb−ga = (0,11±0,01)m/s 2 .<br />

Detta värde skiljer sig fr˚an noll med 11 g˚anger felintervallet (mer faktiskt, för<br />

felet är <strong>av</strong>rundat fr˚an 0,07m/s2 ).Allts˚a är de tv˚a mätningarna inte förenliga<br />

med varandra. Det m˚aste finnas n˚agot systematiskt fel som vi inte tagit hänsyn<br />

till. Innan vi kombinerar de tv˚a värdena m˚aste vi identifiera <strong>och</strong> uppskatta det<br />

systematiska felet. Om vi inte kan göra n˚agon meningsfull uppskattning <strong>av</strong> det<br />

m˚aste vi i alla fall <strong>av</strong>göra vilket <strong>av</strong> de tv˚a oförenliga värdena vi väljer att lita<br />

p˚a.<br />

En annan sak att tänka p˚a när man bildar viktade medelvärden är att felen<br />

kan inneh˚alla gemensamma systematiska komponenter. Antag att vi vill<br />

bestämma g genom att släppa en kula fr˚an en ställning <strong>och</strong> mäta falltiden, <strong>och</strong><br />

gör tv˚a mätserier med olika tidtagare. För varje s˚adan serie kan vi f˚a fram ett g,<br />

<strong>och</strong> felet kan vi f˚a genom att bestämma spridningen i tidtagningen <strong>och</strong> använda<br />

felpropagering, där ocks˚a felet i ställningens höjd kommer in. Om vi nu vill<br />

kombinera de tv˚a värdena p˚a g bidrar en <strong>och</strong> samma mätning <strong>av</strong> ställningens<br />

höjd till osäkerheten i b˚ada. Det gör att vi inte utan vidare kan bilda ett viktat<br />

medelvärde4 . Istället bör vi först helt strunta i felet i h <strong>och</strong> beräkna v˚art viktade<br />

medelvärde baserat p˚a de oberoende felen fr˚an tidsmätningarna. Vi kan göra<br />

om detta för olika värden p˚a h <strong>och</strong> allts˚a genom störningsräkning bestämma effekten<br />

<strong>av</strong> osäkerheten i h. Slutligen kan vi kvadratiskt addera osäkerheten fr˚an<br />

det viktade medelvärdet till osäkerheten fr˚an h enligt ekvation 3.6. Dessutom<br />

4 För att se att det inte fungerar kan vi tänka oss att vi lyckats bestämma falltiden s˚a<br />

exakt att det enda felet som betyder n˚agot är felet i höjden. Det betyder att de tv˚a värdena<br />

egentligen är ett <strong>och</strong> samma resultat eftersom vi använder samma värde för höjden. Om vi<br />

använder formel 4.26 kommer felet i detta resultat att minska med en faktor √ 2 utan att vi<br />

tillför n˚agon ny information. Detta är uppenbarligen nonsens.


4.6. NORMALFÖRDELNINGEN OCH CENTRALA GRÄNSVÄRDESSATSEN53<br />

bör man redovisa det systematiska felet fr˚an h-mätningen <strong>och</strong> det statistiska<br />

felet fr˚an tidsmätningarna var för sig.<br />

4.6 Normalfördelningen <strong>och</strong> centrala gränsvärdessatsen<br />

Vi har redan nämnt att normalfördelningen (gaussfördelningen) i ekvation 4.12<br />

är speciellt viktig:<br />

G(x|µ,σ) =<br />

1<br />

√ e<br />

2π σ 1<br />

2( x−µ<br />

σ ) 2<br />

Det beror p˚a att om vi adderar tv˚a oberoende variabler är det inte bara s˚a<br />

att varianserna adderas som i ekvation 4.22, dessutom blir summans fördelning<br />

mer lik en normalfördelning. Detta illustreras i Figur 4.8. Jag har genererat<br />

10000<br />

8000<br />

6000<br />

4000<br />

2000<br />

0<br />

0 0.5 1<br />

x<br />

20000<br />

17500<br />

15000<br />

12500<br />

10000<br />

7500<br />

5000<br />

2500<br />

0<br />

0 1 2<br />

x+y<br />

40000<br />

35000<br />

30000<br />

25000<br />

20000<br />

15000<br />

10000<br />

5000<br />

0<br />

0 1 2 3<br />

x+y+z<br />

Figur 4.8: Histogram över fördelningen <strong>av</strong> ett likformigt fördelat värde, samt<br />

summan <strong>av</strong> tv˚a resp. tre s˚adana värden som är oberoende.<br />

10 6 uppsättningar <strong>av</strong> tre värden (x,y,z) som alla är dragna ur en likformig<br />

sannolikhetsfördelning mellan noll <strong>och</strong> ett. Sedan har jag histogrammerat x,<br />

x + y <strong>och</strong> x + y + z. Fördelningen <strong>av</strong> en summa <strong>av</strong> tv˚a oberoende variabler<br />

dragna ur samma likformiga fördelning blir tydligen triangulär. Detta är ganska<br />

naturligt. För att f˚a värdet i mitten (1 i det här fallet, kan vi välja vilket värde<br />

som helst p˚a x, <strong>och</strong> sedan y = 1 − x, Men om vi ska f˚a summan 1,5 kan vi<br />

inte välja x under 0,5, för i s˚a fall finns det inga y som är stora nog. Om vi<br />

adderar den tredje variabeln, z, f˚ar vi som synes n˚agot som är tämligen likt en<br />

normalfördelning.<br />

Att en summa <strong>av</strong> oberoende termer blir (approximativt) normalfördelad kan<br />

sägas vara det viktigaste resultatet inom statistiken. Det uttrycks genom den<br />

centrala gränsvärdessatsen, som lyder:<br />

Summan N<br />

i=1 xi, där alla xi är dragna ur en <strong>och</strong> samma<br />

fördelning med ändlig varians <strong>och</strong> standard<strong>av</strong>vikelse, blir normalfördelad<br />

i gränsen N → ∞.<br />

Faktum är att kr<strong>av</strong>et p˚a ”en <strong>och</strong> samma fördelning” kan ersättas med mycket<br />

mildare villkor, s˚a att även en summa där alla termer är dragna ur olika<br />

fördelningar blir normalfördelad i gränsen N → ∞. Figur 4.9 visar histogram<br />

<strong>av</strong> värden dragna ur tolv p˚a m˚af˚a valda fördelningar som är ganska olika. Om<br />

vi drar ett värde ur varje fördelning <strong>och</strong> adderar alla tolv f˚ar vi fördelningen i


54 KAPITEL 4. SANNOLIKHETER OCH STATISTIK<br />

20000<br />

15000<br />

10000<br />

5000<br />

0<br />

-2 0<br />

x1 2<br />

10000<br />

7500<br />

5000<br />

2500<br />

0<br />

-2 0<br />

x4 2<br />

15000<br />

10000<br />

5000<br />

0<br />

x 10<br />

10000<br />

5000<br />

0<br />

1 1.5<br />

x 7<br />

0 0.5<br />

x 10<br />

15000<br />

10000<br />

5000<br />

0<br />

6000<br />

4000<br />

2000<br />

0<br />

30000<br />

20000<br />

10000<br />

0<br />

40000<br />

30000<br />

20000<br />

10000<br />

0<br />

0 1 2<br />

x 2<br />

0 0.5 1<br />

x 5<br />

0 0.5 1<br />

x 8<br />

0 0.5 1<br />

x 11<br />

40000<br />

30000<br />

20000<br />

10000<br />

0<br />

10000<br />

7500<br />

5000<br />

2500<br />

0<br />

10000<br />

7500<br />

5000<br />

2500<br />

0<br />

x 10 2<br />

1500<br />

1000<br />

500<br />

0<br />

-2 0 2<br />

x 3<br />

-0.5 0 0.5<br />

x 6<br />

0 1 2<br />

x 9<br />

Figur 4.9: Histogram över tolv sannolikhetsfördelningar.<br />

1 1.5 2<br />

x 12<br />

Figur 4.10. Som synes är summans fördelning nära en normalfördelning. Lägg<br />

dock märke till att om vi t.ex. skulle lägga till en variabel dragen ur en likformig<br />

fördelning mellan 0 <strong>och</strong> 100 skulle den dominera, <strong>och</strong> summans fördelning skulle<br />

mest likna den likformiga. Det gäller att m˚anga variabler med ungefär samma<br />

spridning samverkar för att vi ska f˚a en normalfördelning, eller att den eller de<br />

termer som dominerar är normalfördelade. Om vi adderar variabler dragna ur<br />

olika normalfördelningar blir summan nämligen exakt normalfördelad 5 .<br />

Det är mycket ofta m˚anga olika variationer som bestämmer värdet <strong>av</strong> en<br />

storhet. Var <strong>och</strong> en <strong>av</strong> dem bidrar med en ändring <strong>av</strong> storhetens värde, <strong>och</strong><br />

bidragen adderas. Detta gör att normalfördelade storheter är mycket vanliga.<br />

Antalet ton torsk som fiskas i november, till exempel, beror bland annat p˚a<br />

5 Detta följer ur centrala gränsvärdessatsen: Om vi har tv˚a normalfördelade variabler kan<br />

vi skriva var <strong>och</strong> en <strong>av</strong> dem som en summa där antalet termer g˚ar mot oändligheten. Summan<br />

<strong>av</strong> de tv˚a blir ocks˚a en s˚adan summa.


4.6. NORMALFÖRDELNINGEN OCH CENTRALA GRÄNSVÄRDESSATSEN55<br />

60000<br />

50000<br />

40000<br />

30000<br />

20000<br />

10000<br />

0<br />

-2 0 2 4 6 8 10 12<br />

Σ x i<br />

Figur 4.10: Fördelning <strong>av</strong> summan <strong>av</strong> tolv oberoende variabler, en fr˚an var <strong>och</strong><br />

en <strong>av</strong> fördelningarna i Figur 4.9. Den streckade kurvan är en normalfördelning.<br />

oljepris, stormfrekvens, epidemier bland kustbefolkningen, torskens tillg˚ang till<br />

bytesfisk, motorh<strong>av</strong>erier, <strong>och</strong> efterfr˚agan bland konsumenterna. Var <strong>och</strong> en <strong>av</strong><br />

dessa saker beror i sin tur p˚a m˚anga andra. Vi kan därför förvänta oss att<br />

mängden uppdragen torsk är ungefär normalfördelad. (Eller kanske inte änd˚a,<br />

eftersom den regleras <strong>av</strong> fiskekvoter som den inte till˚ats överskrida. Enda sättet<br />

att ta reda p˚a om en normalfördelning faktiskt är en god approximation är att<br />

samla in statistik över f˚angsterna.)<br />

Ett annat viktigt exempel är när vi gör en mätning. Om vi placerar en boll<br />

p˚a ett lutande plan <strong>och</strong> med tidtagarur mäter hur l˚ang tid det tar för den att<br />

rulla en viss sträcka f˚ar vi inte alltid samma tid. Det kan bero p˚a att vi r˚akar<br />

trycka vid fel tidpunkt därför att n˚agon sade n˚agot intressant, eller att vi höll<br />

huvudet lite snett s˚a att vi inte s˚ag bollens läge korrekt. Eller kanske vi trycker<br />

olika h˚art, <strong>och</strong> det p˚<strong>av</strong>erkar klockan. Kanske placerar vi bollen lite olika l˚angt<br />

upp p˚a planet s˚a att den tar lite mer eller mindre tid p˚a sig än den borde.<br />

Kanske knäpper vi lite före eller efter att bollen släpps. S˚adana slumpmässiga<br />

fel adderas <strong>och</strong> det är rimligt att anta att v˚ara mätvärden kan beskrivas <strong>av</strong> en<br />

normalfördelning.<br />

Integralen µ+σ<br />

G(x|µ,σ)dx har värdet 0,683. Detta innebär att sanno-<br />

µ−σ<br />

likheten för att en normalfördelad variabel ska hamna inom ±σ fr˚an medelvärdet<br />

är 68,3%. Figur 4.11 illustrerar detta. Motsvarande sannolikheter för ±2σ <strong>och</strong>


56 KAPITEL 4. SANNOLIKHETER OCH STATISTIK<br />

±3σ är 95,5% <strong>och</strong> 99,7%. Eftersom normalfördelningen är s˚a fundamental<br />

f(x)<br />

1/(√2 ⎯<br />

π σ)<br />

0<br />

68,3%<br />

μ-3σ μ-2σ μ-σ μ μ+σ μ+2σ μ+3σ<br />

95,5%<br />

99,7%<br />

Figur 4.11: En normalfördelning <strong>och</strong> sannolikhetsinneh˚all inom en, tv˚a, respektive<br />

tre standard<strong>av</strong>vikelser fr˚an medelvärdet.<br />

behöver man ganska ofta ta fram sannolikheten för att den ska ge ett värde<br />

i n˚agot visst intervall. Olyckligtvis kan integralen inte beräknas analytiskt, utan<br />

man f˚ar använda programbibliotek eller tabeller. Det räcker med en tabell för<br />

en standardnormal fördelning. Vill man t.ex. vet sannolikheten att f˚a ett värde<br />

lägre än µ + 0,2σ kan man g˚a in en s˚adan tabell <strong>och</strong> läsa <strong>av</strong> vid 0,2, vilket är<br />

µ + 0,2σ för den standardnormala fördelningen. (Man utnyttjar det faktum att<br />

z i ekvation 4.13 är standardnormal om x är normalfördelad med parametrarna<br />

µ <strong>och</strong> σ.)<br />

x


Kapitel 5<br />

Att uppskatta fel<br />

När man bestämmer n˚agon storhet genom att göra mätningar, eller genom<br />

beräkningar baserade p˚a andras mätningar, m˚aste man uppskatta osäkerheten i<br />

bestämningen. Det kan vara frestande att ta till ordentligt för att vara säker p˚a<br />

att inte underskatta felet. Om man har att välja mellan att underskatta osäkerheten<br />

eller att överskatta den är det rimligt att tänka s˚a, men det gäller att inte<br />

göra n˚agotdera utan istället uppskatta storleken <strong>av</strong> det typiska felet.<br />

Som ett absolut minimum kan man h˚alla reda p˚a antalet värdesiffror. Det är<br />

en grov metod, som ibland kan ge missvisande resultat. När det gäller värden<br />

n˚agon annan angett kan man vara hänvisad till att använda den, men det är<br />

inte alltid s˚a att antalet värdesiffror var menat som en indikation <strong>av</strong> hur stort<br />

det typiska felet är. Om en inomhusbassäng sägs vara 25m l˚ang skulle man nog<br />

bli förv˚anad om den vid kontrollmätning visade sig vara 24m (en <strong>av</strong>vikelse p˚a<br />

dubbla felet är normalt inte s˚a ovanlig. För en gaussfördelning är sannolikheten<br />

5 % att man hamnar utanför 2σ-intervallet).<br />

När det gäller värden man mäter upp själv m˚aste man göra uppskattningar<br />

<strong>av</strong> osäkerheten <strong>och</strong> använda dem när man sedan gör beräkningar. Det första<br />

man skall göra är att bekanta sig med mätinstrumentet <strong>och</strong> tänka igenom hur<br />

man bäst använder det för att f˚a s˚a precisa resultat som möjligt. Ju mindre<br />

osäkerheter desto bättre, förutsatt att de verkligen svarar mot det typiska felet.<br />

Använder man ett digitalt mätinstrument, som t.ex. en voltmeter f˚ar man<br />

ett värde med ett antal siffror. Här kan man ˚aterigen använda en halv enhet<br />

i sista siffran. Men att bygga en apparat som visar m˚anga siffror är enklare<br />

än att bygga en apparat där alla siffrorna är signifikanta. Därför är det inte<br />

givet att den sista siffran instrumentet visar betyder n˚agonting alls. Man bör<br />

kontrollera vad som st˚ar angivet om instrumentets precision eller kontrollmäta<br />

en känd storhet. Kanske har man tillg˚ang till olika typer <strong>av</strong> instrument <strong>och</strong> kan<br />

mäta samma storhet med flera olika. Man skall ocks˚a vara noga med att välja<br />

rätt mätomr˚ade (det g˚ar ofta att ställa in flera), s˚a att instrumentet levererar<br />

ett s˚a precist värde som möjligt.<br />

Om instrumentet fungerar idealt kommer värdet att <strong>av</strong>rundas till närmaste<br />

sista siffra. Det betyder att felet aldrig kommer att bli större än en halv enhet i<br />

sista siffran. En halv enhet i sista siffran ger allts˚a inte det typiska felet. Om vi<br />

mäter m˚anga olika spänningar med en ideal voltmeter kommer vi antagligen att<br />

f˚a ett fel som är slumpmässigt fördelat mellan −1 2D <strong>och</strong> +1<br />

2D där D är en enhet<br />

i sista siffran. Standard<strong>av</strong>vikelsen <strong>av</strong> en likformig fördelning mellan a <strong>och</strong> b (se<br />

57


58 KAPITEL 5. ATT UPPSKATTA FEL<br />

Figur 4.3) är σ = 1<br />

√ 12 (a−b) (kan visas genom att man utför integralen i ekvation<br />

4.7). Man kan allts˚a säga att det typiska felet när man tar närmaste sista siffra<br />

är D/ √ 12, vilket är ungefär en tredjedels enhet i sista siffran. Lägg dock märke<br />

till att vi antagit att man mäter ett stort antal slumpvisa spänningar. Mäter vi<br />

samma spänning flera g˚anger kommer vi att f˚a samma fel varje g˚ang (om allt<br />

är stabilt). Dessutom kanske instrumentet visar systematiskt fel, eller kanske är<br />

känsligt för störningar som gör att utslaget varierar. Att använda en halv enhet<br />

är ett rimligt recept, men inte det enda.<br />

Mäter man med ett instrument med skaldelar, som en analog visare, eller<br />

en tumstock, kan man antingen ta värdet vid närmaste skalstreck eller försöka<br />

skatta ett värde mellan skalstrecken. Det gäller att bedöma hur exakt man kan<br />

göra detta. Det kan vara olika sv˚art beroende p˚a hur fint indelad skalan är, hur<br />

sv˚art det är att mäta p˚a rätt ställe, hur fort <strong>av</strong>läsningen m˚aste göras, etc.<br />

Som redan sagts i <strong>av</strong>snitt 4.4 är en bra metod för att uppskatta osäkerheten<br />

att göra flera mätningar, beräkna medelvärde x <strong>och</strong> standard<strong>av</strong>vikelse σx, samt<br />

uppskatta medelvärdets standard<strong>av</strong>vikelse<br />

σx = σx<br />

√N .<br />

Detta är osäkerheten när vi använder x som en uppskattning <strong>av</strong> den underliggande<br />

fördelningens medelvärde. (Jag har utelämnat ””, men b˚ada standard<strong>av</strong>vikelserna<br />

ovan är uppskattningar. För att uppskatta σx använder vi stickprovsstandard<strong>av</strong>vikelsen<br />

i ekvation 4.10.) Gör man detta m˚aste man försöka se<br />

till att de värden man mäter upp inte är systematiskt förskjutna fr˚an det sanna<br />

värdet. Troligtvis blir medelvärdet i fördelningen änd˚a inte exakt lika med det<br />

sanna värdet, <strong>och</strong> om bara N blir stort nog kommer detta systematiska fel att<br />

dominera över den statistiska osäkerheten σx. Man bör därför uppskatta ocks˚a<br />

den systematiska osäkerheten, eller i alla fall kontrollera att det är rimligt att<br />

den inte är större än spridningen i medelvärdet.<br />

Om man mäter flera g˚anger med ett digitalt instrument för att bestämma<br />

medelvärdet <strong>och</strong> dess standard<strong>av</strong>vikelse kan det hända att man bara f˚ar ett enda<br />

värde hela tiden. S˚a kan det bli om variationerna är mindre än en enhet i sista<br />

siffran. I s˚a fall kan man uppenbarligen inte beräkna n˚agon standard<strong>av</strong>vikelse,<br />

utan man är tvungen att använda en halv enhet i sista siffran (eller n˚agot<br />

s˚adant) som en uppskattning <strong>av</strong> osäkerheten. Det kan ocks˚a hända att man bara<br />

f˚ar tv˚a intilliggande värden. D˚a är det heller inte bra att använda medelvärdets<br />

standard<strong>av</strong>vikelse som en feluppskattning. Det finns nämligen en stor risk för<br />

att medelvärdet systematiskt <strong>av</strong>viker fr˚an det sanna värdet som en följd <strong>av</strong><br />

<strong>av</strong>rundningen i instrumentet, <strong>och</strong> en s˚adan <strong>av</strong>vikelse minskar inte som 1<br />

√ N . Om<br />

instrumentet ger fler än tv˚a olika värden är det däremot rimligt att använda<br />

medelvärdets standard<strong>av</strong>vikelse.


Kapitel 6<br />

Parameteranpassningar<br />

I det här kapitlet behandlas metoder för att bestämma värden p˚a underliggande<br />

parametrar, som fysikaliska storheter, utifr˚an insamlade data.<br />

6.1 Maximum Likelihood-principen<br />

Antag att vi gör en mätning <strong>av</strong> en storhet vars sanna värde är µ. Antag ocks˚a att<br />

vi vet att v˚art mätresultat blir normalfördelat runt µ med standard<strong>av</strong>vikelsen σ.<br />

Vi kallar v˚art mätvärde för x. Hur ska vi uppskatta µ? Det är ganska naturligt<br />

att det enda rimliga är att använda uppskattningen<br />

µ = x .<br />

Normalfördelningen är ju symmetrisk runt µ, där den har ett maximum. Om<br />

det sanna µ skulle ligga flera σ fr˚an v˚art x har vi r˚akat ha en väldig otur som<br />

f˚att ett värde s˚a l˚angt ut i fördelningens svans. Eftersom σ är bestämt har<br />

normalfördelningen i det här fallet bara en parameter som vi är intresserade <strong>av</strong>:<br />

G(x|µ) =<br />

1 1 −<br />

√ e 2(<br />

2π σ x−µ<br />

σ ) 2<br />

<strong>och</strong> vi uppskattar µ som det värde som ger störst sannolikhet för värden i ett litet<br />

intervall vid x. Vi betraktar allts˚a G som en funktion <strong>av</strong> µ för fixt (observerat)<br />

x. Betraktad p˚a detta sätt brukar man kalla G för likelihoodfunktionen, <strong>och</strong><br />

ibland använder man en annan symbol<br />

L(µ|x) =<br />

1 1 −<br />

√ e 2(<br />

2π σ x−µ<br />

σ ) 2<br />

Observera att detta inte är sannolikheten för µ givet v˚ar x-observation. Det<br />

sanna värdet är ett värde. Alla andra värden är fel. Man skulle kunna säga att<br />

de har sannolikheten noll. V˚art problem är att vi inte känner det sanna värdet<br />

<strong>och</strong> därför m˚aste jämföra olika värden för att bestämma vad vi ska gissa p˚a.<br />

Vi gissar allts˚a p˚a det värde som med störst sannolikhet skulle ge v˚art observerade<br />

värde 1 . Detta recept kallas för maximum likelihood-principen. Vi antar<br />

1 Egentligen det värde som ger störst sannolikhet för ett litet intervall runt v˚art värde.<br />

59


60 KAPITEL 6. PARAMETERANPASSNINGAR<br />

inte att det som hänt var det mest sannolika, men vi antar att det är s˚a sannolikt<br />

som möjligt.<br />

I exemplet med en gaussfördelning är det ganska självklart vilket värde<br />

man bör välja, men maximum likelihood-principen är, som vi kommer att se,<br />

användbar i väldigt m˚anga fall där det inte är lika uppenbart. Vi kan börja med<br />

att tänka oss att vi gör tv˚a mätningar istället för en enda <strong>och</strong> f˚ar värdena x1<br />

<strong>och</strong> x2. Vi vill välja det µ som ger störst sannolikhet för att det första värdet<br />

skall hamna i ett intervall dx1 vid x1 <strong>och</strong> det andra inom dx2 vid x2. Eftersom<br />

de tv˚a värdena är oberoende ges den sannolikheten <strong>av</strong> G(x1|µ)G(x2|µ)dx1 dx2<br />

(jämför <strong>av</strong>snitt 4.4). Produkten G(x1|µ)G(x2|µ) är sannolikhetstätheten i tv˚a<br />

dimensioner, men den är ocks˚a likelihoodfunktionen som vi skall maximera med<br />

<strong>av</strong>seende p˚a µ:<br />

L(µ|x1,x2) = 1 1<br />

e− 2(<br />

2π σ2 x1−µ σ ) 2 1 −<br />

e 2( x2−µ σ ) 2<br />

(6.1)<br />

För att finna maximum deriverar vi med <strong>av</strong>seende p˚a µ <strong>och</strong> sätter derivatan till<br />

noll. Kedjeregeln ger<br />

dL<br />

dµ =<br />

<br />

(x1 − µ)<br />

σ2 + (x2 − µ)<br />

σ2 <br />

L<br />

Och för att dL<br />

dµ<br />

ska bli noll m˚aste vi ha att<br />

µ = µ = x1 + x2<br />

2<br />

dvs. maximum likelihod-uppskattningen blir lika med medelvärdet <strong>av</strong> de tv˚a<br />

värdena. Om vi istället har N mätningar blir uppskattningen medelvärdet<br />

µ =<br />

i<br />

xi<br />

N<br />

,<br />

= x , (6.2)<br />

vilket är ett mycket rimligt resultat.<br />

Vi kan generalisera detta till det fall d˚a vi har olika precision i de olika<br />

mätningarna xi. Vi antar allts˚a att xi är normalfördelad runt µ med standard<strong>av</strong>vikelse<br />

σi. Nu blir L en produkt <strong>av</strong> faktorer med olika σ:<br />

L(µ|x1,...xN) = <br />

“ ” <br />

1 1 xi−µ 2<br />

− 2 σ √ e i . (6.3)<br />

2π σi<br />

Derivatan bli analog med tv˚<strong>av</strong>ariabelfallet ovan, men med olika σi i de olika<br />

termerna,<br />

dL<br />

dµ =<br />

<br />

<br />

<br />

(xi − µ)<br />

L ,<br />

<strong>och</strong> villkoret dL<br />

dµ = 0 ger <br />

i<br />

xi<br />

σ 2 i<br />

σ 2 i<br />

= µ <br />

Maximum likelihood-estimatet för µ blir allts˚a<br />

<br />

µ =<br />

i<br />

i 1<br />

σ2 xi<br />

i <br />

i 1<br />

σ2 i<br />

1<br />

σ 2 i<br />

.<br />

. (6.4)


6.1. MAXIMUM LIKELIHOOD-PRINCIPEN 61<br />

Vi känner igen detta som det viktade medelvärdet (ekvation 4.27).<br />

Som ytterligare ett exempel kan vi anta att vi väger mycket sm˚a mängder <strong>av</strong><br />

n˚agon kemisk förening. Vi använder en precisionsv˚ag som innesluts i en glaskupa<br />

för att vi inte ska f˚a störningar fr˚an luftrörelser. Luften i labbet är mycket ren,<br />

men inneh˚aller änd˚a en del sm˚a partiklar. Om s˚adana partiklar r˚akar komma in i<br />

glaskupan <strong>och</strong> fastna p˚a v˚agen p˚<strong>av</strong>erkar de utslaget s˚a att v˚art värde p˚a massan<br />

blir större. Genom att väga en mycket välbestämd referensmassa upprepade<br />

g˚anger kan vi kalibrera v˚agen s˚a att värdet x som den ger i medeltal blir lika<br />

med den sanna massan µ om vi mäter flera g˚anger. Vi kan ocks˚a bestämma<br />

sannolikhetstätheten för x med den kalibrerade v˚agen. Den kanske ser ut som<br />

i Figur 6.1. Nu är fr˚agan vilken v˚ar bästa uppskattning blir för µ om vi mäter<br />

f(x)<br />

0<br />

μ<br />

Figur 6.1: Fördelning <strong>av</strong> utslag x fr˚an en v˚ag kalibrerad s˚a att medelvärdet<br />

<strong>av</strong> x blir det sanna värdet µ. Det mest sannolika värdet (typvärdet) är lägre än<br />

medelvärdet.<br />

p˚a ett prov <strong>och</strong> f˚ar resultatet x1. Enligt maximum likelihood-principen skall<br />

vi välja den massa µ som ger den största sannolikheten vid x1. Detta blir en<br />

massa som är lite större än x1. Vi kan skriva µ = x1 + ∆ där ∆ är skillnaden<br />

mellan medelvärdet <strong>och</strong> typvärdet (<strong>av</strong>st˚andet mellan det tv˚a vertikala linjerna i<br />

figuren). Om vi mäter m˚anga g˚anger kommer medelvärdet <strong>av</strong> v˚ara x-värden att<br />

närma sig fördelningens medelvärde µ (den sanna massan), men medelvärdet<br />

<strong>av</strong> v˚ara resultat för µ gör allts˚a inte det. I det här fallet är det bättre att välja<br />

µ = x1 än att använda maximum likelihood-principen. Lägg dock märke till<br />

att om vi gör m˚anga mätningar <strong>av</strong> samma massa kan vi bestämma ett µ fr˚an<br />

den kombinerade likelihoodfunktionen (produkten <strong>av</strong> sannolikhetstätheterna för<br />

alla värdena). Detta värde kommer att närma sig det sanna värdet när vi ökar<br />

antalet mätningar.<br />

Nu kanske det verkar som om maximum likelihood-principen bara är ett<br />

sätt att p˚a bästa sätt bilda medelvärdet <strong>av</strong> ett antal mätningar, men s˚a är det<br />

inte. Sannolikhetstätheten för x kanske beror p˚a flera olika parametrar, <strong>och</strong> det<br />

kanske inte är s˚a att n˚agot särskilt värde p˚a x är rätt. Gör vi flera mätningar<br />

<strong>av</strong> x kan vi bestämma parametrarna i sannolikhetsfördelningen med hjälp <strong>av</strong><br />

maximum likelihood-metoden. Dessa parametrar kanske är fysikaliska storheter,<br />

x


62 KAPITEL 6. PARAMETERANPASSNINGAR<br />

<strong>och</strong> resultatet blir d˚a värden p˚a de bakomliggande storheterna.<br />

Som ett enkelt exempel p˚a flera parametrar kan vi tänka oss att vi drar ett<br />

antal värden ur en fördelning som vi vet (eller antar) är en normalfördelning. Vi<br />

vill bestämma b˚ade µ <strong>och</strong> σ. V˚ar likelihoodfunktion L(µ,σ|x1,x2,...xN) v˚ar vi<br />

p˚a samma sätt som ekvation 6.1,<br />

L(µ|x1,x2 ...xN) =<br />

1<br />

(2π) N<br />

2 σ<br />

N e− 1<br />

2( x1−µ σ ) 2 1 −<br />

e 2( x2−µ σ ) 2 1 −<br />

...e 2( xN −µ<br />

σ ) 2<br />

men nu känner vi inte σ, utan m˚aste betrakta olika värden. Vi söker allts˚a det<br />

= 0.<br />

par <strong>av</strong> värden (µ,σ) som maximerar L. Det kännetecknas <strong>av</strong> att ∂L<br />

∂µ<br />

= ∂L<br />

∂σ<br />

Som förut ger villkoret ∂L<br />

∂µ = 0 att µ = x. Deriverar man med <strong>av</strong>seende p˚a σ<br />

<strong>och</strong> sätter derivatan till noll f˚ar man att<br />

σ 2 =<br />

<br />

i (xi − µ) 2<br />

N<br />

Vid v˚art maximum är µ = µ = x, <strong>och</strong> allts˚a<br />

<br />

i σ = σ =<br />

(xi − x) 2<br />

N<br />

Vi ser att uppskattningen σ blir noll om vi bara har en mätning, <strong>och</strong> att den<br />

systematiskt underskattar standard<strong>av</strong>vikelsen för sm˚a N. (Jämför ekvationerna<br />

4.9 <strong>och</strong> 4.10.)<br />

De uppskattningar vi f˚ar med maximum likelihood-metoden kan allts˚a ha en<br />

systematisk <strong>av</strong>vikelse fr˚an det sanna värdet för f˚a mätningar. Däremot gäller att<br />

för m˚anga mätningar närmar de sig det sanna värdet. Dessutom är de bäst i den<br />

meningen att de har den minsta möjliga spridningen. Det kanske kan kännas<br />

naturligt eftersom de bygger p˚a all information vi har. För givna parametrar<br />

vet vi hur sannolika olika värden är (men inte mer), <strong>och</strong> har vi gjort ett antal<br />

oberoende mätningar är det enda vi kan göra för var <strong>och</strong> en <strong>av</strong> dem att se efter<br />

hur sannolikt det vore att f˚a ett värde just där.<br />

Metoden är ocks˚a mer allmän i den meningen att det kan tillämpas om vi<br />

har flera sannolikhetstätheter. Vi kanske har en fysikalisk modell med ett antal<br />

parametrar som vi vill bestämma. Om vi tillämpar modellen p˚a olika försök<br />

förutsäger den olika saker. Vi kanske gör N mätningar <strong>av</strong> x i ett försök <strong>och</strong> M<br />

mätningar <strong>av</strong> y i ett annat. Sannolikheten för v˚ara mätta värden<br />

xi;i = 1,N, yj;j = 1,M ges <strong>av</strong><br />

L =<br />

N M<br />

f(xi) g(yj) ,<br />

i=1<br />

där f <strong>och</strong> g är sannolikhetstätheter som b˚ada beror p˚a parametrarna i modellen.<br />

I detta fall säger allts˚a maximum likelihood-principen att vi ska välja de<br />

parametrar som maximerar produkten <strong>av</strong> alla f <strong>och</strong> g-värden.<br />

j=1<br />

6.2 Minsta kvadratmetoden<br />

Antag att vi har en teori som förutsäger ett antal storheter (värden) som kan<br />

mätas, <strong>och</strong> att vi mäter dem. Mätningarna kanske är olika sv˚ara, <strong>och</strong> därför<br />

,


6.2. MINSTA KVADRATMETODEN 63<br />

behäftade med olika fel. Om teorin är fix <strong>och</strong> färdig kan vi direkt undersöka<br />

om mätresultaten stämmer med vad den förutsäger (mer om detta senare).<br />

Men om en del <strong>av</strong> de storheter som definierar teorin, dess parametrar, inte är<br />

kända kan vi istället använda v˚ara mätresultat för att bestämma dem. Vi söker<br />

allts˚a de parametervärden som ger s˚a god överensstämmelse med v˚ara data<br />

som möjligt. För att bestämma hur vi ska g˚a tillväga använder vi maximum<br />

likelihood-metoden.<br />

L˚at oss kalla antalet mätpunkter för N, <strong>och</strong> de olika mätvärdena för yi,i =<br />

1,N (lägg märke till att olika yi svarar mot olika mätpunkter <strong>och</strong> allts˚a inte<br />

kan anses dragna ur en <strong>och</strong> samma fördelning). V˚ar teori förutsäger ett värde,<br />

fi för varje mätning. Vi betecknar felet i mätning i med σi <strong>och</strong> antar att yi är<br />

normalfördelat runt fi med standard<strong>av</strong>vikelsen σi. Med andra ord är värdet yi<br />

draget ur fördelningen<br />

G(y|fi,σi) =<br />

1<br />

√ e<br />

2πσi<br />

“ ”<br />

1 y−fi 2<br />

− 2 σi Likelihoodfunktionen blir produkten <strong>av</strong> sannolikhetstätheterna vid de observerade<br />

värdena yi:<br />

1<br />

L =<br />

(2π) N/2<br />

<br />

“ ” <br />

<br />

1 1 yi−f 2 P “ ”<br />

− i<br />

1 1 yi−f 2<br />

2 σ − i<br />

i<br />

2 i σ =<br />

e i .<br />

i<br />

e<br />

σi<br />

1<br />

(2π) N/2<br />

<br />

<br />

k<br />

(Index k har införts eftersom produkten över exponentialfunktioner ersatts <strong>av</strong><br />

en summa i exponenten). Vi skall maximera detta genom att ändra p˚a modellens<br />

parametrar s˚a att fi ändras. Uppenbarligen m˚aste vi minimera summan<br />

χ 2 = <br />

<br />

yi − fi<br />

i<br />

σi<br />

2<br />

σk<br />

.<br />

. (6.5)<br />

Denna typ <strong>av</strong> anpassning kallas en minsta kvadratanpassning eftersom vi väljer<br />

den uppsättning fi som ger den minsta summan <strong>av</strong> kvadratiska termer. Om vi<br />

kunde välja alla fi oberoende <strong>av</strong> varandra skulle vi naturligtvis välja fi = yi,<br />

vilket skulle ge summan noll. Det kan l˚ata som att vi d˚a lyckats bra, men det<br />

är snarare tvärtom. I bästa fall har vi precis s˚a m˚anga mätningar att vi kan f˚a<br />

bestämda värden p˚a alla parametrarna. Annars har vi för f˚a värden, <strong>och</strong> f˚ar d˚a<br />

ingen unik lösning för parametrarna. Har vi färre parametrar än mätningar kan<br />

vi inte välja alla fi oberoende <strong>av</strong> varandra, utan m˚aste hitta de parametrar som<br />

minimerar ekvation 6.5.<br />

Minsta kvadratametoden är mycket allmän <strong>och</strong> mycket användbar. Det enklaste<br />

exemplet är om vi gör flera mätningar <strong>av</strong> en <strong>och</strong> samma storhet. V˚ar<br />

”teori” har d˚a en parameter som vi lämpligen väljer som det sanna värdet µ<br />

<strong>av</strong> storheten i fr˚aga. Vi har redan sett att i detta fall blir uppskattningen som<br />

maximum likelihood-principen ger det viktade medelvärdet, om felen är normalfördelade.<br />

Vi s˚ag ju just att för normalfördelade fel maximeras likelihoodfunktionen<br />

om vi minimerar kvadratsumman. Det viktade medelvärdet är allts˚a<br />

ocks˚a vad minsta kvadratmetoden ger för v˚ara mätningar, nämligen det värde<br />

p˚a µ som minimerar summan 6.5 för fi = µ.<br />

I det allmänna fallet m˚aste man ta till iterativa metoder som letar efter<br />

det minsta värdet p˚a summan i ekvation 6.5, men om modellen är linjär i


64 KAPITEL 6. PARAMETERANPASSNINGAR<br />

parametrarna kan problemet lösas exakt. Vi har d˚a<br />

fi =<br />

n<br />

k=1<br />

Xikak<br />

(6.6)<br />

där Xik är en uppsättning konstanter <strong>och</strong> ak är modellens n parametrar. Vi<br />

inför nu matriserna<br />

⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛<br />

⎜<br />

Y = ⎜<br />

⎝<br />

y1<br />

y2<br />

.<br />

yN<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ , F = ⎜<br />

⎠ ⎝<br />

f1<br />

f2<br />

.<br />

fN<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ , A = ⎜<br />

⎠ ⎝<br />

<strong>och</strong> kan skriva ekvation 6.6 p˚a matrisform som<br />

a1<br />

a2<br />

.<br />

an<br />

F = XA .<br />

⎟ ⎜<br />

⎟ ⎜<br />

⎟ , X = ⎜<br />

⎠ ⎝<br />

Om vi dessutom inför en matris som har varianserna p˚a diagonalen,<br />

⎛<br />

⎞<br />

blir dess invers V−1 ⎜<br />

= ⎜<br />

⎝<br />

⎜<br />

V = ⎜<br />

⎝<br />

⎛<br />

σ2 1 0 ... 0<br />

0 σ2 2 ... 0<br />

.<br />

1<br />

σ2 1<br />

1 0 σ2 2<br />

.<br />

.<br />

. .. 0<br />

0 0 ... σ 2 N<br />

0 ... 0<br />

... 0<br />

.<br />

. ..<br />

0<br />

0 0 ... 1<br />

σ 2 N<br />

⎞<br />

⎟<br />

⎠<br />

X11 X12 ... X1N<br />

X21 X22 ... X2N<br />

.<br />

.<br />

. .. X2N<br />

Xn1 Xn2 ... XnN<br />

, (6.7)<br />

⎟<br />

⎟,<br />

<strong>och</strong> vi kan uttrycka kvadrat-<br />

⎠<br />

summan som en kvadratisk form (T betecknar transponering):<br />

χ 2 = (Y − F) T V −1 (Y − F) . (6.8)<br />

(Utskrivet p˚a komponentform blir detta: χ2 = <br />

i (yi − fi) 1<br />

σ2 (yi − fi)) Vi vill<br />

i<br />

nu derivera detta med <strong>av</strong>seende p˚a parametrarna ak <strong>och</strong> sätta derivatorna till<br />

noll för finna de värden p˚a ak som svarar mot ett minimum for χ2 . Vi använder<br />

kedjeregeln <strong>och</strong> f˚ar<br />

∂χ 2<br />

∂ak =<br />

<br />

− ∂F<br />

T V<br />

∂ak<br />

−1 (Y − F) + (Y − F) T V −1<br />

<br />

− ∂F<br />

<br />

∂ak<br />

eftersom s˚<strong>av</strong>äl Y som V −1 är oberoende <strong>av</strong> ak. Derivatan ∂F<br />

∂ak<br />

(6.9)<br />

är en kolonnmatris<br />

med element ∂fi<br />

∂ak = Xik. De tv˚a termerna i ekvation 6.9 har samma värde (detta<br />

kan inses fr˚an komponentformen eller fr˚an att b˚ada är 1 × 1 matriser <strong>och</strong> allts˚a<br />

lika med sina transponat). De m˚aste allts˚a b˚ada vara noll. Sätter vi den första<br />

till noll <strong>och</strong> delar upp den i tv˚a termer f˚ar vi<br />

T ∂F<br />

V −1 T ∂F<br />

F = V −1 Y .<br />

∂ak<br />

∂ak<br />

⎞<br />

⎟<br />

⎠ ,


6.2. MINSTA KVADRATMETODEN 65<br />

Skriver vi ut komponenterna i ∂F<br />

∂ak<br />

har vi<br />

(X1k X2k ... XNk) V −1 F = (X1k X2k ... XNk) V −1 Y .<br />

Det är samma radmatris (X1k X2k ... XNk) i vänster- <strong>och</strong> högerledet, <strong>och</strong> den<br />

multiplicerar en N ×N matris p˚a vardera sidan. Resultatet blir p˚a b˚ada sidorna<br />

en radmatris. Matrisen (X1k X2k ... XNk ) är rad k i den transponerade<br />

matrisen X T . Vi f˚ar en ekvation för varje rad, <strong>och</strong> kan sammanfatta dem som<br />

en matrisekvation. Efter insättning <strong>av</strong> F = XA blir den ekvationen<br />

X T V −1 X A = X T V −1 Y .<br />

Nu kan vi invertera matrisen som multiplicerar A <strong>och</strong> multiplicera med den fr˚an<br />

vänster p˚a b˚ada sidorna, vilket ger resultatet<br />

A = X T V −1 X −1 X T V −1 Y . (6.10)<br />

Detta uttryck ger allts˚a de parametrar ak som minimerar kvadratsumman i<br />

ekvation 6.5. Det kan se lite komplicerat ut att tillämpa i praktiken, men om<br />

beräkningarna utförs p˚a dator, vilket är det vanliga, kan man utnyttja programspr˚ak<br />

eller färdiga funktioner som till˚ater matrisoperationer. Har man väl läst<br />

in sina data i matriser, vilket hur som helst är naturligt, är själva räknandet<br />

mycket enkelt att koda.<br />

Ekvation 6.10 ger oss allts˚a värdena p˚a parametrarna. För att f˚a felen<br />

m˚aste man göra en felpropagering fr˚an Y till A. Om vi inför matrisen R =<br />

X T V −1 X −1 X T V −1 har vi att A = RY. För en komponent <strong>av</strong> kolonnmatrisen<br />

A kan vi skriva detta som<br />

ak = <br />

i<br />

Rkiyi ,<br />

<strong>och</strong> sedan gäller det bara att propagera osäkerheterna i yi, som ju är σi:<br />

σak =<br />

<br />

<br />

R2 kiσ2 i ,<br />

i<br />

Nu är matrisuttrycket för R lite komplicerat, s˚a att beräkna ovanst˚aende kräver<br />

en hel del t˚alamod <strong>och</strong> noggrannhet (eller en mer ing˚aende diskussion). Här<br />

konstaterar vi bara att varianserna σ2 ak visar sig vara diagonalelementen i matrisen<br />

Va = X T V −1 X −1<br />

, (6.11)<br />

som vi kallar variansmatrisen för parametrarna. Lägg märke till att denna matris<br />

är en del i uttrycket för A <strong>och</strong> att det allts˚a inte krävs n˚agra extra räkningar<br />

för att ta fram felen.<br />

6.2.1 Funktionsanpassningar med minsta kvadratmetoden<br />

Minsta kvadratmetoden är mycket allmän, <strong>och</strong> de olika fi kan vara helt olika<br />

storheter som vi mäter, <strong>och</strong> som v˚ar teori ger värden för. Det vanligaste är dock<br />

att fi är funktionsvärden i olika punkter:<br />

fi = f(xi)


66 KAPITEL 6. PARAMETERANPASSNINGAR<br />

Vi tänker oss att en storhet y beror p˚a en annan storhet x genom ett funktionssamband<br />

som vi vill bestämma (<strong>och</strong> som är v˚ar ”teori”):<br />

y = f(x)<br />

Vi mäter y för ett antal olika värden p˚a x <strong>och</strong> vill allts˚a minimera<br />

χ 2 = <br />

2 yi − f(xi)<br />

.<br />

i<br />

Om f(x) är en linjärkombination <strong>av</strong> n p˚a förhand bestämda funktioner,<br />

f(x) =<br />

σi<br />

n<br />

akfk(x) ,<br />

k=1<br />

s˚a har vi ett linjärt problem <strong>av</strong> det slaget som leder till lösningen för parametrarna<br />

ak i ekvation 6.10. Jämför vi med ekvation 6.6 ser vi att<br />

Xik = fk(xi)<br />

i det här fallet. Tillsammans med mätningarna yi <strong>och</strong> deras osäkerheter σi ger<br />

Xik lösningen för parametrarna ak enligt ekvation 6.10. (Lägg märke till att det<br />

inte gör n˚agon skillnad alls för problemets lösning om f är en funktion <strong>av</strong> fler<br />

än en variabel, s˚a att vi har xi = (xi,1,xi,2 ...) istället för xi.)<br />

Ett viktigt specialfall är anpassningen <strong>av</strong> ett polynom<br />

I detta fall ges matrisen X <strong>av</strong><br />

⎛<br />

f(x) = a0 + a1x + a2x 2 + ...anx n<br />

⎜<br />

X = ⎜<br />

⎝<br />

1 x1 x2 1 ... xn 1<br />

1 x2 x2 2 ... xn 2<br />

.<br />

.<br />

.<br />

. ..<br />

.<br />

1 xN x 2 N ... xn N<br />

⎞<br />

.<br />

⎟<br />

⎠ .<br />

Vi skall nu titta lite närmare p˚a ett specialfall <strong>av</strong> polynomanpassning, nämligen<br />

en linjär minsta kvadratanpassning <strong>av</strong> en rät linje p˚a formen y = a + bx (vi<br />

använder beteckningarna a <strong>och</strong> b istället för a1 <strong>och</strong> a2). I detta fall beror allts˚a<br />

f(x) linjärt p˚a b˚ade parametrarna <strong>och</strong> x. Vi tänker oss allts˚a att vi har en<br />

uppsättning mätpunkter yi ± σi för olika xi <strong>och</strong> söker den räta linje som bäst<br />

ansluter sig till punkterna. I detta fall har vi<br />

⎛ ⎞<br />

1 x1<br />

⎜ 1 x2 ⎟<br />

X = ⎜ .<br />

⎝ .<br />

.<br />

.<br />

.<br />

⎟<br />

. ⎠<br />

1 xN<br />

,V−1 ⎛<br />

⎞ ⎛ ⎞<br />

w1 0 ... 0<br />

y1<br />

⎜ 0 w2 ... 0 ⎟ ⎜ y2 ⎟<br />

⎟ ⎜ ⎟<br />

= ⎜ .<br />

⎝ .<br />

.<br />

.<br />

. .<br />

.<br />

..<br />

⎟ ,Y = ⎜ .<br />

0 ⎠ ⎝ .<br />

⎟<br />

. ⎠<br />

0 0 ... wN<br />

,<br />

är vikten <strong>av</strong> mätningen i (jämför viktat medelvärde). Vi kan<br />

beräkna matrisprodukten i ekvation 6.11:<br />

X T V −1 <br />

1 1 ... 1<br />

X =<br />

x1 x2 ... xN<br />

⎛<br />

⎞ ⎛ ⎞<br />

w1<br />

1 x1<br />

⎜<br />

⎝<br />

. ..<br />

⎟ ⎜<br />

⎠ ⎝ .<br />

.<br />

⎟<br />

. ⎠ ,<br />

1 xN<br />

där wi = 1<br />

σ 2 i<br />

wN<br />

yN


6.2. MINSTA KVADRATMETODEN 67<br />

som blir<br />

X T V −1 <br />

wi<br />

X =<br />

wixi<br />

wixi<br />

wix 2 i<br />

Ekvation 6.11 ger, tillsammans med formeln för inversen <strong>av</strong> en matris, att<br />

Va = X T V −1 X −1 1<br />

=<br />

( w) ( wx2 ) − ( wx) 2<br />

2 wx − wx<br />

− wx <br />

w<br />

där summationsindex är underförst˚adda.<br />

Varianserna i a <strong>och</strong> b är diagonalelementen i Va, <strong>och</strong> vi kan skriva dem som<br />

2 wx<br />

σ 2 a =<br />

σ 2 b =<br />

<br />

∆<br />

w<br />

∆<br />

<br />

.<br />

, (6.12)<br />

där vi infört ∆ = ( w) wx2 − ( wx) 2 . Nu vet vi allts˚a felen i v˚ara<br />

uppskattningar <strong>av</strong> parametrarna a <strong>och</strong> b, men vi har ännu inte tagit fram uppskattningarna<br />

själva. Enligt ekvation 6.10 är de<br />

<br />

a<br />

= VaX<br />

b<br />

T V −1 Y .<br />

Vi känner redan variansmatrisen Va, som vi m˚aste multiplicera med<br />

X T V −1 <br />

1<br />

Y =<br />

... 1<br />

⎛<br />

w1<br />

⎜<br />

⎝<br />

. ..<br />

⎞ ⎛<br />

y1<br />

⎟ ⎜ .<br />

⎠ ⎝ .<br />

⎞<br />

<br />

⎟ wy<br />

⎠ = <br />

wxy<br />

x1 ... xN<br />

Vi f˚ar allts˚a<br />

<br />

a<br />

=<br />

b<br />

1<br />

2 wx<br />

∆ −<br />

<br />

− wx<br />

wx <br />

<br />

wy<br />

=<br />

w wxy<br />

<br />

1<br />

2 ( wy)( wx ) − ( wx)( wxy)<br />

∆ ( w)( wxy) − ( wx)( wy)<br />

För att sammanfatta har vi allts˚a anpassat parametrarna för den räta linjen,<br />

med fel, som<br />

<strong>och</strong><br />

med<br />

wN<br />

yN<br />

a = ( wy)( wx2 ) − ( wx)( wxy)<br />

<br />

∆<br />

wx2 σa =<br />

∆<br />

<br />

,<br />

(6.13)<br />

b = ( w)( wxy) − ( wx)( wy)<br />

<br />

∆<br />

w<br />

σb =<br />

, (6.14)<br />

∆<br />

∆ =<br />

<br />

2<br />

w wx 2 − wx<br />

. (6.15)


68 KAPITEL 6. PARAMETERANPASSNINGAR<br />

Dessa formler för en anpassning till en rät linje kan vara användbara istället för<br />

ekvationerna 6.10 <strong>och</strong> 6.11 när man räknar för hand eller med ett spreadsheetprogram<br />

<strong>av</strong> type OpenOffice Calc eller Excel. Man beräknar summorna <br />

w,<br />

2 wx, wy, wx <strong>och</strong> wxy över alla mätpunkter <strong>och</strong> sätter in dem i<br />

formlerna ovan<br />

Vi visade aldrig att diagonaltermerna i ekvation 6.11 är varianserna i de<br />

anpassade parametrarna. Vi ska nu göra det för ett specialfall, nämligen för<br />

osäkerheten i b. Felet i ekvation 6.14 fick vi fr˚an diagonalelementet i Va, <strong>och</strong> vi<br />

visar nu att felfortplantning i uttrycket för b ger samma resultat. De osäkerheter<br />

som vi ska propagera är σi, osäkerheterna i v˚ara mätvärden yi. Felfortplantningsformeln<br />

(ekvation 3.7) blir<br />

σ 2 b = ∂b<br />

∂yi<br />

2<br />

σ 2 i<br />

Vi m˚aste derivera uttrycket för b i ekvationerna 6.14 med <strong>av</strong>seende p˚a vart<br />

<strong>och</strong> ett <strong>av</strong> mätvärdena. Varje yi finns i en term i summan wxy <strong>och</strong> en term<br />

i wy. Derivatan <strong>av</strong> de tv˚a summorna med <strong>av</strong>seende p˚a yi blir allts˚a wixi<br />

respektive wi. Vi f˚ar<br />

Eftersom wi = 1<br />

σ 2 i<br />

σ 2 b = ∂b<br />

∂b<br />

∂yi<br />

1<br />

<br />

= w wixi − wx wi<br />

∆<br />

f˚ar vi (vi bryter ut wi ur parentesen ovan innan vi kvadrerar)<br />

∂yi<br />

2<br />

σ 2 i = 1<br />

∆ 2<br />

<br />

i<br />

w 2 i<br />

Vi förkortar med wi <strong>och</strong> utvecklar kvadraten:<br />

σ 2 b = 1<br />

∆ 2<br />

<br />

i<br />

wi<br />

2 1<br />

w xi − wx<br />

wi<br />

2 w x 2 2 <br />

i + wx − 2 w wx xi<br />

1<br />

∆2 2 <br />

w wix 2 2 <br />

i + wi wx − 2 w wx wixi<br />

<br />

Nu stryker vi summationsindex i <strong>och</strong> l˚ater det bli underförst˚att som i de övriga<br />

summorna inom parentes. Vi f˚ar<br />

σ 2 b = 1<br />

∆2 2 <br />

2<br />

w wx <br />

2 w<br />

− w wx = ,<br />

∆<br />

där vi använt uttrycket för ∆ (ekvation 6.15). Vi har allts˚a explicit visat att σb<br />

ges <strong>av</strong> den andra <strong>av</strong> ekvationerna 6.14. Motsvarande räkning för σa är likartad.<br />

6.2.2 Residualer <strong>och</strong> pulls<br />

Figur 6.2 visar resultatet <strong>av</strong> en linjär minsta kvadratanpassning <strong>av</strong> ett andragradspolynom<br />

y = f(x) = a+bx+cx 2 till en uppsättning mätvärden yi. När man<br />

gjort en s˚adan anpassning bör man bedöma om resultatet är rimligt. Kanske<br />

ger den anpassade funktionen ingen god beskrivning <strong>av</strong> sambandet, s˚a att den<br />

<strong>av</strong>viker fr˚an punkterna, eller kanske n˚agra punkter har r˚akat bli mer fel än vad<br />

.<br />

=<br />

.


6.2. MINSTA KVADRATMETODEN 69<br />

man skulle vänta sig. Anledningen skulle kunna vara ett skriv- eller räknefel,<br />

eller n˚agon tillfällig systematisk effekt som p˚<strong>av</strong>erkat vissa mätningar. Genom att<br />

titta p˚a figur 6.2 kan vi se att vi inte verkar ha haft n˚agra s˚adan problem i det här<br />

fallet. Om mätresultaten beskrivs <strong>av</strong> en normalfördelning borde ju punkternas<br />

y<br />

30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

0 5 10 15 20 25 30<br />

x<br />

Figur 6.2: Uppmätta värden p˚a y för olika x <strong>och</strong> en anpassad andragradskurva.<br />

<strong>av</strong>vikelser fr˚an kurvan, yi − f(xi), vara normalfördelade med standard<strong>av</strong>vikelse<br />

σi. Punkterna sprider sig mycket riktigt runt kurvan p˚a ett sätt som ser ut<br />

att svara mot felstaplarna. Vi kan kontrollera detta lite mer kvantititivt genom<br />

införa<br />

zi = yi − f(xi)<br />

σi<br />

för varje punkt. Om yi är fördelade som vi antagit ska alla zi ha den standardnormala<br />

fördelningen, med medelvärde noll <strong>och</strong> standard<strong>av</strong>vikelse ett. (Egentligen<br />

bör spridningen bli lite mindre än s˚a eftersom vi jämför med f-värden som vi<br />

anpassat till v˚ara punkter, inte de sanna f-värdena. Vi ˚aterkommer till detta<br />

i <strong>av</strong>snitt 9.3, det spelar inte s˚a stor roll här.) Vi kan beräkna medelvärde <strong>och</strong><br />

standard<strong>av</strong>vikelse för de 14 punkterna i figur 6.2 <strong>och</strong> finner att de är 0,05 respektive<br />

0,74. Felet i medelvärdet blir 0,74/ √ 14 = 0,20, s˚a vi ser ingen signifikant<br />

<strong>av</strong>vikelse fr˚an noll. Möjligen skulle vi kunna oroa oss en aning för att standard<strong>av</strong>vikelsen<br />

0,74 är mindre än ett2 . Vi kan ocks˚a histogrammera z-värdena,<br />

vilket ger fördelningen i figur 6.3. De normerade <strong>av</strong>vikelserna zi kallas med ett<br />

engelskt ord för ”pulls”. Beteckningen ”pull” kommer förmodligen fr˚an det faktum<br />

att om en punkt har ett zi som skiljer sig markant fr˚an noll ”drar” den i<br />

anpassningen. Eftersom z 2 i<br />

ing˚ar i summan som minimeras vinner man mycket<br />

p˚a att minska zi lite grann om zi är stor. Om n˚agot enstaka värde har ett stort<br />

zi p˚<strong>av</strong>erkar det allts˚a anpassningen kraftigt. Det kan ocks˚a tyda p˚a att just den<br />

mätningen misslyckats p˚a n˚agot sätt.<br />

Man kan eventuellt utesluta värden som <strong>av</strong>viker för mycket. Det är dock<br />

n˚agot man bör vara mycket försiktig med, s˚a att man inte p˚a ett subjektivt sätt<br />

2 Man kan uppskatta felet i den uppskattade standard<strong>av</strong>vikelsen. Det är 0,13 i det här fallet,<br />

s˚a <strong>av</strong>vikelsen fr˚an ett är ganska exakt tv˚a sigma.


70 KAPITEL 6. PARAMETERANPASSNINGAR<br />

antal punkter<br />

8<br />

7<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

-5 -4 -3 -2 -1 0 1 2 3 4 5<br />

(y − f) / σ<br />

Figur 6.3: Histogram över pull-värdena, zi = yi−f(xi)<br />

. Figuren visar ocks˚a en<br />

σi<br />

standardnormal fördelning (omskalad s˚a att ytan under den blir densamma som<br />

under histogrammet).<br />

tar bort vissa statistiska fluktuationer men inte andra. Det finns en tumregel<br />

för att göra detta som kallas Chauvenets regel. Den säger att man kan ta bort<br />

punkter med stora z om vi i medeltal förväntar oss att färre än en halv <strong>av</strong> v˚ara<br />

mätpunkter ska ha lika stort eller större z. Regeln är dock tämligen godtycklig,<br />

<strong>och</strong> ganska tveksam. Man bör i alla händelser först försöka se om man kan<br />

identifiera n˚agot problem med mätvärdet i fr˚aga, <strong>och</strong> helst korrigera det. Att<br />

göra om mätningar som ligger vid sidan om är inte heller lämpligt, eftersom det<br />

i praktiken innebär att man tar bort <strong>av</strong>vikande värden.<br />

Figur 6.4 visar en annan mätserie för x <strong>och</strong> y, <strong>och</strong> motsvarande anpassade<br />

andragradsfunktion. Här ser man direkt att överensstämmelsen är sämre.<br />

y<br />

30<br />

25<br />

20<br />

15<br />

10<br />

5<br />

0<br />

0 5 10 15 20 25 30<br />

x<br />

Figur 6.4: En konkurrerande forskargrupps resultat för sambandet i figur 6.2.


6.2. MINSTA KVADRATMETODEN 71<br />

För höga x verkar det OK, men för l˚aga x sprider sig punkterna för mycket.<br />

Pullfördelningen ges i figur 6.5, <strong>och</strong> vi ser att det finns en punkt som <strong>av</strong>viker fr˚an<br />

anpassningen med mer än fyra sigma. För att vi ska se <strong>av</strong>vikelserna lite tydligare<br />

antal punkter<br />

8<br />

7<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

-5 -4 -3 -2 -1 0 1 2 3 4 5<br />

(y − f) / σ<br />

Figur 6.5: Pullfördelningen för anpassningen i Figur 6.4.<br />

kan det vara lämpligt med en residualplot. Vi plottar skillnaderna yi − fi mot<br />

x, som i Figur 6.6. Felen i plotten är felen i y-värdena (i <strong>av</strong>snitt 6.2.3 beskrivs<br />

hur man kan ta hänsyn till fel i f). Fr˚an Figur 6.6 framg˚ar att punkten som har<br />

y − f(x)<br />

3<br />

2<br />

1<br />

0<br />

-1<br />

-2<br />

-3<br />

0 5 10 15 20 25 30<br />

x<br />

Figur 6.6: En residualplot för anpassningen i figur 6.4.<br />

x ≈ 11 är den som har den stora <strong>av</strong>vikelsen i pullfördelningen. Om vi upptäcker<br />

att n˚agot är fel med den mätningen kan det vara motiverat att ta bort den.<br />

Dessutom skulle Chauvenets regel l˚ata oss ta bort den: Sannolikheten för att en<br />

normalfördelning ska ge en <strong>av</strong>vikelse mer än fyra sigma är 1,3 · 10 −4 , s˚a med 14<br />

punkter kommer i medeltal 14 · 1,3 · 10 −4 = 0,002 att ha ett z som är större än<br />

s˚a (gör vi om mätserien 1000 g˚anger förväntar vi oss tv˚a s˚adana punkter).


72 KAPITEL 6. PARAMETERANPASSNINGAR<br />

Figur 6.7 visar anpassningen efter att vi tagit bort den tveksamma punkten.<br />

Lägg märke till att eftersom vi tog bort punkten som ”drog” i anpassningen<br />

blir pull-värdena mindre för övriga punkter. Nu ser det mycket bättre ut, men<br />

punkterna i den vänstra delen <strong>av</strong> figuren ser fortfarande ut att vara lite väl<br />

spridda. Sju punkter i rad <strong>av</strong>viker mer än en sigma. I genomsnitt förväntas<br />

ju tv˚a <strong>av</strong> tre punkter att ligga inom en sigma. Pullfördelningen har ocks˚a en<br />

standard<strong>av</strong>vikelse som är lite större än ett (1,21).<br />

y − f(x)<br />

3<br />

2<br />

1<br />

0<br />

-1<br />

-2<br />

-3<br />

0 5 10 15 20 25 30<br />

x<br />

Figur 6.7: En residualplot för en anpassning där en <strong>av</strong> punkterna i figur 6.4<br />

tagits bort.<br />

6.2.3 Ekvivalenta fel<br />

I summan som vi minimerar med minsta kvadratmetoden,<br />

χ 2 = <br />

<br />

yi − fi<br />

i<br />

är σi felet (osäkerheten egentligen) i mätningen <strong>av</strong> yi, <strong>och</strong> fi är värdet modellen<br />

ger. Men kanske kan vi inte exakt bestämma de fi som en viss uppsättning<br />

parametrar i modellen skulle ge upphov till. Det är d˚a naturligt att använda<br />

osäkerheten i yi − fi istället för i yi, dvs vi använder<br />

σi =<br />

σi<br />

2<br />

<br />

σ 2 yi + σ2 fi<br />

,<br />

(6.16)<br />

där σyi <strong>och</strong> σfi är osäkerheterna yi respektive fi. Vi kan se det som att vi lägger<br />

till en extra osäkerhet i mätningen <strong>av</strong> yi <strong>och</strong> sedan tillämpar precis samma metod<br />

som förut. Denna extra osäkerhet kan vi kalla den ekvivalenta osäkerheten i y<br />

som svarar mot osäkerheten i fi.<br />

Den vanligaste orsaken till att vi f˚ar en osäkerhet i fi är att vi inte lyckas<br />

kontrollera exakt vad vi mäter när bestämmer yi. Vi kanske mäter p˚a lite<br />

fel ställe, eller om vi mäter värmeutvecklingen i en förbränning kanske vi inte


6.2. MINSTA KVADRATMETODEN 73<br />

lyckas ˚astadkomma riktigt rätt blandning innan vi tänder p˚a. Om det gäller en<br />

funktionsanpassning till<br />

y = f(x)<br />

f˚ar vi allts˚a fel i v˚ara x-värden, inte bara i y. Kvadraten <strong>av</strong> osäkerheten i f =<br />

f(x) blir σ 2 f =<br />

df<br />

dx<br />

2<br />

σ 2 x, <strong>och</strong> ekvation 6.16 kan skrivas<br />

<br />

σi = σ2 yi +<br />

<br />

df<br />

<br />

<br />

σ<br />

dx xi<br />

2 xi . (6.17)<br />

Eftersom vi inte känner f fr˚an början kan vi inte bestämma det ekvivalenta<br />

felet fr˚an x-mätningen, σf, direkt. Istället f˚ar vi först göra en anpassning utan<br />

att ta hänsyn till x-felen, <strong>och</strong> sedan använda v˚art resultat för f i ekvation 6.17.<br />

Om vi har stora fel i x s˚a att resultatet ändras en hel del kanske vi bör upprepa<br />

proceduren. För en linjär anpassning till y = a + bx är df<br />

= b en konstant, <strong>och</strong><br />

det totala felet blir<br />

σi =<br />

<br />

σ 2 yi + bσ2 xi .<br />

6.2.4 Oviktade minsta kvadratanpassningar<br />

Ibland kan det hända att man har ett antal sammanhörande värden (x,y) som<br />

helt saknar feluppskattningar, men änd˚a behöver man anpassa ett funktionssamband.<br />

I s˚a fall är det rimligt att anta att alla mätningar har samma osäkerhet,<br />

dvs. samma vikt. Vi kallar en s˚adan anpassning för oviktad. Det g˚ar dock inte<br />

utan vidare att minimera<br />

χ 2 = <br />

2 yi − fi<br />

,<br />

σ<br />

i<br />

eftersom vi inte har n˚agot värde p˚a σ. Observera dock att om vi multiplicerar σ<br />

med ett tal kommer summan helt enkelt att divideras med det talet i kvadrat.<br />

De parametervärden som maximerar summan blir allts˚a desamma. Vi väljer<br />

därför lämpligen att sätta alla osäkerheter till ett <strong>och</strong> minimera summan<br />

χ 2 = <br />

(yi − fi) 2<br />

.<br />

i<br />

Resultatet för en anpassning till en rät linje kan vi allts˚a f˚a genom att sätta in<br />

wi = 1 i ekvationerna 6.13 <strong>och</strong> 6.14:<br />

a = ( y)( x 2 ) − ( x)( xy)<br />

N( x 2 ) − ( x) 2<br />

b = N( xy) − ( x)( y)<br />

N( x 2 ) − ( x) 2<br />

Vill vi bestämma osäkerheterna i a <strong>och</strong> b m˚aste vi först˚as ha en uppskattning <strong>av</strong><br />

osäkerheten i mätningarna. Vi kan ta fram en s˚adan genom att titta p˚a värdet<br />

<strong>av</strong> χ 2 för v˚ara anpassade parametrar. Om yi är normalfördelade runt fi med<br />

standard<strong>av</strong>vikelsen σ skall ju termerna i χ 2 -summan (beräknade för de sanna<br />

värdena p˚a fi) typiskt ha storleken ett. Vi ˚aterkommer till detta i <strong>av</strong>snitt 9.3.<br />

dx


74 KAPITEL 6. PARAMETERANPASSNINGAR


Kapitel 7<br />

Histogram <strong>och</strong><br />

poissonfördelade variabler<br />

I <strong>av</strong>snitt 4.1 s˚ag vi hur man kan histogrammera data för att f˚a en uppfattning<br />

om hur den bakomliggande fördelningen ser ut. I det här kapitlet ska vi titta<br />

lite närmare p˚a hur man tolkar data samlade i histogramform. Eftersom antalet<br />

utfall i varje bin i ett histogram är ett heltal 1 behöver vi ocks˚a först˚a lite grann<br />

om diskreta fördelning (allts˚a s˚adana som gäller sannolikheter för olika heltal<br />

istället för en sannolikhetstäthet).<br />

För att blir lite konkreta tänker vi oss att vi mäter livstiden hos en radioaktiv<br />

isotop. Vi använder en <strong>av</strong>ancerad apparatur som l˚ater oss mäta tiden fr˚an att<br />

en atom <strong>av</strong> ämnet bildats till det att den sönderfaller. Vi gör 1000 mätningar<br />

<strong>och</strong> f˚ar en fördelning <strong>av</strong> olika tider. Sannolikhetstätheten för olika tider ges <strong>av</strong><br />

f(t) = 1<br />

τ e−t/τ<br />

Vi skulle kunna använda v˚ara 1000 mätningar för att göra en maximum likelihood-uppskattning<br />

<strong>av</strong> τ, vilket är enkelt. Det ger en bra uppskattning om<br />

fördelningen verkligen har formen ovan, men om vi t.ex. skulle ha en bakgrund<br />

<strong>av</strong> atomer med andra livstider eller slumpmässiga signaler i v˚ar apparatur orsakade<br />

<strong>av</strong> kosmisk str˚alning blir resultatet fel. Vi kan inkludera s˚adan effekter i<br />

v˚ar likelihood, men d˚a blir maximeringsproblemet besvärligare. Hur som helst<br />

bör vi histogrammera v˚ara värden p˚a t för att f˚a en bättre bild <strong>av</strong> v˚ara data.<br />

Figur 7.1 visar histogrammet. Det visar ocks˚a tv˚a exponentialfördelningar med<br />

olika τ. B˚ada fördelningarna ser ut att stämma ganska väl med v˚ara data, men<br />

den streckade stämmer bättre. Vi kan undra ifall <strong>av</strong>vikelsen för den heldragna<br />

kurvan är statistiskt signifikant. I de första tre binnarna ligger ju data ovanför,<br />

<strong>och</strong> sedan lite under, men det kanske är en slump? Fr˚agan blir: Hur stora statistiska<br />

fluktuationer <strong>av</strong> antalet händelser i en bin förväntar vi oss?<br />

7.1 Multinomial- <strong>och</strong> poissonfördelningarna<br />

Vi söker sannolikhetsfördelningen för antalet mätvärden νi i bin i i ett histogram<br />

med N värden, dragna ur en sannolikhetstäthet f(x) (t.ex. exponen-<br />

1 Ibland används viktade händelser, men det g˚ar vi inte in p˚a här.<br />

75


76 KAPITEL 7. HISTOGRAM OCH POISSONFÖRDELADE VARIABLER<br />

antal händelser per bin<br />

400<br />

300<br />

200<br />

100<br />

0<br />

0 1 2 3 4 5 6<br />

t (ms)<br />

Figur 7.1: Ett histogram över tider dragna ur en exponentialfördelning <strong>och</strong><br />

tv˚a exponentialfördelningar med olika livstid (τ = 0,5ms för den steckade <strong>och</strong><br />

τ = 0,6ms för den heldragna).<br />

tialfördelningen i exemplet ovan). Vi inför<br />

<br />

pi = f(x)dx<br />

bin i<br />

som för varje x-värde är sannolikheten att hamna i bin i. Ett sätt att f˚a νi<br />

värden i bin i är att de första νi värdena hamnar där <strong>och</strong> de följande N −νi inte<br />

gör det. Sannolikheten för detta f˚ar vi genom att multiplicera sannolikheterna<br />

för alla x-värdena, vilket ger p νi<br />

i (1−pi) N−νi . Men vi kan välja de νi värdena som<br />

ska hamna i bin i p˚a olika sätt. Antalet sätt att välja νi värden (eller förem˚al)<br />

<strong>av</strong> totalt N stycken ges <strong>av</strong> binomialkoefficienten<br />

<br />

N N!<br />

=<br />

νi!(N − νi)!<br />

νi<br />

Varje urval <strong>av</strong> νi värden f˚ar sannolikheten p νi<br />

i (1 − pi) N−νi , <strong>och</strong> den totala san-<br />

nolikheten för νi blir allts˚a<br />

<br />

N<br />

P(νi) =<br />

νi<br />

.<br />

<br />

p νi<br />

i (1 − pi) N−νi . (7.1)<br />

Denna fördelning kallas för multinomialfördelningen. (Har vi bara tv˚a klasser,<br />

med sannolikheterna p <strong>och</strong> 1 − p, f˚ar vi en binomialfördelning.)


7.1. MULTINOMIAL- OCH POISSONFÖRDELNINGARNA 77<br />

Vi kan skriva om multinomialfördelningen genom att förkorta bort gemensamma<br />

faktorer i N<br />

: νi<br />

P(νi) =<br />

N!<br />

νi!(N − νi)! pνi<br />

i (1−pi) N−νi = N(N − 1)...(N − νi + 1)<br />

νi!<br />

p νi N−νi<br />

i (1−pi)<br />

Vi tänker oss nu att vi histogrammerat resultatet <strong>av</strong> ett mycket stort antal<br />

mätningar. Eftersom vi har m˚anga mätningar kan vi använda sm˚a binnar. Antalet<br />

mätningar i bin i blir d˚a mycket mindre än det totala antalet, dvs<br />

νi


78 KAPITEL 7. HISTOGRAM OCH POISSONFÖRDELADE VARIABLER<br />

e −µ<br />

∞<br />

ν=1<br />

µ µν−1<br />

= µe−µ<br />

(ν − 1)!<br />

∞<br />

i=0<br />

µ i<br />

i!<br />

= µ ,<br />

som redan nämnts. (Här har vi helt enkelt infört i = ν −1 som summationsindex<br />

s˚a att vi f˚ar summan fr˚an noll till oändligheten som blir e −1 .) Variansen blir<br />

σ 2 = e −µ<br />

−µ 2 + e −µ<br />

∞<br />

(ν−µ)<br />

ν=0<br />

∞<br />

ν=1<br />

2 µν<br />

ν!<br />

= e−µ<br />

∞<br />

2 µν<br />

ν<br />

ν! = −µ2 + e −µ<br />

∞<br />

(µ<br />

ν=0<br />

2 −2µν+ν 2 ) µν<br />

ν! = µ2−2µ 2 +e −µ<br />

ν=0<br />

∞<br />

ν=1<br />

νµ µν−1<br />

(ν − 1)! = −µ2 + µe −µ<br />

− µ 2 + µ(µ + 1) = µ<br />

∞<br />

i=0<br />

2 µν<br />

ν<br />

ν! =<br />

(i + 1) µi<br />

i! =<br />

som ocks˚a redan nämnts (ekvation 4.16).<br />

Dessutom kan man visa att summan <strong>av</strong> tv˚a poissonvariabler med medelvärden<br />

µ1 <strong>och</strong> µ2 ocks˚a är en poissonvariabel med medelvärdet µ1+µ2. Vi kan tänka<br />

oss att vi har en histogrambin med sannolikhet p


7.2. HISTOGRAM MED FELSTAPLAR 79<br />

När man histogrammerar ett begränsat antal utfall <strong>och</strong> inte har väldigt smala<br />

binnar gäller binomialstatistik snarare än poissonstatistik. Men om totala antalet<br />

utfall N som histogrammeras är poissonfördelat, snarare än ett p˚a förhand<br />

bestämt antal, kan man ganska enkelt visa att antalet utfall i en bin blir exakt<br />

poissonfördelat. Det är ofta just s˚a det är. Om vi mäter antalet sönderfall i ett<br />

radioaktivt preparat under en minut <strong>och</strong> histogrammerar antalet i tiosekundersbinnar<br />

bestämmer vi ju inte p˚a förhand det totala antalet. Om endast en liten<br />

andel sönderfaller under v˚ar minut kommer antalet som gör det att bli poissonfördelat,<br />

<strong>och</strong> därmed ocks˚a antalet i varje bin. Men om livstiden är mycket<br />

kortare än en minut kommer de allra flesta kärnorna att hinna sönderfalla, <strong>och</strong><br />

totala antalet sönderfall blir med god approximation lika med antalet kärnor vi<br />

hade fr˚an början, som kanske inte är poissonfördelat. Men v˚ar apparatur kanske<br />

bara är känslig för en liten andel <strong>av</strong> alla sönderfall, <strong>och</strong> d˚a blir antalet sönderfall<br />

vi observerar ˚aterigen poissonfördelat. Dessutom är antalet radioaktiva kärnor<br />

fr˚an början förmodligen ocks˚a poissonfördelat. I väldigt m˚anga fall när man<br />

räknar ett antal <strong>av</strong> n˚agonting s˚a blir antalet poissonfördelat.<br />

7.2 Histogram med felstaplar<br />

Vi ˚aterg˚ar nu till Figur 7.1. Det blir lättare att se hur bra data stämmer<br />

överens med den heldragna kurvan om vi ritar ut felstaplar som svarar mot<br />

fluktuationerna i antalet sönderfall i en bin. Vi har sett att detta antal blir<br />

poissonfördelat, <strong>och</strong> poissonfördelningen har standard<strong>av</strong>vikelsen σ = √ µ, dvs<br />

om poissonmedelvärdet i en bin ges <strong>av</strong> den heldragna kurvan är de förväntade<br />

fluktuationerna kvadratroten ur det värde som svarar mot kurvan. Vi skulle<br />

kunna rita felstaplar runt kurvan eller ersätta den med ett band med en bredd<br />

som svarar mot poissonfluktuationerna. Men det är inte s˚a ofta man gör p˚a det<br />

sättet. Istället brukar man tillskriva antalet utfall i en bin, νi, ett ”fel” som är<br />

ti−δ/2<br />

∆νi = √ νi , (7.3)<br />

<strong>och</strong> sedan rita histogrammet som datapunkter med felstaplar, som i Figur 7.3.<br />

Anledningen till att man gör p˚a det sättet är att man vill representera själva<br />

mätningen <strong>av</strong> antalet utfall i binnen utan att förlita sig p˚a n˚agon modell för<br />

poissonmedelvärdet. Antalet observerade utfall har egentligen inte n˚agot fel,<br />

men om vi betraktar det som en uppskattning <strong>av</strong> poissonmedelvärdet i binnen<br />

finns det en osäkerhet i den uppskattningen. När vi uppskattar osäkerheten fr˚an<br />

v˚art mätvärde kommer vi att underskatta den lite grann om data fluktuerar<br />

ned˚at, <strong>och</strong> överskatta den lite grann för fluktuationer upp˚at. Ofta spelar detta<br />

inte s˚a stor roll.<br />

Felstaplarna i Figur 7.3 gör att det är lättare att se hur betydelsefulla<br />

<strong>av</strong>vikelserna är. Dessutom kan vi använda felen för att anpassa en funktion med<br />

minsta kvadratmetoden. Om vi har N mätvärden fördelade över de olika binnarna<br />

blir det förväntade antalet (poissonmedelvärdet) i en bin med mittpunkt<br />

vid ti <strong>och</strong> bredd δ<br />

ti+δ/2<br />

1<br />

1<br />

fi = N exp(−t/τ) ≈ Nδ<br />

τ τ exp(−ti/τ)<br />

Vi vill allts˚a anpassa parametrarna n0 = Nδ<br />

τ<br />

f(x) = n0 exp(−t/τ)<br />

<strong>och</strong> τ i funktionen


80 KAPITEL 7. HISTOGRAM OCH POISSONFÖRDELADE VARIABLER<br />

frekvens (händelser / 0,2 ms)<br />

400<br />

300<br />

200<br />

100<br />

0<br />

0 1 2 3 4 5 6<br />

t (ms)<br />

Figur 7.3: Samma data som i Figur 7.1, med felstaplar.<br />

till v˚ara punkter genom att minimera 2 νi−fi där σi = σi<br />

√ νi eftersom νi är<br />

poissonfördelad. Summan blir allts˚a<br />

χ 2 = (νi − fi) 2<br />

νi<br />

(7.4)<br />

Observera att f inte är linjär i parametrarna, s˚a för att minimera detta kan vi<br />

inte använda matrismetoden (ekvation 6.10), utan vi m˚aste ta till numeriska<br />

metoder. Det är ganska vanligt att man blir tvungen till det. I det här fallet kan<br />

vi dock klara oss änd˚a genom att logaritmera f, dvs vi skriver<br />

lnf = lnn0 − 1<br />

t ≡ a − bt ,<br />

τ<br />

där vi infört tv˚a nya parametrar a <strong>och</strong> b. Funktionen lnf är linjär i parametrarna<br />

<strong>och</strong> vi kan nu införa x = t <strong>och</strong> y = lnν <strong>och</strong> använda ekvation 6.10 för v˚ar anpassning.<br />

Eftersom vi allts˚a anpassar lnf som funktion <strong>av</strong> t till en rät linje är det<br />

ocks˚a möjligt att använda ekvationerna 6.13 – 6.15. För att göra anpassningen<br />

behöver vi felen i y = lnν. Som redan nämnts är felet (egentligen osäkerheten)<br />

i logaritmen det relativa felet i det man logaritmerar: σy =<br />

Utnyttjar vi poissonfördelningen för ν f˚ar vi<br />

σyi<br />

= 1<br />

√ νi<br />

dy<br />

dν σν<br />

2<br />

= 1<br />

ν σν.


7.2. HISTOGRAM MED FELSTAPLAR 81<br />

<strong>och</strong> har därmed allt vi behöver för v˚ar anpassning.<br />

Lägg märke till att ovanst˚aende uttryck för σy endast gäller om vi anpassar<br />

till logaritmen <strong>av</strong> antalet utfall i varje bin (ett observerat heltal). Om vi istället<br />

fr˚an början dividerat med binbredden <strong>och</strong> bildat sönderfallshastigheten ni = νi<br />

δ<br />

blir det lite annorlunda. Vi anpassar d˚a till y = ln(nis). (Lägg märke till att vi<br />

m˚aste uttrycka ni i en enhet, t.ex. som här s −1 , för att f˚a ett dimensionslöst tal<br />

som vi kan logaritmera.) Vi f˚ar σni = √ νi<br />

δ = ni<br />

δ <strong>och</strong> σy = σni /ni = 1<br />

√ niδ .<br />

Det finns en annan anledning till att logaritmera v˚ara värden, nämligen<br />

att bättre kunna se hur det ser ut för de binnar i fördelningens ”svans” som<br />

inneh˚aller f˚a mätningar. Figur 7.4 visar de logaritmerade värdena p˚a antalet<br />

utfall i de olika binnarna, med fel. Det är tydligt att punkterna inte ligger p˚a<br />

en rät linje! Vi har n˚agon form <strong>av</strong> bakgrund som inte <strong>av</strong>klingar alls lika snabbt<br />

som sönderfallen vi vill räkna. Den beskrivs allts˚a <strong>av</strong> ett mycket större värde p˚a<br />

τ. Vi kan allts˚a inte beskriva v˚ara data med en enda exponentialfördelning. Gör<br />

vi en minsta kvadratanpassning <strong>av</strong> en en rät linje till alla punkterna i Figur 7.4<br />

kommer vi att f˚a ett för stort värde p˚a livstiden b = τ. För att bestämma den<br />

livstid vi är ute efter kan vi antingen välja att bara ta med punkter i början<br />

<strong>av</strong> histogrammet där vi kan försumma bakgrunden, anpassa b˚ade bakgrund <strong>och</strong><br />

signal (i s˚a fall blir funktionen inte längre linjär i parametrarna), eller göra<br />

mätningar utan signal för att bestämma bakgrunden s˚a att vi kan subtrahera<br />

den.<br />

ln ( / (0.2ms) -1 n )<br />

6<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

-1<br />

0 1 2 3 4 5 6<br />

t (ms)<br />

Figur 7.4: Ett diagram över logaritmen <strong>av</strong> antalet sönderfall per bin, med fel.<br />

Genom att ta logaritmen kan vi bättre se hur fördelningens ”svans” ser ut, men<br />

den mer populerade delen syns mindre tydligt. Vi har infört räknehastigheten<br />

n, dvs antalet sönderfall per tidsenhet.


82 KAPITEL 7. HISTOGRAM OCH POISSONFÖRDELADE VARIABLER<br />

För att se om v˚ara data i svansen <strong>av</strong>viker kan vi ocks˚a använda en logaritmisk<br />

skala, som i Figur 7.5. Använder man ett programpaket för plottning brukar det<br />

vara lätt att välja att plotta punkterna p˚a detta sätt.<br />

frekvens (händelser / 0,2 ms)<br />

10 2<br />

10<br />

1<br />

0 1 2 3 4 5 6<br />

t (ms)<br />

Figur 7.5: Ett diagram över antalet sönderfall per bin, med fel, plottade p˚a en<br />

logaritmisk skala.


Kapitel 8<br />

Kovarians <strong>och</strong> korrelation<br />

Om vi har en variabel x som kan anta slumpmässiga värden med olika sannolikhet<br />

har vi sett att vi kan beskriva fördelningen <strong>av</strong> värden med en sannolikhetstäthet<br />

f(x), s˚a att sannolikheten att ett x-värde ska hamna i ett litet<br />

interval dx vid x är f(x)dx. Vi s˚ag ocks˚a i <strong>av</strong>snitt 4.4 att om vi har tv˚a<br />

stokastiska variabler x <strong>och</strong> y som beskrivs <strong>av</strong> tv˚a tätheter f(x) <strong>och</strong> g(y) s˚a blir<br />

sannolikheten att f˚a ett x-värde i intervallet dx runt x <strong>och</strong> ett y-värde i dy<br />

vid y<br />

P(x ∈ dx;y ∈ dy) = f(x)dx g(y)dy . (8.1)<br />

om x <strong>och</strong> y är oberoende <strong>av</strong> varandra. Ovanst˚aende tas som en definition <strong>av</strong> vad<br />

vi menar med att x <strong>och</strong> y är oberoende. Det betyder att en br˚akdel g(y)dy <strong>av</strong><br />

alla g-värden kommer att falla i intervallet dy, även om vi bara väljer par (x,y)<br />

som har x i n˚agot särskilt interval (<strong>och</strong> vice versa). Processen som ger y beror<br />

allts˚a inte p˚a den som ger x, eller tvärtom.<br />

Vi kan nu definiera en sannolikhetstäthet i x,y-planet (eng. ”joint probability<br />

density function”) s˚a att<br />

F(x,y)dxdy = P(x ∈ dx;y ∈ dy)<br />

Om F(x,y) kan faktoriseras som i ekvation 8.1 är allts˚a x <strong>och</strong> y oberoende, <strong>och</strong><br />

vi kan studera f(x) <strong>och</strong> g(x) var för sig. Men om x <strong>och</strong> y inte är oberoende<br />

m˚aste vi använda F(x,y) för att beskriva situationen. Eftersom sannolikheten<br />

att hamna n˚agonstans i x,y-planet är 100% är<br />

<br />

F(x,y)dxdy = 1 , (8.2)<br />

analogt med ekvation 4.2 för en dimension.<br />

För tv˚a variabler, x <strong>och</strong> y, är F(x,y) en ”karta” över xy-planet som visar<br />

i vilka omr˚aden sannolikhetstätheten är hög. Den kan ˚ask˚adliggöras med niv˚akurvor,<br />

precis som höjden p˚a en vanlig topografisk karta. Figur 8.1 visar tre<br />

exempel. Kryssen visar n˚agra (x,y)-par dragna slumpmässigt. Fördelningen<br />

till vänster har en komplicerad struktur, <strong>och</strong> det är uppenbart att x <strong>och</strong> y<br />

inte är oberoende. I den mittersta fördelningen är x <strong>och</strong> y oberoende <strong>och</strong> normalfördelade.<br />

I fördelningen till höger däremot ser vi att höga x-värden tenderar<br />

att˚atföljas <strong>av</strong> höga y-värden. I detta fall säger man att det finns en positiv korrelation<br />

mellan x <strong>och</strong> y (i diagrammet till vänster är korrelationen negativ). För<br />

83


84 KAPITEL 8. KOVARIANS OCH KORRELATION<br />

Figur 8.1: Tre olika sannolikhetstätheter i x,y-planet <strong>och</strong> n˚agra slumpmässiga<br />

utfall ur var <strong>och</strong> en <strong>av</strong> dem.<br />

att variablerna skall vara oberoende f˚ar inte y-fördelningen vara olika för olika x,<br />

s˚a korrelerade variabler är inte oberoende. (Däremot är det inte s˚a att <strong>av</strong>saknad<br />

<strong>av</strong> korrelation innebär att variablerna är oberoende.)<br />

Vi är speciellt intresserade <strong>av</strong> fallet d˚a x är resultatet <strong>av</strong> en mätning där<br />

µx, väntevärdet <strong>av</strong> x, är storhetens sanna värde, <strong>och</strong> motsvarande för y. När vi<br />

resonerade oss fram till felfortplantningsformeln i <strong>av</strong>snitt 3.1 sade vi att det vore<br />

otur om felen i x <strong>och</strong> y samtidigt r˚akade bli stora. Vi härledde sedan formeln<br />

för statistiska fel i <strong>av</strong>snitt 4.4 under antagandet att felen är oberoende. För tv˚a<br />

variabler lyder formeln<br />

σa =<br />

<br />

<br />

∂a<br />

∂x σx<br />

2 <br />

∂a<br />

+<br />

∂y σy<br />

2 . (8.3)<br />

Men om felen i x <strong>och</strong> y är starkt korrelerade är det inte längre otur om de<br />

samverkar, <strong>och</strong> de är inte heller oberoende <strong>av</strong> varandra. Ovanst˚aende formel<br />

gäller allts˚a inte, utan m˚aste kompletteras.<br />

För att göra denna komplettering börjar vi med att bestämma medelvärdet<br />

(väntevärdet) <strong>av</strong> a som i ekvation 4.19, men nu faktoriserar inte sannolikhetstätheten:<br />

<br />

E(a(x,y)) = a(x,y)F(x,y)dxdy .<br />

Om felen är sm˚a kan vi approximera a med en linjär funktion (konstanta<br />

derivator), vilket ger<br />

<br />

E(a(x,y)) = a(µx,µy) + ∂a<br />

∂x (x − µx) + ∂a<br />

<br />

(y − µy) F(x,y)dxdy .<br />

∂y<br />

Det är endast x <strong>och</strong> y som varierar, s˚a vi f˚ar<br />

<br />

E(a(x,y)) = E a(µx,µy) + ∂a<br />

∂x (x − mux) + ∂a<br />

<br />

(y − µy) =<br />

∂y<br />

a(µx,µy) + ∂a<br />

∂x E(x − µx) + ∂a<br />

∂y E(y − µy) ,<br />

<strong>och</strong> eftersom E(x) ≡ µx <strong>och</strong> E(y) ≡ µy har vi (liksom förut) att<br />

E(a(x,y)) = a(µx,µy) .


Variansen <strong>av</strong> a ges <strong>av</strong><br />

σ 2 a = E<br />

<br />

(a(x,y) − E(a(x,y))) 2<br />

= E<br />

<br />

(a(x,y) − a(µx,µy)) 2<br />

Vi gör ˚aterigen den linjära approximationen för a:<br />

σ 2 a = E a(µx,µy) + ∂a<br />

∂x (x − µx) + ∂a<br />

∂y (y − µy)<br />

<br />

2<br />

− a(µx,µy) =<br />

∂a<br />

E<br />

∂x (x − µx) + ∂a<br />

<br />

2<br />

(y − µy) =<br />

∂y<br />

2 ∂a<br />

E<br />

∂x<br />

(x − µx) 2 2 ∂a<br />

+ E<br />

∂y<br />

(y − µy) 2 + 2 ∂a ∂a<br />

∂x ∂y E [(x − µx)(y − µy)]<br />

Vi känner igen varianserna σ 2 x = E (x − µx) 2 <strong>och</strong> σ 2 y = E (y − µy) 2 . Om<br />

vi strök den sista <strong>av</strong> de tre termerna i uttrycket för σ 2 a skulle vi allts˚a f˚a ekvation<br />

8.3. Den tredje termen inneh˚aller väntevärdet E [(x − µx)(y − µy)] =<br />

dx dy F(x,y)(x − µx)(y − µy). Om x <strong>och</strong> y är oberoende, s˚a att F(x,y) =<br />

f(x)g(y), kan vi integrera över en variabel i taget, <strong>och</strong> resultatet blir noll. För att<br />

E [(x − µx)(y − µy)] skall kunna bli större än noll m˚aste y tendera att vara större<br />

än sitt medelvärde µy när x > µx, <strong>och</strong> mindre än µy d˚a x < µx. Om det tvärtom<br />

är s˚a att y fluktuerar ned˚at när x fluktuerar upp˚at blir E [(x − µx)(y − µy)] < 0.<br />

Man definierar kovariansen mellan variablerna x <strong>och</strong> y som<br />

cov(x,y) = E [(x − µx)(y − µy)] (8.4)<br />

där E betecknar förväntansvärdet, <strong>och</strong> medelvärdena <strong>av</strong> x <strong>och</strong> y är µx = E(x)<br />

<strong>och</strong> µy = E(y). Ibland ser man ocks˚a beteckningarna σxx = σ2 x, σyy = σ2 y <strong>och</strong><br />

σxy = cov(x,y).<br />

Genom att dra roten ur variansen σ2 a ovan f˚ar vi den kompletta felfortplantningsformeln<br />

för tv˚a variabler:<br />

<br />

<br />

∂a<br />

σa =<br />

∂x σx<br />

2 <br />

∂a<br />

+<br />

∂y σy<br />

2 + 2 ∂a ∂a<br />

∂x ∂y cov(x,y) . (8.5)<br />

Resonemanget kan lätt generaliseras till flera variabler x1,x2,...xn. Vi f˚ar en<br />

kovariansterm för varje par <strong>av</strong> variabler. Alla kovarianser <strong>och</strong> varianser kan<br />

sammanfattas i variansmatrisen<br />

⎛<br />

⎞<br />

⎜<br />

V = ⎜<br />

⎝<br />

σ2 1 cov(x1,x2) ... cov(x1,xN)<br />

cov(x2,x1) σ2 2 ... cov(x2,xN)<br />

.<br />

.<br />

. ..<br />

cov(xN,x1) cov(xN,x2) ... σ 2 N<br />

som är symmetrisk eftersom cov(xi,xj) = cov(xj,xi). Vi ser att matrisen i ekvation<br />

6.7 som vi använde för minsta kvadratanpassningen är variansmatrisen<br />

för de oberoende (<strong>och</strong> därmed okorrelerade) mätningarna <strong>av</strong> yi,i = 1,N. Matrisen<br />

Va i ekvation 6.11 är den resulterande variansmatrisen för de anpassade<br />

parametrarna. Om vi använder dessa parametrar i ett numeriskt uttryck m˚aste<br />

vi ta hänsyn till kovarianstermerna när vi bestämmer osäkerheten.<br />

.<br />

⎟<br />

⎠<br />

85


86 KAPITEL 8. KOVARIANS OCH KORRELATION<br />

Man brukar ocks˚a införa korrelationen för fördelningen:<br />

ρ = cov(x,y)<br />

σxσy<br />

Det g˚ar att visa att kovariansen aldrig kan bli större till beloppet än produkten<br />

<strong>av</strong> standard<strong>av</strong>vikelserna, s˚a ρ ligger mellan −1 <strong>och</strong> +1. Negativa värden svarar<br />

mot en negativ lutning, <strong>och</strong> ju närmare ±1 som ρ ligger desto mer närmar sig<br />

fördelningen ett linjärt samband mellan x <strong>och</strong> y. Figur 8.2 visar tre exempel.<br />

Femhundra punkter har dragits ur var <strong>och</strong> en <strong>av</strong> tre fördelningar med olika<br />

korrelation. I det vänstra diagrammet är ρ = 0,98 <strong>och</strong> punkterna ligger nära en<br />

linje med positiv lutning. (Observera att hur stor lutningen är inte spelar n˚agon<br />

roll för värdet p˚a ρ.) I mitten är ρ = 0,3, <strong>och</strong> punkterna ser nästan okorrelerade<br />

ut. Punkterna till höger är dragna ur en fördelning med ρ = −0,7 <strong>och</strong> den<br />

negativa lutningen syns tydligt.<br />

y<br />

x<br />

y<br />

Figur 8.2: Tre datamängder dragna ur fördelningar med olika korrelation (ρ =<br />

0,98, 0,3, 0,7).<br />

Om vi mäter en variabel N g˚anger har vi sett att vi uppskattar fördelningens<br />

medelvärde för x (väntevärdet <strong>av</strong> x) med det aritmetiska medelvärdet,<br />

µx = x = 1<br />

<br />

x ,<br />

N<br />

<strong>och</strong> fördelningens varians med<br />

σx 2 = 1<br />

N − 1<br />

.<br />

(x − x) 2<br />

vilket nästan är det aritmetiska medelvärdet <strong>av</strong> (x − x) 2 . (Vi använder som<br />

tidigare sagts N − 1 istället för N eftersom uppskattningen annars tenderar att<br />

bli för liten för sm˚a N.) Om varje x-värde hör ihop med ett y-värde kan vi i<br />

analogi med ovanst˚aende bilda ett estimat för fördelningens kovarians cov(x,y):<br />

cov(x,y) = 1 <br />

[(x − x)(y − y)] . (8.6)<br />

N − 1<br />

x<br />

,<br />

y<br />

x


Man kan tycka att vi nu uppskattat tv˚a medelvärden <strong>och</strong> borde dividera med<br />

N − 2, men vi har ocks˚a dubbelt s˚a m˚anga mätvärden, s˚a N − 1 är fortfarande<br />

korrekt. Vi kan ocks˚a uppskatta korrelationen hos fördelningen som<br />

r = ρ = cov(x,y)<br />

=<br />

σxσy<br />

(x − x)(y − y)<br />

(x − x) 2 (y − y) 2<br />

87<br />

(8.7)<br />

Man brukar kalla r för den linjära korrelationskoefficienten för de N datapunkterna.<br />

Precis som ρ kan den ligga mellan −1 <strong>och</strong> +1. Medan ρ beskriver hur<br />

mycket punkter dragna ur en fördelning i genomsnitt ansluter sig till en rät<br />

linje med positiv eller negativ lutning ger r motsvarande värde för ett stickprov<br />

<strong>av</strong> (x,y)-punkter. Liksom när det gäller uppskattningen <strong>av</strong> σ är det inte<br />

nödvändigt att använda hattbeteckningar för estimaten om det inte finns risk<br />

för förväxling.<br />

När vi beräknar kovariansen eller korrelationen fr˚an en uppsättning mätningar<br />

x <strong>och</strong> y kan det vara bra att göra omskrivningen (x−x) 2 = x2− 1<br />

N ( x) 2 ,<br />

som när vi härledde ekvation 4.11, <strong>och</strong> motsvarande för (y −y) 2 . En liknande<br />

omskrivning <strong>av</strong> summan i ekvation 8.6 blir<br />

<br />

(x−x)(y−y) = xy+ xy− xy− yx = xy−Nxy =<br />

1<br />

<br />

xy − x y<br />

N<br />

Beräknar vi summorna x, y, x 2 , y 2 <strong>och</strong> xy över alla (x,y)-par kan<br />

vi sedan sätta in dem i formlerna för medelvärden, varianser/standard<strong>av</strong>vikelser<br />

<strong>och</strong> kovariansen. Detta är speciellt användbart om räkningarna görs för hand.<br />

Kovariansen för stickprovet blir<br />

cov(x,y) = ( xy) − 1<br />

N ( x)( y)<br />

N − 1<br />

<strong>och</strong> korrelationenskoefficienten kan skrivas<br />

r =<br />

( xy) − 1<br />

N ( x)( y)<br />

x 2 1 − N ( x) 2 y2 − 1<br />

N ( y) 2<br />

Som <strong>av</strong>slutning vill jag p˚apeka att medelvärdet <strong>av</strong> en summa är summan <strong>av</strong><br />

medelvärdena (E(x + y) = E(x) + E(y)), helt oberoende <strong>av</strong> eventuella korrelationer<br />

<strong>och</strong> <strong>av</strong> formen för F(x,y). Lite mer allmänt blir ju<br />

<br />

E(αx + βy + γ) = (αx + βy + γ)F(x,y)dx = αE(x) + βE(y) + γ ,<br />

för konstanta α, β <strong>och</strong> γ. Korrelationerna p˚<strong>av</strong>erkar allts˚a variansen <strong>av</strong> en<br />

summa, men inte dess medelvärde.


88 KAPITEL 8. KOVARIANS OCH KORRELATION


Kapitel 9<br />

Konfidensintervall <strong>och</strong><br />

Hypotestest<br />

När vi presenterar resultat anger vi osäkerheter som svarar mot ”typiska” fel.<br />

Jag skrev att det ofta inte g˚ar att ange s˚adana fel s˚a att de exakt svarar mot<br />

en precis definition. Detta gäller framför allt systematiska fel. För statistiska fel<br />

är standard<strong>av</strong>vikelsen det typiska felet, <strong>och</strong> genom att mäta upprepade g˚anger<br />

kan vi uppskatta den. Vi kan ocks˚a använda felfortplantningsformeln för att<br />

bestämma standard<strong>av</strong>vikelsen i en storhet som i sin tur är en funktion <strong>av</strong> en eller<br />

flera storheter med fel, a = a(x,y ...) (är felen korrelerade m˚aste vi ta hänsyn<br />

till det). Observera dock att felfortplantningsformeln förutsätter att funktionen<br />

kan anses linjär för de värden p˚a x,y,z som kan komma ifr˚aga (allts˚a en god<br />

bit bortom felgränserna) 1 .<br />

Trots ovan nämna begränsningar är mätfelet i en storhet ofta normalfördelat,<br />

som en följd <strong>av</strong> centrala gränsvärdessatsen. Om vi vet (eller antar) att felet är<br />

normalfördelat kan vi ge en lite tydligare tolkning <strong>av</strong> vad felgränserna ±1σ<br />

betyder. L˚at oss anta att vi mäter en storhet, <strong>och</strong> att v˚art mätvärde x är normalfördelat<br />

runt det sanna värdet µ som vi inte känner. Däremot har vi bestämt<br />

standard<strong>av</strong>vikelsen σ i normalfördelningen. V˚art mätresultat blir d˚a en uppskattning<br />

<strong>av</strong> µ (jag skriver ”µ” istället för ”µ”, vilket man ju oftast gör när man<br />

presenterar resultatet <strong>av</strong> en mätning):<br />

µ = xm ± σ ,<br />

där xm är v˚art uppmätta värde. Vi vill nu uttrycka detta som en utsaga om<br />

sannolikheter. Figur 9.1 illustrerar situationen. V˚art värde xm är draget ur<br />

normalfördelningen centrerad vid (det okända) värdet µ. I exemplet i figuren<br />

ligger det sanna värdet inte inom felgränserna. Däremot kommer det oftast att<br />

göra det. Vi vet ju att om vi gör om mätningen m˚anga g˚anger (drar nya xm<br />

enligt fördelningen i figuren) kommer vi i 68% <strong>av</strong> fallen att hamna inom ±1σ<br />

fr˚an µ. När detta händer kommer v˚ara felgränser att hamna s˚a att de inkluderar<br />

µ. Vi ser att v˚art felintervall inkluderar det sanna värdet i 68% <strong>av</strong> fallen. Vi<br />

1 Om v˚ar funktion inte är linjär kan vi genom att generera värden p˚a x, y . . . <strong>och</strong> sätta in<br />

dem i funktionsuttrycket bestämma fördelningen <strong>av</strong> a för olika antaganden om vilka som är<br />

de sanna värdena.<br />

89


90 KAPITEL 9. KONFIDENSINTERVALL OCH HYPOTESTEST<br />

f(x)<br />

0<br />

x m<br />

μ-3σ μ-2σ μ-σ μ μ+σ μ+2σ μ+3σ<br />

Figur 9.1: Ett mätvärde xm med tillhörande felgränser, samt normalfördelningen<br />

runt det sanna värdet som xm drogs ur.<br />

kallar intervallet<br />

[xm − σ,xm + σ]<br />

för ett konfidensintervall med konfidensniv˚an 68%. (P˚a engelska säger man ”confidence<br />

level”, vilket ofta förkortas ”CL”.)<br />

När man anger osäkerheter (”fel”) är det ofta just ett konfidensintervall<br />

med konfidensniv˚an 68% (”en gaussisk sigma”) man har i tankarna, snarare än<br />

en standard<strong>av</strong>vikelse för den aktuella fördelningen. (För en normalfördelning<br />

blir det först˚as ingen skillnad.) När man explicit talar om konfidensintervall<br />

(snarare än ”fel” eller ”osäkerheter”) brukar man använda en högre konfidensniv˚a<br />

än 68%. Vanligt är 95% <strong>och</strong> 99%, men även 90% förekommer. Det är<br />

naturligtvis absolut nödvändigt att ange konfidensniv˚an när man presenterar<br />

ett konfidensintervall.<br />

Lägg märke till att i figur 9.1 är normalfördelningskurvan centrerad vid det<br />

sanna värdet µ. Det är ju den sannolikhetstätheten vi drar v˚art mätvärde ur.<br />

Att rita in en normalfördelning centrerad vid xm skulle inte vara lämpligt. Vi<br />

är inte speciellt intresserade <strong>av</strong> det osannolika fall d˚a vi r˚akar f˚a exakt rätt<br />

värde. Däremot m˚aste vi ju tänka oss olika möjliga värden p˚a µ eftersom vi<br />

inte vet det sanna värdet. Det värde som ligger precis vid v˚ar undre felgräns<br />

kännetecknas <strong>av</strong> att sannolikheten för att det skulle ge ett värde större än vi<br />

observerat är 1<br />

2 (1 − 0,68) = 16% (sannolikheten för en <strong>av</strong>vikelse mer än 1σ<br />

˚at ena h˚allet fr˚an medelvärdet). Motsvarande gäller för den övre gränsen. De<br />

b˚ada fördelningarna som svarar mot dessa punkter visas i Figur 9.2 tillsammans<br />

med mätvärdet <strong>och</strong> det 68-procentiga konfidensintervallet. Punkter som ligger<br />

utanför konfidensintervallet är uteslutna med den aktuella konfidensniv˚an. Med<br />

konfidensniv˚an 68% kommer man att utesluta det sanna värdet i nästan ett fall<br />

<strong>av</strong> tre. Detta är knappast vad man vanligen menar med att n˚agot är ”uteslutet”.<br />

Det är därför man brukar använda konfidensniv˚aer över 90%. Ett intervall med<br />

x


f(x)<br />

0<br />

x m<br />

μ-3σ μ-2σ μ-σ μ μ+σ μ+2σ μ+3σ<br />

Figur 9.2: Normalfördelningarna för de tv˚a hypotetiska sanna värden som<br />

svarar mot gränserna i konfidensintervallet med 68% konfidensniv˚a.<br />

konfidensniv˚an 95% är<br />

[xm − 1,96σ, xm + 1,96σ] ,<br />

dvs. nästan tv˚a ”gaussiska sigma”, <strong>och</strong> 2,58 gaussiska sigma svarar mot konfidensniv˚an<br />

99%.<br />

Intervallet ovan är ett tv˚asidigt konfidensintervall. Det är ocks˚a ganska vanligt<br />

med enkelsidiga intervall. Det kan röra sig om att man försöker detektera<br />

en effekt <strong>av</strong> n˚agot slag utan att lyckas. Resultatet kan d˚a presenteras som en<br />

övre gräns för effekten i fr˚aga. Ett exempel f˚ar illustrera.<br />

Antag att vi skall producera ett mycket stort antal detektorer som räknar<br />

antalet g˚anger de träffas <strong>av</strong> joniserande partiklar (radioaktiv str˚alning). Det<br />

är viktigt att alla räknar lika, <strong>och</strong> att de inte räknar om de inte träffas. Vi<br />

använder därför speciella l˚agaktiva material i konstruktionen, <strong>och</strong> vi skickar<br />

ned n˚agra prototyper i en djup gruva där vi ordnar s˚a att vi kan försumma<br />

bakgrundsstr˚alningen (berget ovanför filtrerar bort den kosmiska str˚alningen).<br />

Vi konstaterar p˚a s˚a sätt att detektorerna inte räknar <strong>av</strong> sig själva. När vi byggt<br />

ett mycket stort antal visar det sig dock att n˚agot g˚att fel i produktionen s˚a<br />

att n˚agra detektorer blivit svagt radioaktiva <strong>och</strong> därför ger extra pulser. Vi<br />

testar därför allihop i v˚art lab, där var <strong>och</strong> en f˚ar ta data i 10 minuter. Genom<br />

upprepade mätningar med flera <strong>av</strong> v˚ara korrekt byggda prototyper konstaterar<br />

vi att det förväntade antalet pulser fr˚an bakgrundsstr˚alning under 10 minuter är<br />

µb = 203. Detta är allts˚a medelvärdet i en poissonfördelning för antalet pulser<br />

n i en detektor där allt g˚att som det ska i produktionen. De d˚aliga detektorerna<br />

räknar lite mer.<br />

För varje detektor är vi nu intresserade <strong>av</strong> hur m˚anga pulser den i medeltal<br />

spontant genererar under 10 minuter, utöver det normala. För en korrekt fungerande<br />

detektor skall detta vara noll (eller mycket nära noll), medan en detektor<br />

med inbyggt radioaktivt material kommer att ge ett antal större än noll.<br />

x<br />

91


92 KAPITEL 9. KONFIDENSINTERVALL OCH HYPOTESTEST<br />

Även detta antal kommer att vara poissonfördelat, med ett medelvärde vi kan<br />

beteckna med µ (som allts˚a är olika för olika detektorer). Totala antalet pulser<br />

blir poissonfördelat med medelvärde µtot = µb + µ.<br />

För s˚a stora tal som det är fr˚aga om kan vi approximera poissonfördelningen<br />

med en normalfördelning. Standard<strong>av</strong>vikelsen för n är<br />

<strong>och</strong> den stokastiska variabeln<br />

σ = √ µb + µ<br />

x = n − µb<br />

är normalfördelad med medelvärde µ <strong>och</strong> standard<strong>av</strong>vikelse σ. V˚art värde p˚a x<br />

är allts˚a en uppskattning <strong>av</strong> µ, <strong>och</strong> vi kan konstruera ett konfidensintervall för<br />

µ, som i figur 9.2. Nu är vi emellertid inte särskilt intresserade <strong>av</strong> den undre<br />

gränsen, vi vill bara vara n˚agorlunda säkra p˚a att µ inte är för stort. Vi konstruerar<br />

därför ett ensidigt konfidensintervall fr˚an v˚art mätta värde xm som i<br />

figur 9.3. Om v˚art observerade värde är xm <strong>och</strong> vi önskar 95 procents konfidens-<br />

f(x)<br />

x m<br />

-50<br />

5%<br />

0 50 100<br />

Figur 9.3: Ett ensidigt konfidensintervall (övre gräns) för ett mätt värde<br />

xm = 12. En normalfördelning med medelvärde 37,5 <strong>och</strong> standard<strong>av</strong>vikelse<br />

√ 37,5 skulle ge x ≤ 12 i fem procent <strong>av</strong> mätningarna. Den övre gränsen är<br />

allts˚a 37,5.<br />

niv˚a utesluter vi de värden p˚a µ som med fem procents sannoliket eller mindre<br />

ger x ≤ xm (de till höger om den streckade linjen i figuren). Detta ger en lägre<br />

gräns (<strong>och</strong> utesluter fler värden) än ett dubbelsidigt intervall med samma konfidensniv˚a<br />

skulle hade gjort. För ett dubbelsidigt intervall ges ju övre gränsen<br />

<strong>av</strong> att vi ska ha 2,5 procents sannolikhet att f˚a ett lika l˚agt eller lägre värde<br />

än det observerade. Om räknaren t.ex. ger 1968 pulser, s˚a att xm = 12 kan vi<br />

sammanfatta v˚art enkelsidiga intervall med att<br />

µ < 38 (95% konfidensniv˚a).<br />

x


9.1. HYPOTESTEST 93<br />

9.1 Hypotestest<br />

De mest banbrytande experimentella resultaten är ibland inte s˚adana som innebär<br />

att n˚agot värde bestäms med stor precision, utan istället s˚adana som<br />

demonstrerar existensen <strong>av</strong> helt nya fenomen. Exempel kan vara Pasteurs upptäckt<br />

<strong>av</strong> betydelsen <strong>av</strong> hygien inom sjukv˚arden, Hertz’ observation <strong>av</strong> elektromagnetiska<br />

v˚agor (i enlighet med Maxwells teori), Chadwicks upptäckt <strong>av</strong> neutronen,<br />

eller upptäckten <strong>av</strong> CP-brottet, allts˚a asymmetrin mellan materia <strong>och</strong><br />

antimateria (Cronin & Fitch). Ibland, som för CP-brottet, kan blotta existensen<br />

<strong>av</strong> en effekt ha dramatiska <strong>och</strong> djupg˚aende konsekvenser för v˚ar beskrivning <strong>av</strong><br />

naturen. Hur som helst kan man knappast studera n˚agot kvantitativt innan man<br />

fastslagit att det existerar!<br />

Vi behöver ett allmänt sätt att svara p˚a fr˚agan: Stämmer mina data med<br />

existerande teori eller m˚aste teorin ändras? Innan vi bestämmer oss för att skriva<br />

om fysiken fr˚an grunden bör vi eller n˚agon annan upprepa mätningarna för att<br />

se om det stämmer. D˚a m˚aste vi svara p˚a fr˚agan: Är mätningarna förenliga med<br />

varandra eller motsäger de varandra? (I det senare fallet m˚aste det finnas systematiska<br />

osäkerheter man inte först˚att, <strong>och</strong> innan tydliga slutsatser om teorin<br />

kan komma ifr˚aga m˚aste systematiken studeras närmare.) Detta är en typ <strong>av</strong><br />

fr˚agor som besvaras med ja eller nej, snarare än med ett mätvärde. Detsamma<br />

gäller fr˚agor som ”Finns det ett samband mellan hur m˚anga äpplen studenter<br />

äter <strong>och</strong> hur de presterar p˚a tentamina?”.<br />

För att <strong>av</strong>göra s˚adana ja/nej fr˚agor använder man hypotestest. Man formulerar<br />

en hypotes, samlar in n˚agon typ <strong>av</strong> data som beror p˚a om hypotesen är<br />

sann, <strong>och</strong> undersöker om dessa data statistiskt sett utesluter hypotesen. (Lägg<br />

märke till att falsifierbarhet är en hörnsten i den vetenskapliga metoden. Vi kan<br />

aldrig verifiera att en hypotes eller teori är sann. Det g˚ar alltid att konstruera<br />

teorier som skiljer sig ytterst lite fr˚an den vi vill testa. Kanske känns de konstruerade,<br />

onaturliga eller hemskt komplicerade. Vi kanske inte tar en s˚adan<br />

teori p˚a allvar. Men vi kan inte utesluta den med statistiska metoder. Och när<br />

vi n˚att en djupare först˚aelse kanske det vi tyckte var onaturligt blivit ett kr<strong>av</strong><br />

vi m˚aste ställa p˚a v˚ar teori.)<br />

När det gäller arbete p˚a övningslab är det ganska sällan man f˚ar resultat som<br />

kullkastar grundläggande antagan eller samband inom fysken. Men man behöver<br />

änd˚a svara p˚a fr˚agor som ” Är mätningarna jag gjort förenliga med varandra?”<br />

eller ”Stämmer mina data med modellen?”.<br />

Vi s˚ag i föreg˚aende <strong>av</strong>snitt hur vi fr˚an en normalfördelad mätning <strong>av</strong> x med<br />

standard<strong>av</strong>vikelse σ kan ange ett konfidensintervall med 95% konfidensniv˚a som<br />

[xm − 1,96σ, xm + 1,96σ]. V˚ar observation xm betyder att vi förkastar värden<br />

utanför intervallet med 95% konfidensniv˚a. Om vi är speciellt intresserade <strong>av</strong><br />

n˚agot visst värde p˚a µ, kalla det µ0, kan vi formulera v˚ar mätning som ett<br />

hypotestest för hypotesen att µ = µ0. (Kanske vet vi att om v˚ar mätapparatur<br />

fungerar som den ska blir medelvärdet µ0.) Den hypotes vi testar (i det här<br />

fallet µ = µ0) kallas för nollhypotesen. Vi konstruerar en stokastisk variabel (i<br />

det här fallet x − µ0), <strong>och</strong> om denna variabel faller inom ett visst omr˚ade (i det<br />

här fallet |x − µ0| > 1,96σ) förkastar vi nollhypotesen2 .<br />

Vi ˚aterg˚ar nu till exemplet med v˚ara str˚alningsdetektorer. Kanske har vi<br />

anledning att förkasta alla detektorer som inneh˚aller radioaktivt material. (Vi<br />

2 Omr˚adet som leder till att nollhypotesen förkastas kallas det kritiska omr˚adet (eng. ”crit-<br />

ical region”).


94 KAPITEL 9. KONFIDENSINTERVALL OCH HYPOTESTEST<br />

kanske misstänker att de är slarvigt byggda <strong>och</strong> därför ocks˚a kan ha andra<br />

problem.) I s˚a fall är det lämpligt att göra ett hypotestest. För varje detektor<br />

vi mäter p˚a vill vi vet om den är OK, dvs har µ = 0. V˚ar nollhypotes bli d˚a<br />

H0 : µ = 0<br />

Vi kan ocks˚a formulera den alternativa hypotesen<br />

H1 : µ > 0<br />

Vi behöver en variabel som är känslig för om µ > 0, <strong>och</strong> väljer först˚as x = n−µb,<br />

som förut. Vi förkastar först˚as H0 (dvs vi säger att detektorn inte är OK) om<br />

x är för stort. Figur 9.4 visar x-fördelningen om noll-hypotesen är sann. Den<br />

f(x)<br />

x m<br />

5%<br />

-50 0 50 100<br />

Figur 9.4: Acceptansomr˚ade för ett hypotestest <strong>av</strong> H0 : µ = 0, med signifikansniv˚an<br />

5%.<br />

har medelvärdet 0 <strong>och</strong> standard<strong>av</strong>vikelsen √ µb (vi approximerar som förut poissonfördelningen<br />

runt µtot = µb med en normalfördelning). När v˚ar mätning gett<br />

värdet xm kan vi bestämma hur sannolikt det vore att vi skulle f˚a ett större xvärde<br />

om vi upprepade mätningen. Detta är allts˚a vad sannolikheten var innan<br />

vi utförde v˚ar mätning (a priori) för att vi skulle f˚a ett utfall som <strong>av</strong>vek mer fr˚an<br />

H0 till förm˚an för H1 än vad v˚ar mätning faktiskt gjorde. Vi kallar denna sannolikhet<br />

för p-värdet för v˚art utfall. Ett litet p-värde innebär att det kan finnas<br />

anledning att ifr˚agasätta H0. Om vi ˚aterigen som exempel antar att v˚art mätta<br />

värde p˚a x blir xm = 12 (pilen i figuren) blir p-värdet p = ∞<br />

f(x)dx = 0,2. Vi<br />

xm<br />

förväntar oss allts˚a ett högre x än vi mätte vid var femte mätning. Det är inte s˚a<br />

vanligt att man förkastar nollhypotesen p˚a basis <strong>av</strong> en s˚a pass hög sannolikhet,<br />

speciellt inte om den alternativa hypotesen innebär en stor upptäckt. Vanligare<br />

är att man kräver p < 0,05 eller p < 0,01 eller ännu mycket mindre. För att<br />

vi skall förkasta nollhypotesen kräver vi allts˚a att p skall ligga under ett visst<br />

x


9.1. HYPOTESTEST 95<br />

värde, som kallas för hypotestestets signifikansniv˚a, α. Sannolikhetsinneh˚allet<br />

mer än 0,1645σ ovanför medelvärdet i en normalfördelning är 5%, s˚a för ett<br />

test med α = 0,05 förkastar vi H0 om x > xcrit = 1,645σ <strong>och</strong> accepterar H0<br />

för x-värden i det skuggade omr˚adet i figuren. Om H0 är sann (räknaren OK)<br />

kommer vi d˚a i 95% <strong>av</strong> fallen att dra rätt slutsats om den.<br />

Om vi r˚akar f˚a ett p-värde som ligger under testets signifikansniv˚a trots att<br />

räknaren är OK kommer vi att förkasta nollhypotesen fastän den är sann. Vi<br />

drar allts˚a fel slutsats. Denna typ <strong>av</strong> fel kallas för fel <strong>av</strong> typ ett, eller typ-I fel.<br />

Testets signifikans är allts˚a sannolikheten att beg˚a ett typ-I fel.<br />

Om vi däremot accepterar nollhypotesen trots att den är falsk beg˚ar vi ett fel<br />

<strong>av</strong> typ tv˚a. Vi upptäcker inte att nollhypotesen är falsk. Sannolikheten för typ-II<br />

fel är uppenbarligen noll om H0 är sann. Om H0 är falsk beror sannolikheten<br />

p˚a hur det faktiskt förh˚aller sig. V˚ar alternativa hypotes ovan var H1 : µ > 0.<br />

Detta kallas en sammansatt hypotes (eng.”composite hypothesis”) eftersom den<br />

innefattar flera olika möjligheter. Om H1 är sann blir sannolikheten att beg˚a ett<br />

typ-II fel en funktion <strong>av</strong> µ, <strong>och</strong> vi kan inte beräkna den eftersom vi inte känner<br />

µ.<br />

Man brukar definiera testets styrka (eng. ”power”) som sannolikheten att<br />

man upptäcker att nollhypotesen är falsk om den är det. Att upptäcka de felaktiga<br />

räknarna var ju själva poängen med v˚art test, s˚a för att ett test ska vara<br />

användbart är styrkan viktig. Vi hade kunnat förkasta var tjugonde detektor<br />

helt slumpmässigt <strong>och</strong> p˚a s˚a sätt ordnat ett test med 5 procents signifikansniv˚a.<br />

I s˚a fall hade styrkan hos v˚art test ocks˚a blivit 5 procent. Detta vore uppenbarligen<br />

en dum idé. Vi skulle ha kvar en lika stor andel d˚aliga detektorer <strong>och</strong><br />

vi skulle ha kastat bort n˚agra till ingen nytta. Om däremot styrkan är större<br />

än signifikansniv˚an f˚ar vi en anrikning <strong>av</strong> bra detektorer bland dem vi beh˚aller.<br />

Hur stor styrkan blir beror p˚a hur stort det sanna värdet p˚a µ är. Om µ är nära<br />

noll kommer fördelningen under H1 att bli i stort sett densamma som under H0.<br />

I s˚a fall inneh˚aller v˚ar variabel x inte särskilt mycket information om vilken <strong>av</strong><br />

hypoteserna som är riktig <strong>och</strong> styrkan blir l˚ag. Är däremot µ stort kommer vi<br />

med stor sannolikhet att f˚a ett x-värde med ett p-värde under signifikansniv˚an,<br />

<strong>och</strong> därmed förkasta H0.<br />

Vi ska inte ge oss in i n˚agra ing˚aende diskussioner <strong>av</strong> hur man optimerar<br />

sitt test för att maximera styrkan för en given signifikansniv˚a. Det finns n˚agra<br />

standard-variabler som ofta används, <strong>och</strong> det faller sig ocks˚a ofta naturligt vilken<br />

storhet som <strong>av</strong>viker om H0 är falsk. Vi kommer att diskutera n˚agra konkreta<br />

fall i kommande <strong>av</strong>snitt.<br />

En allmän kommentar ang˚aende hypotestest är att de framför allt är användbara<br />

om man vill fatta ett konkret beslut, t.ex. om vi ska kassera en <strong>av</strong> v˚ara<br />

detektorer eller om vi ska till˚ata ett visst färgämne i livsmedel. Om vi är intresserade<br />

<strong>av</strong> ifall en ny fysikalisk effekt existerar eller ej är det egentligen pvärdet<br />

som är det intressanta. Om vi använder ett test med signifikansniv˚an<br />

0,001 för att söka efter ny fysik, <strong>och</strong> v˚art p-värde blir 0,00101 är resultatet<br />

konsistent med noll-hypotesen, men med p = 0,00099 skulle vi förkasta nollhypotesen<br />

<strong>och</strong> hävda ny fysik. Detta är knappast rimligt. Vad som skulle hända<br />

i verkligheten är att ett p-värde runt 0,001 är intressant <strong>och</strong> kan motivera ytterligare<br />

mätningar o<strong>av</strong>sett om det ligger strax ovanför 0,001 eller strax under.


96 KAPITEL 9. KONFIDENSINTERVALL OCH HYPOTESTEST<br />

9.2 Korrelationstest<br />

Antag att vi har sammanhörande värden p˚a x <strong>och</strong> y (t.ex. antal soltimmar<br />

under oktober <strong>och</strong> skörden <strong>av</strong> v˚arvete för en period p˚a 30 ˚ar). Vi undrar nu om<br />

det finns n˚agon sorts samband mellan dessa x <strong>och</strong> y eller om de är oberoende<br />

<strong>av</strong> varandra. Om de är oberoende <strong>av</strong> varandra vet vi att korrelationen är noll.<br />

S˚aledes kan vi beräkna den linjära korrelationskoefficienten för v˚ara värden p˚a<br />

x <strong>och</strong> y enligt ekvation 8.7 <strong>och</strong> se om den är skild fr˚an noll. Figur 9.5 visar tv˚a<br />

exempel med 30 punkter vardera, <strong>och</strong> motsvarande värden p˚a r. Vad drar vi<br />

y<br />

r = -0.46<br />

x<br />

r = 0.15<br />

Figur 9.5: Tv˚a datamängder med xy-punkter <strong>och</strong> den linjära korrelationskoefficienten<br />

i vardera fallet.<br />

för slutsatser om dessa datamängder? För punkterna till vänster är r = −0,46<br />

<strong>och</strong> intrycket man f˚ar är verkligen att det finns en trend s˚a att y minskar när<br />

x ökar. Till höger ser det inte lika tydligt ut. Värdet r = 0,15 > 0 visar p˚a en<br />

ökande trend, men det kanske är en slump. Förresten kanske det ocks˚a är en<br />

slump att y verkar minska med x för mängden till vänster.<br />

Här är det upplagt för ett hypotestest! V˚ar nollhypotes blir att korrelationen<br />

hos den underliggande fördelningen är noll, <strong>och</strong> p-värdet är a priori sannolikheten<br />

för att f˚a ett r som <strong>av</strong>viker lika mycket eller mer fr˚an noll som v˚art<br />

uppmätta r. För att bestämma p-värdet m˚aste vi veta hur r-värdena fördelar<br />

sig <strong>och</strong> <strong>och</strong> integrera sannolikhetstätheten för r. Det är inte s˚a enkelt att lösa<br />

detta analytiskt, men det finns tabeller <strong>och</strong> web-baserade hjälpmedel att tillg˚a,<br />

baserade p˚a antagandet att x <strong>och</strong> y är normalfördelade. P˚a s˚a sätt kan vi<br />

bestämma sannolikheten att 30 punkter ska ge |r| > 0,46. Den blir 1,05%,<br />

<strong>och</strong> vi ser att punkterna till vänster uppvisar ett tämligen signifikant samband<br />

(ett hypotestest med signifikansen 1% skulle nästan utesluta nollhypotesen).<br />

För punkterna till höger blir motsvarande p-värde 43%. Där kan korrelationen<br />

allts˚a inte sägas vara signifikant alls. I det här fallet var korrelationerna hos de<br />

bakomliggande fördelningarna −0,5 respektive 0.<br />

Lägg märke till att ju mindre korrelationen är, desto fler punkter behöver vi<br />

y<br />

x


9.2. KORRELATIONSTEST 97<br />

för att kunna detektera den. Trettio punkter räckte för en 50-procentig korrelation,<br />

men en korrelation mycket nära noll kräver mycket mer data. ˚A andra<br />

sidan är sm˚a korrelationer oftast ganska ointressanta.<br />

Lägg ocks˚a märke till att även om det finns ett statistiskt samband mellan<br />

x <strong>och</strong> y betyder inte det att det finns ett orsakssamband. Kanske v˚art sätt att<br />

välja vilka mätningar vi ska göra leder till en korrelation, eller kanske b˚ade x<br />

<strong>och</strong> y p˚<strong>av</strong>erkas <strong>av</strong> samma underliggande storhet som fluktuerar upp <strong>och</strong> ned.<br />

Om n˚agon mätt x <strong>och</strong> y <strong>och</strong> funnit att r < 0 med skaplig signifikans kanske<br />

vi vill kontrollera detta. I s˚a fall väljer vi som alternativ hypotes att r < 0,<br />

<strong>och</strong> förkastar bara nollhypotesen (x,y okorrelerade) om v˚art mätta värde rm<br />

blir tillräckligt negativt. Vi gör d˚a en enkelsidig hypotestest <strong>och</strong> sätter allts˚a<br />

p = P(r < rm) istället för p = P(|r| > |rm|). Eftersom P(r > ξ) = P(r < ξ) =<br />

1<br />

2<br />

P(|r| > ξ) för alla positiva ξ kan vi använda samma tabell för ett enkelsidigt<br />

test.<br />

Observera, slutligen, att de p-värden som anges i tabeller är baserade p˚a<br />

nollhypotesen att x <strong>och</strong> y är okorrelerade <strong>och</strong> normalfördelade. Om de inte<br />

är det kan man fortfarande beräkna r, <strong>och</strong> värdet fr˚an tabellen kan vara en<br />

approximation för p. Om p ligger p˚a promilleniv˚a är det förmodligen inte hela<br />

världen om vi beräknar det fel lite grann. Men Figur 9.6 visar i alla fall ett lite<br />

extremt exempel p˚a vad som kan hända om x <strong>och</strong> y inte är normalfördelade.<br />

Diagrammet till vänster visar en uppsättning xy-punkter som har r = 0,36. Med<br />

y<br />

r = 0.36<br />

x<br />

Figur 9.6: N˚agra sammanhörande värden p˚a x <strong>och</strong> y (till vänster) <strong>och</strong> 2000<br />

punkter dragna fr˚an en likformig fördelning <strong>av</strong> x- <strong>och</strong> y-värden inuti en cirkel i<br />

xy-planet (till höger).<br />

nollhypotesen att x <strong>och</strong> y är okorrelerade <strong>och</strong> normalfördelade ger detta p =<br />

5,1%, <strong>och</strong> vi utesluter allts˚a inte denna hypotes p˚a fem procents signifikansniv˚a.<br />

Om vi istället som nollhypotes väljer att x <strong>och</strong> y är likformigt fördelade inuti en<br />

cirkel i xy-planet som i figuren till höger blir istället p-värdet 1,8%, <strong>och</strong> allts˚a<br />

utesluter vi denna hypotes med god marginal. För att bestämma värdet p˚a p i<br />

y<br />

x


98 KAPITEL 9. KONFIDENSINTERVALL OCH HYPOTESTEST<br />

i det senare fallet genererade jag upprepade g˚anger xy-värden slumpmässigt i<br />

cirkeln <strong>och</strong> beräknade r för varje uppsättning <strong>av</strong> 30 värden. Detta är en allmän<br />

metod som jag ocks˚a kunde ha använt för det normalfördelade fallet. Lägg<br />

förresten märke till att för en ”cirkulär” fördelning är x <strong>och</strong> y okorrelerade, men<br />

de är inte oberoende! Fördelningen <strong>av</strong> y är olika beroende p˚a vilket x-intervall<br />

vi betraktar.<br />

9.3 Chikvadrattest<br />

Antag att vi har N mätningar <strong>av</strong> storheter yi som är normalfördelade runt<br />

sina respektive medelvärden, fi, med standard<strong>av</strong>vikelser σi. Detta är samma<br />

situation som ledde oss till minsta kvadratmetoden. I det fallet berodde v˚ara fi<br />

p˚a en eller flera parametrar, <strong>och</strong> vi sökte de parametrar som g<strong>av</strong> bäst anpassning<br />

genom att maximera<br />

χ 2 N<br />

2 yi − fi<br />

=<br />

. (9.1)<br />

i=1<br />

Antag istället att vi inte är fria att variera fi, utan att vi bestämt dem p˚a n˚agot<br />

annat sätt, genom andra mätningar, eller utifr˚an beräkningar vi gjort. I s˚a fall<br />

kan vi beräkna summan ovan för v˚ara N stycken y-värden, <strong>och</strong> den blir vad den<br />

blir. Om v˚ara mätvärden hamnar nära v˚ara värden p˚a fi blir summan liten,<br />

annars blir den större. Summan best˚ar <strong>av</strong> N oberoende termer som var <strong>och</strong> en<br />

är kvadraten <strong>av</strong> en stokastisk variabel zi med en standardnormal fördelning (se<br />

ekvation 4.13):<br />

χ 2 N<br />

=<br />

σi<br />

i=1<br />

En s˚adan summa beskrivs <strong>av</strong> en statistisk fördelning som kallas för en χ 2 -<br />

fördelning med N frihetsgrader (eng. ”degrees of freedom”, ”dof”).<br />

Poängen med att beräkna summan är att om den skulle bli mycket större<br />

än vad man förväntar sig fr˚an χ 2 -fördelningen bör vi misstänka att n˚agot inte<br />

stämmer. Annorlunda uttryckt kan vi formulera ett hypotesttest baserat p˚a<br />

värdet <strong>av</strong> χ 2 . Nollhypotesen är att v˚ara fi är de sanna värdena för de olika<br />

yi, <strong>och</strong> om vi f˚ar ett för stort χ 2 förkastar vi nollhypotesen <strong>och</strong> säger istället<br />

att v˚ara data inte beskrivs <strong>av</strong> fi. För att kunna bestämma p-värdet, eller χ 2 -<br />

sannolikheten, m˚aste vi integrera χ 2 -fördelningen. Vi skulle kunna bestämma<br />

integralen numeriskt genom att upprepade g˚anger generera värden p˚a N standardnormala<br />

variabler <strong>och</strong> bilda summan <strong>av</strong> deras kvadrater, men det är onödigt<br />

kr˚angligt. Det är enklare att använda en tabell eller ett anrop till en förprogrammerad<br />

funktion 3 .<br />

Variansen för en variabel z vars fördelning är standardnormal är ju ett. Med<br />

andra ord är 1 = E((z −0) 2 ), ty medelvärdet <strong>av</strong> z är noll. Allts˚a är medelvärdet<br />

) <strong>av</strong> var <strong>och</strong> en <strong>av</strong> termerna i summan 9.1 lika med ett, <strong>och</strong> medelvärdet<br />

E(z2 i<br />

<strong>av</strong> χ2-fördelningen blir allts˚a lika med antalet frihetsgrader. För m˚anga frihetsgrader<br />

är ju χ2 en summa <strong>av</strong> m˚anga termer <strong>och</strong> enligt centrala gränsvärdessatsen<br />

3För den som undrar ges χ2-fördelningen för ν frihetsgrader <strong>av</strong> f(x; ν) = kxν/2−1e−x/2 ,<br />

där k är en konstant definierad <strong>av</strong> att R ∞<br />

0 f(x)dx = 1. Det finns ingen elementär primitiv<br />

funktion.<br />

z 2 i


9.3. CHIKVADRATTEST 99<br />

närmar den sig d˚a en normalfördelning. Figur 9.7 visar fördelningen för en, tv˚a,<br />

tre respektive tio frihetsgrader.<br />

f(x)<br />

2.0<br />

1.5<br />

1.0<br />

0.5<br />

N dof = 1<br />

f(x)<br />

0<br />

0 1 2 3 4<br />

x<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

N dof = 2<br />

f(x)<br />

0<br />

0 2 4 6 8<br />

x<br />

0.25<br />

0.20<br />

0.15<br />

0.10<br />

0.05<br />

N dof = 3<br />

f(x)<br />

0<br />

0 3 6 9 12<br />

x<br />

0.10<br />

0.08<br />

0.06<br />

0.04<br />

0.02<br />

N dof = 10<br />

0<br />

0 6 12 18 24<br />

x<br />

Figur 9.7: Chikvadratfördelningen för fyra olika antal frihetsgrader (Ndof ).<br />

Om vi t.ex. har ett antal mätningar <strong>av</strong> yi med osäkerheter σi för olika xi<br />

<strong>och</strong> vill kontrollera om dessa mätningar är förenliga med en funktion y = f(x)<br />

bildar vi allts˚a summan<br />

χ 2 N<br />

2 yi − f(xi)<br />

=<br />

.<br />

i=1<br />

<strong>och</strong> läser i tabell <strong>av</strong> sannolikheten att för N frihetsgrader f˚a ett s˚a stort värde<br />

eller högre (p-värdet).<br />

Observera att sannolikheten att f˚a ett p-värde mindre än p är just p. Vi<br />

har t.ex. fem procent chans att f˚a p < 0,05, tio procent chans att f˚a p < 0,10<br />

<strong>och</strong> allts˚a fem procent chans att f˚a 0,05 < p < 0,10. Här<strong>av</strong> inses att sannolikhetsfördelningen<br />

för p blir likformig mellan noll <strong>och</strong> ett. Detta är inte specifikt<br />

för χ2-fördelningen utan beror p˚a själva definitionen <strong>av</strong> p-värdet. Om v˚art pvärde<br />

hamnar mycket nära noll kan vi dra slutsatsen att y = f(x) inte beskriver<br />

v˚ara mätpunkter. Är p < 0,05 är v˚ar funktion f(x) utesluten med 95 procents<br />

konfidensniv˚a. Nollhypotesen skulle med andra ord förkastas i ett test med signifikansniv˚an<br />

5%. Om p är mycket nära ett tyder det p˚a att vi gjort n˚agot fel,<br />

sannolikt var de fel vi använde i uttrycket för χ 2 för stora s˚a att χ 2 -värdet blev<br />

för litet.<br />

Vad som sagts ovan gäller om vi har bestämt fi oberoende <strong>av</strong> v˚ara mätvärden<br />

yi. Det tillkommer en liten komplikation om vi har anpassat modellen som ger<br />

fi till mätpunkterna. För att illustrera detta kan vi börja med det enklaste<br />

fallet, nämligen att vi bildar ett viktat medelvärde <strong>av</strong> tv˚a mätvärden y1 ± σ1<br />

<strong>och</strong> y2 ± σ2. Det viktade medelvärdet ges <strong>av</strong> µ = w1y1+w2y2<br />

där wi = w1+w2<br />

1<br />

σ2 . Om<br />

i<br />

vi nu bildar kvadratsumman f˚ar den tv˚a termer,<br />

χ 2 2 2 y1 − µ y2 − µ<br />

= + ,<br />

σ1<br />

<strong>och</strong> vi kanske kunde förvänta oss att den skulle följa en χ2-fördelning med tv˚a<br />

frihetsgrader. Men genom att sätta in uttrycket för µ kan vi skriva om summan<br />

ovan som<br />

χ 2 = w1<br />

w2(y1 − y2<br />

w1 + w2<br />

2<br />

+ w2<br />

σi<br />

w1(y2 − y1<br />

w1 + w2<br />

σ2<br />

2<br />

= w1w 2 2 + w2w 2 1<br />

(w1 + w2) 2 (y1 − y2) 2 =


100 KAPITEL 9. KONFIDENSINTERVALL OCH HYPOTESTEST<br />

w1w2 2 + w2w2 1<br />

(w1 + w2) 2 (y1 − y2) 2 = w1w2<br />

(y1 − y2)<br />

w1 + w2<br />

2 =<br />

1<br />

w1<br />

+ 1<br />

w2<br />

−1<br />

(y1 − y2) 2 = (y1 − y2) 2<br />

σ 2 1 + σ2 2<br />

Men vi vet att variansen <strong>av</strong> y1 − y2 är just σ 2 1 + σ 2 2, <strong>och</strong> eftersom y1 <strong>och</strong> y2<br />

är mätningar <strong>av</strong> samma sak är medelvärdet <strong>av</strong> y1 − y2 lika med noll. Allts˚a är<br />

(y1 − y2)/ σ 2 1 + σ2 2 en standardnormal variabel, <strong>och</strong> χ2 -summan är en summa<br />

<strong>av</strong> en s˚adan variabel. Följdaktligen blir summan χ 2 -fördelad med en frihetsgrad,<br />

inte tv˚a. Genom att vi bestämt medelvärdet fr˚an v˚ara tv˚a mätvärden<br />

kan inte statistiska fluktuationer längre leda till oberoende <strong>av</strong>vikelser i b˚ada<br />

mätningarna. Det finns ett sätt mindre för statistiska fluktuationer att bidra till<br />

summan – antalet frihetsgrader minskar med ett eftersom vi bestämt ett värde<br />

fr˚an v˚ara data.<br />

Bildar vi ett viktat medelvärde <strong>av</strong> N stycken värden kan vi bilda en χ 2 -<br />

summa p˚a liknande sätt. För enkelhets skull antar vi att det sanna värdet är<br />

noll, s˚a att alla mätningarna yi har medelvärdet noll. (Detta innebär ingen<br />

begränsning <strong>av</strong> giltigheten eftersom noll-punkten för y-skalan kan ändras utan<br />

att det p˚<strong>av</strong>erkar kvadratsumman.) Vi f˚ar<br />

χ 2 = <br />

2 wy<br />

wi yi − =<br />

w<br />

<br />

<br />

wi<br />

<strong>och</strong><br />

i<br />

χ 2 =<br />

i<br />

y 2 i +<br />

2 <br />

wx wy<br />

− 2yi =<br />

w w<br />

wy 2 − ( wy) 2<br />

w<br />

<br />

2<br />

wy <br />

− w<br />

wy<br />

<br />

w<br />

2<br />

,<br />

.<br />

. (9.2)<br />

Här är wy2 = 2 yi en summa <strong>av</strong> N standardnormala variabler (vi valde<br />

σi<br />

medelvärdena för yi till noll). Den följande termen kan skrivas ( w)µ 2 där µ<br />

är det viktade medelvärdet. Detta medelvärde är ocks˚a en stokastisk variabel,<br />

som ocks˚a har medelvärdet noll. Dess varians σ2 bµ ges <strong>av</strong><br />

(ekvation 4.27). Vi ser att<br />

1<br />

σ 2 bµ<br />

= <br />

<br />

w<br />

wy<br />

<br />

w<br />

i<br />

1<br />

σ 2 i<br />

2<br />

= w<br />

<br />

µ<br />

=<br />

<strong>och</strong> eftersom medelvärdet <strong>av</strong> µ är noll är detta ocks˚a kvadraten p˚a en standardnormal<br />

variabel. Medelvärdet <strong>av</strong> termen efter minustecknet i ekvation 9.2 är<br />

allts˚a ett, <strong>och</strong> medelvärdet <strong>av</strong> kvadratsumman blir N − 1. Vi har inte visat att<br />

summan blir χ 2 -fördelad i detta fall, men det blir den. Eftersom medelvärdet<br />

är N − 1 m˚aste den d˚a ha N − 1 frihetsgrader. Ocks˚a d˚a vi bildar det viktade<br />

medelvärdet <strong>av</strong> N termer förlorar vi allts˚a en frihetsgrad 4 .<br />

4 Lägg förresten märke till att ett snarlikt resonemang, där man antar att alla yi är dragna ur<br />

samma fördelning, kan användas för att visa att man m˚aste dividera med N −1 när man bildar<br />

stickprovsstandard<strong>av</strong>vikelsen i ekvation 4.10. Inget antagande om normalfördelade variabler<br />

krävs för detta.<br />

σbµ<br />

2<br />

,


9.3. CHIKVADRATTEST 101<br />

Det g˚ar att visa att för en linjär minsta kvadratanpassning som i ekvation<br />

6.10 blir kvadratsumman χ 2 -anpassad med antalet frihetsgrader lika med antalet<br />

mätvärden minus antalet anpassade parametrar (N − n). För icke-linjära<br />

anpassningar gäller detta approximativt.<br />

Om vi allts˚a gör en anpassning till ett antal mätvärden kan vi i efterhand<br />

kontrollera om det verkar som om funktionen vi anpassat inte kan beskriva v˚ara<br />

data. Vi gör allts˚a ett hypotestest, ocks˚a kallat ett ”goodness-of-fit” test, baserat<br />

p˚a χ 2 -fördelningen. Vi m˚aste d˚a komma ih˚ag att subtrahera antalet anpassade<br />

parametrar när vi läser <strong>av</strong> χ 2 -sannolikheten. Som exempel kan nämnas att anpassningen<br />

i figur 6.2 har χ 2 -sannolikheten p = 78%, medan den i figur 6.4<br />

(med den <strong>av</strong>vikande punkten) har p = 2,7 · 10 −5 . Det senare är uppenbarligen<br />

en mycket d˚alig anpassning, <strong>och</strong> vi kan utesluta att punkterna stämmer med<br />

en andragradskurva. Efter att vi tagit bort en punkt (figur 6.7) blir p = 5,3%,<br />

vilket är n˚agorlunda acceptabelt.<br />

Ofta ser man det reducerade chikvadratvärdet,<br />

χ 2 = χ2<br />

Ndof<br />

. (9.3)<br />

Eftersom medelvärdet <strong>av</strong> χ 2 -fördelningen är Ndof blir medelvärdet <strong>av</strong> χ 2 lika<br />

med ett. Om det är mycket större än ett är anpassningen d˚alig. Lägg dock<br />

märke till att samma <strong>av</strong>vikelse fr˚an ett kan betyda helt olika saker beroende<br />

p˚a antalet frihetsgrader, Ndof . För stora värden p˚a Ndof är fördelningen <strong>av</strong> χ 2<br />

koncentrerad mycket nära ett, medan <strong>av</strong>vikelserna kan vara ganska stora för<br />

f˚a frihetsgrader. Man m˚aste alltid ange b˚ade χ 2 (eller χ 2 ) <strong>och</strong> Ndof när man<br />

presenterar resultatet <strong>av</strong> ett χ 2 -test. Dessutom är det lämpligt att ange p-värdet<br />

(χ 2 -sannolikheten).<br />

Om man anpassar en funktion till ett histogram är det ”sanna” värdet fi i bin<br />

i poissonmedelvärdet i binnen, <strong>och</strong> det observerade antalet utfall i νi sprids runt<br />

fi med en standard<strong>av</strong>vikelse som är σi = √ fi. Men för anpassningen minimerar<br />

man kvadratsumman i ekvation 7.4 med standard<strong>av</strong>vikelsen √ νi istället för √ fi.<br />

Man m˚aste ju definiera osäkerheterna innan man gör anpassningen 5 . När man<br />

väl har gjort anpassningen, <strong>och</strong> vill göra ett χ 2 -test, bör man dock använda den<br />

spridning som den anpassade modellen anger, dvs. σi = √ fi. Kvadratsumman<br />

för testet blir d˚a<br />

χ 2 = (νi − fi) 2<br />

= (Oi − Ei) 2<br />

fi<br />

Ei<br />

, (9.4)<br />

om vi använder Oi = νi för ”observed” <strong>och</strong> Ei = fi för ”expected”.<br />

Om vi gör en oviktad minsta kvadratanpassning (se <strong>av</strong>snitt 6.2.4) kan vi<br />

sedan bestämma χ 2 -summan genom att anta σi = 1 för alla punkter. Vi kan<br />

kalla denna summa för χ 2 (1). Om vi istället antog ett annat konstant σ skulle<br />

vi f˚a summan χ 2 (σ) = 1<br />

σ 2 χ 2 (1), eftersom σ 2 förekommer i nämnaren i alla<br />

summans termer. Eftersom vi valde värdet 1 helt godtyckligt kan ett χ 2 -test inte<br />

användas för att testa överensstämmelsen. Däremot kan vi, för att bestämma<br />

σ, utnyttja att väntevärdet <strong>av</strong> χ 2 -summan (medelvärdet <strong>av</strong> χ 2 -fördelningen) är<br />

5 Man skulle kunna tänka sig ett iterativt förfarande, men det är inte lämpligt att l˚ata<br />

funktionen som anpassas bestämma felet i punkten den ska anpassas till. Det kan leda till<br />

instabiliteter i anpassningen.


102 KAPITEL 9. KONFIDENSINTERVALL OCH HYPOTESTEST<br />

lika med Ndof . Vi väljer allts˚a σ s˚a att<br />

χ 2 (σ) = Ndof .<br />

Detta betyder att 1<br />

σ 2 χ 2 (1) = Ndof eller<br />

σ =<br />

<br />

χ 2 (1)<br />

Ndof<br />

P˚a s˚a sätt kan vi allts˚a uppskatta σ <strong>och</strong> använda det för att bestämma felen i<br />

parametrarna. Om vi redan beräknat fel baserade p˚a σ = 1 kan vi bara multiplicera<br />

dem med σ. En omskalning <strong>av</strong> alla fel i mätpunkerna ger motsvarande<br />

omskalning <strong>av</strong> felen i parametrarna. Detta följer <strong>av</strong> linjäriteten i parametrarna,<br />

<strong>och</strong> kan enkelt kontrolleras t.ex. för den andra <strong>av</strong> ekvationerna 6.13.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!