05.05.2013 Views

Onderzoeksvaardigheden 2 - NWSV Helix

Onderzoeksvaardigheden 2 - NWSV Helix

Onderzoeksvaardigheden 2 - NWSV Helix

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Vraag 1<br />

Om een goede beschrijving van de werking van een nieuw chemisch productieproces<br />

te geven wordt een volgende experiment uitgevoerd.<br />

In een reactorvat worden de juiste ingrediënten (inclusief katalysatoren) gemengd en<br />

op temperatuur gebracht. Dan wordt na een x aantal uur de reactie stopgezet en<br />

worden metingen aan het reactiemengsel gedaan. Vervolgens wordt van voor af aan<br />

begonnen (dus weer de ingrediënten mengen etc.) en dan wordt na x uur de reactie<br />

stopgezet etc. Dit wordt zo in totaal 5 maal herhaald en dan begint alles weer opnieuw<br />

maar nu wordt na x+1 uur de zaak stopgezet (5 maal achterelkaar).<br />

De metingen gaan dan vooral om de hoeveelheid gevormd eindproduct. Met het<br />

nieuwe procédé zou namelijk uit dezelfde grondstoffen in een kortere tijd eenzelfde<br />

hoeveelheid eindproduct gevormd kunnen worden, m.a.w. de reactie is sneller ‘klaar’<br />

of, liever gezegd, is sneller op een niveau waarna de reactie beter afgebroken kan<br />

worden aangezien langer wachten na dit tijdstip zorgt relatief dan voor minder<br />

eindproduct (vrijwel alle grondstoffen zijn dan al omgezet).<br />

De onderzoekster besluit deze data met behulp van lineaire regressie te analyseren.<br />

a. (5 punten) Een collega zegt dat deze data met behulp van een tijdreeksmodel<br />

geanalyseerd zouden moeten worden, aangezien de onafhankelijke variabele ‘tijd’<br />

is. Ben je het met deze collega eens? Geef aan waarom wel/niet!<br />

Ongeacht het antwoord bij a. gaat de onderzoekster door met de lineaire<br />

regressieanalyse. De afhankelijke variabele is de hoeveelheid gevormd product<br />

(PRODUCT) en de onafhankelijke variabele is de duur van de reactie (TIJD).<br />

Zij krijgt de volgende uitkomsten:<br />

Regression<br />

Model<br />

1<br />

Variables Entered/Removed b<br />

TIJDa Variables Variables<br />

Entered Removed Method<br />

. Enter<br />

a. All requested variables entered.<br />

b. Dependent Variable: PRODUCT<br />

Model<br />

1<br />

Model Summary<br />

.819a Adjusted Std. Error of<br />

R R Square R Square the Estimate<br />

.671 .662 .98813<br />

a.<br />

Predictors: (Constant), TIJD


Model<br />

1<br />

Regression<br />

Residual<br />

Total<br />

a. Predictors: (Constant), TIJD<br />

ANOVA b<br />

75.579 1 75.579 77.405 .000a Sum of<br />

Squares df Mean Square F Sig.<br />

37.103 38 .976<br />

112.682 39<br />

b. Dependent Variable: PRODUCT<br />

Model<br />

1<br />

(Constant)<br />

TIJD<br />

Unstandardized<br />

Coefficients<br />

a. Dependent Variable: PRODUCT<br />

Coefficients a<br />

Standardized<br />

Coefficients<br />

B Std. Error Beta<br />

t Sig.<br />

9.942 .344 28.874 .000<br />

.600 .068 .819 8.798 .000<br />

b. (5 punten) Is er sprake van een significante samenhang? Hoe zie je dat?<br />

c. (5 punten)Hoe ziet de regressievergelijking eruit? Zijn de regressiegewichten<br />

significant?<br />

Dit is een plaatje van de resultaten. Gebaseerd op dit plaatje en een inspectie van de<br />

residuen besloot ze een kwadratische term op te nemen.<br />

PRODUCT<br />

16<br />

14<br />

12<br />

10<br />

8<br />

0<br />

2<br />

4<br />

TIJD<br />

6<br />

8<br />

10


Model<br />

1<br />

2<br />

d. (5 punten) Hier onder staat de uitvoer van de analyse. Is het de moeite waard om<br />

deze kwadratische term (TIJD2) op te nemen? Waaraan zie je dat?<br />

Model Summary<br />

Change Statistics<br />

.819a Adjusted Std. Error of R Square<br />

R R Square R Square the Estimate Change F Change df1 df2 Sig. F Change<br />

.671 .662 .98813 .671 77.405 1 38 .000<br />

.856 b .733 .718 .90222 .062 8.582 1 37 .006<br />

a. Predictors: (Constant), TIJD<br />

b. Predictors: (Constant), TIJD, TIJD2<br />

Model<br />

1<br />

2<br />

Regression<br />

Residual<br />

Total<br />

Regression<br />

Residual<br />

Total<br />

a. Predictors: (Constant), TIJD<br />

ANOVA c<br />

75.579 1 75.579 77.405 .000a Sum of<br />

Squares df Mean Square F Sig.<br />

37.103 38 .976<br />

112.682 39<br />

82.564 2 41.282 50.715 .000 b<br />

30.118 37 .814<br />

112.682 39<br />

b. Predictors: (Constant), TIJD, TIJD2<br />

c. Dependent Variable: PRODUCT<br />

Model<br />

1<br />

2<br />

(Constant)<br />

TIJD<br />

(Constant)<br />

TIJD<br />

TIJD2<br />

Unstandardized<br />

Coefficients<br />

a. Dependent Variable: PRODUCT<br />

Coefficients a<br />

Standardized<br />

Coefficients<br />

B Std. Error Beta<br />

t Sig.<br />

9.942 .344 28.874 .000<br />

.600 .068 .819 8.798 .000<br />

8.574 .563 15.232 .000<br />

1.421 .287 1.939 4.950 .000<br />

-.091 .031 -1.148 -2.929 .006<br />

e. (5 punten) Is het nu gefitte model een chemisch en fysisch realistisch model? Zou<br />

het bijvoorbeeld gebruikt kunnen worden om een voorspelling te doen voor de<br />

hoeveelheid product na 9 uur reactie of na 10 uur etc.? Motiveer je antwoord


Vraag 2<br />

(10 punten) Bij een seizoensdecompositie van een tijdreeks (1999-2003) van<br />

omzetcijfers per trimester (periode van 4 maanden) van breedbeeld TV’s is er per<br />

ongeluk een kop koffie op de uitvoer gekomen. Vandaar dat enige getallen zijn<br />

weggevallen. Vul de lege plekken in indien de data dat toestaan en geef aan hoe je aan<br />

je getallen komt. De decompositie is met behulp van een multiplicatief model<br />

uitgevoerd.<br />

NB de notatie van de hand-out is aangehouden!<br />

t tijd L Yt Ut St*Ot St Gt Tt Ct*Ot Ct Ot<br />

1 1999 1 13 1.089 11.941 10.849 1.101<br />

2 1999 2 8 0.686 0.680 11.759 14.109 0.833 0.863 0.966<br />

3 1999 3 14 17.000 0.824 1.231 17.370 0.655 0.926 0.707<br />

4 2000 1 29 22.000 1.318 1.089 26.637 20.630 1.120 1.152<br />

5 2000 2 23 31.667 0.726 0.680 33.809 23.890 1.415 1.331 1.063<br />

6 2000 3 43 29.667 1.449 34.931 27.151 1.287 1.132 1.136<br />

7 2001 1 23 27.000 0.852 1.089 21.126 0.695 0.879<br />

8 2001 2 15 24.667 0.680 22.049 33.671 0.655 0.714 0.917<br />

9 2001 3 36 33.000 1.091 1.231 29.245 36.931 0.792 0.934<br />

10 2002 1 48 40.000 1.200 1.089 44.089 40.192 1.097 1.036 1.059<br />

11 2002 2 36 46.667 0.771 0.680 52.918 43.452 1.218 1.096 1.111<br />

12 2002 3 56 1.231 45.491 46.712 0.974<br />

Hierbij is nog de volgende uitkomst gegeven:<br />

De geschatte trendlijn is: Yt = 7.589 + 3.26×t<br />

Vraag 3<br />

In het volgende plaatje staat een tijdreeksplot van een bepaalde variabele:<br />

SOM<br />

120<br />

100<br />

80<br />

60<br />

40<br />

20<br />

0<br />

1<br />

11 21 31 41 51 61 71 81 91<br />

6 16 26 36 46 56 66 76 86 96<br />

Sequence number


Deze variabele is als volgt gemaakt. Ik heb eerst 100 onafhankelijke trekkingen uit<br />

een normale verdeling genomen met als gemiddelde 1 en als standaarddeviatie 2;<br />

noem deze variabele Xt, met t = 1 … 100. Vervolgens heb ik SOMt volgens het<br />

volgende recept gemaakt:<br />

SOM1 = X1 en SOMt = SOMt-1 + Xt<br />

Hieronder staat de autocorrelatiefunctie (ACF) van SOM en de autocorrelatiefunctie<br />

van de variabele na een differencing van 1 (dus SOMt – SOMt-1)<br />

a. (5 punten) Wat is de ACF van SOM en wat is de AFC van SOM na differencing?<br />

ACF<br />

ACF<br />

Motiveer je antwoord<br />

1.0<br />

.5<br />

0.0<br />

-.5<br />

-1.0<br />

1.0<br />

.5<br />

0.0<br />

-.5<br />

-1.0<br />

1<br />

2<br />

3<br />

4<br />

Lag Number<br />

1<br />

2<br />

3<br />

4<br />

Lag Number<br />

5<br />

5<br />

6<br />

6<br />

7<br />

7<br />

8<br />

8<br />

9<br />

9<br />

10<br />

10<br />

11<br />

11<br />

12<br />

12<br />

13<br />

13<br />

14<br />

14<br />

15<br />

15<br />

16<br />

16<br />

Confidence Limits<br />

Coefficient<br />

Confidence Limits<br />

Coefficient<br />

Plaatje 1<br />

Plaatje 2


. (5 punten) Stel je zou een regressiemodel maken met SOM als afhankelijke<br />

variabele en TIJD als onafhankelijke variabele. Zouden de schattingen van de<br />

regressiegewichten en/of de geschatte SE’s correct zijn?<br />

c. (5 punten) Indien de relatie tussen SOM en TIJD strikt lineair is, hoe kan dan de<br />

uitkomst van éénmaal differencing (dus SOMt – SOMt-1) gebruikt worden om een<br />

schatting te krijgen van deze lineaire relatie?<br />

Vraag 4<br />

Bepaalde vaccins voor virussen (b.v. het griepvaccin) worden nog steeds op dezelfde<br />

manier gemaakt als ruim 50 jaar geleden: bevruchte eieren worden opengebroken,<br />

besmet met het virus en dan weer dichtgemaakt. Het embryo wordt geïnfecteerd en na<br />

een tijdje worden het virus geoogst en verder verwerkt tot een vaccin. Het werken met<br />

deze eieren is omslachtig. In een nieuw ontwikkeld procédé wordt geen gebruik meer<br />

gemaakt van eieren, maar wordt het virus opgekweekt in culturen van menselijke (of<br />

dierlijke) cellijnen. Naast het feit dat het makkelijker is, zijn er mogelijk ook nog<br />

voordelen met betrekking tot de werking van het vaccin. Om dat te onderzoeken is het<br />

volgende experiment uitgevoerd. Twintig ratten werden op willekeurige wijze<br />

verdeeld in 3 groepen:<br />

- één groep van 5 ratten kreeg een placebo ingespoten (groep C)<br />

- één groep van 5 ratten kreeg een traditioneel, op eibasis verkregen vaccin<br />

ingespoten (groep E)<br />

- één groep van 10 ratten kreeg het nieuwe, op cultuurbasis verkregen vaccin<br />

ingespoten (groep N)<br />

Alhoewel ik jullie wil afraden om verschillende aantallen per groep te nemen (de<br />

power is hoger wanneer alle groepen gelijke aantallen hebben), wordt het toch vaak<br />

gedaan: men wil vaak meer observaties van de nieuwe techniek, b.v. om er<br />

handigheid mee te krijgen of om te zoeken naar onverwachte bijeffecten.<br />

Vervolgens zijn alle ratten met een besmettingsbron in aanraking gebracht en is na 5<br />

dagen gekeken naar de mate van besmetting (aangeven met X en ‘mate van<br />

besmetting’).<br />

De data staan in onderstaande tabel, samen met de uitvoer van een aantal in SPSS<br />

uitgevoerde analyses.


C E N<br />

11.38 5.04 5.76 5.73<br />

9.23 10.74 6.28 5.77<br />

9.45 6.16 6.63 4.83<br />

8.71 7.57 5.99 5.42<br />

11.59 8.21 6.06 6.37<br />

X 10.072 7.544 5.884<br />

T-Test<br />

mate van besmetting<br />

mate van besmetting<br />

T-Test<br />

mate van besmetting<br />

Equal variances<br />

assumed<br />

Equal variances<br />

not assumed<br />

mate van besmetting<br />

Equal variances<br />

assumed<br />

Equal variances<br />

not assumed<br />

VACCIN<br />

controle<br />

op eibasis<br />

Group Statistics<br />

N Mean Std. Deviation<br />

Std. Error<br />

Mean<br />

5 10.0720 1.32063 .59060<br />

5 7.5441 2.17081 .97081<br />

Independent Samples Test<br />

Levene's Test for<br />

Equality of Variances<br />

F Sig.<br />

t-test for Equality of Means<br />

t df Sig. (2-tailed)<br />

Mean<br />

Difference<br />

Std. Error<br />

Difference<br />

.494 .502 2.225 8 .057 2.5279 1.13635<br />

VACCIN<br />

controle<br />

op cultuurbasis<br />

Group Statistics<br />

2.225 6.604 .064 2.5279 1.13635<br />

N Mean Std. Deviation<br />

Std. Error<br />

Mean<br />

5 10.0720 1.32063 .59060<br />

10 5.8845 .51368 .16244<br />

Independent Samples Test<br />

Levene's Test for<br />

Equality of Variances<br />

F Sig.<br />

t-test for Equality of Means<br />

t df Sig. (2-tailed)<br />

Mean<br />

Difference<br />

Std. Error<br />

Difference<br />

16.263 .001 9.014 13 .000 4.1875 .46453<br />

6.836 4.616 .001 4.1875 .61253


T-Test<br />

mate van besmetting<br />

mate van besmetting<br />

controle<br />

op eibasis<br />

op cultuurbasis<br />

Total<br />

mate van besmetting<br />

Equal variances<br />

assumed<br />

Equal variances<br />

not assumed<br />

VACCIN<br />

op eibasis<br />

op cultuurbasis<br />

Group Statistics<br />

N Mean Std. Deviation<br />

Std. Error<br />

Mean<br />

5 7.5441 2.17081 .97081<br />

Independent Samples Test<br />

Levene's Test for<br />

Equality of Variances<br />

F Sig.<br />

10 5.8845 .51368 .16244<br />

t-test for Equality of Means<br />

t df Sig. (2-tailed)<br />

Mean<br />

Difference<br />

Std. Error<br />

Difference<br />

7.801 .015 2.371 13 .034 1.6596 .69985<br />

Descriptives<br />

1.686 4.226 .163 1.6596 .98431<br />

95% Confidence Interval for<br />

Mean<br />

N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum<br />

5 10.0720 1.32063 .59060 8.4322 11.7118 8.71 11.59<br />

5 7.5441 2.17081 .97081 4.8487 10.2395 5.04 10.74<br />

10 5.8845 .51368 .16244 5.5171 6.2520 4.83 6.63<br />

20 7.3463 2.13876 .47824 6.3453 8.3473 4.83 11.59<br />

ANOVA<br />

mate van besmetting<br />

Sum of<br />

Squares df Mean Square F Sig.<br />

Between Groups 58.711 2 29.355 17.696 .000<br />

Within Groups 28.201 17 1.659<br />

Total<br />

86.911 19


Mean of mate van besmetting<br />

mate van besmetting<br />

11<br />

10<br />

controle<br />

12<br />

11<br />

10<br />

9<br />

8<br />

7<br />

6<br />

5<br />

4<br />

9<br />

8<br />

7<br />

6<br />

5<br />

VACCIN<br />

op eibasis<br />

C E N<br />

op cultuurbasis


a. (10 punten) Zit er een verschil tussen de gemiddelde mate van besmetting in de<br />

drie groepen? Hoe kom je tot deze conclusie?<br />

b. (10 punten) Bepaal betrouwbaarheidsintervallen voor de verschillen tussen de<br />

gemiddeldes. Vergelijk deze betrouwbaarheidsintervallen met de uitkomsten van<br />

de t-toetsen en bespreek hoe deze zich ten opzichte van elkaar verhouden.<br />

c. (5 punten) Is aan de voorwaarde van de analyse voldoen? Zo ja, waaraan kan je<br />

dat zien? Zo nee, is het erg dat niet aan de voorwaarden van de analyse voldaan<br />

is?<br />

Vraag 5<br />

Bij de analyse van data met betrekking tot de adoptie van mobiele telefoons in Zuid-<br />

Afrika werd gebruik gemaakt van een logistisch regressiemodel. De afhankelijke<br />

variabele was: had geen/wel mobiele telefoon in 2003 (geen = 0 en wel = 1). Als<br />

onafhankelijke variabelen werden gebruikt: Ras (0 = wit, 1 = zwart, 2 = anders) en<br />

Inkomen in Rand.<br />

Hieronder staan de uitkomsten van de analyse. In blok 1 werd Ras opgenomen en in<br />

Blok 2 Inkomen.<br />

Logistic Regression<br />

Unweighted Cases a<br />

Selected Cases<br />

Unselected Cases<br />

Total<br />

Case Processing Summary<br />

Included in Analysis<br />

Missing Cases<br />

Total<br />

N Percent<br />

400 100.0<br />

0 .0<br />

400 100.0<br />

0 .0<br />

400 100.0<br />

a. If weight is in effect, see classification table for the total<br />

number of cases.<br />

Dependent Variable Encoding<br />

Original Value<br />

.00<br />

1.00<br />

RAS<br />

Internal Value<br />

0<br />

1<br />

Categorical Variables Codings<br />

wit<br />

zwart<br />

anders<br />

Parameter coding<br />

Frequency (1) (2)<br />

160 .000 .000<br />

160 1.000 .000<br />

80 .000 1.000


Block 0: Beginning Block<br />

Step 0<br />

Observed<br />

TELEFOON<br />

Overall Percentage<br />

.00<br />

1.00<br />

a. Constant is included in the model.<br />

b. The cut value is .500<br />

Step 0<br />

Step<br />

0<br />

Constant<br />

Variables<br />

Overall Statistics<br />

Classification Table a,b<br />

Variables in the Equation<br />

Predicted<br />

TELEFOON Percentage<br />

.00 1.00 Correct<br />

0 156 .0<br />

0 244 100.0<br />

61.0<br />

B S.E. Wald df Sig. Exp(B)<br />

.447 .103 19.040 1 .000 1.564<br />

Variables not in the Equation<br />

RAS<br />

RAS(1)<br />

RAS(2)<br />

Block 1: Method = Enter<br />

Step 1<br />

Step<br />

1<br />

Step<br />

1<br />

Step<br />

1<br />

Omnibus Tests of Model Coefficients<br />

Step<br />

Block<br />

Model<br />

Chi-square df Sig.<br />

12.910 2 .002<br />

12.910 2 .002<br />

12.910 2 .002<br />

Model Summary<br />

-2 Log Cox & Snell Nagelkerke<br />

likelihood R Square R Square<br />

522.088 .032 .043<br />

Hosmer and Lemeshow Test<br />

Chi-square df Sig.<br />

.000 1 1.000<br />

1<br />

2<br />

3<br />

Contingency Table for Hosmer and Lemeshow Test<br />

Score df Sig.<br />

13.152 2 .001<br />

4.736 1 .030<br />

12.508 1 .000<br />

13.152 2 .001<br />

TELEFOON = .00 TELEFOON = 1.00<br />

Observed Expected Observed Expected Total<br />

45 45.000 35 35.000 80<br />

59 59.000 101 101.000 160<br />

52 52.000 108 108.000 160


Step 1<br />

Observed<br />

TELEFOON<br />

Overall Percentage<br />

a. The cut value is .500<br />

.00<br />

1.00<br />

Classification Table a<br />

Variables in the Equation<br />

Predicted<br />

TELEFOON Percentage<br />

.00 1.00 Correct<br />

45 111 28.8<br />

35 209 85.7<br />

Step<br />

1<br />

RAS<br />

RAS(1) .193 .235<br />

12.733<br />

.675<br />

2<br />

1<br />

.002<br />

.411 1.213 .765 1.924<br />

RAS(2) -.789 .279 8.016 1 .005 .454 .263 .784<br />

Constant .538 .164 10.763 1 .001 1.712<br />

a<br />

B S.E. Wald df Sig. Exp(B) Lower Upper<br />

a. Variable(s) entered on step 1: RAS.<br />

Block 2: Method = Enter<br />

Step 1<br />

Step<br />

1<br />

Step<br />

1<br />

Omnibus Tests of Model Coefficients<br />

Step<br />

Block<br />

Model<br />

Chi-square df Sig.<br />

13.889 1 .000<br />

13.889 1 .000<br />

26.800 3 .000<br />

Model Summary<br />

-2 Log Cox & Snell Nagelkerke<br />

likelihood R Square R Square<br />

508.199 .065 .088<br />

Hosmer and Lemeshow Test<br />

Chi-square df Sig.<br />

3.455 8 .903<br />

63.5<br />

95.0% C.I.for EXP(B)


Step<br />

1<br />

Step 1<br />

1<br />

2<br />

3<br />

4<br />

5<br />

6<br />

7<br />

8<br />

9<br />

10<br />

Contingency Table for Hosmer and Lemeshow Test<br />

Observed<br />

TELEFOON<br />

TELEFOON = .00<br />

Overall Percentage<br />

a. The cut value is .500<br />

TELEFOON = 1.00<br />

Observed Expected Observed Expected Total<br />

28 25.728 12 14.272 40<br />

19 21.703 21 18.297 40<br />

19 18.623 21 21.377 40<br />

17 16.891 23 23.109 40<br />

14 15.287 26 24.713 40<br />

12 13.951 28 26.049 40<br />

12 12.563 28 27.437 40<br />

11 11.511 29 28.489 40<br />

12 10.723 28 29.277 40<br />

12 9.021 28 30.979 40<br />

.00<br />

1.00<br />

Classification Table a<br />

Variables in the Equation<br />

Predicted<br />

TELEFOON Percentage<br />

.00 1.00 Correct<br />

47 109 30.1<br />

33 211 86.5<br />

64.5<br />

Step<br />

1<br />

RAS<br />

RAS(1) 1.751 .491<br />

20.556<br />

12.727<br />

2<br />

1<br />

.000<br />

.000 5.760 2.201 15.071<br />

RAS(2) .682 .490 1.943 1 .163 1.978 .758 5.165<br />

INKOMEN .001 .000 13.112 1 .000 1.001 1.001 1.002<br />

Constant -2.063 .732 7.942 1 .005 .127<br />

a<br />

95.0% C.I.for EXP(B)<br />

B S.E. Wald df Sig. Exp(B) Lower Upper<br />

a. Variable(s) entered on step 1: INKOMEN.<br />

a. (10 punten) Is er sprake van een significant ras-effect? Waaraan kun je dat zien?<br />

b. (5 punten) Welke rasgroep heeft na correctie voor inkomsten de hoogste<br />

adoptiegraad? Is dit significant?<br />

c. (5 punten) Het regressiegewicht voor INKOMEN is heel klein (0.001). Betekent<br />

dit dat inkomen slechts een geringe invloed heeft?<br />

d. (5 punten) Wat is de verhouding van de odds (de oddsratio dus) van een zwart<br />

persoon met een inkomen van 800 Rand tegenover een wit persoon met een<br />

inkomen van 1800 Rand?

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!