Neemt toeval af en toe toe of af?

Figuur 3.1 (Schriemer, 2021, p.106)

Vraag van een student

Neemt de kans op toeval toe of af op het moment dat je steekproefgrootte groter wordt?

Antwoord

Stel je voor dat je lichaamslengte van mensen meet. Van CBS weten we dat gemiddelde lengte van de man ca. 1,84 meter is.

CBS: https://www.cbs.nl/nl-nl/nieuws/2021/37/nederlanders-korter-maar-nog-steeds-lang

Stel nu het volgende voor: je trekt een steekproef van 20 mensen uit het GBA (=Gemeentelijke Basis Administratie) van Utrecht. En je meet van die mensen de gemiddelde lengte, dat blijkt 2,02 meter te zijn.

Photo by LOGAN WEAVER on Unsplash

Wat is hier aan de hand?” denk je dan.

Controle van de steekproef geeft dat je heel toevallig allemaal mannen van de basketbalvereniging in je steekproef hebt. Dus als je je steekproef nu vergroot naar 350.000 mensen (ca. alle mensen in Utrecht) dan kom je wél uit op 1,84 meter gemiddeld. 

Wikipedia (2021): https://nl.wikipedia.org/wiki/Utrecht_(stad)

Voorbeeld met leeftijden

Stel je trekt een steekproef met totaal 15 respondenten. Je berekent na elke trekking van een respondent steeds het nieuwe gemiddelde. Dus het gemiddelde over 3 respondenten is dan (24+12+66)/3=34.

Tabel met berekende gemiddelden

Dat toeval afneemt en dus het werkelijke populatiegemiddelde benadert laat onderstaande grafiek zien op basis van bovenstaande gegevens van de tabel. De wijnrode lijn geeft de leeftijd van de respondent weer. De zwarte lijn het berekende gemiddelde over n respondenten.

Grafische weergave van de schommelende gemiddelde leeftijd.

Duidelijk is dat de gemiddelde leeftijd al snel (na respondent 5) rondom de veertig jaar schommelt, terwijl respondenten wisselende leeftijden hebben.

Conclusie

Het kan zijn dat als je de steekproef stapsgewijs vergroot, dat de toeval eerst toeneemt en dan afneemt, omdat het gemiddelde erg kan schommelen. Maar in het algemeen geldt dat …

Toeval neemt af naarmate de steekproef groter wordt.

Observatie

Om gebeurtenissen te operationaliseren voor je steekproef moet je scherp observeren wat de bepalende variabelen zijn voor die gebeurtenis.

Photo by Braden Jarvis on Unsplash

Randomisatie

Student zegt vertwijfeld: ‘bij randomisatie krijg je elke keer weer iets anders!’

Photo by DEAR on Unsplash

Première data cleaning

Op 16-12-2019 om 19:00 uur precies start de première van de SPSS-clip over data cleaning. Oftewel: maak je data schoon voordat je start met analyseren.

Er is live video chat!

Steekproefgrootte in geval van interactie-effecten

Vraag van een student

Ik maak gebruik van 5 verschillende overtuigingsprincipes van Cialdini en één controlegroep. Dan klopt het toch dat ik na mijn steekproefberekening, die uitkwam op een minimum van 385 respondenten, in totaal (dus 5 principes + controlegroep) minimaal 385 respondenten moet hebben?

Antwoord

Van belang voor het antwoord is of er wel of geen interactie-effecten zijn. Laat ik het voorbeeld vertalen naar een nog wat eenvoudiger voorbeeld. Stel dat je wil weten wat de mensen van de kwaliteit van het brood van de bakker vinden, specifiek van:

  1. bruin brood;
  2. wit brood;
  3. stokbrood.

Opzet zonder interactie-effect

Dus je maakt een testopzet waarmee je een proefpanel organiseert die drie soorten brood gaan proeven. Je trekt een steekproef van X1 mensen voor bruin brood, X2 mensen voor wit brood en X3 mensen voor stokbrood. Voor de goede orde: het is trekking zonder teruglegging, dus een persoon kan maar in één van de groepen (1 = bruin brood, 2 = wit brood, 3 = stokbrood) zitten:

Stel dat je de kwaliteit met een rapportcijfer meet, dan krijg je dus drie gemiddelden:

Dit zijn drie onafhankelijk getrokken steekproeven. De gemiddelden beïnvloeden elkaar niet. De steekproefberekening gaat dan per segment:

Stel verder dat het steekproefgemiddelde maar een kwart mag afwijken, dat je 95% betrouwbaarheid wil en dat de standaarddeviatie 1,0 bedraagt:

Dus de steekproef per segment is dan 62 personen. Totaal moet je dan 186 verschillende respondenten werven.

Opzet met interactie-effect

Als je nu de opzet wijzigt, zodanig dat elke respondent alle drie soorten broden proeft, dan krijg je te maken met interactie-effecten. Je kunt je dat als volgt voorstellen: stel je hebt een respondent die eerst het ‘ovenheerlijke’ stokbrood proeft, dan het ‘gewone’ witbrood en dan het minder lekkere bruine brood. Deze respondent zal van mening verschillen als de volgorde precies andersom is: eerst het minder lekkere bruine brood, dan het ‘gewone’ witbrood en als laatste het ‘ovenheerlijke’ stokbrood.

De vraag die nu rijst is welke vorm en richting de interactie-effecten hebben. Bijvoorbeeld beïnvloedt X2 de anderen altijd negatief? Of zijn dergelijke veronderstellingen geheel niet voorafgaand aan de meting te maken? Als er geen voorkennis is, dan is het noodzakelijk te veronderstellen dat alle interactie-effecten reëel zijn. De testopzet dient dat te reflecteren door de volgorde waarin de broden geproefd worden telkens te wijzigen. Men krijgt dan per testopzet een segment met bijbehorende steekproeftrekking. Combinatoriek leert dat er n! mogelijke segmenten zijn: voor n=3 zijn dat er dus zes. Zie onderstaande afbeelding.

Dat houdt in dat er zes steekproeven getrokken moeten worden. Als dezelfde condities gelden zoals bij de opzet zonder interactie-effect dan geldt ook hier ni=62. Totaal dan 372 verschillende respondenten. Hierbij dient dan wel de voorwaarde gesteld te worden dat de interactie-effecten allemaal onafhankelijk van elkaar zijn, dat is natuurlijk niet helemaal het geval. Het is in dat geval dan ook raadzaam meer respondenten te werven.

Voor de analyse geldt overigens dat de bijbehorende statistiek om de grootte van de interactie-effecten te berekenen is met een full factorial model type III.

Antwoord met Cialdini interactie-effecten

In het geval van de oorspronkelijke vraag met vijf Cialdini-effecten: krijgt elke respondent een Cialdini-effect te zien / te beoordelen? Dan moeten er n! steekproeven getrokken worden en voor n=5 is dat dan 120 steekproeven van elk zeg eens 60 respondenten is dan 7200 respondenten. Dat zou ik niet doen. Ik zou op zoek gaan naar vereenvoudigingen in de onderzoeksopzet,.

  • Bijvoorbeeld door te veronderstellen dat de volgorde er niet toe doet. Daarmee verkleint het aantal segmenten tot 10:
  • Bijvoorbeeld door elk Cialdini-effect afzonderlijk -zonder die andere effecten in de vragenlijst- uit te vragen. Je maakt dan dus vijf vragenlijsten, per Cialdini-effect één. En trekt dus vijf steekproeven.

Betrouwbaarheid gegeven een steekproefomvang

Vraag van een student

Nu ik respons heb, zie ik dat ik de beoogde 384 respondenten niet heb gehaald. Dat betekent dat ik met minder betrouwbare resultaten genoegen moet nemen. Hoe bereken ik dat?

Antwoord

De steekproefformule voor een metrische variabele herschrijven we dan zodanig dat de betrouwbaarheid ‘eruit’ rolt. Zie onderstaande afleiding (zie p.211).

Om de z-waarde af te leiden, wordt het ongelijkteken een gelijkteken:

Vul de gegevens van de populatie en de steekproef in en voilà je krijgt de z-waarde. Van die z-waarde kun je dan in bijlage III (p.256) de bijbehorende betrouwbaarheid vinden. Stel dat deze gegevens beschikbaar zijn:

In bijlage III vind je dan in de tabel:

Dit is een maximumwaarde. Dus in plaats van 95% betrouwbaarheid, heb je maar 63% betrouwbaarheid. Bedenk dat het opgooien van een geldstuk 50% kans geeft op ‘kop’. Zoveel meer zekerheid biedt dit onderzoek dus niet. Wil je meer zekerheid dat je resultaten te veralgemeniseren zijn naar de populatie toe (extrapolatie), dan moet je je steekproef vergroten.

Aselecte steekproef

Een studente: ‘Ik heb met succes aselecte steekproef gedaan onder de eerstejaars mannelijke studenten’.