Neemt toeval af en toe toe of af?

Figuur 3.1 (Schriemer, 2021, p.106)

Vraag van een student

Neemt de kans op toeval toe of af op het moment dat je steekproefgrootte groter wordt?

Antwoord

Stel je voor dat je lichaamslengte van mensen meet. Van CBS weten we dat gemiddelde lengte van de man ca. 1,84 meter is.

CBS: https://www.cbs.nl/nl-nl/nieuws/2021/37/nederlanders-korter-maar-nog-steeds-lang

Stel nu het volgende voor: je trekt een steekproef van 20 mensen uit het GBA (=Gemeentelijke Basis Administratie) van Utrecht. En je meet van die mensen de gemiddelde lengte, dat blijkt 2,02 meter te zijn.

Photo by LOGAN WEAVER on Unsplash

Wat is hier aan de hand?” denk je dan.

Controle van de steekproef geeft dat je heel toevallig allemaal mannen van de basketbalvereniging in je steekproef hebt. Dus als je je steekproef nu vergroot naar 350.000 mensen (ca. alle mensen in Utrecht) dan kom je wél uit op 1,84 meter gemiddeld. 

Wikipedia (2021): https://nl.wikipedia.org/wiki/Utrecht_(stad)

Voorbeeld met leeftijden

Stel je trekt een steekproef met totaal 15 respondenten. Je berekent na elke trekking van een respondent steeds het nieuwe gemiddelde. Dus het gemiddelde over 3 respondenten is dan (24+12+66)/3=34.

Tabel met berekende gemiddelden

Dat toeval afneemt en dus het werkelijke populatiegemiddelde benadert laat onderstaande grafiek zien op basis van bovenstaande gegevens van de tabel. De wijnrode lijn geeft de leeftijd van de respondent weer. De zwarte lijn het berekende gemiddelde over n respondenten.

Grafische weergave van de schommelende gemiddelde leeftijd.

Duidelijk is dat de gemiddelde leeftijd al snel (na respondent 5) rondom de veertig jaar schommelt, terwijl respondenten wisselende leeftijden hebben.

Conclusie

Het kan zijn dat als je de steekproef stapsgewijs vergroot, dat de toeval eerst toeneemt en dan afneemt, omdat het gemiddelde erg kan schommelen. Maar in het algemeen geldt dat …

Toeval neemt af naarmate de steekproef groter wordt.

Mediaan & spreiding

De boxplot visualiseert de relatie tussen de mediaan en de spreiding.

De spreiding is weergegeven via kwartielen, minimum en maximum.

Figuur 2.7. Statistiek voor de beroepspraktijk, paragraaf 2.4.2.

Mediaan?!

Een student: gemiddeld genomen is dit een mooie mediaan.

Photo by Pranam Gurung on Unsplash

Scheve verdeling is normaal

Maar daar bedoelen we niet mee dat een scheve verdeling ook een ‘normale verdeling’ is!

Het Hikkende Heksje

HRM-afdelingen houden bij hoe vaak een werknemer ziek is. Het is normaal dat men niet ziek is, nou ja, soms een verkoudheid of zo. Dus elke werknemer heeft meestal minder dan vijf ziektedagen.

Dus hier een scheve verdeling met de staart naar rechts.

De verdeling is scheef, want een paar werknemers trekken het gemiddelde omhoog. Daarom is het bij scheve verdelingen vaak beter de mediaan te hanteren.

Spreiding is de basis van statistiek

Photo by Doug Linstedt on Unsplash

Bedenk dat spreiding het centrale begrip in de statistiek is: alles draait om spreiding. Hoe het gespreid is, hoe de waarnemingen (of getallen, of gegevens) verdeeld zijn rondom een midden.