Daniël Debunkt

Dagelijkse debunks over COVID-19

Hoe selectie van data kan misleiden

Uitleg van twee data-paradoxen die ervoor kunnen zorgen dat data er heel anders uitziet dan het echte beeld is

In deze blogpost gebruik ik de data en de opzet van Jeffrey Morris’ blogpost “Israeli data: How can efficacy vs. severe disease be strong when 60% of hospitalized are vaccinated?“. Zijn blogpost gaat veel dieper en gedetailleerder in op de cijfers dan ik hier doe, dus lees die vooral als je er meer over wilt weten.

Een opmerking vooraf: Morris vergelijkt de cijfers van de niet-gevaccineerden — mensen die 0 vaccinaties hebben gehad — met volledig gevaccineerden — mensen die 2 vaccinaties hebben gehad — en laat de groep die 1 vaccinatie heeft gehad buiten beschouwing. Daardoor tellen de percentages her en der niet op tot 100%.

De tabellen tonen het aantal ziekenhuisopnamen en noemen dit “severe cases”. Aangezien de gehele bespreking alleen over deze gevallen gaat, gebruik ik de termen “ziek”, “ernstig ziek” en “ziekenhuisopname” door elkaar.

Misleidende totaalcijfers

We beginnen met de totaalcijfers van huidige ziekenhuisopnamen in Israël:

In absolute aantallen zijn er meer ziekenhuisopnamen van gevaccineerden dan van ongevaccineerden. Antivaxxers gaan hier graag mee aan de haal en concluderen daaruit dat vaccinaties niet zouden werken.

Vaccinatieparadox

Deze cijfers komen door de zogenaamde “vaccinatieparadox” die ik al eerder heb besproken:

Bij een hoge vaccinatiegraad worden meer gevaccineerde mensen ziek dan ongevaccineerde mensen.

De reden daarvoor is vrij simpel: als er weinig mensen ongevaccineerd zijn, kunnen ook weinig ongevaccineerden ziek worden. In het extreme geval: als niemand ongevaccineerd is, kunnen er ook geen ongevaccineerde mensen ziek worden. Er zijn aan de andere kant heel veel gevaccineerden, en omdat geen enkel vaccin voor 100% werkt, zullen er daar ook nog wel van ziek worden.

De vaccinatieparadox treedt dan ook altijd op als de vaccinatiegraad hoog genoeg wordt.

En dat blijkt ook als we in de Israëlische data gaan invullen hoeveel mensen er wel of niet gevaccineerd zijn:

Het grootste deel van de bevolking, 78,7% is volledig gevaccineerd, dat is ruim vier keer zo veel als het aantal ongevaccineerden. Als je het omrekent naar het aantal ziektegevallen per 100.000 inwoners, dan zie je dat het aantal ongevaccineerden drie keer zo hoog is als het aantal gevaccineerden: 16,4 per 100.000 tegen 5,3.

Vaccineren helpt dus.

Maar de werkzaamheid van vaccinatie lijkt wel tegen te vallen: volgens deze cijfers is dat maar 67,5%, en Pfizer had ons maar liefst 95% beloofd uit hun klinische proeven. Hoe zit dat? Dat brengt ons bij de tweede paradox.

Simpsons paradox

Deze paradox is genoemd naar Edward Simpson, een statisticus die ook als crypto-analist samenwerkte met Alan Turing in Bletchley Park om versleutelde berichten van Nazi-Duitsland en Japan te ontcijferen tijdens de Tweede Wereldoorlog.

Deze paradox treedt niet altijd op.

In deze statistieken is er sprake van twee variabelen:

  1. De “onafhankelijke variabele” waarop we onze meting baseren. Dat is hier de vaccinatiestatus;
  2. De “afhankelijke variabele” die we op basis daarvan meten. Dat is hier de kans op ziekenhuisopname.

Simpsons paradox treedt alleen op als er onder de oppervlakte een derde variabele is, een zogenaamde confounder, die zowel de onafhankelijke als de afhankelijke variabele verstoort. De confounder hier is de leeftijd. De invloed van leeftijd op beide variabelen is:

  1. Het percentage gevaccineerden is beduidend hoger bij oudere mensen dan bij jongere mensen;
  2. De kans om überhaupt ziek te worden neemt dramatisch toe met hogere leeftijd.

In dit geval dempen die twee verstoringen elkaar zelfs: als het percentage gevaccineerden met de leeftijd zou afnemen, zouden er veel meer gevaccineerden in het ziekenhuis liggen dan ongevaccineerden. Desondanks is er sprake van een sterk effect op de schijnbare werkzaamheid van het vaccin. Dat komt met name omdat leeftijd een heel grote invloed heeft op de kans om ziek te worden. Als je de bevolking opsplitst in twee leeftijdsgroepen, onder en boven de 50 jaar, dan zie je een geheel ander beeld:

Verreweg de meeste ziekenhuisopnamen vinden plaats met mensen boven de 50 jaar, zoals te verwachten. Maar nu je deze groep apart neemt, zie je dat de kans om ziek te worden als je gevaccineerd bent ruwweg een factor 7 kleiner is dan als je ongevaccineerd bent, en is de werkzaamheid onder 50-plussers dus veel hoger, namelijk 85,2%.

En als je de leeftijdsgroepen nog verder verfijnt, zie je dat de percentages nog hoger zijn per leeftijdsgroep:

De werkzaamheid in de leeftijdsgroep 80-89 jaar is opvallend laag met “maar” 81,1%, maar in de overige leeftijdsgroepen is die uitermate keurig.

De Engelse wiki-pagina over Simpsons paradox heeft nog een aantal aardige voorbeelden waar de paradox optreedt.

Moraal

De moraal is dat je voorzichtig moet zijn met het interpreteren van cijfers. Er kunnen addertjes onder het gras zitten waar ook ervaren statistici wel eens intrappen.

One thought on “Hoe selectie van data kan misleiden

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *