Over correlatie en causaliteit

Hoe vruchtbaarder de periode, hoe meer fooi

Snel even grasduinen door mensenkennis.be en je merkt op dat wetenschappelijke kennis vaak gaat over hoe (sterk) variabelen samenhangen: ‘Wie werkloos is, voelt zich doorgaans minder gelukkig’. ‘Wanneer kinderen ouder worden krijgen ze een meer gedifferentieerd en accurater beeld over zichzelf’. ‘Studenten die verwachten om snel hun punten te krijgen na een examen doen het beter’. De meeste relaties worden heel voorzichtig gesteld: er is een samenhang tussen X en Y, of nog, er is een zekere correlatie tussen X en Y. Andere relaties lijken echter -indirect- te zeggen: X veroorzaakt Y.  Echte causale uitspraken lijken eerder zeldzaam… . In deze blogpost gaan we dieper in op correlatie en causaliteit.

Hoe meer correlatie, hoe minder causaliteit

Hij heeft het niet uitgedacht, maar Karl Pearson was de eerste die het concept ‘correlatie’ wiskundig introduceerde. Pearson overtuigde de wetenschap dat hoe sterker twee variabelen correleren hoe nauwkeuriger we de score op Y kunnen voorspellen met een score op X. Dit, zo schrijf hij in ‘The Grammar of Science’, is de transitie van correlatie naar causaliteit*. Pearson had gelijk: sinds zijn bijdrage in 1911, verdrong de correlatie de causaliteit. De frequentie van het voorkomen van beide woorden sinds 1800 in Google Books werd onlangs in Slate magazine met onderstaande grafiek mooi geïllustreerd.

* In een voetnoot waarschuwde Pearson dat correlatie niet noodzakelijk causaliteit impliceert en verwees hij naar spurieuze verbanden: X en Y kunnen correleren omdat ze bijvoorbeeld afhangen van Z.

Hoe exotischer de correlatie, hoe meer “Ja, maar…”

Naarmate meer correlaties werden gevonden, steeg ook de creativiteit van wetenschappers: hoe meer brandweerlui werden ingezet, hoe groter de schade bleek. Welgekend is de sterke samenhang tussen het aantal verkochte ijsjes en het aantal verdrinkingen aan zee en productiviteit hangt samen met het aantal omwentelingen een werknemer maakt met zijn bureaustoel. Onlangs toonde Dr. Messerli overtuigend aan dat veel chocolade eten je kansen op een nobelprijs vergroot en recent nog werd aangetoond – door de kranten toch – dat muziekvoorkeur crimineel gedrag voorspelt. Ja, maar… correlatie is geen causaliteit. Voorzichtigheid alom.

Waar rook is, is vuur

Jarenlang trachtte de rooklobby de onderzoeksresultaten van Hill en Doll – dat de samenhang tussen roken en longkanker aantoonde – onderuit te halen met die andere dooddoener: ‘Correlatie impliceert geen causaliteit.’ En inderdaad, niet alle rokers krijgen longkanker, en sommige niet-rokers krijgen ook longkanker. Dat de grote statisticus Fisher fijntjes opmerkte dat inhalerende rokers minder kans hadden op longkanker dan niet-inhalerende rokers, maakte het voor de onderzoekers er niet makkelijker op. Cornfield zag dan weer een sterke correlatie tussen het aantal gram gerookte tabak en het aantal argumenten dat gevonden werd om dit onderzoek te laten wankelen, en toonde later op overtuigende wijze het causale effect van roken op longkanker aan.

Verstokte rokers hopen er misschien nog op dat men binnenkort een gen zal ontdekken dat zowel een impact heeft op het rookgedrag en het krijgen van longkanker.

Criteria voor causaliteit?

Sir Austin Hill, een leerling van Pearson, stelde volgende criteria voor om causale relaties te ontdekken. Hoe meer criteria voldoen, hoe groter de waarschijnlijkheid.

  1. Sterkte: Hoe sterker de samenhang, hoe waarschijnlijker causaliteit.
  2. Consistentie: Consistente bevindingen door anderen in een andere context.
  3. Specificiteit: Hoe specifieker de relatie is tussen twee variabelen, hoe waarschijnlijker causaliteit.
  4. Tijdsrelatie: Het effect dient na de oorzaak te komen.
  5. Biologische gradiënt: Hoe groter de blootstelling, hoe groter het effect.
  6. Plausibiliteit: De relatie oorzaak/effect moet plausibel zijn.
  7. Coherentie: De relatie oorzaak/effect is in samenhang met andere kennis over de variabelen.
  8. Experimentele evidentie: Het wegnemen van de oorzaak vermindert het effect.
  9. Analogie: Een gelijkaardige associatie bestaat reeds.

Referenties

  • Engber, D. (2012, Oct, 2). The Internet Blowhard’s Favorite Phrase. Why do people love to say that correlation does not imply causation? From http://www.slate.com/
  • Salsburg, D. (2001). The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century. New York, Henry Holt and Company, LLC.
  • Hill A.B. (1965). The environment and disease: association or causation? Proceedings of the Royal Society of Medicine, 58, p. 295-300.

Auteur: Maarten De Schryver

Maarten De Schryver, bedrijfspsycholoog van opleiding, is wetenschappelijk medewerker bij het Learning and Implicit Processes Lab van de Universiteit Gent. Daarnaast geeft hij als consultant methodologisch en data-analytisch advies aan zowel profit als non-profit organisaties. Als vrijwilliger geeft hij statistische ondersteuning voor het Centre for Children in Vulnerable Situations.