De reden daarvoor is dat deze specifieke formule zowel eenvoudig en elegant als ongelooflijk krachtig is. Zij kan worden ingezet om tegenstrijdig bewijsmateriaal in de geneeskunde, de rechtbank en veel (zo niet alle) wetenschappelijke disciplines tegen elkaar af te wegen. Deze formule wordt de “regel van Bayes” (of de formule van Bayes) genoemd.
Als eerste laten we aan de hand van een eenvoudig probleem op het vlak van de medische diagnostiek de kracht van de regel van Bayes zien, waaruit blijkt hoe slecht onze intuïtie in staat is om tegenstrijdig bewijs te combineren. Vervolgens laten we zien hoe de regel van Bayes kan worden gebruikt voor het bouwen van AI-methoden die waarnemingen kunnen verwerken die tegenstrijdig zijn en ruis bevatten.
Belangrijke termen
De regel van Bayes kan op veel verschillende manieren worden weergegeven. De eenvoudigste variant is in de vorm van kansverhoudingen. De achterliggende gedachte is om de kansverhouding dat iets zich voordoet (tegen de kansverhouding dat iets zich niet voordoet) te nemen. Dit noteren we als de a-priori kansverhouding. De term “a-priori” verwijst naar onze inschatting van de kansverhouding, voordat we nieuwe informatie verkrijgen die mogelijk relevant is. De bedoeling van deze formule is om, zodra er nieuwe informatie beschikbaar komt, de a-priori kansverhouding te actualiseren, zodat we de a-posteriori kansverhouding krijgen, oftewel de kansverhouding na verkrijging van de informatie. (Volgens het woordenboek betekent posterioriteit “het later komen”.)
Om de nieuwe informatie op waarde te schatten en te kunnen beslissen hoe de kansverhoudingen veranderen wanneer die informatie beschikbaar komt, moeten we ons afvragen hoe waarschijnlijk het is dat we in alternatieve omstandigheden met die informatie te maken zouden krijgen. We nemen als voorbeeld de kansverhouding dat het later vandaag gaat regenen. Stel dat je op een ochtend in Finland uit bed stapt. De kans op regen (neerslag, inclusief sneeuw en hagel, brrr) is 206 op 365. Het aantal dagen zonder regen bedraagt dus 159. Omgerekend is dat een a-priori kansverhouding van 206:159 voor regen, dus nog voordat je een oog hebt opengedaan, zit het je al tegen.
Maar als je eenmaal klaarwakker bent en naar buiten kijkt, merk je dat het bewolkt is. Stel dat de kans op een bewolkte ochtend op een regenachtige dag 9 op 10 is, dan betekent dit dat slechts 1 op de 10 regenachtige dagen met een blauwe hemel begint. Soms zijn er echter ook wolken zonder regen en de kans op bewolking op een droge dag is 1 op 10. Hoeveel groter is de kans op bewolking op een regenachtige dag vergeleken met een droge dag? Denk daar eens zorgvuldig over na. Het is namelijk belangrijk om die vraag te begrijpen en daarop hieronder een antwoord te krijgen.
Het antwoord luidt dat de kans op bewolking negen keer groter is op een regenachtige dag dan op een droge dag: op een regenachtige dag is de kans 9 op 10, terwijl de kans op bewolking op een droge dag 1 op 10 is, en daaruit volgt de negen keer grotere kans.
Belangrijke termen
De bovengenoemde verhouding (een negen keer grotere kans op bewolking op een regenachtige dag dan op een droge dag) wordt de aannemelijkheidsquotiënt genoemd. Algemener geformuleerd is de aannemelijkheidsquotiënt de waarschijnlijkheid van de waarneming van de gebeurtenis in kwestie (in het bovenstaande voorbeeld is dat dus regen) gedeeld door de waarschijnlijkheid van de waarneming van het niet-optreden van die gebeurtenis (in het bovenstaande voorbeeld is dat dus géén regen). Lees de vorige zin nog een paar keer over. Hij komt misschien wat intimiderend over, maar als je je goed concentreert verslik je je er niet in. Geen stress: we behandelen elke stap uitvoerig en zijn er bijna.
We hebben dus vastgesteld dat op een bewolkte ochtend geldt: aannemelijkheidsquotiënt = (9/10) / (1/10) = 9
De formidabele regel van Bayes voor het omrekenen van a-priori kansverhoudingen in a-posteriori kansverhoudingen luidt – hier komt ’ie – als volgt: de a-posteriori kansverhouding = de aannemelijkheidsquotiënt × de a-priori kansverhouding
Op dit moment denk je waarschijnlijk: “Wacht eens even, die formule, is dat alles? Dat is gewoon een stomme vermenigvuldiging!” Toch is het hem echt. We hadden toch gezegd dat die simpel zou zijn? Je kunt je haast niet voorstellen dat een eenvoudige vermenigvuldiging gebruikt kan worden voor allerlei soorten uitzonderlijk nuttige toepassingen, maar toch is het zo. We nemen een aantal voorbeelden onder de loep waaruit dat blijkt.
Opmerking
Als je bij de onderstaande oefeningen problemen ondervindt, dan kan het nodig zijn om de tekst hierboven nog eens een paar keer door te nemen en te laten bezinken. Mocht dat niet voldoende zijn, dan kun je online meer materiaal vinden. Eén tip: de regel van Bayes kan op talrijke verschillende manieren worden geformuleerd en de manier die wij gebruiken (in de vorm van kansverhoudingen) is niet de meest gangbare. Dit zijn een paar links waar je misschien baat bij hebt.
Onze eerste realistische toepassing is een klassiek voorbeeld van het gebruik van de regel van Bayes, namelijk medische diagnostiek. Dit voorbeeld laat ook de zogeheten “base-rate fallacy” zien, een vorm van veelvoorkomende vooringenomenheid bij het verwerken van onzekere informatie.
Denk eens aan mammografie bij screening op borstkanker. Omwille van de eenvoud maken we gebruik van fictieve percentages, maar laten we aannemen dat 5 op de 100 vrouwen borstkanker hebben. Stel dat dankzij de mammografie bij mensen die aan borstkanker lijden, de ziekte 80 van de 100 keer wordt aangetroffen. Als de test lijkt uit te wijzen dat er sprake is van borstkanker, zeggen we dat de uitslag van de test positief is, hoewel er voor de onderzochte persoon natuurlijk niets positiefs aan is. (Een technische formulering hiervan luidt dat de gevoeligheid van de test 80% is.)
De test kan er ook andersom naast zitten, namelijk door borstkanker uit te wijzen, terwijl daar helemaal geen sprake van is. Dit wordt een fout-positieve uitslag genoemd. Ook al heeft de onderzochte persoon in werkelijkheid geen borstkanker, dan nog is er een kans van 10 op 100 dat de uitslag van de test positief is.
Op grond van de bovenstaande waarschijnlijkheden kun je de aannemelijkheidsquotiënt berekenen. Bij de volgende oefening zal je dat goed van pas komen. Mocht je zijn vergeten hoe de aannemelijkheidsquotiënt wordt berekend dan kun je het kadertje met terminologie raadplegen dat eerder in dit deel aan de orde kwam, en het voorbeeld over regen nog eens doornemen.