MC M
T- T+ T- T+
0,003
0,999 0,999
T+
Mc M
T- T+ T-
0,003
0,999 0,999
0,997
0,001 0,001
T+
Mc M
T- T+ T-
0,003
0,999 0,999
0,997
0,001 0,001
Test clinici. Risoluzione mediante rappresentazioni grafiche
Il test “Elisa”, relativo all’HIV, può fornire esiti errati. Precisamente vi è una probabilità del 99,9% che il test dia esiti positivi nei soggetti che effettivamente hanno contratto l’HIV (“sensibilità” del test) ed una probabilità del 99,9% che il test risulti negativo nei soggetti che non hanno l’HIV (“specificità” del test).
Consideriamo ora una certa popolazione. Assumiamo che lo 0,3% della quantità di individui di tale popolazione abbia l’HIV (“prevalenza” della malattia)
1.
Il test, applicato ad un individuo scelto a caso in tale popolazione, ha dato esito positivo. Qual è la probabilità che tale individuo sia in realtà sano, cioè non abbia l’HIV?
Risoluzione mediante grafo ad albero
Iniziamo rappresentando mediante un grafo ad albero i casi che si possono presentare per l’individuo della popolazione in esame. Denotiamo con M l’evento “l’individuo è ammalato”, con M
cl’evento “l’individuo non è ammalato”, con T
+l’evento “il test ha dato esito positivo”, con T
-l’evento “il test ha dato esito negativo”.
Inoltre riportiamo i valori di probabilità degli eventi forniti dal testo accanto ai relativi rami.
E’ richiesta la probabilità dell’evento “l’individuo non è malato, sapendo che il test ha avuto esito positivo”, ossia
2T
+¿(M
C) p
¿Evidenziamo in grassetto sull’albero i due cammini che rappresentano i nuovi
3“casi possibili”: “individuo non malato e test positivo”, “individuo malato e test positivo”
4. Otteniamo la figura riportata di seguito sulla sinistra.
Segniamo invece in verde il cammino che rappresenta i “casi favorevoli”, “individuo non malato e test positivo”, ottenendo la figura che segue, a destra
5. Aggiungiamo poi le probabilità non fornite nel testo, considerando che la somma delle probabilità relative ai rami uscenti da uno stesso nodo deve essere uguale ad 1.
1
Assumiamoche anche per la popolazione in esame valgano i due valori di probabilità del 99,9% indicati nel testo.Osserviamo che, se la popolazione in esame è “sufficientemente numerosa”, si possono esprimere tali ipotesi in termini di frequenze relative. Si può cioè assumere che risulti positivo al test circa il 99,9% degli individui della popolazione che hanno l’HIV.
Analogamente possiamo assumere che risulti negativo al test circa il 99,9% degli individui della popolazione che non hanno l’HIV.
2
Tale notazione ci sembra più chiara ed espressiva per uno studente dei primi anni di superiori rispetto alla notazione+¿
M
c¿ T
¿p ¿ ¿
3
Ossia una volta acquisita l’informazione che l’individuo è positivo al test.4
I cammini rappresentano eventi intersezione. I numeri vicino ai rami del livello “esito test” (es. 0,999) sono probabilità condizionate.5
Nell’esercizio Test Clinici, tratto dal testo della Castelnuovo “Matematica oggi 2”, era nota la situazione di ogni singolo individuo della popolazione: cioè, dato un individuo qualsiasi della popolazione, si sapeva se aveva la gravidanza e se il test effettuato era positivo. Pertanto si sapeva esattamente quale dei quattro cammini sul grafo dovesse percorrere ogni singolo individuo.Invece nel problema che stiamo ora esaminando sono noti “solamente” dei valori di probabilità: non siamo in grado di sapere quale dei quattro cammini percorra ciascun individuo.
Ora disponiamo di tutti gli elementi per calcolare la probabilità richiesta.
Leggiamo il processo di calcolo direttamente sull’albero ora costruito. Vale
6T
+¿( Mc) = p( cammini favorevoli ) p( cammini possibili )
p
¿Per calcolare la probabilità di ogni cammino moltiplichiamo le probabilità degli eventi rappresentati da ciascuno dei rami che lo costituiscono
7:
p( cammini favorevoli )
p( cammini possibili ) = 0,997 ∙ 0,001
0,997 ∙0,001+0,003 ∙ 0,999 ≈ 0,25
Note
Volendo, possiamo ripercorrere l’intero procedimento, esprimendo i singoli passi mediante il linguaggio degli insiemi.
Lo riportiamo in nota
8.
6
Per una giustificazione di tale uguaglianza, che riteniamo cruciale, si rimanda al file ProbCondizionata.doc.7
Si tratta in sostanza dell’interpretazione della legge della moltiplicazione mediante il modello dell’albero.Mc
M
T- T+
Risoluzione mediante tabella
Possiamo, in alternativa, rappresentare la situazione mediante una tabella. L’insieme dei casi che si possono presentare
9per l’individuo della popolazione (casi iniziali) può essere suddiviso nei quattro sottoinsiemi rappresentati dai quattro rettangoli più piccoli in figura
10. Ad esempio, il rettangolo che occupa la seconda riga e la prima colonna rappresenta l’insieme −¿
M ∩T
¿, ossia l’evento “l’individuo ha l’HIV e il suo test ha esito negativo”.
8
Precisamente+¿
M
c∩ T
¿+¿ ¿ T
¿+¿ ¿ M
c∩ T
¿+¿ ¿ M
c∩ T
¿+¿ ¿ M ∩T
¿¿ +¿ T
¿¿ +¿ +¿
T
¿+¿ ¿ T
¿¿ p( M
c)∙ p
Mc¿ T
¿+ p (M ) ∙ p
M¿
p ( M
c) ∙ pMc¿ p( M
c)∙ p
Mc¿
p ¿ p ¿ p ¿ p ¿ T
+¿( Mc) =¿
p
¿9
Senza tener conto, per ora, del fatto che l’individuo è positivo al test.10
Nell’esercizio Test Clinici era nota la situazione di ogni singolo individuo della popolazione: cioè, dato un individuo qualsiasi della popolazione, si sapeva se aveva la gravidanza e se il test effettuato era positivo. Pertanto il rettangolo “grande” rappresentava l’intera popolazione e i quattro rettangoli “piccoli” rappresentavano una sua suddivisione, in base alla presenza della gravidanza e all’esito del test, in sottoinsiemi dei quali era nota l’esatta composizione. Cioè, dato un qualsiasi individuo della popolazione, siMc
M
T- T+
Mc
M
T- T+
Osserviamo che ciascuno dei quattro rettangoli corrisponde ad uno dei quattro possibili cammini nel grafo ad albero precedente.
Sappiamo che è accaduto l’evento T
+. Quindi l’insieme dei nuovi “casi possibili” è l’insieme T
+, rappresentato con il bordo nero evidenziato nella figura seguente a sinistra.
Tenendo conto di ciò, si chiede di determinare la probabilità che si sia verificato l’evento M
c. Allora l’insieme dei “casi
favorevoli”, ossia+¿
M
c∩T
¿, è rappresentato dall’insieme colorato in verde.
Prima di procedere con il calcolo, riportiamo su tale schema i valori di probabilità forniti in ipotesi, prestando attenzione all’insieme rispetto al quale essi sono espressi. In particolare l’ipotesi sulla prevalenza della malattia ci dice che l’insieme dei due rettangoli che costituisce la riga inferiore della tabella rappresenta lo 0,3% dei casi iniziali.
sapeva con certezza quale fosse il suo rettangolo di appartenenza.
Invece nel problema in esame sono noti “solamente” dei valori di probabilità. Pertanto non siamo in grado di sapere a quale dei quattro insiemi appartenga ciascun individuo.
Per queste ragioni, nel problema ora in esame, intendiamo invece rappresentare con il rettangolo “grande” la situazione di un singolo individuo. Tale rettangolo rappresenta cioè l’insieme di tutti i casi in cui l’individuo può trovarsi. E ciascuno di questi quattro casi è identificato da uno dei rettangoli “piccoli”.
Non sappiamo dire con certezza quale di essi accada. Possiamo “solo” fornirne un valore della sua probabilità di accadere.
0,01%
sui T+
99,9%
di M
99,9%
di Mc
0,3%
dei casi iniziali 99,7%
dei casi iniziali
Mc
M
T- T+
0,1%
di Mc
99,9%
di M
99,9%
di Mc
0,3%
dei casi iniziali
Mc
M
T- T+
Nella figura posta a destra riportiamo anche il dato che manca per rispondere al quesito: la probabilità che “l’individuo non malato risulti positivo al test
11”.
Ora disponiamo di tutti gli elementi per il calcolo della probabilità richiesta. Riferendoci a tale rappresentazione, abbiamo allora
12+¿
M
c∩T
¿+¿ ¿
T
¿p ¿ p ¿ T
+¿( Mc) =¿
p
¿Calcoliamo separatamente il valore del numeratore e quello del denominatore.
Vale
13+¿
M
c∩T
¿p ¿ ¿
Mentre
14+ ¿ T
¿p ¿ ¿
Sostituendo i valori così ottenuti, concludiamo che
11
La somma delle probabilità relative ai due rettangoli della riga superiore deve essere 1, se esse sono riferite all’insieme Mc.12
Per una giustificazione di tale uguaglianza si rimanda al file ProbCondizionata.doc.13
Siamo interessati al valore di probabilità dell’insieme colorato in verde rispetto all’insieme dei casi possibili iniziali.Sappiamo che il valore
0,1 %
è la probabilità dell’insieme colorato in verde rispetto all’insieme Mc, non rispetto all’insieme richiesto. Come fare? Possiamo sfruttare l’informazione ulteriore che Mc rappresenta il97 %
dei casi possibili iniziali.Pertanto la probabilità sarà
0,1% del 97% ossia
0,1 100 ∙ 99,7
100
14
Osserviamo innanzitutto che conviene pensare l’insieme T+ come unione dei due rettangoli che costituiscono la colonna destra in figura. La probabilità dell’insieme T+ sarà allora la somma delle probabilità relative a questi due rettangoli.Ora, la probabilità dell’insieme colorato in verde è già stata calcolata. Pertanto resta da determinare solo quella relativa al rettangolo in basso nelle figura. Analogamente a quanto osservato nella nota precedente, tale probabilità è
99,9% dello 0,3% ossia
99,9 100 ∙ 0,3
100
+¿
M
c∩T
¿+¿ ¿ T
¿p ¿ ¿ p ¿
¿
Abbiamo così ottenuto la stessa espressione numerica a cui eravamo giunti mediante la schematizzazione con il grafo ad albero
15.
15
Anche relativamente a questo approccio possiamo ripercorrere il procedimento risolutivo mediante il solo linguaggio degli insiemi. Abbiamo suddiviso l’insieme dei T+ nel modo seguente:+¿
M
c∩T
¿+¿ ¿ M ∩T
¿+¿=¿
T
¿E abbiamo così espresso la probabilità richiesta:
+¿
M
c∩ T
¿+¿ ¿ T
¿+¿ ¿ M
c∩ T
¿+¿ ¿ M
c∩ T
¿+¿ ¿ M ∩T
¿¿ +¿ T
¿¿ +¿ +¿
T
¿T
¿+ p (M ) ∙ p
M¿
p ( M
c) ∙ pMc¿ p( M
c)∙ p
Mc¿
p ¿ p ¿ p ¿ p ¿ T
+¿( Mc) =¿
p
¿Anch’essa identica all’espressione mediante il linguaggio degli insiemi che abbiamo ottenuto interpretando il procedimento sul grafo ad albero.