Studi diagnostici
Prof. Paolo Chiari
Dipartimento di Scienze Mediche e Chirurgiche Università di Bologna
I punti che tratteremo
• Studi diagnostici
• Accuratezza e validità degli strumenti di misurazione
• I calcolatori
• Valutazione critica degli studi diagnostici
Copyright ©1997 BMJ Publishing Group Ltd.
Greenhalgh, T. BMJ 1997;315:540 -543
Quali sono gli studi che esaminano gli strumenti diagnostici
Per ogni domanda un disegno
Studio Trasversale
• È uno studio osservazionale.
• I pazienti arruolati vengono sottoposti al test sotto indagine e quindi al migliore test
riconosciuto in quel momento (gold standard), in grado di rivelare la presenza o meno della
patologia.
• Si verifica quindi la coerenza dei risultati ottenuti con i due strumenti e si verifica la opportunità di utilizzare il nuovo strumento.
Quali caratteristiche deve
possedere uno strumento
diagnostico?
Affidabilità
• Cosa si intende?
• È la capacità di un test di offrire sempre lo stesso risultato, nel corso di misurazioni ripetute.
• È una caratteristica intrinseca dello strumento e dipende dalla bontà dello strumento e/o
dell’operatore.
Validità
• È la capacità di un test di distinguere in
una popolazione i soggetti sani da quelli
malati.
Test ideale
negativi al test positivi al test
sani malati
Da Lopalco PL, Tozzi AE. Epidemiologia facile. Roma:
Pensiero Scientifico Editore, 2003
Il test ideale
sani
malati
valore di cut-off
Valore della variabile , discriminante per assegnare un
Test reale...
negativi al test positivi al test
sani malati
Da Lopalco PL, Tozzi AE. Epidemiologia facile. Roma:
Pensiero Scientifico Editore, 2003
Il test reale...
valore di cut-off
VP malati VN
sani
FP: sani FN: malati
Distribuzione della popolazione in relazione al test
Malati Sani
Test +
Test -
VP FP
FN VN
Totale malati Totale sani
Totale positivi
Totale negativi
Totale soggetti
Tanto più basse saranno le quote di falsi positivi e falsi negativi, tanto più il test sarà valido.
Definizione della validità dello strumento: SENSIBILITA’
• Per sensibilità si intende la capacità di un test di individuare in una popolazione i soggetti malati.
• Essa è data dalla proporzione dei soggetti
realmente malati e positivi al test (veri
positivi) rispetto all’intera popolazione dei
malati.
Sensibilità
capacità del test di individuare in una popolazione i soggetti malati
VP Totale malati
VP VP + FN
=
Malati Sani
Test +
Test -
VP FP
FN VN
TM+ TM-
Totale positivi
Totale negativi
Sensibilità
negativi al test
positivi al test
malati
25/29= 86,2%
VP FN
Da Lopalco PL, Tozzi AE. Epidemiologia facile. Roma:
Pensiero Scientifico Editore, 2003
Un test molto sensibile avrà pochifalsi negativi
Definizione della validità dello strumento: SPECIFICITA’
• Per specificità si intende la capacità di un test di identificare come negativi i soggetti sani.
• Essa è data dalla proporzione dei soggetti realmente sani e negativi al test (veri
negativi) rispetto all’intera popolazione dei malati.
Specificità
capacità del test di individuare come negativi i soggetti sani
VN VN
=
Malati Sani
Test +
Test -
VP FP
FN VN
TM+ TM-
Totale positivi
Totale negativi
Specificità
negativi al test
Uno strumento specifico determina l’individuazione di pochi falsi positivi.
sani
55/57= 96,5%
FP
VN
Da Lopalco PL, Tozzi AE. Epidemiologia facile. Roma:
Pensiero Scientifico Editore, 2003
Diagnosi
• Sensibilità = a/(a+c) = 23/25 = 92%
• Specificità = d/(b+d) = 75/75 = 100%
• Sensibilità e specificità dovrebbero essere entrambi maggiori del 80% per essere clinicamente utili in ambito diagnostico, nello screening devono tendere al 100%.
Centro studi EBN - Bologna
Scale di valutazione:
accertamento standardizzato
STRUMENTI PER LA VALUTAZIONE DEL RISCHIO DI CADUTA
• Conley scale
• STRATIFY
• MORSE fall scale
Conley Scale -
Conley D, Shultz AA, Selvin R.The challenge of predicting patients at risk of falling; development of the ConleyScale. MEDSURG Nurs 1999; 8: 348-54.
Strumento per la valutazione all’ingresso del rischio di caduta del paziente ricoverato in reparti per acuti (medico- chirurgici).
Variabili considerate:
• Precedenti cadute
• Presenza di vertigine o capogiri
• Incontinenza
• Deterioramento cognitivo
• Compromissione della marcia
• Agitazione
Punteggio 0 (nessun rischio) – 8 (massimo rischio) Punteggio di cut off : 2
Scala di Conley
Istruzioni: le prime tre domande devono essere rivolte solo al paziente: possono essere rivolte ad un familiare od al caregiver o all'infermiere, solo se il paziente ha severi deficit cognitivi o fisici che gli impediscono di rispondere. Barrare il valore corrispondente alla risposta fornita. Sommare i valori positivi.
La risposta "Non so" è da considerare come risposta negativa.
Sì No
Precedenti cadute (domande al paziente/caregiver/infermiere) C1- E’ caduto nel corso degli ultimi tre mesi?
2 0
C2- Ha mai avuto vertigini o capogiri? (negli ultimi 3 mesi) 1 0 C3- Le è mai capitato di perdere urine o feci mentre si recava in
bagno? (negli ultimi 3 mesi)
1 0
Deterioramento cognitivo (osservazione infermieristica)
C4- Compromissione della marcia, passo strisciante, ampia base d’appoggio, marcia instabile.
1 0
C5- Agitato (Definizione: eccessiva attività motoria, solitamente non finalizzata ed associato ad agitazione interiore.
Es: incapacità a stare seduto fermo, si muove con irrequietezza, si tira i vestiti, ecc.).
1 0
C6 -Deterioramento della capacità di giudizio / mancanza del senso del pericolo.
TOTALE
2 0
Che risultati ha dato questo strumento?
Conley scale
• Conley D, Shultz AA, Selvin R.The
challenge of predicting patients at risk of falling; development of the Conley Scale.
MEDSURG Nurs 1999; 8: 348-54.
• SENSIBILITA’: 71%
• SPECIFICITA’: 59%
Dati studio sulle cadute – scala di Conley
Caduto Non caduto
Test +
Test -
47 911
21 641
68 1552
958
662
Totale 1620
Sensibilità = a/a+c
STRATIFY-
Oliver D, Britton M, Seed P, Martin FC, Hopper AH. Development and eveluation of evidence based risk assessment tool (STRATIFY) to predict which elderly impatients willfall: case-control and cohort studies. BMJ 1997; 315: 1049-53.
Strumento per la valutazione del rischio di cadute negli anziani ricoverati.
Variabili considerate:
• Precedenti cadute
• Punteggio di mobilità e trasferimento
• Necessità di andare frequentemente in bagno
• Agitazione
• Riduzione della vista.
• Punteggio 0 (nessun rischio) – 5 (massimo rischio)
• Punteggio di cut off >2
STRATIFY strumento di valutazione del rischio di caduta del paziente
Istruzioni: tutte le domande, ad eccezione della prima, devono essere rivolte all'infermiere responsabile.
Barrare il valore corrispondente alla risposta fornita. Sommare i valori positivi.
S1- Il paziente è stato ricoverato in seguito ad una caduta, oppure è caduto durante la degenza? (esame della documentazione)
1 0
Ritieni che il paziente:
S2 – Sia agitato? (Definizione: eccessiva attività motoria, solitamente non finalizzata ed associato ad agitazione interiore. Es: incapacità a stare seduto fermo, si muove con irrequietezza, si tira i vestiti, ecc.).
1 0
S3- Abbia un calo della vista tale da compromettere tutte le altre funzioni quotidiane?
S4- Necessiti di andare in bagno con particolare frequenza? (< 3 ore)
1 1
0
S5– Il paziente ha un punteggio di mobilità corrispondente a 3 o a 4 ? (vedi schema di calcolo sottostante)
TOTALE 1
_____
_ 0
Schema per il calcolo del punteggio di mobilità No Con aiuto maggiore
Con aiuto minore
Indip. Punteggio
Il paziente è in grado di:
1) Spostarsi dalla sedia al letto e ritornare (include il sedersi sul letto)
2) Camminare sul piano (spingere la sedia a rotelle se non deambula)
TOTALE 0 0
1 1
2 2
3 3
________
Che risultati hanno dato questi strumenti?
Stratify:
Oliver D, Britton M, Seed P, Martin FC, Hopper AH.
Development and eveluation of evidence based risk assessment tool (STRATIFY) to predict which elderly impatients will fall: case-control and cohort studies. BMJ 1997; 315: 1049-53.
SENSIBILITA’: 93%
SPECIFICITA’: 87%
Coker E, Oliver D. Evaluation of the STRATIFY Falls Predictor Tool on a Geriatric Unit. Outcome management 2003. Vol 7(1): 8-14.
SENSIBILITA’:73%
SPECIFICITA’: 45%
Dati studio sulle cadute – scala di Stratify
Caduto Non caduto
Test +
Test -
10 143
41 987
51 1130
153
1028
Totale 1181
Sensibilità = a/a+c
Come possono essere modificate la sensibilità e la specificità?
Modificare la sensibilità Se volessimo aumentare la sensibilità, cogliendo tutti i soggetti malati ed aumentando così i veri positivi, dovremmo abbassare la quota del valore di cut-off.
Ad esempio potremmo abbassare il valore soglia della glicemia da 110 mg/ml a 90 mg/ml (o il valore di cut-off della scala di
valutazione).
Modificare la specificità Se volessimo aumentare la specificità, escludendo dalla diagnosi tutti i soggetti sani ed aumentando così i veri negativi, dovremmo alzare la quota del valore di cut-off.
Ad esempio potremmo aumentare il valore soglia della glicemia da 110 mg/ml a 120 mg/ml.
Abbassando il cut- off:
Aumentano i veri positivi (aumenta la
sensibilità) Aumentano i falsi positivi (diminuisce la
specificità)
Aumentando il cut-off:
Aumentano i veri negativi (aumenta la
specificità) Aumentano i falsi negativi (diminuisce la
sensibilità)
Roc curve
• Al fine di valutare come un test si comporta in una popolazione (in termini di sensibilità e specificità) in funzione di determinati valori di cut-off, sono state realizzate le cosiddette curve ROC.
• Esse sono la rappresentazione su di un grafico,
che riporta in ascisse la percentuale di errore
falso positivo (ovvero 1 meno la specificità) e
in ordinate la sensibilità, dei diversi valori
misurati in una popolazione a differenti livelli di
Curve ROC
(receiver operating characteristics)
0 20 40 60 80 100
80
60
40
20
0 100
sensibilità
tasso d’errore falso positivo (1-specificità)
nessun beneficio curva accettabile curva buona curva ottima ES: PAS
40 mm/Hg
ES: PAS 400 mm/Hg
Roc curve
0 20 40 60 80 100
80
60
40
20
0 100
sensibilità
tasso d’errore falso positivo (1-specificità)
nessun beneficio curva accettabile curva buona curva ottima
• Un test povero ha linee accostate alla diagonale mediana, mentre le linee per un test perfetto devono salire rapidamente e oltrepassare
avvicinandosi all’angolo in alto a sinistra dove sia la sensibilità che la specificità sono pari a 1.
Predittività
• La sensibilità e la specificità sono parametri intrinseci al test, che non si modificano con il modificarsi della
frequenza con cui si presenta la patologia.
• Essi ci dicono quindi qual è la probabilità, data una popolazione di sani e di malati, di individuarli come tali.
• Niente ci dicono, invece, di qual è la
probabilità di un soggetto trovato positivo, di esserlo veramente.
Valore predittivo positivo
la probabilità che un soggetto positivo al test sia effettivamente
VP VP
=
Malati Sani
Test +
Test -
VP FP
FN VN
Totale malati Totale sani
Totale positivi
Totale negativi
Totale soggetti
Valore predittivo positivo
positivi al test
sani malati
FP
VP
25/27 = 92,6%
Da Lopalco PL, Tozzi AE. Epidemiologia facile. Roma:
Pensiero Scientifico Editore, 2003
Il valore risultato (92,6%) indica la probabilità per un soggetto con un test positivo di essere realmente malato.
Il valore risultato (92,6%) indica la probabilità per un soggetto con un test positivo di essere realmente malato.
Valore predittivo negativo
la probabilità che un soggetto negativo al test sia effettivamente sano
Malati Sani
Test +
Test -
VP FP
FN VN
Totale malati Totale sani
Totale positivi
Totale negativi
Totale soggetti VN
TN
VN VN + FN
=
Valore predittivo negativo
sani malati
FN VN
55/59 = 93,2%
negativi al test
Il 93,2% indicherà la probabilità che ha un soggetto risultato negativo al test di essere effettivamente sano.
Il 93,2% indicherà la probabilità che ha un soggetto risultato negativo al test di essere effettivamente sano.
Dati studio sulle cadute – scala di Conley
Totale 1620
Valore predittivo positivo = a/a+b
Caduto Non caduto
Test +
Test -
47 911
21 641
68 1552
958
662
a b c d
Dati studio sulle cadute – scala di Stratify
Caduto Non caduto
Test +
Test -
10 143
41 987
51 1130
153
1028
Totale 1181 a b
c d
Valore predittivo positivo = a/a+b Valore predittivo negativo = d/c+d
Predittività del test e prevalenza
• La predittività di un test, al contrario di specificità e sensibilità, non è una
caratteristica intrinseca del test, ma può
dipendere dalla frequenza della malattia
nella popolazione.
Prevalenza e valore predittivo
Prevalenza = 20/400 = 5%
Prevalenza e valore predittivo
Prevalenza = 5%
Test: sensibilità 90%, specificità 90%
positivi al test
negativi al test
Malati Sani
Positivi 18 38 56
Negativi 2 342 344
20 380 400
Prevalenza e valore predittivo
Prevalenza = 80/400 = 20%
Prevalenza e valore predittivo
Prevalenza = 20%
test: sensibilità 90%, specificità 90%
positivi al test
negativi al test
Malati Sani
Positivi 72 32 104
Negativi 8 288 296
80 320 400
Valore predittivo = 72/104 = 69,2%
Probabilità che il soggetto sia davvero malato
Prevalenza e valore predittivo
• A parità di sensibilità, la probabilità che a un allarme corrisponda effettivamente un tentativo di furto (e che non si tratti di un falso allarme!) dipende dal contesto; se ci troviamo in una città dove i furti sono rari, è più probabile che si tratti di un falso
allarme, se ci troviamo in una città ad alto tasso di furti, allora è il caso di
preoccuparsi...
Prevalenza e valore predittivo
• La predittività del test è proporzionale alla prevalenza della malattia in quella popolazione.
• Tanto più è bassa, tanto maggiore è il rischio di falsi positivi( prevalenza 5% T+ 56, di cui FP 38;
Prevalenza 20% T+ 104, di cui solo 32 FP).
• Per aumentarla, pertanto, sarà bene scegliere
accuratamente la popolazione su cui avviare lo
screening, per evitare di dover fare i conti con
una quota troppo elevata di falsi positivi.
Likelihood ratio
(rapporto di verosimiglianza)
LR+ proporzione di veri positivi rispetto alla proporzione di falsi
positivi
LR- proporzione di falsi negativi rispetto alla proporzione di veri negativi
M+ M-
T+
T-
VP FP
FN VN
TM+ TM-
TP
TN
N
a b c d
%VP
%FP
sensibilità 1-specificità
=
%FN
%VN
1-sensibilità specificità
=
=
c/(a+c) = d/(b+d) a/(a+c) b/(b+d)
Rapporto di verosimiglianza di un test positivo (Likelihood ratio)
• L’LR+ esprime quante probabilità in più ha un risultato del test positivo di essere riscontrato in un soggetto con malattia, piuttosto che in un soggetto che non ha la patologia target, ma che presenta un valore rientrante nel range patologico per altri motivi.
• L’LR- esprime quante probabilità ha un soggetto il cui risultato del test è negativo, di essere in realtà malato (misura quindi con quale probabilità il test può indurre un errore diagnostico).
Esempio: l’efficacia dello stick sulle urine per la diagnosi di diabete
Malati Sani
Positivi 6 7 13
Negativ
i 21 966 987
27 973 100
0
Andersson DKG, Lundblad E, Svardssudd K.
Amodel for ealry diagnosis of type 2 diabetes mellitus in primary health care. Diabet Med 1993;
10:167-73.
Sensibilità = 6/27 = 22,2%
Specificità = 966/973 = 99,3%
Percentuale di errore falso positivo
= 1- specificità = 1 – 99,3% = 0,7%
LR+ = sensibilità /(1- specificità) = 22,2%/ 0,7% = 32
Se ho ottenuto un risultato dello stik positivo, qual è la probabilità che il soggetto abbia il diabete?
In presenza di un test positivo la probabilità che la persona abbia realmente il diabete è di 32 volte superiore rispetto ad una persona sana.
Esempio: l’efficacia dello stick sulle urine per la diagnosi di diabete
Malati Sani
Positivi 6 7 13
Negativ
i 21 966 987
27 973 100
0
Andersson DKG, Lundblad E, Svardssudd K.
Amodel for ealry diagnosis of type 2 diabetes mellitus in primary health care. Diabet Med 1993;
Sensibilità = 6/27 = 22,2%
Specificità = 966/973 = 99,3%
Percentuale di errore falso negativo
= 1- sensibilità = 1 – 22,2% = 77,8%
LR- = (1 - sensibilità) / specificità = 77,8%/ 99,3% = 0,78
Se ho ottenuto un risultato dello stik negativo, qual è la probabilità che il soggetto non abbia il diabete?
In presenza di un test negativo la
Il rapporto di verosimiglianza
• Un test di verosimiglianza di 1 significa che la probabilità posttest è esattamente la stessa della probabilità pretest.
• Rapporti di verosimiglianza superiori a 1.0 aumentano la probabilità che la patologia oggetto di indagine sia presente, e maggiore è il rapporto di verosimiglianza, maggiore è questo incremento.
• Al contrario, rapporti di verosimiglianza inferiori di 1 riducono la probabilità di patologia target, e più piccolo è il rapporto di verosimiglianza, maggiore è la riduzione della probabilità e più piccolo è il suo valore finale.
Utilità del rapporto di verosimiglianza
• E’ molto utile tutte le volte in cui l’esito del
test non è solo POSITIVO/NEGATIVO, ma
quando è rappresentato da una gradualità
di valori (test di laboratorio).
Proprietà del test della ferritina sierica nella diagnosi dell’anemia sideropenica
Presente Assente
Ferritina sierica (mcg/L)
Numero Proporzione Numero Proporzione Rapporto di verosimiglianz a
<= 18 47 47/85=0.553 2 2/150 = 0.013 42.5
>18 < 45 23 23/85 = 0.271 13 13/150 = 0.087 3.11
> 45 < 100 7 7/85 = 0.082 27 27/150 = 0.18 0.46
> 100 8 8/82 = 0.094 108 108/150 = 0.72 0.13
Totale 85 150
Rapporto di verosimiglianza: è la probabilità che un livello specifico di ferritina sierica sia individuato in un paziente con anemia sideropenica (rispetto ad un paziente senza). Per esempio per livelli di ferritina <=18 il rapporto di verosimiglianza sarà:
n = (47/85)/(2/150) = 0.553/0.013 = 42.5
più probabile di 42.d volte che un livello sierico di ferro inferiore o uguale a 18 mcg/L si verifichi in un paziente con anemia sideropenica (rispetto ad uno senza).
Utilità del rapporto di verosimiglianza
• Il rapporto di verosimiglianza,
mediante alcuni calcoli o consultando il normogramma di Fargan, consente di calcolare come si modifica la probabilità pre-test,
data dalla prevalenza della patologia nella popolazione con caratteristiche simili al soggetto in esame, in probabilità post-test,
ossia di definire laproporzione dei soggetti malati della patologia target
Cos’è la probabilità pretest?
• E’ la prevalenza della patologia.
• Può variare secondo la prevalenza nella popolazione generale, gruppo di età, sesso, presenza di sintomi clinici, scenario nel quale il paziente viene osservato.
• Le fonti da cui trarre la prevalenza sono:
– l’esperienza clinica (fallibile),
– statistiche di prevalenza regionali o nazionali, – banche dati e studi,
– la probabilità osservata nello studio, ricavandola in questo modo:
(a+c)/(a+b+c+d)
Cos’è la probabilità posttest?
• È la proporzione di persone con un
particolare risultato del test che hanno la
patologia in esame.
Alla luce di ciò, come si interpreta LR?
Indipendentemente dalla probabilità pretest.
Può essere valido con una probabilità pretest alta (33%).
Fig 1 Use of likelihood ratios to calculate post-test probability of someone being a smoker6
Esempio
• Se due soggetti vengono sottoposti allo stesso esame diagnostico, la probabilità che il test riveli la presenza della patologia dipende dalle loro caratteristiche.
Probabilità pretest, rapporti di verosimiglianza dei risultati della ferritina sierica e probabilità post-test in due pazienti con sospetta anemia sideropenica.
Probabilità pretest % (range)* Ferritina (rapporto di verosimiglianza)
Probabilità posttest % (range)
Uomo di 73 anni che assume FANS
70 (60-80)** <=18 (42.5) 99 (98-99)
70 (60-80) 18-45 (3.11) 88 (82-93)
70 (60-80) 45-100 (0.46) 52 (41-65)
70 (60-80) >100(0.13) 23 (16-34)
Uomo di 73 anni con artrite reumatoide attiva
20 (10-30) <=18 (42.5) 91 (82-95)
20 (10-30) 18-45 (3.11) 44 (25-57)
20 (10-30) 45-100 (0.46) 10 (5-17)
20 (10-30) >100(0.13) 3 (1-5)
** Esempio di calcolo Probabilità pretest 70%
Odds = 70%/100-70% = 0.70/0.30 = 2.33 LR+ 42.5
Probabilità post test = Odds x LR+ / 1 + (OddsX LR+) = 2.33 x 42.5 / 1 + (2.33 x 42.5) = 99%
A. I risultati dello studio sono validi?
• Il test diagnostico era valutato in un appropriato gruppo di pazienti?
0% Soglia 100%
dell’esame
Soglia del trattamento Probabilità
inferiore alla soglia diagnostica nessuna indagine è giustificata.
Probabilità oltre alla soglia di trattamento; i test sono stati completati ed inizia il trattamento Probabilità tra
la soglia diagnostica e quella di trattamento;
sono necessari ulteriori test.
La popolazione di interesse comprende le persone comprese tra la soglia diagnostica e quella terapeutica.
Un grande aiuto: i calcolatori
• In Internet si trovano numerosi calcolatori in grado di agevolare il professionista nel calcolo dei valori di riferimento dei test.
• Nel sito www.evidencebasednursing.it i link ai calcolatori sono individuabili nella directory “Aiuti e link” e “Strumenti”.
• Il loro vantaggio è il calcolo automatico
anche degli intervalli di confidenza.
Calcolatore del CS EBN
Calcolatori dell’Università della Columbia Britannica
Calcolatori dell’Università della Columbia Britannica
• Inserisco la prevalenza, la sensibilità e la specificità e
compaiono i valori
mancanti.
Calcolatori dell’Università della Columbia Britannica
• Inserisco la
prevalenza, LR+, LR- e compaiono i valori mancanti.
Calcolatori dell’Università della Columbia Britannica
• Inserisco i dati della
tabella a doppia
entrata compaiono i
valori mancanti.
Calcolatore dell’Università dell’Illinois di Chicago
• Include in un’unica videata tre diverse opzioni (dati della tabella; prevalenza, sensibilità, specificità;
prevalenza LR+, LR-) e consente di
visualizzare il normogramma di Fargan.
C. I risultati dello studio, validi e importanti, sono applicabili ai nostri pazienti?
– Il test diagnostico è disponibile, affidabile, accurato e preciso per il nostro contesto (setting)?
– Il test deve essere:
• Disponibile;
• Economico;
• Riproducibile;
• Accurato;
Riproducibilità del test
• Può essere dovuta a:
• alle caratteristiche dei test (ad esempio, variazioni nei reagenti nei kit per
radioimmunoanalisi per determinare i livelli degli ormoni);
• alla interpretazione data da clinici diversi o dallo stesso in momenti diversi (ad esempio, l’entità dell’elevazione del segmento ST in un
elettrocardiogramma).
L’accordo casuale
• Se due persone tirassero ad indovinare il risultato di un test diagnostico, senza avere alcuna conoscenza in merito, una parte delle loro risposte coinciderebbe, solo per opera del caso.
• Le risposte uguali date dai ricercatori, quindi, contengono sempre una parte di risposte che coincidono solo per caso.
• Per questo per conoscere la reale concordanza tra i ricercatori occorre ricorrere ad un indice che elimini la concordanza casuale.
Riproducibilità dei test: Kappa di Cohen
• È una misura statistica utilizzata per misurare l’accordo non casuale tra i ricercatori.
• Si utilizza quando il paziente è posto in
categorie.
50%50%
Accordo potenziale 100%
Accordo osservato 75%
Accordo atteso dovuto al caso 50%
50% 50%
25%
Accordo osservato – Accordo casuale
Valore di Kappa = --- = 25% / 50% = 50%
Accordo potenziale – Accordo casuale
Kappa di Cohen
•Per calcolarlo occorre compiere tre passaggi:
1. Calcolare l’accordo osservato 2. Calcolare l’accordo casuale
3. Calcolare l’accordo non dovuto al caso.
Esempio
Ipotizziamo che due osservatori stiano valutando la presenza di sibilo respiratorio in 100 pazienti. Essi non hanno abilità nell’ascoltare il torace e le loro valutazioni non sono migliori del tirare ad indovinare a caso. Ipotizziamo che abbiano risposto così:
Kappa di Cohen
• A: pazienti in cui entrambi hanno visto sibilo respiratorio.
• B: pazienti in cui o1 ha visto sibilo respiratorio, mentre 02 no.
• C: pazienti in cui o2 ha visto sibilo respiratorio, mentre 01no.
• D: pazienti in cui entrambi non hanno visto sibilo respiratorio.
• E: pazienti in cui o1 ha osservato il sibilo.
• F: pazienti in cui o1 non ha osservato il sibilo.
• G: pazienti in cui o2 ha osservato il sibilo.
• H: pazienti in cui o2 non ha osservato il sibilo.
• T: totale dei pazienti osservati.
o1
o 2
+ -
+ 46
A 12
B 58 E
- 10
C 32
D 42 F 56 G 44 H 100 T
Kappa di Cohen
Calcoliamo l’accordo osservato:
(A+D)/T = 78/100 = 78%
Calcoliamo l’accordo casuale relativo alla cella A (ExG)/T2= 3.248/10.000 = 32,5%
Calcoliamo l’accordo casuale relativo alla cella D (FxH)/T2= 1.848/10.000 = 18,5%
Totale accordo casuale = 18,5% + 32,5% = 51%
Calcoliamo Kappa
Accordo osservato – Accordo casuale 78% - 51%
Valore di Kappa = --- = --- = 55%
Accordo potenziale – Accordo casuale 100% - 51%
Interpretazione di Kappa
• K < 40 scarsa riproducibilità
• 40 < K < 60 moderata riproducibilità
• 60 < K < 80 notevole riproducibilità
• K > 80 riproducibilità quasi perfetta
• NB: Se la riproducibilità di un test nel contesto dello studio è mediocre e il disaccordo tra gli osservatori è frequente, ed ancora il test discrimina bene tra coloro che hanno e che non hanno la patologia in oggetto, esso è molto utile. In queste circostanze, la probabilità che il test possa essere prontamente applicato nel vostro setting clinico è buona.
• Se la riproducibilità di un test diagnostico è molto alta e la variazione tra osservatori è bassa, significa che il test è semplice e non
ambiguo o facile da interpretare od anche che coloro che lo interpretano sono ben addestrati. Se è quest’ultimo lo scenario descritto, interpreti meno abili nel vostro contesto potrebbero non avere le stesse performance.
Applicabilità alla popolazione: mix di severità e distribuzione delle comorbilità
• Presenza di stadi avanzati: aumento della sensibilità e spostamento di LR+ lontano da 1.
• Presenza di stadi lievi ed iniziali: riduzione della sensibilità e spostamento di LR+ verso 1.
• Presenza di patologie concomitanti confondenti:
riduzione della specificità e spostamento di LR+
verso 1.
• Ridotta presenza di patologie concomitanti
confondenti: aumento della specificità e
C. I risultati dello studio, validi e importanti, sono applicabili ai nostri pazienti?
– Possiamo prevedere una stima della probabilità pre test dei nostri pazienti (dalla pratica, dall’esperienza personale, dalle ricerche)?
Soglie di esame e di trattamento
• Una volta che abbiamo deciso la soglia diagnostica e quella terapeutica, le probabilità post-test hanno implicazioni dirette sul trattamento.
• Le soglie di esame e di trattamento sono variabili per le differenti patologie, in relazione a:
– Il rischio di trattamento (se è rischioso, occorre essere più certi della diagnosi)
– Al pericolo di lasciare la patologia non trattata (se il pericolo di mancare una diagnosi è alto, come
l’embolia polmonare, occorre che la vostra probabilità post-test sia molto bassa prima di abbandonare la ricerca diagnostica).
C. I risultati dello studio, validi e importanti, sono applicabili ai nostri pazienti?
• Le conseguenze del test aiuterebbero il nostro paziente?
• L’ultimo criterio per l’utilità di un test diagnostico è verificare se i benefici per i paziente sono superiori dei rischi associati.
• Il valore di un test accurato sarà indiscusso quando la patologia in oggetto è pericolosa se non diagnosticata, il test ha un rischio accettabile ed esistono trattamenti efficaci.
• Nel caso in cui ciò non sia vero, occorre ricercare in letteratura un RCT in cui vi sia la randomizzazione dei pazienti verso una strategia diagnostica che include o che non include il test sotto indagine ed follow up dei pazienti di entrambe i gruppi nel tempo per
determinare la frequenza degli outcome importanti per i pazienti.
Paolo Chiari
Corso di Laurea Magistrale in Scienze Infermieristiche e Ostetriche [email protected]
www.unibo.it