• Non ci sono risultati.

Evidence Based Medicine: la chiave di volta in responsabilità professionale.

N/A
N/A
Protected

Academic year: 2022

Condividi "Evidence Based Medicine: la chiave di volta in responsabilità professionale."

Copied!
86
0
0

Testo completo

(1)

Dott. Massimiliano Montes

Responsabile area medico legale del poliambulatorio ―Atlantide – la medicina‖, Palermo.

Contatti: telefono 0916815443, email atlantimed@gmail.com.

________________________________________________________________________________

Abstract.

Questo lavoro vuole introdurre alla ―Evidence Based Medicine‖ (Medicina Basata sull’Evidenza), ovvero a quell’ambito della medicina che si occupa di valutare l’efficacia degli interventi sanitari in relazioni ad oggettive evidenze cliniche, cercando di basarsi su reali prove di efficacia. E’

facilmente intuibile come la ―Evidence Based Medicine‖, o EBM, assuma un ruolo fondamentale nelle contestazioni di responsabilità professionale. L’autore tratta rapidamente alcuni fondamentali concetti come il significato di sensibilità, specificità e valore predittivo di un test diagnostico, per affrontare successivamente il complesso capitolo dei ―trial clinici‖, delle metanalisi e delle revisioni sistematiche. Mediante alcuni essenziali strumenti di statistica medica descrive la metodologia dei trial clinici e delle metanalisi, e come verificare l’attendibilità degli stessi. Fa una rapida carrellata sugli strumenti informatici di aggiornamento e ricerca bibliografica, strumenti di lavoro essenziali per il medico contemporaneo. Conclude con un approfondimento sul ruolo della EBM nei giudizi di responsabilità da errore medico.

---

The aim of this paper is to introduce the ―Evidence Based Medicine‖ to the readers. Evidence Based Medicine is a field of medicine which tries to evaluate the effectiveness of health care interventions on the base of proven objective data. It’s easy to guess how the ―Evidence Based Medicine‖, or EBM, takes up a guide-role in lawsuits for medical mistakes. The author deals with some rudiments of diagnostic tests as the meaning of sensitivity, specificity and predictive value, then he broaches the complex item of clinical trials, meta-analyses and systematic reviews. Through some rudiments of statistics he describes clinical trials and meta-analyses techniques, and how to verify their TAGETE 1-2011

Year XVII

(2)

Evidence Based Medicine: la chiave di volta in responsabilità professionale

- 2 -

reliability. He makes a round-up of the information basic tools for the present-day doctor, updating tools and publications searching tools. Finally he analyzes the EBM role in lawsuits for medical mistakes.

Introduzione: ipse dixit.

Nella storia della medicina le scelte clinico-terapeutiche sono state abitualmente influenzate, se non addirittura determinate, dall’opinione di singoli medici che, in virtù del ruolo svolto (primariato ospedaliero, docenza universitaria) o semplicemente dell’anzianità di servizio, assumevano un ruolo di ―guida‖ nel ―decision making‖ del proprio reparto o addirittura dell’intera comunità scientifica.

Si presumeva che la convinzione e le conoscenze di un medico anziano o di un primario o di un professore universitario fossero comunque superiori alle conoscenze o intuizioni della restante classe medica. Ciò ha determinato situazioni di difficile gestione, sia in era pre-antibiotico che in tempi moderni, con la nascita di differenti ―scuole di pensiero‖ che vedevano contrapposti primari e docenti, protocolli e trattamenti spesso divergenti supportati da motivazioni scientifiche contrastanti. Non era inusuale per gli studenti di medicina constatare che la medesima malattia veniva trattata diversamente in differenti reparti ospedalieri, in relazione alle convinzioni personali del primario o del direttore d’istituto.

Negli ultimi venti anni si è affermata una nuova metodologia che ha come obiettivo quello di

―standardizzare‖ i parametri di valutazione di efficacia degli interventi sanitari, così da pervenire a valutazioni più oggettive e meno personali. Questa metodologia prende il nome di Evidence Based Medicine, o Medicina Basata sull’Evidenza.

L’opinione di un singolo medico o di un gruppo di medici, o anche di una ―consensus conference‖, basata solo su principi generali o su presupposti di natura fisiopatologica, per quanto autorevole, non costituisce di per sé un’evidenza scientifica.

Per comprenderne i motivi proviamo a fare un esempio pratico. Lanciare una monetina prevede un 50% di probabilità ―teorica‖ di avere testa o croce. Se però lanciamo la monetina 4 volte ed otteniamo casualmente 4 volte testa (è possibile) non siamo autorizzati a dire che la probabilità di ottenere testa è del 100%. Così se lanciamo la moneta 50 volte ed otteniamo 30 volte testa non siamo assolutamente autorizzati ad affermare che la probabilità di avere ―testa‖ come risultato è del

TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY

TAGETE 1-2011 Year XVII

(3)

- 3 - 60%! Commetteremmo un gravissimo errore.

Soltanto effettuando un elevatissimo numero di lanci riusciremmo ad avvicinarci ―empiricamente‖

alla ―corretta probabilità teorica‖. Se effettuiamo, per esempio, 10.000 lanci otterremo magari una probabilità del 49.7% di avere croce ed una probabilità del 50.3% di avere testa. Questo è il risultato più corretto ed è quello che più si avvicina alla realtà.

Lo stesso metodo viene usato in medicina. Per affermare che un intervento sanitario è superiore ad un altro occorrono strumenti che abbiano un minimo di attendibilità scientifica. Lo strumento base che si utilizza è la sperimentazione clinica controllata (o ―trial‖ clinico). Il trial clinico deve essere strutturato in modo da avere credibili basi scientifiche e rappresentative della popolazione generale, e deve essere analizzato con attendibili metodiche statistiche. Si studia un campione di popolazione suddiviso in almeno due gruppi (o bracci): il braccio d’intervento è sottoposto all’intervento sanitario da sperimentare, il braccio di controllo ad un intervento sanitario già noto o ad un placebo.

Al termine del periodo di sperimentazione si confrontano i risultati tra i due bracci e si verifica l’eventuale superiorità di un intervento sull’altro. Il campione deve essere sufficientemente ampio da non incorrere in grossolani artefatti dovuti alla casualità. Di solito la sperimentazione è gestita da un comitato etico, che ne controlla l’evoluzione, e sia i pazienti che il medico che materialmente somministra la terapia non sanno se stanno assumendo (o somministrando) la terapia convenzionale o la nuova terapia (studi sperimentali in ―cieco‖ e ―doppio cieco‖). Ovviamente la distribuzione dei pazienti nel braccio d’intervento e nel braccio di controllo oltre che omogenea deve essere assolutamente casuale (―random‖ in inglese, da cui il termine di ―Randomized Controlled Trial‖ o RCT). Tutti questi accorgimenti servono ad evitare che il risultato possa in qualche modo essere influenzato da fattori umani.

Ma questo è solo il primo gradino.

Il fatto che un trattamento risulti efficace in un singolo RCT costituisce già una prima evidenza scientifica. Ma non basta. Molte istituzioni nel mondo (ospedali, università, centri specialistici etc.) producono e pubblicano i loro Randomized Controlled Trials. Periodicamente tutti i singoli RCT pubblicati su un medesimo specifico trattamento vengono rivisti. I risultati di tutte le sperimentazioni pubblicate in tutto il mondo vengono raccolte, e quelle che rispettano criteri minimi TAGETE 1-2011 Year XVII

(4)

Evidence Based Medicine: la chiave di volta in responsabilità professionale

- 4 -

di affidabilità scientifica e statistica vengono selezionate e confrontate (revisioni sistematiche).

Quando è possibile i loro risultati vengono ulteriormente, e cumulativamente, statisticamente analizzati. Questa procedura prende il nome di metanalisi.

I migliori RCT, le metanalisi e le revisioni sistematiche, possono essere recepiti dalle società specialistiche e diventare la base delle ―Linee Guida‖ ovvero dei suggerimenti operativi agli specialisti del settore.

Le metanalisi e le revisioni sistematiche sono oggi il più sofisticato strumento di comprensione ed aggiornamento per un medico. L’obiettivo è quello di ridurre al minimo l’effetto del ―caso‖ e

―l’errore umano‖ nella valutazione di efficacia di un trattamento.

Uno specialista può anche decidere di non seguire linee guida, metanalisi e revisioni sistematiche, ma dovrà renderne conto e ragione.

Un singolo medico nella sua carriera operativa non vedrà mai un numero così elevato di pazienti come quello osservato nelle metanalisi e nelle revisioni sistematiche, ne adotterà criteri così certi e

―stringenti‖ per osservare i risultati come quelli adottati in questi studi clinici.

E’ questo il motivo per cui l’opinione personale, seppur autorevole, non costituisce evidenza scientifica.

Sensibilità e specificità di un test diagnostico.

Per approdare ad una corretta comprensione della EBM bisogna conoscere alcuni fondamentali concetti base sugli strumenti che il medico utilizza nel suo lavoro quotidiano: i test diagnostici.

Il ―decision making‖, ovvero la scelta clinica o terapeutica, ed il ―clinical problem solving‖, ovvero la risoluzione di un problema clinico, sono sovente legati all’esito di esami e procedure prescritti dal medico al fine di pervenire ad una ―certezza‖ diagnostica.

Ma l’esito di un test diagnostico, positivo o negativo che sia, costituisce intrinsecamente una certezza? Tutte le persone affette da una determinata malattia risultano positive al relativo test diagnostico? Ed in caso contrario, qual è la percentuale di persone affette da una determinata malattia che risultano positive al relativo test diagnostico? E qual è la percentuale di persone non affette da una determinata malattia che risultano negative allo stesso test diagnostico?

In una situazione ideale tutte le persone affette da una determinata malattia dovrebbero risultare

TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY

TAGETE 1-2011 Year XVII

(5)

- 5 -

positive al test, e tutti coloro non affetti dovrebbero risultare negativi.

Nella realtà non è così. Ogni test o procedura diagnostica ha un insieme di caratteristiche intrinseche per cui queste percentuali non sono mai del 100%.

La risposta alla prima delle due domande (qual è la percentuale di persone affette da una determinata malattia che risultano positive al relativo test diagnostico?) prende il nome di sensibilità di un test. La risposta alla seconda domanda (qual è la percentuale di persone non affette da una determinata malattia che risultano negative al relativo test diagnostico?) prende il nome di specificità di un test.

La sensibilità è il rapporto tra veri positivi (VP) e la somma di veri positivi e falsi negativi (FN) ovvero di tutti coloro che sono realmente affetti dalla malattia in questione.

Sensibilità = VP / VP+FN

Se tra 100 persone affette da una determinata malattia 80 risultano positive ad un test diagnostico si dice che questo test ha una sensibilità del 80% (per quella malattia). Ci sono 20 persone che pur essendo realmente ammalate risultano negative al test.

La specificità è il rapporto tra veri negativi (VN) e la somma di veri negativi e falsi positivi (FP) ovvero di tutti coloro che non sono affetti dalla malattia in valutazione.

Specificità = VN / VN+FP

Se tra 100 persone non affette da una determinata malattia 60 risultano negative ad un test diagnostico, si dice che questo test ha una specificità del 60%. Ciò significa che ci sono 40 persone che pur non essendo affette dalla malattia oggetto di studio risultano positive al test.

I concetti di sensibilità e specificità sono fondamentali nell’uso e nella valutazione dei risultati di un test. Un esame con elevata sensibilità ma bassa specificità è, per esempio, la VES (velocità di eritrosedimentazione). Un incremento della VES ci indica che è in corso un processo infiammatorio, ma non ci fornisce alcuna indicazione sulla malattia che ne è causa. La VES può aumentare per una semplice influenza, per una malattia infettiva, per una malattia infiammatoria cronica, per una malattia autoimmune o per un’artrite reumatoide. Non diremmo mai che un paziente è affetto da lupus eritematoso sistemico solo perché ha un eritema al volto e la VES elevata; lo sottoporremmo invece ad un test per la ricerca di anticorpi anti-nucleo. Questo test ha TAGETE 1-2011

Year XVII

(6)

Evidence Based Medicine: la chiave di volta in responsabilità professionale

- 6 -

una elevata sensibilità (circa 99%) ma una specificità non superiore al 80%, non ancora sufficiente per porre diagnosi. La ricerca di anticorpi anti-DNA ha invece una elevata specificità per il lupus eritematoso sistemico (circa il 98%) ma una bassa sensibilità, non superiore al 75% 1.

In genere i test diagnostici ad alta sensibilità vengono usati a fini di screening e quelli ad alta specificità per confermare un sospetto diagnostico.

Cut-off e curva ROC .

Nei test diagnostici viene arbitrariamente fissato un ―limite‖ (in inglese ―cut-off‖) che consente di definire l’esito del test come positivo o negativo. La situazione ideale sarebbe quella in cui tutte le persone affette da malattia risultino positive al test e tutte le persone non affette risultino negative (Figura 1).

Nelle realtà non è così, perché, come abbiamo visto, una quota di persone malate risultano negative (falsi negativi) ed una quota di persone sane risultano positive al test (falsi positivi – Figura 2).

Il posizionamento del valore soglia che arbitrariamente distingue la positività o la negatività ad un test diagnostico, modifica la sensibilità e la specificità del test stesso.

Questo concetto è più facilmente comprensibile e descrivibile nei test scalari, ovvero quelli i cui risultati possono essere espressi da un valore numerico progressivamente crescente.

Il dosaggio della glicemia basale, per esempio, viene considerato normale se compreso entro i 110 mg/dl. Il cut-off di questo test diagnostico è stato arbitrariamente posizionato a 110 mg/dl poiché questo è il valore-limite entro cui si colloca il 95% della popolazione. Ciò significa che esiste una parte di persone sane (non diabetiche) i cui valori di glicemia basale possono eccedere i 110 mg/dl.

Il riscontro di una glicemia basale di 115 mg/dl non implica necessariamente la presenza della malattia ―diabete‖ (Figura 3).

Se riduciamo il cut-off a 100 mg/dl troviamo un maggior numero di persone con glicemia alterata (test positivo), con una frequenza però più elevata di falsi positivi, ovvero persone non affette da diabete il cui test eccede il valore soglia di cut-off da noi stabilito (Figura 4).

Se invece innalziamo il cut-off a 130 mg/dl avremo un numero assoluto di test positivi più basso (la maggioranza dei test sarà inferiore a 130 mg/dl), con una frequenza sicuramente inferiore di falsi positivi ma con una frequenza altrettanto certamente più elevata di falsi negativi. Cioè ci saranno

TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY

TAGETE 1-2011 Year XVII

(7)

- 7 -

più persone diabetiche il cui test risulterà nei limiti (Figura 5).

Spostando il cut-off variamo la sensibilità e la specificità del test: a cut-off bassi corrisponde una più elevata sensibilità ma una ridotta specificità, a cut-off elevati corrisponde invece un incremento della specificità ma una riduzione della sensibilità.

Le caratteristiche operative di sensibilità e specificità di ciascun test diagnostico possono essere rappresentate mediante un diagramma empirico, riportando in ordinata i valori crescenti di sensibilità ed in ascissa il complementare ad 1 della specificità (1-specificità), ovvero i falsi positivi (Figura 6). La curva che ne deriva, che ricorda una iperbole invertita, prende il nome di ―Receiver Operating Characteristics Curve‖ o ROC curve. L’angolo superiore sinistro del diagramma identifica il punto di maggior sensibilità e specificità di un test. Più la curva si avvicina a quel punto, più il test è affidabile. La zona della curva più vicina al punto di maggior sensibilità e specificità rappresenta il valore da scegliere come soglia (cut-off) per quel test diagnostico.

La ―ROC curve‖ è una caratteristica intrinseca ed univoca di ciascun test diagnostico. Il posizionamento del cut-off deve essere eseguito in corrispondenza del valore di maggior sensibilità e specificità del test, e questo non necessariamente corrisponde al sistema tradizionale che collocava la ―normalità‖ nella media più o meno due deviazioni standard in un campione di persone sane.

La curva ROC della glicemia, per esempio, ci mostra come il valore di cut-off di 110 mg/dl è quello che realmente raggiunge il miglior compromesso tra sensibilità e specificità (Figura 7).

Tale concetto è valido anche per procedure diagnostiche e test diagnostici complessi, anche se è difficile una corretta valutazione di sensibilità e specificità in procedure in cui entrano in gioco molteplici parametri e variabili. Nelle diagnosi d’immagine, per esempio, sono numerose le variabili che concorrono ad influenzare sensibilità e specificità dell’esame. Scale di grigio di riferimento, variazione del guadagno di segnale, variazione del PRF (Pulse Repetition Frequency) in esami di flussimetria doppler etc., determinano notevoli modificazioni della sensibilità e della specificità, rendendo più complesso il corretto posizionamento del test nella propria curva ROC.

La revisione di studi pubblicati sul ruolo della risonanza magnetica nell’individuazione di lesioni focali epatiche in pazienti oncologici mostra valori di sensibilità discordanti ed, a volte, anche molto distanti tra loro. L’impiego della risonanza magnetica con mezzo di contrasto

TAGETE 1-2011 Year XVII

(8)

Evidence Based Medicine: la chiave di volta in responsabilità professionale

- 8 -

superparamagnetico a base di nano-particelle di ossido di ferro (SPIO) per la ricerca di metastasi epatiche mostra una sensibilità variabile dal 42% al 97%. In un piccolo studio del 2006 di Onishi H.

e colleghi 2 l’impiego di questa metodica mostrava i più bassi livelli di sensibilità (42%), mentre in un più ampio lavoro di Reimer P. e colleghi del 2000 3 i valori di sensibilità si attestavano al 97%.

Queste differenze sono dovute sicuramente al fatto che il primo studio è stato eseguito su una popolazione di pazienti troppo ristretta e con protocolli operativi non sempre chiari e coerenti, ma anche al fatto che questi lavori (come tutti gli studi effettuati su metodiche diagnostiche d’immagine) non hanno standard tecnici di riferimento sempre confrontabili. Non solo per l’uso di differenti macchinari e differenti impostazioni dei parametri d’immagine, ma anche per differente tecnica utilizzata. Il secondo studio infatti, a differenza del primo, valuta l’associazione della fase pre-contrastografica e post-contrastografica.

Probabilità pre-test e valore predittivo di un test diagnostico.

L’interpretazione della positività o della negatività di un test diagnostico è influenzata da due importanti fattori: l’epidemiologia della malattia da diagnosticare e l’obiettività clinica del singolo paziente. E’ intuitivamente evidente che il riscontro di positività agli anticorpi anti-mitocondrio (AMA) in una giovane donna ha un valore predittivo differente ai fini della diagnosi di cirrosi biliare primitiva (CBP) della stessa positività in un uomo anziano. La CBP insorge nel 90-95% dei casi in donne di età compresa tra i 30 ed i 70 anni e la positività agli AMA è presente nel 95% degli affetti 4. Quindi il sesso femminile in questo caso aumenta notevolmente il valore predittivo del test positivo. Così come il riscontro di ipertransaminasemia ALT in una persona con obiettività indifferente ed in un’altra con sub-ittero sclerale ed epatosplenomegalia assume diverso significato diagnostico.

Ma è possibile quantificare queste variazioni?

Il virus dell’immunodeficienza umana (HIV) in Italia ha una prevalenza nella popolazione generale del 3 per 1000 5. Cioè tre persone su mille sono portatrici del virus. Il test di PCR-RT per la ricerca del genoma virale ha una sensibilità virtualmente del 100% ed una specificità del 99,7% 6. Se noi eseguiamo il test su 1000 persone troveremo 3 persone positive perché portatrici del virus (le troviamo tutte perché la sensibilità è del 100%), ma troviamo anche 3 falsi positivi poiché la

TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY

TAGETE 1-2011 Year XVII

(9)

- 9 -

specificità è del 99,7% (994 persone su 1000 risulteranno negative al test, 3 su 1000 falsamente positive).

Cioè eseguendo il test su 1000 persone troveremo 6 positivi, di cui 3 saranno veri positivi e 3 falsi positivi.

Il valore predittivo di un test positivo è il rapporto tra veri positivi (VP) e la somma di veri positivi e falsi positivi (FP), ovvero di tutti coloro che sono risultati positivi al test.

Valore predittivo positivo = VP / VP+FP.

E’ la percentuale di coloro che, risultando positivi ad un test, sono realmente affetti dalla malattia che il test diagnostico ricerca.

Nel caso in esempio il valore predittivo positivo della PCR-RT per la ricerca del genoma dello HIV è del 50%.

Si può anche esprimere l’idea dicendo che la probabilità di essere realmente portatori del virus HIV con un risultato positivo di PCR-RT è del 50%. Il valore predittivo di un test positivo è il ―valore aggiunto‖ che quel test apporta alla ―generica probabilità‖ di avere quella determinata malattia. La popolazione generale ha una probabilità del 3 per 1000 di essere portatrice di HIV, un individuo con una singola PCR-RT positiva ha il 50% di probabilità.

Il valore predittivo del test negativo è invece il rapporto tra i veri negativi (VN) e la somma di veri negativi e falsi negativi (FN).

Valore predittivo negativo = VN / VN+FN.

E’ la percentuale di coloro che risultando negativi ad un test non sono affetti dalla malattia che il test diagnostico ricerca.

Nel nostro caso il valore predittivo negativo della PCR-RT per HIV è uguale a 994/994+0 (perché essendo la sensibilità del 100% non ci sono falsi negativi), cioè del 100%.

Immaginiamo adesso di applicare un test diagnostico con le medesime caratteristiche operative di sensibilità e specificità ad una malattia la cui prevalenza è del 10% (per esempio una forma influenzale).

Se eseguiamo il test su 1000 persone 100 risulteranno positive perché realmente ammalate, e avremo, per approssimazione, sempre 3 falsi positivi (900 x 0.997 = 2.7). Il valore predittivo TAGETE 1-2011

Year XVII

(10)

Evidence Based Medicine: la chiave di volta in responsabilità professionale

- 10 -

positivo in questo caso sarà di 100 / 100 + 3 cioè del 97%. Il valore predittivo del test negativo sarà di 897/897, sempre del 100%.

L’epidemiologia di una malattia modifica il valore predittivo: un’alta prevalenza aumenta il valore predittivo del test positivo e riduce il valore predittivo del test negativo, una bassa prevalenza riduce il valore predittivo del test positivo ma aumenta il valore predittivo del test negativo.

La probabilità ―clinica‖ pre-test è più difficoltosa da quantificare perché non sempre la letteratura medica ci fornisce i dati relativi ai quadri sintomatologici di tutte le malattie. A volte l’analisi di ampie popolazioni di persone affette da una determinata patologia consente di costruire degli ―score system‖ che valutano la probabilità clinica di malattia in relazione alla presenza di uno o più sintomi o segni. Esistono score-system in vari ambiti specialistici: in reumatologia (per esempio per le artriti reumatoidi o per il lupus eritematoso sistemico), per numerose patologie internistiche ed in gastroenterologia (per esempio per le malattie infiammatorie intestinali), in cardiologia (per l’infarto miocardico). In ogni caso, la probabilità clinica modifica anch’essa il valore predittivo del test.

Ritorniamo all’esempio della positività alla PCR-RT per HIV. Ipotizziamo un sottogruppo di popolazione con febbricola da almeno sei settimane, linfoadenopatia periferica e candidosi orale, in cui la prevalenza del virus sia pari a tre volte quella della popolazione generale (9 per 1000).

In questo caso il valore predittivo di una PCR positiva sarà del 75% (9 / 9 + 3), in confronto al 50%

di quello su una persona con probabilità clinica pre-test pari a quella della popolazione generale.

Il trial clinico.

Se nella fase diagnostica la ―evidence based medicine‖ è importante, in fase di scelta terapeutica assume un ruolo essenziale. Non sempre la scelta della terapia è basata su prove di reale efficacia. Il desametasone era regolarmente utilizzato e raccomandato nel coinvolgimento encefalico da malaria per ridurre l’edema cerebrale. La prescrizione di desametasone era motivata in base ad un meccanismo fisiopatologico (è antiedemigeno) ed in base alle indicazioni di medici ―esperti‖ 7-12. Nel 1982 un gruppo di medici (Warrell DA, Looareesuwan S, Warrell MJ, Kasemsarn P, Intaraprasert R, Bunnag D, Harinasuta T) pubblica sul New England Journal of Medicine, una delle più prestigiose riviste di medicina al mondo, un trial clinico randomizzato su 100 pazienti comatosi

TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY

TAGETE 1-2011 Year XVII

(11)

- 11 -

per malaria cerebrale 13. La ―evidence based medicine‖ era ai suoi esordi e questo è stato uno dei primi significativi RCT pubblicati. Questo lavoro mostrava chiaramente come la somministrazione di desametasone aumentava la mortalità, prolungava il coma e raddoppiava le infezioni opportuniste.

Nonostante ciò, una parte della classe medica, contraria a modificare le proprie scelte terapeutiche, ebbe difficoltà ad accettare questi risultati e giunse a mettere in dubbio la validità del trial 14.

La pericolosità del desametasone nella malaria cerebrale fu confermata da successivi studi controllati 15-16 ed il suo uso abbandonato.

Il ―trial clinico‖ è una sperimentazione finalizzata a valutare la reale efficacia di un intervento sanitario su un campione di popolazione in condizioni strettamente controllate. Vengono arruolati, previo consenso, un numero programmato di pazienti ―consecutivi‖ con le caratteristiche epidemiologiche e cliniche previste dal protocollo dello studio. Il gruppo di pazienti arruolati è il campione (―sample‖) oggetto di studio. I pazienti vengono suddivisi in maniera del tutto casuale in almeno due gruppi. Ad un gruppo verrà somministrata la terapia di cui bisogna valutare l’efficacia (braccio d’intervento), all’altro gruppo una terapia di controllo che può essere un’altra terapia o un placebo (braccio di controllo).

L’arruolamento dei pazienti deve essere consecutivo, per evitare una pre-selezione che potrebbe inficiare la validità dei risultati. Nel momento in cui un’istituzione, pubblica o privata, decide di iniziare una sperimentazione clinica controllata, tutti i pazienti che afferiscono alla struttura, e che hanno le caratteristiche previste, devono essere proposti all’arruolamento ed informati verbalmente e per iscritto (mediante una chiara presentazione dello studio) nella maniera più omogenea e standard possibile. Tutti coloro che accettano di partecipare al trial vengono ―randomizzati‖ (ovvero assegnati casualmente) al braccio d’intervento o al braccio di controllo.

La randomizzazione è un momento cruciale per l’affidabilità dei risultati di un trial. Il presupposto è che qualsiasi variabile, nota o ignota, debba essere uniformemente distribuita tra i due gruppi eccetto l’intervento sanitario di cui si vuole valutare l’efficacia. I due gruppi devono differire soltanto per il trattamento somministrato.

La mancanza di consecutività o un difetto di randomizzazione possono determinare una distorsione TAGETE 1-2011

Year XVII

(12)

Evidence Based Medicine: la chiave di volta in responsabilità professionale

- 12 - (―bias‖) dei risultati della sperimentazione.

Al paziente non viene comunicato se è stato arruolato al braccio d’intervento o di controllo, ed anche i medici e gli infermieri che materialmente somministrano la terapia non devono esserne al corrente (studio in ―doppio cieco‖ o ―double-blind‖). La supervisione del trial spetta ad un comitato ristretto che valuta la correttezza dei protocolli e la non violazione degli stessi.

Per motivi etici devono essere effettuate periodiche analisi dei dati e se vi sono differenze statisticamente significative tra i due gruppi la sperimentazione deve essere interrotta e la terapia migliore somministrata a tutti i pazienti.

Outcome (o end-point) reali e surrogati.

Gli outcome, o end-point, sono i risultati, gli esiti, che il trial intende studiare come presunta conseguenza dell’intervento sanitario in valutazione. Se sperimentiamo un farmaco anti-ipertensivo un outcome potrebbe essere una pressione arteriosa media nelle 24 ore  130/90 mmHg. Nella sperimentazione di terapie antivirali per virus epatotropi un outcome può essere la normalizzazione delle transaminasi oppure l’assenza di fibrosi epatica ad una biopsia come indicatore di assenza di evoluzione istologica della malattia.

Alcuni outcome sono prefissati dal protocollo dello studio e rappresentano gli esiti principali che il trial intende studiare, altri outcome possono essere valutati da un’analisi ―a posteriori‖ dei dati.

Gli outcome vengono suddivisi in reali e surrogati, forti e deboli.

Le transaminasi sono un outcome surrogato per l’epatite, perché sono una indicazione indiretta di flogosi epatica senza però costituire dimostrazione oggettiva della presenza di epatite. La biopsia epatica costituisce un outcome reale, perché è capace di dimostrare direttamente le alterazioni istologiche dell’epatite. Un outcome surrogato deve avere un valido fondamento fisiopatologico ed una stretta correlazione con la malattia da studiare.

Il monitoraggio della pressione arteriosa è un outcome debole, la riduzione della mortalità è invece un outcome forte. A volte i risultati di una sperimentazione non mostrano quello che chiunque si aspetterebbe da un intervento sanitario: ―Questo trattamento allunga la vita? Il trattamento riduce realmente la mortalità o le complicanze per questa malattia?‖.

Gli outcome forti sono quelli che dimostrano modificazioni delle curve di sopravvivenza e

TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY

TAGETE 1-2011 Year XVII

(13)

- 13 - dell’incidenza di eventi avversi maggiori.

Nel 1979 Bernard Lown, l’inventore del defribillatore, affermò che la principale causa di morte nel post-infarto erano le aritmie che scatenavano la fibrillazione ventricolare. Suggerì che un trattamento profilattico con farmaci antiaritmici nel post-infarto avrebbe salvato milioni di vite. Nel 1981 fu pubblicato sul ―New England Journal of Medicine‖ uno studio che mostrava come la flecainide, un anestetico locale, utilizzata per via sistemica nel post-infarto, determinava una netta riduzione delle aritmie cardiache 17. Il ragionamento conseguente fu questo: la flecainide riduce le aritmie, le aritmie causano fibrillazione ventricolare e morte, quindi la flecainide riduce la mortalità.

Nel giro di pochi anni la flecainide divenne il trattamento standard per il post-infarto negli Stati Uniti d’America.

Le aritmie erano però un outcome ―surrogato‖, e la presunta conseguente riduzione della mortalità era una deduzione basata su un meccanismo di natura fisiopatologica. L’outcome reale era la mortalità nel post-infarto: la flecainide determinava realmente una riduzione nella mortalità?.

Negli anni a seguire si accumularono prove che la flecainide non era così efficace nel ridurre la mortalità, finché nel 1991 venne pubblicato un ―large‖ trial 18 che dimostrava come la mortalità nei pazienti trattati con flecainide era doppia rispetto al braccio di controllo in cui veniva somministrato un placebo. E’ stato calcolato che dal 1981 almeno 200.000 persone furono trattate con flecainide nel post-infarto. Nonostante la pubblicazione di uno studio che dimostrava che la flecainide aumentava la mortalità, molti medici continuarono comunque ad utilizzarla per ignoranza. I risultati dello studio del 1981 si trovavano infatti su tutti i testi di medicina, mentre lo studio del 1991 era una semplice pubblicazione, seppur su una rivista prestigiosa. Questi motivi indussero il Dott. TJ Moore a pubblicare nel 1995 un invettiva contro i medici che lui definiva ―killer‖. Il titolo dell’articolo era ―medicina mortale‖ 19.

Come si legge un trial ?

Alla fine della durata prevista della sperimentazione avremo i risultati dei due bracci, un gruppo al quale è stato somministrato il trattamento sperimentale e l’altro al quale è stata somministrata la terapia di controllo. Verificheremo gli outcome prefissati e quanti pazienti nei due bracci hanno raggiunto il risultato atteso. Immaginiamo un ipotetico trial con due soli bracci confrontati per un TAGETE 1-2011

Year XVII

(14)

Evidence Based Medicine: la chiave di volta in responsabilità professionale

- 14 -

solo outcome (per esempio il raggiungimento di un compenso metabolico in seguito ad una terapia farmacologica). Possiamo riassumere i risultati in una semplice tabella 2 x 2 (Figura 8). Tra le 100 persone che hanno assunto la terapia da sperimentare 40 hanno avuto un esito positivo (hanno raggiunto un compenso metabolico) e 60 un esito negativo, nel gruppo dei 100 pazienti che hanno assunto la terapia di controllo soltanto 30 hanno avuto un esito positivo e 70 un esito negativo.

Il rapporto tra i pazienti con esito positivo e quelli con esito negativo si chiama ―odds‖.

L’odds nel braccio d’intervento e di 40:60, ovvero 40/60  0,67. L’odds nel braccio di controllo è di 30:70, ovvero 30/70 0,43.

E’ evidente che l’odds dei trattati è più elevato, cioè ci sono stati più outcome positivi nel braccio d’intervento che nel braccio di controllo. Ma di quanto? Per avere un idea immediata di quanto il trattamento sperimentale sia stato più efficace rispetto al trattamento di controllo si divide l’odds dei trattati per l’odds dei controlli: 0,67/0,43 = 1,56. Questo rapporto si chiama ―odds ratio‖.

Odds ratio = odds nel braccio d’intervento / odds nel braccio di controllo.

Può essere agevolmente rappresentato mediante un grafico empirico diviso a metà da una linea verticale che rappresenta l’equivalenza, e nella cui ascissa si riportano gli odds dei trattati da un lato della linea dell’equivalenza e gli odds dei controlli dall’altro lato (Figura 9). Dopo aver calcolato l’odds ratio ed averlo rappresentato sul grafico questo risulterà spostato nella metà grafico relativa al gruppo in cui il trattamento ha avuto più outcome positivi.

Questa rappresentazione grafica ci consente di capire immediatamente se e quanto un trial è risultato favorevole ai trattati o ai controlli.

Il rapporto tra gli outcome positivi ed il numero totale dei trattati (o dei controlli) si chiama

―rischio‖ (―risk‖).

Nell’esempio precedente il ―risk‖ dei trattati è di 40:100, ovvero 40/100 = 0,4 e rappresenta la probabilità che la terapia sperimentale determini un outcome favorevole.

Il ―risk‖ dei controlli è di 30:100, ovvero 30/100 = 0,3 ed è la probabilità che la terapia di controllo determini un outcome favorevole.

Come ogni probabilità il valore del risk è compreso tra 0 ed 1, dove 1 rappresenta una probabilità del 100% di avere un outcome favorevole.

TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY

TAGETE 1-2011 Year XVII

(15)

- 15 -

Il rapporto tra risk dei trattati e risk dei controlli si chiama ―risk ratio‖, o rischio relativo, e può essere rappresentato con un grafico empirico identico a quello dell’odds ratio.

Nel caso in esempio il risk ratio è 0,4 / 0,3  1,33 in favore del braccio d’intervento.

L’odds ratio è capace di evidenziare differenze più piccole tra il braccio d’intervento ed il braccio di controllo rispetto al risk ratio, perché opera una sorta di amplificazione del risultato. Nel caso in esempio, con gli stessi numeri, abbiamo un odds ratio di 1,56 ed un risk ratio di 1,33. Ciò determina anche graficamente una migliore visibilità del risultato. Questo è il motivo per cui l’odds ratio è spesso preferito per la comunicazione dei risultati dei trial.

Significatività statistica ed intervallo di confidenza.

Come abbiamo visto nell’introduzione la ―casualità‖ assume un ruolo fondamentale nella distribuzione degli eventi in un campione di popolazione. Come facciamo allora ad essere relativamente sicuri che il risultato del nostro trial non sia dovuto al caso? La differenza tra i due bracci potrebbe essere il frutto di una distribuzione casuale degli outcome?

Per rispondere a questa domanda dobbiamo ipotizzare che in realtà non vi siano differenze tra i due bracci e che qualsiasi differenza riscontrata sia dovuta al caso. Questa prende il nome di ―ipotesi nulla‖. Per convenzione si ritiene statisticamente significativa la differenza tra intervento e controllo quando la probabilità che l’ipotesi nulla sia vera è inferiore al 5% (ovvero che la probabilità che la differenza sia dovuta al caso è inferiore al 5%).

Questo valore viene indicato con la lettera ―p‖, e, come ogni valore di probabilità, è compreso tra 0 e 1. Una differenza è statisticamente significativa se p  0,05. Più basso è il valore di ―p‖ più attendibile è il risultato, perché minore è la probabilità che esso dipenda dal caso.

La probabilità che l’ipotesi nulla sia vera viene calcolata con test statistici relativamente semplici, come il test del chi-quadrato (2) o il test t di Student.

p = probabilità che l’ipotesi nulla sia vera.

Se noi applicassimo il protocollo del trial all’intera popolazione avremmo un risultato reale, potremmo misurare l’effettiva differenza tra il trattamento sperimentale ed il trattamento di controllo. Poiché in un trial si applica il protocollo ad un ―campione‖ della popolazione, il risultato sarà una ―stima‖ della differenza effettiva. Questa stima non coincide con la differenza effettiva ma TAGETE 1-2011

Year XVII

(16)

Evidence Based Medicine: la chiave di volta in responsabilità professionale

- 16 -

si approssima ad essa. Se ripetessimo più volte lo stesso trial sullo stesso campione otterremmo diverse ―stime‖ che oscillerebbero intorno al valore effettivo. E’ possibile determinare un valore limite inferiore alla nostra stima ed un valore limite superiore alla nostra stima, all’interno dei quali vi è il 95% di probabilità che rientri il valore reale, ovvero la differenza ―effettiva‖ tra il trattamento sperimentale ed il trattamento di controllo nella popolazione di riferimento. Tale ―intervallo‖ si chiama intervallo di confidenza al 95%.

Più piccolo è l’intervallo di confidenza, più attendibile sarà il risultato del trial. Un piccolo intervallo significa avere il 95% di probabilità di essere molto vicini al risultato reale.

Viceversa un ampio intervallo indica una scarsa attendibilità del risultato di ―stima‖ del trial, poiché il risultato ―effettivo‖ potrebbe essere anche molto lontano da quello sperimentale.

Se poi l’intervallo di confidenza oltrepassa il valore di equivalenza tra braccio d’intervento e braccio di controllo, il trial non è attendibile, perché vi è la possibilità che il risultato effettivo possa essere addirittura opposto a quello stimato dal trial.

I limiti e l’intervallo di confidenza vengono rappresentati da un segmento orizzontale sovrapposto al valore di stima risultato dal trial (Figura 10).

I test di significatività statistica e la determinazione dei limiti di confidenza possono essere eseguiti con relativa semplicità, senza utilizzare complessi software di analisi, anche con un semplice foglio di calcolo (Figura 11). Il CDC (Center for Disease Control di Atlanta – USA) ha sviluppato un semplice software, un programma di analisi epidemiologica chiamato ―EpiInfo‖, che include un calcolatore statistico di facilissimo uso anche in ambito clinico. Questa ―utility‖ consente di calcolare rapidamente odds ratio, risk ratio ed intervalli di confidenza al 95% di una tabella 2 x 2 o più ampia (Figura 12).

EpiInfo è disponibile anche in versione italiana ed è liberamente scaricabile ed utilizzabile dal sito originale (www.cdc.gov/epiinfo) o da quello localizzato italiano (www.epiinfo.it), insieme ad altri software di analisi statistica di libero uso (www.epiinfo.it/Software.htm).

Dimensioni del campione (sample size), differenza stimata e significatività statistica.

Ritorniamo al nostro ipotetico trial d’esempio. Come si vede dalle figure 11 e 12 la differenza tra il braccio d’intervento ed il braccio di controllo non raggiunge la significatività statistica (p  0,138).

TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY

TAGETE 1-2011 Year XVII

(17)

- 17 -

Proviamo adesso ad aumentare le dimensioni del campione mantenendo le stesse proporzioni di outcome. Se raddoppiamo il sample size otteniamo un valore p  0,036 statisticamente significativo, con un intervallo di confidenza tra 1,01 e 2,41. Se quadruplichiamo il sample size p  0,003 IC 95%

1,15-2,11. Aumentando le dimensioni del campione aumenta la significatività statistica (diminuisce il valore di p, diminuisce l’intervallo di confidenza).

Adesso manteniamo il sample size originario ed ipotizziamo una diversa distribuzione di outcome:

tra le 100 persone che hanno assunto la terapia da sperimentare 45 hanno avuto un esito positivo e 55 un esito negativo, nel gruppo dei 100 pazienti che hanno assunto la terapia di controllo soltanto 25 hanno avuto un esito positivo e 75 un esito negativo. Così facendo aumentiamo la differenza di outcome positivi tra il braccio d’intervento ed il braccio di controllo: aumentiamo la distanza tra i due bracci a parità di dimensione del campione. In questo caso l’odds ratio diventa 2,45 a favore del braccio d’intervento con un intervallo di confidenza al 95% compreso tra 1,29 e 4,68. Il valore di

―p‖ sarà di solo 0,003. Aumentando la differenza della distribuzione degli outcome positivi tra i due bracci, aumenta la significatività statistica (diminuisce il valore di p e diminuisce l’intervallo di confidenza – Figura 13).

Un campione di dimensioni ampie è garanzia di maggiore attendibilità del trial. Per piccole differenze tra il braccio d’intervento ed il braccio di controllo sono necessari sample size più ampi per raggiungere la significatività statistica. Quando la differenza tra i due bracci aumenta, le dimensioni del campione necessarie per ottenere una buona significatività statistica si riducono.

Tali elementi costituiscono la base per la progettazione dei trial, ma anche importanti strumenti per una valutazione critica degli stessi. Quando si disegna un RCT bisogna prevedere un sample size adeguato, in relazione alla differenza di outcome prevedibile tra trattati e controlli, per ottenere una buona significatività statistica e piccoli intervalli di confidenza. Le dimensioni del campione devono tenere conto del fatto che è sufficiente una piccola variazione della distribuzione degli outcome rispetto a quella prevista per determinare una sensibile modificazione della significatività statistica, come abbiamo visto nell’esempio.

Un campione sottodimensionato può condurre a risultati appena al limite della significatività, con intervalli di confidenza troppo ampi per garantire una buona attendibilità (cfr. anche Appendice:

TAGETE 1-2011 Year XVII

(18)

Evidence Based Medicine: la chiave di volta in responsabilità professionale

- 18 -

―Cenni di statistica descrittiva ed inferenziale‖).

Altri descrittori nella comunicazione dei risultati dei trial.

Odds ratio e risk ratio sono due validi strumenti di misurazione delle differenze ottenute tra i bracci di un trial. Non sempre però danno un’idea immediata della efficacia clinica di un trattamento o del rischio di effetti collaterali ed eventi avversi a cui i pazienti sono esposti, specialmente ai meno esperti in EBM.

Un comodo descrittore dei risultati dei trial è il NNT (Number Needed to Treat), ovvero il numero di persone che bisogna trattare per avere un outcome positivo in più rispetto al braccio di controllo.

Si calcola come reciproco della riduzione assoluta del rischio. La riduzione assoluta del rischio (Absolute Risk Reduction: ARR) è la differenza tra il rischio dei trattati ed il rischio dei controlli.

NNT = 1/ARR

Nel nostro immaginario trial d’esempio il rischio dei trattati è 0,4 ed il rischio dei controlli 0,3. La riduzione assoluta del rischio quindi sarà pari a 0,4-0,3 = 0,1.

Il number needed to treat sarà quindi 1/0,1 = 10. Dovremo trattare 10 persone per avere un outcome positivo in più rispetto al braccio di controllo. E’ più facile la comprensione dell’idea di ―quante persone bisogna trattare per avere un outcome favorevole‖ piuttosto che un semplice odds ratio.

Una variante del number needed to treat è il ―number needed to harm‖ (NNH), il numero di persone che bisogna trattare per subire un effetto collaterale avverso in più rispetto al braccio di controllo (o il numero di persone che bisogna esporre ad un rischio per avere un effetto collaterale avverso in più rispetto al braccio di controllo).

Il NNH è il reciproco dell’aumento assoluto del rischio. L’aumento assoluto del rischio è sempre la differenza tra il rischio dei trattati ed il rischio dei controlli, indica però in questo caso l’incremento di un evento avverso o di un effetto collaterale.

Per esempio, l’incremento assoluto annuale del rischio di sanguinamento maggiore in pazienti che assumono basse dosi di aspirina come profilassi cardiovascolare è di 0,0013 in confronto al placebo

20. Il numero di pazienti da trattare per avere un episodio di sanguinamento maggiore in più rispetto al braccio di controllo (NNH) è quindi pari a 1/0,0013 = 769. Cioè, in una popolazione in trattamento profilattico con aspirina a basse dosi, omogenea a quella studiata nella revisione

TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY

TAGETE 1-2011 Year XVII

(19)

- 19 -

sistematica citata, si stima un episodio di sanguinamento maggiore ogni 769 persone trattate per anno (ovviamente sempre in più rispetto ad una popolazione di controllo che non assume aspirina).

Un altro indicatore frequentemente usato è la Riduzione Relativa del Rischio, che esprime la riduzione percentuale del rischio rispetto al braccio di controllo. E’ il rapporto tra la riduzione assoluta del rischio ed il rischio del braccio di controllo.

RRR (Relative Risk Reduction) = ARR / Control Risk x 100

Il rischio di sanguinamento digestivo in pazienti critici in ventilazione meccanica assistita è di 0,038 (3,8%) se assumono sucralfato e di 0,017 (1,7%) se assumono ranitidina 21. Ciò significa che la ranitidina determina una riduzione del 55% del rischio relativo di sanguinamento in questi pazienti (RRR = 0,038-0,017 / 0,038 x 100). Lo svantaggio di questo indicatore è che non fornisce informazioni sulle grandezze reali degli eventi. Il 55% di un evento raro non è la stessa cosa del 55% di un evento frequente.

Metanalisi.

La metanalisi è una sintesi ―quantitativa‖ di studi primari sull’efficacia di un intervento sanitario.

Utilizza tecniche statistiche per integrare e combinare i risultati di due o più studi eseguiti per valutare l’efficacia di un trattamento.

Nel caso di metanalisi di randomized controlled trial l’obiettivo è quello di avere un sample size più ampio con conseguente maggiore potenza statistica, di aumentare la precisione della stima riducendo l’errore dovuto al caso, e di cercare di compensare gli errori sistematici dei singoli trial.

L’uso di strumenti metanalitici consente di pervenire ad una significatività statistica più elevata e di ridurre l’ampiezza dell’intervallo di confidenza. Come abbiamo visto il risultato di un singolo trial è una ―stima‖ (―stima puntuale‖ è il termine statisticamente corretto) della distribuzione degli outcome in una popolazione di riferimento. La metanalisi di più trial sul medesimo trattamento consente di ottenere una ―stima‖ più precisa della distribuzione degli eventi, più vicina al risultato effettivo nella popolazione di riferimento (o meglio più vicina alla distribuzione reale degli eventi in una popolazione omogenea al campione esaminato nei trial).

I risultati delle metanalisi vengono rappresentati su un grafico simile a quello che si usa per rappresentare i risultati dei trial. In questo grafico si visualizzano i risultati dei singoli trial TAGETE 1-2011

Year XVII

(20)

Evidence Based Medicine: la chiave di volta in responsabilità professionale

- 20 -

sottoposti a metanalisi più la rappresentazione grafica della ―stima complessiva‖ mediante un rombo la cui larghezza è proporzionale all’intervallo di confidenza dei dati aggregati. Questa rappresentazione prende il nome di ―forest plot‖ (Figura 14).

I risultati possono essere espressi in ―pooled odds ratio‖ (POR, o odds ratio aggregato), ―pooled risk ratio‖ (PRR, o risk ratio aggregato) ed in qualsiasi altro indicatore aggregato. Ogni indicazione aggregata viene riportata con il proprio intervallo di confidenza ed il proprio valore di ―p‖.

E’ importante, accanto la parte grafica, indicare testualmente ogni singolo trial di riferimento con il proprio numero di eventi e l’ampiezza del braccio, sia d’intervento che di controllo. E’ importante anche riportare i valori di p e gli intervalli di confidenza per ogni trial incluso.

Le metanalisi vengono utilizzate sia per stimare l’efficacia di un trattamento che per valutarne gli effetti collaterali.

Il forest plot nella figura 14 riporta i risultati di una metanalisi di dieci trial di confronto tra monoterapia con interferone alfa e terapia combinata con interferone più ribavirina nel trattamento dell’epatite cronica C 22. Il risultato aggregato mostra come la terapia combinata riduca la morbidità epatica e la mortalità complessiva in confronto alla monoterapia (OR 0.46; IC 95% 0.22-0.96).

Il forest plot in figura 15 mostra il rischio relativo ―aggregato‖ (o combinato) di infarto miocardico, proveniente dalla metanalisi di sedici trial su pazienti che avevano assunto Rofecoxib (Vioxx) per un periodo variabile dalle 6 alle 56 settimane 23. Dal grafico si evince come i pazienti del braccio in trattatamento con Vioxx abbiano un rischio di infarto miocardico 2,24 volte più elevato di quelli del braccio di controllo.

I risultati di una metanalisi possono essere espressi anche in maniera ―cumulativa‖ piuttosto che con il metodo del forest plot ―standard‖. Esprimere i dati in maniera cumulativa vuol dire aggregare i risultati dei singoli trial uno dopo l’altro, in modo cronologicamente progressivo, così da mostrare la tendenza della ―stima complessiva‖ negli anni. In questo modo ogni singolo punto di stima indicato nel forest plot indica i valori aggregati dei trial precedenti.

E’ così possibile avere un’idea visiva immediata della progressiva riduzione dell’intervallo di confidenza proporzionalmente all’incremento del numero di trial inclusi.

Il precedente studio è stato pubblicato anche come metanalisi cumulativa (Figura 16). Dal grafico si

TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY

TAGETE 1-2011 Year XVII

(21)

- 21 -

evince come già nel 2000 si fossero accumulate chiare evidenze (p = 0,010) della pericolosità del Vioxx. Il Rofecoxib è stato ritirato dal commercio soltanto nel 2004. Gli autori concludono il loro lavoro affermando: “Our findings indicate that rofecoxib should have been withdrawn several years earlier” (I nostri risultati indicano che il rofecoxib avrebbe dovuto essere ritirato parecchi anni prima).

Come è possibile vedere in entrambi i ―forest plot‖ non tutti i trial inclusi nelle metanalisi pervengono a risultati simili. Alcuni ottengono ―stime‖ relativamente distanti dagli altri, e tutti i trial presentano intervalli di confidenza diversi.

L’aggregazione dei risultati dei trial viene effettuata con metodi statistici che prevedono una influenza ―pesata‖ dei singoli trial sulla stima complessiva. Esistono fondamentalmente due modelli statistici per eseguire una stima complessiva dei risultati dei singoli trial in una metanalisi: un modello ad effetti fissi (fixed effect model) ed un modello ad effetti casuali (random effect model)

24.

Il modello ad effetti fissi presuppone che i campioni dei trial inclusi siano parte della stessa popolazione di riferimento. Detto in altri termini presuppone che vi sia un comune effetto del trattamento sperimentale in tutti i trial e che le differenze osservate tra questi (differenze inter-trial) siano dovute solamente al caso: sono tutte ―stime‖ che oscillano intorno al medesimo valore reale.

Il modello ad effetti casuali ipotizza invece che le differenze tra le singole ―stime‖ dei trial non siano dovute solo al caso, ma che ci siano reali differenze nell’efficacia del trattamento sperimentale tra i trial presi in considerazione. Questo perché i campioni dei trial sono rappresentativi di popolazioni diverse e quindi le ―stime‖ effettuate su di essi si riferiscono a diversi valori reali 25-26.

Facciamo un esempio pratico. Ipotizziamo un trattamento che ha diversa efficacia tra uomini e donne: nelle donne funziona bene, negli uomini funziona poco. In un trial con un campione prevalentemente femminile il risultato potrebbe essere favorevole al braccio d’intervento, in un altro con un campione prevalentemente maschile il risultato potrebbe non raggiungere la significatività statistica o addirittura essere favorevole al braccio di controllo. Questo perché le popolazioni di riferimento dei due trial sono diverse. Se dovessimo metanalizzare trial del genere

TAGETE 1-2011 Year XVII

(22)

Evidence Based Medicine: la chiave di volta in responsabilità professionale

- 22 - dovremmo usare un modello di analisi ad effetti random.

Se invece assumiamo che la popolazione di riferimento dei singoli trial sia la stessa, e quindi che le differenze osservate tra i vari trial siano dovute solo al caso, useremo il modello ad effetti fissi.

Tutte le differenze tra i risultati di trial su un medesimo trattamento non dovute al caso prendono il nome di eterogeneità (o inconsistenza).

L’eterogeneità è un concetto statistico, che però riflette una reale eterogeneità epidemiologica, clinica o di protocollo, tra i vari trial. Il modello ad effetti fissi pesa ogni trial soltanto in funzione della significatività statistica e dell’intervallo di confidenza (ogni studio viene ponderato in funzione dell’inverso della varianza): minore è il valore di p e più piccolo è l’intervallo di confidenza, maggiore sarà il peso attribuito al singolo trial nella stima complessiva.

Il modello ad effetti casuali introduce una costante che rappresenta una stima dell’eterogeneità (pondera i singoli studi in funzione dell’inverso della varianza più una costante che rappresenta una stima della variabilità tra gli effetti in popolazione).

Da un punto di vista pratico un analisi condotta con il modello ad effetti casuali produce un intervallo di confidenza più ampio in presenza di eterogeneità. L’analisi degli stessi dati può condurre ad un risultato statisticamente non significativo con il modello ad effetti casuali, può invece produrre una significatività statistica se condotta con il modello ad effetti fissi.

In assenza di eterogeneità il modello ad effetti casuali è equivalente al modello ad effetti fissi.

I più comuni metodi di analisi che utilizzano il modello ad effetti fissi sono il Mantel-Haentzel, il Peto, e il metodo Woolf (o reciproco della varianza); quelli che utilizzano il modello ad effetti casuali sono il ―Der Simonian e Laird‖ e il metodo RML. I metodi Bayesiani utilizzano sia il modello ad effetti fissi che quello ad effetti casuali 27-28.

L’eterogeneità tra trial può essere calcolata dividendo il valore del chi-quadrato degli studi per N -1, dove N è il numero degli studi inclusi nella metanalisi, o con il test di eterogeneità Cochran’s Q. Se il risultato di questi test è > 1 è presente eterogeneità tra i trial.

Questa stima dell’eterogeneità non ci dice però quanto i trial siano eterogenei tra loro. Ci dice solo che esiste eterogeneità.

Un indice quantitativo dell’eterogeneità è l’indice di eterogeneità di Higgins I2. L’indice di Higgins

TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY

TAGETE 1-2011 Year XVII

(23)

- 23 -

misura la proporzione di inconsistenze tra gli studi che non può essere spiegata dall’errore di campionamento. In altri termini misura le differenze tra trial non dovute al caso. I2 è una percentuale compresa tra 0 e 100%. Viene considerato significativo un valore di I2 > 30% 29-31. In presenza di eterogeneità tra i trial da metanalizzare bisogna sempre ricercarne la causa, prima di effettuare qualsiasi tentativo di aggregazione dei dati. Sarebbe infatti errato applicare un modello di analisi ad effetti fissi che potrebbe indurre a ritenere un trattamento efficace su tutto il campione aggregato, quando magari lo è solo su una parte; ma sarebbe anche superficiale applicare

―acriticamente‖ un modello ad effetti casuali, che potrebbe produrre una mancanza di significatività, ovvero ci indurrebbe a ritenere il trattamento inefficace su tutto il campione aggregato, quando invece potrebbe esserlo su una parte di esso (per esempio la popolazione femminile nell’esempio precedente).

La ricerca delle cause di eterogeneità può essere condotta con metodiche di meta-regressione. Una volta individuate, il metodo più corretto è quello di aggregare soltanto i trial che presentano un basso indice di eterogeneità, o di riuscire ad estrarre ed aggregare i dati di sottogruppi omogenei o a bassa eterogeneità. Cercare di metanalizzare trial molto eterogenei tra di loro è un errore formale e sostanziale.

Queste nozioni su metodi di analisi ed eterogeneità ci servono per comprendere bene come gli autori esprimono e comunicano i risultati delle metanalisi.

E’ infatti importante che tutti i dati relativi alla metanalisi (sia i dati dei singoli trial inclusi che gli strumenti metanalitici utilizzati) vengano dettagliatamente pubblicati ed adeguatamente sintetizzati nel forest plot che comunica i risultati dello studio.

Un buon forest plot è quello in figura 17, che rappresenta una piccola metanalisi sul contagio influenzale in presenza o in assenza di trattamento antivirale profilattico. A partire da sinistra descrive: i singoli studi, il numero di eventi sia nel braccio d’intervento che nel braccio di controllo, la rappresentazione grafica, il peso di ogni singolo trial sulla stima complessiva, la riduzione del rischio ed il modello utilizzato per calcolarlo. Inoltre indica anche i test di eterogeneità eseguiti e l’eterogeneità risultata.

TAGETE 1-2011 Year XVII

(24)

Evidence Based Medicine: la chiave di volta in responsabilità professionale

- 24 - Errori dovuti al caso e distorsioni sistematiche.

In un famoso esperimento 32 sono stati creati a tavolino 44 trial immaginari in ciascuno dei quali il braccio di intervento e il braccio di controllo sono stati confrontati per l’incidenza dell’outcome

―ictus fatale‖. Per ogni paziente fittizio il numero 6 ottenuto attraverso il lancio di un dado rappresentava un evento fatale, qualsiasi altro numero rappresentava l’assenza di eventi fatali.

Pertanto ciascun ―paziente‖ aveva la stessa identica probabilità di decesso per ictus. I ―trial‖ erano caratterizzati da diversi ―sample size‖ (ossia da diverso numero di lanci del dado: da un minimo di 10 a un massimo di 200). Il risultato reale consisteva, ovviamente, nell’assenza di differenze tra un braccio e l’altro (in entrambi i bracci la probabilità reale dell’evento è identica e corrisponde a 0,17:

l’ipotesi nulla è ―per definizione‖ vera). Esprimendo il confronto tra i due bracci nel formato di Rischio Relativo il valore reale corrisponde a RR = 1 in quanto 0.17/0.17 = 1.

Come si ci poteva aspettare, le stime puntuali offerte dai risultati di ciascun trial oscillavano per puro effetto del caso intorno al valore ―uno‖ con una variabilità inversamente legata alla dimensione del campione. Due di questi trial, entrambi caratterizzati da modeste dimensioni campionarie (rispettivamente 20 e 40 ―pazienti‖) avevano prodotto risultati (falsamente) statisticamente significativi a favore del braccio di intervento. Il più piccolo aveva addirittura prodotto l’assenza di eventi fatali nel gruppo di intervento, suggerendo quindi una protezione ―totale‖ nei confronti dell’ictus fatale. Gli autori hanno anche condotto, in base a dati reali, un’abile simulazione di ―trial‖

pubblicati e non pubblicati, ed una simulazione di ―trial‖ eseguiti da medici ―esperti‖ nella somministrazione del trattamento e medici in fase di apprendimento. La metanalisi di un sottogruppo di trial (selezionando soltanto ―lavori pubblicati‖, ―trial‖ eseguiti da medici esperti, ed escludendo il ―sottogruppo‖ col peggior risultato) conduceva ad un risultato in favore del braccio di intervento statisticamente significativo. Gli autori titolavano ironicamente la pubblicazione ―The miracle of DICE therapy for acute stroke: fact or fictional product of subgroup analysis?‖ (Il miracolo della terapia dei DADI per l’ictus: un fatto o una finzione prodotta dall’analisi di un sottogruppo?), dove DICE è anche l’acronimo di ―Don’t Ignore Chance Effects‖ (non ignorare gli effetti del caso).

Lo scopo degli autori era di dimostrare come i risultati emersi da trial con piccoli campioni fossero TAGETE 1-2011

Year XVII

(25)

- 25 -

scarsamente attendibili, e che metanalisi condotte superficialmente, a partire da piccoli trial o sottogruppi con numerosità campionaria insufficiente, o da una selezione di lavori da includere operata in base ad una ―qualità‖ presunta, può condurre a risultati fuorvianti (in questo caso grotteschi). Il miglior modo di condurre una metanalisi è quello di includere tutti i randomized controlled trial in doppio cieco sull’argomento che si vuole studiare. Anche quelli mai pubblicati.

Questo esperimento induce a considerare quali possono essere gli errori e le distorsioni nella progettazione e nell’esecuzione di trial e metanalisi.

Esistono errori dovuti al caso (errori di campionamento) ed errori sistematici (distorsioni, o ―bias‖) dovuti ad errori di protocollo.

Abbiamo ampiamente constatato come la stima della distribuzione degli eventi in una popolazione mediante lo studio di un campione di questa, sia influenzata in modo determinante dal caso, seppur in maniera inversamente proporzionale alla numerosità del campione (cfr. anche Appendice: ―Cenni di statistica descrittiva ed inferenziale‖).

Nella valutazione inferenziale di una stima, la probabilità di rifiutare l’ipotesi nulla quando questa è vera prende il nome di errore ―alfa‖ () o errore di I tipo.

La probabilità di accettare l’ipotesi nulla quando questa è falsa prende il nome di errore ―beta‖ () o errore di II tipo.

In pratica l’errore di I tipo è il rischio di considerare valido il risultato di un trial quando questo in realtà è dovuto al caso (falso positivo); l’errore di II tipo è il rischio di rifiutare il risultato di un trial ritenendolo dovuto al caso quando questo in realtà esprime un risultato vero (falso negativo).

Per convenzione, nella progettazione dei trial, l’errore  viene fissato al 5% e l’errore  al 20%.

L’errore  corrisponde al valore massimo di ―p‖ accettabile per considerare un risultato statisticamente significativo (p ≤ 0,05). Ciò significa accettare un rischio pari ad 1/20 di ottenere un risultato per pura casualità e non perché reale (1 trial su 20 potrebbe rilevare differenze tra i bracci in realtà inesistenti).

Il complementare all’errore  (1–) prende il nome di ―potenza del trial‖ o ―potenza del campione‖, che quindi per convenzione è pari al 80% ( = 20%; 1– = 80%).

Quando si progetta un trial la numerosità campionaria viene calcolata in funzione dell’errore  TAGETE 1-2011

Year XVII

(26)

Evidence Based Medicine: la chiave di volta in responsabilità professionale

- 26 -

(5%), della potenza del trial (80%), e della differenza ipotizzata tra i bracci del trial. Questa differenza è un incognita che deve essere valutata con attenzione. La significatività statistica del risultato di un trial è infatti direttamente proporzionale alla numerosità campionaria ed alla

―differenza‖ rilevata tra i due bracci. Quest’ultima influenza maggiormente il raggiungimento della significatività: bastano piccole variazioni della differenza tra il braccio di intervento e di controllo, a parità di sample size, per rendere significativo oppure no un risultato.

Nell’esperimento DICE un piccolo trial con sample size pari a 20 è risultato statisticamente significativo perché casualmente nel braccio di intervento non è mai uscito il numero 6 (ovvero non ci sono state morti fittizie per ictus).

Bisogna sempre diffidare di risultati ottenuti con piccoli campioni e grandi differenze tra i bracci di un trial.

I principali errori di campionamento in un trial sono determinati da insufficiente numerosità campionaria. Una stima ottenuta da un campione di piccole dimensioni determina intervalli di confidenza più ampi, che seppur statisticamente significativi (non comprendono il valore ―1‖, l’equivalenza) indicano una stima poco precisa.

Inoltre un ridotto sample size può determinare, sempre per effetto del caso, una distribuzione delle caratteristiche basali (età, sesso, stadio della malattia, etc.) asimmetrica tra i bracci, col conseguente rischio di rilevare ―differenze‖ tra il braccio d’intervento ed il braccio di controllo in realtà inesistenti o riferibili a sottogruppi (ricordiamo l’esempio del farmaco più efficace sulle donne rispetto agli uomini).

Un’altra causa di asimmetria tra i bracci di un trial sono gli errori commessi in fase di arruolamento e randomizzazione dei pazienti. Un deficit di consecutività ed una ―insufficiente casualità‖

nell’allocazione dei pazienti arruolati al braccio di intervento o di controllo può determinare una deviazione sistematica dei risultati osservati rispetto al risultato ―vero‖.

Le deviazioni sistematiche prendono il nome di ―distorsioni‖ o ―bias‖ e non sono dovute al caso ma ad errori di protocollo nell’implementazione di un trial. Se, per esempio, nel braccio di controllo ci sono pazienti in una fase di malattia lievemente peggiore rispetto al braccio di intervento (o sono maggiormente rappresentate categorie meno responsive alla terapia), si rischia di ottenere un

TAGETE - ARCHIVES OF LEGAL MEDICINE AND DENTISTRY

TAGETE 1-2011 Year XVII

Riferimenti

Documenti correlati

Nell'ambito di un’indagine sui consumi delle famiglie italiane è stato osservato un campione di n = 320 unità. È risultato che le famiglie intervistate spendono mediamente 62 euro

Nell'ambito di un’indagine sui consumi delle famiglie italiane è stato osservato un campione di n = 320 unità. È risultato che le famiglie intervistate spendono mediamente 62 euro

In teoria si possono costruire infiniti intervalli di confidenza per un prefissato livello di probabilità 1  , a seconda di come si distribuisce la probabilità residua 

Su un campione casuale di 10 elementi estratto da una popolazione normale si è ottenuta una media pari a 15 ed una varianza campionaria corretta pari a 3.5.. Su un campione di

Siccome la dimensione del campione `e molto grande, `e lecito utilizzare il TLC per calcolare la regione di accettazione del test anche se X non `e detto che sia

Una ditta che produce cartucce ad inchiostro per stampanti vuole stimare la vita media (cio` e il numero medio di fogli dopo i quali le cartucce si esauriscono). Supponendo che

Supponendo che la popolazione delle cartucce abbia una vita con distribuzione normale e deviazione standard σ = 16.67 determinare un intervallo di confidenza al 95 per cento per

L’articolo si conclude con una citazione da Peabody degli anni 20: “La buona medicina non consiste nell’indiscriminata es- ecuzione degli esami di laboratorio, ma piuttosto in