Corso di Alta Formazione
«Case management in Infermieristica ed Ostetricia»
Il concetto di significatività statistica:
p value e intervalli di confidenza.
Criteri di causalità.
23 gennaio 2018 (3° parte)
Lezioni a cura di Laura Dallolio
(laura.dallolio@unibo.it) 1
2
Per RICAPITOLARE
Come fanno gli epidemiologi a districarsi all’interno di queste reti causali e capire se tra un’esposizione ed
un esito c’è effettivamente una relazione causa- effetto?
Primo step: dimostrare che esiste un’associazione statistica tra esposizione ed esito
Secondo step: l’associazione stimata potrebbe essere confusa?
3
In questo campione si’,
ma i ricercatori sono interessati a trovare un risultato che sia valido per la tutta popolazione
da cui il campione è stato estratto
La carne rossa è davvero un fattore di rischio
per il tumore al seno?
4
Il dilemma è che il RR ottenuto in questo campione sarà sempre diverso dal valore vero che si sarebbe ottenuto analizzando tutte le donne del mondo, semplicemente per il ruolo giocato dal caso.
I due gruppi di donne hanno veramente un rischio diverso di sviluppare il tumore oppure
questo risultato è
semplicemente il risultato del campionamento?
5
Avrei potuto ottenere questi stessi risultati del tutto casualmente?
L’attività fisica ed il tumore al seno sono associati in modo statisticamente significativo?
ASSOCIAZIONE STATISTICA due eventi si dicono associati in modo
statisticamente significativo quando si verificano insieme più frequentemente di quanto ci si possa
attendere per effetto del caso.
6
La valutazione del ruolo del caso puo’ essere effettuta tramite
l’utilizzo di test di ipotesi
o test di significatività statistica e/o
la costruzione degli
intervalli di confidenza
L’IC si fonda sull’idea che lo stesso studio, condotto su differenti campioni di pazienti, non porterebbe a
risultati identici, ma questi sarebbero distribuiti attorno al risultato vero che resta sconosciuto.
E’ pero’ possibile sapere il range di valori entro il quale, con una probabilità ad esempio del 95%, cade
il valore vero della popolazione
INTERVALLO DI CONFIDENZA al 95%
8
A causa della variabilità campionaria, le stime ottenute dai diversi campioni non saranno uguali, ma il 95% di essere
sarà contenuto all’interno di un range di valori che prende il nome di intervallo di confidenza (IC)
Per valutare la precisione della stima ipotizziamo di estrarre moltissimi campioni, di numerosità identica, dalla stessa
popolazione.
9
A causa della variabilità campionaria, le stime ottenute dai diversi campioni non saranno uguali, ma il 95% di essere
sarà contenuto all’interno di un range di valori che prende il nome di intervallo di confidenza (IC)
Per valutare la precisione della stima ipotizziamo di estrarre moltissimi campioni, di numerosità identica, dalla stessa
popolazione.
10
RR 0,62
calcolato nel campione in studio
(stima puntuale)
0,78 limite superiore dell’intervallo 0,49 →
limite inferiore
Intervallo di confidenza
11
L’intervallo di confidenza al 95% (indicato anche con la sigla IC) è il range di valori all’interno dei quali, con una fiducia del 95%, posso dire che cade il valore vero del RR.
Valutazione del ruolo del caso con l’intervallo di confidenza
RISCHIO RELATIVO= 3 (IC 95% 1,5-6,1)
Interpretazione dell’intervallo di confidenza al 95%
Per avere un’associazione significativa tra rischio e malattia
l’intervallo di confidenza al 95%
non dovrebbe includere il valore 1
12
13
L’IC al 95% di un qualsiasi parametro (media, rischio relativo ecc) viene calcolato con una formula
che in generale ha sempre questo aspetto:
Formula generale di un Intervallo di Confidenza=
d ± 1,96 × Errore standard ←stima dell’errore campionario
Distribuzione normale
Parametro di interesse:
RR, media ecc
Se in un articolo scientifico trovi riportata la dizione
“RR=1,5 [IC95% 1,38-2,1]”
come si interpreta?
1) Cosa ci dice un RR di 1,5?
Esiste un’associazione positiva tra l’esposizione e l’esito.
Il rischio relativo (RR) ci permette di quantificare questa
associazione e possiamo affermare che gli esposti hanno un rischio di ammalare che è 1,5 volte maggiore di quello dei non esposti.
Lo stesso risultato può essere espresso in termini di eccesso di rischio, possiamo quindi dire (ed è la stessa cosa rispetto all’affermazione di prima) che gli esposti hanno un rischio di ammalarsi del 50% in più rispetto ai non esposti, ovvero
facciamo 1,5 -1=0,5 (dove 1 corrisponde a nessuna
associazione tra esposizione e malattia) 0,5 lo esprimiamo poi in percentuale (50%).
16
2) Il risultato è statisticamente significativo?
1,38 → limite inferiore
RR 1,5
calcolato nel campione in studio
(stima puntuale)
← 2,1 limite
superiore L’intervallo di confidenza, dal momento che non
comprende il valore 1, ci dice che il risultato è statisticamente
significativo.
Se in un articolo scientifico si trova riportata la dizione “RR=0,7 [IC95% 0,6-1,4]”
come si interpreta?
2)Cosa ci dice un RR di 0,7?
Il rischio relativo (RR) ci permette di quantificare questa
associazione e possiamo affermare che gli esposti hanno un rischio di ammalare che è 0,7 volte inferiore di quello dei non esposti.
Lo stesso risultato può essere espresso dicendo che gli esposti hanno un rischio di ammalarsi del 30% meno rispetto ai non esposti, ovvero facciamo 0,7 -1= -0,30 (dove 1 corrisponde a nessuna associazione tra esposizione e malattia) e 1 lo
esprimiamo poi in percentuale (-30%).
18
RR 0,7
calcolato nel campione in studio
(stima puntuale)
1,4 limite superiore dell’intervallo 0,6 →
limite inferiore
Intervallo di confidenza
L’intervallo di confidenza, dal momento che comprende il valore 1, ci dice che il risultato non è statisticamente
significativo.
Il risultato è statisticamente significativo?
19
Valutazione del ruolo del caso tramite il calcolo del p value
20
RISCHIO RELATIVO= 3 (p value=0,50)
La probabilità di trovare per caso questo
RR è del 50%
RISCHIO RELATIVO= 3 (p value=0,15)
RISCHIO RELATIVO= 3 (p value=0,01)
La probabilità di trovare per caso questo
RR è del 15%
La probabilità di trovare per caso questo
RR è dell’1%
21
Per convenzione, nella ricerca bio-medica, se il
valore di p è inferiore a 0,05 (cioè se non c’è più del 5% di probabilità che la diversità osservata sia
dovuta al caso) tale differenza viene considerata statisticamente significativa.
Perché p<0,05 vuol dire significatività statistica?
Fischer: “se la probabilità di un evento fosse sufficientemente piccola,
diciamo che possa capitare una volta su 20, allora si dovrebbe dire
considerare il risultato significativo”.
Ipse dixit: e cosi’ è rimasto
22
La valutazione del ruolo del caso puo’ essere effettuta tramite
l’utilizzo di test di ipotesi
(o test di significatività statistica) → il risultato è statisticamente significativo
quando p è inferiore a 0,05 e/o
la costruzione degli intervalli di confidenza→
il risultato è statisticamente significativo quando l’intervallo di confidenza del RR
non comprende il valore 1
23
Test statistico di significatività Il test statistico permette di
stimare la probabilita’di ottenere il risultato osservato per il solo
effetto del caso
25
Errori sistematici o BIAS
Si parla di errore sistematico, o bias ,
quando si produce un risultato che differisce
in maniera sistematica dai veri valori.
26
Bias di selezione
• Il bias di selezione è un errore sistematico in uno studio, che deriva dalle procedure usate per selezionare i
soggetti e dai fattori che influenzano la partecipazione allo studio.
• Si verifica quando il campione selezionato per lo studio differisce in modo sostanziale dalla popolazione di
riferimento, e ciò altera in modo sistematico i risultati dello studio.
27
Bias di informazione
• Errori nel processo di acquisizione delle informazioni, da cui dipende una diversa accuratezza nel rilavare lo status di
esposizione e/o di malattia nei gruppi a confronto.
• Si riferisce alla fase di raccolta delle informazioni relative ai partecipanti:
– Informazioni sull’esposizione – Informazioni sull’esito
– Informazioni su altre variabili di interesse
28
29
1. Relazione temporale: la causa precede l’effetto?
•La relazione temporale è un criterio cruciale
La causa deve precedere l’effetto, il tempo passato dall’inizio dell’esposizione deve essere compatibile con i meccanismi biologici noti, cioè con un’ipotesi sul periodo d’induzione della malattia.
CRITERI DI CAUSALITA’
o di Bradford Hill
Per quanto riguarda le malattie croniche, l’inizio dell’effetto non è facilmente evidenziabile: quando ha inizio
l’aterosclerosi? Quando si verifica la prima trasformazione neoplastica della prima cellula bronchiale?
30
2. Plausibilità biologica: l’associazione è coerente con altre conoscenze?
•Un’associazione epidemiologica dovrà avere una spiegazione biologica
Concetto relativo, perché:
•associazioni apparentemente non plausibili possono alla fine dimostrarsi causali (la mancanza di plausibilità può riflettere la mancanza di conoscenze mediche)
•esperimenti su animali che indicano un’associazione non si verificano in studi epidemiologici su esseri umani a causa di potenziali fattori confondenti e di difficoltà di misurazione
31
32
3. Coerenza: simili risultati si sono visti in altri studi?
•Viene dimostrata quando diversi studi offrono gli stessi risultati
•Non cruciale: la mancanza di coerenza non esclude un’associazione causale
33
•Quando occorre interpretare i risultati di un certo numero di studi occorre dare maggior importanza ai disegni di
studio progettati meglio
•Metanalisi: tecniche che accorpano i risultati di un certo numero di studi che abbiano preso in esame lo stesso
problema
La metanalisi è la combinazione statistica dei dati provenienti da studi indipendenti intrapresi per produrre una stima complessiva dell’effetto in un
intervento/esposizione.
34
In quali condizioni è possibile effettuare una meta-analisi?
– Quando più di uno studio misura il medesimo effetto;
– Quando la eterogeneità fra gli studi non è così marcata da compromettere la comparabilità;
– Quando sono disponibili i dati
La Sintesi dei Risultati
38
4. Forza dell’associazione:
qual è la forza dell’associazione?
•è stimata per mezzo del rischio relativo
•una forte associazione tra causa ed effetto è più probabile che sia causale (RR> 2 sono considerati forti)
•Non cruciale: il fatto che un’associazione sia debole non esclude che possa essere causale, la forza dell’associazione dipende infatti dalla prevalenza relativa di altre possibili cause.
39
5. Relazione dose-risposta:
l’aumento dell’esposizione alla possibile causa è associato all’aumento dell’effetto?
•Si ha quando cambiamenti nel livello di una possibile causa sono associati a cambiamenti nella prevalenza o incidenza dell’effetto.
•La dimostrazione di un chiaro rapporto dose-risposta in studi privi di bias offre una forte evidenza di rapporto causale
40
41
6. Reversibilità: il rimuovere una possibile causa porta alla riduzione del rischio?
•Quando la rimozione di una possibile causa ottiene come risultato una riduzione del rischio di malattia, la
probabilità che l’associazione sia causale viene rafforzata.
•Se la causa porta a cambiamenti irreversibili che
successivamente generano malattia, sia in presenza sia in assenza di esposizione continuativa, allora la reversibilità non può essere tenuta in considerazione come una
condizione per la causalità.
42
7. Disegno dello studio: l’evidenza è basata su un valido disegno dello studio?
•La capacità di un disegno di studio di provare la causalità rappresenta una delle considerazioni più importanti
•la migliore evidenza viene offerta dai trial randomizzati controllati ben disegnati e condotti da esperti.
Dopo i trial gli studi di coorte rappresentano il miglior tipo di disegno.
43
8. Giudicare l’evidenza:
quante linee di evidenza portano alla conclusione?
Purtroppo non esistono criteri del tutto affidabili per determinare se un’associazione è causale o no.
L’incertezza rimane sempre.
Nel giudicare i diversi aspetti della causalità, la corretta relazione temporale è essenziale; una volta stabilita, il peso maggiore può essere dato alla plausibilità, alla coerenza e alla relazione dose-risposta.
La probabilità di un’associazione causale aumenta quando molti e diversi tipi di evidenza portano alla stessa
conclusione.
44
Evaluations of the strength of the evidence for carcinogenicity arising from human and experimental animal data are made, using standard terms […]
Studies of cancer in humans Studies of cancer in experimental animals
Sufficient evidence of
carcinogenicity: The Working Group considers that a causal relationship has been established between
exposure to the agent and human cancer. That is, a positive
relationship has been observed
between the exposure and cancer in studies in which chance, bias and confounding could be ruled out with reasonable confidence.
Sufficient evidence of carcinogenicity:
The Working Group considers that a causal relationship has been established between the agent and an increased incidence of malignant neoplasms or of an appropriate combination of benign and malignant neoplasms in (a) two or more species of animals or (b) two or more independent studies in one species carried out at different times or in
different laboratories or under different protocols. An increased incidence of tumours in both sexes of a single species in a well-conducted study, ideally
conducted under Good Laboratory Practices, can also provide sufficient evidence.
Evaluations of the strength of the evidence for carcinogenicity arising from human and experimental animal data are made, using standard terms […]
Studies of cancer in humans
Sufficient evidence of carcinogenicity: The Working Group
considers that a causal relationship has been established between exposure to the agent and human cancer.
That is, a positive relationship has been observed between the exposure and cancer in studies in which chance, bias and
confounding could be ruled out with reasonable confidence.
After the quality of individual epidemiological studies of cancer has been summarized and assessed, a judgement is made
concerning the strength of evidence that the agent in question is carcinogenic to humans. In making its judgement, the Working Group considers several criteria for causality (Hill, 1965).
http://monographs.iarc.fr/
Classificazione di cancerogenicità attribuita dall’Agenzia Internazionale per la Ricerca sul Cancro.
La valutazione della IARC è basata sull’evidenza di cancerogenicità sull’uomo, ove siano disponibili dati epidemiologici, e sugli animali da esperimento, valutate
separatamente.
In particolare sono definite 5 categorie:
Gruppo 1 : cancerogeni per l’uomo
Gruppo 2A : probabili cancerogeni per l’uomo Gruppo 2B : possibili cancerogeni per l’uomo
Gruppo 3 : agenti non classificabili per la cancerogenicità nell’uomo Gruppo 4 : agenti probabilmente non cancerogeni per l’uomo