Laurea in Tecniche di Laboratorio Biomedico Laurea in Fisioterapia
a.a. 2020-2021 STATISTICA
Chiara Airoldi
chiara.airoldi@uniupo.it
THEORY
1- tabelle di contingenza e valutazione associazione tra due variabili (sono indipendenti?)
Tabelle di contingenza: vengono utilizzate in genere per variabili di tipo qualitativo e nel nostro caso lavoreremo con variabili dicotomiche.
malato Sano
Esposto Non esposto
malato Sano
Test + Test -
Trattamento A
Migliora Peggiora
Trattamento B
Migliora Peggiora
Osservatore A
Malato Sano
Osservatore B
Malato Sano Tabelle contingenza
malato Sano Esposto
Non esposto
Trattamento A
Migliora Peggiora
Trattamento B
Migliora Peggiora
DATI INDIPENDENTI DATI APPAIATI
1.VALUTARE SE C’E’ O NO ASSOCIAZIONE (Ho e Hi) test del chi quadro
2.VALUTARE IL GRADO DI ASSOCIAZIONE TRAMITE
OPPORTUNO INDICE OR/OR di Mc Nemar/RR
Test chi quadro dati indipendenti
Esposizione e malattia sono associati? Lo verifico tramite un test di ipotesi in cui ipotesi nulla e ipotesi alternativa sono:
Ho: indipendenza (chi quadro=0) Hi: associazione (chi quadro>0)
ATTENZIONE: per il test del chi quadro l’ipotesi è sempre unilaterale!!
malato Sano
Esposto a b A+b
Non esposto
c d C+d
A+c B+d N
Frequenze osservate
Se esposizione e malattia fossero indipendenti allora ci aspetteremmo di osservare la seguente tabella di frequenze teoriche.
Ps per costruire il valore di ogni cella devo:
-riscrivere la tabella riportando solo i valori delle frequenze marginali (totali di riga e di colonna)
-ogni cella interna viene costruita facendo il suo totale di riga, per il suo totale di colonna diviso il totale di soggetti (N)
Frequenze attese (sotto assunto di indipendenza)
malato Sano
Esposto (A+b)∗(a+c)
𝑁
(A+b)∗(b+d) 𝑁
A+b
Non esposto (c+d)∗(a+c)
𝑁
(b+d)∗(c+d) 𝑁
C+d
A+c B+d N
P(A B) = P(A)* P(B)
Confronto le frequenze osservate con quelle teoriche tramite l’indice chi quadro (o la sua variante con la correzione di Yates).
O indica observed (valori osservati), e indica expected (valori attesi, cioè teorici, costruiti come sopra).
Chi quadro
Chi quadro con la correzione di Yates.
I valori osservati di una tabella di
contingenza sono frequenze quindi
possono assumere solo valori interi
mentre chi quadro solo valori continui
quindi è proposta una correzione di
continuità applicabile alle tabelle 2*2
Il chi quadro osservato (calcolato con la formula proposta sopra) va confrontato con il chi quadro teorico (valore che ricaviamo dalle tavole).
Gradi di libertà= (riga-1)*(colonne-1)
Distribuzione Chi quadrato Probabilità 0,001 0,01 0,025 0,05 0,1 gradi libertà 1 10,83 6,64 5,02 3,84 2,71 2 13,82 9,21 7,38 5,99 4,61 3 16,27 11,35 9,35 7,82 6,25 4 18,47 13,28 11,14 9,49 7,78 5 20,52 15,09 12,83 11,07 9,24 6 22,46 16,81 14,45 12,59 10,65 7 24,32 18,48 16,01 14,07 12,02 8 26,13 20,09 17,54 15,51 13,36 9 27,88 21,67 19,02 16,92 14,68 10 29,59 23,21 20,48 18,31 15,99 11 31,26 24,73 21,92 19,68 17,28 12 32,91 26,22 23,34 21,03 18,55 13 34,53 27,69 24,74 22,36 19,81 14 36,12 29,14 26,12 23,69 21,06 15 37,70 30,58 27,49 25,00 22,31 16 39,25 32,00 28,85 26,30 23,54 17 40,79 33,41 30,19 27,59 24,77 18 42,31 34,81 31,53 28,87 25,99 19 43,82 36,19 32,85 30,14 27,20 20 45,32 37,57 34,17 31,41 28,41 per numeri di g.l. superiori a 20 usate la riga corrispondente a 20
ESEMPIO
Frequenze osservate.
Esiste una qualche relazione tra le variabili?
Cioè il genere è associato con la scelta dell’animale
preferito o le due variabili sono tra di loro indipendenti?
Calcolo delle frequenze attese
12*14/21
8 1.72
12*3/21
1.71
4*9/21
Chi quadro oss=2.08
Chi quadro teorico, alpha=0.05= 5.99
Gdl=(2-1)*(3-2)=1*2=2
Oss<teorico, non sono nella zona di rifiuto, Non ho sufficiente evidenza per rifiutare Ho (indipendenza).
Distribuzione Chi quadrato Probabilità 0,001 0,01 0,025 0,05 0,1 gradi libertà 1 10,83 6,64 5,02 3,84 2,71 2 13,82 9,21 7,38 5,99 4,61 3 16,27 11,35 9,35 7,82 6,25 4 18,47 13,28 11,14 9,49 7,78 5 20,52 15,09 12,83 11,07 9,24 6 22,46 16,81 14,45 12,59 10,65 7 24,32 18,48 16,01 14,07 12,02 8 26,13 20,09 17,54 15,51 13,36 9 27,88 21,67 19,02 16,92 14,68 10 29,59 23,21 20,48 18,31 15,99 11 31,26 24,73 21,92 19,68 17,28 12 32,91 26,22 23,34 21,03 18,55 13 34,53 27,69 24,74 22,36 19,81 14 36,12 29,14 26,12 23,69 21,06 15 37,70 30,58 27,49 25,00 22,31 16 39,25 32,00 28,85 26,30 23,54 17 40,79 33,41 30,19 27,59 24,77 18 42,31 34,81 31,53 28,87 25,99 19 43,82 36,19 32,85 30,14 27,20 20 45,32 37,57 34,17 31,41 28,41 per numeri di g.l. superiori a 20 usate la riga corrispondente a 20
Il test si basa sul calcolo della probabilità associata alla tabella osservata e a ciascuna delle tabelle più estreme.
Idea: andare a costruire le tabelle più estreme e andare a calcolare le probabilità. Queste devono poi essere sommate.
CHI QUADRO ESATTO FISHER
Quando numero di soggetti nella tabella è piccolo (celle con numerosità inferiori a 5) si utilizza il chi quadro esatto di Fisher.
Il test è sviluppato a partire dalla ipergeometrica.
valutazione collega versato
prima latte te
latte 3 1 4
te 1 3 4
4 4 8
NON FARE
PRACTICE
Esercizio 1
Esiste una associazione significativa tra il lavoro del padre e il fatto che il figlio venga allattato fino a 3 mesi?
Verificalo attraverso un opportuno test a livello 0.05.
ESERCIZIO 2
L’assunzione di alcol è indipendente dal tipo di crimine commesso?
La tabella che segue elenca i dati che lo statistico Karl Pearson utilizzò nel 1909. Il tipo di crimine dipende dal fatto che colui che lo commette abbia bevuto alcol oppure si sia astenuto dal bere?
C’è qualche crimine che possa essere associato al bere?
crimine
incendio rapina violenza furto contraffazione frode alcol
Alcol 50 88 155 379 18 63
no alcol 43 62 110 300 14 144
ESERCIZIO 3
Commenta la tabella.
Quale è l’approccio/metodo di invito che sembra funzionare di più
per far eseguire uno screening per tumore al colon tramite sangue
occulto? È un risultato significativo in termini statistici?
(Pearson) Chi-square Test
(For independence of V and H)
H0: Variables are independent (no interaction between variables) H1: Variables are dependent (interaction between variables)
Chi-square 399.7394737 DF 2
p-value = 1.57644E-87
Due gradi di libertà perché (2-1)*(3-1)=2
Il chi quadro teorico sarebbe, a livello 0,001, è 13,82.
Il valore osservato è maggiore di quello teorico, per cui rifiuto Ho
e dico che sono associati.
THEORY
2- Misure di associazione
Misure associazione dati indipendenti
Rischio Relativo (RR) si utilizza negli studi in prospettiva.
È la probabilità che un
soggetto appartenente a un gruppo esposto a
determinati fattori sviluppi la malattia rispetto alla
probabilità che un soggetto appartenente a un gruppo non esposto sviluppi la stessa malattia.
Odds Ratio (OR) si utilizza negli studi in retrospettivi (o prospettivi). Può essere calcolato come:
-l’odds di malattia tra gli esposti diviso l’odds di malattia tra i non esposti
-l’odds di esposizione nei malati diviso l’odds di esposizione tra i sani.
In uno studio caso controllo le proporzioni di soggetti affetti da una malattia vengono scelte dall’esaminatore, pertanto non è possibile
determinare la probabilità di malattia nei due gruppi esposti e non esposti.
Il RR e l’OR sono due misure che cercano di spiegare lo stesso fenomeno.
RR più intuitivo ma OR ha migliori proprietà statistiche. Per malattie rare
l’OR è una buona approssimazione del RR.
OR:
→CASO CONTROLLO (odds esposizione casi/odds esposizione controlli) EOR exposure odds ratio
→COORTE (odds malattia negli esposti/odds malattia nei non esposti) ROR risk odds ratio
→CROSS SECTIONAL (odds malattia negli esposti/odds
malattia nei non esposti) POR prevalence odds ratio
Misure associazione dati indipendenti
malato Sano
Esposto a b A+b
Non esposto c d C+d
A+c B+d N
Oltre a valutare se esiste o meno associazione, possiamo
valutare la forza dell’associazione tramite alcune misure tra cui l’ODDS RATIO.
Odds Ratio=
𝑜𝑑𝑑𝑠 𝑒𝑠𝑝𝑜𝑠𝑖𝑧𝑖𝑜𝑛𝑒 𝑐𝑎𝑠𝑖𝑜𝑑𝑑𝑠 𝑒𝑠𝑝𝑜𝑠𝑖𝑧𝑖𝑜𝑛𝑒 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑙𝑖
=
𝑎/𝑐𝑏/𝑑
=
𝑎∗𝑑𝑏∗𝑐
L’OR assume valore tra 0 e infinito.
Il valore di riferimento è 1
Posso poi calcolare il valore dell’intervallo di confidenza.
Per farlo devo prima eseguire la trasformata logaritmica e poi fare l’esponente del limite inferiore e superiore.
Perché il logaritmo?
La distribuzione di probabilità dell’OR è fortemente asimmetrica a destra. Al
distribuzione del logaritmo naturale dell’OR è più simmetrica ed approssimativamente normale. Utilizziamo quindi la scala logaritmica
se(ln(or)) = 1
𝑎 + 1
𝑏 + 1
𝑐 + 1
𝑑
ln(OR)
Inferiore
superiore
IC(OR)= [exp( ); exp( )]
𝐼𝐶(ln 𝑂𝑅 = ln 𝑂𝑅 ± 𝑧1−𝑎 ቁ
2 ∗ 𝑠𝑒(ln 𝑂𝑅
DATI INDIPENDENTI 1) Ipotesi nulla e alternativa
Ho: indipendenza (chi quadro=0) Hi: associazione (chi quadro>0) 2) Calcolo il chi quadro osservato
→costruisco la tabelle delle teoriche e poi utilizzo la formula del chi quadrato con o senza la correzione di continuità
3) Calcolo il chi quadro teorico
Il chi quadro osservato lo confronto con un chi quadro teorico con (r-1)*(c-1) gradi di libertà dove r indica il numero di righe e c il numero di colonne. Se la tabella è 2*2 allora confronto con un chi quadro con 1 gdl.
La regione critica è localizzata soltanto nella coda di destra.
4)Ho sufficiente evidenza per rifiutare Ho o no? Se il valore osservato è più estremo di quello teorico si, altrimenti no.
5) Misuro la forza dell’associazione tramite Odds Ratio. In questo caso Ho: OR=1 vs Hi: OR !=1
6) Costruisco l’intervallo di confidenza dell’OR. Per farlo devo utilizzare i logaritmi 7) Ho sufficiente evidenza per rifiutare Ho? Vedo se il mio IC contiene il valore 1 o no.
PRACTICE
Si considera lo studio di Taiwan sull’insorgenza di epatocarcinoma (HCC), in seguito a un’infezione cronica da virus dell’epatiti B (HBV). Si intende
effettuare uno studio caso controllo campionando i casi e i controlli. Si reclutano tuti i 161 casi e altrettanti controlli come mostrato in tabella.
casi controlli
HBsAg + 152 24 176
- 9 137 146
161 161 322
A) Calcolare gli Odds di malattia negli esposti e nei non esposti
B) Quale misura di associazione tra il Rischio relativo e L’odds ratio è preferibile?
Argomentare il perché
C) Calcolare RR e OR riportando le formule
D) Costruire l’intervallo di confidenza per l’OR e dire se è significativo (alfa =0,05)
ESERCIZIO 4
L’odds ratio è definito come l’odds della malattia tra
soggetti esposti diviso l’odds della malattia tra soggetti non esposti.
Esso può anche essere definito come l’odds di esposizione tra soggetti malati diviso l’odds dell’esposizione tra soggetti sani.
OR=
𝑃 𝑀 𝐸)/(1−𝑃(𝑀|𝐸)𝑃 𝑀 𝑛𝐸)/(1−𝑃(𝑀|𝑛𝐸)
=
𝑎/𝑏𝑐/𝑑=
𝑎∗𝑑𝑏∗𝑐OR=
𝑃(𝐸|𝑀)/(1−𝑃(𝐸|𝑀)𝑃 𝐸 𝑛𝑀)/(1−𝑃(𝐸|𝑛𝑀)
=
𝑎∗𝑑𝑏∗𝑐
ESERCIZIO 5
Test di indipendenza tra tempo di prima dimissione e riospedalizzazione dei neonati.
È opportuno, per la salute del neonato, dimetterlo subito dopo il parto? La tabella che segue mostra i risultati relativi a uno studio su questo argomento. Con livello di significatività 0.05, condurre un test statistico sull’ipotesi che vi sia indipendenza tra l’essere dimesso entro le prime trenta ore o dopo le trent ore dalla nascita e l’essere riospedalizzato oppure non esserlo durante la settimana successiva.
Le conclusioni potrebbero essere diverse con un livello di significatività 0.01?
Dati proveniente da «the safety of newborn early discharge», da Liu et al.
si no
si 622 3997
no 631 4660
riospedalizzazione dimissione
precoce
Sviluppiamo un esempio utilizzando dati relativi ad uno studio storico sul trattamento dell'ulcera peptica. La tabella dei valori osservati è sotto riportata. Considerando un errore del primo tipo di alpha esegui il test opportuno per valutare se il trattamento è associato alla
presenza di ulcera.
Ulcera Peptica
Farmaco Curato Non curato Totale
Pirenzepina 23 7 30
Tritiozina 18 13 31
TOTALE 41 20 61
ESERCIZIO 6
Calcola L’OR, il suo intervallo di confidenza al 95%. Giungi alle stesse
conclusioni osservate precedentemente?
Ulcera Peptica
Farmaco Curato Non curato Totale
Pirenzepina 20,16 9,84 30
Tritiozina 20,84 10,16 31
TOTALE 41 20 61
Frequenze teoriche
(|23-20,16|-1/2)
2(|7-9,84|-1/2)
2(|18-20,84|-1/2)
2(|13-10,16|-1/2)
2
2= 20,16 + 9,84 + 20,84 + 10,16 =
= 0,272 + 0,566 + 0,263 +0,539 = 1,6298
Se non avessimo tenuto conto della correzione di Yates avremmo ottenuto un chi quadro osservato di 2.39
H
0: trattamento e ulcera sono indipendenti
H
1: trattamento e ulcera non sono indipendenti
Distribuzione Chi quadrato Probabilità 0,001 0,01 0,025 0,05 0,1 gradi libertà 1 10,83 6,64 5,02 3,84 2,71 2 13,82 9,21 7,38 5,99 4,61 3 16,27 11,35 9,35 7,82 6,25 4 18,47 13,28 11,14 9,49 7,78 5 20,52 15,09 12,83 11,07 9,24 6 22,46 16,81 14,45 12,59 10,65 7 24,32 18,48 16,01 14,07 12,02 8 26,13 20,09 17,54 15,51 13,36 9 27,88 21,67 19,02 16,92 14,68 10 29,59 23,21 20,48 18,31 15,99 11 31,26 24,73 21,92 19,68 17,28 12 32,91 26,22 23,34 21,03 18,55 13 34,53 27,69 24,74 22,36 19,81 14 36,12 29,14 26,12 23,69 21,06 15 37,70 30,58 27,49 25,00 22,31 16 39,25 32,00 28,85 26,30 23,54 17 40,79 33,41 30,19 27,59 24,77 18 42,31 34,81 31,53 28,87 25,99 19 43,82 36,19 32,85 30,14 27,20 20 45,32 37,57 34,17 31,41 28,41 per numeri di g.l. superiori a 20 usate la riga corrispondente a 20
In entrambi i casi (con e senza correzione) Non ho sufficiente evidenza per rifiutare Ho
OR (pirenzepina vs. tritiozina) = 2,37
IC95%(OR): 0,7847 <= OR <=7,1766
Sono stati raccolti i seguenti dati su 10 ragazzi maggiorenni con distrofia muscolare e 7 ragazzi della stessa età sani.
Sono state raccoltea anche le informazioni riguardanti l’assunzione di due farmaci A e B. Poichè i due farmaci sono molto costosi e raramente usati nella pratica clinica il campione in studio è molto piccolo.
Siamo interessati a verificare se la proporzione di malati che hanno assunto il farmaco A è uguale alla proporzione di persone che hanno assunto il farmaco B.
Si proceda utilizzando un opportuno test statistico dopo aver definito ipotesi nulla e alternativa.
ESERCIZIO 7 NON FARE
malati sani
farmaco A 2 5 7
farmaco B 8 2 10
10 7 17
Il test opportuno da applicare è il test di Fisher perchè siamo in presenza di celle con numerosità piccole.
Calcoliamo la probabilità associata alla nostra tabella:
malati sani
farmaco A 2 5 7
farmaco B 8 2 10
10 7 17
Tabella dei fattoriali
2 120 5040 num 3,34493E+20
40320 2 3628800 p 0,048591115
3628800 5040 3,55687E+14 den 6,88383E+21
Andiamo a costruire le tabelle «più estreme» di quella che stiamo considerando.
Attenzione perchè i MARGINALI devono restare fissi mentre cambieranno i valori delle frequenze all’interno.
malati sani
farmaco A 1 6 7
farmaco B 9 1 10
10 7 17
Tabella dei fattoriali
1 720 5040 num 3,34493E+20
362880 1 3628800 p 0,003599342
3628800 5040 3,55687E+14 den 9,29317E+22
malati sani
farmaco A 0 7 7
farmaco B 10 0 10
10 7 17
Tabella dei fattoriali
1 5040 5040 num 3,34493E+20
3628800 1 3628800 p 5,14192E-05
3628800 5040 3,55687E+14 den 6,50522E+24
0,04859 0,00360 0,00005
p tot 0,05224
P tot si ottiene andando a sommare le probabilità di ogni tabella.
cella n11 prob
0 0,00005 1 coda 0,05224 1 0,00360 2 code 0,05841 2 0,04859
3 0,21596 4 0,37793 5 0,27211 6 0,07559 7 0,00617
1,00000
Non è richiesto di calcolare la
probabilità a due code e neanche la probabilità di osservare ogni tabella (è un esercizio «teorico» per allenarsi.
I risultati dello studio (di tipo caso-controllo) sono riassunti nella seguente tabella:
A) Come indicatore di associazione decidete di calcolare l’Odds Ratio. Scrivete la formula ed il risultato che ottenete.
B) Come interpretate il valore di Odds Ratio che avete ottenuto?
C) Indicate il test statistico che ritenete appropriato nel caso dato per valutare la presenza di associazione, tra i seguenti:
→test z
→test chi quadro
→test t
→test t dati appaiati
D) Avete fissato l’errore di 1° tipo al 5%. Definite l’errore di 1° tipo (anche detto errore alfa)
E) Applicate il test che avevate scelto, effettuando i calcoli necessari. Presentate chiaramente formule e risultati. Indicate il valore di probabilità corrispondente al risultato del test, avvalendovi delle tabelle allegate.
ESERCIZIO 8
ESERCIZIO 9
Test clinico di Nicorette.
Nicorette è un chewingum ideato per aiutare le persone a smettere di fumare. Per valutare eventuali effetti collaterali 152 soggetti sono stati trattati con Nicorette e 153 con placebo. Tra quelli nel gruppo trattato, 43 hanno riferito indolenzimento alla bocca e alla gola. Tra quelli nel gruppo placebo, 35 hanno riferito indolenzimento alla bocca o alla gola.
a. Usare le informazioni fornite per costruire la tabella b. Calcolare Odds ratio
c. Costruire un intervallo di confidenza al 95% per l’OR e scrivere un’affermazione per interpretare il risultato. L’indolenzimento alla bocca e alla gola potrebbe essere una preoccupazione per chi usa Nicorette
indolenzimento non_indolenzimento
nicorette 43 109 152
palcebo 35 118 153
78 227 305
or= 1.33
ln(or) 0.29
se(ln(or)) 0.26
z 1.96
ic (ln(or)) -0.23 0.80
ic(OR) 0.79 2.23
Siamo fiduciosi al 95% che i limiti 0.79- 2.23 contengano l’OR corretto. Il gruppo «nicorette»
ha una percentuale di indolenzimento del 28% confrontata con una proporzione del 23% nel palcebo.
Sembra che
Nicorette provochi indolenzimento ma non abbiamo una sufficiente evidenza (l’1 è contenuto nell’IC)
H
0: trattamento con aspirina e sopravvivenza al cancro sono indipendenti
H
1: trattamento con aspirina e sopravvivenza al cancro non sono indipendenti
Quali sono le frequenze attese sotto H
0? Conduci il test e commenta le conclusioni inferenziali alla quale sei giunto.
ESERCIZIO 10