• Non ci sono risultati.

Laurea in Tecniche di Laboratorio Biomedico Laurea in Fisioterapia. a.a STATISTICA. Chiara Airoldi

N/A
N/A
Protected

Academic year: 2022

Condividi "Laurea in Tecniche di Laboratorio Biomedico Laurea in Fisioterapia. a.a STATISTICA. Chiara Airoldi"

Copied!
40
0
0

Testo completo

(1)

Laurea in Tecniche di Laboratorio Biomedico Laurea in Fisioterapia

a.a. 2020-2021 STATISTICA

Chiara Airoldi

chiara.airoldi@uniupo.it

(2)

THEORY

1- tabelle di contingenza e valutazione associazione tra due variabili (sono indipendenti?)

(3)

Tabelle di contingenza: vengono utilizzate in genere per variabili di tipo qualitativo e nel nostro caso lavoreremo con variabili dicotomiche.

malato Sano

Esposto Non esposto

malato Sano

Test + Test -

Trattamento A

Migliora Peggiora

Trattamento B

Migliora Peggiora

Osservatore A

Malato Sano

Osservatore B

Malato Sano Tabelle contingenza

(4)

malato Sano Esposto

Non esposto

Trattamento A

Migliora Peggiora

Trattamento B

Migliora Peggiora

DATI INDIPENDENTI DATI APPAIATI

1.VALUTARE SE C’E’ O NO ASSOCIAZIONE (Ho e Hi) test del chi quadro

2.VALUTARE IL GRADO DI ASSOCIAZIONE TRAMITE

OPPORTUNO INDICE OR/OR di Mc Nemar/RR

(5)

Test chi quadro dati indipendenti

Esposizione e malattia sono associati? Lo verifico tramite un test di ipotesi in cui ipotesi nulla e ipotesi alternativa sono:

Ho: indipendenza (chi quadro=0) Hi: associazione (chi quadro>0)

ATTENZIONE: per il test del chi quadro l’ipotesi è sempre unilaterale!!

malato Sano

Esposto a b A+b

Non esposto

c d C+d

A+c B+d N

Frequenze osservate

(6)

Se esposizione e malattia fossero indipendenti allora ci aspetteremmo di osservare la seguente tabella di frequenze teoriche.

Ps per costruire il valore di ogni cella devo:

-riscrivere la tabella riportando solo i valori delle frequenze marginali (totali di riga e di colonna)

-ogni cella interna viene costruita facendo il suo totale di riga, per il suo totale di colonna diviso il totale di soggetti (N)

Frequenze attese (sotto assunto di indipendenza)

malato Sano

Esposto (A+b)∗(a+c)

𝑁

(A+b)∗(b+d) 𝑁

A+b

Non esposto (c+d)∗(a+c)

𝑁

(b+d)∗(c+d) 𝑁

C+d

A+c B+d N

P(A  B) = P(A)* P(B)

(7)

Confronto le frequenze osservate con quelle teoriche tramite l’indice chi quadro (o la sua variante con la correzione di Yates).

O indica observed (valori osservati), e indica expected (valori attesi, cioè teorici, costruiti come sopra).

Chi quadro

Chi quadro con la correzione di Yates.

I valori osservati di una tabella di

contingenza sono frequenze quindi

possono assumere solo valori interi

mentre chi quadro solo valori continui

quindi è proposta una correzione di

continuità applicabile alle tabelle 2*2

(8)

Il chi quadro osservato (calcolato con la formula proposta sopra) va confrontato con il chi quadro teorico (valore che ricaviamo dalle tavole).

Gradi di libertà= (riga-1)*(colonne-1)

Distribuzione Chi quadrato Probabilità 0,001 0,01 0,025 0,05 0,1 gradi libertà 1 10,83 6,64 5,02 3,84 2,71 2 13,82 9,21 7,38 5,99 4,61 3 16,27 11,35 9,35 7,82 6,25 4 18,47 13,28 11,14 9,49 7,78 5 20,52 15,09 12,83 11,07 9,24 6 22,46 16,81 14,45 12,59 10,65 7 24,32 18,48 16,01 14,07 12,02 8 26,13 20,09 17,54 15,51 13,36 9 27,88 21,67 19,02 16,92 14,68 10 29,59 23,21 20,48 18,31 15,99 11 31,26 24,73 21,92 19,68 17,28 12 32,91 26,22 23,34 21,03 18,55 13 34,53 27,69 24,74 22,36 19,81 14 36,12 29,14 26,12 23,69 21,06 15 37,70 30,58 27,49 25,00 22,31 16 39,25 32,00 28,85 26,30 23,54 17 40,79 33,41 30,19 27,59 24,77 18 42,31 34,81 31,53 28,87 25,99 19 43,82 36,19 32,85 30,14 27,20 20 45,32 37,57 34,17 31,41 28,41 per numeri di g.l. superiori a 20 usate la riga corrispondente a 20

(9)

ESEMPIO

Frequenze osservate.

Esiste una qualche relazione tra le variabili?

Cioè il genere è associato con la scelta dell’animale

preferito o le due variabili sono tra di loro indipendenti?

(10)

Calcolo delle frequenze attese

12*14/21

8 1.72

12*3/21

1.71

4*9/21

(11)

Chi quadro oss=2.08

Chi quadro teorico, alpha=0.05= 5.99

Gdl=(2-1)*(3-2)=1*2=2

Oss<teorico, non sono nella zona di rifiuto, Non ho sufficiente evidenza per rifiutare Ho (indipendenza).

Distribuzione Chi quadrato Probabilità 0,001 0,01 0,025 0,05 0,1 gradi libertà 1 10,83 6,64 5,02 3,84 2,71 2 13,82 9,21 7,38 5,99 4,61 3 16,27 11,35 9,35 7,82 6,25 4 18,47 13,28 11,14 9,49 7,78 5 20,52 15,09 12,83 11,07 9,24 6 22,46 16,81 14,45 12,59 10,65 7 24,32 18,48 16,01 14,07 12,02 8 26,13 20,09 17,54 15,51 13,36 9 27,88 21,67 19,02 16,92 14,68 10 29,59 23,21 20,48 18,31 15,99 11 31,26 24,73 21,92 19,68 17,28 12 32,91 26,22 23,34 21,03 18,55 13 34,53 27,69 24,74 22,36 19,81 14 36,12 29,14 26,12 23,69 21,06 15 37,70 30,58 27,49 25,00 22,31 16 39,25 32,00 28,85 26,30 23,54 17 40,79 33,41 30,19 27,59 24,77 18 42,31 34,81 31,53 28,87 25,99 19 43,82 36,19 32,85 30,14 27,20 20 45,32 37,57 34,17 31,41 28,41 per numeri di g.l. superiori a 20 usate la riga corrispondente a 20

(12)

Il test si basa sul calcolo della probabilità associata alla tabella osservata e a ciascuna delle tabelle più estreme.

Idea: andare a costruire le tabelle più estreme e andare a calcolare le probabilità. Queste devono poi essere sommate.

CHI QUADRO ESATTO FISHER

Quando numero di soggetti nella tabella è piccolo (celle con numerosità inferiori a 5) si utilizza il chi quadro esatto di Fisher.

Il test è sviluppato a partire dalla ipergeometrica.

valutazione collega versato

prima latte te

latte 3 1 4

te 1 3 4

4 4 8

NON FARE

(13)

PRACTICE

(14)

Esercizio 1

Esiste una associazione significativa tra il lavoro del padre e il fatto che il figlio venga allattato fino a 3 mesi?

Verificalo attraverso un opportuno test a livello 0.05.

(15)

ESERCIZIO 2

L’assunzione di alcol è indipendente dal tipo di crimine commesso?

La tabella che segue elenca i dati che lo statistico Karl Pearson utilizzò nel 1909. Il tipo di crimine dipende dal fatto che colui che lo commette abbia bevuto alcol oppure si sia astenuto dal bere?

C’è qualche crimine che possa essere associato al bere?

crimine

incendio rapina violenza furto contraffazione frode alcol

Alcol 50 88 155 379 18 63

no alcol 43 62 110 300 14 144

(16)

ESERCIZIO 3

Commenta la tabella.

Quale è l’approccio/metodo di invito che sembra funzionare di più

per far eseguire uno screening per tumore al colon tramite sangue

occulto? È un risultato significativo in termini statistici?

(17)

(Pearson) Chi-square Test

(For independence of V and H)

H0: Variables are independent (no interaction between variables) H1: Variables are dependent (interaction between variables)

Chi-square 399.7394737 DF 2

p-value = 1.57644E-87

Due gradi di libertà perché (2-1)*(3-1)=2

Il chi quadro teorico sarebbe, a livello 0,001, è 13,82.

Il valore osservato è maggiore di quello teorico, per cui rifiuto Ho

e dico che sono associati.

(18)

THEORY

2- Misure di associazione

(19)

Misure associazione dati indipendenti

Rischio Relativo (RR) si utilizza negli studi in prospettiva.

È la probabilità che un

soggetto appartenente a un gruppo esposto a

determinati fattori sviluppi la malattia rispetto alla

probabilità che un soggetto appartenente a un gruppo non esposto sviluppi la stessa malattia.

Odds Ratio (OR) si utilizza negli studi in retrospettivi (o prospettivi). Può essere calcolato come:

-l’odds di malattia tra gli esposti diviso l’odds di malattia tra i non esposti

-l’odds di esposizione nei malati diviso l’odds di esposizione tra i sani.

In uno studio caso controllo le proporzioni di soggetti affetti da una malattia vengono scelte dall’esaminatore, pertanto non è possibile

determinare la probabilità di malattia nei due gruppi esposti e non esposti.

Il RR e l’OR sono due misure che cercano di spiegare lo stesso fenomeno.

RR più intuitivo ma OR ha migliori proprietà statistiche. Per malattie rare

l’OR è una buona approssimazione del RR.

(20)

OR:

→CASO CONTROLLO (odds esposizione casi/odds esposizione controlli) EOR exposure odds ratio

→COORTE (odds malattia negli esposti/odds malattia nei non esposti) ROR risk odds ratio

→CROSS SECTIONAL (odds malattia negli esposti/odds

malattia nei non esposti) POR prevalence odds ratio

(21)

Misure associazione dati indipendenti

malato Sano

Esposto a b A+b

Non esposto c d C+d

A+c B+d N

Oltre a valutare se esiste o meno associazione, possiamo

valutare la forza dell’associazione tramite alcune misure tra cui l’ODDS RATIO.

Odds Ratio=

𝑜𝑑𝑑𝑠 𝑒𝑠𝑝𝑜𝑠𝑖𝑧𝑖𝑜𝑛𝑒 𝑐𝑎𝑠𝑖

𝑜𝑑𝑑𝑠 𝑒𝑠𝑝𝑜𝑠𝑖𝑧𝑖𝑜𝑛𝑒 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑙𝑖

=

𝑎/𝑐

𝑏/𝑑

=

𝑎∗𝑑

𝑏∗𝑐

L’OR assume valore tra 0 e infinito.

Il valore di riferimento è 1

(22)

Posso poi calcolare il valore dell’intervallo di confidenza.

Per farlo devo prima eseguire la trasformata logaritmica e poi fare l’esponente del limite inferiore e superiore.

Perché il logaritmo?

La distribuzione di probabilità dell’OR è fortemente asimmetrica a destra. Al

distribuzione del logaritmo naturale dell’OR è più simmetrica ed approssimativamente normale. Utilizziamo quindi la scala logaritmica

se(ln(or)) = 1

𝑎 + 1

𝑏 + 1

𝑐 + 1

𝑑

ln(OR)

Inferiore

superiore

IC(OR)= [exp( ); exp( )]

𝐼𝐶(ln 𝑂𝑅 = ln 𝑂𝑅 ± 𝑧1−𝑎

2 ∗ 𝑠𝑒(ln 𝑂𝑅

(23)

DATI INDIPENDENTI 1) Ipotesi nulla e alternativa

Ho: indipendenza (chi quadro=0) Hi: associazione (chi quadro>0) 2) Calcolo il chi quadro osservato

→costruisco la tabelle delle teoriche e poi utilizzo la formula del chi quadrato con o senza la correzione di continuità

3) Calcolo il chi quadro teorico

Il chi quadro osservato lo confronto con un chi quadro teorico con (r-1)*(c-1) gradi di libertà dove r indica il numero di righe e c il numero di colonne. Se la tabella è 2*2 allora confronto con un chi quadro con 1 gdl.

La regione critica è localizzata soltanto nella coda di destra.

4)Ho sufficiente evidenza per rifiutare Ho o no? Se il valore osservato è più estremo di quello teorico si, altrimenti no.

5) Misuro la forza dell’associazione tramite Odds Ratio. In questo caso Ho: OR=1 vs Hi: OR !=1

6) Costruisco l’intervallo di confidenza dell’OR. Per farlo devo utilizzare i logaritmi 7) Ho sufficiente evidenza per rifiutare Ho? Vedo se il mio IC contiene il valore 1 o no.

(24)

PRACTICE

(25)

Si considera lo studio di Taiwan sull’insorgenza di epatocarcinoma (HCC), in seguito a un’infezione cronica da virus dell’epatiti B (HBV). Si intende

effettuare uno studio caso controllo campionando i casi e i controlli. Si reclutano tuti i 161 casi e altrettanti controlli come mostrato in tabella.

casi controlli

HBsAg + 152 24 176

- 9 137 146

161 161 322

A) Calcolare gli Odds di malattia negli esposti e nei non esposti

B) Quale misura di associazione tra il Rischio relativo e L’odds ratio è preferibile?

Argomentare il perché

C) Calcolare RR e OR riportando le formule

D) Costruire l’intervallo di confidenza per l’OR e dire se è significativo (alfa =0,05)

ESERCIZIO 4

(26)

L’odds ratio è definito come l’odds della malattia tra

soggetti esposti diviso l’odds della malattia tra soggetti non esposti.

Esso può anche essere definito come l’odds di esposizione tra soggetti malati diviso l’odds dell’esposizione tra soggetti sani.

OR=

𝑃 𝑀 𝐸)/(1−𝑃(𝑀|𝐸)

𝑃 𝑀 𝑛𝐸)/(1−𝑃(𝑀|𝑛𝐸)

=

𝑎/𝑏𝑐/𝑑

=

𝑎∗𝑑𝑏∗𝑐

OR=

𝑃(𝐸|𝑀)/(1−𝑃(𝐸|𝑀)

𝑃 𝐸 𝑛𝑀)/(1−𝑃(𝐸|𝑛𝑀)

=

𝑎∗𝑑

𝑏∗𝑐

(27)

ESERCIZIO 5

Test di indipendenza tra tempo di prima dimissione e riospedalizzazione dei neonati.

È opportuno, per la salute del neonato, dimetterlo subito dopo il parto? La tabella che segue mostra i risultati relativi a uno studio su questo argomento. Con livello di significatività 0.05, condurre un test statistico sull’ipotesi che vi sia indipendenza tra l’essere dimesso entro le prime trenta ore o dopo le trent ore dalla nascita e l’essere riospedalizzato oppure non esserlo durante la settimana successiva.

Le conclusioni potrebbero essere diverse con un livello di significatività 0.01?

Dati proveniente da «the safety of newborn early discharge», da Liu et al.

si no

si 622 3997

no 631 4660

riospedalizzazione dimissione

precoce

(28)

Sviluppiamo un esempio utilizzando dati relativi ad uno studio storico sul trattamento dell'ulcera peptica. La tabella dei valori osservati è sotto riportata. Considerando un errore del primo tipo di alpha esegui il test opportuno per valutare se il trattamento è associato alla

presenza di ulcera.

Ulcera Peptica

Farmaco Curato Non curato Totale

Pirenzepina 23 7 30

Tritiozina 18 13 31

TOTALE 41 20 61

ESERCIZIO 6

Calcola L’OR, il suo intervallo di confidenza al 95%. Giungi alle stesse

conclusioni osservate precedentemente?

(29)

Ulcera Peptica

Farmaco Curato Non curato Totale

Pirenzepina 20,16 9,84 30

Tritiozina 20,84 10,16 31

TOTALE 41 20 61

Frequenze teoriche

(|23-20,16|-1/2)

2

(|7-9,84|-1/2)

2

(|18-20,84|-1/2)

2

(|13-10,16|-1/2)

2

2

= 20,16 + 9,84 + 20,84 + 10,16 =

= 0,272 + 0,566 + 0,263 +0,539 = 1,6298

Se non avessimo tenuto conto della correzione di Yates avremmo ottenuto un chi quadro osservato di 2.39

(30)

H

0

: trattamento e ulcera sono indipendenti

H

1

: trattamento e ulcera non sono indipendenti

Distribuzione Chi quadrato Probabilità 0,001 0,01 0,025 0,05 0,1 gradi libertà 1 10,83 6,64 5,02 3,84 2,71 2 13,82 9,21 7,38 5,99 4,61 3 16,27 11,35 9,35 7,82 6,25 4 18,47 13,28 11,14 9,49 7,78 5 20,52 15,09 12,83 11,07 9,24 6 22,46 16,81 14,45 12,59 10,65 7 24,32 18,48 16,01 14,07 12,02 8 26,13 20,09 17,54 15,51 13,36 9 27,88 21,67 19,02 16,92 14,68 10 29,59 23,21 20,48 18,31 15,99 11 31,26 24,73 21,92 19,68 17,28 12 32,91 26,22 23,34 21,03 18,55 13 34,53 27,69 24,74 22,36 19,81 14 36,12 29,14 26,12 23,69 21,06 15 37,70 30,58 27,49 25,00 22,31 16 39,25 32,00 28,85 26,30 23,54 17 40,79 33,41 30,19 27,59 24,77 18 42,31 34,81 31,53 28,87 25,99 19 43,82 36,19 32,85 30,14 27,20 20 45,32 37,57 34,17 31,41 28,41 per numeri di g.l. superiori a 20 usate la riga corrispondente a 20

In entrambi i casi (con e senza correzione) Non ho sufficiente evidenza per rifiutare Ho

(31)

OR (pirenzepina vs. tritiozina) = 2,37

IC95%(OR): 0,7847 <= OR <=7,1766

(32)

Sono stati raccolti i seguenti dati su 10 ragazzi maggiorenni con distrofia muscolare e 7 ragazzi della stessa età sani.

Sono state raccoltea anche le informazioni riguardanti l’assunzione di due farmaci A e B. Poichè i due farmaci sono molto costosi e raramente usati nella pratica clinica il campione in studio è molto piccolo.

Siamo interessati a verificare se la proporzione di malati che hanno assunto il farmaco A è uguale alla proporzione di persone che hanno assunto il farmaco B.

Si proceda utilizzando un opportuno test statistico dopo aver definito ipotesi nulla e alternativa.

ESERCIZIO 7 NON FARE

malati sani

farmaco A 2 5 7

farmaco B 8 2 10

10 7 17

(33)

Il test opportuno da applicare è il test di Fisher perchè siamo in presenza di celle con numerosità piccole.

Calcoliamo la probabilità associata alla nostra tabella:

malati sani

farmaco A 2 5 7

farmaco B 8 2 10

10 7 17

Tabella dei fattoriali

2 120 5040 num 3,34493E+20

40320 2 3628800 p 0,048591115

3628800 5040 3,55687E+14 den 6,88383E+21

(34)

Andiamo a costruire le tabelle «più estreme» di quella che stiamo considerando.

Attenzione perchè i MARGINALI devono restare fissi mentre cambieranno i valori delle frequenze all’interno.

malati sani

farmaco A 1 6 7

farmaco B 9 1 10

10 7 17

Tabella dei fattoriali

1 720 5040 num 3,34493E+20

362880 1 3628800 p 0,003599342

3628800 5040 3,55687E+14 den 9,29317E+22

(35)

malati sani

farmaco A 0 7 7

farmaco B 10 0 10

10 7 17

Tabella dei fattoriali

1 5040 5040 num 3,34493E+20

3628800 1 3628800 p 5,14192E-05

3628800 5040 3,55687E+14 den 6,50522E+24

0,04859 0,00360 0,00005

p tot 0,05224

P tot si ottiene andando a sommare le probabilità di ogni tabella.

(36)

cella n11 prob

0 0,00005 1 coda 0,05224 1 0,00360 2 code 0,05841 2 0,04859

3 0,21596 4 0,37793 5 0,27211 6 0,07559 7 0,00617

1,00000

Non è richiesto di calcolare la

probabilità a due code e neanche la probabilità di osservare ogni tabella (è un esercizio «teorico» per allenarsi.

(37)

I risultati dello studio (di tipo caso-controllo) sono riassunti nella seguente tabella:

A) Come indicatore di associazione decidete di calcolare l’Odds Ratio. Scrivete la formula ed il risultato che ottenete.

B) Come interpretate il valore di Odds Ratio che avete ottenuto?

C) Indicate il test statistico che ritenete appropriato nel caso dato per valutare la presenza di associazione, tra i seguenti:

→test z

→test chi quadro

→test t

→test t dati appaiati

D) Avete fissato l’errore di 1° tipo al 5%. Definite l’errore di 1° tipo (anche detto errore alfa)

E) Applicate il test che avevate scelto, effettuando i calcoli necessari. Presentate chiaramente formule e risultati. Indicate il valore di probabilità corrispondente al risultato del test, avvalendovi delle tabelle allegate.

ESERCIZIO 8

(38)

ESERCIZIO 9

Test clinico di Nicorette.

Nicorette è un chewingum ideato per aiutare le persone a smettere di fumare. Per valutare eventuali effetti collaterali 152 soggetti sono stati trattati con Nicorette e 153 con placebo. Tra quelli nel gruppo trattato, 43 hanno riferito indolenzimento alla bocca e alla gola. Tra quelli nel gruppo placebo, 35 hanno riferito indolenzimento alla bocca o alla gola.

a. Usare le informazioni fornite per costruire la tabella b. Calcolare Odds ratio

c. Costruire un intervallo di confidenza al 95% per l’OR e scrivere un’affermazione per interpretare il risultato. L’indolenzimento alla bocca e alla gola potrebbe essere una preoccupazione per chi usa Nicorette

(39)

indolenzimento non_indolenzimento

nicorette 43 109 152

palcebo 35 118 153

78 227 305

or= 1.33

ln(or) 0.29

se(ln(or)) 0.26

z 1.96

ic (ln(or)) -0.23 0.80

ic(OR) 0.79 2.23

Siamo fiduciosi al 95% che i limiti 0.79- 2.23 contengano l’OR corretto. Il gruppo «nicorette»

ha una percentuale di indolenzimento del 28% confrontata con una proporzione del 23% nel palcebo.

Sembra che

Nicorette provochi indolenzimento ma non abbiamo una sufficiente evidenza (l’1 è contenuto nell’IC)

(40)

H

0

: trattamento con aspirina e sopravvivenza al cancro sono indipendenti

H

1

: trattamento con aspirina e sopravvivenza al cancro non sono indipendenti

Quali sono le frequenze attese sotto H

0

? Conduci il test e commenta le conclusioni inferenziali alla quale sei giunto.

ESERCIZIO 10

Riferimenti

Documenti correlati

(Autonomia di giudizio) Alla fine dell’insegnamento lo studente dovrà saper effettuare delle valutazioni relative alla sostenibilità economica di programmi pubblici

La media e la deviazione standard della distribuzione della pressione sistolica delle donne diabetiche di età compresa tra 30 e 34 anni non è nota. Un campione casuale di 10 donne

professionale affidato alla guida ed alla supervisione di tutori didattici e clinici designati dal Corso di Laurea, attraverso una ricca e articolata offerta di attività teoriche

With equation (3), a rather satisfying explanation of outward FDI flowing from developed to developing countries is reached within a standard theoretical framework

In other words, the process of data gathering encouraged participants to share freely with me, reflecting the freedom of unstructured interviews (Mabuza &amp; Roelofse, 2013)

Nonostante una corretta applicazione del DL 270/04 relativa all’organizzazione dei Corsi di Laurea pressoché in tutti gli Atenei Italiani, oggi l’era della medicina

At La Celle-Saint-Cloud, French President Emmanuel Macron met with the two most prominent political figures in today’s Libya, Fayez al-Sarraj, chairman of the Presidential Council

The pro-posed method performs a SFS-based reconstruction where (1) the overall geometry of the expected surface is first recovered and (2) the final 2.5D reconstruction is obtained by