Gestione ed Analisi Statistica dei dati Gestione ed Analisi Statistica dei dati

(1)

Daniela Fortuna Daniela Fortuna

Gestione ed Analisi Statistica dei dati Gestione ed Analisi Statistica dei dati

12 giugno 2014 12 giugno 2014

Master in

Master in “ “ Evidence Based Evidence Based Practice Practice e e Metodologia della Ricerca

Metodologia della Ricerca clinico clinico- -assistenziale assistenziale” ”

(2)

Finora abbiamo visto come l

Finora abbiamo visto come l ’uso degli intervalli di ’ uso degli intervalli di

confidenza permettono di estendere i risultati di un confidenza permettono di estendere i risultati di un campione alla popolazione di riferimento.

campione alla popolazione di riferimento.

TEST di ipotesi

mettere a confronto due o pi

mettere a confronto due o pi ù ù gruppi gruppi , , oppure

oppure

mettere a confronto un risultato ottenuto mettere a confronto un risultato ottenuto

dal campione e un valore atteso.

Il passo successivo nell

Il passo successivo nell ’ ’ analisi statistica analisi statistica è è

(3)

TEST di IPOTESI: Significatività Statistica

Si mettono a confronto due misure, allo scopo di verificare Si mettono a confronto due misure, allo scopo di verificare

se la loro differenza

se la loro differenza è è probabilmente probabilmente dovuta al caso dovuta al caso oppure no.

oppure no.

Se la differenza

Se la differenza NON NON è è CASUALE CASUALE cioè cio è non è non è dovuta al dovuta al caso, si dice che

caso, si dice che è è

« « statisticamente significativa statisticamente significativa » » . .

La metodologia utilizzata è quella del Test di ipotesi

(4)

TEST di ipotesi

TEST ^significa prova ^, verifica ^, accertamento

Tutti i Test (test di gravidanza, test elettorale, test di ammissione, test statistico, ecc.) si basano sulla

verifica di una certa condizione ipotizzata.

La verifica non avviene mai in modo diretto ma attraverso la

valutazione di fenomeni strettamente correlati.

(5)

In statistica la verifica si effettua mediante dati

campionari e poiché manca l’evidenza diretta, non avremo certezza ma solo una fiducia più o meno grande nel fatto che la condizione esista.

Quindi l'esito del test

Statistico non da certezza, ma solo una fiducia

valutabile in termini di

probabilità.

TEST di ipotesi

(6)

Risultato di un test

Positivo Negativo

Condizione Clinica ignota

Sano falso positivo vero negativo

Malato vero positivo falso negativo

sensibilità del test la frequenza di risultati veri-positivi

specificità del test la frequenza di veri-negativi

α la frequenza di falsi-positivi ⁽ errore del 1° tipo )

β la frequenza di falsi-negativi ⁽ errore del 2° tipo )

EPIDEMIOLOGIA: il TEST diagnostico

(7)

Quindi dire che un test è specifico ^è come dire che ha una bassa probabilità di falsi positivi, cioè che α ^è ^piccolo

Specificità ^e α sono complementari ^cioè veri-negativi e falsi-positivi sono complementari .

Infatti se un test è specifico con il 100% di veri-negativi non segnalerà mai positività per errore (0% di falsi-positivi).

Sensibilità ^e β ^sono complementari ^cioè

veri-positivi e falsi-negativi sono complementari .

Infatti se un test è sempre giustamente positivo (100% di veri-positivi) non segnalerà mai negatività per errore (0% di falsi negativi).

EPIDEMIOLOGIA: il TEST diagnostico

(8)

Risultato del test

Positivo Negativo

Condizione Clinica reale ignota

H0: Sano falsi positivi errore α (di 1° tipo)

veri negativi Specificità

H1:

Malato

veri positivi

Sensibilità falsi negativi errore β (di 2° tipo)

Un test per essere affidabile deve possedere sia un'alta specificità che un'alta sensibilità.

EPIDEMIOLOGIA: il TEST diagnostico

In sintesi

(9)

STATISTICA: il TEST d’ipotesi

Lo schema del test statistico è simile a quello del test

diagnostico ma ha la peculiarità di privilegiare l’evidenza dei falsi-positivi rispetto ai falsi-negativi

L’ipotesi di partenza è l’ ipotesi nulla H0

(cioè l’ipotesi dello scettico) quella che nega il risultato, attribuendo le differenze

osservate alla naturale variabilità dei

fenomeni o al campionamento.

(10)

STATISTICA: il TEST d’ipotesi

l'ipotesi nulla viene mantenuta fino a che le prove o i dati in nostro possesso non siano tali da costringerci a rifiutarla

Ipotesi nulla H0 : le differenze osservate sono dovute al caso

Concediamo quindi fiducia all‘ ipotesi nulla , rifiutandola solo

quando l'evidenza dei risultati sia macroscopica, cioè quando la

probabilità di falsi-positivi α sia minore del 5%.

(11)

se α<5% se α>=5%

H0 rifiutata H0 accettata

Dato significativo Dato non significativo

H0 falsi positivi errore di 1° tipo

valutato con α

veri negativi nessun errore

H1 veri positivi nessun errore

falsi negativi errore di 2° tipo

valutato con β

Risultato del test statistico

Condizione reale ignota

Risultato del TEST statistico

Ipotesi nulla

Ipotesi alternativa

Il risultato di un test statistico è α ^{ovvero il} p-value

(12)

Ad esempio : Ad esempio :

• • Da un indagine campionaria su 50 soggetti, si Da un indagine campionaria su 50 soggetti, si è è rilevato un tasso di colesterolemia medio rilevato un tasso di colesterolemia medio

pari a 270 mg/dl e deviazione standard =79 , pari a 270 mg/dl e deviazione standard =79 ,

sapendo che il tasso medio in soggetti normali sapendo che il tasso medio in soggetti normali è è 210 mg/dl vogliamo verificare se questa 210 mg/dl vogliamo verificare se questa

differenza

differenza è è dovuta al caso oppure no dovuta al caso oppure no

TEST di ipotesi

(13)

Per verificare se la colesterolemia media rilevata nel Per verificare se la colesterolemia media rilevata nel

campione, 270 mg/dl sia significativamente diversa dal valore campione, 270 mg/dl sia significativamente diversa dal valore

normale 210 mg/dl , si parte dall

normale 210 mg/dl , si parte dall ’ipotesi che i due valori medi ’ ipotesi che i due valori medi siano uguali e che la loro differenza

siano uguali e che la loro differenza è è semplicemente dovuta semplicemente dovuta al caso, cio

al caso, cio è è all all ’ ’ errore casuale. errore casuale.

Questa ipotesi di partenza viene chiamata

Questa ipotesi di partenza viene chiamata IPOTESI NULLA e viene indicata come H ₀ quindi:

I due valori sono uguali e la loro differenza è dovuta al caso

IPOTESI NULLA H ₀

(14)

Regione di accettazione di H0

Regione di rifiuto di H0 Regione di

rifiuto di H0

Regione di accettazione di H0

Regione di rifiuto di H0

Regione di rifiuto di H0 Regione di

accettazione di H0

Regione di rifiuto di H0

210 270 270

Il test d’ipotesi quindi consiste nel dimostrare se H 0 è vera

Si considera una distribuzione teorica di probabilità e si verifica se la media campionaria è all’interno dell’intervallo a cui corrisponde il 95% di probabilità oppure è fuori da questo intervallo

Media normale

Media campionaria

Regione di rifiuto di H0 Regione di

rifiuto di H0

?

Regione di

accettazione

di H0

(15)

La logica del TEST di IPOTESI

IPOTESI NULLA H IPOTESI NULLA H ₀ ₀

Non c

Non c’è ’è nessuna differenza, ovvero nessuna differenza, ovvero la differenza osservata

la differenza osservata è è dovuta al caso dovuta al caso

Accetto o rifiuto l

Accetto o rifiuto l ’ ’ ipotesi nulla? ipotesi nulla?

Per rispondere effettuo un

TEST DI IPOTESI

(16)

Errore di 1° tipo: livello di significatività di un test statistico

• Il livello di significatività di un test statistico è α la probabilità di commettere un errore di 1° tipo ovvero è la probabilità di rifiutare l’ipotesi nulla, quando questa è vera

Livello di significatività α = P(errore di 1° tipo ) =

P(rifiutare H ₀ ₀ quando H ₀ ₀ è vera)

(17)

Il livello di significatività 5% viene adottato molto frequentemente in quanto si ritiene che il rapporto 1/20 (cioè 0.05) sia sufficientemente piccolo da poter concludere che sia piuttosto improbabile che la

differenza osservata sia dovuta al semplice caso

Ovviamente, se si vuole escludere con maggiore

probabilità l'effetto del caso, si adotterà un livello di significatività inferiore (es. 1% )

Errore di 1° tipo: livello di

significatività di un test statistico

(18)

Test d’ipotesi tra 2 medie

Per effettuare il test utilizzo una formula chiamata

Per effettuare il test utilizzo una formula chiamata Statistica Test. Statistica Test .

• • Nel caso del confronto tra 2 medie la statistica test Nel caso del confronto tra 2 medie la statistica test è è la la t di t di Student

Student definita come: definita come:

ES ES è è l’ l ’Errore Errore Standard calcolato Standard calcolato come deviazione come deviazione standard divisa standard divisa la la radice

radice della della numerosità numerosit à campionaria: DS/ campionaria : DS/√ √ n n Dove Dove

m m

₁₁

ed ed m m

₂₂

sono le due medie a confronto sono le due medie a confronto

ES ES

m m m ₁ ₁ – – m m ₂ ₂ m ₁ ₁ – – m m ₂ ₂ t = t =

ES ES

m m ₁ ₁ – – m m ₂ ₂

(19)

TEST di IPOTESI tra 2 medie: test t di

TEST di IPOTESI tra 2 medie: test t di Student Student

confronto tra una media campionaria e una media attesa confronto tra una media campionaria e una media attesa

Esempio Esempio

• • Da un indagine campionaria su 50 soggetti, si è Da un indagine campionaria su 50 soggetti, si è rilevato un tasso di colesterolemia medio pari a rilevato un tasso di colesterolemia medio pari a 270 mg/dl e deviazione standard =79 , sapendo che il tasso medio

270 mg/dl e deviazione standard =79 , sapendo che il tasso medio in soggetti normali è in soggetti normali è 210mg/dl vogliamo verificare se questa differenza

210mg/dl vogliamo verificare se questa differenza è è dovuta al caso oppure no dovuta al caso oppure no

= 8,45 (270-210)

79/√50

60 7,1

-1.7 1.7

= =

8,45 8,45

Gradi di libertà: n-1=50-1=49

Rifiuto l

Rifiuto l’ ’ipotesi nulla H ipotesi nulla H

₀₀

: : La differenza

La differenza è è statisticamente statisticamente significatica significatica

Significatività

Valore critico t di student per 49 gradi di liberà

90% 1.299

95% 1.676

97.5% 2.009

99% 2.403

99.5% 2.678

t = t =

ES ES

m m

₁₁

– – m m

₂₂

(20)

• • il risultato del Test di ipotesi va confrontato con un il risultato del Test di ipotesi va confrontato con un VALORE CRITICO

VALORE CRITICO tabulato in apposite tabelle già tabulato in apposite tabelle gi à definite, che riportano definite, che riportano i valori della distribuzione di probabilit

i valori della distribuzione di probabilità à per diversi livelli di per diversi livelli di significativit

significativit à à α α e gradi di libertà e gradi di libert à

• • Se il risultato del test di ipotesi SUPERA Se il risultato del test di ipotesi SUPERA il il valore critico, allora la valore critico , allora la differenza fra i gruppi viene dichiarata

differenza fra i gruppi viene dichiarata statisticamente significativa statisticamente significativa e, e, quindi, l'IPOTESI NULLA viene

quindi, l'IPOTESI NULLA viene RESPINTA RESPINTA . .

• • Se il risultato del test di ipotesi È Se il risultato del test di ipotesi È INFERIORE INFERIORE al valore critico al valore critico, allora , allora la differenza fra i gruppi viene dichiarata

la differenza fra i gruppi viene dichiarata statisticamente NON statisticamente NON significativa

significativa e, quindi, l'IPOTESI NULLA viene ACCETTATA. e, quindi, l'IPOTESI NULLA viene ACCETTATA.

In sintesi

(21)

i gradi di libertà rappresentano il numero di possibilità che i dati che compongono un campione hanno di variare liberamente.

Ma cosa sono i gradi di libertà?

Nel nostro esempio abbiamo 50 valori di colesterolemia, ciascuno dei quali può assumere un valore qualsiasi ed un vincolo, la media deve essere 270, io posso assegnare un valore qualsiasi ai primi 50-1 =49 numeri, ma l'ultimo sarà vincolato dal fatto che la media deve essere 270, quindi in questo caso, i gradi di libertà sono 50-1=49.

In generale si calcolano togliendo dal numero delle unità del

campione il numero delle condizioni cui essi sono vincolati.

(22)

La distribuzione della t di Student cambia al variare dei gradi di libertà: all’aumentare dei gradi di libertà la curva diventa più stretta e più alta!.

La t di Student e i gradi di libertà

Per questo motivo quando applichiamo il test t di

Student, per trovare il valore critico con cui confrontare il valore della statica test

abbiamo bisogno di calcolare i gradi di libertà. Esistono

quindi tanti valori critici a

seconda dei gradi di libertà

(23)

TEST di IPOTESI :test t di

TEST di IPOTESI :test t di Student Student

confronto tra 2 medie campionarie confronto tra 2 medie campionarie

Es. Sono stati rilevati i tempi di ventilazione meccanica, espressi in ore, in due Terapie Intensive post-chirurgiche e si vuole valutare se differiscono in modo

significativo.

m

_a

=6,7 e m

_b

=9,3 n

_a

=13 e n

_b

=11 s=5,76 Applicando questa formula

Risulta: t=1,09 t=1,09 e confrontando questo valore con quello critico della t di Student corrispondente a 22 22 gradi di libertà che è

2,07 2,07 possiamo dire che la differenza Gradi di libertà:(n

_a

-1 )+ (n

_b

-1)=22

TI a: 5 7 9 7 5 15 6 8 4 7 4 5 5

TI b: 11 10 8 0 17 4 0 22 6 24 0

(24)

2,07 2,07

Risulta: t=1,09 t=1,09 e confrontando questo valore con quello critico della t di Student corrispondente a 22 22 gradi di libertà che è

2,07 2,07 possiamo dire che la differenza NON è statisticamente significativa con

p=0.14 p=0.14

1,09 1,09

- - 2,072,07

Il valore della statistica test t di Student è inferiore al valore critico quindi:

L’ipotesi nulla viene accettata. Questo significa che la differenza nei tempi medi di ventilazione meccanica rilevati nelle due Terapie Intensive è dovuta al caso

TEST di IPOTESI :test t di

TEST di IPOTESI :test t di Student Student

confronto tra 2 medie campionarie

(25)

Sintesi TEST di IPOTESI Sintesi TEST di IPOTESI

IPOTESI NULLA IPOTESI NULLA H

₀

La differenza è dovuta al caso

Accetto o rifiuto l

Accetto o rifiuto l’ ’ipotesi nulla? ipotesi nulla?

Per rispondere effettuo un TEST DI IPOTESI

Valore del test Valore del test

maggiore maggiore Valore critico Valore critico Ipotesi nulla

RIFIUTATA RIFIUTATA

differenza differenza significativa significativa

Ipotesi nulla Ipotesi nulla ACCETTATA ACCETTATA

differenza differenza

NON NON Valore del test

Valore del test minore minore Valore critico Valore critico

Confronto il valore ottenuto dal TEST Confronto il valore ottenuto dal TEST con dei valori critici gi

con dei valori critici già à calcolati su apposite tabelle calcolati su apposite tabelle

(26)

Test t di student con SPSS

SPSS

Click Analizza

Confronta medie

Test t campioni indipendenti

(27)

TEST di IPOTESI

TEST di IPOTESI :test :test Chi Chi - - quadrato quadrato

guariti non guariti totali

farmaco 1 52 10 62

farmaco2 40 21 61

totali 92 31 123

Esempio: Si vuole verificare l’efficacia di due diversi farmaci:

le differenze sono statisticamente significative, ad un livello di significatività α del 5%?

guariti (farmaco1)=52/62=84%

guariti (farmaco2)= 40/61=66%

Totale guariti=92/123=74,8%

guariti non guariti totali

farmaco 1 46 16 62

farmaco2 46 15 61

totali 92 31 123

IPOTESI NULLA H

₀₀

: la differenza delle % di guariti è dovuta al CASO, I due farmaci sono ugualmente efficaci

Ipotesi Nulla Dati attesi percentuale di guariti

del 74,8% per entrambi i farmaci

(28)

TEST di IPOTESI

TEST di IPOTESI :test :test Chi Chi - - quadrato quadrato

guariti non guariti totali

farmaco 1 52 10 62

farmaco2 40 21 61

totali 92 31 123

Esempio:

Si vuole verificare l’efficacia di due diversi farmaci:

le differenze sono statisticamente significative, ad un livello di significatività α del 5%?

Per ciascuna combinazione farmaco guariti si calcola

guariti non guariti totali

farmaco 1 46 16 62

farmaco2 46 15 61

totali 92 31 123

Dati campionari rilevati Dati attesi sotto l’ipotesi nulla

(29)

Nel nostro caso, il valore ottenuto è un chi- quadrato con «1 grado di libertà»;

infatti, per tabelle come quella che stiamo studiando,

il grado di libertà è uguale a

(numero di righe-1)x(numero di colonne-1).

Ora, confrontando il nostro valore (5.46) con quelli tabulati, notiamo che esso è >3.841 e <6.635. Ciò consente di ritenere che la differenza

fra i due gruppi sia significativa al livello di significatività α 5% ma non

al livello di significatività 1%.

TEST di IPOTESI

TEST di IPOTESI :test :test Chi Chi - - quadrato quadrato

(30)

Osservazioni

Nell’esempio precedente è stato scelto un livello di significatività α del 5%, cioè si è scelto che il rischio massimo accettabile, di commettere l’errore rifiutando l’ipotesi nulla, quando questa è vera, è il 5%.

la probabilità corrispondente al valore del chi-quadrato 5.46, in corrispondenza di 1 grado di libertà è 0.019 e questo valore prende il nome di p-value.

Quindi il

p p - - value value

della differenza di efficacia dei nostri due farmaci messi a condella differenza di efficacia dei nostri due farmaci messi a confronto fronto èè::

p=0.019 che è minore di α=0.05

In sintesi: il p-value p=0.019 minore di 0.05 (del 5%) significa che la probabilità che la differenza riscontrata sia dovuta al caso è minore del 5% ovvero

la probabilità che la differenza sia statisticamente significativa è del 95%.

Se avessimo scelto un livello di significatività inferiore, ad esempio dell’1%

non avremmo riscontrato alcuna differenza significativa

nell’efficacia dei due farmaci messi a confronto.

(31)

Anche il chi-quadrato come la t di Student varia al variare dei gradi di libertà.

All’aumentare dei gradi di libertà la curva diventa più bassa e più larga!

IL CHI_QUADRATO e i GRADI DI LIBERTA’

(32)

Test CHI-QUADRATO con SPSS

SPSS

Click Analizza

Statistiche descrittive

Tavole di contingenza Statistiche

click Chi-quadrato

(33)

Studio di efficacia:

Studio di efficacia: ODDS RATIO ODDS RATIO

Sì No

Trattati 19 121

Controlli 17 115

LDP

OR=(19/121)/(17/115)=0,157/0,148=1,06

Odds Odds Ratio Ratio

Negli studi di efficacia di un trattamento spesso è necessario mettere a confronto gli esiti del gruppo di trattamento con quelli del gruppo di controllo espressi come

ODDS Ratio. In questo caso il test di ipotesi deve verificare se l’ODDS RATIO è significativamente diverso da 1

Esempio: studio di efficacia di un nuovo trattamento per la prevenzione delle lesioni

da pressione

(34)

TEST per verificare la significatività degli ODDS RATIO

SPSS

Click Analizza

Statistiche descrittive

Tavole di contingenza Statistiche

click Chi-quadrato

click Statistiche di Cochran e Mantel-Heanszel

Il test d’ipotesi utilizzato per verificare se un odds ratio è significativamente diverso da 1 e con quale probabilità (p-value) è il test di Cochran Mantel-

Heanszel, che è una variante del test chi-quadrato

(35)

Stima di Mantel-Haenszel del rapporto odds comune

Stima 1,062

ln(stima) ,060

Errore standard di ln(stima) ,358

Significatività asintotica (2 sensi) ,866

Intervallo di

confidenza al 95%

asintotico

Rapporto odds comune

Limite

inferiore ,526

Limite

superiore 2,144

ln(rapporto odds comune)

Limite

inferiore -,642 Limite

superiore ,763

La stima di Mantel-Haenszel del rapporto odds comune viene distribuita in modo asintotico e normale in base al rapporto odds comune dell'assunzione 1,000, in modo analogo al log naturale della stima.

TEST per verificare la significatività degli ODDS RATIO OUTPUT di SPSS

ODDS RATIO

Intervallo di confidenza p-value

Poichè il p-

value=0,866 ed è

superiore a 0,05

l’odds ratio non è

significativamente

diverso da 1

(36)

In sintesi In sintesi

per il confronto tra 2 MEDIE MEDIE

Test t di

t di Student Student

per il confronto

tra 2 PROPORZIONI o PROPORZIONI o percentuali

percentuali

Test

Chi Chi - - quadrato quadrato

per la Significatività degli ODDS RATIO

Test

di di Cochran Cochran Mantel Mantel Heanszel Heanszel

(37)

Il confronto delle medie tra più di 2 gruppi

Età N° Degenza

media

Std Dev Minimum Maximum

18-30 anni 14 6.6 5.7 2 18

30-40 anni 28 6.4 4.2 2 24

40-50 anni 55 7.9 3.9 3 18

50-60 anni 54 10.9 10.4 2 53

60-70 anni 71 10.5 7.0 3 41

70-80 anni 41 11.8 8.3 2 42

80-90anni 9 15.9 8.5 4 31

Il Test t di Student può essere utilizzato solo per il confronto tra 2 medie

Esempio: su 272 pazienti sottoposti ad intervento chirurgico si vuole valutare se

la degenza media e significativamente diversa tra le classi di età

(38)

Il confronto delle medie tra più di 2 gruppi:

Analisi della Varianza (ANOVA)

L’analisi della varianza (in inglese:

Analysis of Variance, abbreviata con l’acronimo ANOVA) è utilizzata per

testare la significatività statistica delle

differenze tra medie campionarie sulla

base delle rispettive varianze.

(39)

Il principio alla base di questo test è quello di stabilire se due o più medie campionarie possono derivare da

popolazioni che hanno la stessa media.

Analisi della Varianza (ANOVA)

Quando le medie sono solamente due è

indifferente usare l’ANOVA o il test t di Student,

mentre dobbiamo necessariamente utilizzare

l’ANOVA quando le medie sono più di due.

(40)

L'ipotesi alla base dell'analisi della varianza è che :

dati n gruppi, la varianza totale può essere suddivisa in due componenti: Varianza interna ai gruppi Varianza interna ai gruppi (anche detta Within) e

Varianza tra i gruppi

Varianza tra i gruppi (Between).

Varianza totale = Varianza within + Varianza between

Ipotesi nulla H0

Varianza between < Varianza within

e quindi la differenza tra i gruppi è

dovuta alla sola variabilità interna

La logica dell’ANOVA

(41)

Quindi l’analisi della varianza si basa sul rapporto

e la significatività è verificata mediante il test F di Fisher

Analisi della Varianza (ANOVA)

Varianza interna ai gruppi (

Varianza interna ai gruppi ( Within Within ) ) Varianza tra i gruppi (

Varianza tra i gruppi (Between Between ) )

(42)

ANOVA in SPSS

SPSS SPSS Click

Click Analizza Analizza

Confronta medie Confronta medie

ANOVA

ANOVA univariata univariata

Il risultato SPSS per l’ANOVA sulle degenze medie per gruppi di età

ANOVA

durata della degenza (in giorni)

1275.054 6 212.509 3.968 .001

14192.226 265 53.556

15467.279 271

Fra gruppi Entro gruppi Totale

Somma dei

quadrati df

Media dei

quadrati F Sig.

le degenze medie sono significativamente diverse tra le classi di età

considerate

(43)

Gestione ed Analisi Statistica dei dati Gestione ed Analisi Statistica dei dati

Daniela Fortuna Daniela Fortuna