Gestione ed Analisi Statistica dei dati

(1)

Daniela Fortuna Daniela Fortuna

Gestione ed Analisi Statistica dei dati

9 maggio 2014 9 maggio 2014

Master in

Master in ““Evidence BasedEvidence Based PracticePractice e e Metodologia della Ricerca

Metodologia della Ricerca clinicoclinico--assistenzialeassistenziale””

(2)

Come è strutturato il corso

Questo corso prevede 3 giornate di lezione di 7 ore ognuna

Ciascuna giornata di lezione sarà composta di

una

parte teorica

in cui verranno trattati le principali metodologie di analisi statistica per la ricerca clinica

una

parte pratica

in cui verrà affrontato uno studio

concreto e i dati dello studio verranno gestiti ed analizzati con l’utilizzo di SPSS (uno dei software statistici più diffusi )

(3)

A cosa serve la statistica A cosa serve la statistica

Gli scopi della STATISTICA sono di duplice natura

ovvero semplificare la lettura e l’interpretazione dei dati

raccolti mediante tabelle, grafici e sintesi numeriche.

L’esigenza di semplificare deriva dalla limitata capacità della mente umana di gestire informazioni articolate o complesse o multidimensionali.

estendere il risultato dell’analisi effettuata sui dati di un gruppo

limitato di unità statistiche (campione) all’intera collettività di appartenenza (universo, popolazione).

STATISTICA INFERENZIALE STATISTICA INFERENZIALE GENERALIZZARE

SINTETIZZARE

(4)

Inferenza statistica:

generalizzazione dei risultati campionari generalizzazione dei risultati campionari

14 5

18 3

4

19

1 2 8

9

17 16

7 11 20

6

10 15 12

16 5

10 14 7

campionamento Studio del

campione:

RISULTATI

popolazione

Campione

casuale

(5)

Il campione casuale

Per poter applicare i metodi della statistica inferenziale è necessario che il campione sia CASUALE ovvero

è necessario che ciascuna unità della popolazione abbia la stessa probabilità di entrare a far parte del campione Idealmente estrarre un campione casuale è come pescare una pallina dentro un’urna con gli occhi bendati!!!

La scelta della pallina che si estrae è del tutto casuale perchè le palline sono tutte uguali al tatto

Oggi ci siamo evoluti!

non ci sono più urne né bende ma dei

sofisticati software generano numeri casuali!

Ciascun numero casuale generato

(6)

Criteri di selezione dei pazienti il campionamento

Qualunque sia il tipo di studio (osservazionale o

sperimentale) e qualsiasi siano i criteri di inclusione,

la ricerca in ambito clinico si basa su dati campionari

CAMPIONAMENTO CASUALE

(7)

Tipi di Campionamento casuale

Campionamento casuale semplice

Campionamento casuale

stratificato:

Campionamento

si suddivide la popolazione in strati

in base ad una caratteristica di interesse e si campionano le unità di ciascuno strato

si campionano alcuni gruppi della

Si estraggono casualmente le unità dalla popolazione

(8)

Il campione casuale semplice si caratterizza per il fatto che tutti gli elementi della popolazione vengono presi in considerazione ed hanno tutti uguale probabilità di

essere selezionati:

ognuno di essi cioè può "casualmente" costituire una delle unità del campione

CAMPIONAMENTO CASUALE

SEMPLICE

(9)

14 5

18 3

4

19

1 2 8

9

17 16

7

11 20

6

10 15 12

CAMPIONAMENTO CASUALE semplice:

Si estraggono n numeri casuali dalla popolazione

popolazione

Campione casuale

Estrazione casuale

(10)

Esempio di campionamento casuale semplice

Esempio 1: “Si vuole valutare la degenza media dei ricoveri per intervento di ernia inguinale effettuati in Emilia Romagna nel

2013” possiamo estrarre un campione casuale della popolazione definita dai criteri di selezione:

Criteri di inclusione:

pazienti sottoposti ad intervento di ernia inguinale ricoverati in tutte le strutture pubbliche e private accreditate dell’Emilia Romagna nel 2013

Criteri di esclusione Ricoveri in emergenza

(11)

14 5

18 3

4

19

1 2 8

9

17 16

7

11 20

6

10 15 12

Esempio 1:

Degenza media ricoveri per ernia inguinale CAMPIONAMENTO CASUALE semplice:

Popolazione: pazienti sottoposti ad intervento di ernia inguinale ricoverati in tutte le strutture pubbliche e private accreditate dell’Emilia Romagna nel 2013, non

in emergenza Estrazione casuale

(12)

Tipi di Campionamento casuale

Campionamento casuale semplice

Campionamento casuale

stratificato:

Campionamento

si campionano alcuni gruppi della popolazione definiti in base ad una

Si estraggono casualmente (a caso) le unità dalla popolazione

(13)

Nel

campionamento stratificato

gli elementi della popolazione vengono suddivisi in gruppi o strati rispetto ad una

carattestica che maggiormente influenza il fenomeno che si intende studiare (es. sesso, età, reparto ecc.) e da questi gruppi si

estraggono campioni Casuali semplici

– Il campionamento stratificato proporzionale da ogni strato si estrae un campione casuale semplice in modo tale che ogni strato contribuisce alla formazione del campione totale nella stessa misura in cui ogni strato contribuisce a formare l'intera popolazione.

CAMPIONAMENTO CASUALE STRATIFICATO

Per ottenere un campione stratificato proporzionale occorre, naturalmente, conoscere la

(14)

Esempio 2

Campionamento casuale stratificato

Esempio 2: “Si vuole valutare la prevalenza di lesioni da decubito dei pazienti anziani ricoverati negli ospedali pubblici dell’Emilia Romagna (RER)” possiamo estrarre un campione stratificato per reparti.

Si avranno tanti strati quanti sono i reparti e in ciascun strato si effettua un campionamento casuale

Pazienti ricoverati negli ospedali pubblici RER Età ≥ 65 anni

Criteri di esclusione pazienti con LDP

colore pelle nera

(15)

14 5

18 3

4

19 2

1 8

9

17 16

7 11 20

6

10

15 12

14 5

18 3

4

19 2

1 8

9

17 16

7 11 20

6

10

15 12

14 5

18 3

4

19 2

1 8

9

17 16

7 11 20

6

10

15 12

geriatria

medicina

chirurgia

Estrazione casuale

Estrazione casuale Esempio 2

Prevalenza lesioni da decubito negli ospedali pubblici RER Campionamento casuale stratificato per reparti

(TUTTI i REPARTI)

(16)

Tipi di Campionamento casuale

Campionamento casuale semplice

Campionamento casuale

stratificato:

Campionamento casuale a grappolo

si campionano alcuni gruppi della popolazione definiti in base ad una Si estraggono casualmente (a caso) le unità dalla popolazione

(17)

Campionamento casuale a grappolo

si suddivide la popolazione in sottoinsiemi detti grappoli (clusters) e si effettua il campionamento casuale dei grappoli.

• Il metodo non prevede quindi il campionamento diretto degli elementi, ma vengono campionati grappoli di elementi.

• Nel più semplice campionamento a grappoli si può usare la scelta casuale per selezionare i grappoli formati e quindi indagare su tutte le unità

contenute in quelli campionati: campionamento ad uno stadio

CAMPIONAMENTO CASUALE A GRAPPOLO

(18)

14 5

18 3

4

19 2

1 8

9

17 16

7 11 20

6

10

15 12

4 5 2

1 8

9 6

14 5

18 3

4

19 2

1 8

9

17 16

7 11 20

6

10

15 12 24

18 10

15

8 4

6 3 13 9

21

24

18 10

15

8 4

6 3 13 9

21

CAMPIONAMENTO CASUALE A GRAPPOLO

Si suddivide la popolazione in gruppi, si campionano i gruppi e si prendono tutte le unità dei gruppi selezionati

(19)

Esempio 3

Campionamento casuale a grappolo (o cluster)

Esempio 3 “Si vuole valutare l’efficacia di un nuovo prodotto per la prevenzione delle lesioni da pressione nei pazienti con età>=18

sottoposti ad intervento chirurgico di durata compresa tra le 3 e le 8 ore.”

possiamo estrarre casualmente ospedali con reparti chirurgici. Si

avranno tanti cluster quanti sono gli ospedali estratti casualmente e di ciascun ospedale estratto, si considerano tutti i pazienti che soddisfano i criteri di inclusione

sottoposti ad intervento chirurgico di durata compresa tra le 3 e le 8 ore Età ≥ 18 anni

Criteri di esclusione

(20)

14 5

18 3

4

19 2

1 8

9

17 16

7 11 20

6

10

15 12

4 5 2

1 8

9 6

14 5

18 3

4

19 2

1 8

9

17 16

7 11 20

6

10

15 12 24

18 10

15

8 4

6 3 13 9

21

24

18 10

15

8 4

6 3 13 9

21

Esempio 3

Nuovo prodotto per la prevenzione delle LDP CAMPIONAMENTO CASUALE A GRAPPOLO

Ospedale 1

Ospedale 2

Ospedale 3

Ospedale 4 Ospedale 5

(21)

Quando non si conosce la popolazione….

• Nella pratica la maggior parte delle ricerche riguardano pazienti ospedalizzati e il reclutamento dei pazienti

avviene durante il ricovero.

• Si stabilisce un periodo di tempo per il reclutamento, ad esempio dal 5 maggio al 5 giugno, e si includono nel campione tutti i pazienti ammessi in ospedale in quel periodo e che soddisfano i criteri di inclusione

la

casualità casualit à

^è garantita dal fatto che vengono arruolati pazienti, ammessi in ospedale consecutivamente, senza alcuna selezione.

(22)

Studi sperimentali

Un ragionamento a parte merita Un ragionamento a parte merita

la selezione dei pazienti negli Studi sperimentali la selezione dei pazienti negli Studi sperimentali

• Uno studio sperimentale consiste essenzialmente nel selezionare due gruppi di pazienti in modo casuale, affinché siano il più comparabili possibile.

L’esposizione è assegnata ad uno dei due gruppi e si

confrontano poi gli esiti nei due gruppi.

(23)

I passi da intraprendere:

identificare la popolazione sorgente, cioè la popolazione a cui si vuole che i risultati dello studio possano essere generalizzati

Identificare una fonte di reclutamento, come ad esempio un registro di pazienti di un ospedale

Selezionare i potenziali soggetti in base ai criteri di inclusione Chiedere ai soggetti la loro disponibilità a partecipare allo studio Distribuire in modo casuale i soggetti scelti e consenzienti nei 2 gruppi: il gruppo di trattamento e il gruppo di controllo

Selezione dei pazienti negli studi

sperimentali

(24)

Fornisce un metodo imparziale per

l’assegnazione del trattamento ai pazienti, al di fuori di possibili distorsioni personali

Il ruolo della randomizzazione negli RCT

Tende a bilanciare i gruppi in trattamento anche per tutti quei fattori ignoti che

potrebbero condizionare l’esito dei

trattamenti stessi

(25)

Tipi di randomizzazione negli RCT

Randomizzazione

Randomizzazione semplice, semplice mediante tavole di numeri casuali o il lancio della moneta. Assicura la

distribuzione casuale degli individui ma solo nel caso di campioni numerosi.

Randomizzazione

Randomizzazione a blocchi a blocchi preserva da gravi

sbilanciamenti nel caso di campioni poco numerosi

(26)

Il “blocco” è una sequenza che contiene lo stesso numero di pazienti da assegnare al gruppo di

trattamento (A) e a quello dei controlli (B).

Ad esempio, un blocco di 4 genera 6 diverse sequenze, ciascuna delle quali assegna due pazienti al gruppo A e due al B: AABB, ABAB, BBAA, BABA, ABBA, BAAB. Queste sequenze possono essere estratte casualmente e in base ad esse è possibile assegnare i gruppi ai successivi 4 arruolati

Randomizzazione a blocchi

(27)

14 5

18 3

4

19 2

1

8 9

17 16

7

11 20

6

10 15 12

GRUPPO A trattamento

GRUPPO B controllo 1° sequenza : AABB

AABB, ABAB, BBAA, BABA, ABBA, BAAB..

1 55 4

1 5 4 6

1

Randomizzazione a blocchi di 4

Genera 6 sequenze:

(28)

Esempio di randomizzazione a blocchi di 4

14 5

18

3 19

2 1 8 9

17 16

7

11 20

6

10 15 12

2° sequenza : ABAB

GRUPPO B controllo

(29)

Esempio di randomizzazione a blocchi di 4

14

5

18

3 19

2 1 9

17 16

7

11 20

6 10

15 12

3° sequenza : BBAA

AABB, ABAB, BBAA, BABA, ABBA, BAAB..

GRUPPO B controllo

(30)

Esempio di randomizzazione a blocchi di 4

13

5

18

3 19 4

2 1

8 9

17

16 7

11

20

6

10 12

GRUPPO B controllo Risultato della randomizzazione

14

21 22

23 Lo schema di

campionamento casuale a blocchi più diffuso è a 8 o 10 blocchi

22 17 17 14 22

14 11 22 17

11 5 17 14

22 1

11 5 17 14

22 2 1

11 5 17 14

22

7

2 1 11 5

17 14 22

12 7

2 1 11 5

17 14 22

12 7

2 1 11 5

17 14 22

16 12 7

2 1 11 5

17 14 22

13 21

13 9 21

6 13 9

21

6 3 13 9

21 4

6 3 13 9

21

8 4

6 3 13 9

21

10 8 4

6 3 13 9

21

18 10 8 4

6 3 13 9

21

18 10 8 4

6 3 13 9

21

(31)

Randomizzazione a blocchi

come scegliere la grandezza dei blocchi

• Nell’esempio precedente, la randomizzazione a blocchi di 4 ha portato all’estrazione di 24 soggetti: 12 nel gruppo A e 12 nel gruppo B

• Cambiando la grandezza dei blocchi cambia il numero di soggetti estratti.

La formula per calcolare il numero di sequenze è: ^N!^N!

KK₁₁!K!K₂₂!! doveN=grandezza del blocco

K₁= il numero di volte che A deve comparire in ogni blocco K₂= il numero di volte che B deve comparire in ogni blocco

4x3x2x1 Per blocchi di 4 = 6

2x1x2x1 4x3x2x1 2x1x2x1

4x3x2x1 2x1x2x1

6 sequenze x 4=24

(32)

Esempio

trial clinico randomizzazione

• Studio di efficacia di un nuovo sistema per il trattamento riabilitativo respiratorio da associare alla consueta

Fisiokinesiterapia in Terapia Intensiva Postoperatoria

Popolazione di riferimento Criteri di inclusione

pazienti ricoverati in Terapia Intensiva dopo intervento chirurgico Criteri di esclusione

Pazienti sottoposti ad intervento in emergenza

(33)

Reclutamento dei pazienti

Tutti i pazienti consecutivamente ricoverati in Terapia

Intensiva postoperatoria dal 1 settembre al 30 novembre 2013, e che soddisfano i criteri di selezione stabiliti

Attribuzione del trattamento

I pazienti reclutati, vengono distribuiti casualmente, ad uno dei due gruppi (gruppo A di controllo e gruppo B di trattamento) mediante un processo di

randomizzazione,

Metodo di randomizzazione utilizzato: a blocchi di 4

Esempio

trial clinico randomizzazione

(34)

Randomizzazione a blocchi

come scegliere la grandezza dei blocchi

• Nell’esempio precedente, la randomizzazione a blocchi di 4 ha portato all’estrazione di 24 soggetti: 12 nel gruppo A e 12 nel gruppo B

• Cambiando la grandezza dei blocchi cambia il numero di soggetti estratti.

La formula per calcolare il numero di sequenze è: ^N!^N!

KK₁₁!K!K₂₂!! doveN=grandezza del blocco

K₁= il numero di volte che A deve comparire in ogni blocco K₂= il numero di volte che B deve comparire in ogni blocco

4x3x2x1 Per blocchi di 4 = 6

2x1x2x1 4x3x2x1 2x1x2x1

4x3x2x1 2x1x2x1

6 sequenze x 4=24 8x7x6x5x4x3x2x1

8x7x6x5x4x3x2x1

(35)

• Con numerosità limitate possono verificarsi degli sbilanciamenti nelle variabili di confondimento. Per essere certi che ciò non

avvenga, si può procedere con la randomizzazione stratificata, che assicura che entro le variabili considerate nella stratificazione il fattore confondente è omogeneamente distribuito nei 2 gruppi

Randomizzazione Stratificata

a blocchi

(36)

Perchè il campione deve essere casuale

Se il CAMPIONE E’ CASUALE e abbiamo calcolato bene la numerosità

campionaria, l’unico errore che possiamo commettere è un ERRORE CASUALE cioè dovuto al caso e questo tipo di errore può essere stimato

Se il CAMPIONE NON E’ CASUALE può risentire di ERRORI di SELEZIONE chiamati bias, che non possono essere stimati

CAMPIONE DISTORTO

Ad ogni risultato campionario si associa una probabilità o dei limiti probabili di oscillazione

(37)

Che cos’è la probabilità

Definizione di probabilità

La probabilità che si verifichi un dato evento (E) è la proporzione del numero (s) dei casi favorevoli all'evento stesso sul numero (n) dei casi possibili, purché tutti i casi considerati siano ugualmente probabili.

Esempio: In un sacchetto ci sono 7 palline bianche e 3 rosse. Tutte sono fatte dello stesso

materiale, hanno le stesse dimensioni, sono perfettamente sferiche, ugualmente levigate e così via. Infilerò una mano nel sacchetto, senza guardare dentro, ed estrarrò una

pallina a caso. Qual è la probabilità che la pallina estratta sia rossa?

Soluzione:

Le palline in tutto sono 7+3 = 10 quindi i casi possibili: n=10 Ci sono solo 3 palline rosse quindi i casi favorevoli: s=3

L'evento E= "pallina estratta rossa" ha perciò 3 possibilità su 10 di verificarsi

Definisco la sua probabilità come la proporzione dei casi

(38)

La probabilità e il ruolo del caso

Quindi la probabilità di estrarre una pallina rossa da un sacchetto che contiene 10 palline di cui 3 rosse è il 30%.

Ma ATTENZIONE questo non significa che ripetendo 10 volte l’estrazione, avendo cura ogni volta di rimettere la pallina estratta all’interno del sacchetto per garantire a tutte le palline

l’equiprobabilità di essere estratte, otterrò 3 palline rosse!!!!

La probabilità è diversa dalla frequenza che si ottiene in poche estrazioni perché interviene il CASO

L’effetto del CASO si attutisce, fino ad annullarsi, se ripetiamo l’estrazione molte volte, 100, 1000 volte

(39)

Esempio: Lanciando una moneta qual è la probabilità che esca TESTA?

I casi possibili : n=2

Il caso favorevole “testa” : s=1

La probabilità dell’evento E “esce testa” è la proporzione dei casi favorevoli sui casi possibili ovvero P=1/2=0,5=50%

Ripetendo il lancio della moneta varie volte si potrebbero ottenere i seguenti risultati

faccia della moneta

10 lanci 100 lanci 1000 lanci

N° % N° % N° %

Testa 7 70% 56 56% 507 50,7%

Croce 3 30% 44 44% 493 49,3%

La probabilità e il ruolo del caso

(40)

La numerosità campionaria e l’effetto del caso

Le stesse considerazioni possono essere estese ai

campioni casuali

: - Il CASO agisce in modo analogo quando estraiamo casualmente le

unità che entrano a far parte del campione quindi

maggiore è la numerosità del campione e minore è l’errore casuale

CAMPIONE GRANDE

ERRORE CASUALE PICCOLOERRORE CASUALE PICCOLO

CAMPIONE PICCOLO

ERRORE CASUALE GRANDE ERRORE CASUALE GRANDE

(41)

Più campioni e l’effetto del caso

Se ripetessimo tante volte il campionamento ovvero se

prendessimo un numero elevato di campioni da una stessa

popolazione, ciascun campione darebbe dei risultati diversi ma riportando su un istogramma le frequenze dei risultati ci

accorgeremmo che alcuni risultati sono più frequenti di altri ovvero più probabili di altri

Come agisce la casualità in campioni ripetuti?

(42)

Curva di distribuzione Normale o Gaussiana

=media

x

σ =deviazione standard

Frequenze delle misurazioni del diametro della luna effettuate da Gauss

servendosi di un telescopio si dedicò a calcolare con precisione il diametro della luna, ma i valori che

otteneva erano leggermente diversi ad ogni misurazione.

Rappresentando la frequenza delle misurazioni con un istogramma ricavò una curva a campana in cui la maggior parte dei valori si concentrava intorno alla media

Gauss studiò il comportamento degli errori di misura.

CarlFriedrichGauss (1777-1855) matematico, astronomo e fisico tedesco, che ha dato contributi determinanti in vari campi, inclusi analisi matematica, teoria dei numeri, statistica, calcolo numerico, geometria differenziale, geodesia, geofisica, magnetismo, elettrostatica, astronomia e ottica.

(43)

Media e deviazione standard

X = Media è la somma dei valori ottenuti diviso il numero delle misurazioni effettuate (X₁+X₂+…+ X_n)

σ

=Deviazione Standard esprime la deviazione media di ciascun valore dalla media ed è calcolata come la somma del quadrato delle differenze di ciascun valore dalla media, diviso il numero delle osservazioni e prendendo la radice quadrata del risultato.

Algebricamente per un set di n valori (X₁,X₂,…, X_n) la deviazione standard è scritta come segue:

σ =

n Σ(X_i-X)²

Dove Σ(X

X = n

(44)

Esempio di calcolo della deviazione standard

ID età

1 27

2 31

3 30

4 27

5 29

6 31

7 44

8 32

9 35

10 40

11 39

12 34

13 25

14 40

15 30

16 33

Distribuzione delle età di 19 soggetti

Età media=33,7

Deviazione Standard: σ =

n Σ(X_i-X)² Deviazione Standard:

Distribuzione frequenza delle età

0%

2%

4%

6%

8%

10%

12%

14%

16%

18%

25 27 28 29 30 31 32 33 34 35 39 40 44 46

(45)

ID età (Xi-X) (Xi-X)²

1 27 (27-33,7) (27-33,7)²

2 31 (31-33,7) (31-33,7)²

3 30 (30-33,7) (30-33,7)²

4 27 (27-33,7) (27-33,7)²

5 29 (29-33,7) (29-33,7)²

6 31 (31-33,7) (31-33,7)²

7 44 (44-33,7) (44-33,7)²

8 32 (32-33,7) (32-33,7)²

9 35 (35-33,7) (35-33,7)²

10 40 (40-33,7) (40-33,7)²

11 39 (39-33,7) (39-33,7)²

12 34 (34-33,7) (34-33,7)²

13 25 (25-33,7) (25-33,7)²

14 40 (40-33,7) (40-33,7)²

15 30 (30-33,7) (30-33,7)²

16 33 (33-33,7) (33-33,7)²

17 28 (28-33,7) (28-33,7)²

18 40 (40-33,7) (40-33,7)²

Esempio di calcolo della deviazione standard

Età media=33,7

Deviazione Standard: σ =

n Σ(X_i-X)²

Σ(X_i-X)² 671,71

n = 19 = 35,35

σ =

n Σ(X_i-X)²

= √35,5 = 5,9

Quindi possiamo dire che l’età media dei 19 soggetti considerati è di 34 anni, con una variabilità o

dispersione intorno alla media di circa 6 anni Deviazione Standard:

Varianza

Deviazione Standard

(46)

...torniamo alla curva di Gauss

Distribuzione frequenza delle età

0%

2%

4%

6%

8%

10%

12%

14%

16%

18%

25 27 28 29 30 31 32 33 34 35 39 40 44 46

Età X +σ

X -σ x Questa è la

distribuzione

frequenze dell’età, con età media e deviazione standard

=media

x

Frequenze delle misurazioni del diametro

della luna effettuate da Gauss

=media

x

=media

x

=media

x

=media

x

(47)

Ad esempio campione per stimare il body mass index (BMI) medio della popolazione

Considerando un elevato numero

di campioni casuali e riportando sul grafico i valori medi

ottenuti in ciascun campione

normopeso Risultati del 1°campione

0%

2%

4%

6%

8%

10%

12%

13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 Body Mass Index

Media=25.3 Deviazione standard=2.8 Mediana=25

normopeso

4 6 8 10 12 14

Risultati del 2°campione

Media=24.1 Deviazione standard=1.8 Mediana=24

Normopeso

Curva di distribuzione Normale o Gaussiana

(48)

Curva di distribuzione Normale o Gaussiana:

^esempio

Utilizzo di diversi campioni per stimare il valore glicemico medio della popolazione e il range dei valori più probabili (ovvero il range dei valori normali) di glicemia

Considerando un elevato numero di campioni casuali e riportando sul grafico

i valori medi

ottenuti in ciascun campione

Valori glicemici nella Valori normali

Glicemia (mg/dl)

Media=96,6

Valori normali

Media=86,7

Media=102,3

Nel 95% dei campioni otterremmo un valore medio

(49)

In sintesi

• Estraiamo tantissimi (o anche tutti i possibili campioni) da una stessa popolazione

• Calcoliamo per ciascun campione un valore medio

• Riportiamo i valori medi su un istogramma

• L’istogramma che otteniamo è simile ad una distribuzione Normale

• • La media delle medie campionarie è La media delle medie campionarie è uguale alla uguale alla media della popolazione

media della popolazione

, perché ogni possibile campione conterrà ogni individuo lo stesso numero di volte

(50)

L’area sotto la curva di Gauss

Tutta l’area sottesa alla curva rappresenta il 100% dei dati

100%

L’area compresa tra: la media ±1σ=68,2%

la media ±1,96σ=95%

la media ±2σ=95,4%

la media ±3σ=99,7%

AREE note sotto la curva normale

(51)

Aree note della curva normale

(52)

Altre caratteristiche della curva normale

La Media, la Media MedianaMediana e la ModaModa coincidono

Media=mediana=moda

Diversa

media media

comporta una traslazione a dx o a sx

deviazione standard deviazione standard

La sua forma dipende unicamente dalla

media

e dalla deviazione standarddeviazione standard

(53)

La curva normale standardizzata

E’ possibile trasformare ogni curva normale , in una curva standard con:

media media =0 e

deviazione standard deviazione standard=1

Mediante una standardizzazione:

sostituendo a ciascun valore della x lo sostituendo a ciascun valore della x lo scarto dalla media diviso la deviazione scarto dalla media diviso la deviazione standard

standard e si ottiene:

Z=(xZ=(x--x)/sx)/s

(54)

Le distribuzione di probabilità teoriche più usate

la distribuzione CHI CHI - - QUADRATO QUADRATO

la distribuzione T DI STUDENT T DI STUDENT

la distribuzione NORMALE NORMALE

(55)

La STIMA :intervalli di confidenza

Le distribuzioni di probabilit

Le distribuzioni di probabilit à à teoriche teoriche servono per la stima

servono per la stima

La stima pi

La stima pi ù ù utilizzata utilizzata è è la stima per intervalli la stima per intervalli

INTERVALLI DI CONFIDENZA

(56)

La precisione della Stima e l

La precisione della Stima e l ’ ’ Errore Errore Standard

Standard

ERRORE STANDARD descrivedescrive l’l’incertezzaincertezza nellanella stimastima ed èed è calcolato comecalcolato come Errore

Errore Standard= Standard= σσ/√/√ nn

Dove σσ è la deviazione standard ed nn è la numerosità del campione

Deviazione descrive lo scostamento mediodescrive lo scostamento medio di ciascun valore osservato di ciascun valore osservato

L’L’ERRORE STANDARDERRORE STANDARD èè diversodiverso dalla DEVIAZIONE STANDARDDEVIAZIONE STANDARD

ERRORE STANDARD:

indica la variabilità di una stima (es. percentuale, media) tanto pi

tanto piùù piccolo èpiccolo è l’l’errore standard tanto pierrore standard tanto piùù precisa èprecisa è la stimala stima

(57)

STIMA per INTERVALLI

La stima per intervalli fornisce un intervallo, che ha una predeterminata probabilità (in genere, il 95%) di contenere il valore vero della popolazione.

gli intervalli ottenuti da campioni diversi in genere si

sovrappongono.

(58)

Intervalli di confidenza

INTERVALLO DI CONFIDENZA

95%

⁼

stima

^±

1,96

^Errore ^Standard

INTERVALLO DI

INTERVALLO DI CONFIDENZA CONFIDENZA

95%

⁼

stima

^±

1,96

Valore campionario

Incertezza L’intervallo di confidenza si costruisce sommando e sottraendo al valore ottenuto dal campione una quantità che esprime l’incertezza

Il limite inferiore=stima – 1,96 x Errore Standard Il limite superiore=stima + 1,96 x Errore Standard

(59)

Stima per intervalli

stima

è il valore che si ottiene dal campione

95%

⁼

stima

^±

1,96

INTERVALLO DI

95%

⁼

^stima

^±

1,96

99%

⁼

^stima

^±

2,58

INTERVALLO DI

99%

⁼

^stima

^±

2,58

Se la stima è una proporzione pproporzione p errore standard= √(p*(1-p)/n)

(60)

Ma quindi cosa significa un intervallo di confidenza al 95% ? Significa che questo intervallo contiene il valore vero della popolazione con una probabilità del 95%

Mentre la probabilità che il valore vero sia esterno a tale intervallo è del 5%

Definizione intervallo di confidenza

Quindi quando stimiamo un intervallo di confidenza al 95%

Significa che siamo disposti ad accettare un errore del 5% errore 5%

che viene definito LIVELLO DI SIGNIFICATIVITA LIVELLO DI SIGNIFICATIVITA ’ ’ e viene e viene indicato con

indicato con α α (alfa) (alfa)

(61)

Esempio: In un campione di 3500 pazienti sottoposti ad intervento cardiochirurgico, in Emilia-Romagna, è stata rilevata una prevalenza di diabete pari al 22,9% (ovvero una proporzione di 0.229 con deviazione standard pari al 0.42 )

Calcolate l’intervallo di confidenza al 95% della prevalenza di diabete rilevata

Intervallo di confidenza al 95% (IC95%)= 0,229 ± 1,96* 0.0071 Limite inferiore= 0.229 - 1,96* 0.0071 =0.215=21,5%

Limite superiore= 0,229 +1,96* 0.0071 =0.24 = 24%

Esempio: intervallo di confidenza di una proporzione

L’errore standard è √(p*(1-p)/n) =√ 0,229*(1-0,229)/3500 =0.0071

(62)

Sono stati selezionati 357 pazienti sottoposti ad esami diagnostici, da una popolazione di età superiore ai 65 anni. Il valore medio di

creatinina nel campione in studio è di 1,19 mg/dl con deviazione standard DS= 0,8 mg/dl. Calcolare un intervallo di confidenza al 95% per la media della popolazione basato sul campione.

Esempio: intervallo di confidenza

di una media

(63)

Risposta IC95%:

(1,19 - 1.96 x 0,8/√357, 1,19 + 1.96 x 0,8/√357) = (1,11 – 1,27)

Calcolate l’intervallo di confidenza

nel caso in cui la numerosità campionaria fosse 50.

Come cambierebbe il risultato?

IC95%: (1,19 - 1.96 x 0,8/√50, 1,19 + 1.96 x 0,8/√50) = (0,97-1,41) Qualora nel campione di 357 individui con creatinina media 1,19 mg/dl,

si fosse rilevata una deviazione standard pari a 0,3 come cambierebbe il risultato?

IC95%: (1,19 - 1.96 x 0,3/√357, 1,19 + 1.96 x 0,3/√357) = (1,16 – 1,22)

intervalli di confidenza per una media

soluzione esempio

(64)

L’ampiezza dell’intervallo di confidenza

L’ampiezza dell’intervallo di confidenza DIMINUISCE se

Diminuisce il livello di confidenza es da 99% a 95%

AUMENTA la numerosità campionaria

Diminuisce la variabilità indicata dalla deviazione standard

(65)

Introduzione ad SPSS

(66)

Introduzione ad SPSS

SPSS (S ^tatistical P ^{ackage for} S ^ocial S ^ciences )

è un software per l’analisi statistica dei dati

Oltre all’elaborazione dei dati questo software permette:

la creazione di database ovvero l’inserimento dei dati direttamente in SPSS l’ importazione di database creati con altri programmi come EXCEL, ACCESS la gestione di database: es creazione di nuove variabili, modifica delle

variabili già esistenti, selezione dei casi, unione e collegamento tra database

(67)

l’inserimento dati e

la preparazione del dataset

Con dataset intendiamo il file dati in formato

SPSS, all’interno del quale sono salvati i dati, organizzati in variabili.

Quindi il dataset contiene i dati organizzati da SPSS in modo che siano direttamente

utilizzabili per le analisi

(68)

Come è fatto un dataset

Ogni sessione di SPSS si apre con una finestra di dati nuova, vuota e pronta per l’inserimento dei dati

Questa finestra deve

contenere un dataset al fine di poter lanciare qualunque analisi

(69)

Come è fatto un dataset

La finestra dei dati è organizzata a celle, in righe e colonne.

Le colonne contengono le variabili.

Le righe contengono i soggetti (o in generale i casi) e

ogni cella contiene il dato del relativo soggetto nella variabile corrispondente.

var1 var2 var3 var4 var5 var6 var7 var8 var9

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

Le righe indicano i casi

Le colonne indicano le variabili:

(70)

Vediamo concretamente come è fatto un dataset in SPSS…..

Il dataset che vedremo riguarda un indagine effettuata su 36 pazienti in trattamento emodialitico.

Lo studio mette a confronto due diverse tecniche per l’accesso alla fistola artero-venosa (FAV):

la tecnica Buttonhole vs la tecnica rope ladder rotation

la Buttonhole (BH) prevede un sito costante e l’utilizzo dell’ago smusso la Rope-Ladder Rotation (RLR) consiste nel cambiare il sito di punture ad ogni seduta lungo la FAV come se fosse una corda e prevede l’utilizzo dell’ago tagliente.

(71)

Obiettivi dello studio

•Oggetto dello studio: L'obiettivo primario dello studio è: misurare l’incidenza media del dolore nel Tagliente rispetto allo Smusso nelle punture con tecnica BH, utilizzando una scala numerica (0=nessun dolore – 10=dolore massimo).[media, SD, mediana;

diff. di medie]

Gli obiettivi secondari dello studio consistono nel misurare le seguenti Complicanze:

1. Infezioni 2. ematoma

3. perdita perivasale ematica

4. sanguinamento espresso in minuti – Tempo medio, SD, Mediana, 5. difficoltà di inserimento

(72)

Dataset linkabili con chiave

Per questo studio abbiamo due dataset distinti

1. Dataset dei pazienti: in cui sono inserite le caratteristiche demografiche e cliniche dei 36 pazienti

2. Dataset dei casi: in cui sono inserite le informazioni relative alle procedure di emodialisi: 335 procedure.

I due dataset sono linkabili mediante una chiave che

identifica il paziente e ciascun paziente avrà più sedute per

emodialisi

(73)

Dopo aver importato il database dobbiamo

Preparare il database per l’analisi dei dati

1. Definire le variabili:

(numeriche, ordinali, nominali)

3. Verificare la completezza (per individuare eventuali valori mancanti o valori anomali)

4. Creare nuove variabili

2. Attribuire una label (etichetta) a ciascuna variabile:

cioè un commento associato per chiarire cosa

rappresentano

(74)

1. Definire le variabili:

(numeriche, stringa, data ecc.)

Click su

Click su Tipo

Click su Visualizzazione variabili

(75)

Definire le variabili: (scala, ordinali, nominali)

Click su Click su

Misura Misura

(76)

Attribuire una label a ciascuna variabile: cioè un commento associato per chiarire cosa

rappresentano

Click su valori

(77)

Descrizione del campione

La descrizione del campione prevede la costruzione di una tabella che riporta i valori medi o le frequenze delle

caratteristiche del campione:

– le variabile quantitative vengono presentate come media ±deviazione standard

– le variabili ordinali vengono presentate come

frequenze assolute e percentuali

(78)

Descrizione del

campione:Variabili quantitative

– le variabile quantitative vengono presentate come media ±deviazione standard

In SPSS possiamo costruire una tabella unica per le variabili quantitative:

Possiamo scegliere tra due funzioni alternative:

SPSS

Click Analizza

Statistiche descrittive Descrittive

inserire le variabili quantitative

Opzioni……

click media, deviazione stand 1° funzione

SPSS

(79)

SPSS

Click Analizza Tabelle

Tabelle personalizzate

inserire le variabili quantitative per riga

Statistiche riassuntive click media, deviazione stand 2° funzione

SPSS

Descrizione del

campione:Variabili quantitative

Questa seconda funzione di SPSS permette di personalizzare le tabelle, sia nei contenuti che nella presentazione.

Tutte le tabelle prodotte da SPSS possono essere copiate su file

(80)

– le variabili ordinali vengono presentate come frequenze e percentuali

Descrizione del

campione:Variabili ordinali

SPSS

Click Analizza

Statistiche descrittive Frequenze

Statistiche 1° modo Per

ottenere sia le frequenze che la

mediana, il minimo e il massimo

2° modo Per ottenere tabelle

personalizzate per le frequenze

SPSS

(81)

Descrizione del

campione:Variabili qualitative

le variabili qualitative vengono presentate come frequenze assolute e percentuali

SPSS

Click Analizza

Statistiche descrittive Frequenze

Statistiche 1° modo

2° modo Per ottenere tabelle personalizzate

SPSS