Daniela Fortuna Daniela Fortuna
Gestione ed Analisi Statistica dei dati
9 maggio 2014 9 maggio 2014
Master in
Master in ““Evidence BasedEvidence Based PracticePractice e e Metodologia della Ricerca
Metodologia della Ricerca clinicoclinico--assistenzialeassistenziale””
Come è strutturato il corso
Questo corso prevede 3 giornate di lezione di 7 ore ognuna
Ciascuna giornata di lezione sarà composta di
una
parte teorica
in cui verranno trattati le principali metodologie di analisi statistica per la ricerca clinicauna
parte pratica
in cui verrà affrontato uno studioconcreto e i dati dello studio verranno gestiti ed analizzati con l’utilizzo di SPSS (uno dei software statistici più diffusi )
A cosa serve la statistica A cosa serve la statistica
Gli scopi della STATISTICA sono di duplice natura
ovvero semplificare la lettura e l’interpretazione dei dati
raccolti mediante tabelle, grafici e sintesi numeriche.
L’esigenza di semplificare deriva dalla limitata capacità della mente umana di gestire informazioni articolate o complesse o multidimensionali.
estendere il risultato dell’analisi effettuata sui dati di un gruppo
limitato di unità statistiche (campione) all’intera collettività di appartenenza (universo, popolazione).
STATISTICA INFERENZIALE STATISTICA INFERENZIALE GENERALIZZARE
SINTETIZZARE
Inferenza statistica:
Inferenza statistica:
generalizzazione dei risultati campionari generalizzazione dei risultati campionari
14 5
18 3
4
19
1 2 8
9
17 16
7 11 20
6
10 15 12
16 5
10 14 7
campionamento Studio del
campione:
RISULTATI
popolazione
Campione
casuale
Il campione casuale
Per poter applicare i metodi della statistica inferenziale è necessario che il campione sia CASUALE ovvero
è necessario che ciascuna unità della popolazione abbia la stessa probabilità di entrare a far parte del campione Idealmente estrarre un campione casuale è come pescare una pallina dentro un’urna con gli occhi bendati!!!
La scelta della pallina che si estrae è del tutto casuale perchè le palline sono tutte uguali al tatto
Oggi ci siamo evoluti!
non ci sono più urne né bende ma dei
sofisticati software generano numeri casuali!
Ciascun numero casuale generato
Criteri di selezione dei pazienti il campionamento
Qualunque sia il tipo di studio (osservazionale o
sperimentale) e qualsiasi siano i criteri di inclusione,
la ricerca in ambito clinico si basa su dati campionari
CAMPIONAMENTO CASUALE
Tipi di Campionamento casuale
Campionamento casuale semplice
Campionamento casuale
stratificato:
Campionamento
si suddivide la popolazione in strati
in base ad una caratteristica di interesse e si campionano le unità di ciascuno strato
si campionano alcuni gruppi della
Si estraggono casualmente le unità dalla popolazione
Il campione casuale semplice si caratterizza per il fatto che tutti gli elementi della popolazione vengono presi in considerazione ed hanno tutti uguale probabilità di
essere selezionati:
ognuno di essi cioè può "casualmente" costituire una delle unità del campione
CAMPIONAMENTO CASUALE
SEMPLICE
14 5
18 3
4
19
1 2 8
9
17 16
7
11 20
6
10 15 12
CAMPIONAMENTO CASUALE semplice:
Si estraggono n numeri casuali dalla popolazione
popolazione
Campione casuale
Estrazione casuale
Esempio di campionamento casuale semplice
Esempio 1: “Si vuole valutare la degenza media dei ricoveri per intervento di ernia inguinale effettuati in Emilia Romagna nel
2013” possiamo estrarre un campione casuale della popolazione definita dai criteri di selezione:
Criteri di inclusione:
pazienti sottoposti ad intervento di ernia inguinale ricoverati in tutte le strutture pubbliche e private accreditate dell’Emilia Romagna nel 2013
Criteri di esclusione Ricoveri in emergenza
14 5
18 3
4
19
1 2 8
9
17 16
7
11 20
6
10 15 12
Esempio 1:
Degenza media ricoveri per ernia inguinale CAMPIONAMENTO CASUALE semplice:
Popolazione: pazienti sottoposti ad intervento di ernia inguinale ricoverati in tutte le strutture pubbliche e private accreditate dell’Emilia Romagna nel 2013, non
in emergenza Estrazione casuale
Tipi di Campionamento casuale
Campionamento casuale semplice
Campionamento casuale
stratificato:
Campionamento
si suddivide la popolazione in strati
in base ad una caratteristica di interesse e si campionano le unità di ciascuno strato
si campionano alcuni gruppi della popolazione definiti in base ad una
Si estraggono casualmente (a caso) le unità dalla popolazione
Nel
campionamento stratificato
gli elementi della popolazione vengono suddivisi in gruppi o strati rispetto ad unacarattestica che maggiormente influenza il fenomeno che si intende studiare (es. sesso, età, reparto ecc.) e da questi gruppi si
estraggono campioni Casuali semplici
– Il campionamento stratificato proporzionale da ogni strato si estrae un campione casuale semplice in modo tale che ogni strato contribuisce alla formazione del campione totale nella stessa misura in cui ogni strato contribuisce a formare l'intera popolazione.
CAMPIONAMENTO CASUALE STRATIFICATO
Per ottenere un campione stratificato proporzionale occorre, naturalmente, conoscere la
Esempio 2
Campionamento casuale stratificato
Esempio 2: “Si vuole valutare la prevalenza di lesioni da decubito dei pazienti anziani ricoverati negli ospedali pubblici dell’Emilia Romagna (RER)” possiamo estrarre un campione stratificato per reparti.
Si avranno tanti strati quanti sono i reparti e in ciascun strato si effettua un campionamento casuale
Criteri di inclusione:
Pazienti ricoverati negli ospedali pubblici RER Età ≥ 65 anni
Criteri di esclusione pazienti con LDP
colore pelle nera
14 5
18 3
4
19 2
1 8
9
17 16
7 11 20
6
10
15 12
14 5
18 3
4
19 2
1 8
9
17 16
7 11 20
6
10
15 12
14 5
18 3
4
19 2
1 8
9
17 16
7 11 20
6
10
15 12
geriatria
medicina
chirurgia
Estrazione casuale
Estrazione casuale
Estrazione casuale Esempio 2
Prevalenza lesioni da decubito negli ospedali pubblici RER Campionamento casuale stratificato per reparti
(TUTTI i REPARTI)
Tipi di Campionamento casuale
Campionamento casuale semplice
Campionamento casuale
stratificato:
Campionamento casuale a grappolo
si suddivide la popolazione in strati
in base ad una caratteristica di interesse e si campionano le unità di ciascuno strato
si campionano alcuni gruppi della popolazione definiti in base ad una Si estraggono casualmente (a caso) le unità dalla popolazione
Campionamento casuale a grappolo
si suddivide la popolazione in sottoinsiemi detti grappoli (clusters) e si effettua il campionamento casuale dei grappoli.
• Il metodo non prevede quindi il campionamento diretto degli elementi, ma vengono campionati grappoli di elementi.
• Nel più semplice campionamento a grappoli si può usare la scelta casuale per selezionare i grappoli formati e quindi indagare su tutte le unità
contenute in quelli campionati: campionamento ad uno stadio
CAMPIONAMENTO CASUALE A GRAPPOLO
14 5
18 3
4
19 2
1 8
9
17 16
7 11 20
6
10
15 12
4 5 2
1 8
9 6
14 5
18 3
4
19 2
1 8
9
17 16
7 11 20
6
10
15 12 24
18 10
15
8 4
6 3 13 9
21
24
18 10
15
8 4
6 3 13 9
21
CAMPIONAMENTO CASUALE A GRAPPOLO
Si suddivide la popolazione in gruppi, si campionano i gruppi e si prendono tutte le unità dei gruppi selezionati
Esempio 3
Campionamento casuale a grappolo (o cluster)
Esempio 3 “Si vuole valutare l’efficacia di un nuovo prodotto per la prevenzione delle lesioni da pressione nei pazienti con età>=18
sottoposti ad intervento chirurgico di durata compresa tra le 3 e le 8 ore.”
possiamo estrarre casualmente ospedali con reparti chirurgici. Si
avranno tanti cluster quanti sono gli ospedali estratti casualmente e di ciascun ospedale estratto, si considerano tutti i pazienti che soddisfano i criteri di inclusione
Criteri di inclusione:
sottoposti ad intervento chirurgico di durata compresa tra le 3 e le 8 ore Età ≥ 18 anni
Criteri di esclusione
14 5
18 3
4
19 2
1 8
9
17 16
7 11 20
6
10
15 12
4 5 2
1 8
9 6
14 5
18 3
4
19 2
1 8
9
17 16
7 11 20
6
10
15 12 24
18 10
15
8 4
6 3 13 9
21
24
18 10
15
8 4
6 3 13 9
21
Esempio 3
Nuovo prodotto per la prevenzione delle LDP CAMPIONAMENTO CASUALE A GRAPPOLO
Ospedale 1
Ospedale 2
Ospedale 3
Ospedale 4 Ospedale 5
Quando non si conosce la popolazione….
• Nella pratica la maggior parte delle ricerche riguardano pazienti ospedalizzati e il reclutamento dei pazienti
avviene durante il ricovero.
• Si stabilisce un periodo di tempo per il reclutamento, ad esempio dal 5 maggio al 5 giugno, e si includono nel campione tutti i pazienti ammessi in ospedale in quel periodo e che soddisfano i criteri di inclusione
la
casualità casualit à
è garantita dal fatto che vengono arruolati pazienti, ammessi in ospedale consecutivamente, senza alcuna selezione.Studi sperimentali
Un ragionamento a parte merita Un ragionamento a parte merita
la selezione dei pazienti negli Studi sperimentali la selezione dei pazienti negli Studi sperimentali
• Uno studio sperimentale consiste essenzialmente nel selezionare due gruppi di pazienti in modo casuale, affinché siano il più comparabili possibile.
L’esposizione è assegnata ad uno dei due gruppi e si
confrontano poi gli esiti nei due gruppi.
I passi da intraprendere:
identificare la popolazione sorgente, cioè la popolazione a cui si vuole che i risultati dello studio possano essere generalizzati
Identificare una fonte di reclutamento, come ad esempio un registro di pazienti di un ospedale
Selezionare i potenziali soggetti in base ai criteri di inclusione Chiedere ai soggetti la loro disponibilità a partecipare allo studio Distribuire in modo casuale i soggetti scelti e consenzienti nei 2 gruppi: il gruppo di trattamento e il gruppo di controllo
Selezione dei pazienti negli studi
sperimentali
Fornisce un metodo imparziale per
l’assegnazione del trattamento ai pazienti, al di fuori di possibili distorsioni personali
Il ruolo della randomizzazione negli RCT
Tende a bilanciare i gruppi in trattamento anche per tutti quei fattori ignoti che
potrebbero condizionare l’esito dei
trattamenti stessi
Tipi di randomizzazione negli RCT
Randomizzazione
Randomizzazione semplice, semplice mediante tavole di numeri casuali o il lancio della moneta. Assicura la
distribuzione casuale degli individui ma solo nel caso di campioni numerosi.
Randomizzazione
Randomizzazione a blocchi a blocchi preserva da gravi
sbilanciamenti nel caso di campioni poco numerosi
Il “blocco” è una sequenza che contiene lo stesso numero di pazienti da assegnare al gruppo di
trattamento (A) e a quello dei controlli (B).
Ad esempio, un blocco di 4 genera 6 diverse sequenze, ciascuna delle quali assegna due pazienti al gruppo A e due al B: AABB, ABAB, BBAA, BABA, ABBA, BAAB. Queste sequenze possono essere estratte casualmente e in base ad esse è possibile assegnare i gruppi ai successivi 4 arruolati
Randomizzazione a blocchi
14 5
18 3
4
19 2
1
8 9
17 16
7
11 20
6
10 15 12
GRUPPO A trattamento
GRUPPO B controllo 1° sequenza : AABB
AABB, ABAB, BBAA, BABA, ABBA, BAAB..
1 55 4
1 5 4 6
1
Randomizzazione a blocchi di 4
Genera 6 sequenze:
Esempio di randomizzazione a blocchi di 4
14 5
18
3 19
2 1 8 9
17 16
7
11 20
6
10 15 12
2° sequenza : ABAB
AABB, ABAB, BBAA, BABA, ABBA, BAAB..
GRUPPO A trattamento
GRUPPO B controllo
Esempio di randomizzazione a blocchi di 4
14
5
18
3 19
2 1 9
17 16
7
11 20
6 10
15 12
3° sequenza : BBAA
AABB, ABAB, BBAA, BABA, ABBA, BAAB..
GRUPPO A trattamento
GRUPPO B controllo
Esempio di randomizzazione a blocchi di 4
13
5
18
3 19 4
2 1
8 9
17
16 7
11
20
6
10 12
GRUPPO B controllo Risultato della randomizzazione
AABB, ABAB, BBAA, BABA, ABBA, BAAB..
14
21 22
23 Lo schema di
campionamento casuale a blocchi più diffuso è a 8 o 10 blocchi
22 17 17 14 22
14 11 22 17
11 5 17 14
22 1
11 5 17 14
22 2 1
11 5 17 14
22
7
2 1 11 5
17 14 22
12 7
2 1 11 5
17 14 22
12 7
2 1 11 5
17 14 22
16 12 7
2 1 11 5
17 14 22
13 21
13 9 21
6 13 9
21
6 3 13 9
21 4
6 3 13 9
21
8 4
6 3 13 9
21
10 8 4
6 3 13 9
21
18 10 8 4
6 3 13 9
21
18 10 8 4
6 3 13 9
21
GRUPPO A trattamento
Randomizzazione a blocchi
come scegliere la grandezza dei blocchi
• Nell’esempio precedente, la randomizzazione a blocchi di 4 ha portato all’estrazione di 24 soggetti: 12 nel gruppo A e 12 nel gruppo B
• Cambiando la grandezza dei blocchi cambia il numero di soggetti estratti.
La formula per calcolare il numero di sequenze è: N!N!
KK11!K!K22!! doveN=grandezza del blocco
K1= il numero di volte che A deve comparire in ogni blocco K2= il numero di volte che B deve comparire in ogni blocco
4x3x2x1 Per blocchi di 4 = 6
2x1x2x1 4x3x2x1 2x1x2x1
4x3x2x1 2x1x2x1
6 sequenze x 4=24
Esempio
trial clinico randomizzazione
• Studio di efficacia di un nuovo sistema per il trattamento riabilitativo respiratorio da associare alla consueta
Fisiokinesiterapia in Terapia Intensiva Postoperatoria
Popolazione di riferimento Criteri di inclusione
pazienti ricoverati in Terapia Intensiva dopo intervento chirurgico Criteri di esclusione
Pazienti sottoposti ad intervento in emergenza
Reclutamento dei pazienti
Tutti i pazienti consecutivamente ricoverati in Terapia
Intensiva postoperatoria dal 1 settembre al 30 novembre 2013, e che soddisfano i criteri di selezione stabiliti
Attribuzione del trattamento
I pazienti reclutati, vengono distribuiti casualmente, ad uno dei due gruppi (gruppo A di controllo e gruppo B di trattamento) mediante un processo di
randomizzazione,
Metodo di randomizzazione utilizzato: a blocchi di 4
Esempio
trial clinico randomizzazione
Randomizzazione a blocchi
come scegliere la grandezza dei blocchi
• Nell’esempio precedente, la randomizzazione a blocchi di 4 ha portato all’estrazione di 24 soggetti: 12 nel gruppo A e 12 nel gruppo B
• Cambiando la grandezza dei blocchi cambia il numero di soggetti estratti.
La formula per calcolare il numero di sequenze è: N!N!
KK11!K!K22!! doveN=grandezza del blocco
K1= il numero di volte che A deve comparire in ogni blocco K2= il numero di volte che B deve comparire in ogni blocco
4x3x2x1 Per blocchi di 4 = 6
2x1x2x1 4x3x2x1 2x1x2x1
4x3x2x1 2x1x2x1
6 sequenze x 4=24 8x7x6x5x4x3x2x1
8x7x6x5x4x3x2x1
• Con numerosità limitate possono verificarsi degli sbilanciamenti nelle variabili di confondimento. Per essere certi che ciò non
avvenga, si può procedere con la randomizzazione stratificata, che assicura che entro le variabili considerate nella stratificazione il fattore confondente è omogeneamente distribuito nei 2 gruppi
Randomizzazione Stratificata
a blocchi
Perchè il campione deve essere casuale
Se il CAMPIONE E’ CASUALE e abbiamo calcolato bene la numerosità
campionaria, l’unico errore che possiamo commettere è un ERRORE CASUALE cioè dovuto al caso e questo tipo di errore può essere stimato
Se il CAMPIONE NON E’ CASUALE può risentire di ERRORI di SELEZIONE chiamati bias, che non possono essere stimati
CAMPIONE DISTORTO
Ad ogni risultato campionario si associa una probabilità o dei limiti probabili di oscillazione
Che cos’è la probabilità
Definizione di probabilità
La probabilità che si verifichi un dato evento (E) è la proporzione del numero (s) dei casi favorevoli all'evento stesso sul numero (n) dei casi possibili, purché tutti i casi considerati siano ugualmente probabili.
Esempio: In un sacchetto ci sono 7 palline bianche e 3 rosse. Tutte sono fatte dello stesso
materiale, hanno le stesse dimensioni, sono perfettamente sferiche, ugualmente levigate e così via. Infilerò una mano nel sacchetto, senza guardare dentro, ed estrarrò una
pallina a caso. Qual è la probabilità che la pallina estratta sia rossa?
Soluzione:
Le palline in tutto sono 7+3 = 10 quindi i casi possibili: n=10 Ci sono solo 3 palline rosse quindi i casi favorevoli: s=3
L'evento E= "pallina estratta rossa" ha perciò 3 possibilità su 10 di verificarsi
Definisco la sua probabilità come la proporzione dei casi
La probabilità e il ruolo del caso
Quindi la probabilità di estrarre una pallina rossa da un sacchetto che contiene 10 palline di cui 3 rosse è il 30%.
Ma ATTENZIONE questo non significa che ripetendo 10 volte l’estrazione, avendo cura ogni volta di rimettere la pallina estratta all’interno del sacchetto per garantire a tutte le palline
l’equiprobabilità di essere estratte, otterrò 3 palline rosse!!!!
La probabilità è diversa dalla frequenza che si ottiene in poche estrazioni perché interviene il CASO
L’effetto del CASO si attutisce, fino ad annullarsi, se ripetiamo l’estrazione molte volte, 100, 1000 volte
Esempio: Lanciando una moneta qual è la probabilità che esca TESTA?
I casi possibili : n=2
Il caso favorevole “testa” : s=1
La probabilità dell’evento E “esce testa” è la proporzione dei casi favorevoli sui casi possibili ovvero P=1/2=0,5=50%
Ripetendo il lancio della moneta varie volte si potrebbero ottenere i seguenti risultati
faccia della moneta
10 lanci 100 lanci 1000 lanci
N° % N° % N° %
Testa 7 70% 56 56% 507 50,7%
Croce 3 30% 44 44% 493 49,3%
La probabilità e il ruolo del caso
La numerosità campionaria e l’effetto del caso
Le stesse considerazioni possono essere estese ai
campioni casuali
: - Il CASO agisce in modo analogo quando estraiamo casualmente leunità che entrano a far parte del campione quindi
maggiore è la numerosità del campione e minore è l’errore casuale
CAMPIONE GRANDE
ERRORE CASUALE PICCOLOERRORE CASUALE PICCOLOCAMPIONE PICCOLO
CAMPIONE PICCOLO
ERRORE CASUALE GRANDE ERRORE CASUALE GRANDE
Più campioni e l’effetto del caso
Se ripetessimo tante volte il campionamento ovvero se
prendessimo un numero elevato di campioni da una stessa
popolazione, ciascun campione darebbe dei risultati diversi ma riportando su un istogramma le frequenze dei risultati ci
accorgeremmo che alcuni risultati sono più frequenti di altri ovvero più probabili di altri
Come agisce la casualità in campioni ripetuti?
Curva di distribuzione Normale o Gaussiana
=media
x
σ =deviazione standard
Frequenze delle misurazioni del diametro della luna effettuate da Gauss
servendosi di un telescopio si dedicò a calcolare con precisione il diametro della luna, ma i valori che
otteneva erano leggermente diversi ad ogni misurazione.
Rappresentando la frequenza delle misurazioni con un istogramma ricavò una curva a campana in cui la maggior parte dei valori si concentrava intorno alla media
Gauss studiò il comportamento degli errori di misura.
CarlFriedrichGauss (1777-1855) matematico, astronomo e fisico tedesco, che ha dato contributi determinanti in vari campi, inclusi analisi matematica, teoria dei numeri, statistica, calcolo numerico, geometria differenziale, geodesia, geofisica, magnetismo, elettrostatica, astronomia e ottica.
Media e deviazione standard
X = Media è la somma dei valori ottenuti diviso il numero delle misurazioni effettuate (X1+X2+…+ Xn)
σ
=Deviazione Standard esprime la deviazione media di ciascun valore dalla media ed è calcolata come la somma del quadrato delle differenze di ciascun valore dalla media, diviso il numero delle osservazioni e prendendo la radice quadrata del risultato.Algebricamente per un set di n valori (X1,X2,…, Xn) la deviazione standard è scritta come segue:
σ =
n Σ(Xi -X)2
Dove Σ(X
X = n
Esempio di calcolo della deviazione standard
ID età
1 27
2 31
3 30
4 27
5 29
6 31
7 44
8 32
9 35
10 40
11 39
12 34
13 25
14 40
15 30
16 33
Distribuzione delle età di 19 soggetti
Età media=33,7
Deviazione Standard: σ =
n Σ(Xi -X)2 Deviazione Standard:
Distribuzione frequenza delle età
0%
2%
4%
6%
8%
10%
12%
14%
16%
18%
25 27 28 29 30 31 32 33 34 35 39 40 44 46
ID età (Xi-X) (Xi-X)2
1 27 (27-33,7) (27-33,7)2
2 31 (31-33,7) (31-33,7)2
3 30 (30-33,7) (30-33,7)2
4 27 (27-33,7) (27-33,7)2
5 29 (29-33,7) (29-33,7)2
6 31 (31-33,7) (31-33,7)2
7 44 (44-33,7) (44-33,7)2
8 32 (32-33,7) (32-33,7)2
9 35 (35-33,7) (35-33,7)2
10 40 (40-33,7) (40-33,7)2
11 39 (39-33,7) (39-33,7)2
12 34 (34-33,7) (34-33,7)2
13 25 (25-33,7) (25-33,7)2
14 40 (40-33,7) (40-33,7)2
15 30 (30-33,7) (30-33,7)2
16 33 (33-33,7) (33-33,7)2
17 28 (28-33,7) (28-33,7)2
18 40 (40-33,7) (40-33,7)2
Esempio di calcolo della deviazione standard
Età media=33,7
Deviazione Standard: σ =
n Σ(Xi -X)2
Σ(Xi -X)2 671,71
n = 19 = 35,35
σ =
n Σ(Xi -X)2
= √35,5 = 5,9
Quindi possiamo dire che l’età media dei 19 soggetti considerati è di 34 anni, con una variabilità o
dispersione intorno alla media di circa 6 anni Deviazione Standard:
Varianza
Deviazione Standard
...torniamo alla curva di Gauss
Distribuzione frequenza delle età
0%
2%
4%
6%
8%
10%
12%
14%
16%
18%
25 27 28 29 30 31 32 33 34 35 39 40 44 46
Età X +σ
X -σ x Questa è la
distribuzione
frequenze dell’età, con età media e deviazione standard
=media
x
σ =deviazione standard
Frequenze delle misurazioni del diametro
della luna effettuate da Gauss
=media
x
σ =deviazione standard
=media
x
σ =deviazione standard
=media
x
σ =deviazione standard
=media
x
σ =deviazione standard
Ad esempio campione per stimare il body mass index (BMI) medio della popolazione
Considerando un elevato numero
di campioni casuali e riportando sul grafico i valori medi
ottenuti in ciascun campione
normopeso Risultati del 1°campione
0%
2%
4%
6%
8%
10%
12%
13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 Body Mass Index
Media=25.3 Deviazione standard=2.8 Mediana=25
normopeso
4 6 8 10 12 14
Risultati del 2°campione
Media=24.1 Deviazione standard=1.8 Mediana=24
Normopeso
Curva di distribuzione Normale o Gaussiana
Curva di distribuzione Normale o Gaussiana:
esempioUtilizzo di diversi campioni per stimare il valore glicemico medio della popolazione e il range dei valori più probabili (ovvero il range dei valori normali) di glicemia
Considerando un elevato numero di campioni casuali e riportando sul grafico
i valori medi
ottenuti in ciascun campione
Valori glicemici nella Valori normali
Glicemia (mg/dl)
Media=96,6
Valori normali
Glicemia (mg/dl)
Media=86,7
Glicemia (mg/dl)
Media=102,3
Nel 95% dei campioni otterremmo un valore medio
In sintesi
• Estraiamo tantissimi (o anche tutti i possibili campioni) da una stessa popolazione
• Calcoliamo per ciascun campione un valore medio
• Riportiamo i valori medi su un istogramma
• L’istogramma che otteniamo è simile ad una distribuzione Normale
• • La media delle medie campionarie è La media delle medie campionarie è uguale alla uguale alla media della popolazione
media della popolazione
, perché ogni possibile campione conterrà ogni individuo lo stesso numero di volteL’area sotto la curva di Gauss
Tutta l’area sottesa alla curva rappresenta il 100% dei dati
100%
L’area compresa tra: la media ±1σ=68,2%
la media ±1,96σ=95%
la media ±2σ=95,4%
la media ±3σ=99,7%
AREE note sotto la curva normale
Aree note della curva normale
Altre caratteristiche della curva normale
La Media, la Media MedianaMediana e la ModaModa coincidono
Media=mediana=moda
Diversa
media media
comporta una traslazione a dx o a sxdeviazione standard deviazione standard
La sua forma dipende unicamente dalla
media
media
e dalla deviazione standarddeviazione standardLa curva normale standardizzata
E’ possibile trasformare ogni curva normale , in una curva standard con:
media media =0 e
deviazione standard deviazione standard=1
Mediante una standardizzazione:
sostituendo a ciascun valore della x lo sostituendo a ciascun valore della x lo scarto dalla media diviso la deviazione scarto dalla media diviso la deviazione standard
standard e si ottiene:
Z=(xZ=(x--x)/sx)/s
Le distribuzione di probabilità teoriche più usate
la distribuzione CHI CHI - - QUADRATO QUADRATO
la distribuzione T DI STUDENT T DI STUDENT
la distribuzione NORMALE NORMALE
La STIMA :intervalli di confidenza
Le distribuzioni di probabilit
Le distribuzioni di probabilit à à teoriche teoriche servono per la stima
servono per la stima
La stima pi
La stima pi ù ù utilizzata utilizzata è è la stima per intervalli la stima per intervalli
INTERVALLI DI CONFIDENZA
INTERVALLI DI CONFIDENZA
La precisione della Stima e l
La precisione della Stima e l ’ ’ Errore Errore Standard
Standard
ERRORE STANDARD descrivedescrive l’l’incertezzaincertezza nellanella stimastima ed èed è calcolato comecalcolato come Errore
Errore Standard= Standard= σσ/√/√ nn
Dove σσ è la deviazione standard ed nn è la numerosità del campione
Deviazione descrive lo scostamento mediodescrive lo scostamento medio di ciascun valore osservato di ciascun valore osservato
L’L’ERRORE STANDARDERRORE STANDARD èè diversodiverso dalla DEVIAZIONE STANDARDDEVIAZIONE STANDARD
ERRORE STANDARD:
ERRORE STANDARD:
indica la variabilità di una stima (es. percentuale, media) tanto pitanto piùù piccolo èpiccolo è l’l’errore standard tanto pierrore standard tanto piùù precisa èprecisa è la stimala stima
STIMA per INTERVALLI
La stima per intervalli fornisce un intervallo, che ha una predeterminata probabilità (in genere, il 95%) di contenere il valore vero della popolazione.
gli intervalli ottenuti da campioni diversi in genere si
sovrappongono.
Intervalli di confidenza
INTERVALLO DI CONFIDENZA
95%
=stima
±1,96
Errore StandardINTERVALLO DI
INTERVALLO DI CONFIDENZA CONFIDENZA
95%
=stima
±1,96
Errore StandardValore campionario
Incertezza L’intervallo di confidenza si costruisce sommando e sottraendo al valore ottenuto dal campione una quantità che esprime l’incertezza
Il limite inferiore=stima – 1,96 x Errore Standard Il limite superiore=stima + 1,96 x Errore Standard
Stima per intervalli
stima
è il valore che si ottiene dal campioneINTERVALLO DI CONFIDENZA
95%
=stima
±1,96
Errore StandardINTERVALLO DI
INTERVALLO DI CONFIDENZA CONFIDENZA
95%
=stima
±1,96
Errore StandardINTERVALLO DI CONFIDENZA
99%
=stima
±2,58
Errore StandardINTERVALLO DI
INTERVALLO DI CONFIDENZA CONFIDENZA
99%
=stima
±2,58
Errore StandardSe la stima è una proporzione pproporzione p errore standard= √(p*(1-p)/n)
Ma quindi cosa significa un intervallo di confidenza al 95% ? Significa che questo intervallo contiene il valore vero della popolazione con una probabilità del 95%
Mentre la probabilità che il valore vero sia esterno a tale intervallo è del 5%
Definizione intervallo di confidenza
Quindi quando stimiamo un intervallo di confidenza al 95%
Significa che siamo disposti ad accettare un errore del 5% errore 5%
che viene definito LIVELLO DI SIGNIFICATIVITA LIVELLO DI SIGNIFICATIVITA ’ ’ e viene e viene indicato con
indicato con α α (alfa) (alfa)
Esempio: In un campione di 3500 pazienti sottoposti ad intervento cardiochirurgico, in Emilia-Romagna, è stata rilevata una prevalenza di diabete pari al 22,9% (ovvero una proporzione di 0.229 con deviazione standard pari al 0.42 )
Calcolate l’intervallo di confidenza al 95% della prevalenza di diabete rilevata
Intervallo di confidenza al 95% (IC95%)= 0,229 ± 1,96* 0.0071 Limite inferiore= 0.229 - 1,96* 0.0071 =0.215=21,5%
Limite superiore= 0,229 +1,96* 0.0071 =0.24 = 24%
Esempio: intervallo di confidenza di una proporzione
L’errore standard è √(p*(1-p)/n) =√ 0,229*(1-0,229)/3500 =0.0071
Sono stati selezionati 357 pazienti sottoposti ad esami diagnostici, da una popolazione di età superiore ai 65 anni. Il valore medio di
creatinina nel campione in studio è di 1,19 mg/dl con deviazione standard DS= 0,8 mg/dl. Calcolare un intervallo di confidenza al 95% per la media della popolazione basato sul campione.
Esempio: intervallo di confidenza
di una media
Risposta IC95%:
(1,19 - 1.96 x 0,8/√357, 1,19 + 1.96 x 0,8/√357) = (1,11 – 1,27)
Calcolate l’intervallo di confidenza
nel caso in cui la numerosità campionaria fosse 50.
Come cambierebbe il risultato?
IC95%: (1,19 - 1.96 x 0,8/√50, 1,19 + 1.96 x 0,8/√50) = (0,97-1,41) Qualora nel campione di 357 individui con creatinina media 1,19 mg/dl,
si fosse rilevata una deviazione standard pari a 0,3 come cambierebbe il risultato?
IC95%: (1,19 - 1.96 x 0,3/√357, 1,19 + 1.96 x 0,3/√357) = (1,16 – 1,22)
intervalli di confidenza per una media
soluzione esempio
L’ampiezza dell’intervallo di confidenza
L’ampiezza dell’intervallo di confidenza DIMINUISCE se
Diminuisce il livello di confidenza es da 99% a 95%
AUMENTA la numerosità campionaria
Diminuisce la variabilità indicata dalla deviazione standard
Introduzione ad SPSS
Introduzione ad SPSS
Introduzione ad SPSS
SPSS (S tatistical P ackage for S ocial S ciences )
è un software per l’analisi statistica dei dati
Oltre all’elaborazione dei dati questo software permette:
la creazione di database ovvero l’inserimento dei dati direttamente in SPSS l’ importazione di database creati con altri programmi come EXCEL, ACCESS la gestione di database: es creazione di nuove variabili, modifica delle
variabili già esistenti, selezione dei casi, unione e collegamento tra database
l’inserimento dati e
la preparazione del dataset
Con dataset intendiamo il file dati in formato
SPSS, all’interno del quale sono salvati i dati, organizzati in variabili.
Quindi il dataset contiene i dati organizzati da SPSS in modo che siano direttamente
utilizzabili per le analisi
Come è fatto un dataset
Ogni sessione di SPSS si apre con una finestra di dati nuova, vuota e pronta per l’inserimento dei dati
Questa finestra deve
contenere un dataset al fine di poter lanciare qualunque analisi
Come è fatto un dataset
La finestra dei dati è organizzata a celle, in righe e colonne.
Le colonne contengono le variabili.
Le righe contengono i soggetti (o in generale i casi) e
ogni cella contiene il dato del relativo soggetto nella variabile corrispondente.
var1 var2 var3 var4 var5 var6 var7 var8 var9
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
Le righe indicano i casi
Le colonne indicano le variabili:
Vediamo concretamente come è fatto un dataset in SPSS…..
Il dataset che vedremo riguarda un indagine effettuata su 36 pazienti in trattamento emodialitico.
Lo studio mette a confronto due diverse tecniche per l’accesso alla fistola artero-venosa (FAV):
la tecnica Buttonhole vs la tecnica rope ladder rotation
la Buttonhole (BH) prevede un sito costante e l’utilizzo dell’ago smusso la Rope-Ladder Rotation (RLR) consiste nel cambiare il sito di punture ad ogni seduta lungo la FAV come se fosse una corda e prevede l’utilizzo dell’ago tagliente.
Obiettivi dello studio
•Oggetto dello studio: L'obiettivo primario dello studio è: misurare l’incidenza media del dolore nel Tagliente rispetto allo Smusso nelle punture con tecnica BH, utilizzando una scala numerica (0=nessun dolore – 10=dolore massimo).[media, SD, mediana;
diff. di medie]
Gli obiettivi secondari dello studio consistono nel misurare le seguenti Complicanze:
1. Infezioni 2. ematoma
3. perdita perivasale ematica
4. sanguinamento espresso in minuti – Tempo medio, SD, Mediana, 5. difficoltà di inserimento
Dataset linkabili con chiave
Per questo studio abbiamo due dataset distinti
1. Dataset dei pazienti: in cui sono inserite le caratteristiche demografiche e cliniche dei 36 pazienti
2. Dataset dei casi: in cui sono inserite le informazioni relative alle procedure di emodialisi: 335 procedure.
I due dataset sono linkabili mediante una chiave che
identifica il paziente e ciascun paziente avrà più sedute per
emodialisi
Dopo aver importato il database dobbiamo
Preparare il database per l’analisi dei dati
1. Definire le variabili:
(numeriche, ordinali, nominali)3. Verificare la completezza (per individuare eventuali valori mancanti o valori anomali)
4. Creare nuove variabili
2. Attribuire una label (etichetta) a ciascuna variabile:
cioè un commento associato per chiarire cosa
rappresentano
1. Definire le variabili:
(numeriche, stringa, data ecc.)
Click su
Click su Tipo
Click su Visualizzazione variabili
Definire le variabili: (scala, ordinali, nominali)
Click su Click su
Misura Misura
Attribuire una label a ciascuna variabile: cioè un commento associato per chiarire cosa
rappresentano
Click su valori
Descrizione del campione
La descrizione del campione prevede la costruzione di una tabella che riporta i valori medi o le frequenze delle
caratteristiche del campione:
– le variabile quantitative vengono presentate come media ±deviazione standard
– le variabili ordinali vengono presentate come
frequenze assolute e percentuali
Descrizione del
campione:Variabili quantitative
– le variabile quantitative vengono presentate come media ±deviazione standard
In SPSS possiamo costruire una tabella unica per le variabili quantitative:
Possiamo scegliere tra due funzioni alternative:
SPSS
Click Analizza
Statistiche descrittive Descrittive
inserire le variabili quantitative
Opzioni……
click media, deviazione stand 1° funzione
SPSS
SPSS
Click Analizza Tabelle
Tabelle personalizzate
inserire le variabili quantitative per riga
Statistiche riassuntive click media, deviazione stand 2° funzione
SPSS
Descrizione del
campione:Variabili quantitative
Questa seconda funzione di SPSS permette di personalizzare le tabelle, sia nei contenuti che nella presentazione.
Tutte le tabelle prodotte da SPSS possono essere copiate su file
– le variabili ordinali vengono presentate come frequenze e percentuali
Descrizione del
campione:Variabili ordinali
SPSS
Click Analizza
Statistiche descrittive Frequenze
Statistiche 1° modo Per
ottenere sia le frequenze che la
mediana, il minimo e il massimo
2° modo Per ottenere tabelle
personalizzate per le frequenze
SPSS
Click Analizza Tabelle
Tabelle personalizzate
Descrizione del
campione:Variabili qualitative
le variabili qualitative vengono presentate come frequenze assolute e percentuali
SPSS
Click Analizza
Statistiche descrittive Frequenze
Statistiche 1° modo
2° modo Per ottenere tabelle personalizzate
SPSS
Click Analizza Tabelle
Tabelle personalizzate