Concetto di ProbabilitConcetto di Probabilitàà--11E’probabile tutto ciò che non ècerto

(1)

Elementi di

Elementi di STATISTICA 2STATISTICA 2

a cura di Paolo Pandolfi a cura di Paolo Pandolfi

Concetto di Probabilit Concetto di Probabilitàà

Intervallo di confidenza Intervallo di confidenza

Concetto di Probabilit Concetto di Probabilità à - - 1 1

E’ probabile tutto ciò che non è certo

La PROBABILITA’ di un evento può essere definita come la

proporzione

delle volte in cui si verifica tale evento sul totale delle prove realizzate in una

lunga seriecasuale

Concetto di Probabilit Concetto di Probabilità à - - 2 2

1) Essendo la probabilità definita come unaproporzione, può assumere solo valori compresi tra 0 e 1, ovvero tra 0% e 100%. Se una probabilità è0l’eventonon accade mai, se è1l’eventoaccade sempre

Tre punti debbono essere chiariti nella definizione di probabilità fornita:

2) Quando si indica “lunga serie” si deve intendere una serie sufficientemente lungaperché la proporzione si stabilizzi

3) Nella definizione, il concetto di casuale implica che nessun meccanismo esterno è in grado di influenzare il risultato della prova

Concetto di Probabilit Concetto di Probabilità à - - 3 3

Se in una lista di 40 persone ci sono 20 maschi e 20 femmine, la probabilità di estrarre una femmina è di 0,5 ovvero del 50%. Se per tre volte consecutive estraiamo 3 donne (facendo ogni volta attenzione a rimettere nella lista il soggetto precedentemente estratto) non saremo sorpresi. Se per altre 7 volte consecutive uscisse sempre una femmina ci verrebbe il dubbio che la lista non sia come dichiarato in quanto ci attendiamo dopo una sufficiente serie di estrazioni di avere il 50% di donne ed il 50% di uomini.

Possiamo calcolare quale sarebbe la probabilità di ottenere per 10 volte consecutive solo donne dall’estrazione; in effetti il principio del prodotto dice che la probabilità di eventi che si devono verificare (tutti insieme od in successione) si ottiene dal prodotto delle singole probabilità.

Concetto di Probabilit Concetto di Probabilità à - - 4 4

Quindi la probabilità che escano dalla lista 10 donne consecutivamente è data da:

0,5 x 0,5 x 0,5 x 0,5 x 0,5 x 0,5 x 0,5 x 0,5 x 0,5 x 0,5 = 0,00098 (0,098%)

Questo risultato dimostra che, senza alcun trucco, esiste la probabilità che per 10 volte consecutive vengano estratte solo donne, tuttavia tale probabilità è molto bassa (meno di 1/1020). Vista la rarità dell’evento, se ciò avvenisse, saremmo portati a ritenere che la lista sia truccata o che l’estrazione non sia stata regolare.

Concetto di Probabilit Concetto di Probabilità à - - 5 5

In questo modo ragiona anche la ricerca medica.

Se la probabilità dovuta al caso di avere il risultato ottenuto è estremamente bassa, anche se possibile, siamo portati a ipotizzare che sia vero il contrario.

In modo più preciso, volendo testare l’ipotesi nulla (H₀ ovvero non c’è alcuna differenza di outcome tra due terapie messe a confronto), se il risultato del test di significatività indica una p = 0,00098 (scritta anche p <

0,001) significa che quel risultato può essere ottenuto solo per effetto del caso con una probabilità così piccola da far ritenere molto probabile che quella differenza sia vera.

(2)

Distribuzione di Probabilit Distribuzione di Probabilità à

Una distribuzione di probabilità è la distribuzione della probabilità totale unitaria tra tutti i possibili risultati.

Se la variabile fosse il paese di nascita degli individui in una popolazione specifica, la distribuzione di probabilità di questa variabile sarebbe la proporzione della popolazione nata in ciascun paese e la somma di tutte le probabilità sarebbe pari a 1 ( ovvero 100%).

La probabilità di una serie di risultati si distribuisce in modo differente in funzione della natura dell’evento studiato.

Distribuzione della probabilit Distribuzione della probabilità à

La forma di una distribuzione di probabilità può essere simmetrica rispetto al valore centrale o ci può essere una coda più o meno lunga da un lato della distribuzione piuttosto che dall’altro.

Curva simmetrica Curva asimmetrica a destra

Distribuzione della probabilit Distribuzione della probabilità à

Alcune distribuzioni teoriche di probabilità possono essere utilizzate per la descrizione di fenomeni biologici.

Nella pratica si possono identificare tre grandi gruppi di distribuzioni in relazione alla natura delle informazioni analizzate:

1) Per i DATI SANITARI (P.A., altezza, BMI, decessi, malati, DDD, ecc.)

DISTRIBUZIONE NORMALE DISTRIBUZIONE LOG-NORMALE DISTRIBUZIONE BINOMIALE DISTRIBUZIONE DI POISSON

Distribuzione della probabilit Distribuzione della probabilità à

2) Per ANALISI TEMPI DI SOPRAVVIVENZA DISTRIBUZIONE GEOMETRICA

DISTRIBUZIONE ESPONENZIALE DISTRIBUZIONE IPERGEOMETRICA

3) Per TEST SIGNIFICATIVITA’ e LIMITI di CONFIDENZA

DISTRIBUZIONE NORMALE DISTRIBUZIONE del t

DISTRIBUZIONE del chi-quadrato

La distribuzione Normale

La distribuzione Normale - - Gaussiana Gaussiana

1) E’ una distribuzione di una variabile continua 2) Ha forma a campana

3) E’ simmetrica attorno al valore medio 



La distribuzione Normale

La distribuzione Normale - - Gaussiana Gaussiana

4) E’ determinata da due quantità, la sua media  e la sua deviazione standard . Il cambiamento di  sposta l’intera curva verso sinistra o destra; l’aumento di  rende la curva più piatta e più larga

(3)

La distribuzione Normale

La distribuzione Normale - - Gaussiana Gaussiana

5) La probabilità tra i limiti è di circa:

0,68 (68%) se  ±  0,95 (95%) se  ± 2

0,99 (99%) se  ± 3

La distribuzione Normale Standardizzata La distribuzione Normale Standardizzata

Tenendo conto della proprietà 5) è possibile individuare una delle curve più utilizzate in statistica: la distribuzione normale standardizzata.

Questa si ottiene per valori di  = 0 e di  = 1

La distribuzione Normale Standardizzata La distribuzione Normale Standardizzata

La distribuzione normale standardizzata si ottiene cambiando le unità di misura della variabile in unità di deviazioni standard dalla media (SDN – standard normal deviate o “z”) calcolando:

z = (y - ) / 

dove z ha media zero e deviazione standard uguale a uno.

Se per esempio, y fosse l’altezza, e una popolazione avesse una altezza media  =172 cm e deviazione standard

 = 8 cm, un individuo con altezza 176 cm sarebbe 0,5 deviazioni standard più alto della media (176-172= 4 quindi 4/8= 0,5); un individuo di altezza 166 cm sarebbe –0,75 deviazioni standard più alto (si noti il segno negativo) della media, ecc..

La distribuzione Normale Standardizzata La distribuzione Normale Standardizzata

In ogni distribuzione Normale con media  e deviazione standard , la probabilità tra y₁e y₂èla stessa che tra z₁e z₂nella Distribuzione Normale Standardizzata dove z = (y1 - ) /  e z = (y2- ) / 

Si dovranno quindi leggere tabelle specifiche che sulla base del valore di z forniscono le aree della curva oltre il valore z.

Per esempio

Se z fosse uguale a 0 l’area di destra di z sarebbe 0,5 perché la distribuzione Normale standard è simmetrica attorno al suo valore medio zero;

La distribuzione Normale Standardizzata La distribuzione Normale Standardizzata

Se z fosse 1,96 l’area alla destra di z sarebbe 0,024998 (circa il 2,5%); analogamente l’area di sinistra in modo che l’area centrale della distribuzione Normale Standard è pari al 95% .

Ugualmente per ogni distribuzione Normale Standard con media  e deviazione standard , il 95% delle osservazioni centrate attorno al valore medio  è compreso tra  - 1,96 e  + 1,96.

Intervallo (limite) di confidenza Intervallo (limite) di confidenza

Il principale obiettivo degli intervalli di confidenza è di esprimere e quantificare l’imprecisione del valore ottenuto analizzando un campione che si ritiene rappresentativo della popolazione generale.

Indica un intervallo al cui interno è contenuto, con un certo grado di probabilità o di confidenza (95%, 99%, ecc.), il valore reale del parametro osservato.

Più è grande l’intervallo e meno accurata sarà la stima del parametro che ho ottenuto attraverso il campione.

(4)

Intervallo (limite) di confidenza Intervallo (limite) di confidenza

Quando il numero di osservazioni è ampio questi modelli sono approssimabili ad una DISTRIBUZIONE NORMALE GAUSSIANA e quindi ne assume tutte le proprietà.

Per misurare l’intervallo di confidenza è necessario un modello di PROBABILITA’.

In generale il modello PROBABILISTICO più adeguato è basato o sulla distribuzione binomiale o su quella di Poisson.

Intervallo (limite) di confidenza Intervallo (limite) di confidenza

Per calcolare un intervallo di confidenza per , ci basiamo sulla distribuzione della media campionaria.

Data una variabile casuale X con media  e deviazione standard , ed applicando il “teorema del limite centrale”

si può affermare che l’intervallo di confidenza è pari a

Dove /n è pari all’errore standard e tiene conto della numerosità del campione utilizzato e 1,96 rappresenta il valore di confidenza assegnata (95%)

X (stima puntuale)  1,96 /n

Intervallo (limite) di confidenza Intervallo (limite) di confidenza

In sintesi con l’intervallo di confidenza indichiamo che se selezioniamo 100 campioni casuali dalla popolazione ed utilizziamo questi campioni per calcolare 100 diversi intervalli di confidenza per , circa 95 intervalli conterranno la media reale della popolazione e 5 no.

Test statistici: valore di p Test statistici: valore di p

A fianco all’intervallo di confidenza, negli studi epidemiologici, è riportato il valore di p che sintetizza in genere il test statistico utilizzato.

Con il test si intende misurare la probabilità che la differenza osservata nell’indagine tra diversi gruppi sia dovuta al caso.

Alla base di tutto c’è l’assunto che l’ipotesi nulla (H0) sia vera. Per H0 si intende l’ipotesi che non esista alcuna differenza, ad esempio, fra due trattamenti testati.

La p indica la probabilità che il risultato ottenuto sia dovuto al caso se l’ipotesi nulla è vera.

Test statistici: valore di p Test statistici: valore di p

E’ evidente che un valore di p alto significa che è altamente probabile che l’ipotesi nulla sia vera.

Per convenzione un valore di p <0,05 (cioè molto piccolo) è un’evidenza contro l’ipotesi nulla o meglio indica che non c’è più del 5% di probabilità che la diversità osservata sia dovuta al caso.