• Non ci sono risultati.

Analisi Statistica dei Dati

N/A
N/A
Protected

Academic year: 2023

Condividi "Analisi Statistica dei Dati"

Copied!
93
0
0

Testo completo

(1)

Analisi Statistica dei Dati

G.Marsella

(2)

Elementi di teoria della

probabilità

(3)

Eventi aleatori

• Un evento è aleatorio (casuale) quando non si può prevedere con

certezza se avverrà o meno

• I fenomeni (eventi) aleatori sono studiati

attraverso la teoria della probabilità

Probabilità di un evento semplice Un evento può risultare:

Certo (si verifica sempre) -estrazione di una pallina nera da

un’urna contenente solo palline nere

Impossibile(non si verifica mai) -estrazione di una pallina bianca da

un’urna contenente solo palline nere

Probabile(può verificarsi o no) -estrazione di una pallina bianca da

un’una contenente sia palline nere che bianche

(4)

Eventi e probabilità

impossibile

probabile

certo

P=0 0<P<1 P=1

Se E indica un evento l’evento corrispondente al non verificarsi di E rappresenta l’evento complementare E con la relazione

P(E) = 1 – P(E)

(5)

Eventi aleatori

• Evento semplice = singola manifestazione di un

fenomeno (misura,osservazione, risultato) che esclude altri eventi (eventi incompatibili: testa o croce nel lancio di una moneta)

• Evento composto = è costituito da una

combinazione di più eventi semplici. Possono verificarsi simultaneamente ovvero sono compatibili(l’evento testa di una moneta è compatibile con l’evento croce nel

lancio di due monete)

(6)

Eventi aleatori

• L’insieme di tutti gli eventi di un fenomeno

costituiscono l’universo o spazio campione (Ω) delle possibilità.

• Si usa il termine successo per segnalare che si è verificato l’evento considerato e insuccesso in caso contrario. Essi sono eventi incompatibili o mutuamente esclusivi

(7)

Spazio campionario

• Lo spazio campionario associato al lancio di due monete comprende 4 punti che rappresentano i possibili risultati

• Si chiama evento ogni sottoinsieme dello spazio campionario

•TT

•TC

•CT

•CC

(8)

Teoria e calcolo della probabilità

• L’entità di successi in una serie di osservazioni (prove) può essere definita come frequenza relativa o

(percentuale) calcolata come rapporto tra il numero di eventi favorevoli rispetto al numero di casi esaminati

• Il grado di aspettativa circa il verificarsi di un evento E, ovvero la probabilità

dell’evento P(E) è numero di casi possibili

successi di

numero )

(E P

(9)

Concezione classica della probabilità

La probabilità di un evento E è il rapporto tra il numero di casi favorevoli al verificarsi di E(n) e il numero di casi possibili (N), purché siano tutti equi - probabili

N P(E) n

Es: probabilità di estrarre un asso da un mazzo di 52 carte = 4/52 = 0.08

probabilità di ottenere testa nel lancio di una moneta =1/2 = 0.5

(10)

Applicazioni della concezione classica

• Probabilità uscita testa

• Probabilità faccia 6 dado

• Qual è la probabilità che lanciando due volte una moneta si presenti prima la faccia testa poi la faccia croce

1°- TT

2°- TC

3°- CT

4°- CC

p =

p=

p =

2 1

6 1

4 1

(11)

Concezione frequentista della probabilità

• La probabilità di un

evento è la frequenza

relativa di successo in una serie di prove

tendenti all’infinito,

ripetute sotto identiche condizioni

• Nella concezione

frequentista la probabilità è ricavata a posteriori dall’esame dei dati

N n

N

 lim P(E)

Frequenza relativa su un gran numero di prove

Es: qual è la probabilità post-operatoria dopo l’intervento xyz ?

I dati su un decennio in un territorio presentano 30 morti su 933 interventi Frequenza relativa = 30/933= 3.22% = Probabilità di mortalità post-operatoria

(12)

Legge dei grandi numeri

• P(E): ripetendo la prova un gran numero di volte si

osserva che il rapporto f= m/n (frequenza relativa) dove m= numero di successi ed n= numero di prove tende ad avvicinarsi sempre più alla probabilità P(E)

La frequenza relativa f al crescere del numero delle prove, tende, pur oscillando, verso un valore

costante (stabilità della frequenza)

(13)

Elementi di statistica

(14)

Elementi di statistica

• La statistica è un’estensione del calcolo delle probabilità

– Si parte dai concetti fondamentali

– Si estende la definizione di probabilità – Si introducono delle nuove variabili

(15)

Estensione del concetto di

probabilità

(16)

Estensione del concetto di probabilità

• La probabilità viene fatta passare

– da un numero razionale ...

– ... ad un numero reale

• La probabilità può essere infinitesima

– Anche se poi si darà significato sempre alla probabilità finita

– Tramite integrazioni

(17)

Estensione del concetto di probabilità

• Si suppongono valide tutte le leggi delle probabilità già stabilite

• Non si può più definire la probabilità come rapporto fra casi favorevoli e casi possibili

(18)

Le variabili aleatorie

(variate)

(19)

Le variabili aleatorie

• Una variabile aleatoria è una variabile...

– ... reale

– ... discreta o continua

– ... associata ad una probabilità

(20)

Le variabili aleatorie

• Una variabile aleatoria discreta

– Assume i valori ...

– ... con probabilità

x x

1

, , ,

2

x

N

1

,

2

, ,

N

k

1

k

p p pp

(21)

Le variabili aleatorie

• Esempio classico: il dado

– Variata: un numero da 1 a 6 – Probabilità associata: 1/6

(22)

• Si definisce

– Valore atteso

– Speranza matematica – Valore medio

 

k k

k

E xx   xx p

(23)

• La variabile aleatoria discreta può essere definita da una tabella

• Esempio:

– I numeri riportati sulle facce di un dado

• Attenzione: i numeri potrebbero essere diversi

– Anche le probabilità se il dado fosse truccato...

(24)

Il dado

xk Pk

1 0.167

2 0.167

3 0.167

4 0.167

5 0.167

6 0.167

(25)

• Ed ecco una rappresentazione grafica

– Distribuzione – Spettro

(26)

2 3 4 5 6 0.05

0.1 0.15 0.2 0.25 0.3

(27)

• Se si conoscono solo valori proporzionali alle probabilità occorrerà normalizzarli

k k

k k

p A

A

(28)

• Una variata continua

– Assume valori reali in un dominio D con probabilità infinitesima

– La è la funzione di distribuzione (spettro)

• Funzione densità

 

dpf x dx

 

f x

(29)

• Il dominio D sarà per noi, praticamente sempre, uno dei seguenti insiemi

– Tutto l’asse reale

– Il semiasse reale positivo

– Un intervallo (e di solito chiuso)

• Indicheremo in ogni caso l’estremo inferiore con low e quello superiore con high

• Ecco degli esempi

(30)

0 0.5 1 1.5 2 2.5 3 0

0.2 0.4 0.6 0.8

(31)

2 1 0 1 2 0

0.2 0.4 0.6 0.8 1

Uniforme

(32)

2.5 0 2.5 5 7.5 10 0

0.02 0.04 0.06 0.08 0.1 0.12 0.14

(33)

• In ogni caso vale la condizione di normalizzazione

• ...ed in generale un valore atteso (“speranza matematica”) vale...

 

k

1

D k

f x dx      p    

(34)

     

   

k k

D k

G x f x dx G x p E G x G x

  

 

 

     

 

(35)

• Il momento di ordine 0 corrispnde alla condizione di Normalizzazione

(36)

Funzioni di distribuzione

• In sintesi, le principali caratteristiche di una funzione di distribuzione sono:

(37)

Le distribuzioni in generale

(38)

Le distribuzioni in generale

• Di solito hanno quindi dei picchi

– Il picco più alto si chiama moda della distribuzione

– Un picco: unimodale

• Poi bimodale, multimodale...

(39)

Le distribuzioni in generale

• Si definisce la mediana

• È definita con un’equazione integrale

• Non gode di proprietà di linearità

• Molto utile e potente soprattutto nell’analisi delle serie temporali

 

high

 

M

M low

f x dxf x dx

 

(40)

Le distribuzioni in generale

• Poi ci sono i quartili

• Mediane della mediana

• Poi i percentili ...

(41)

Le distribuzioni in generale

• Quasi sempre di una distribuzione si fornisce

– La media

– La standard deviation – La moda

– A volte anche il momento secondo (o la sua radice)

» Valore quadratico medio

» È il caso delle velocità in un gas

  x

x

2

   

(42)

Le distribuzioni in generale

• Attenzione a non confondere

• Facili a confondere se si usa il simbolo

 

 

2

2

2

2 D

D

x f x dx x dx x

x f x

 

  

 

xx

(43)

Distribuzioni discrete e

continue

(44)

Le principali distribuzioni

discrete

(45)

Le principali distribuzioni discrete

• Veramente importanti solamente due

– Distribuzione di Bernoulli e binomiale

– Distribuzione di Poisson, o degli eventi rari

(46)

La distribuzione di Poisson

(47)

La distribuzione di Poisson

• È la distribuzione di eventi rari

• È ciò che diviene la binomiale quando

• Legge della distribuzione

0 cost

n np

p       

 

  !

e

k

P k k

 

(48)

La distribuzione di Poisson

      

   

 

1 1

, 1

!

1 1

! 1

1 2 1 1

1 1 1 1

!

k n k

k n k

k n k

n n n k

f k n p p p

n

n n n k

n

n k m

n n n m

m n

n n

m

n n

  

 

      

       

       

            

(49)

La distribuzione di Poisson

1 2 1 1

 

lim 1 1 1 1

! 1 li

! 1 1!

m

n k k

n k k

n

k m n

k m

n n n k m n

m m m e

k

k n





  

  

  

(50)

La distribuzione di Poisson

• Media

• Varianza

k  

2

    

(51)

La distribuzione di Poisson

• Ed infine un grafico per e

  2   5

(52)

5 10 15 20 0.05

0.1 0.15 0.2 0.25

(53)

Le principali distribuzioni

continue

(54)

Le principali distribuzioni continue

• Molte hanno interesse limitato

• Qui studiamo solo quelle di maggiore interesse per la misura

• Definite

– In un intervallo (solo la uniforme) – Semiasse reale positivo

– Tutto l’asse reale

(55)

La distribuzione uniforme

(56)

La distribuzione uniforme

• Definita fra –1/2 e 1/2

• Di solito però fra 0 e 1

– Il calcolatore estrae “numeri a caso” in questo intervallo

– In realtà i numeri sono pseudocasuali

– Estratti con un formalismo causale si verifica a posteriori che rispettino la casualità

• Il caso di 

– Sono la base per simulazioni statistiche

(57)

2 1 0 1 2 0

0.2 0.4 0.6 0.8 1

(58)

La distribuzione uniforme

• Definizione della distribuzione

• In generale

0 0

1 0 1

0 1

x x

x x

x x

  

     

    

0 1

0

x x m

x m x M

x x M

  

     

    

(59)

2 4 6 8 10 0.2

0.4 0.6 0.8 1

(60)

La distribuzione uniforme

• Media

• Varianza

2

  m M

 

2

 

2

12

1 12

M m M m

   

(61)

UN PROBLEMA

INTERESSANTE

(62)

Un problema interessante

• Visto che il calcolatore mi dà solo numeri (pseudo)casuali fra 0 ed 1, posso (e se sì come) ottenere dei numeri distribuiti fra A e B con una distribuzione f(x) ?

• La risposta è affermativa

Metodo di reiezione

(63)

Un problema interessante

• Uno schizzo grafico...

(64)

Un problema interessante Ricetta

1. Calcoliamo anzitutto il massimo della funzione nel

nostro intervallo 1. Poi calcoliamo

2. Estraiamo un numero fra 0 ed 1 3. Calcoliamo

X

*

 

*

  

 

1.05 max

a b

M     f x

 

(65)

Un problema interessante

• Ora estraiamo un secondo numero fra 0 ed 1, e moltiplichiamolo per M:

– Quindi una distribuzione uniforme fra 0 ed M

• Siamo ora in possesso di due numeri (pseudo)casuali

– X fra a e b – Y fra 0 ed M

Y

(66)

Un problema interessante

• Calcoliamo la

• Terremo per buono il valore X se è

• Rigetteremo il valore X se è

 

f X

 

f XY

 

f XY

(67)

Un problema interessante

• Il metodo è usatissimo e garantito

• Funziona a spese di estrazioni a vuoto

– In pratica

• Si riempie uniformemente il rettangolo verde di punti

• Si tengono per buoni solo quelli sotto la curva

– Funziona anche per più dimensioni

• ...e si allungano i tempi...

(68)

La distribuzione gaussiana

(69)

La distribuzione gaussiana

• Noi ci limiteremo alle variate normali

• Sono le più utili

• Coprono l’assoluta maggioranza dei casi pratici

– Quando occorre qualcosa di più si è nei guai

• In questo caso bastano due momenti

– Media e SD

(70)

La distribuzione gaussiana

Caso importante “fuori dal coro”

i conteggi

Seguono la statistica di Poisson

Però

Regola a spanne

Quando μ > 10 usate pure Gauss con

  

(71)

La distribuzione gaussiana

• La funzione di distribuzione

 

2 2

1

, 1

2

2

x

G x e

 

(72)

La distribuzione gaussiana

• Media

• Varianza

2

(73)

La distribuzione gaussiana

• Definiremo a partire da una variata normale x

– La variata centrata (detta anche scarto)

– La variata ridotta (detta anche scarto ridotto)

• Vediamo degli esempi grafici

x

c

  x x x x

 

 

(74)

-2 2 4 0.1

0.2 0.3 0.4

(75)

La distribuzione gaussiana

• Una proprietà importante:

– Le probabilità di stare dentro un certo numero N di SD sono sempre le stesse

• Attenzione: la funzione d’errore è

(storicamente) definita per una gaussiana non normalizzata...

  1 erf

2

P x    N      N  

(76)

La distribuzione gaussiana

• Definizione

 

2

0

erf 2

x

x e dt

t

 

2

0

2 e dt

t

1



2

2

t

2

e dt





 

(77)

La distribuzione gaussiana

• In realtà a noi serve 2

1 2

2 erf 2

x t

x

e x

dt

  

 

 

(78)

La distribuzione gaussiana

1 2 3 4 5

N P x N

0.317 0.0455

0.0027 2.7 10  

3

6.33 10 

5

7 6

5.73 10 

 0.573 10 

(79)
(80)

Curva di Gauss

Caratteristiche

• E’ simmetrica rispetto alla media:la probabilità di un valore superiore alla media di una quantità prefissata è uguale alla probabilità di un valore inferiore per la stessa quantità

• L’area compresa tra la funzione e l’area delle ascisse

( da + a - ) sia = 1 così da esaurire lo spazio campionario

• Esiste la probabilità al 100% che la misura sia inclusa nella distribuzione

• La frazione di area compresa tra due valori della variabile è assimilabile alla probabilità di riscontrare casualmente una misura entro tale intervallo

(81)

Le aree sottese alla curva normale

• Spesso è necessario determinare la

probabilità di riscontrare casualmente una misura entro tale intervallo

• Proprietà della curva normale: l’area sottesa alla porzione di curva che vi è tra le media e una ordinata posta a una distanza data,

determinata in termini di una o più deviazione standard, è costante

(82)

Applicazione curva di Gauss

• Se una popolazione di unità classificate secondo un certo carattere X si distribuisce normalmente, la conoscenza di media e varianza (o loro stime) consente di calcolare (o di stimare) la frequenza relativa delle unità che presentano un valore di X compreso in un certo intervallo

• Calcolare la probabilità che, estraendo da tale popolazione un’unità questa abbia un valore di X compreso in un certo intervallo

(83)
(84)
(85)

Distribuzione gaussiana standardizzata

• Per agevolare il ricercatore la variabile x viene trasformata in una nuova variabile

• La distribuzione standardizzata presenta il vantaggio di consentire la predisposizione di tabelle che permettono di calcolare porzioni di area della distribuzione e di

stabilire la probabilità statistica di riscontrate valori in relazione a determinati valori z

x z

(86)
(87)

Valori notevoli della distribuzione z

z area compresa area esterna all’intervallo

nell’intervallo (- z + z) (code della distribuzione)

(-z + z)

1 (-1<z<+1) 0.683 (≈ 68%) 0.317 (≈ 32%) 1.96 (-1.96<z<+1.96) 0.95 (≈ 95%) 0.05 (≈ 5%)

2.58 (-2.58<z<+2.58) 0.99 (≈ 99%) 0.01 (≈ 1%)

(88)

Esempio di utilizzazione della distribuzione z

Qual è la probabilità che un

individuo estratto a caso da una popolazione con peso medio 72 Kg e deviazione standard 25 Kg pesi tra i 60 e 80 Kg:?

Occorre calcolare la porzione di area compresa tra 60 e 80 Kg.

ai cui valori corrispondono rispettivamente i valori

48 . 25 0

) 72 60

(

60

Kg z Kg

32 . 25 0

) 72 80

(

80

kg

z kg

(89)

Esempio di utilizzazione della distribuzione Z

• Facendo riferimento alla tabella z

per z=0.48 nelle due code è 0.631

• L’area di interesse tra -0.48 e 0 è 0.5 -

• Con analogo procedimento si calcola la porzione di

area tra 0 e 0.32

P(60kg<peso<80kg=P(z60<z<z80) =

=P(-0.48<z<0) + (P(0<z<+0.32) =

=1-0.3155 - 0.3745=0.310 31,0%

2

631 .

0

2 749 . 5 0

. 2 0

631 . 5 0

. 0

(90)
(91)

0 z 0,5

2 v 5 2

,

0 v

Ripartizione delle aree di probabilità della distribuzione z

(92)

Esempio di utilizzazione della distribuzione z

Una popolazione di bambini presenta valori di statura distribuiti in modo gaussiano con media = 120 cm. e deviazione standard = 16 cm.

1. Quale è la probabilità che un bambino scelto a caso presenti una statura inferiore a 132 cm.?

2. Quale è la probabilità che l’altezza sia maggiore di 116 cm., ma inferiore a 132 cm.?

1R 0.75

16

) 120 132

(

132

cm

z cm

% 4 . 77 7735

. 0 2265

. 0 1 2 )

453 .

5 0 , 0 ( 5 ,

0

(93)

Esempio di utilizzazione della distribuzione z

2R

• P(Z116<Z<Z132)0.7735-0.4015=0.3720 37.20%

25 . 16 0

) 120 116

(

116

cm z cm

4015 .

2 0 803 .

0

Riferimenti

Documenti correlati

Le spese amministrative prelevate sono calcolate sulla base della massa salariale AVS effettiva del rispettivo anno contributivo, sono integralmente a carico dei datori di lavoro

[r]

Il Fornitore dichiara di aver preso piena conoscenza della documentazione predisposta ed inviata dal Punto Ordinante in allegato alla Richiesta di Offerta,

Mimmo PALADINO dalla fine degli anni settanta dedica a pittura e scultura una complessa ricerca che esplora tecniche e materiali.. Sue opere figurano nei

I sopra richiamati documenti, ad eccezione del Capitolato generale di appalto, sono depositati presso la stazione appaltante; di essi le parti contraenti

RENDICONTAZIONE DELLA PERFORMANCE ORGANIZZATIVA E INDIVIDUALE.. Conformemente a quanto stabilito nel Piano della Performance per l'anno 2017 nella presente sezione si rendicontano

Cultura e turismo sono affidate le funzioni relative alla promozione ed allo sviluppo delle attività e manifestazioni culturali e turistiche.. Competono la gestione delle

grande perché contiene tutto in sé; della mente afferma che è la più veloceperché corre attraverso tutto; della necessità che è la più forteperché tutto comanda; il tempo