• Non ci sono risultati.

Trattamento e Analisi statistica dei dati sperimentali Modulo III: Distribuzioni di probabilità L7. Distribuzione di Gauss Prof. Carlo Meneghini dip. di Scienze Università Roma Tre e-mail: carlo.meneghini@uniroma3.it

N/A
N/A
Protected

Academic year: 2021

Condividi "Trattamento e Analisi statistica dei dati sperimentali Modulo III: Distribuzioni di probabilità L7. Distribuzione di Gauss Prof. Carlo Meneghini dip. di Scienze Università Roma Tre e-mail: carlo.meneghini@uniroma3.it"

Copied!
25
0
0

Testo completo

(1)

Trattamento e Analisi statistica dei dati sperimentali

Modulo III: Distribuzioni di probabilità L7. Distribuzione di Gauss

Prof. Carlo Meneghini

dip. di Scienze Università Roma Tre

e-mail: carlo.meneghini@uniroma3.it

(2)

Teorema del limite centrale

Distribuzione delle media campionarie

Distribuzione delle medie campionarie è

• approssimativamente Normale, con

• valore atteso uguale al valore atteso della popolazione

• e deviazione standard:

Distribuzione delle medie campionarie è

• approssimativamente Normale, con

• valore atteso uguale al valore atteso della popolazione

• e deviazione standard:

X N

 

 

2 x 2

2 x

x

2 e ) 1

x (

p

 

 

(3)

Distribuzione Normale (Gauss)

 

2 2

2

2 ) 1

(

 

x

e x

p

 

 

 

  

 1 2

2 ) 1

( 

 erf x

x

 F

x

p x dx x

F ( ) ( )

=4

=2

= valore atteso

= valore atteso

= dev. standard

= dev. standard

(4)

Distribuzione Normale (Gauss) DISTRIB.NORM(x;;;C)

C=1 -> F(x)

DISTRIB.NORM.N(x;;;C)

 

2 2

2

2 ) 1

(

 

x

e x

p

 

 

 

 

  

 1 2

2 ) 1

( 

 erf x

x F

C=0 -> p(x)

(5)

Distribuzione Normale (Gauss)

 ) F ( ) p ( x ) dx 0 . 68 (

F

=4

=2

 

68%

16%

16%

Funzione Risultato

(6)

Teorema del limite centrale

Distribuzione delle medie campionarie

La distribuzione dei valori medi ottenuti selezionando un campione tende ad una

distribuzione normale e si stringe all'aumentare della dimensione del campione, qualunque sia la forma della

distribuzione nella popolazione di riferimento.

La distribuzione dei valori medi ottenuti selezionando un campione tende ad una

distribuzione normale e si stringe all'aumentare della dimensione del campione, qualunque sia la forma della

distribuzione nella popolazione di

riferimento.

(7)

La distribuzione dei cognomi

N=273

In un gruppo di 273 persone (popolazione) la

distribuzione della lunghezza del cognome è

quella in figura.

Si selezionano

casualmente campioni di

numerosità N....

(8)

La distribuzione dei cognomi

(9)

Distribuzione Normale (Gauss)

 

2 2

2

2 ) 1

(

 

x

e x

p DISTRIB.NORM(x;m;s;0)

=4

=2



 2

2

 

2 p

max

1

x

e p max

2 max

e

p

(10)

Valori critici della distribuzione Normale

  2

2 

3 3

I punti a distanza:

, 2 e 3

rappresentano valori critici della distribuzione Normale,

utilizzati per la definizione di intervalli di confidenza

"standard"

I punti a distanza:

, 2 e 3

rappresentano valori critici della distribuzione Normale,

utilizzati per la definizione di intervalli di confidenza

"standard"

x

p(x)

(11)

distribuzione Normale Standard

0 1 2

2 1

3 3 z

p(z)

2 z 2

2 e ) 1

z (

p

 

DISTRIB.NORM.ST(z)

Una distribuzione normale con =0 e =1

è detta distribuzione

normale standard

(12)

Standardizzazione

p(x)

0 1 2

2 1

3 3 z

2 z 2

2 e ) 1

z (

p

 

x

 x  z

  2

2 

3 3

p(z)

 

2 2

2 x

2 e

p(x) 1

 

 

 z

x

(13)

Applicazioni del teorema del limite centrale

1. Noti il valore atteso  e deviazione standard  della

popolazione calcola la probabilità che la media del campione sia: maggiore di/minore di/ compresa tra...

1. Noti il valore atteso  e deviazione standard  della

popolazione calcola la probabilità che la media del campione sia: maggiore di/minore di/ compresa tra...

2. Noti i dati di un campione di dimensione N stima il valore atteso della popolazione fornendo l'incertezza.

2. Noti i dati di un campione di dimensione N stima il valore atteso della popolazione fornendo l'incertezza.

3. Noti i dati di un campione di dimensione N individua una regione attorno al valore misurato (media) che contiene il valore atteso (vero) con probabilità definita (intervallo di confidenza).

3. Noti i dati di un campione di dimensione N individua una

regione attorno al valore misurato (media) che contiene il

valore atteso (vero) con probabilità definita (intervallo di

confidenza).

(14)

Applicazioni del teorema del limite centrale

1. Noti il valore atteso  e deviazione standard  della

popolazione calcola la probabilità che la media del campione sia: maggiore di/minore di/ compresa tra...

1. Noti il valore atteso  e deviazione standard  della

popolazione calcola la probabilità che la media del campione sia: maggiore di/minore di/ compresa tra...

Una macchina produce sfere di diametro 25.0±0.5 mm (=0.5 mm). Valuta la probabilità che misurando le caratteristiche su un campione di 10 sfere il valore medio del diametro sia....

Una macchina produce sfere di diametro 25.0±0.5 mm (=0.5 mm). Valuta la probabilità che misurando le caratteristiche su un campione di 10 sfere il valore medio del diametro sia....

=DISTRIB.NORM(D 1 ;;/RADQ(N);1)

) D D

(

P  1 ) D D

(

P  1 =1-DISTRIB.NORM(D 1 ;;/RADQ(N);1)

) D D

D (

P 2   1 =DISTRIB.NORM(D 2 ;;/RADQ(N);1)

-DISTRIB.NORM(D 1 ;;/RADQ(N);1)

(15)

Applicazioni del teorema del limite centrale

1. Noti il valore atteso  e deviazione standard  della popolazione ….

1. Noti il valore atteso  e deviazione standard  della popolazione ….

Problema: Un nuovo fertilizzante promette di incrementare la produzione di olive, decidi di testarlo su una pianta che produce in media Q=2.2 ±0.2 q.li di olive l'anno e ottieni Q oss =2.42 q.li di olive.

a) Quale è la probabilità che tale aumento di produzione sia dovuto al caso (rischio che il fertilizzante sia poco efficace)?

b) di quanto dovrebbe aumentare la produzione volendo ridurre il rischio a meno di 1%?

c) Su quante piante bisognerebbe provare il fertilizzante volendo ridurre a meno di 1% il rischio che un aumento fino a 2.42 q.li sia dovuto al caso?

Problema: Un nuovo fertilizzante promette di incrementare la produzione di olive, decidi di testarlo su una pianta che produce in media Q=2.2 ±0.2 q.li di olive l'anno e ottieni Q oss =2.42 q.li di olive.

a) Quale è la probabilità che tale aumento di produzione sia dovuto al caso (rischio che il fertilizzante sia poco efficace)?

b) di quanto dovrebbe aumentare la produzione volendo ridurre il rischio a meno di 1%?

c) Su quante piante bisognerebbe provare il fertilizzante volendo ridurre a meno

di 1% il rischio che un aumento fino a 2.42 q.li sia dovuto al caso?

(16)

Applicazioni del teorema del limite centrale

C. Meneghini

a) Quale è la probabilità che tale aumento di produzione sia dovuto al caso (rischio che il fertilizzante sia poco efficace)?

a) Quale è la probabilità che tale aumento di produzione sia dovuto al caso (rischio che il fertilizzante sia poco efficace)?

2.2 

2.4



2.0 Q(q.li)

p(Q)

Q oss

L'area in figura rappresenta la probabilità che la pianta, anche non trattata con il fertilizzante, produca per caso una quantità di olive maggiore di del valore che

ho osservato Q oss rappresenta quindi il rischio che il fertilizzante non serva!

𝑜𝑠𝑠

𝑃 𝑄 ≥ 𝑄

a) Il rischio che l'aumento di produzione sia

effetto del caso e non del fertilizzante è

p=14%

a) Il rischio che l'aumento di produzione sia

effetto del caso e non del fertilizzante è

p=14%

(17)

Applicazioni del teorema del limite centrale

b) di quanto dovrebbe aumentare la produzione volendo ridurre il rischio a meno di 1%?

b) di quanto dovrebbe aumentare la produzione volendo ridurre il rischio a meno di 1%?

Uso la Funzione inversa

Data la probabilità a fornisce il valore limite x lim per il quale

=a

x P

x lim = INV.NORM.N(a;;)

rischio 0.01

Q lim 2.67 q.li 𝑃 𝑥 ≥ 𝑥

Q = 1- INV.NORM.N(0.01;;)

a

(18)

2.2 

2.4



2.0 Q(q.li)

p(Q)

Q oss

𝑃 𝑄 ≥ 𝑄

Q lim

Applicazioni del teorema del limite centrale

b) di quanto dovrebbe aumentare la produzione volendo ridurre il rischio a meno di 1%?

b) di quanto dovrebbe aumentare la produzione volendo ridurre il rischio a meno di 1%?

Uso la Funzione inversa

rischio 0.01

Q lim 2.67 q.li

Q lim = 1- INV.NORM.N(0.01;;)

Nota: per il calcolo dell'area a destra 1- inv.norm (…)

b) La produzione dovrebbe essere almeno di 2.67 q.li b) La produzione

dovrebbe essere

almeno di 2.67 q.li

(19)

Applicazioni del teorema del limite centrale

c) Su quante piante bisognerebbe provare il fertilizzante volendo ridurre a meno di 1% il rischio che un aumento fino a 2.42 q.li sia dovuto al caso?

c) Su quante piante bisognerebbe provare il fertilizzante volendo ridurre a meno di 1% il rischio che un aumento fino a 2.42 q.li sia dovuto al caso?

2. 2 + 𝜎 / 𝑁

Q(q.li)

p(Q N )

Q La deviazione standard sulla media è ̅ quindi se

l'osservazione viene effettuata su un campione di N piante è necessario confrontare i dati con una distribuzione con

lo stesso valore atteso ma devi.st= ̅

𝑃 𝑄 ≥ 𝑄

N

̅

N p(Q)

𝑃 𝑄 ≥ 𝑄

+ 𝜎

(20)

Applicazioni del teorema del limite centrale

1) per tentativi: modifico N fino ad ottenere p<0.01 p=DISTRIB.NORM(Q oss ;Q;/RADQ(N);1)

N=5

N= 4

P(Q>Qoss)= 0.014

c) Su quante piante bisognerebbe provare il fertilizzante volendo ridurre a meno di 1% il rischio che un aumento fino a 2.42 q.li sia dovuto al caso?

c) Su quante piante bisognerebbe provare il fertilizzante volendo ridurre a meno di 1% il rischio che un aumento fino a 2.42 q.li sia dovuto al caso?

c) Perché un aumento di produzione fino a 2.42 ql.li sia significativo con un rischio inferiore al 1%

sarebbe necessario che questo sia il risultato di una media su almeno 5 misure.

c) Perché un aumento di produzione fino a 2.42 ql.li sia significativo con un rischio inferiore al 1%

sarebbe necessario che questo sia il risultato di

una media su almeno 5 misure.

(21)

Applicazioni del teorema del limite centrale

2) Funzione inversa e distribuzione standardizzata

c) Su quante piante bisognerebbe provare il fertilizzante volendo ridurre a meno di 1% il rischio che un aumento fino a 2.42 q.li sia dovuto al caso?

c) Su quante piante bisognerebbe provare il fertilizzante volendo ridurre a meno di 1% il rischio che un aumento fino a 2.42 q.li sia dovuto al caso?

z a

z lim = INV.NORM.ST(a)

𝑃 𝑧 ≥ 𝑧

La funzione INV.NORM.ST(a) calcola il valore limite di una variabile standardizzata z lim per il quale

a

(22)

Applicazioni del teorema del limite centrale

2) Funzione inversa e distribuzione standardizzata

c) Su quante piante bisognerebbe provare il fertilizzante volendo ridurre a meno di 1% il rischio che un aumento fino a 2.42 q.li sia dovuto al caso?

c) Su quante piante bisognerebbe provare il fertilizzante volendo ridurre a meno di 1% il rischio che un aumento fino a 2.42 q.li sia dovuto al caso?

z lim = INV.NORM.ST(a)

̅

c) 2

a 0.01

zlim 2.326

Nlim 4.47264

N> 4

c) Perché un aumento di produzione fino a 2.42 ql.li sia significativo con un rischio inferiore al 1%

sarebbe necessario che questo sia il risultato di una media su almeno 5 misure.

c) Perché un aumento di produzione fino a 2.42 ql.li sia significativo con un rischio inferiore al 1%

sarebbe necessario che questo sia il risultato di

una media su almeno 5 misure.

(23)

Applicazioni del teorema del limite centrale

In un test di qualità un campione di 10 lampadine ha una vita media di 2000±300 ore. Stima la vita media della produzione V.

In un test di qualità un campione di 10 lampadine ha una vita media di 2000±300 ore. Stima la vita media della produzione V.

2. Noti i dati di un campione di dimensione N stima il valore atteso della popolazione fornendo l'incertezza standard.

2. Noti i dati di un campione di dimensione N stima il valore atteso della popolazione fornendo l'incertezza standard.

10 2000 300

Vita  

(24)

Applicazioni del teorema del limite centrale

Dev.st nota: La distribuzione della concentrazione di As nell'organismo di alcuni insetti in condizioni normali è =8.5 g/kg

Dev.st. campionaria: La distribuzione della concentrazione di As misurata nell'organismo di alcuni insetti in condizioni normali è s=8.5 g/kg .

In un campionamento si misura la concentrazione di As accumulato nell'organismo di N insetti per studiare effetti dell'inquinamento. Quale dovrebbe essere il numero di campioni per avere un'incertezza minore di 2 g/kg sul valore medio osservato?

Dev.st nota: La distribuzione della concentrazione di As nell'organismo di alcuni insetti in condizioni normali è =8.5 g/kg

Dev.st. campionaria: La distribuzione della concentrazione di As misurata nell'organismo di alcuni insetti in condizioni normali è s=8.5 g/kg .

In un campionamento si misura la concentrazione di As accumulato nell'organismo di N insetti per studiare effetti dell'inquinamento. Quale dovrebbe essere il numero di campioni per avere un'incertezza minore di 2 g/kg sul valore medio osservato?

2bis. Quanto dovrebbe essere un campione per ottenere una incertezza data?

2bis. Quanto dovrebbe essere un campione per ottenere una incertezza data?

x N

 

 N

s

x 

2

x

N 

 

 

2

x

N s 

 

 

(25)

Applicazioni del teorema del limite centrale

lo vediamo la prossima lezione

La concentrazione di una proteina X nel sangue di una persona sana è C o Le mie analisi mostrano un valore C 1 con deviazione standard =50 mg/L .

Dal momento che i risultati di una misura contengono un'incertezza non eliminabile,

Quale potrebbe essere il valore vero di C 1 ? Quali valori posso escludere?

C 1 è molto diverso da Co?

Questa differenza è reale o dovuta al caso?

La concentrazione di una proteina X nel sangue di una persona sana è C o Le mie analisi mostrano un valore C 1 con deviazione standard =50 mg/L .

Dal momento che i risultati di una misura contengono un'incertezza non eliminabile,

Quale potrebbe essere il valore vero di C 1 ? Quali valori posso escludere?

C 1 è molto diverso da Co?

Questa differenza è reale o dovuta al caso?

3. Noti i dati di un campione di dimensione N individua una regione attorno al valore misurato (media) che contiene il valore atteso (vero) con probabilità definita (intervallo di confidenza).

3. Noti i dati di un campione di dimensione N individua una

regione attorno al valore misurato (media) che contiene il

valore atteso (vero) con probabilità definita (intervallo di

confidenza).

Riferimenti

Documenti correlati

Nota: una cella contiene una stringa di caratteri Il Formato di una cella stabilisce come viene visualizzato il contenuto. A volte EXCEL assume un formato diverso da ciò

In EXCEL sono disponibili componenti aggiuntivi facoltativi (add-ins, add-on) che includono comandi e/o caratteristiche aggiuntive e. possono

E’ utile inserire commenti e istruzioni soprattutto se i fogli devono essere usati da altri.. Strumenti: Convalida dati. Consentono di controllare che i dati inseriti siano coerenti

Due ricercatori effettuano un esperimento sul moto rettilineo uniforme nelle medesime condizioni (velocità media, posizione iniziale, precisione delle misure) e ottengono i

Nota: la definizione Frequentista è una stima basata sui dati, come tale è affetta da incertezza.. di un maschio e

Due ricercatori effettuano un esperimento sul moto rettilineo uniforme nelle medesime condizioni (velocità media, posizione iniziale, precisione delle misure) e ottengono i

Consideriamo successo il fatto di osservare un valore nella classe 5 e insuccesso qualunque altro valore Il numero di volte che abbiamo osservato il valore 5 è 3 quindi, in base

L’occorrenza di un nuovo evento puo’ essere considerato un esperimento tipo Bernoulli che genera solo due eventi incompatibili, tipo successo – insuccesso. (1-p) = probabilità di