• Non ci sono risultati.

Statistiche, distribuzioni campionarie e inferenza

N/A
N/A
Protected

Academic year: 2021

Condividi "Statistiche, distribuzioni campionarie e inferenza"

Copied!
21
0
0

Testo completo

(1)

1 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Metodi statistici e probabilistici per l’ingegneria

Corso di Laurea in Ingegneria Civile

A.A. 200

9-10

Facoltà di Ingegneria, Università di Padova

Docente: Dott. L. Corain

STATISTICHE,

DISTRIBUZIONI CAMPIONARIE

E INFERENZA

(2)

3 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

SOMMARIO

DEFINIZIONE DI INFERENZA

STATISTICHE E DISTRIBUZIONI CAMPIONARIE STIMA PUNTUALE

STIMA INTERVALLARE VERIFICA DI IPOTESI CARTE DI PROBABILITÀ

INFERENZA

L’inferenza statistica può essere definita come la disciplina che utilizza l’informazione campionaria, per fare delle affermazioni sulla popolazione da cui il campione è stato tratto, in particolare sui parametri della distribuzione della popolazione stessa (solitamente µ e σ, vedere “La rappresentazione e la sintesi dei dati”) .

Le affermazioni della statistica inferenziale sono di due tipi: 9 STIMA: si vuole indicare un valore plausibile per il

parametro della popolazione, sotto una delle 2 forme: 1. un valore ben definito (STIMA PUNTUALE)

2. un intervallo in cui molto verosimilmente il parametro sia incluso (STIMA INTERVALLARE)

9 VERIFICA DI IPOTESI: indicare quale tra due specifiche ipotesi sul parametro (nulla o alternativa) sia da accettare

(3)

5 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INFERENZA SUI PROCESSI PRODUTTIVI

Si è visto come le distribuzioni di probabilità consentono di modellare e descrivere un fenomeno/processo di interesse. In relazione a questo obiettivo tuttavia, non è realistico pensare di conoscere i parametri che regolano tali fenomeni/processi e quindi è necessario ricorrere all’inferenza per stimare tali parametri e per risolvere dei problemi decisionali che li riguardano. Ad esempio non è plausibile che sia possibile conoscere con esattezza

o una dimensione media di una variabile numerica critica dal punto di vista delle prestazioni/qualità di un materiale, prodotto o processo

o la frazione di unità non conformi, non idonee o difettose presenti in un processo di fabbricazione

o la capacità di processo di rispondere alle specifiche di progettazione

I metodi inferenziali presuppongono che il campione di dati (x1,..., xn), ottenuto dalla popolazione di interesse, sia un campione casuale, cioè ottenuto in modo che le osservazioni {xi} siano indipendenti ed identicamente distribuite (IID).

Ogni funzione dei dati campionari, che non contiene parametri ignoti, viene definita statistica. La media e la varianza campionaria (e la deviazione std), oltre a essere indici descrittivi della tendenza centrale e della variabilità del campione, sono esempi di statistiche. Notiamo che le statistiche, in quanto funzioni di v.a. sono loro stesse v.a. Se conosciamo la legge di distribuzione della popolazione dalla quale è preso il campione, possiamo determinare la legge di distribuzione della statistica, detta distribuzione campionaria.

(4)

7 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

CAMPIONAMENTO

Come conseguenza delle proprietà della distribuzione di una combinazione lineare di v.a. normali, se x=(x1,..., xn), è un campione casuale di numerosità n, estratto da una v.a. X normale con media µ e varianza σ 2, allora la media campionaria X ∼ N(µ, σ2/n).

CAMPIONAMENTO DA DISTRIBUZIONE NORMALE

In virtù del Teorema del Limite Centrale, senza riferimento al tipo di distribuzione della popolazione, la legge di distribuzione della media campionaria sopra citata è ancora approssimativamente valida:

Il grado di approssimazione dipende dalla particolare forma della distribuzione di X: più è simmetrica migliore è l’approssimazione.

CAMPIONAMENTO DA ALTRE DISTRIBUZIONI

2 , d σ X N µ n   →    

(5)

9 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

CAMPIONAMENTO DA DISTRIBUZIONE DI POISSON

Una variabile casuale è caratterizzata dalla sua legge di probabilità che è identificata dai suoi parametri. Dato un valore plausibile dei parametri, siamo in grado di descrivere e rappresentare un modello statistico per la caratteristica di interesse.

Possiamo definire come stimatore di un parametro ignoto, la statistica (che è una variabili casuale) che corrisponde a tale parametro. Uno stimatore puntuale è una statistica che produce un singolo valore numerico. Un particolare valore numerico, ottenuto sulla base dei dati campionari, è detto stima.

Uno stimatore intervallare è un intervallo casuale entro cui il vero valore del parametro cade con un livello di probabilità assegnata (livello di confidenza). Questi intervalli sono usualmente indicati come intervalli di confidenza.

(6)

11 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Preso un campione casuale di n osservazioni da una v.c. X, la media campionaria x, la varianza campionaria s2, la deviazione standard campionaria s, sono rispettivamente stimatori puntuali della media della popolazione µ, della varianza della popolazione σ 2e della deviazione standard della popolazione σ.

Agli stimatori sono richieste alcune importanti proprietà, tra le quali le più rilevanti sono

PROPRIETÀ DI UNO STIMATORE

o non distorsione: il valore atteso (la media) dello stimatore deve essere uguale al parametro da stimare o minima varianza: (in qualità di v.c.) ad uno stimatore è

richiesto di avere la minore variabilità possibile, rispetto a tra tutti i possibili stimatori del parametro

o consistenza: al crescere della numerosità campionaria, la varianza dello stimatore deve tendere a zero

Mentre la media campionaria x e la varianza campionaria

s2, sono stimatori non distorti della media della popolazione

µ, della varianza della popolazione σ2, la deviazione standard campionaria s NON è uno stimatore non distorto della deviazione standard della popolazioneσ.

(7)

13 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INTERVALLI DI CONFIDENZA

(8)

15 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INTERVALLI DI CONFIDENZA

INTERVALLO DI CONFIDENZA DELLA MEDIA CON VARIANZA NOTA

Furthermore, a 100(1 − α)% upper confidence bound on µ is

whereas a 100(1 − α)% lower confidence bound on µ is

INTERVALLI DI CONFIDENZA

INTERVALLO DI CONFIDENZA DELLA MEDIA CON VARIANZA IGNOTA

Notiamo che la distribuzione di riferimento non è la normale, bensì la v.a. t di Student.

(9)

17 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INTERVALLI DI CONFIDENZA

INTERVALLO DI CONFIDENZA DELLA PROPORZIONE

INTERVALLI DI CONFIDENZA

(10)

19 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INTERVALLI DI CONFIDENZA DELLA DIFFERENZA DELLE MEDIE

VARIANZE NOTE

VARIANZE IGNOTE MA UGUALI

INTERVALLI DI CONFIDENZA DELLA DIFFERENZA DELLE MEDIE

(11)

21 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

INTERVALLO DI CONFIDENZA DELLA DIFFERENZA DI DUE PROPORZIONI

Ipotesi Nulla Ipotesi

Alternativa

VERIFICA D’IPOTESI

Una ipotesi statistica è una affermazione sui parametri di una distribuzione di probabilità.

L’ipotesi nulla corrisponde allo “stato delle cose” che possiamo presumere vero se non sono intervenuti fattori di cambiamento. Ad esempio: “il processo è sotto controllo” o “il processo è conforme”.

L’ipotesi alternativa corrisponde invece ad una eventuale situazione di allontanamento dall’ipotesi nulla che l’analista vorrebbe mettere in evidenza in caso si verificasse.

L’ipotesi alternativa può essere bilateriale (simbolo “≠”, come nell’esempio) o unilateriale (simbolo “>” o ”<”, a seconda dell’interesse dell’analista).

(12)

23 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

ERRORE DI I° E II° TIPO

(13)

25 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

PROCEDURA DECISIONALE

La procedura decisionale per condurre una verificare di ipotesi consta dei seguenti passi:

¾ specificare l’ipotesi nulla e l’ipotesi alternativa di interesse

¾ considerare l’appropriata statistica (meglio detta “statistica test”) in relazione alle ipotesi di cui sopra

¾ fissare l’errore di I tipo α (detto anche “livello di significatività del test”) ad un valore accettabile; questa operazione identifica nella distribuzione della statistica test due regioni: la regione di accettazione e la regione di rifiuto (detta anche “regione critica”)

¾ in base ai dati campionari (ottenuti da un campione casuale IID dalla popolazione sotto indagine) calcolare il valore osservato della statistica test

¾ se tale valore appartiene alla regione critica si deve rifiutare l’ipotesi nulla, altrimenti apparterrà alla regione di accettazione e non si può rifiutare l’ipotesi nulla

IL P-VALUE NELLA PROCEDURA DECISIONALE

In alternativa al considerare le due regioni di accettazione e rifiuto, è possibile prendere la decisione in base al p-value: Il p-value rappresenta la probabilità di osservare un valore della statistica test uguale o più estremo del valore che si calcola a partire dal campione, quando l’ipotesi H0è vera. Il p-value è anche chiamato livello di significatività os-servato, in quanto coincide con il più piccolo livello di significatività in corrispondenza del quale H0 è rifiutata. In base a questo approccio, la regola decisionale per rifiutare

H0è la seguente:

¾ Se il p-value è maggiore o uguale a α, l’ipotesi nulla non è rifiutata.

(14)

27 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Consideriamo ad esempio il caso di una verifica di ipotesi sulla media (σ nota) dove la statistica test Z ha una distribuzione normale standard. In base ai dati campionari, il valore osservato della statistica test è +1.50.

Naturalmente, la decisione presa in base alla regione di accettazione/rifiuto è coerente a quella presa in base alla regola del p-value (= 0.0668 × 2).

UN ESEMPIO

ANALOGIA TRA VERIFICA D’IPOTESI E INTERVALLI DI CONFIDENZA

Pur rispondendo ad obiettivi e motivazioni sostanzialmente diverse, stima intervallare e verifica di ipotesi presentano molte analogie, tanto che queste due procedure inferenziali hanno come comune origine l’espressione della distribu-zione di probabilità di una stessa statistica test.

Prendiamo, ad esempio, il caso della verifica di ipotesi sulla media (σ nota) ed il corrisponde problema di stima intervallare di µ (σ nota): entrambe le procedure si riferiscono alla distribuzione normale standard della statistica Z (vedi slide seguente). Fissato il livello di significatività α ed il livello di confidenza a (1− α), si può facilmente verificare che il valore µ0 sotto ipotesi è compreso nell’intervallo di confidenza se e solo se l’ipotesi nulla viene accettata.

Questo risultato è generalizzabile a tutte le altre procedure di stima intervallare e alla corrispondente verifica di ipotesi.

(15)

29 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

VERIFICA D’IPOTESI SULLA MEDIA (VARIANZA NOTA)

ƒ H1 nell’equazione 3-22 rappresenta una ipotesi alternativa a due code (o bilaterale)

ƒ La procedura per testare questa ipotesi consiste: considerare un campione casuale di n osservazioni della variabile casuale X,

− calcolare la statistica test, e

− rigettare H0 se |Z0| > Zα/2, dove Zα/2 è il percentile superiore a livello α/2 della distribuzione normale standard

VERIFICA D’IPOTESI SULLA MEDIA (VARIANZA IGNOTA)

ƒ Per le ipotesi alternative a due code, rigettare H0se |t0| > tα/2,n-1, dove tα/2,n-1, è il percentile superiore a livello

α/2 della distribuzione t con n − 1 gradi di libertà ƒ Per l’ipotesi alternativa ad una coda,

ƒ se H1: µ1> µ0, rigettare H0if t0> tα,n − 1, e ƒ se H1: µ1< µ0, rigettare H0if t0< −tα,n − 1 ƒ Si potrebbe inoltre calcolare il P-value del t-test

(16)

31 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

ESEMPIO

(17)

33 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

ESEMPIO

(18)

35 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE NOTE)

VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE IGNOTE) VARIANZE IGNOTE MA UGUALI

(19)

37 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE IGNOTE) VARIANZE IGNOTE E DIVERSE

(20)

39 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

VALUTAZIONE DELLA POTENZA DEL TEST

(21)

41 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA

Riferimenti

Documenti correlati

Perci` o l’u- tilizzo della disuguaglianza di Chebyshev `e limitato ai casi in cui non `e nota la forma della distribuzione della variabile casuale... Sia X la variabile

Se si desidera che l’ampiezza dell’intervallo fiduciario sia 0.02 s, quanto dovrà essere vasto il campione, ovvero, quale deve essere la sua numerosità, se il livello di fiducia è

• Stima per intervallo, si definisce un intervallo di valori centrato sulla stima puntuale x e si associa a questo una probabilità (livello di confidenza, CL) che in esso

[r]

Nel sistema illustrato in figura 1 il blocco di massa M =3kg ` e collegato ad un blocco di massa m, poggiato su un piano inclinato rispetto all’orizzontale di un angolo α=30 o , che

La media campionaria prende in considerazione tutti i valori, invece la mediana considera soltanto 1 o 2 valori centrali dei dati e quindi non dipende dai

Per dimostrare che in alcuni casi la legge del valore estremo EV1 non è adeguata a descrivere le scie degli estremi idrologici, si può far ricorso ad un test molto semplice, nel

Si verifichi graficamente l’adattamento della funzione di probabilità di Gumbel al campione, usando la relativa carta probabilistica e calcolando i parametri della distribuzione