1 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
Metodi statistici e probabilistici per l’ingegneria
Corso di Laurea in Ingegneria Civile
A.A. 200
9-10
Facoltà di Ingegneria, Università di Padova
Docente: Dott. L. Corain
STATISTICHE,
DISTRIBUZIONI CAMPIONARIE
E INFERENZA
3 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
SOMMARIO
DEFINIZIONE DI INFERENZA
STATISTICHE E DISTRIBUZIONI CAMPIONARIE STIMA PUNTUALE
STIMA INTERVALLARE VERIFICA DI IPOTESI CARTE DI PROBABILITÀ
INFERENZA
L’inferenza statistica può essere definita come la disciplina che utilizza l’informazione campionaria, per fare delle affermazioni sulla popolazione da cui il campione è stato tratto, in particolare sui parametri della distribuzione della popolazione stessa (solitamente µ e σ, vedere “La rappresentazione e la sintesi dei dati”) .
Le affermazioni della statistica inferenziale sono di due tipi: 9 STIMA: si vuole indicare un valore plausibile per il
parametro della popolazione, sotto una delle 2 forme: 1. un valore ben definito (STIMA PUNTUALE)
2. un intervallo in cui molto verosimilmente il parametro sia incluso (STIMA INTERVALLARE)
9 VERIFICA DI IPOTESI: indicare quale tra due specifiche ipotesi sul parametro (nulla o alternativa) sia da accettare
5 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
INFERENZA SUI PROCESSI PRODUTTIVI
Si è visto come le distribuzioni di probabilità consentono di modellare e descrivere un fenomeno/processo di interesse. In relazione a questo obiettivo tuttavia, non è realistico pensare di conoscere i parametri che regolano tali fenomeni/processi e quindi è necessario ricorrere all’inferenza per stimare tali parametri e per risolvere dei problemi decisionali che li riguardano. Ad esempio non è plausibile che sia possibile conoscere con esattezza
o una dimensione media di una variabile numerica critica dal punto di vista delle prestazioni/qualità di un materiale, prodotto o processo
o la frazione di unità non conformi, non idonee o difettose presenti in un processo di fabbricazione
o la capacità di processo di rispondere alle specifiche di progettazione
I metodi inferenziali presuppongono che il campione di dati (x1,..., xn), ottenuto dalla popolazione di interesse, sia un campione casuale, cioè ottenuto in modo che le osservazioni {xi} siano indipendenti ed identicamente distribuite (IID).
Ogni funzione dei dati campionari, che non contiene parametri ignoti, viene definita statistica. La media e la varianza campionaria (e la deviazione std), oltre a essere indici descrittivi della tendenza centrale e della variabilità del campione, sono esempi di statistiche. Notiamo che le statistiche, in quanto funzioni di v.a. sono loro stesse v.a. Se conosciamo la legge di distribuzione della popolazione dalla quale è preso il campione, possiamo determinare la legge di distribuzione della statistica, detta distribuzione campionaria.
7 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
CAMPIONAMENTO
Come conseguenza delle proprietà della distribuzione di una combinazione lineare di v.a. normali, se x=(x1,..., xn), è un campione casuale di numerosità n, estratto da una v.a. X normale con media µ e varianza σ 2, allora la media campionaria X ∼ N(µ, σ2/n).
CAMPIONAMENTO DA DISTRIBUZIONE NORMALE
In virtù del Teorema del Limite Centrale, senza riferimento al tipo di distribuzione della popolazione, la legge di distribuzione della media campionaria sopra citata è ancora approssimativamente valida:
Il grado di approssimazione dipende dalla particolare forma della distribuzione di X: più è simmetrica migliore è l’approssimazione.
CAMPIONAMENTO DA ALTRE DISTRIBUZIONI
2 , d σ X N µ n →
9 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
CAMPIONAMENTO DA DISTRIBUZIONE DI POISSON
Una variabile casuale è caratterizzata dalla sua legge di probabilità che è identificata dai suoi parametri. Dato un valore plausibile dei parametri, siamo in grado di descrivere e rappresentare un modello statistico per la caratteristica di interesse.
Possiamo definire come stimatore di un parametro ignoto, la statistica (che è una variabili casuale) che corrisponde a tale parametro. Uno stimatore puntuale è una statistica che produce un singolo valore numerico. Un particolare valore numerico, ottenuto sulla base dei dati campionari, è detto stima.
Uno stimatore intervallare è un intervallo casuale entro cui il vero valore del parametro cade con un livello di probabilità assegnata (livello di confidenza). Questi intervalli sono usualmente indicati come intervalli di confidenza.
11 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
Preso un campione casuale di n osservazioni da una v.c. X, la media campionaria x, la varianza campionaria s2, la deviazione standard campionaria s, sono rispettivamente stimatori puntuali della media della popolazione µ, della varianza della popolazione σ 2e della deviazione standard della popolazione σ.
Agli stimatori sono richieste alcune importanti proprietà, tra le quali le più rilevanti sono
PROPRIETÀ DI UNO STIMATORE
o non distorsione: il valore atteso (la media) dello stimatore deve essere uguale al parametro da stimare o minima varianza: (in qualità di v.c.) ad uno stimatore è
richiesto di avere la minore variabilità possibile, rispetto a tra tutti i possibili stimatori del parametro
o consistenza: al crescere della numerosità campionaria, la varianza dello stimatore deve tendere a zero
Mentre la media campionaria x e la varianza campionaria
s2, sono stimatori non distorti della media della popolazione
µ, della varianza della popolazione σ2, la deviazione standard campionaria s NON è uno stimatore non distorto della deviazione standard della popolazioneσ.
13 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
INTERVALLI DI CONFIDENZA
15 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
INTERVALLI DI CONFIDENZA
INTERVALLO DI CONFIDENZA DELLA MEDIA CON VARIANZA NOTA
Furthermore, a 100(1 − α)% upper confidence bound on µ is
whereas a 100(1 − α)% lower confidence bound on µ is
INTERVALLI DI CONFIDENZA
INTERVALLO DI CONFIDENZA DELLA MEDIA CON VARIANZA IGNOTA
Notiamo che la distribuzione di riferimento non è la normale, bensì la v.a. t di Student.
17 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
INTERVALLI DI CONFIDENZA
INTERVALLO DI CONFIDENZA DELLA PROPORZIONE
INTERVALLI DI CONFIDENZA
19 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
INTERVALLI DI CONFIDENZA DELLA DIFFERENZA DELLE MEDIE
VARIANZE NOTE
VARIANZE IGNOTE MA UGUALI
INTERVALLI DI CONFIDENZA DELLA DIFFERENZA DELLE MEDIE
21 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
INTERVALLO DI CONFIDENZA DELLA DIFFERENZA DI DUE PROPORZIONI
Ipotesi Nulla Ipotesi
Alternativa
VERIFICA D’IPOTESI
Una ipotesi statistica è una affermazione sui parametri di una distribuzione di probabilità.
L’ipotesi nulla corrisponde allo “stato delle cose” che possiamo presumere vero se non sono intervenuti fattori di cambiamento. Ad esempio: “il processo è sotto controllo” o “il processo è conforme”.
L’ipotesi alternativa corrisponde invece ad una eventuale situazione di allontanamento dall’ipotesi nulla che l’analista vorrebbe mettere in evidenza in caso si verificasse.
L’ipotesi alternativa può essere bilateriale (simbolo “≠”, come nell’esempio) o unilateriale (simbolo “>” o ”<”, a seconda dell’interesse dell’analista).
23 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
ERRORE DI I° E II° TIPO
25 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
PROCEDURA DECISIONALE
La procedura decisionale per condurre una verificare di ipotesi consta dei seguenti passi:
¾ specificare l’ipotesi nulla e l’ipotesi alternativa di interesse
¾ considerare l’appropriata statistica (meglio detta “statistica test”) in relazione alle ipotesi di cui sopra
¾ fissare l’errore di I tipo α (detto anche “livello di significatività del test”) ad un valore accettabile; questa operazione identifica nella distribuzione della statistica test due regioni: la regione di accettazione e la regione di rifiuto (detta anche “regione critica”)
¾ in base ai dati campionari (ottenuti da un campione casuale IID dalla popolazione sotto indagine) calcolare il valore osservato della statistica test
¾ se tale valore appartiene alla regione critica si deve rifiutare l’ipotesi nulla, altrimenti apparterrà alla regione di accettazione e non si può rifiutare l’ipotesi nulla
IL P-VALUE NELLA PROCEDURA DECISIONALE
In alternativa al considerare le due regioni di accettazione e rifiuto, è possibile prendere la decisione in base al p-value: Il p-value rappresenta la probabilità di osservare un valore della statistica test uguale o più estremo del valore che si calcola a partire dal campione, quando l’ipotesi H0è vera. Il p-value è anche chiamato livello di significatività os-servato, in quanto coincide con il più piccolo livello di significatività in corrispondenza del quale H0 è rifiutata. In base a questo approccio, la regola decisionale per rifiutare
H0è la seguente:
¾ Se il p-value è maggiore o uguale a α, l’ipotesi nulla non è rifiutata.
27 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
Consideriamo ad esempio il caso di una verifica di ipotesi sulla media (σ nota) dove la statistica test Z ha una distribuzione normale standard. In base ai dati campionari, il valore osservato della statistica test è +1.50.
Naturalmente, la decisione presa in base alla regione di accettazione/rifiuto è coerente a quella presa in base alla regola del p-value (= 0.0668 × 2).
UN ESEMPIO
ANALOGIA TRA VERIFICA D’IPOTESI E INTERVALLI DI CONFIDENZA
Pur rispondendo ad obiettivi e motivazioni sostanzialmente diverse, stima intervallare e verifica di ipotesi presentano molte analogie, tanto che queste due procedure inferenziali hanno come comune origine l’espressione della distribu-zione di probabilità di una stessa statistica test.
Prendiamo, ad esempio, il caso della verifica di ipotesi sulla media (σ nota) ed il corrisponde problema di stima intervallare di µ (σ nota): entrambe le procedure si riferiscono alla distribuzione normale standard della statistica Z (vedi slide seguente). Fissato il livello di significatività α ed il livello di confidenza a (1− α), si può facilmente verificare che il valore µ0 sotto ipotesi è compreso nell’intervallo di confidenza se e solo se l’ipotesi nulla viene accettata.
Questo risultato è generalizzabile a tutte le altre procedure di stima intervallare e alla corrispondente verifica di ipotesi.
29 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
VERIFICA D’IPOTESI SULLA MEDIA (VARIANZA NOTA)
H1 nell’equazione 3-22 rappresenta una ipotesi alternativa a due code (o bilaterale)
La procedura per testare questa ipotesi consiste: considerare un campione casuale di n osservazioni della variabile casuale X,
− calcolare la statistica test, e
− rigettare H0 se |Z0| > Zα/2, dove Zα/2 è il percentile superiore a livello α/2 della distribuzione normale standard
VERIFICA D’IPOTESI SULLA MEDIA (VARIANZA IGNOTA)
Per le ipotesi alternative a due code, rigettare H0se |t0| > tα/2,n-1, dove tα/2,n-1, è il percentile superiore a livello
α/2 della distribuzione t con n − 1 gradi di libertà Per l’ipotesi alternativa ad una coda,
se H1: µ1> µ0, rigettare H0if t0> tα,n − 1, e se H1: µ1< µ0, rigettare H0if t0< −tα,n − 1 Si potrebbe inoltre calcolare il P-value del t-test
31 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
ESEMPIO
33 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
ESEMPIO
35 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE NOTE)
VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE IGNOTE) VARIANZE IGNOTE MA UGUALI
37 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE IGNOTE) VARIANZE IGNOTE E DIVERSE
39 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA
VALUTAZIONE DELLA POTENZA DEL TEST
41 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA