Campionamento e Stima Parametrica
Giuseppina Albano pialbano@unisa.it
Corso di Statistica Universit`a degli Studi di Salerno
Corso di Laurea Triennale in Economia e Management a.a. 2016/2017
Inferenza
Inferenza statistica = procedimento di deduzione delle caratteristiche di una popolazione, a partire dall’osservazione di una parte di essa.
A partire da un campione di dati l’inferenza statistica consente di:
1 misurare “parametri”di interesse tenendo sotto controllo l’errore di misurazione
2 quantificare l’incertezzaconnessa alla non osservabilit`a della popolazione, ed al meccanismo di campionamento;
3 comprendere relazionidi dipendenza/causalit`a tra le caratteristiche osservate
4 verificarecon rigore logico-matematico la plausibilit`a di un’ipotesi
Inferenza
Inferenza statistica = procedimento di deduzione delle caratteristiche di una popolazione, a partire dall’osservazione di una parte di essa.
A partire da un campione di dati l’inferenza statistica consente di:
1 misurare “parametri”di interesse tenendo sotto controllo l’errore di misurazione
2 quantificare l’incertezzaconnessa alla non osservabilit`a della popolazione, ed al meccanismo di campionamento;
3 comprendere relazionidi dipendenza/causalit`a tra le caratteristiche osservate
4 verificarecon rigore logico-matematico la plausibilit`a di un’ipotesi
Inferenza
Inferenza statistica = procedimento di deduzione delle caratteristiche di una popolazione, a partire dall’osservazione di una parte di essa.
A partire da un campione di dati l’inferenza statistica consente di:
1 misurare “parametri”di interesse tenendo sotto controllo l’errore di misurazione
2 quantificare l’incertezzaconnessa alla non osservabilit`a della popolazione, ed al meccanismo di campionamento;
3 comprendere relazionidi dipendenza/causalit`a tra le
caratteristiche osservate
4 verificarecon rigore logico-matematico la plausibilit`a di un’ipotesi
Inferenza
Inferenza statistica = procedimento di deduzione delle caratteristiche di una popolazione, a partire dall’osservazione di una parte di essa.
A partire da un campione di dati l’inferenza statistica consente di:
1 misurare “parametri”di interesse tenendo sotto controllo l’errore di misurazione
2 quantificare l’incertezzaconnessa alla non osservabilit`a della popolazione, ed al meccanismo di campionamento;
3 comprendere relazionidi dipendenza/causalit`a tra le
caratteristiche osservate
4 verificarecon rigore logico-matematico la plausibilit`a di un’ipotesi
Inferenza
Inferenza statistica = procedimento di deduzione delle caratteristiche di una popolazione, a partire dall’osservazione di una parte di essa.
A partire da un campione di dati l’inferenza statistica consente di:
1 misurare “parametri”di interesse tenendo sotto controllo l’errore di misurazione
2 quantificare l’incertezzaconnessa alla non osservabilit`a della popolazione, ed al meccanismo di campionamento;
3 comprendere relazionidi dipendenza/causalit`a tra le
caratteristiche osservate
4 verificarecon rigore logico-matematico la plausibilit`a di un’ipotesi
Inferenza
Inferenza statistica = procedimento di deduzione delle caratteristiche di una popolazione, a partire dall’osservazione di una parte di essa.
A partire da un campione di dati l’inferenza statistica consente di:
1 misurare “parametri”di interesse tenendo sotto controllo l’errore di misurazione
2 quantificare l’incertezzaconnessa alla non osservabilit`a della popolazione, ed al meccanismo di campionamento;
3 comprendere relazionidi dipendenza/causalit`a tra le
caratteristiche osservate
4 verificarecon rigore logico-matematico la plausibilit`a di un’ipotesi
Inferenza
Inferenza statistica = procedimento di deduzione delle caratteristiche di una popolazione, a partire dall’osservazione di una parte di essa.
A partire da un campione di dati l’inferenza statistica consente di:
1 misurare “parametri”di interesse tenendo sotto controllo l’errore di misurazione
2 quantificare l’incertezzaconnessa alla non osservabilit`a della popolazione, ed al meccanismo di campionamento;
3 comprendere relazionidi dipendenza/causalit`a tra le
caratteristiche osservate
4 verificarecon rigore logico-matematico la plausibilit`a di un’ipotesi
Esempio 4.1
La XYZ `e una multinazionale della logistica dotata di una moderna tecnologia di magazzino. Gli impianti sono costituiti da sofisticati robot che compongono gli ordini su pallet, e questi vengono poi automaticamente caricati su autocarri. In media si assemblano 100 ordini ogni ora. Un protocollo di qualit`a stabilisce che se la
probabilit`a di assemblare un ordine difettoso supera il 5%,
l’impianto va arrestato immediatamente per approfondire in tempi brevi le cause dell’anomalia. Ad intervalli regolari di 6 ore si selezionano casualmente 25 pallets e si verifica la loro correttezza. Nell’ultima rilevazione sono state riscontrate incongruenze in 3 pallets.
Quale `e la “vera” probabilit`a p di sbagliare la preparazione di un pallet? `E ragionevole approssimare p con 3/25=0.12? Nella rilevazione successiva gli ordini sbagliati sono 1 su 25, ma 1/25 = 0.04. Esiste un modo rigoroso per tenere sotto controllo questa “variabilit`a” nei risultati?
Utilizzando l’evidenza campionaria posso stabilire se p ≥ 5% contro l’ipotesi che p < 5%?.
Esempio 4.1
La XYZ `e una multinazionale della logistica dotata di una moderna tecnologia di magazzino. Gli impianti sono costituiti da sofisticati robot che compongono gli ordini su pallet, e questi vengono poi automaticamente caricati su autocarri. In media si assemblano 100 ordini ogni ora. Un protocollo di qualit`a stabilisce che se la
probabilit`a di assemblare un ordine difettoso supera il 5%,
l’impianto va arrestato immediatamente per approfondire in tempi brevi le cause dell’anomalia. Ad intervalli regolari di 6 ore si selezionano casualmente 25 pallets e si verifica la loro correttezza. Nell’ultima rilevazione sono state riscontrate incongruenze in 3 pallets.
Quale `e la “vera” probabilit`a p di sbagliare la preparazione di un pallet? `E ragionevole approssimare p con 3/25=0.12?
Nella rilevazione successiva gli ordini sbagliati sono 1 su 25, ma 1/25 = 0.04. Esiste un modo rigoroso per tenere sotto controllo questa “variabilit`a” nei risultati?
Utilizzando l’evidenza campionaria posso stabilire se p ≥ 5% contro l’ipotesi che p < 5%?.
Esempio 4.1
La XYZ `e una multinazionale della logistica dotata di una moderna tecnologia di magazzino. Gli impianti sono costituiti da sofisticati robot che compongono gli ordini su pallet, e questi vengono poi automaticamente caricati su autocarri. In media si assemblano 100 ordini ogni ora. Un protocollo di qualit`a stabilisce che se la
probabilit`a di assemblare un ordine difettoso supera il 5%,
l’impianto va arrestato immediatamente per approfondire in tempi brevi le cause dell’anomalia. Ad intervalli regolari di 6 ore si selezionano casualmente 25 pallets e si verifica la loro correttezza. Nell’ultima rilevazione sono state riscontrate incongruenze in 3 pallets.
Quale `e la “vera” probabilit`a p di sbagliare la preparazione di un pallet? `E ragionevole approssimare p con 3/25=0.12? Nella rilevazione successiva gli ordini sbagliati sono 1 su 25, ma 1/25 = 0.04. Esiste un modo rigoroso per tenere sotto
Utilizzando l’evidenza campionaria posso stabilire se p ≥ 5% contro l’ipotesi che p < 5%?.
Esempio 4.1
La XYZ `e una multinazionale della logistica dotata di una moderna tecnologia di magazzino. Gli impianti sono costituiti da sofisticati robot che compongono gli ordini su pallet, e questi vengono poi automaticamente caricati su autocarri. In media si assemblano 100 ordini ogni ora. Un protocollo di qualit`a stabilisce che se la
probabilit`a di assemblare un ordine difettoso supera il 5%,
l’impianto va arrestato immediatamente per approfondire in tempi brevi le cause dell’anomalia. Ad intervalli regolari di 6 ore si selezionano casualmente 25 pallets e si verifica la loro correttezza. Nell’ultima rilevazione sono state riscontrate incongruenze in 3 pallets.
Quale `e la “vera” probabilit`a p di sbagliare la preparazione di un pallet? `E ragionevole approssimare p con 3/25=0.12? Nella rilevazione successiva gli ordini sbagliati sono 1 su 25, ma 1/25 = 0.04. Esiste un modo rigoroso per tenere sotto controllo questa “variabilit`a” nei risultati?
Utilizzando l’evidenza campionaria posso stabilire se p ≥ 5%
Guardiamo all’ esempio 4.1 dal punto di vista probabilistico.
Xi :=
(
1 se il pallet i `e difettoso
0 altrimenti , per i = 1, 2, . . . , 25 Se Pr{Xi = 1} = p per ogni i = 1, 2 . . . , n, allora
Xi ∼ Bernoulli(p).
Il campionamento pu`o essere visto come un esperimento casuale dove per n = 25 volte estraggo, senza rimessa, da un’urna che contiene {X1, X2, . . . , Xn}
Popolazione = Bernoulli,
Parametro di interesse = p, `e una caratteristica della popolazione non osservabile direttamente
Inferenza: sulla base delle realizzazioni campionarie consente di rispondere alle domande precedenti.
Guardiamo all’ esempio 4.1 dal punto di vista probabilistico.
Xi :=
(
1 se il pallet i `e difettoso
0 altrimenti , per i = 1, 2, . . . , 25 Se Pr{Xi = 1} = p per ogni i = 1, 2 . . . , n, allora
Xi ∼ Bernoulli(p).
Il campionamento pu`o essere visto come un esperimento casuale dove per n = 25 volte estraggo, senza rimessa, da un’urna che contiene {X1, X2, . . . , Xn}
Popolazione = Bernoulli,
Parametro di interesse = p, `e una caratteristica della popolazione non osservabile direttamente
Inferenza: sulla base delle realizzazioni campionarie consente di rispondere alle domande precedenti.
Guardiamo all’ esempio 4.1 dal punto di vista probabilistico.
Xi :=
(
1 se il pallet i `e difettoso
0 altrimenti , per i = 1, 2, . . . , 25 Se Pr{Xi = 1} = p per ogni i = 1, 2 . . . , n, allora
Xi ∼ Bernoulli(p).
Il campionamento pu`o essere visto come un esperimento casuale dove per n = 25 volte estraggo, senza rimessa, da un’urna che contiene {X1, X2, . . . , Xn}
Popolazione = Bernoulli,
Parametro di interesse = p, `e una caratteristica della popolazione non osservabile direttamente
Inferenza: sulla base delle realizzazioni campionarie consente di rispondere alle domande precedenti.
Guardiamo all’ esempio 4.1 dal punto di vista probabilistico.
Xi :=
(
1 se il pallet i `e difettoso
0 altrimenti , per i = 1, 2, . . . , 25 Se Pr{Xi = 1} = p per ogni i = 1, 2 . . . , n, allora
Xi ∼ Bernoulli(p).
Il campionamento pu`o essere visto come un esperimento casuale dove per n = 25 volte estraggo, senza rimessa, da un’urna che contiene {X1, X2, . . . , Xn}
Popolazione = Bernoulli,
Parametro di interesse = p, `e una caratteristica della popolazione non osservabile direttamente
Inferenza: sulla base delle realizzazioni campionarie consente di rispondere alle domande precedenti.
Guardiamo all’ esempio 4.1 dal punto di vista probabilistico.
Xi :=
(
1 se il pallet i `e difettoso
0 altrimenti , per i = 1, 2, . . . , 25 Se Pr{Xi = 1} = p per ogni i = 1, 2 . . . , n, allora
Xi ∼ Bernoulli(p).
Il campionamento pu`o essere visto come un esperimento casuale dove per n = 25 volte estraggo, senza rimessa, da un’urna che contiene {X1, X2, . . . , Xn}
Popolazione = Bernoulli,
Parametro di interesse = p, `e una caratteristica della popolazione non osservabile direttamente
Inferenza: sulla base delle realizzazioni campionarie consente di rispondere alle domande precedenti.
Guardiamo all’ esempio 4.1 dal punto di vista probabilistico.
Xi :=
(
1 se il pallet i `e difettoso
0 altrimenti , per i = 1, 2, . . . , 25 Se Pr{Xi = 1} = p per ogni i = 1, 2 . . . , n, allora
Xi ∼ Bernoulli(p).
Il campionamento pu`o essere visto come un esperimento casuale dove per n = 25 volte estraggo, senza rimessa, da un’urna che contiene {X1, X2, . . . , Xn}
Popolazione = Bernoulli,
Parametro di interesse = p, `e una caratteristica della popolazione non osservabile direttamente
Inferenza: sulla base delle realizzazioni campionarie consente di rispondere alle domande precedenti.
Popolazione e campionamento
Si ipotizza che una quantit`a di interesse g(θ) `e funzione di un parametro θ che governa la distribuzione di una variabile casuale X . Sia X ∼ f (θ), dove f `e la funzione di densit`a della
distribuzione di X .
popolazione= f
oggetto dell’inferenza = g(θ) oggetto dell’osservazione = X
Atto di fede: la “natura” fissa un particolare valore di θ0, detto
parametro vero. Se produco un esperimento dove faccio variare casualmente X , osserver`o realizzazioni di Xi ∼ f (θ0). Dai valori
Popolazione e campionamento
Si ipotizza che una quantit`a di interesse g(θ) `e funzione di un parametro θ che governa la distribuzione di una variabile casuale X . Sia X ∼ f (θ), dove f `e la funzione di densit`a della
distribuzione di X . popolazione= f
oggetto dell’inferenza = g(θ) oggetto dell’osservazione = X
Atto di fede: la “natura” fissa un particolare valore di θ0, detto
parametro vero. Se produco un esperimento dove faccio variare casualmente X , osserver`o realizzazioni di Xi ∼ f (θ0). Dai valori
Popolazione e campionamento
Si ipotizza che una quantit`a di interesse g(θ) `e funzione di un parametro θ che governa la distribuzione di una variabile casuale X . Sia X ∼ f (θ), dove f `e la funzione di densit`a della
distribuzione di X . popolazione= f
oggetto dell’inferenza = g(θ)
oggetto dell’osservazione = X
Atto di fede: la “natura” fissa un particolare valore di θ0, detto
parametro vero. Se produco un esperimento dove faccio variare casualmente X , osserver`o realizzazioni di Xi ∼ f (θ0). Dai valori
Popolazione e campionamento
Si ipotizza che una quantit`a di interesse g(θ) `e funzione di un parametro θ che governa la distribuzione di una variabile casuale X . Sia X ∼ f (θ), dove f `e la funzione di densit`a della
distribuzione di X . popolazione= f
oggetto dell’inferenza = g(θ) oggetto dell’osservazione = X
Atto di fede: la “natura” fissa un particolare valore di θ0, detto
parametro vero. Se produco un esperimento dove faccio variare casualmente X , osserver`o realizzazioni di Xi ∼ f (θ0). Dai valori
Popolazione e campionamento
Si ipotizza che una quantit`a di interesse g(θ) `e funzione di un parametro θ che governa la distribuzione di una variabile casuale X . Sia X ∼ f (θ), dove f `e la funzione di densit`a della
distribuzione di X . popolazione= f
oggetto dell’inferenza = g(θ) oggetto dell’osservazione = X
Atto di fede: la “natura” fissa un particolare valore di θ0, detto
parametro vero. Se produco un esperimento dove faccio variare casualmente X , osserver`o realizzazioni di Xi ∼ f (θ0). Dai valori
Il campionamento `e il complesso delle procedure attraverso le quali la variabile oggetto dell’osservazione viene misura su un numero n < N di unit`a del collettivo statistico di riferimento. N `e il numero di unit`a nel collettivo statistico, n `e il numero di misurazioni/osservazioni campionarie.
Campione: `e l’n-pla di variabili casuali (X1, X2, . . . , Xn)
Campione osservato: sono i valori osservati/misurati (x1, x2, . . . , xn), dove xi `e la realizzazione dell’esperimento
Xi ∼ f (θ)
Meccanismo di campionamento: `e lo schema probabilistico (o non probabilistico) attraverso il quale si selezionano le unit`a i = 1, 2, . . . , n.
Il campionamento `e il complesso delle procedure attraverso le quali la variabile oggetto dell’osservazione viene misura su un numero n < N di unit`a del collettivo statistico di riferimento. N `e il numero di unit`a nel collettivo statistico, n `e il numero di misurazioni/osservazioni campionarie.
Campione: `e l’n-pla di variabili casuali (X1, X2, . . . , Xn)
Campione osservato: sono i valori osservati/misurati (x1, x2, . . . , xn), dove xi `e la realizzazione dell’esperimento
Xi ∼ f (θ)
Meccanismo di campionamento: `e lo schema probabilistico (o non probabilistico) attraverso il quale si selezionano le unit`a i = 1, 2, . . . , n.
Il campionamento `e il complesso delle procedure attraverso le quali la variabile oggetto dell’osservazione viene misura su un numero n < N di unit`a del collettivo statistico di riferimento. N `e il numero di unit`a nel collettivo statistico, n `e il numero di misurazioni/osservazioni campionarie.
Campione: `e l’n-pla di variabili casuali (X1, X2, . . . , Xn)
Campione osservato: sono i valori osservati/misurati (x1, x2, . . . , xn), dove xi `e la realizzazione dell’esperimento
Xi ∼ f (θ)
Meccanismo di campionamento: `e lo schema probabilistico (o non probabilistico) attraverso il quale si selezionano le unit`a i = 1, 2, . . . , n.
Il campionamento `e il complesso delle procedure attraverso le quali la variabile oggetto dell’osservazione viene misura su un numero n < N di unit`a del collettivo statistico di riferimento. N `e il numero di unit`a nel collettivo statistico, n `e il numero di misurazioni/osservazioni campionarie.
Campione: `e l’n-pla di variabili casuali (X1, X2, . . . , Xn)
Campione osservato: sono i valori osservati/misurati (x1, x2, . . . , xn), dove xi `e la realizzazione dell’esperimento
Xi ∼ f (θ)
Meccanismo di campionamento: `e lo schema probabilistico (o non probabilistico) attraverso il quale si selezionano le unit`a i = 1, 2, . . . , n.
Meccanismi di campionamento
Campionamento probabilistico: le n unit`a sono scelte secondo un meccanismo casuale
Campionamento non probabilistico: le n unit`a sono scelte secondo uno schema ragionato
Campionamento misto: un mix dei due precedenti
Definizione 4.1 (Campionamento casuale semplice [CCS])
Il campione {X1, X2, . . . , Xn} `e detto CCS se ogni unit`a del
collettivo ha la stessa probabilit`a di entrare a far parte del campione.
Vi sono due meccanismi che danno luogo a CCS:
1 estrazione con reinserimento/rimessa
Meccanismi di campionamento
Campionamento probabilistico: le n unit`a sono scelte secondo un meccanismo casuale
Campionamento non probabilistico: le n unit`a sono scelte secondo uno schema ragionato
Campionamento misto: un mix dei due precedenti
Definizione 4.1 (Campionamento casuale semplice [CCS])
Il campione {X1, X2, . . . , Xn} `e detto CCS se ogni unit`a del
collettivo ha la stessa probabilit`a di entrare a far parte del campione.
Vi sono due meccanismi che danno luogo a CCS:
1 estrazione con reinserimento/rimessa
Meccanismi di campionamento
Campionamento probabilistico: le n unit`a sono scelte secondo un meccanismo casuale
Campionamento non probabilistico: le n unit`a sono scelte secondo uno schema ragionato
Campionamento misto: un mix dei due precedenti
Definizione 4.1 (Campionamento casuale semplice [CCS])
Il campione {X1, X2, . . . , Xn} `e detto CCS se ogni unit`a del
collettivo ha la stessa probabilit`a di entrare a far parte del campione.
Vi sono due meccanismi che danno luogo a CCS:
1 estrazione con reinserimento/rimessa
Meccanismi di campionamento
Campionamento probabilistico: le n unit`a sono scelte secondo un meccanismo casuale
Campionamento non probabilistico: le n unit`a sono scelte secondo uno schema ragionato
Campionamento misto: un mix dei due precedenti
Definizione 4.1 (Campionamento casuale semplice [CCS])
Il campione {X1, X2, . . . , Xn} `e detto CCS se ogni unit`a del
collettivo ha la stessa probabilit`a di entrare a far parte del campione.
Vi sono due meccanismi che danno luogo a CCS:
1 estrazione con reinserimento/rimessa
Meccanismi di campionamento
Campionamento probabilistico: le n unit`a sono scelte secondo un meccanismo casuale
Campionamento non probabilistico: le n unit`a sono scelte secondo uno schema ragionato
Campionamento misto: un mix dei due precedenti
Definizione 4.1 (Campionamento casuale semplice [CCS])
Il campione {X1, X2, . . . , Xn} `e detto CCS se ogni unit`a del
collettivo ha la stessa probabilit`a di entrare a far parte del campione.
Vi sono due meccanismi che danno luogo a CCS:
1 estrazione con reinserimento/rimessa
Meccanismi di campionamento
Campionamento probabilistico: le n unit`a sono scelte secondo un meccanismo casuale
Campionamento non probabilistico: le n unit`a sono scelte secondo uno schema ragionato
Campionamento misto: un mix dei due precedenti
Definizione 4.1 (Campionamento casuale semplice [CCS])
Il campione {X1, X2, . . . , Xn} `e detto CCS se ogni unit`a del
collettivo ha la stessa probabilit`a di entrare a far parte del campione.
Vi sono due meccanismi che danno luogo a CCS:
Struttura probabilistica del CCS
Ex-ante il CCS `e una successione di variabili casuali (X1, X2, . . . , Xn)iid∼ f (θ)
doveiid=indipendenti ed identicamente distribuite, infatti
indipendenti: il meccanismo `e tale per cui Xi `e indipendente
da Xj per ogni coppia di unit`a i 6= j
identicamente distribuite: ciascuna “replica campionaria” Xi `e
governata dalla stessa distribuzione f (θ)
Ex-post il campione si trasforma nell’insieme delle n misurazioni (valori osservati) (x1, x2, . . . , xn).
Struttura probabilistica del CCS
Ex-ante il CCS `e una successione di variabili casuali (X1, X2, . . . , Xn)iid∼ f (θ)
doveiid=indipendenti ed identicamente distribuite, infatti
indipendenti: il meccanismo `e tale per cui Xi `e indipendente
da Xj per ogni coppia di unit`a i 6= j
identicamente distribuite: ciascuna “replica campionaria” Xi `e
governata dalla stessa distribuzione f (θ)
Ex-post il campione si trasforma nell’insieme delle n misurazioni (valori osservati) (x1, x2, . . . , xn).
Struttura probabilistica del CCS
Ex-ante il CCS `e una successione di variabili casuali (X1, X2, . . . , Xn)iid∼ f (θ)
doveiid=indipendenti ed identicamente distribuite, infatti
indipendenti: il meccanismo `e tale per cui Xi `e indipendente
da Xj per ogni coppia di unit`a i 6= j
identicamente distribuite: ciascuna “replica campionaria” Xi `e
governata dalla stessa distribuzione f (θ)
Ex-post il campione si trasforma nell’insieme delle n misurazioni (valori osservati) (x1, x2, . . . , xn).
Errore/rumore campionario
Torniamo all’ esempio 4.1 . Supponiamo che durante un dato giorno lavorativo i campioni osservati sono
ora Valori osservati di X
06:00 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1 12:00 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 18:00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00:00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Nelle 4 fasce orarie i pallets difettosi sono rispettivamente: 5, 2, 0, 0.
L’inferenza su p condurrebbe a conclusioni diverse a seconda del campione/fascia oraria
Errore/rumore campionario
Torniamo all’ esempio 4.1 . Supponiamo che durante un dato giorno lavorativo i campioni osservati sono
ora Valori osservati di X
06:00 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1 12:00 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 18:00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00:00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Nelle 4 fasce orarie i pallets difettosi sono rispettivamente: 5, 2, 0, 0.
L’inferenza su p condurrebbe a conclusioni diverse a seconda del campione/fascia oraria
Errore/rumore campionario
Torniamo all’ esempio 4.1 . Supponiamo che durante un dato giorno lavorativo i campioni osservati sono
ora Valori osservati di X
06:00 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1 12:00 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 18:00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00:00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Nelle 4 fasce orarie i pallets difettosi sono rispettivamente: 5, 2, 0, 0.
L’inferenza su p condurrebbe a conclusioni diverse a seconda del campione/fascia oraria
Errore/rumore campionario
Torniamo all’ esempio 4.1 . Supponiamo che durante un dato giorno lavorativo i campioni osservati sono
ora Valori osservati di X
06:00 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 1 12:00 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 18:00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00:00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
Nelle 4 fasce orarie i pallets difettosi sono rispettivamente: 5, 2, 0, 0.
L’inferenza su p condurrebbe a conclusioni diverse a seconda del campione/fascia oraria
In uno schema di campionamento probabilistico (e quindi nel CCS) vi sono due sorgenti di variazioni:
1 Popolazione: xi `e la realizzazione di Xi ∼ f (θ). La f induce
una certa variabilit`a nei risultati che `e determinata dalle sue particolari caratteristiche probabilistiche. Questa sorgente di variazioni `efuori dal nostro controllo.
2 Errore/rumore campionario: il meccanismo di campionamento
aggiunge un ulteriore livello di casualit`a. Talvolta il campione estratto non `e adeguato a “replicare” le caratteristiche della popolazione. Questo errore `e in parte sotto il nostro controllo.
In uno schema di campionamento probabilistico (e quindi nel CCS) vi sono due sorgenti di variazioni:
1 Popolazione: xi `e la realizzazione di Xi ∼ f (θ). La f induce
una certa variabilit`a nei risultati che `e determinata dalle sue particolari caratteristiche probabilistiche. Questa sorgente di variazioni `efuori dal nostro controllo.
2 Errore/rumore campionario: il meccanismo di campionamento
aggiunge un ulteriore livello di casualit`a. Talvolta il campione estratto non `e adeguato a “replicare” le caratteristiche della popolazione. Questo errore `e in parte sotto il nostro controllo.
In uno schema di campionamento probabilistico (e quindi nel CCS) vi sono due sorgenti di variazioni:
1 Popolazione: xi `e la realizzazione di Xi ∼ f (θ). La f induce
una certa variabilit`a nei risultati che `e determinata dalle sue particolari caratteristiche probabilistiche. Questa sorgente di variazioni `efuori dal nostro controllo.
2 Errore/rumore campionario: il meccanismo di campionamento
aggiunge un ulteriore livello di casualit`a. Talvolta il campione estratto non `e adeguato a “replicare” le caratteristiche della popolazione. Questo errore `e in parte sotto il nostro controllo.
In uno schema di campionamento probabilistico (e quindi nel CCS) vi sono due sorgenti di variazioni:
1 Popolazione: xi `e la realizzazione di Xi ∼ f (θ). La f induce
una certa variabilit`a nei risultati che `e determinata dalle sue particolari caratteristiche probabilistiche. Questa sorgente di variazioni `efuori dal nostro controllo.
2 Errore/rumore campionario: il meccanismo di campionamento
aggiunge un ulteriore livello di casualit`a. Talvolta il campione estratto non `e adeguato a “replicare” le caratteristiche della popolazione. Questo errore `e in parte sotto il nostro controllo.
Statistiche campionarie
Definizione 4.2 (statistica campionaria)
Dato un campione (X1, X2, . . . , Xn) una statistica campionaria `e
una qualsiasi funzione T (X1, X2, . . . , Xn). Essa dipende solo dalle
repliche campionarie (X1, X2, . . . , Xn), e quindi `e una variabile
casuale.
Il “valore calcolato” di una statistica sar`a il valore T (x1, x2, . . . , xn)
noto una volta estratto il campione.
I valori calcolati di una statistica variano da campione a campione. Tali variazioni sono controllabili solo per la parte che dipende dal meccanismo di campionamento.
Perdistribuzione campionariadi una statistica T (X1, X2, . . . , Xn)
intendiamo la sua distribuzione di probabilit`a. Essa dipende dalla popolazione e dal meccanismo di campionamento.
Statistiche campionarie
Definizione 4.2 (statistica campionaria)
Dato un campione (X1, X2, . . . , Xn) una statistica campionaria `e
una qualsiasi funzione T (X1, X2, . . . , Xn). Essa dipende solo dalle
repliche campionarie (X1, X2, . . . , Xn), e quindi `e una variabile
casuale.
Il “valore calcolato” di una statistica sar`a il valore T (x1, x2, . . . , xn)
noto una volta estratto il campione.
I valori calcolati di una statistica variano da campione a campione. Tali variazioni sono controllabili solo per la parte che dipende dal meccanismo di campionamento.
Perdistribuzione campionariadi una statistica T (X1, X2, . . . , Xn)
intendiamo la sua distribuzione di probabilit`a. Essa dipende dalla popolazione e dal meccanismo di campionamento.
Statistiche campionarie
Definizione 4.2 (statistica campionaria)
Dato un campione (X1, X2, . . . , Xn) una statistica campionaria `e
una qualsiasi funzione T (X1, X2, . . . , Xn). Essa dipende solo dalle
repliche campionarie (X1, X2, . . . , Xn), e quindi `e una variabile
casuale.
Il “valore calcolato” di una statistica sar`a il valore T (x1, x2, . . . , xn)
noto una volta estratto il campione.
I valori calcolati di una statistica variano da campione a campione. Tali variazioni sono controllabili solo per la parte che dipende dal meccanismo di campionamento.
Perdistribuzione campionariadi una statistica T (X1, X2, . . . , Xn)
intendiamo la sua distribuzione di probabilit`a. Essa dipende dalla popolazione e dal meccanismo di campionamento.
Statistiche campionarie
Definizione 4.2 (statistica campionaria)
Dato un campione (X1, X2, . . . , Xn) una statistica campionaria `e
una qualsiasi funzione T (X1, X2, . . . , Xn). Essa dipende solo dalle
repliche campionarie (X1, X2, . . . , Xn), e quindi `e una variabile
casuale.
Il “valore calcolato” di una statistica sar`a il valore T (x1, x2, . . . , xn)
noto una volta estratto il campione.
I valori calcolati di una statistica variano da campione a campione. Tali variazioni sono controllabili solo per la parte che dipende dal meccanismo di campionamento.
Perdistribuzione campionariadi una statistica T (X1, X2, . . . , Xn)
intendiamo la sua distribuzione di probabilit`a. Essa dipende dalla popolazione e dal meccanismo di campionamento.
Esempio 4.2
Consideriamo i campioni rilevati per l’ esempio 4.1. Si considerino le seguenti statistiche
T1(X1, X2, . . . , Xn) =Pni =1Xi
T2(X1, X2, . . . , Xn) = max{Xi} − min{Xi}
Statistica calcolata Campione
06:00 12:00 18:00 00:00
T1 5 2 0 0
Esempio 4.3
In una popolazione di 5 individui vi sono i seguenti livelli di reddito X = {1, 2, 4, 3, 1} La distribuzione di X `e data da X P (X ) 1 0.4 2 0.2 3 0.2 4 0.2
con E[X ] = 2.2. Si effettua un campionamento casuale con rimessa di n = 3 unit`a. Trovare la distribuzione di probabilit`a della statistica (“media campionaria”):
X = 1 n n X i =1 Xi
Abbiamo N = 5 unit`a e ne prendiamo a caso n = 3 senza rimessa. Ci sono C35 = 10 possibili campioni, ciascuno avente probabilit`a 1/10=0.1 di essere estratto. I dieci campioni daranno luogo ai seguenti valori di X : Campione X Pr{Campione} {1, 1, 2} 1.3 0.1 {1, 1, 3} 1.7 0.1 {1, 1, 4} 2.0 0.1 {1, 2, 3} 2.0 0.1 {1, 2, 4} 2.3 0.1 {1, 3, 4} 2.7 0.1 {1, 2, 3} 2.0 0.1 {1, 2, 4} 2.3 0.1 {1, 3, 4} 2.7 0.1 {2, 3, 4} 3.0 0.1
Da cui calcoliamo la distribuzione di probabilit`a di X X Pr{X } 1.3 0.1 1.7 0.1 2.0 0.3 2.3 0.2 2.7 0.2 3.0 0.1 1 X Pr X ● ● ● ● ● ● 1.5 2 2.5 3 0.1 0.2 0.3
Da cui calcoliamo la distribuzione di probabilit`a di X X Pr{X } 1.3 0.1 1.7 0.1 2.0 0.3 2.3 0.2 2.7 0.2 3.0 0.1 1 X Pr X ● ● ● ● ● ● 1.5 2 2.5 3 0.1 0.2 0.3
Definizione 4.3 (media campionaria)
Data una popolazione X ∼ f , dato un CCS {X1, X2, . . . , Xn}, si
definisce media campionaria la statistica
X = 1 n n X i =1 Xi
Si denota con ¯x la media campionaria osservata.
Propriet`a della media campionaria in campioni finiti
(P4.1) Sia E[X ] = µ con |µ| < +∞, allora E[X ] = µ
(P4.2) Sia Var[X ] = σ2 < +∞, allora Var[X ] = σn2
(P4.3) Se f = Normale(µ; σ2) allora X ∼ Normale(µ;σn2).
La quantit`a se[X ] = q
Var[X ] si chiamastandard errordi X . Quindi se[X ] = √σ
Definizione 4.3 (media campionaria)
Data una popolazione X ∼ f , dato un CCS {X1, X2, . . . , Xn}, si
definisce media campionaria la statistica
X = 1 n n X i =1 Xi
Si denota con ¯x la media campionaria osservata.
Propriet`a della media campionaria in campioni finiti
(P4.1) Sia E[X ] = µ con |µ| < +∞, allora E[X ] = µ
(P4.2) Sia Var[X ] = σ2 < +∞, allora Var[X ] = σn2
(P4.3) Se f = Normale(µ; σ2) allora X ∼ Normale(µ;σn2).
La quantit`a se[X ] = q
Var[X ] si chiamastandard errordi X . Quindi se[X ] = √σ
Definizione 4.3 (media campionaria)
Data una popolazione X ∼ f , dato un CCS {X1, X2, . . . , Xn}, si
definisce media campionaria la statistica
X = 1 n n X i =1 Xi
Si denota con ¯x la media campionaria osservata.
Propriet`a della media campionaria in campioni finiti
(P4.1) Sia E[X ] = µ con |µ| < +∞, allora E[X ] = µ
(P4.2) Sia Var[X ] = σ2 < +∞, allora Var[X ] = σn2
(P4.3) Se f = Normale(µ; σ2) allora X ∼ Normale(µ;σn2).
La quantit`a se[X ] = q
Var[X ] si chiamastandard errordi X . Quindi se[X ] = √σ
Definizione 4.3 (media campionaria)
Data una popolazione X ∼ f , dato un CCS {X1, X2, . . . , Xn}, si
definisce media campionaria la statistica
X = 1 n n X i =1 Xi
Si denota con ¯x la media campionaria osservata.
Propriet`a della media campionaria in campioni finiti
(P4.1) Sia E[X ] = µ con |µ| < +∞, allora E[X ] = µ
(P4.2) Sia Var[X ] = σ2 < +∞, allora Var[X ] = σn2
(P4.3) Se f = Normale(µ; σ2) allora X ∼ Normale(µ;σn2).
La quantit`a se[X ] = q
Var[X ] si chiamastandard errordi X . Quindi se[X ] = √σ
Definizione 4.3 (media campionaria)
Data una popolazione X ∼ f , dato un CCS {X1, X2, . . . , Xn}, si
definisce media campionaria la statistica
X = 1 n n X i =1 Xi
Si denota con ¯x la media campionaria osservata.
Propriet`a della media campionaria in campioni finiti
(P4.1) Sia E[X ] = µ con |µ| < +∞, allora E[X ] = µ
(P4.2) Sia Var[X ] = σ2 < +∞, allora Var[X ] = σn2
(P4.3) Se f = Normale(µ; σ2) allora X ∼ Normale(µ;σn2).
La quantit`a se[X ] = q
Var[X ] si chiamastandard errordi X . Quindi se[X ] = √σ
Definizione 4.3 (media campionaria)
Data una popolazione X ∼ f , dato un CCS {X1, X2, . . . , Xn}, si
definisce media campionaria la statistica
X = 1 n n X i =1 Xi
Si denota con ¯x la media campionaria osservata.
Propriet`a della media campionaria in campioni finiti
(P4.1) Sia E[X ] = µ con |µ| < +∞, allora E[X ] = µ
(P4.2) Sia Var[X ] = σ2 < +∞, allora Var[X ] = σn2
(P4.3) Se f = Normale(µ; σ2) allora X ∼ Normale(µ;σn2).
La quantit`a se[X ] = q
Esempio: esercizio 7.17 (Newbold, Carlson e Thorne)
X = ore dedicate allo studio, n = 4. Si assume X ∼ Normale(µ, 82) a) Pr{X − µ > 2} = Pr X −µ σ √ n > √28 4 = Pr {Z > 0.5} = 1 − Φ(0.5) = 1 − 0.6915 = 0.3085 b) Pr{X − µ < −3} = Pr X −µ σ √ n < −3√8 4 = Pr{Z < −0.75} = 1 − Φ(0.75) = 1 − 0.7734 = 0.2266 c) Pr{|X − µ| > 4} = Pr X −µ σ √ n > √48 4 = Pr{|Z | > 1} = Pr{Z < −1 ∪ Z > 1} = 2 Pr{Z > 1} = 2(1 − Φ(1)) = 0.3173 d) In tutti e tre i casi calcoliamo probabilit`a di coda rispetto alla variabile casuale X − µ. Inoltre σ/√n sar`a piccolo in tutti e tre i casi, di conseguenza il valore standardizzato sar`a pi`u grande. Quindi le probabilit`a (di coda) saranno pi`u piccole in tutti e tre i casi.
Esempio: esercizio 7.17 (Newbold, Carlson e Thorne)
X = ore dedicate allo studio, n = 4. Si assume X ∼ Normale(µ, 82) a) Pr{X − µ > 2} = Pr X −µ σ √ n > √28 4 = Pr {Z > 0.5} = 1 − Φ(0.5) = 1 − 0.6915 = 0.3085 b) Pr{X − µ < −3} = Pr X −µ σ √ n < −3√8 4 = Pr{Z < −0.75} = 1 − Φ(0.75) = 1 − 0.7734 = 0.2266 c) Pr{|X − µ| > 4} = Pr X −µ σ √ n > √48 4 = Pr{|Z | > 1} = Pr{Z < −1 ∪ Z > 1} = 2 Pr{Z > 1} = 2(1 − Φ(1)) = 0.3173 d) In tutti e tre i casi calcoliamo probabilit`a di coda rispetto alla variabile casuale X − µ. Inoltre σ/√n sar`a piccolo in tutti e tre i casi, di conseguenza il valore standardizzato sar`a pi`u grande. Quindi le probabilit`a (di coda) saranno pi`u piccole in tutti e tre i casi.
Esempio: esercizio 7.17 (Newbold, Carlson e Thorne)
X = ore dedicate allo studio, n = 4. Si assume X ∼ Normale(µ, 82) a) Pr{X − µ > 2} = Pr X −µ σ √ n > √28 4 = Pr {Z > 0.5} = 1 − Φ(0.5) = 1 − 0.6915 = 0.3085 b) Pr{X − µ < −3} = Pr X −µ σ √ n < −3√8 4 = Pr{Z < −0.75} = 1 − Φ(0.75) = 1 − 0.7734 = 0.2266 c) Pr{|X − µ| > 4} = Pr X −µ σ √ n > √48 4 = Pr{|Z | > 1} = Pr{Z < −1 ∪ Z > 1} = 2 Pr{Z > 1} = 2(1 − Φ(1)) = 0.3173 d) In tutti e tre i casi calcoliamo probabilit`a di coda rispetto alla variabile casuale X − µ. Inoltre σ/√n sar`a piccolo in tutti e tre i casi, di conseguenza il valore standardizzato sar`a pi`u grande. Quindi le probabilit`a (di coda) saranno pi`u piccole in tutti e tre i casi.
Esempio: esercizio 7.17 (Newbold, Carlson e Thorne)
X = ore dedicate allo studio, n = 4. Si assume X ∼ Normale(µ, 82) a) Pr{X − µ > 2} = Pr X −µ σ √ n > √28 4 = Pr {Z > 0.5} = 1 − Φ(0.5) = 1 − 0.6915 = 0.3085 b) Pr{X − µ < −3} = Pr X −µ σ √ n < −3√8 4 = Pr{Z < −0.75} = 1 − Φ(0.75) = 1 − 0.7734 = 0.2266 c) Pr{|X − µ| > 4} = Pr X −µ σ √ n > √48 4 = Pr{|Z | > 1} = Pr{Z < −1 ∪ Z > 1} = 2 Pr{Z > 1} = 2(1 − Φ(1)) = 0.3173 d) In tutti e tre i casi calcoliamo probabilit`a di coda rispetto alla variabile casuale X − µ. Inoltre σ/√n sar`a piccolo in tutti e tre i casi, di conseguenza il valore standardizzato sar`a pi`u grande.
Propriet`a asintotiche della media campionaria
(P4.4) Sia E[X ] = µ con |µ| < +∞. Per n → ∞ lalegge forte dei grandi numeri garantisce che
Prlimn→∞X = µ = 1
(P4.5) Sia E[X ] = µ, e Var[X ] = σ2 < ∞. Per n → ∞ il teorema centrale del limite garantisce che
√
nX − µ σ
d
−→ Normale(0, 1).
Questo implica che per n “sufficientemente grande” (ma non ∞) X ≈ Normale µ,σ 2 n
Propriet`a asintotiche della media campionaria
(P4.4) Sia E[X ] = µ con |µ| < +∞. Per n → ∞ lalegge forte dei grandi numeri garantisce che
Prlimn→∞X = µ = 1
(P4.5) Sia E[X ] = µ, e Var[X ] = σ2 < ∞. Per n → ∞ il teorema centrale del limite garantisce che
√
nX − µ σ
d
−→ Normale(0, 1).
Questo implica che per n “sufficientemente grande” (ma non ∞) X ≈ Normale µ,σ 2 n
Esempio 4.4
Si consideri una popolazione dove il reddito X ha distribuzione χ25. Da cui µ = E[X ] = 5 e σ2 = Var[X ] = 10. Dato un CCS, per un n qualsiasi E[X ] = µ = 5 e Var[X ] = σ 2 n = 10 n .
La popolazione non `e Normale, ma per effetto delle propriet`a asintotiche di X otteniamo che per n sufficientemente grande
X ≈ Normale
5,10 n
Produciamo un certo numero di campioni casuali di dimensione n = 5, 25, 50, 100, 500, 1000, 10000, e confrontiamo ogni volta l’istogramma delle medie campionarie con la densit`a di una Normale(5, 10/n)
n=5 Densità di X 2 3 4 5 6 7 8 9 0.00 0.10 0.20 0.30
n=25 X Densità di X 3.5 4.0 4.5 5.0 5.5 6.0 6.5 0.0 0.2 0.4 0.6
n=50 Densità di X 3.5 4.0 4.5 5.0 5.5 6.0 6.5 0.0 0.2 0.4 0.6 0.8 1.0
n=100 X Densità di X 4.0 4.5 5.0 5.5 6.0 0.0 0.2 0.4 0.6 0.8 1.0 1.2
n=500 Densità di X 4.6 4.8 5.0 5.2 5.4 5.6 0.0 0.5 1.0 1.5 2.0 2.5 3.0
n=1000 X Densità di X 4.6 4.8 5.0 5.2 5.4 0 1 2 3 4
n=10000 Densità di X 4.90 4.95 5.00 5.05 5.10 0 2 4 6 8 10 12
Definizione 4.4 (proporzione campionaria)
Sia X ∼Bernoulli(p) e sia {X1, X2, . . . , Xn} un CCS, ovvero
Xi :=
(
1 con probabilit`a p
0 con probabilit`a 1 − p , per i = 1, 2, . . . , n Si definisce proporzione campionaria la statistica
ˆ P := 1 n p X i =1 Xi.
Si denota con ˆp la proporzione campionaria osservata. ˆ
P ∈ [0, 1], essa `e pari alla “proporzione” di repliche campionarie per cui la X vale 1.
Consideriamo l’ esempio 4.1 , la proporzione campionaria calcolata vale
Campione 06:00 12:00 18:00 00:00
ˆ
p 255 = 0.2 252 = 0.08 250 = 0 250 = 0
Interpretazione
Per il campione misurato alle 06:00, il 20% dei pallets `e risultato difettoso
Per i campioni delle 18:00 e delle 00:00 i pallets difettosi sono lo 0%
Si noti che ˆ
P non `e altro che una media campionaria per campioni Bernoulliani,
Consideriamo l’ esempio 4.1 , la proporzione campionaria calcolata vale
Campione 06:00 12:00 18:00 00:00
ˆ
p 255 = 0.2 252 = 0.08 250 = 0 250 = 0
Interpretazione
Per il campione misurato alle 06:00, il 20% dei pallets `e risultato difettoso
Per i campioni delle 18:00 e delle 00:00 i pallets difettosi sono lo 0%
Si noti che ˆ
P non `e altro che una media campionaria per campioni Bernoulliani,
Consideriamo l’ esempio 4.1 , la proporzione campionaria calcolata vale
Campione 06:00 12:00 18:00 00:00
ˆ
p 255 = 0.2 252 = 0.08 250 = 0 250 = 0
Interpretazione
Per il campione misurato alle 06:00, il 20% dei pallets `e risultato difettoso
Per i campioni delle 18:00 e delle 00:00 i pallets difettosi sono lo 0%
Si noti che ˆ
P non `e altro che una media campionaria per campioni Bernoulliani,
Propriet`a della proporzione campionaria in campioni finiti
(P4.6) E[ ˆP ] = p
(P4.7) Var[ ˆP ] = p(1−p)n standard errordi ˆP : se[ ˆP ] =
q
Var[ ˆP ] = q
p(1−p) n
Propriet`a asintotiche della proporzione campionaria
(P4.8) Per n → ∞ la legge forte dei grandi numeri
garantisce che Pr n
limn→∞P = pˆ
o = 1
(P4.9) Per n → ∞ la il teorema centrale del limite garantisce che ˆ P − p q p(1−p) n d −→ Normale(0, 1).
Questo implica che per n “sufficientemente grande” (ma non ∞) e np(1 − p) > 9 ˆ P ≈ Normale p,p(1 − p) n
Propriet`a della proporzione campionaria in campioni finiti
(P4.6) E[ ˆP ] = p
(P4.7) Var[ ˆP ] = p(1−p)n
standard errordi ˆP : se[ ˆP ] = q
Var[ ˆP ] = q
p(1−p) n
Propriet`a asintotiche della proporzione campionaria
(P4.8) Per n → ∞ la legge forte dei grandi numeri
garantisce che Pr n
limn→∞P = pˆ
o = 1
(P4.9) Per n → ∞ la il teorema centrale del limite garantisce che ˆ P − p q p(1−p) n d −→ Normale(0, 1).
Questo implica che per n “sufficientemente grande” (ma non ∞) e np(1 − p) > 9 ˆ P ≈ Normale p,p(1 − p) n
Propriet`a della proporzione campionaria in campioni finiti
(P4.6) E[ ˆP ] = p
(P4.7) Var[ ˆP ] = p(1−p)n
standard errordi ˆP : se[ ˆP ] = q
Var[ ˆP ] = q
p(1−p) n
Propriet`a asintotiche della proporzione campionaria
(P4.8) Per n → ∞ la legge forte dei grandi numeri
garantisce che Pr n
limn→∞P = pˆ
o = 1
(P4.9) Per n → ∞ la il teorema centrale del limite garantisce che ˆ P − p q p(1−p) n d −→ Normale(0, 1).
Questo implica che per n “sufficientemente grande” (ma non ∞) e np(1 − p) > 9 ˆ P ≈ Normale p,p(1 − p) n
Propriet`a della proporzione campionaria in campioni finiti
(P4.6) E[ ˆP ] = p
(P4.7) Var[ ˆP ] = p(1−p)n standard errordi ˆP : se[ ˆP ] =
q
Var[ ˆP ] = q
p(1−p) n
Propriet`a asintotiche della proporzione campionaria
(P4.8) Per n → ∞ la legge forte dei grandi numeri
garantisce che Pr n
limn→∞P = pˆ
o = 1
(P4.9) Per n → ∞ la il teorema centrale del limite garantisce che ˆ P − p q p(1−p) n d −→ Normale(0, 1).
Questo implica che per n “sufficientemente grande” (ma non ∞) e np(1 − p) > 9 ˆ P ≈ Normale p,p(1 − p) n
Propriet`a della proporzione campionaria in campioni finiti
(P4.6) E[ ˆP ] = p
(P4.7) Var[ ˆP ] = p(1−p)n standard errordi ˆP : se[ ˆP ] =
q
Var[ ˆP ] = q
p(1−p) n
Propriet`a asintotiche della proporzione campionaria
(P4.8) Per n → ∞ la legge forte dei grandi numeri
garantisce che Pr n
limn→∞P = pˆ
o = 1
(P4.9) Per n → ∞ la il teorema centrale del limite garantisce che ˆ P − p q p(1−p) n d −→ Normale(0, 1).
Questo implica che per n “sufficientemente grande” (ma non ∞) e np(1 − p) > 9 ˆ P ≈ Normale p,p(1 − p) n
Propriet`a della proporzione campionaria in campioni finiti
(P4.6) E[ ˆP ] = p
(P4.7) Var[ ˆP ] = p(1−p)n standard errordi ˆP : se[ ˆP ] =
q
Var[ ˆP ] = q
p(1−p) n
Propriet`a asintotiche della proporzione campionaria
(P4.8) Per n → ∞ la legge forte dei grandi numeri
garantisce che Pr n
limn→∞P = pˆ
o = 1
(P4.9) Per n → ∞ la il teorema centrale del limite garantisce che ˆ P − p q p(1−p) n d −→ Normale(0, 1).
Questo implica che per n “sufficientemente grande” (ma non ∞) e np(1 − p) > 9
ˆ
Esempio: esercizio 7.33 (Newbold, Carlson e Thorne)
X = 1 se il paziente paga in ritardo, X ∼ Bernoulli(p = 0.3), n = 200. a) se[ ˆP ] = q p(1−p) n = q 0.3×0.7 200 = 0.032
b) Si noti: np(1 − p) = 42. L’approssimazione normale per ˆP `e possibile. Pr{ ˆP < 0.25} = Pr ( ˆ P −p q p(1−p) n < 0.25−0.300.032 ) = Pr{Z < −1.56} = 1 − Φ(1.56) = 1 − 0.9406 = 0.0594 c) Risultato: 0.1736 d) Pr{0.27 < ˆP < 0.33} = Pr ( 0.27−0.30 0.032 < ˆ P −p q p(1−p) n < 0.33−0.300.032 ) = Pr{−0.94 < Z < 0.94} = Φ(0.94) − Φ(−0.94) = 0.6528. [Nota: si poteva usare il risultato c)]
Esempio: esercizio 7.33 (Newbold, Carlson e Thorne)
X = 1 se il paziente paga in ritardo, X ∼ Bernoulli(p = 0.3), n = 200. a) se[ ˆP ] = q p(1−p) n = q 0.3×0.7 200 = 0.032
b) Si noti: np(1 − p) = 42. L’approssimazione normale per ˆP `e possibile. Pr{ ˆP < 0.25} = Pr ( ˆ P −p q p(1−p) n < 0.25−0.300.032 ) = Pr{Z < −1.56} = 1 − Φ(1.56) = 1 − 0.9406 = 0.0594 c) Risultato: 0.1736 d) Pr{0.27 < ˆP < 0.33} = Pr ( 0.27−0.30 0.032 < ˆ P −p q p(1−p) n < 0.33−0.300.032 ) = Pr{−0.94 < Z < 0.94} = Φ(0.94) − Φ(−0.94) = 0.6528. [Nota: si poteva usare il risultato c)]
Esempio: esercizio 7.33 (Newbold, Carlson e Thorne)
X = 1 se il paziente paga in ritardo, X ∼ Bernoulli(p = 0.3), n = 200. a) se[ ˆP ] = q p(1−p) n = q 0.3×0.7 200 = 0.032
b) Si noti: np(1 − p) = 42. L’approssimazione normale per ˆP `e possibile. Pr{ ˆP < 0.25} = Pr ( ˆ P −p q p(1−p) n < 0.25−0.300.032 ) = Pr{Z < −1.56} = 1 − Φ(1.56) = 1 − 0.9406 = 0.0594 c) Risultato: 0.1736 d) Pr{0.27 < ˆP < 0.33} = Pr ( 0.27−0.30 0.032 < ˆ P −p q p(1−p) n < 0.33−0.300.032 ) = Pr{−0.94 < Z < 0.94} = Φ(0.94) − Φ(−0.94) = 0.6528. [Nota: si poteva usare il risultato c)]
Esempio: esercizio 7.33 (Newbold, Carlson e Thorne)
X = 1 se il paziente paga in ritardo, X ∼ Bernoulli(p = 0.3), n = 200. a) se[ ˆP ] = q p(1−p) n = q 0.3×0.7 200 = 0.032
b) Si noti: np(1 − p) = 42. L’approssimazione normale per ˆP `e possibile. Pr{ ˆP < 0.25} = Pr ( ˆ P −p q p(1−p) n < 0.25−0.300.032 ) = Pr{Z < −1.56} = 1 − Φ(1.56) = 1 − 0.9406 = 0.0594 c) Risultato: 0.1736 d) Pr{0.27 < ˆP < 0.33} = Pr ( 0.27−0.30 0.032 < ˆ P −p q p(1−p) n < 0.33−0.300.032 ) = Pr{−0.94 < Z < 0.94} = Φ(0.94) − Φ(−0.94) = 0.6528. [Nota: si poteva usare il risultato c)]
Esempio: esercizio 7.33 (Newbold, Carlson e Thorne)
X = 1 se il paziente paga in ritardo, X ∼ Bernoulli(p = 0.3), n = 200. a) se[ ˆP ] = q p(1−p) n = q 0.3×0.7 200 = 0.032
b) Si noti: np(1 − p) = 42. L’approssimazione normale per ˆP `e possibile. Pr{ ˆP < 0.25} = Pr ( ˆ P −p q p(1−p) n < 0.25−0.300.032 ) = Pr{Z < −1.56} = 1 − Φ(1.56) = 1 − 0.9406 = 0.0594 c) Risultato: 0.1736 d) Pr{0.27 < ˆP < 0.33} = Pr ( 0.27−0.30 0.032 < ˆ P −p q p(1−p) n < 0.33−0.300.032 ) = Pr{−0.94 < Z < 0.94} = Φ(0.94) − Φ(−0.94) = 0.6528. [Nota: si poteva usare il risultato c)]
Definizione 4.5 (varianza campionaria)
Sia X ∼ f , e sia {X1, X2, . . . , Xn} un CCS. Si definisce varianza
campionaria la statistica S2 = 1 n − 1 n X i =1 (Xi − X )2,
mentre√S2 `e detta deviazione standard campionaria. Si denota
con s2 la varianza campionaria osservata.
Devianza campionaria=Pn
i =1(Xi − X )2. La devianza
campionaria `e proporzionale alla varianza campionaria, infatti
(n − 1)S2 =
n
X
i =1
Definizione 4.5 (varianza campionaria)
Sia X ∼ f , e sia {X1, X2, . . . , Xn} un CCS. Si definisce varianza
campionaria la statistica S2 = 1 n − 1 n X i =1 (Xi − X )2,
mentre√S2 `e detta deviazione standard campionaria. Si denota
con s2 la varianza campionaria osservata.
Devianza campionaria=Pn
i =1(Xi− X )2. La devianza
campionaria `e proporzionale alla varianza campionaria, infatti
(n − 1)S2=
n
X
i =1
Propriet`a della varianza campionaria in campioni finiti
(P4.10) Sia Var[X ] = σ2 < +∞, allora E[S2] = σ2
(P4.11) In generale la Var[S2] dipende da E[X4]
(P4.12) Se f `e simmetrica, allora Cov(X , S2) = 0
Propriet`a della varianza campionaria in campioni finiti e f = Normale(µ; σ2)
(P4.13) Var[S2] = n−12σ4
(P4.14) Per il Teorema di Cochran
(n − 1)S2 σ2 ∼ χ 2 n−1, e quindi n X i =1 (Xi− X )2∼ σ2χ2n−1
Propriet`a della varianza campionaria in campioni finiti
(P4.10) Sia Var[X ] = σ2 < +∞, allora E[S2] = σ2
(P4.11) In generale la Var[S2] dipende da E[X4]
(P4.12) Se f `e simmetrica, allora Cov(X , S2) = 0
Propriet`a della varianza campionaria in campioni finiti e f = Normale(µ; σ2)
(P4.13) Var[S2] = n−12σ4
(P4.14) Per il Teorema di Cochran
(n − 1)S2 σ2 ∼ χ 2 n−1, e quindi n X i =1 (Xi− X )2∼ σ2χ2n−1
Propriet`a della varianza campionaria in campioni finiti
(P4.10) Sia Var[X ] = σ2 < +∞, allora E[S2] = σ2
(P4.11) In generale la Var[S2] dipende da E[X4]
(P4.12) Se f `e simmetrica, allora Cov(X , S2) = 0
Propriet`a della varianza campionaria in campioni finiti e f = Normale(µ; σ2)
(P4.13) Var[S2] = n−12σ4
(P4.14) Per il Teorema di Cochran
(n − 1)S2 σ2 ∼ χ 2 n−1, e quindi n X i =1 (Xi− X )2∼ σ2χ2n−1
Propriet`a della varianza campionaria in campioni finiti
(P4.10) Sia Var[X ] = σ2 < +∞, allora E[S2] = σ2
(P4.11) In generale la Var[S2] dipende da E[X4]
(P4.12) Se f `e simmetrica, allora Cov(X , S2) = 0
Propriet`a della varianza campionaria in campioni finiti e f = Normale(µ; σ2)
(P4.13) Var[S2] = n−12σ4
(P4.14) Per il Teorema di Cochran
(n − 1)S2 σ2 ∼ χ 2 n−1, e quindi n X i =1 (Xi− X )2∼ σ2χ2n−1
Propriet`a della varianza campionaria in campioni finiti
(P4.10) Sia Var[X ] = σ2 < +∞, allora E[S2] = σ2
(P4.11) In generale la Var[S2] dipende da E[X4]
(P4.12) Se f `e simmetrica, allora Cov(X , S2) = 0
Propriet`a della varianza campionaria in campioni finiti e f = Normale(µ; σ2)
(P4.13) Var[S2] = n−12σ4
(P4.14) Per il Teorema di Cochran
(n − 1)S2 σ2 ∼ χ 2 n−1, e quindi n X i =1 (Xi− X )2∼ σ2χ2n−1
Propriet`a della varianza campionaria in campioni finiti
(P4.10) Sia Var[X ] = σ2 < +∞, allora E[S2] = σ2
(P4.11) In generale la Var[S2] dipende da E[X4]
(P4.12) Se f `e simmetrica, allora Cov(X , S2) = 0
Propriet`a della varianza campionaria in campioni finiti e f = Normale(µ; σ2)
(P4.13) Var[S2] = n−12σ4
(P4.14) Per il Teorema di Cochran
(n − 1)S2 σ2 ∼ χ 2 n−1, e quindi n X i =1 (Xi− X )2∼ σ2χ2n−1
Propriet`a della varianza campionaria in campioni finiti
(P4.10) Sia Var[X ] = σ2 < +∞, allora E[S2] = σ2
(P4.11) In generale la Var[S2] dipende da E[X4]
(P4.12) Se f `e simmetrica, allora Cov(X , S2) = 0
Propriet`a della varianza campionaria in campioni finiti e f = Normale(µ; σ2)
(P4.13) Var[S2] = n−12σ4
(P4.14) Per il Teorema di Cochran
(n − 1)S2 σ2 ∼ χ 2 n−1, e quindi n X i =1 (Xi− X )2∼ σ2χ2n−1
Propriet`a della varianza campionaria in campioni finiti
(P4.10) Sia Var[X ] = σ2 < +∞, allora E[S2] = σ2
(P4.11) In generale la Var[S2] dipende da E[X4]
(P4.12) Se f `e simmetrica, allora Cov(X , S2) = 0
Propriet`a della varianza campionaria in campioni finiti e f = Normale(µ; σ2)
(P4.13) Var[S2] = n−12σ4
(P4.14) Per il Teorema di Cochran
(n − 1)S2 σ2 ∼ χ 2 n−1, e quindi n X i =1 (Xi− X )2∼ σ2χ2n−1
Propriet`a asintotiche della varianza campionaria
(P4.15) Per n → ∞, indipendentemente dalla forma di f , Cov(X , S2) → 0. Ovvero le statistiche S2 e X sono linearmente indipendenti in grandi campioni
(P4.16) Sia E[X2] < +∞. Per n → ∞ lalegge forte dei grandi numeri garantisce che
Pr{limn→∞S2 = σ2} = 1
(P4.17) Sia E[X4] < ∞. Per n → ∞ ilteorema centrale del limite garantisce che
S2− σ2
pVar[S2] d
Propriet`a asintotiche della varianza campionaria
(P4.15) Per n → ∞, indipendentemente dalla forma di f , Cov(X , S2) → 0. Ovvero le statistiche S2 e X sono linearmente indipendenti in grandi campioni
(P4.16) Sia E[X2] < +∞. Per n → ∞ lalegge forte dei
grandi numeri garantisce che Pr{limn→∞S2 = σ2} = 1
(P4.17) Sia E[X4] < ∞. Per n → ∞ ilteorema centrale del limite garantisce che
S2− σ2
pVar[S2] d
Propriet`a asintotiche della varianza campionaria
(P4.15) Per n → ∞, indipendentemente dalla forma di f , Cov(X , S2) → 0. Ovvero le statistiche S2 e X sono linearmente indipendenti in grandi campioni
(P4.16) Sia E[X2] < +∞. Per n → ∞ lalegge forte dei
grandi numeri garantisce che Pr{limn→∞S2 = σ2} = 1
(P4.17) Sia E[X4] < ∞. Per n → ∞ ilteorema centrale del limite garantisce che
S2− σ2
pVar[S2] d
Propriet`a distributive di X quando la varianza non `e nota La Propriet`a (P4.3) e la Propriet`a (P4.5) riguardano i casi in cui la varianza della popolazione `e nota. Quando la varianza non `e nota si usa S2 al suo posto.
(P4.18) Data la popolazione X ∼ Normale(µ; σ2), allora √
n X − µ
S ∼ tn−1
(P4.19) Data la popolazione X ∼ f , sia E[X ] = µ e Var[X ] = σ2 < ∞, allora √ n X − µ S d −→ Normale(0, 1)
Propriet`a distributive di X quando la varianza non `e nota La Propriet`a (P4.3) e la Propriet`a (P4.5) riguardano i casi in cui la varianza della popolazione `e nota. Quando la varianza non `e nota si usa S2 al suo posto.
(P4.18) Data la popolazione X ∼ Normale(µ; σ2), allora
√
n X − µ
S ∼ tn−1
(P4.19) Data la popolazione X ∼ f , sia E[X ] = µ e Var[X ] = σ2 < ∞, allora √ n X − µ S d −→ Normale(0, 1)
Propriet`a distributive di X quando la varianza non `e nota La Propriet`a (P4.3) e la Propriet`a (P4.5) riguardano i casi in cui la varianza della popolazione `e nota. Quando la varianza non `e nota si usa S2 al suo posto.
(P4.18) Data la popolazione X ∼ Normale(µ; σ2), allora
√
n X − µ
S ∼ tn−1
(P4.19) Data la popolazione X ∼ f , sia E[X ] = µ e Var[X ] = σ2< ∞, allora √ n X − µ S d −→ Normale(0, 1)
Stimatore e stima
Torniamo al problema originario di inferire θ. Nell’ esempio 4.1 il nostro θ = p.
In molte situazioni l’oggetto dell’inferenza `e una funzione dei parametri che governano la popolazione, o di una funzione di essi.
Definizione 4.6 (Stimatore parametrico puntuale)
Data una popolazione X ∼ f (θ), sia {X1, X2, . . . , Xn} un
campione. Uno stimatore (parametrico puntuale) per θ `e una statistica campionaria ˆθ = T (X1, X2, . . . , Xn) utilizzata per
dedurre l’informazione su θ contenuta nel campione. La stima `e il valore osservato dello stimatore, ovvero il valore calcolato sui campioni osservati.
Stimatore e stima
Torniamo al problema originario di inferire θ. Nell’ esempio 4.1 il nostro θ = p.
In molte situazioni l’oggetto dell’inferenza `e una funzione dei parametri che governano la popolazione, o di una funzione di essi.
Definizione 4.6 (Stimatore parametrico puntuale)
Data una popolazione X ∼ f (θ), sia {X1, X2, . . . , Xn} un
campione. Uno stimatore (parametrico puntuale) per θ `e una statistica campionaria ˆθ = T (X1, X2, . . . , Xn) utilizzata per
dedurre l’informazione su θ contenuta nel campione. La stima `e il valore osservato dello stimatore, ovvero il valore calcolato sui campioni osservati.
Stimatore e stima
Torniamo al problema originario di inferire θ. Nell’ esempio 4.1 il nostro θ = p.
In molte situazioni l’oggetto dell’inferenza `e una funzione dei parametri che governano la popolazione, o di una funzione di essi.
Definizione 4.6 (Stimatore parametrico puntuale)
Data una popolazione X ∼ f (θ), sia {X1, X2, . . . , Xn} un
campione. Uno stimatore (parametrico puntuale) per θ `e una statistica campionaria ˆθ = T (X1, X2, . . . , Xn) utilizzata per
dedurre l’informazione su θ contenuta nel campione. La stima `e il valore osservato dello stimatore, ovvero il valore calcolato sui campioni osservati.
Stimatore e stima
Torniamo al problema originario di inferire θ. Nell’ esempio 4.1 il nostro θ = p.
In molte situazioni l’oggetto dell’inferenza `e una funzione dei parametri che governano la popolazione, o di una funzione di essi.
Definizione 4.6 (Stimatore parametrico puntuale)
Data una popolazione X ∼ f (θ), sia {X1, X2, . . . , Xn} un
campione. Uno stimatore (parametrico puntuale) per θ `e una statistica campionaria ˆθ = T (X1, X2, . . . , Xn) utilizzata per
dedurre l’informazione su θ contenuta nel campione. La stima `e il valore osservato dello stimatore, ovvero il valore calcolato sui campioni osservati.
Molti stimatori di uso comune coincidono con statistiche di media e varianza, e/o statistiche d’ordine.
Qualche esempio:
X ∼Normale(µ, 1), in questo caso θ = µ. Poich´e µ = E[X ] uno stimatore per µ potrebbe essere ˆθ1 = X . Tuttavia, la
popolazione `e simmetrica e µ coincide anche con la mediana di X , quindi uno stimatore alternativo per µ potrebbe essere
ˆ
θ2 = q(0.5).
X ∼Normale(µ, σ2), θ = (µ, σ2). In questo caso il nostro stimatore dovr`a essere una coppia di statistiche di media e varianza, ad esempio ˆθ = (X , S2)
X ∼ tk, quindi θ = k ma noi siamo interessati a
g(θ) = k /(k − 2) Si noti che g(θ) coincide con Var[X ], quindi un candidato per stimare g(θ) `e S2.
Molti stimatori di uso comune coincidono con statistiche di media e varianza, e/o statistiche d’ordine.
Qualche esempio:
X ∼Normale(µ, 1), in questo caso θ = µ. Poich´e µ = E[X ] uno stimatore per µ potrebbe essere ˆθ1 = X . Tuttavia, la
popolazione `e simmetrica e µ coincide anche con la mediana di X , quindi uno stimatore alternativo per µ potrebbe essere
ˆ
θ2 = q(0.5).
X ∼Normale(µ, σ2), θ = (µ, σ2). In questo caso il nostro stimatore dovr`a essere una coppia di statistiche di media e varianza, ad esempio ˆθ = (X , S2)
X ∼ tk, quindi θ = k ma noi siamo interessati a
g(θ) = k /(k − 2) Si noti che g(θ) coincide con Var[X ], quindi un candidato per stimare g(θ) `e S2.
Molti stimatori di uso comune coincidono con statistiche di media e varianza, e/o statistiche d’ordine.
Qualche esempio:
X ∼Normale(µ, 1), in questo caso θ = µ. Poich´e µ = E[X ] uno stimatore per µ potrebbe essere ˆθ1 = X . Tuttavia, la
popolazione `e simmetrica e µ coincide anche con la mediana di X , quindi uno stimatore alternativo per µ potrebbe essere
ˆ
θ2 = q(0.5).
X ∼Normale(µ, σ2), θ = (µ, σ2). In questo caso il nostro stimatore dovr`a essere una coppia di statistiche di media e varianza, ad esempio ˆθ = (X , S2)
X ∼ tk, quindi θ = k ma noi siamo interessati a
g(θ) = k /(k − 2) Si noti che g(θ) coincide con Var[X ], quindi un candidato per stimare g(θ) `e S2.
Molti stimatori di uso comune coincidono con statistiche di media e varianza, e/o statistiche d’ordine.
Qualche esempio:
X ∼Normale(µ, 1), in questo caso θ = µ. Poich´e µ = E[X ] uno stimatore per µ potrebbe essere ˆθ1 = X . Tuttavia, la
popolazione `e simmetrica e µ coincide anche con la mediana di X , quindi uno stimatore alternativo per µ potrebbe essere
ˆ
θ2 = q(0.5).
X ∼Normale(µ, σ2), θ = (µ, σ2). In questo caso il nostro stimatore dovr`a essere una coppia di statistiche di media e varianza, ad esempio ˆθ = (X , S2)
X ∼ tk, quindi θ = k ma noi siamo interessati a
g(θ) = k /(k − 2) Si noti che g(θ) coincide con Var[X ], quindi un candidato per stimare g(θ) `e S2.
Trastatistica estimatore vi sono importantidifferenzeconcettuali e pratiche.
Una statistica sintetizza informazione campionaria. Uno stimatore `e una statistica specializzata nel raccogliere informazioni su θ
Di una statistica solitamente ci interessa la distribuzione. Di uno stimatore ci interessa di pi`u, ed in particolare quanto “precisamente/accuratamente” rappresenta θ
Trastatistica estimatore vi sono importantidifferenzeconcettuali e pratiche.
Una statistica sintetizza informazione campionaria. Uno stimatore `e una statistica specializzata nel raccogliere informazioni su θ
Di una statistica solitamente ci interessa la distribuzione. Di uno stimatore ci interessa di pi`u, ed in particolare quanto “precisamente/accuratamente” rappresenta θ
Trastatistica estimatore vi sono importantidifferenzeconcettuali e pratiche.
Una statistica sintetizza informazione campionaria. Uno stimatore `e una statistica specializzata nel raccogliere informazioni su θ
Di una statistica solitamente ci interessa la distribuzione. Di uno stimatore ci interessa di pi`u, ed in particolare quanto “precisamente/accuratamente” rappresenta θ