Lezione 25

(1)

Lezione 25

In molte situazioni reali lo scopo di un’indagine statistica consiste nel confronto fra due o più popolazioni considerate in tempi o in situazioni diverse. Considerate due sole popolazioni, si confrontano generalmente i valori medi di una variabile o la proporzione di unità con una certa caratteristica.

VERIFICA DELL’UGUAGLIANZA FRA DUE VALORI MEDI Per la verifica di una ipotesi del tipo

H0 : 1 = 2

si estrae un campione da ciascuna popolazione e si calcolano le due medie campionarie per verificare se la differenza fra le stime così ottenute è abbastanza piccola da poter essere imputata all’effetto dei soli fattori casuali o se è così elevata da portare al rifiuto dell’ipotesi nulla di uguaglianza dei valori dei parametri che caratterizzano le due popolazioni.

I campioni considerati sono ovviamente indipendenti fra di loro, in quanto estratti da popolazioni diverse.

si utilizza, per esempio, per confrontare l’effetto di due fertilizzanti o di due medicinali, il rendimento di due titoli, i risultati ottenuti da studenti che hanno utilizzato due testi differenti, la durata di funzionamento di prodotti ottenuti con due macchinari diversi.

Come nel caso della verifica di ipotesi su un singolo parametro , anche in questa situazione si utilizzano statistiche test diverse in base alla conoscenza della distribuzione della Z nelle due popolazioni e a seconda delle numerosità 𝑛₁ e 𝑛₂ dei campioni estratti.

(2)

In ogni caso la verifica dell’ipotesi nulla si basa sul valore assunto dalla differenza delle due medie campionarie 𝑋̄₁ e 𝑋̄₂. Tanto più questa differenza è piccola in valore assoluto, tanto più l’ipotesi nulla sembra verosimile, mentre diventa via via più improbabile al crescere del suo valore.

Se la numerosità dei due campioni è sufficientemente elevata da poter utilizzare il teorema limite centrale, la distribuzione di probabilità delle due medie campionarie è approssimata da

𝑋̄₁~𝑁 (𝜇₁,𝜎₁² 𝑛₁) 𝑋̄₂~𝑁 (𝜇₂,𝜎₂²

𝑛₂)

1) Popolazioni di varianza nota

Tenendo conto che 𝑋̄₁ e 𝑋̄₂ sono variabili casuali indipendenti, la distribuzione approssimata della loro differenza è ancora una normale di parametri

𝑋̄₁− 𝑋̄₂~𝑁 (𝜇₁− 𝜇₂,𝜎₁² 𝑛₁ +𝜎₂²

𝑛₂)

per cui la corrispondente variabile differenza standardizzata è

𝑋̄₁− 𝑋̄₂− (𝜇₁− 𝜇₂)

√𝜎₁² 𝑛₁ +𝜎₂²

𝑛₂

~𝑁(0,1)

e la statistica test, sotto ipotesi nulla, assume la forma seguente

(3)

|

| 𝑋̄₁− 𝑋̄₂

√𝜎₁² 𝑛₁ +𝜎₂²

𝑛₂

|

Se

|

| 𝑋̄₁ − 𝑋̄₂

√𝜎₁² 𝑛₁ +𝜎₂²

𝑛₂

|

≤ 𝑧₁₋𝛼

2 non si ha motivo di rifiutare H₀

Se

|

| 𝑋̄₁ − 𝑋̄₂

√𝜎₁² 𝑛₁ +𝜎₂²

𝑛₂

|

> 𝑧₁₋^𝛼

2 si rifiuta H₀

Di solito le varianze 𝜎₁² e 𝜎₂² delle due popolazioni non sono note, ma possono essere stimate in modo corretto e coerente mediante le varianze campionarie corrette. Occorre però distinguere due diversi casi:

- si ipotizza che le popolazioni abbiano varianza diversa (popolazioni eteroschedastiche)

- si ipotizza che le popolazioni abbiano una stessa varianza (popolazioni omoschedastiche)

2) Popolazioni eteroschedastiche di varianza non nota

Quando le varianze delle due popolazioni non sono note è possibile stimarle mediante le due varianze campionarie corrette. Per la verifica dell’ipotesi nulla, se le numerosità campionarie sono abbastanza elevate da poter utilizzare il teorema limite fondamentale, si utilizza quindi la seguente variabile

(4)

𝑋̄₁− 𝑋̄₂− (𝜇₁− 𝜇₂)

√𝑆_1𝑐²

𝑛₁ +𝑆_2𝑐² 𝑛₂

~𝑁(0,1)

che, sotto l’ipotesi nulla, assume la forma

𝑋̄₁ − 𝑋̄₂

√𝑆_1𝑐²

𝑛₁ +𝑆_2𝑐² 𝑛₂

~𝑁(0,1)

Se

|

| 𝑋̄₁− 𝑋̄₂

√𝑆_1𝑐²

𝑛₁ +𝑆_2𝑐² 𝑛₂

|

≤ 𝑧₁₋𝛼

2 non si ha motivo di rifiutare H₀

Se

|

| 𝑋̄₁− 𝑋̄₂

√𝑆_1𝑐²

𝑛₁ +𝑆_2𝑐² 𝑛₂

|

> 𝑧₁₋^𝛼

2 si rifiuta H₀

ESEMPIO

Due diversi fertilizzanti sono stati utilizzati su due campioni di piante di numerosità 𝑛₁=400 e 𝑛₂=100 ottenendo i seguenti risultati:

𝑥̄₁ = 2.5 𝑠_1𝑐² = 4 𝑥̄₂ = 3.4 𝑠_2𝑐² = 8

Si vuole verificare l’ipotesi che i due fertilizzanti non diano risultati significativamente diversi fra loro al livello di significatività =0.10.

(5)

La statistica test assume il seguente valore

|| 2.5 − 3.4

√ 4400+ 8 100

|| = 3 > 𝑧0.95 = 1.645

per cui l’ipotesi va rifiutata.

Il p-valore associato alla statistica test è

2[1 − Φ(3)] = 2 × (1 − 0.9987) = 0.0026

per cui l’ipotesi di uguaglianza fra valori attesi va rifiutata per tutti i valori di  comunemente utilizzati.

3) Popolazioni omoschedastiche di varianza non nota

Se si assume la cosiddetta ipotesi di omoschedasticità secondo cui le varianze delle due popolazioni sono uguali fra loro e quindi entrambe uguali a ², la verifica dell’ipotesi nulla si basa sulla statistica

𝑋̄₁− 𝑋̄₂ − (𝜇₁− 𝜇₂)

√𝜎² 𝑛₁ +𝜎²

𝑛₂

=𝑋̄₁− 𝑋̄₂− (𝜇₁− 𝜇₂)

√𝜎²𝑛₁ + 𝑛₂ 𝑛₁𝑛₂

= 𝑋̄₁− 𝑋̄₂− (𝜇₁− 𝜇₂) 𝜎√𝑛₁+ 𝑛₂

𝑛₁𝑛₂

In genere il valore del parametro ² è ignoto, ma può essere stimato in modo corretto mediante la cosiddetta varianza campionaria pooled 𝑆_𝑝² che assume la forma seguente

𝑆_𝑝² = (𝑛₁− 1)𝑆_1𝑐² + (𝑛₂− 1)𝑆_2𝑐² 𝑛₁ + 𝑛₂− 2

(6)

e che corrisponde alla media delle due varianze campionarie corrette ponderate con le rispettive numerosità campionarie diminuite di 1.

Per la verifica dell’ipotesi nulla si utilizza quindi la seguente statistica test

𝑋̄₁− 𝑋̄₂ − (𝜇₁− 𝜇₂) 𝑆_𝑝√𝑛₁+ 𝑛₂

𝑛₁𝑛₂

~𝑡_𝑛₁_+𝑛₂₋₂

che, sotto l’ipotesi nulla. assume la forma

𝑋̄₁− 𝑋̄₂ 𝑆_𝑝√𝑛₁+ 𝑛₂

𝑛₁𝑛₂

~𝑡_𝑛₁_+𝑛₂₋₂

Se || 𝑋̄₁− 𝑋̄₂ 𝑆_𝑝√𝑛₁+ 𝑛₂

𝑛₁𝑛₂

|| ≤ 𝑡𝑛₁+𝑛₂−2,1−𝛼/2 non si ha motivo di rifiutare H₀

Se || 𝑋̄₁− 𝑋̄₂ 𝑆_𝑝√𝑛₁+ 𝑛₂

𝑛₁𝑛₂

|| > 𝑡𝑛₁+𝑛₂−2,1−𝛼/2 si rifiuta H₀

ESEMPI

1) Su due campioni casuali rispettivamente di numerosità n₁=7 e n₂=15 provenienti da due popolazioni normali e omoschedastiche sono stati ottenuti i seguenti risultati relativi alla media e alla varianza corretta

𝑥̄₁ = 2, 𝑠_1𝑐² = 4.4 𝑥̄₂ = 3.2, 𝑠_2𝑐² = 5.2

(7)

Verificare l’ipotesi di uguaglianza dei valori medi al livello di significatività 0.05

Sulla base dei dati forniti dal testo la varianza pooled risulta 𝑠_𝑝² =6 × 4.4 + 14 × 5.2

20 = 4.96

per cui la statistica test risulta pari a

|| 2 − 3.2

√4.967 + 15 105

|| ≈ 1.1771

Tenendo presente che 𝑡_20,0.975 = 2.086, non si ha motivo di rifiutare H0

Esempio 2

Si considerino i seguenti dati relativi a due campioni casuali provenienti da popolazioni normali e omoschedastiche e si verifichi l’ipotesi H₀:₁=₂ al livello di significatività =0.01.

Campione 1: 2 3 5 2 4 4 6 6 5 7 Campione 2: 5 7 5 5 6 7 7 6

Sulla base dei dati forniti dal testo si ottengono i seguenti risultati 𝑛₁ = 10 𝑥̄₁ = 4.4 𝑠_1𝑐² = 2.93̄

𝑛₂ = 8 𝑥̄₂ = 6 𝑠_2𝑐² = 0.85714

La varianza pooled risulta quindi pari a

𝑠_𝑝² =9 × 2.93̅ + 7 × 0.85714

16 = 2.025

La statistica test è quindi

(8)

|| 4.4 − 6

√2.02510 + 8 80

|| = 2. 370̅̅̅̅̅

Tenendo presente che 𝑡_16,0.995 = 2.921, non si ha motivo di rifiutare H0

Esempio 3

Su due campioni casuali rispettivamente di numerosità n₁=20 e n₂=30 provenienti da due popolazioni normali e omoschedastiche sono stati ottenuti i seguenti risultati relativi alla media e alla varianza corretta

𝑥̄₁ = 8, 𝑠_1𝑐² = 9 𝑥̄₂ = 6.5, 𝑠_2𝑐² = 10.2

Verificare l’ipotesi di uguaglianza dei valori medi mediante il calcolo del p-valore

Sotto ipotesi di omoschedasticità, lo stimatore della varianza comune è la varianza pooled che assume il valore

𝑠_𝑝² = 19 × 9 + 29 × 10.2

48 = 9.725

La statistica test è pari a

|| 8 − 6.5

√9.72520 + 30 600

|| ≈ 1.6662

In questo caso il numero dei gradi di libertà della t è superiore a 30, per cui i suoi quantili sono approssimati dai quantili della normale standard e il p-valore richiesto risulta pari a

2[1 − Φ(1.67)] = 2 × (1 − 0.9525) = 0.095

L’ipotesi nulla verrebbe rifiutata per =0.10, ma non si rifiuterebbe per un qualsiasi valore <0.095

(9)

VERIFICA DELL’UGUAGLIANZA FRA DUE PROPORZIONI Se Z ha una distribuzione Zero-Uno, la verifica dell’ipotesi

H0: 𝜋₁ = 𝜋₂ = 𝜋₀

dove 𝜋₀ indica il valore ignoto della proporzione comune nelle due popolazioni, equivale a verificare l’uguaglianza della distribuzione di Z nelle due popolazioni.

Se le numerosità campionarie n1 e n2 sono sufficientemente elevate le due proporzioni campionarie hanno distribuzione

𝑃̂₁~𝑁 (𝜋₁,𝜋₁(1 − 𝜋₁) 𝑛₁ ) 𝑃̂₂~𝑁 (𝜋₂,𝜋₂(1 − 𝜋₂)

𝑛₂ )

e, considerata la loro indipendenza, la differenza fra tali proporzioni ha la seguente distribuzione

𝑃̂₁− 𝑃̂₂~𝑁 (𝜋₁− 𝜋₂,𝜋₁(1 − 𝜋₁)

𝑛₁ +𝜋₂(1 − 𝜋₂) 𝑛₂ )

Effettuando la standardizzazione risulta

𝑃̂₁− 𝑃̂₂ − (𝜋₁− 𝜋₂)

√𝜋₁(1 − 𝜋₁)

𝑛₁ +𝜋₂(1 − 𝜋₂) 𝑛₂

~𝑁(0,1)

e, assumendo come vera l’ipotesi nulla, si ha

(10)

𝑃̂₁− 𝑃̂₂

√𝜋₀(1 − 𝜋₀)

𝑛₁ +𝜋₀(1 − 𝜋₀) 𝑛₂

= 𝑃̂₁− 𝑃̂₂

√𝜋₀(1 − 𝜋₀) (1 𝑛₁ + 1

𝑛₂)

~𝑁(0,1)

Per la stima di 𝜋₀ si utilizza la media delle due proporzioni campionarie ponderata con le numerosità campionarie, ossia lo stimatore seguente

𝜋̂₀ = 𝑃̂₀ = 𝑛₁𝑃̂₁ + 𝑛₂𝑃̂₂ 𝑛₁+ 𝑛₂

Per la verifica dell’ipotesi nulla si utilizza la statistica

𝑃̂₁− 𝑃̂₂

√𝑃̂₀(1 − 𝑃̂₀) (1 𝑛₁+ 1

𝑛₂)

~𝑁(0,1)

presa in valore assoluto.

Se || 𝑃̂₁− 𝑃̂₂

√𝑃̂₀(1 − 𝑃̂₀) (1 𝑛₁ + 1

𝑛₂)

|| ≤ 𝑧1−𝛼 2⁄ non si ha motivo di rifiutare H₀

Se || 𝑃̂₁− 𝑃̂₂

√𝑃̂₀(1 − 𝑃̂₀) (1 𝑛₁ + 1

𝑛₂)

|| > 𝑧1−𝛼 2⁄ si rifiuta H₀

(11)

ESEMPIO

Un’azienda vuole confrontare le caratteristiche di due diversi macchinari rispetto alla proporzione di articoli difettosi prodotti. Sapendo che su 500 articoli provenienti dalla produzione del macchinario A i difettosi sono 22, mentre su 1500 articoli provenienti dal macchinario B i difettosi sono 48, si verifichi l’ipotesi di uguaglianza della proporzione di articoli difettosi prodotti dai due macchinari attraverso il calcolo del p-valore

Le due proporzioni campionarie risultano

𝑝̂₁ = 22

500= 0.044 𝑝̂₂ = 48

1500 = 0.032

per cui lo stimatore della proporzione comune è data da 𝑝̂₀ = 500 × 0.044 + 1500 × 0.032

2000 = 0.035

La statistica test risulta

|| 0.044 − 0.032

√0.035(1 − 0.035) ( 1

500+ 1 1500)

|| ≈ 1.2644

e il p-valore associato è pari a

2[1 − Φ(1.26)] = 2 × (1 − 0.8962) = 0.2076

L’ipotesi di uguaglianza fra le due proporzioni non va quindi rifiutata per gli usuali livelli di significatività utilizzati.