• Non ci sono risultati.

alla domanda di partenza, “Esiste un mercato potenziale nella provincia di Pisa per un

themed retail di abbigliamento?” Per rispondere al quesito si deve capire se i dati

rilevati dai due gruppi (A&F e H&M) sono statisticamente diversi.

Come abbiamo spiegato in precedenza sono stati valutati dai rispondenti 5 diversi aspetti dello shopping, tenendo presente le indicazioni di letteratura145. Per ogni

elemento si deve individuare la presenza di uno scostamento positivo o negativo dei dati a favore del primo (A&F) o del secondo gruppo (H&M). Poiché si è interessati a

valutare se esse sono significative, cioè se riflettono reali differenze anche nella

popolazione oppure se sono dovute al caso (cioè se sono legate in qualche modo al fatto

95 che stiamo considerando campioni e non popolazioni), questi devono essere analizzati da un punto di vista inferenziale.

Per ottenere questo si deve ricorrere al test-T, ossia una procedura di verifica d’ipotesi sulla significatività della differenza tra le medie di due gruppi. Quando ci si trova di fronte a due medie 𝜇1 𝜇2 da mettere a confronto e la varianza della distribuzione dei dati è sconosciuta, si ricorre al criterio del T-test.

Viene utilizzata la distribuzione t di Student, poiché lo scarto tra le medie dei campioni estratti dalla stessa popolazione e la media dell’universo, in rapporto all’errore standard, non è distribuito da una normale (come accadrebbe per campioni di misura infinita) ma bensì da una distribuzione diversa, come esposto nelle formula (1):

t = (𝑿̅−𝝁)

𝑺 √𝒏⁄ (1) dove al numeratore si trova la differenza tra la media del campione e la media della popolazione ed al denominatore l’errore standard del campione.

La distribuzione di probabilità della variabile aleatoria t assume forma campanulare simmetrica, ma con una dispersione che diminuisce con il numero di gradi di libertà. Aumentando il numero di gradi di libertà, la distribuzione t di Student tenda ad una distribuzione normale.

Quando la distribuzione t è applicata ad un test di verifica d’ipotesi è necessario dimostrare 3 condizioni: le osservazioni devono essere tra loro indipendenti, la variabile dipendente deve avere una distribuzione normale e le varianze all’interno degli strati devo essere uguali. Nel caso in cui l’ultima condizione non sia verificata si deve procedere all’utilizzo di un T-test corretto.

96 L’indipendenza dei dati deriva dalla modalità di organizzazione della raccolta dei dati, non devono sussistere condizioni di causa effetto tra le variabili esaminate e lo stesso soggetto non deve essere intervistato più volte. Per dimostrare la veridicità di questa condizione si può utilizzare l’indice del chi-quadro ( 𝑥2) . Esso si basa sulla differenza tra frequenze osservate e frequenze attese, questo indice assume valore zero in caso di perfetta indipendenza dei dati.

Rispetto alla condizione di normalità la distribuzione t è robusta, ovvero rimane approssimativamente valida, anche quando le distribuzioni di dati non rispettano esattamente la condizione di normalità. Questa condizione si può dimostrare tramite l’utilizzo del NPP (normal probability plot), un grafico a due dimensioni in cui le osservazioni sono riportate sull’asse verticale e a ciascuna di esse viene fatto corrispondere sull’asse orizzontale il relativo quantile di una distribuzione normale standardizzata. Se i punti sul grafico si trovano approssimativamente su una retta inclinata positivamente allora si può affermare la normalità della distribuzione. La terza condizione vuole che si dimostri l’omogeneità delle varianze

(omoschedasticità). Tale ipotesi può essere valutata tramite l’applicazione del test di Levene (W), descritto come nella formula (2):

(2)

Dove:

 risultato del test,

 numero dei gruppi

 numero totale dei casi di tutti i gruppi,

97

 il valore della variabile misurata per il caso th nel th gruppo,

 è la media di ,

 è la media di per il gruppo .

Il test di Levene, nonostante la complicata procedura, può essere svolto tramite il software R in pochi e semplici passaggi, come esposto a pagina seguente:

a <- c( data set ) b <- c( data set )

dati <- c (a,b)

gruppi = factors(rep(letters[1:2], each=100)) library(lawstat)

levene.test(dati,gruppi,location="mean")

Come in tutti i test, si hanno due ipotesi da porre sotto analisi, se la statistica test risultante dall’applicazione della procedura presenta un p-value maggiore del livello di significatività del test (𝛼) allora si può ammettere che le varianze sono uguali. In caso il p-value assuma valori più piccoli diα si deve constatare l’eteroschedasticità delle varianze, quindi per quella/e variabili deve essere effettuato un t-test corretto.

Se le 3 condizioni sono state verificate si può procedere con l’applicazione del test ai dati campionari. Come ogni test si basa su due o più ipotesi, in questo caso 𝐻0 e 𝐻1, dove:

𝐻0: 𝜇1 = 𝜇2 mentre 𝐻1: 𝜇1 ≠ 𝜇2 (3)

98 L’ipotesi 𝐻0 ammette che le medie dei due gruppi (𝜇1,𝜇2) sono uguali, nel nostro caso significa che le medie osservate nel gruppo1(A&F) sono uguali alle medie osservate nel gruppo 2 (H&M).

La seconda ipotesi 𝐻1 dimostra che le medie campionarie 𝜇1,𝜇2 sono statisticamente diverse tra loro, ossia che i valori medi dei dati nel primo gruppo sono diversi dai valori medi dei dati nel secondo gruppo.

La procedura del test nel confronto fra due medie di campioni, si usa una distribuzione della variabile casuale definita in questo modo:

𝒕 = 𝑫𝒊𝒇𝒇𝒆𝒓𝒆𝒏𝒛𝒂𝑭𝒓𝒂𝒍𝒆𝑴𝒆𝒅𝒊𝒆𝑪𝒂𝒎𝒑𝒊𝒐𝒏𝒂𝒓𝒊𝒆

𝑬𝒓𝒓𝒐𝒓𝒆𝑺𝒕𝒂𝒏𝒅𝒂𝒓𝒅𝑫𝒆𝒍𝒍𝒂𝑫𝒊𝒇𝒇𝒆𝒓𝒆𝒏𝒛𝒂𝑭𝒓𝒂𝑳𝒆𝑴𝒆𝒅𝒊𝒆𝑪𝒂𝒎𝒑𝒊𝒐𝒏𝒂𝒓𝒊𝒆 (4) Nel caso in esame avrà una distribuzione t con un livello di significatività al 95%:

La curva di distribuzione della probabilità è centrata sul valore medio e presenta due code simmetriche, le quali rappresentano entrambe il 2,5 % di probabilità.

Per la verifica d’ipotesi, si deve calcolare il valore t di riferimento secondo i gradi di libertà ed il livello di significatività. Se il valore risultante dalla procedura di test è minore del valore critico di t si può accettare l’ipotesi nulla 𝐻0. Secondo la quale le

99 medie campionarie sono uguali, quindi le eventuali differenze non possono essere considerate come statisticamente significative, bensì dipendono da fattori casuali. Nel caso opposto, in cui il risultato del test sia maggiore del livello critico della

distribuzione t idonea, si deve rifiutare l’ipotesi nulla ed accettare l’ipotesi alternativa. Significa ammettere che esista una differenza significativa tra le due medie di gruppo, dimostrando che una è migliore dell’altra.

Il test ci fornisce come output anche il p-value, ossia la probabilità di osservare una differenza fra le medie maggiore a quella trovata nei dati quando le medie delle popolazioni sono uguali, se questo valore è più elevato del livello di accettazione del test 𝛼 si può rifiutare l’ipotesi nulla. Per capire meglio, se il p-value è maggiore d i 𝛼 è vero che esiste una differenza significativa tra i due gruppi, se il p-value è minore di 𝛼 non c’è differenza statistica ed i risultati ottenuti non possono essere allargati alla popolazione.