• Non ci sono risultati.

Verifica valori anomali (outlier)

Come il caso della normalità, anche in questo caso dobbiamo differenziare tra valori anomali univariati (un valore estremo su una variabile) e multivariati (una combinazione

alla normale), un valore negativo di asimmetria indica una distribuzione nella quale sono i valori alti ad essere più frequenti, e nella quale la media risulta inferiore alla mediana (la nostra curva sarà spostata verso destra rispetto alla normale).

48

“strana” di punteggi su una o due variabili). In questa sezione consideriamo i valori anomali univariati49, cioè quei valori che si distinguono in maniera particolare, perché estremamente bassi o estremamente elevati, rispetto agli altri valori nella distribuzione dei punteggi.

I casi con un punteggio standardizzato >3.29 (p>.001, test a due code) sono potenziali outliers. Ma anche in questo caso i punteggi risentono fortemente della grandezza del campione: con campioni di grandi dimensioni c’è da aspettarsi punteggi standardizzati con valori superiori a 3.29 (Tabachnick & Fidell, 2007). Entrambi i campioni presentano dei valori critici. L’azienda metalmeccanica presenta 5 valori z >3.29 su 2 variabili50; l’organizzazione sindacale presenta 7 valori z > 3.29 su 5 variabili51. I valori anomali possono influenzare molti indicatori, come la media, la deviazione standard, l’asimmetria e la curtosi. Abbiamo quindi svolto la media delle variabili con tutti i casi e senza i casi anomali. Senza casi anomali la media non varia in modo sensibile52; ciò può far pensare che i casi anomali non siano particolarmente influenti (Barbaranelli, 2003). Dopo questa verifica e l’esame dei metodi grafici (istogrammi e box plots) abbiamo mantenuto tutti i casi con valori anomali e posticipato la scelta di eliminare i casi dopo aver effettuato l’analisi multivariata. Anche perché, come sottolinea Thompson (2004, pp. 123-126),

49

I valori anomali multivariati verranno considerati nelle pagine successive.

50 Sono sempre pronto a “dare una mano” a quelli che mi stanno attorno; Mi viene spontaneo aiutare chi ha

problemi di lavoro in organizzazione. Entrambe le affermazioni fanno riferimento ai comportamenti di citta- dinanza organizzativa.

51

Le relazioni con i superiori, L’informazione e la comunicazione interna (Soddisfazione generale); Non la- scerei la mia organizzazione proprio adesso, perché ho un senso di obbligo verso le persone che ci lavorano (Commitment normativo); Non sento di “far parte della famiglia” nella mia organizzazione (Commitment affettivo).

52

Sono sempre pronto a “dare una mano” a quelli che mi stanno attorno: da 4.00 a 4.02; Mi viene spontaneo aiutare chi ha problemi di lavoro in organizzazione: da 4.14 a 4.16. Le relazioni con i superiori: da 3.02 a 3.00; L’informazione e la comunicazione interna: da 2.76 a 2.75; Non lascerei la mia organizzazione proprio adesso, perché ho un senso di obbligo verso le persone che ci lavorano: da 2.70 a 2.68; Non sento di “far parte della famiglia” nella mia organizzazione: da 3.34 a 3.32; Il mio risultato è adeguato per il lavoro che ho completato: da 3.41 a 3.44.

l’outlier è un pazzo o qualcuno che ha dato quel valore perché voleva darlo? Quali sono le ragioni di quel valore? Lo togliamo solo perché così ci rende la vita più facile?

Analisi multivariata: normalità multivariata e valori anomali multivariati Passo successivo è stato la verifica della normalità multivariata, assunzione che riguarda l’insieme delle variabili considerate. Se verificata significa che le relazioni tra le variabili considerate sono sicuramente lineari. Ribadiamo l’importanza di effettuare queste analisi prima di eseguire alcune analisi che la assumano (es. analisi discriminante, MANOVA, etc) o che assumono che le relazioni siano lineari (es. regressione lineare e analisi fattoriale) (Barbaranelli, 2006).

Nelle pagine precedenti abbiamo verificato la distribuzione univariata di ogni singola variabile. Pur non presentando problemi di normalità non abbiamo la certezza che anche la distribuzione multivariata delle variabili non presenti deviazioni. Mardia (1970) ha sviluppato dei coefficienti di curtosi e di asimmetria multivariata. Utilizzando il coefficiente di curtosi multivariata di Mardia, tramite i valori della distanza di Mahalanobis, possiamo esaminare l’ipotesi di normalità multivariata53.

53

Se la distribuzione delle p variabili è normale multivariata, e se il campione è sufficientemente ampio (al- meno 50 soggetti, Seber, 1984) il coefficiente di curtosi multivariata di Mardia dovrebbe essere minore o u- guale a p(p+2). Tramite i valori della distanza di Mahalanobis è possibile calcolare il coefficiente di curtosi multivariata di Mardia. Tale indice è uguale a D N

N i i ) / ( 2 1 2

= .

La distanza di Mahalanobis viene utilizzata anche per diagnosticare la presenza di valori anomali (outlier) multivariati. Gli outlier multivariati sono soggetti che, a differenza degli outlier univariati che presentano valori estremi su una o più variabili, hanno una combinazione di punteggi particolarmente rara rispetto al resto del campione.

Per ogni soggetto, il valore della distanza di Mahalanobis viene interpretato considerando la distribuzione del 2

χ e considerando un livello di probabilità critico pari a .001 e gradi di libertà uguali al numero di variabili che si stanno considerando (Tabachnick e Fidell, 2007). Nel caso dal campione dell’organizzazione metalmeccanica abbiamo un

252 . 39

2

16 =

χ con p<.001 e per l’organizzazione sindacale 2 43.820

19 =

χ con p<.00154. Il campione dei metalmeccanici presenta due casi con valori di Mahalanobis critici

(χ2=46 e χ2=41.43). La distanza di Mahalanobis evidenzia, quindi, che due soggetti hanno un “profilo” differente rispetto al campione. L’indice di curtosi multivariata di Mardia è uguale a 308.7655, il valore soglia del coefficiente di Mardia è uguale a 28856. Per raggiungere il valore sotto la soglia critica di Mardia dovremmo togliere 17 casi. Il 10% del nostro campione presenta dei valori anomali. Abbiamo svolto un’analisi su questa consistente parte anomala del campione e risulta che tutti i 17 casi si differenziano dal resto

54

Abbiamo considerato nell’organizzazione metalmeccanica i 16 fattori teorici, nell’organizzazione sindacale i 19 fattori teorici (includendo quindi il costrutto che fa riferimento alla giustizia organizzativa).

55

Media del quadrato della distanza di Mahalanobis

56

Numero delle variabili (p) moltiplicato per p+2 = 16*18 Observed Value 50 40 30 20 10 0 E xp ect ed C h i- sq u ar e V al u e 40 30 20 10 0

Chi-square Q-Q Plot of Mahalanobis Distance

Figura 1. Plot dei quantili relativi alla distanza di

del campione per una motivazione intrinseca elevata. Per questo motivo decidiamo di non eliminare i 17 casi, di costruire una variabile Dummy57 per tenere sempre sotto controllo, nelle successive analisi, i nostri 17 outliers. Abbiamo effettuato anche un test grafico: il plot dei quantili della distribuzione della distanza di Mahalanobis rispetto alla distribuzione del 2

χ ; la Figura 158 evidenzia la distribuzione dell’intero campione dell’organizzazione metalmeccanica.

All’interno del campione dell’organizzazione sindacale, invece, la distanza di Mahalanobis non rileva outlier. L’indice di curtosi multivariata di Mardia è pari a 404.433 e il valore soglia = 399. Il campione presenta due casi critici e, non essendoci nessun elemento che accomuna i due casi, si è deciso di eliminare i due casi, avendo così un campione composto da 113 lavoratori di una organizzazione sindacale. La Figura 2 mostra la distribuzione multivariata dell’organizzazione sindacale con i due casi outlier.

Multicollinearità

La multicollinearità è un problema con la matrice di correlazione quando le variabili sono altamente, fortemente correlate tra loro (≥.90). Maggiore è la multicollinearità, più

57

Una variabile di comodo, o dummy variable, è una variabile che assume valore 0 o 1, a seconda che sia soddisfatta o meno una data condizione. Nel nostro caso valore 1 = outlier, 0 = non outlier.

58

In ascissa sono riportati i valori osservati, in ordinata i valori attesi della distribuzione del chi quadrato se la distribuzione è normale bivariata.

Observed Value 40 30 20 10 E x p e c te d C h i- s q u a re V a lu e 40 30 20 10 0

Chi-square Q-Q Plot of Mahalanobis Distance

Figura 2. Plot dei quantili relativi alla distanza di

elevati sono, ad esempio, gli errori standard dei parametri di una regressione, e quindi le stime dei parametri più instabili.

Per valutare la multicollinearità si possono utilizzare gli indici di tolleranza (Tolerance) e VIF (Varianzce Inflaction Factory). “L’indice di tolleranza viene utilizzato per stimare quanto una variabile indipendente è linearmente correlata alle altre variabili indipendenti. La tolleranza indica la quantità di varianza di una variabile indipendente che non è spiegata dalle altre variabili indipendenti” (Barbaranelli, 2003, p. 78). Questo parametro varia tra 0 e 159; maggiore è l’indice di tolleranza, minore è la varianza che quella variabile indipendente condivide con le altre variabili indipendenti, e conseguentemente maggiore è il contributo che essa può fornire nella spiegazione della variabile dipendente. Il VIF rappresenta il reciproco della tolleranza60. Valori bassi del VIF indicano bassa collinearità, valori alti elevata collinearità. Valori tra 5 e 10 sono indicativi di forte collinearità (Barbaranelli, 2006).

Anche questa analisi, come l’analisi della normalità multivariata, è stata svolta sui fattori teorici delle scale. Nel campione metalmeccanico il fattore “Identified Regulation” presenta dei valori critici con un Ti .175 e un VIF 5.712. Il campione sindacale composto da 113 casi, invece, non presenta valori di Ti inferiori a .0161 e nessun fattore raggiunge un valore VIF maggiore o uguale a 5.

Abbiamo considerato Ti e VIF, e non gli autovalori e l’indice di collinearità (condition index), perché la letteratura li considera più importanti (Pedhazur, 1997).

59

T i=(1-Ri2) dove Ri2 è il coefficiente di determinazione ottenuto dalla regressione della variabile indipenden-

te i sulle altre variabili indipendenti.

60

VIF= 1/Ti = 1 / (1 –Ri2) 61

Un valore di tolleranza inferiore a .01 può risultare indicativo di variabili che rischiano di causare problemi nella stima dei coefficienti di regressione.

Essendo i valori degli indici di collinearità del campione metalmeccanico non particolarmente gravi, e solo al limite dei valori che la letteratura consiglia, decidiamo di non aggregare, per ora, le variabili correlate e nemmeno di eliminarle. Effettuando l’analisi fattoriale sulle diverse scale capiremo come le nostre variabili e i nostri costrutti teorici, tra cui “Identified Regulation”, si comportano su tutto il campione.

Eseguendo quest’ultimo test abbiamo concluso lo screening dati e possiamo ora proseguire le nostre analisi; entrambi i campioni non presentano problemi di normalità. Ma, come Sartori (2006) ci avvisa, non dovremmo avere atteggiamenti alla “Parsifal” o “platonici” nei confronti della distribuzione normale. Se il primo comportamento, alla “Parsifal”, è quello del ricercatore che tratta la distribuzione non normale in tutti i modi per raggiungere la normalità, discostandosi perciò dai dati “veri, più vicini alla realtà”, il secondo atteggiamento, quello platonico, è di colui che pensa la normalità come l’idea platonica dell’iperuranio: non c’è bisogno di verifica. Se il primo può essere “uno schiavo della distribuzione normale”, il secondo è troppo libero e troppo indipendente da essa.

“Quomodo hoc fiat sapientia sola monstrabit; difficile enim temperamentum est” (Seneca, Epistulae morale ad Lucilium – Liber II – 14): sarà solo la saggezza che potrà mostrare e mostrarci come raggiungere questo obiettivo.