• Non ci sono risultati.

Materiali e metod

5.2 Trattamento statistico-matematico dei dat

La fase successiva del lavoro è stata quella di procedere a un’analisi statistica descrittiva. In generale, lo scopo della statistica descrittiva è la sintesi delle informazioni estrapolabili da dati elementari di numerosità non specificabile in indicatori chiave (Montinaro & Nicolini, 2005). Le dimensioni analizzate da questi indicatori chiave sono, innanzitutto, la tendenza centrale e la dispersione. L’indicatore più utilizzato di tendenza centrale risulta essere la media, mentre l’indicatore più utilizzato per la dispersione risulta essere la variabilità. Per tutti gli indicatori è stata dunque calcolata al media, la variabilità della misura stessa, calcolata come deviazione standard (s):

78

e l’incertezza della stima del valore medio, definita come errore standard della media, ovvero:

L’errore standard (sr), infatti, descrive l’incertezza nella stima di una media (o altro valore statistico), mentre la deviazione standard descrive la variabilità di misure effettuate della popolazione. L’errore standard è, quindi, un valore direttamente correlato alla variabilità della misura ottenuta, tanto più piccolo è l’errore standard, tanto minore è la variabilità della misura, quindi tanto più attendibile è la statistica (es. una media, una percentuale, ecc.). Le tendenze centrali degli indicatori prescelti sono state poi messe a confronto graficamente (cap.6, § ). Successivamente i dati sono stati testati per la normalità tramite il test di Kolmogorov-Smirnov e di Shapiro-Wilk; non essendo alcuna variabile risultata distribuita normalmente sono stati utilizzati dei test statistici non parametrici (Siegel, 1956) per il confronto.

5.2.1 Test U di Mann-Whitney-Wilcoxon

Per il confronto a coppie dei valori riscontrati nelle cinque province coinvolte e relativi a: • densità infrastrutturale provinciale;

• densità delle strutture di comunicazione;

• densità degli eventi nel triennio 2008-2010 per provincia; • densità degli eventi nell’anno 2008 per provincia;

• densità degli eventi nell’anno 2009 per provincia; • densità degli eventi nell’anno 2010 per provincia.

è stato utilizzato il test U di Mann-Whitney-Wilcoxon o “della somma dei ranghi” (Wilcoxon, 1945; Mann e Whitney, 1947). Questo test è utilizzato per comparare le mediane di due campioni indipendenti. L’ipotesi nulla è che i due campioni messi a confronto siano stati presi dalla stessa popolazione e quindi abbiano la stessa mediana (Fowler e Cohen, 1993). È un'alternativa non- parametrica al test t di Student sulle differenze fra medie. Il test U assume che la variabile in considerazione sia stata misurata su una base almeno ordinale (come rango, quindi), ma può ovviamente essere applicato anche a dati quantitativi se si ritiene che le condizioni necessarie affinché il test t di Student possa essere applicato non siano soddisfatte (es. nel caso in cui la distribuzione dei dati non sia normale).

79

1. la totalità delle osservazioni (N totale) viene ordinata in ranghi, rispetto ad ogni gruppo;

2. i ranghi vengono, quindi, sommati indipendentemente per ogni gruppo di osservazioni (R1 e R2 );

3. si calcolano U1 e U2 in base alle seguenti formule:

U1= n1n2 + [n1 (n1 + 1)/2] – ΣR1 U2= n1n2 – U1

4. infine vengono presi in considerazione i valori più piccoli di U1 e U2 e confrontati con i valori

critici per la funzione.

L’ipotesi nulla viene accettata se la probabilità p che i due set di dati siano confrontabili è maggiore di 0.05. Al contrario il risultato sarà statisticamente significativo se minore di tale soglia; nel caso in cui il valore di p risulti essere minore di 0.01, il risultato sarà considerato altamente significativo (Davis, 1976).

5.2.2 Test per di Wilcoxon dei ranghi con segno

Per il confronto a coppie dei valori relativi alla densità degli eventi tra gli anni (2008-2009-2010) in cui si sono svolti gli eventi di comunicazione è stato utilizzato il test per di Wilcoxon dei ranghi con segno. Questo test viene utilizzato per confrontare campioni di osservazioni quando le popolazioni da cui sono estratti non sono indipendenti. Esso è quindi simile al test t per i dati appaiati. Come il test t, esso non esamina i due gruppi singolarmente ma si concentra sulla “differenza” tra i valori di ciascuna coppia e il “segno” di ciascuna differenza. Tuttavia, esso non richiede che la popolazione delle differenze sia normalmente distribuita. Il test di Wilcoxon dei ranghi con segno viene utilizzato per testare l'ipotesi nulla che, nella popolazione originaria delle differenze tra le coppie, la differenza mediana sia uguale a 0. Per calcolare la funzione Z è necessario svolgere i seguenti procedimenti

1. Selezionare un campione casuale di n coppie di osservazioni. 2. Calcolare la differenza di ciascuna coppia di osservazioni.

3. Ignorando i segni delle differenze calcolate, ordinare i loro valori assoluti dal più piccolo al più grande. Una differenza uguale a 0 non è ordinata e si esclude pertanto dall'analisi, cosicché la dimensione del campione è ridotta di un'unità.

4. Assegnare alle differenze uguali un rango medio;

5. Infine, assegnare a ciascun rango un segno positivo o negativo a seconda del segno della differenza.

6. Calcolare la somma dei ranghi positivi e dei ranghi negativi. Ignorando i segni, indicare con T la somma più piccola.

Sotto l'ipotesi nulla che la mediana della popolazione originaria delle differenze è uguale a 0, ci aspettiamo che un campione abbia approssimativamente un numero uguale di ranghi positivi e

80

ranghi negativi. Inoltre, la grandezza della somma dei ranghi positivi deve essere confrontabile con la somma dei ranghi negativi. Per testare l’ipotesi nulla si utilizza il seguente test statistico:

T T m T T Z

σ

µ

− = dove 4 ) 1 ( + = n n T µ é la somma media dei ranghi e

24 ) 1 2 )( 1 ( + + = n n n T σ è la deviazione standard di T.

5.2.3 Analisi di correlazione (test rho di Spearman)

Le correlazioni sono uno strumento statistico che si utilizza per cercare di determinare se due variabili sono interdipendenti. Non esiste distinzione tra variabili dipendenti e indipendenti, si assume che le variabili che si intende correlare, siano dipendenti tra di loro, senza sapere né se è vero né in che modo si manifesti la causa-effetto. Questo test di rango non parametrico è utilizzato per valutare la correlazione tra due variabili (descrittori) attraverso una permutazione basata su 1000 repliche e ha come fine la verifica dell’ipotesi nulla fra i descrittori. In linea di massima si può affermare che il coefficiente di correlazione di rango rho di Spearman corrisponde a un coefficiente di correlazione r di Pearson calcolato sui ranghi dei dati anziché sui dati bruti e può essere ottenuto come segue:

dove d è la differenza tra il rango della j-ma osservazione per il descrittore j e quello per il descrittore k. Il coefficiente rho di Spearman si applica nel caso di relazioni in cui deve essere verificata la monotonicità, anche se di tipo non lineare e la “robustezza” della correlazione di rango in condizioni di non linearità delle relazioni fra descrittori è la caratteristica che rende interessante l’applicazione di questo tipo di coefficiente (Scardi, 2001). Lo scopo di questa analisi è, in sintesi,

81

indagare il comportamento congiunto delle variabili rilevate, ossia come il variare di ciascuna di queste influenzi il variare delle altre. Tale analisi può essere condotta a livelli crescenti di sofisticazione. Nell’ambito del presente lavoro di ricerca si è scelto di utilizzare il coefficiente di correlazione non paramedica rho di Spearman (Kendall & Stuart, 1973) per valutare la correlazione tra:

• Densità infrastrutturale (I/Kmq) • Numero strutture

• Totale eventi di animazione naturalistica, triennio 2008 - 2010

Per ciascuna correlazione è stata valutata la significatività statistica per p<0.05.

Il coefficiente di correlazione di Spearman si concretizza in un valore di rho compreso tra -1 e 1, dove il valore zero rappresenta assenza di legame, il valore 1 rappresenta perfetto legame lineare. Inoltre il segno positivo indica che le variabili si muovono assieme, segno negativo indica che le variabili si muovono in direzioni opposte (all’aumentare di una, l'altra tende a diminuire e viceversa). Inoltre se rho = 0.00-0.40 la correlazione tra le variabili è scarsa; se rho = 0.40-0.60 è discreta; se rho = 0.60-0.80 è buona; se rho = 0.80-1.00 è forte. Il coefficiente di Spearman è un indice di correlazione adatto a variabili che non sono distribuite secondo una normale legge gaussiana, più adatto quindi in questo contesto dove alcune variabili (es. numero di eventi) sono chiaramente variabili non continue. Il coefficiente di significatività indica se il coefficiente riportato si discosta in modo statisticamente significativo da zero.

5.2.4 Modelli generali linearizzati

I modelli lineari generalizzati costituiscono un’estensione del modello lineare generale e servono anch’essi allo studio della dipendenza in media di una variabile risposta da una o più variabili antecedenti. Nei modelli lineari generalizzati vengono attenuate alcune ipotesi fondamentali nel modello lineare generale, ovvero la linearità del modello di dipendenza, la normalità e l’omoschedasticità delle osservazioni. Il modello distributivo assunto per le osservazioni della variabile conseguente costituisce un’estensione di quello gaussiano.

5.2.5 Criterio di scelta del modello

Nella letteratura statistica esistono vari metodi o criteri per scegliere un modello tra quelli plausibili. Il più noto é senza dubbio l’AIC, (Akaike Information Criterion), ma ve ne sono altri come ad esempio il BIC, Bayesian Information Criterion. Il criterio di Akaike viene calcolato nel seguente modo:

82

−2 log (L(ˆθ; y)) + 2p

mentre quello Bayesiano è dato da:

p log (n) − 2 log (L(ˆθ; y)).

In entrambi i casi il modello scelto sarà quello che minimizza il criterio. Con il metodo di Akaike si tende a selezionare un modello leggermente sovraparametrizzato per n sufficientemente elevato, mentre con quello Bayesiano per n non elevato si tende a selezionarne uno leggermente sottoparametrizzato. Nell’ambito del presente lavoro faremo riferimento all’AIC.

5.2.6 Analisi delle serie storiche

Si definisce serie storica una successione di dati numerici nella quale ogni dato è associato ad un particolare istante o intervallo di tempo (Vianelli, 1983). L’ordine temporale è essenziale, poiché si presume che vi sia una struttura di dipendenza temporale tra le osservazioni della serie. Lo scopo dell’analisi statistica di una serie storica è proprio quello di modellare tale dipendenza e cercare di spiegare il meccanismo casuale che l’ha generata.

La serie storica analizzata in questa ricerca è quella relativa alla serie di valori rappresentati dagli eventi di comunicazione/animazione naturalistica, 2008-2010, a livello provinciale. La variabile in oggetto è stata è rilevata in istanti di tempo (giorni) successivi. Quest’ultima è stata sottoposta ad analisi spettrale (Fourier) per portare in superficie l’andamento dello spettro e a un’ulteriore analisi statistica. Preso infatti atto del limitato numero di osservazioni disponibili, una proiezione circa l’andamento futuro degli eventi di animazione naturalistica provinciale è proponibile ricorrendo alla tecnica dell’Exponential Smoothing (Alvaro, 1999), anche nota come analisi del “Livellamento (o lisciamento) Esponenziale” .

Tale procedura si basa sull’idea che una ragionevole previsione del valore di una serie X al tempo t possa essere costituita da una combinazione lineare della previsione fatta sulla stessa serie nell’istante precedente. Tale combinazione lineare deve però tener conto della variazione registrata nell’unità temporale precedente tra l’effettivo valore della serie e la previsione realizzata. Quindi si ha:

ossia la nuova previsione (al tempo n+1) può essere pensata come la media pesata fra l’osservazione al tempo n (ultima osservazione disponibile) e la vecchia previsione (relativa al tempo n formulata al tempo n-1). Il valore assegnato al parametro δ è la chiave dell’analisi. Se si

83

desidera che la previsione sia stabile e che le variazioni casuali della serie siano smussate, allora si sceglie un valore per δ vicino a uno e viceversa se si vuole dare maggior peso alle osservazioni più recenti, si opta per un valore vicino a zero.