• Non ci sono risultati.

4.7 Misure di “tendenza centrale”

4.8.5 Lo scarto quadratico medio

Fig. 4.15. Rappresentazione grafica dello scarto quadratico medio (S). Lo scarto quadratico medio pu`o essere inteso come la media delle differenze di una variabile dalla propria media. In questo caso, 42.3 rappresenta la media degli scarti dalla media: (91.5) linea nera orizzontale al centro del grafico.

Lo scarto quadratico medio (s) rappresenta la media dello scarto di una determinata variabile dalla sua media. Questo valore si ottiene semplicemente calcolando per una data variabile la radice quadrata aritmetica della varianza campionaria. Infatti l’equazione dello scarto quadratico medio `e:

s = v u u u u t n X j=1 (xj− ¯x)2 n − 1 (4.11)

Il principale vantaggio del calcolo dello scarto quadratico medio `e che i valori sono riferibili alle unit`a di misura della variabile. Dunque, questi sono immediatamente assimilabili e forniscono un’indicatore molto utile relativo alle caratteristiche della distribuzione.

Prendendo i valori 123, 57, 97, 141, 104, 27 si pu`o calcolare lo scarto quadratico medio in

s = r

(123 − 91.5)2+ (57 − 91.5)2+ · · · + (27 − 91.5)2

6 − 1 = 42.3

Si prenda in considerazione la superficie in km2 di tutti i comuni della re- gione Toscana. Partendo da una base GIS ed estrapolando i dati dalla tabella del relativo piano cartografico, si ottengono i valori della superficie dei comuni:

182,5 48,8 73,7 73,9 55,7 53,9 29,3 62,4 180,6 62,2 50,4 272,0 19,4 42,1 60,5 34,8 48,5 26,2 57,3 26,7 11,4 109,1 28,7 27,1 19,9 31,0 44,0 66,5 41,3 154,1 77,2 24,1 85,5 33,1 70,6 63,4 53,5 94,2 133,3 236,3 95,6 31,3 79,2 49,4 146,3 80,1 26,4 47,8 28,0 138,8 16,6 14,5 79,2 61,7 99,2 36,6 32,1 43,0 34,2 30,8 33,4 8,9 85,3 77,0 97,3 57,0 16,0 16,0 42,1 17,7 11,7 68,2 7,8 59,2 12,7 114,4 45,9 32,6 31,4 48,8 42,2 45,9 15,7 25,0 28,8 7,2 29,6 22,3 28,6 38,4 102,3 6,0 86,5 54,6 54,1 18,8 65,2 83,3 25,9 53,5 49,3 74,1 80,0 59,7 103,9 156,1 24,9 42,9 54,2 121,7 24,6 38,0 11,6 62,2 48,7 102,5 26,9 36,3 78,6 107,8 66,5 125,0 26,4 14,9 59,5 169,4 14,9 37,6 30,2 18,4 86,5 90,9 46,2 66,5 77,7 71,5 59,9 73,7 19,7 131,0 47,5 44,8 104,7 27,1 85,9 42,4 22,7 57,0 21,4 75,3 60,9 25,5 83,6 66,0 92,5 385,0 43,3 56,7 19,3 80,5 36,6 99,8 138,2 24,0 29,4 70,6 46,5 128,8 131,5 100,1 72,6 62,0 252,7 92,3 177,0 58,8 99,7 154,9 111,4 89,9 343,0 148,6 118,5 23,8 83,0 253,2 20,2 44,8 215,7 143,6 23,6 40,8 14,3 78,6 65,6 132,5 105,9 98,1 142,0 64,0 63,5 58,2 64,8 165,4 108,3 66,5 26,5 102,6 122,9 243,9 42,1 58,1 36,6 141,7 84,9 118,1 53,5 67,7 49,4 59,0 92,1 93,3 63,5 69,7 64,3 174,5 81,7 48,3 164,3 72,1 70,5 36,5 185,8 156,1 62,8 75,5 18,1 82,6 113,9 92,0 67,4 29,5 23,0 25,2 186,2 108,0 101,8 66,6 11,6 120,6 45,6 42,9 141,6 114,6 109,5 283,5 92,7 33,3 192,9 284,4 83,3 19,3 129,9 163,9 56,0 161,6 88,3 162,2 473,6 209,4 19,8 124,8 16,6 37,7 273,5 6,0 45,3 13,3 39,8 45,8 251,0 371,9 101,9 227,1 187,4 60,5 21,6

Segue dunque una sintesi generale grazie alla classificazione e ad alcune misure di tendenza centrale e di dispersione:

170 SPAZIO E MISURA ¯ X = 80.0 Me = 62 Q1 = 33.7 Q2 = Me Q3 = 100.9 media interquartile = 67.3 S2 = 4582.6 S = 67.7 4.9 Le distribuzioni statistiche `

E stato gi`a illustrato come gran parte delle possibili osservazioni nel campo della geografia umana possano essere codificate all’interno di una cornice for- male di riferimento. Misurazioni che possono essere registrate sotto forma di variabili grazie all’utilizzo di diversi tipi di scale di misurazione (vedi paragrafo 4.2). `E stato anche spiegato come, organizzando e classificando questi dati, sia possibile identificarne la frequenza all’interno di un campo di variazione che permette di rilevare aspetti molto importanti di un certo fenomeno (paragrafo 4.6). Infine `e stato introdotto il tema della statistica descrittiva e si `e detto come questa fornisca degli strumenti essenziali, in grado di sintetizzare in un modo sufficientemente accurato gruppi di osservazioni.

Lungo i paragrafi precedenti, si `e fatto ricorso al concetto di distribuzio- ne; `e stato infatti utilizzato pi`u volte come sinonimo di frequenza e in alcuni grafici `e stata usata una curva continua come rappresentazione simbolica del- l’andamento degli istogrammi di frequenza. In questa sezione si cercher`a di definire con maggiore precisione e dettaglio questo concetto, che costituisce, fra le altre cose, uno degli strumenti di maggiore importanza nell’ambito della statistica.

Il tema della distribuzioni statistiche appartiene alla “statistica inferen- ziale”, che pu`o essere intesa come il settore che, attraverso il computo del- le probabilit`a, si occupa dello studio delle caratteristiche di un determinato fenomeno o sistema34.

34

4.9.1 Probabilit `a e insediamento

Una “distribuzione” o “distribuzione statistica” (da non confondere con le distribuzioni spaziali) costituisce un’astrazione formale delle probabilit`a che un certo evento arbitrario (o un certo gruppo di eventi arbitrari) si verifichi. Questo tipo di evento viene definito solitamente come “variabile casuale”. Si prenda in considerazione il lancio di una moneta: in questo caso si sa che di norma (cio`e senza condizionamenti e influenze esterne) le probabilit`a che si registri l’evento “testa” sono 50% e quello “croce” 50%. In campo statistico tali aspettative vengono solitamente rappresentate come 0.5 per testa (t) e 0.5 per croce (c). Questo punto `e molto importante e occorre soffermarsi un istante per comprenderlo meglio, dato che si tratta della scala con la quale la scienza in generale misura le probabilit`a.

Solitamente 0 viene inteso come il non verificarsi di un evento X, 1 `e inteso come il verificarsi dell’evento X. Nel caso dell’evento X, le probabilit`a che si verifichi vengono espresse con P (X) = 1. Nel caso del lancio della moneta le probabilit`a che si registri “testa” sono 0.535:

P (X = t) = 1 2 = 0.5

dato che sono due le possibilit`a di uscita: o “testa” o “croce”. Dunque potrem- mo dire che il calcolo delle probabilit`a pu`o essere realizzato con36:

P (X = t) = n risultati favorevoli al verificarsi dell’evento

numero di possibili combinazioni dei risultati (4.12) Il concetto di distribuzione `e in qualche misura legato all’idea di proba- bilit`a, dato che, a partire della misurazione di qualsiasi variabile e dalla sua organizzazione all’interno di un istogramma di frequenza, si pu`o giungere all’i- dentificazione di una distribuzione probabilistica. Ed `e qui che sorge la prima difficolt`a per il lettore che si avvicina per la prima volta a queste tematiche: a cosa possono servire i calcoli di probabilit`a del lancio di monete, dadi o combinazioni di carte, per lo studio della realt`a geografica?

Nel caso specifico del lancio della moneta, lo studio delle probabilit`a non permette di indovinare il risultato del lancio successivo. Al contrario, permette di pronosticare che, su 1000 lanci della moneta, si dovranno registrare tenden- zialmente met`a teste e met`a croci. A livello pratico, pu`o ad esempio servire

35

Per un’introduzione generale alla teoria della probabilit`a si consiglia la lettura di Silk 1979, p. 35; Bohrnstedt, Knoke 1998, pp. 78-79; Matthews 1985, pp. 56-58.

36

Si veda in particolare il concetto “approccio classico a priori” in Levine, Krehbiel, Berenson 2002, p. 133.

172 SPAZIO E MISURA

a capire se la moneta sia truccata. L’esempio appare molto banale e perci`o inutile. Ma cosa succede se, invece del lancio delle monete, lo studio delle pro- babilit`a, inteso come studio formale delle frequenze osservate, viene esteso alla comprensione della realt`a?

Bench´e sia chiaro che le osservazioni, e dunque le misurazioni della realt`a non riguardano fenomeni prettamente arbitrari, ovvero, che una variabile geo- grafica (o qualsiasi altra misurazione della realt`a) non possa essere paragonata al concetto di variabile casuale – come ad esempio il lancio di una moneta – `

e vero invece che la logica delle distribuzioni statistiche, e con essa tutta la teoria delle probabilit`a, pu`o essere utilizzata per studiare e comprendere in profondit`a le caratteristiche delle variabili reali. In altri termini, a livello cam- pionario, le frequenze osservate per un certo tipo di variabile reale possono essere concepite come distribuzione di probabilit`a; qui intesa come la propor- zione che caratterizza una certa classe di eventi o fenomeni all’interno di un campione classificato. Ad esempio, se per campione rappresentativo di inse- diamenti (80 nuclei) in un determinato territorio viene raccolta la variabile quota sul livello del mare, le frequenze osservate possono essere utilizzate co- me proporzioni da estendere al resto della popolazione (740 nuclei) e fare un pronostico di quali siano le frequenze all’interno delle singole classi per l’intera popolazione. Nel campo della geografia umana, lo studio della realt`a in termi- ni di probabilit`a `e fondamentale soprattuto nello studio di quei settori per i quali non `e possibile disporre di tutto il campione. Ad esempio, la statistica inferenziale e in particolare la teoria delle probabilit`a sono fondamentali in campo cartografico37. `E il caso dell’archeologia dei paesaggi, nell’ambito della quale spesso si `e costretti a lavorare con campioni molto ridotti.

Una distribuzione statistica `e una funzione di tipo matematico che descrive in modo sintetico le frequenza di una determinata variabile. In altre parole, `e un’equazione che riproduce una curva che in qualche misura rispecchia l’an- damento di un istogramma di frequenza. La prima domanda che verrebbe spontaneo porsi `e dunque quale sia il motivo per cui ci si dovrebbe preoccu- pare di identificare la distribuzione statistica di una data variabile. Oltre ai vantaggi che derivano nel processo di comparazione fra contesti o fenomeni, lo studio delle distribuzioni ci permette di formulare modelli pi`u complessi e pi`u articolati della realt`a. Il processo di identificazione della funzione pi`u conforme viene definito “modellazione”; nel senso che l’equazione viene a rappresentare un modello della frequenza osservata38.

37

Vedi ad esempio Wrigley 1977, pp. 138-139. 38

Tanto importanti sono i modelli per la geografia, quanto importante `e l’attivit`a di modellazione.

`

E opportuno sapere che gran parte dei fenomeni reali `e pi`u regolare di quanto si possa immaginare. Esiste un ordine nascosto in ogni fenomeno o evento che ci circonda. Per ordine s’intende la regolarit`a che si pu`o osservare nella forma degli istogrammi relativi alle loro misurazioni. L’identificazione della distribuzione statistica di una variabile corrisponde all’identificazione di un pattern. Questo sempre perch´e, a dispetto di quello che si potrebbe pensare, le forme che l’arbitrariet`a `e in grado di assumere nella realt`a sono poche. Ovvero, molti fenomeni, anche molto diversi fra loro – come ad esempio il caso dell’altezza delle persone o della durata delle lampadine – possono essere modellati con distribuzioni statistiche simili.

Prima di entrare nei particolari delle distribuzioni, l’aspetto che bisogna sempre tenere presente `e che la statistica ha sviluppato nel tempo le funzio- ni matematiche che modellano nel migliore dei modi le tendenze naturali e culturali di gran parte delle osservazioni che si possono compiere sulla realt`a. Sta proprio l`ı l’importanza e la ragione del loro utilizzo. Non esiste modo pi`u semplice n`e strada pi`u concreta, per studiare le frequenze che farlo con l’aiuto delle distribuzioni sviluppate dalla statistica.

A dire il vero, una distribuzione statistica `e gi`a stata presentata e discussa nei capitoli precedenti. Si tratta della legge di Zipf. Essa `e stata illustrata come modello geografico, ma di fatto appartiene anche alla statistica inferenziale. Come abbiamo visto, la legge di Zipf poteva essere usata come schema per pronosticare le dimensioni degli stanziamenti. E, a partire dalle differenze dalla distribuzione attesa, per compiere dei confronti tra pi`u campioni. In questo senso, il lettore tenga presente che le distribuzioni verranno trattate di seguito proprio nella logica dell’uso di quella di Zipf: creazione di un modello in grado di descrivere certe osservazioni, capace di fornire elementi utili alla definizione di schemi di confronto.

Le distribuzioni sono diverse e spesso raggruppate in famiglie. Le pi`u importanti per il geografo sono:

• normale o gaussiana • di Poisson

• binominale • gamma

Al lettore si cercher`a di fornire qualche elemento introduttivo relativamente a solo due tipi: curva normale e distribuzione di Poisson.