• Non ci sono risultati.

21.1.2022, 8.30-11.30, Tot. 30 ore

ARGOMENTI SALIENTI DELLA LEZIONE:

Cap. 4:

Sintesi della distribuzione di un carattere - Indici di variabilità e di forma .

§4.4- Differenze

§4.5- Indici di asimmetria

CAP. 4 - Sintesi della distribuzione di un carattere - Indici di variabilità e di forma.

§

4.4- Differenze

Come si è già detto, un differente modo per costruire indici di variabilità è quello di ricorrere ad opportune medie potenziate che si basano sulle differenze intercorrenti fra le diverse modalità con cui si è manifestato il fenomeno.

Con gli scostamenti da un valor medio si risponde al quesito

“di quanto mediamente differiscono i singoli valori da un valor medio”

Con le differenze medie si risponde invece alla domanda

”di quanto mediamente differiscono

fra loro

i singoli valori”

Nel primo caso una media degli scostamenti da detto valor medio può anche servire per giudicare se il valor medio sintetizza bene i dati.

Le differenze medie sono medie delle differenze in valore assoluto fra tutte le intensità.

La deviazione standard è una media quadratica degli scarti ed è l’indice di variabilità più usato, ma in alcune circostanze specifiche bisogna ricorrere ad altro per misurare la mutua variabilità.

La

mutua

variabilità è studio della diversità tra le singole unità statistiche, quindi le differenze vengono eseguite tra i singoli numeri e non tra i numeri e la media aritmetica.

Problemi come la disuguaglianza dei redditi, le diversità economiche e finanziarie, le diversità fra diversi stadi di una malattia, richiedono di misurare la diversità tra le unità statistiche.

Le più utilizzate sono le differenze medie, definite come medie potenziate delle distanze |𝑥𝑖 − 𝑥𝑗|.

In particolare abbiamo:

- Differenza semplice media di ordine 1 senza ripetizione con distribuzione di frequenza

1

= [

1

𝑁(𝑁−1)

∑ ∑ |𝑥

𝑖 𝑗 𝑖

− 𝑥

𝑗

| 𝑛

𝑖

𝑛

𝑗

] =

𝟐 ∑𝒊>𝒋𝑵(𝑵−𝟏)(𝒙𝒊−𝒙𝒋)𝒏𝒊𝒏𝒋

.

- Differenza media assoluta di ordine m senza ripetizione

Δ

𝑚

= [

1

𝑁(𝑁−1)

∑ ∑ |𝑥

𝑖 𝑗 𝑖

− 𝑥

𝑗

|

𝑚

𝑛

𝑖

𝑛

𝑗

]

1/𝑚

=

[2 ∑𝑖>𝑗|𝑥𝑖 − 𝑥𝑗|𝑚𝑛𝑖𝑛𝑗

𝑁(𝑁 − 1) ]

1/𝑚

Più precisamente,

- Differenza semplice media di ordine 1 senza ripetizione

1=∑ |𝑥𝑖,𝑗 𝑖−𝑥𝑗|

𝑵(𝑵−𝟏) = 𝟐 ∑𝑵(𝑵−𝟏)𝒊>𝒋|𝒙𝒊−𝒙𝒋| - Differenza semplice media di ordine 1 con ripetizione

Δ1𝑅 = ∑ |𝑥𝑖,𝑗 𝑖−𝑥𝑗|

𝑵𝟐 = 𝟐 ∑𝒊>𝒋𝑵|𝒙𝟐𝒊−𝒙𝒋|

- Formule analoghe per una distribuzione di frequenza di ordine m Esempio1- Glicemia di un paziente diabetico in 6 giorni conscutivi . Calcolare la differenza semplice media

xi-xj 260 270 280 280 290 300

260 0

270 10 0

280 20 10 0

280 20 10 0 0

290 30 20 10 10 0

300 40 30 20 20 10 0

La somma di tutte le differenze, in valore assoluto, è pari a 520. Dunque ∆1=520

6𝑥5= 17.3 Le 6 misurazioni differiscono in media di 520

6𝑥6= 14,444 Esercizio 1.

Sulla distribuzione di frequenza riportata in tabella, calcolare la differenza semplice media.

xi 0 1 2 3 4 5 6 Totale

ni 3 9 13 11 8 4 2 50

𝟏= 𝟐 ∑𝒊>𝒋|𝑥𝑖−𝑥𝑗|𝒏𝒊𝒏𝒋

𝑵(𝑵−𝟏) .

Svolgimento

Esercizio 2.

Voti conseguiti da uno studente in 6 esami:

26 27 28 28 29 30 Calcolare la differenza semplice media senza ripetizione D1 Svolgimento

Esercizio 3.

Sulla distribuzione di frequenza riportata nella seguente tabella, calcolare la differenza semplice media.

Due distribuzioni possono differire per posizione, per variabilità. Tali differenze non esauriscono il complesso delle informazioni contenute nei dati. Ulteriori differenze nella distribuzione fanno riferimento al concetto di forma. Tra le diversità di forma sono importanti quelle riferibili a

simmetria, asimmetria e alla curtosi, vale a dire all'addensamento di una distribuzione intorno al suo valore modale (con riferimento ad una particolare distribuzione normale standardizzata).

In proposito una distribuzione si dice simmetrica rispetto ad un asse verticale di ascissa x = xo quando, per tutti i valori a > 0 si ha 𝒇(𝒙 − 𝒂) = 𝒇(𝒙 + 𝒂), altrimenti si parla di distribuzione asimmetrica che può essere positiva o negativa.

Si può mostrare che in una distribuzione unimodale con asimmetria positiva,la distribuzione presenta più valori (si dice una coda) verso il semiasse positivo delle x e gli indici di posizione Media, Moda e Mediana soddisfano le diseguaglianze:

𝑴𝒐𝒅𝒂 ≤ 𝑴𝒆𝒅𝒊𝒂𝒏𝒂 ≤ 𝑴𝒆𝒅𝒊𝒂

Viceversa in una distribuzione unimodale con asimmetria negativa, la distribuzione presenta una coda verso sinistra e gli indici Media, Moda, Mediana soddisfano le diseguaglianze:

𝑴𝒆𝒅𝒊𝒂 ≤ 𝑴𝒆𝒅𝒊𝒂𝒏𝒂 ≤ 𝑴𝒐𝒅𝒂 Osservazione

Ricordiamo che la mediana bipartisce la distribuzione in due parti:

- la prima a sinistra della mediana è costituita dalla metà delle unità la cui modalità è minore o uguale alla mediana e

- la seconda a destra della mediana è costituita dalla metà delle unità la cui modalità è maggiore o uguale alla mediana.

La mediana è il valore per il quale la frequenza relativa cumulata vale 0.5.

- In una distribuzione perfettamente simmetrica, la media, la mediana e la moda hanno lo stesso valore.

La mediana è una stima puntuale robusta a possibili valori estremi (outlier), mentre la media non lo è.

Utilizzando la mediana anzichè la media, si tende a dare molta meno importanza agli outlier ed ad evitare le ‘’medie di Trilussa’’.

Perciò, in presenza di una ‘’coda’’, la mediana permette di descrivere meglio il campione statistico rispetto alla semplice media.

NOTA:

Si parla di Medie di Trilussa da quando Carlo Alberto Salustri, più conosciuto con lo pseudonimo di Trilussa - anagramma del suo cognome - (Roma, 26 ottobre 1871 – Roma, 21 dicembre 1950), ha dato alle stampe la sua poesia in dialetto romanesco La Statistica

Sai ched'è la statistica? È na' cosa che serve pe fà un conto in generale

de la gente che nasce, che sta male,

che more, che va in carcere e che spósa.

Ma pè me la statistica curiosa è dove c'entra la percentuale,

pè via che, lì, la media è sempre eguale, puro co' la persona bisognosa.

Me spiego: da li conti che se fanno seconno le statistiche d'adesso risurta che te tocca un pollo all'anno:

e, se nun entra nelle spese tue, t'entra ne la statistica lo stesso

perch'è c'è un antro che ne magna due.

Er compagno scompagno: Io che conosco bene l'idee tue so' certo che quer pollo che te magni, se vengo giù, sarà diviso in due:

mezzo a te, mezzo a me... Semo compagni.

No, no - rispose er Gatto senza core - io non divido gnente co' nessuno:

fo er socialista quanno sto a diggiuno, ma quanno magno so' conservatore.

Nella cultura popolare, specialmente a Roma e dintorni, le opere di Trilussa sono diventate fonti di massime e detti, ma nessuno di questi ha superato come diffusione e notorietà quello del "pollo di Trilussa", diventato celebre a livello matematico, e non solo, come la più proverbiale

osservazione a proposito delle medie statistiche.

Di fatto, il componimento di Trilussa non fa altro che affermare che se qualcuno mangia due polli, e qualcun altro no, in media hanno mangiato un pollo a testa, anche se di fatto sappiamo che uno non l'ha mangiato. La scelta del pollo va inserita nel contesto storico, in quanto ai tempi di Trilussa mangiare pollo era considerata “una cosa da ricchi”, ma, anche se oggi in Italia la situazione è diversa, il significato del ragionamento umoristico non cambia. Quindi, sebbene facendo la media sulla popolazione potesse risultare che ogni persona mangia un pollo (e quindi abbia un certo benessere) nella realtà potrebbero essere in molti a non poterselo permettere e il dato sarebbe ingrossato dal consumo della fascia di popolazione più ricca.

Con questa poesia Trilussa anticipa un tema che è diventato assai attuale con la diffusione dell'informazione statistica per fini di promozione politica, economica e non solo. Come infatti Sosteneva Darrell Huff nel suo Mentire con le statistiche, spesso il numero statistico, magari privo di informazioni dettagliate, può essere interpretato in modi diversi a seconda dei dati correlati.

Così la media è un dato spesso poco significativo o addirittura fuorviante se non si sa esattamente su quale base è calcolata e con quale criterio è definita. E questa imprecisione, a volte, può essere voluta, con lo scopo intenzionale di ingannare. Casi del genere hanno portato con il tempo a modifiche sull'uso di dati statistici, ad esempio per misurare il reddito medio di una certa nazione, che può risultare elevato grazie alla presenza di pochi individui multimiliardari a fronte di una massa di persone sotto la soglia di povertà.

La scienza statistica, peraltro, dispone di strumenti che permettono di tenere conto di questa variabilità, come il Coefficiente di Gini. Tuttavia (al di là dell'eventuale uso strumentale della media statistica) il tema del "pollo di Trilussa" esemplifica bene la sovrapposizione che si fa a livello popolare tra la statistica in generale (che contiene tra l'altro delle misure di dispersione) e la media statistica, che è una misurazione tanto nota ed esaltata da essere spesso confusa con la statistica stessa.

La moda si usa sopratutto per caratteri categorici non ordinati, dove né la media né la mediana avrebbero senso.

Ad esempio: la distribuzione “colore degli occhi” non può essere ordinata, quindi non si può utilizzare né la mediana né la media, ma per descrivere la distribuzione si utilizza la moda che fornisce un’indicazione di quale carattere statistico si presenta nella distribuzione con la maggiore frequenza.

Quindi, affermare che in Italia la moda è “occhi castani”, sta a significare che in italia c’è una maggioranza relativa di individui con occhi castani.

Infine, come indicatore di posizione la moda la si utilizza in combinazione di media e mediana negli indici di simmetria e forma delle distribuzioni.

Per avere informazioni sulle forme della distribuzione occorre ricorrere al calcolo di qualche indice di asimmetria.

Le misure dell’asimmetria sono equivoche. L’equivoco spesso nasce dalle stesse definizioni che vengono date di simmetria di una distribuzione, definizioni basate su particolari condizioni che si verificano per le distribuzioni simmetriche.

Poiché ,per esempio, per una distribuzione unimodale e simmetrica coincidono la media aritmetica, la mediana e la moda, alcuni - considerando questa condizione sufficiente per la simmetria, mentre è solo necessaria – definiscono distribuzione simmetrica erroneamente una distribuzione in cui media aritmetica, mediana e moda coincidono; pertanto un indice

adimensionale, in versione standardizzata, ottenuto considerando (Media – Mediana)/𝜎

si annulla se la distribuzione è simmetrica ma anche per distribuzioni che simmetriche non sono.

Altresì, una proprietà essenziale degli indici di asimmetria dovrebbe essere quella di annullarsi se e solo se la distribuzione è simmetrica;

§4.5-1 Indici di variabilita’ per variabili quantitative Indice di mutua variabilità

Senza ripetizione:

𝑟2=√∑ |𝑥𝑖−𝑥𝑗|

2 𝑖,𝑗

𝑛2

sostituendo n2 con 𝑛(𝑛−1) otteniamo la differenza media semplice e la differenza quadratica media senza ripetizione.

Esercizio 4.

La seguente tabella di frequenze per singole modalita’ riporta la variabile Peso rilevata per 80 persone

Peso 70 90 100 Tot.

ni 27 52 1 80

Calcolare la differenza semplice media e la differenza media quadratica.

Svolgimento

La variabilità di un fenomeno può essere studiata in termini di differenza di ciascun dato da tutti gli altri.

Tutte le differenze possibili compresa la differenza dell’i-esimo valore da se stesso è una matrice n x n. Nel nostro caso:

La seguente tabella riporta i prodotti nixnj

nj

Differenza semplice media

𝒓

= ∑ |𝒙

𝒊,𝒋 𝒊

− 𝒙

𝒋

|𝒏

𝒊

𝒏

𝒋

𝒏

𝟐

Differenza quadratica media

𝒓𝟐

=√

∑ |𝒙𝒊−𝒙𝒋|

𝟐𝒏𝒊𝒏𝒋

𝒊,𝒋

𝒏𝟐

Sostituendo 𝑛2 con 𝑛(𝑛−1) otteniamo la differenza media semplice e la differenza quadratica media senza ripetizione. Nel caso di dati in classi sostituiamo 𝑥i con i corrispondenti centri ci . Differenza semplice media con ripetizione

Documenti correlati