• Non ci sono risultati.

Antonio Azzollini antonio.azzollini@unibas.it Statistica

N/A
N/A
Protected

Academic year: 2021

Condividi "Antonio Azzollini antonio.azzollini@unibas.it Statistica"

Copied!
126
0
0

Testo completo

(1)

Statistica

Antonio Azzollini

antonio.azzollini@unibas.it

Anno accademico 2019/2020

Dipartimento di Matematica, Informatica ed Economia (DiMIE) Dipartimento di Matematica, Informatica ed Economia (DiMIE)

(2)

Che cos’è la statistica?

(3)

Che cos’è la statistica?

La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza.

(4)

Che cos’è la statistica?

La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza.

Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica

(5)

Che cos’è la statistica?

La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza.

Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica 1. Formulazione del problema.

(6)

Che cos’è la statistica?

La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza.

Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica 1. Formulazione del problema.

2. Individuazione dei dati pertinenti.

(7)

Che cos’è la statistica?

La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza.

Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica 1. Formulazione del problema.

2. Individuazione dei dati pertinenti.

3. Programmazione della rilevazione dei dati.

(8)

Che cos’è la statistica?

La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza.

Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica 1. Formulazione del problema.

2. Individuazione dei dati pertinenti.

3. Programmazione della rilevazione dei dati.

4. Analisi dei dati.

(9)

Che cos’è la statistica?

La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza.

Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica 1. Formulazione del problema.

2. Individuazione dei dati pertinenti.

3. Programmazione della rilevazione dei dati.

4. Analisi dei dati.

5. Interpretazione dei risultati

(10)

Statistica descrittiva
 vs


statistica inferenziale

La statistica descrittiva si occupa di individuare le

tecniche per organizzare, riassumere e presentare i

dati.

(11)

Statistica descrittiva
 vs


statistica inferenziale

La statistica descrittiva si occupa di individuare le tecniche per organizzare, riassumere e presentare i dati.

Il 2% delle lavatrici vendute in un certo negozio è difettato

Il voto medio di una classe di studenti è 25/30

L'abitante più anziano di una certa città ha 92 anni

Tra i ragazzi fra i 15 ed i 25 anni il colore più diffuso nell'abbigliamento è il nero

Esempi

(12)

Statistica descrittiva
 vs


statistica inferenziale

La statistica inferenziale si occupa di individuare le

tecniche per generalizzare all'intera popolazione e con

un certo margine di errore i risultati ottenuti da un

sottoinsieme della popolazione, detto campione.

(13)

Esempio di applicazione della
 statistica inferenziale

Se in questa classe (campione) l'altezza media è di 172 cm, è possibile asserire che essa corrisponde all'altezza media della popolazione costituita da tutti gli studenti UNIBAS?


Se la risposta è affermativa, sono sicuro al 100% della validità di questa asserzione?

(14)

Esempio di applicazione della
 statistica inferenziale

Se in questa classe (campione) l'altezza media è di 172 cm, è possibile asserire che essa corrisponde all'altezza media della popolazione costituita da tutti gli studenti UNIBAS?


Se la risposta è affermativa, sono sicuro al 100% della validità di questa asserzione?

(15)

Terminologia essenziale

(16)

Terminologia essenziale

Collettivo statistico o popolazione. La molteplicità dei casi individuali, ossia l’insieme di riferimento.

(17)

Terminologia essenziale

Collettivo statistico o popolazione. La molteplicità dei casi individuali, ossia l’insieme di riferimento.

Unità statistica. Il caso individuale componente del collettivo statistico.


[un’azienda, una singola ripetizione dell’operazione di pesatura, un cittadino, un pezzo di produzione osservato]

(18)

Terminologia essenziale Terminologia essenziale

Collettivo statistico o popolazione. La molteplicità dei casi individuali, ossia l’insieme di riferimento.

Unità statistica. Il caso individuale componente del collettivo statistico.


[un’azienda, una singola ripetizione dell’operazione di pesatura, un cittadino, un pezzo di produzione osservato]

Carattere. Aspetto elementare oggetto di rilevazione nelle unità statistiche del collettivo.


[numero di addetti, peso dell’oggetto, stato occupazionale]

(19)

Terminologia essenziale

Collettivo statistico o popolazione. La molteplicità dei casi individuali, ossia l’insieme di riferimento.

Unità statistica. Il caso individuale componente del collettivo statistico.


[un’azienda, una singola ripetizione dell’operazione di pesatura, un cittadino, un pezzo di produzione osservato]

Carattere. Aspetto elementare oggetto di rilevazione nelle unità statistiche del collettivo.


[numero di addetti, peso dell’oggetto, stato occupazionale]

Modalità. Come un certo carattere si presenta nelle unità statistiche del collettivo.


[nello stato occupazionale: occupato, disoccupato, in cerca della prima occupazione; nella professione: imprenditore, libero professionista, impiegato; numero di vani di abitazioni: 1, 2, 3, ...]

(20)

Esempio

Collaudo di una bilancia

(21)

Esempio

Collaudo di una bilancia

Collettivo statistico: insieme delle misurazioni effettuate Unità statistica: la singola pesata (la prima, la seconda...) Carattere: il peso dell'oggetto

Modalità: un qualsiasi numero positivo (attraverso cui esprimiamo 
 il peso rilevato)

(22)

Esempio

Collaudo di una bilancia

Collettivo statistico: insieme delle misurazioni effettuate Unità statistica: la singola pesata (la prima, la seconda...) Carattere: il peso dell'oggetto

Modalità: un qualsiasi numero positivo (attraverso cui esprimiamo 
 il peso rilevato)

(23)

Esempio

Collaudo di una bilancia

Collettivo statistico: insieme delle misurazioni effettuate Unità statistica: la singola pesata (la prima, la seconda...) Carattere: il peso dell'oggetto

Modalità: un qualsiasi numero positivo (attraverso cui esprimiamo 
 il peso rilevato)

(24)

Esempio

Collaudo di una bilancia

Collettivo statistico: insieme delle misurazioni effettuate Unità statistica: la singola pesata (la prima, la seconda...) Carattere: il peso dell'oggetto

Modalità: un qualsiasi numero positivo (attraverso cui esprimiamo 
 il peso rilevato)

(25)

Caratteri

(26)

Caratteri

Qualitativi. Hanno modalità costituite da espressioni verbali. Possono essere ordinabili (rettilinei) oppure non ordinabili (sconnessi).


[il grado di un militare è un carattere rettilineo; la professione è un carattere sconnesso]

(27)

Caratteri

Qualitativi. Hanno modalità costituite da espressioni verbali. Possono essere ordinabili (rettilinei) oppure non ordinabili (sconnessi).


[il grado di un militare è un carattere rettilineo; la professione è un carattere sconnesso]

Quantitativi. Hanno modalità associate a numeri. Vengono detti anche variabili.

(28)

Caratteri

Qualitativi. Hanno modalità costituite da espressioni verbali. Possono essere ordinabili (rettilinei) oppure non ordinabili (sconnessi).


[il grado di un militare è un carattere rettilineo; la professione è un carattere sconnesso]

Quantitativi. Hanno modalità associate a numeri. Vengono detti anche variabili.

Discreti. Quantità distinte, come ad esempio dei numeri interi, preventivamente individuabili ed elencabili.


[numero di vani di un’abitazione]

(29)

Caratteri

Qualitativi. Hanno modalità costituite da espressioni verbali. Possono essere ordinabili (rettilinei) oppure non ordinabili (sconnessi).


[il grado di un militare è un carattere rettilineo; la professione è un carattere sconnesso]

Quantitativi. Hanno modalità associate a numeri. Vengono detti anche variabili.

Discreti. Quantità distinte, come ad esempio dei numeri interi, preventivamente individuabili ed elencabili.


[numero di vani di un’abitazione]

Continui. Possono assumere tutti i valori in un certo intervallo di numeri reali.


[statura di una persona]

(30)

Caratteri

Qualitativi. Hanno modalità costituite da espressioni verbali. Possono essere ordinabili (rettilinei) oppure non ordinabili (sconnessi).


[il grado di un militare è un carattere rettilineo; la professione è un carattere sconnesso]

Quantitativi. Hanno modalità associate a numeri. Vengono detti anche variabili.

Discreti. Quantità distinte, come ad esempio dei numeri interi, preventivamente individuabili ed elencabili.


[numero di vani di un’abitazione]

Continui. Possono assumere tutti i valori in un certo intervallo di numeri reali.


[statura di una persona]

I caratteri quantitativi si distinguono in trasferibili e non trasferibili, a seconda che sia possibile o meno il trasferimento di parte del carattere da un’unità ad un’altra, come ad esempio un reddito o un patrimonio.

(31)

Caratteri

Caratteri di stato. Indipendenti dal fattore tempo.


[il numero di vani di una casa, la memoria di un computer]

(32)

Caratteri

Caratteri di stato. Indipendenti dal fattore tempo.


[il numero di vani di una casa, la memoria di un computer]

Caratteri di movimento. Soggetti a variare con il tempo e quindi devono essere misurati in un determinato arco di tempo.


[numero di nati, numero di morti, produzione di automobili]

(33)

Misurazione dei caratteri e scale

(34)

Misurazione dei caratteri e scale

Caratteri qualitativi

(35)

Misurazione dei caratteri e scale

Caratteri qualitativi

Costruzione di una "scala" fatta di nomi o espressioni lessicali.

Sconnessi 👉 Scala nominale (non è ordinata).


[celibe/nubile, coniugato/a, divorziato/a, vedovo/a]


(36)

Misurazione dei caratteri e scale

Caratteri qualitativi

Costruzione di una "scala" fatta di nomi o espressioni lessicali.

Sconnessi 👉 Scala nominale (non è ordinata).


[celibe/nubile, coniugato/a, divorziato/a, vedovo/a]

Rettilinei 👉 Scala ordinale (è ordinata).


[soldato, caporale, caporalmaggiore, sergente…].

(37)

Misurazione dei caratteri e scale

Caratteri qualitativi

Costruzione di una "scala" fatta di nomi o espressioni lessicali.

Sconnessi 👉 Scala nominale (non è ordinata).


[celibe/nubile, coniugato/a, divorziato/a, vedovo/a]

Rettilinei 👉 Scala ordinale (è ordinata).


[soldato, caporale, caporalmaggiore, sergente…].

Si osservi che il termine "scala" è, anche se usuale, usato 
 impropriamente nel caso di caratteri sconnessi.

(38)

Misurazione dei caratteri e scale

Caratteri quantitativi discreti

(39)

Misurazione dei caratteri e scale

Le modalità, espresse attraverso valori in un insieme finito o

"contabile", possono essere ordinate e confrontate fra loro attraverso la differenza o il rapporto. 


Per questo motivo si parla di scala proporzionale.

Caratteri quantitativi discreti

(40)

Misurazione dei caratteri e scale

Le modalità, espresse attraverso quantità in un intervallo di numeri reali, sono confrontabili fra loro

sempre attraverso differenze

non sempre attraverso rapporti

Caratteri quantitativi continui

(41)

Misurazione dei caratteri e scale

Le modalità, espresse attraverso quantità in un intervallo di numeri reali, sono confrontabili fra loro

sempre attraverso differenze

non sempre attraverso rapporti

In particolare non è possibile utilizzare la scala proporzionale quando lo 0 è un valore convenzionale che non individua assenza del carattere (temperatura: 0° non vuole dire che il corpo non ha temperatura! Cronologia: l'anno 0 non indica l'inizio del tempo!).

Caratteri quantitativi continui

(42)

Misurazione dei caratteri e scale

Le modalità, espresse attraverso quantità in un intervallo di numeri reali, sono confrontabili fra loro

sempre attraverso differenze

non sempre attraverso rapporti

In questo caso si parla di scala intervallare.

Caratteri quantitativi continui

In particolare non è possibile utilizzare la scala proporzionale quando lo 0 è un valore convenzionale che non individua assenza del carattere (temperatura: 0° non vuole dire che il corpo non ha temperatura! Cronologia: l'anno 0 non indica l'inizio del tempo!).

(43)

Frequenze assolute, relative e 


distribuzioni di frequenze

(44)

Frequenze assolute, relative e 
 distribuzioni di frequenze

Si dice frequenza assoluta il numero di occorrenze nelle quali una certa modalità si presenta.

(45)

Frequenze assolute, relative e 
 distribuzioni di frequenze

Si dice frequenza assoluta il numero di occorrenze nelle quali una certa modalità si presenta.

Si dice frequenza relativa il rapporto fra la frequenza assoluta ed il numero totale di osservazioni.

(46)

Frequenze assolute, relative e 
 distribuzioni di frequenze

Si dice frequenza assoluta il numero di occorrenze nelle quali una certa modalità si presenta.

Si dice distribuzione di frequenze lo schema in cui vengono riportate in una colonna le varie modalità di un carattere ed in quelle successive le frequenze assolute e/o relative associate a ciascuna modalità.

Si dice frequenza relativa il rapporto fra la frequenza assoluta ed il numero totale di osservazioni.

(47)

Frequenze cumulate e

frequenze relative cumulate

(48)

Frequenze cumulate e

frequenze relative cumulate

Supponiamo di avere una distribuzione di frequenze tale per cui il carattere X sia a modalità ordinabili, e siano x1,x2,...,xk le modalità ordinate.

(49)

Frequenze cumulate e

frequenze relative cumulate

Supponiamo di avere una distribuzione di frequenze tale per cui il carattere X sia a modalità ordinabili, e siano x1,x2,...,xk le modalità ordinate.


Chiamiamo n1,n2,...,nk le corrispondenti frequenze assolute e f1,f2,...,fk le corrispondenti frequenze relative.

(50)

Frequenze cumulate e

frequenze relative cumulate

Supponiamo di avere una distribuzione di frequenze tale per cui il carattere X sia a modalità ordinabili, e siano x1,x2,...,xk le modalità ordinate.


Chiamiamo n1,n2,...,nk le corrispondenti frequenze assolute e f1,f2,...,fk le corrispondenti frequenze relative.

Si dice frequenza cumulata h-esima la quantità Nh=n1+n2+...+nh, per h =1,...,k

(51)

Frequenze cumulate e

frequenze relative cumulate

Supponiamo di avere una distribuzione di frequenze tale per cui il carattere X sia a modalità ordinabili, e siano x1,x2,...,xk le modalità ordinate.


Chiamiamo n1,n2,...,nk le corrispondenti frequenze assolute e f1,f2,...,fk le corrispondenti frequenze relative.

Si dice frequenza cumulata h-esima la quantità Nh=n1+n2+...+nh, per h =1,...,k

Si dice frequenza relativa cumulata h-esima la quantità

Fh=f1+f2+...+fh, per h=1,...,k

(52)

Come si rappresentano i dati?

Colore dei capelli N° di persone

Neri 10

Castani 6

Rossi 1

Biondi 5

Totale 22

Verde 👉carattere

Grigio 👉 modalità del carattere.

Azzurro 👉 frequenza assoluta di ciascuna modalità.

Esempio di distribuzione di frequenze di
 un carattere qualitativo sconnesso

(53)

Come si rappresentano i dati?

# stanze # appartamenti

1 300

2 500

3 2000

4 3000

5 150

6 100

7 300

Totale 6350

Esempio di distribuzione di frequenze di
 un carattere quantitativo discreto.

(54)

Come si rappresentano i dati?

Quando il carattere si presenta in un numero elevato di modalità (per esempio nel caso di caratteri quantitativi continui) ed effettuiamo un numero elevato di osservazioni, può essere utile rappresentare la distribuzione di frequenze attraverso il raggruppamento in classi.

(55)

Come si rappresentano i dati?

Peso (in grammi) # neonati 1.800;2.200 10

2.200;2.600 32 2.600;3.000 120 3.000;3.400 254 3.400;3.800 134 3.800;4.200 40 4.200;4.600 10

Totale 600

Esempio di distribuzione di frequenze di
 un carattere quantitativo continuo 


con raggruppamento in classi.

(56)

Come si rappresentano i dati?

Peso (Kg)

Frequenza
 assoluta

52 1

54 1

55 2

61 1

63 1

68 2

69 3

71 1

73 1

75 1

76 1

Totale 15

(57)

Come si rappresentano i dati?

Dalle modalità alle classi di modalità

Peso (Kg)

Frequenza
 assoluta

52 1

54 1

55 2

61 1

63 1

68 2

69 3

71 1

73 1

75 1

76 1

Totale 15

Classi di modalità

Frequenza
 assoluta

50;60 4

60;70 7

70;80 4

Totale 15

👉

(58)

Come si rappresentano i dati?

(59)

In questa tabella riconosciamo dei caratteri qualitativi rettilinei!

Gradimento
 dei professori

Frequenze
 assolute

Frequenze
 cumulate

Frequenze
 relative

Frequenze percentuali

Frequenze percentuali

cumulate

molto deluso 36 36 36/250=0,144 14,4% 14,4%

insoddisfatto 90 126 90/250=0,360 36% 14,4+36=50,4%

parzialmente

insoddisfatto 63 189 63/250=0,252 25,2% 50,4+25,2=75,6%

soddisfatto 51 240 51/250=0,204 20,4% 75,6+20,4=96%

entusiasta 10 250 10/250=0,040 4% 96+4=100%

Totali 250 250 250/250=1,000 100% 100%

Come si rappresentano i dati?

(60)

Indagini statistiche

Si parte da una popolazione finita e si può procedere in uno dei seguenti modi:

(61)

Indagini statistiche

Si parte da una popolazione finita e si può procedere in uno dei seguenti modi:

Rilevazione censuaria.


L’indagine si estende a tutte le unità della popolazione.

(62)

Indagini statistiche

Si parte da una popolazione finita e si può procedere in uno dei seguenti modi:

Rilevazione censuaria.


L’indagine si estende a tutte le unità della popolazione.

Rilevazione campionaria.


I dati sono raccolti da un sottoinsieme della popolazione, scelto mediante
 un campionamento casuale o probabilistico.

(63)

Indagini statistiche

Si parte da una popolazione finita e si può procedere in uno dei seguenti modi:

Rilevazione censuaria.


L’indagine si estende a tutte le unità della popolazione.

Rilevazione campionaria.


I dati sono raccolti da un sottoinsieme della popolazione, scelto mediante
 un campionamento casuale o probabilistico.

Dopo una rilevazione campionaria si procede al cosiddetto riporto all’universo, ossia, si estendono all’intera popolazione le elaborazioni effettuate, secondo opportuni procedimenti sul campione.

(64)

Indagini statistiche

Ci sono più modi di procedere ad un campionamento casuale:

(65)

Indagini statistiche

Ci sono più modi di procedere ad un campionamento casuale:

Campionamento casuale semplice


Alle unità di popolazione si assegnano probabilità uguali di essere inserite nel campione.

(66)

Indagini statistiche

Ci sono più modi di procedere ad un campionamento casuale:

Campionamento casuale semplice


Alle unità di popolazione si assegnano probabilità uguali di essere inserite nel campione.

Campionamento casuale stratificato


Campionamento casuale semplice su singole sottopopolazioni derivanti dalla suddivisione della popolazione in sottoinsiemi omogenei.

(67)

Indagini statistiche

Ci sono più modi di procedere ad un campionamento casuale:

Campionamento casuale semplice


Alle unità di popolazione si assegnano probabilità uguali di essere inserite nel campione.

Campionamento casuale stratificato


Campionamento casuale semplice su singole sottopopolazioni derivanti dalla suddivisione della popolazione in sottoinsiemi omogenei.

Un esempio tipico di campionamento casuale stratificato è quello cosiddetto a due stadi. Nel primo stadio viene estratto casualmente un certo numero di unità di primo stadio (sottoinsiemi); da ciascuna di queste viene estratto un nuovo campione casuale di unità elementari dette unità di secondo stadio.

(68)

Rappresentazione dei dati

I dati raccolti in tabelle possono essere rappresentati attraverso grafici che offrono il vantaggio di una descrizione visiva del fenomeno che si sta analizzando.

(69)

Cartogramma

Serve a rappresentare quegli elementi della popolazione che vengono identificati con modalità geografiche

Stime di incidenza del carcinoma dei polmoni. Casi nei maschi × 100.000

(70)

Istogramma (0)

Abruzzo 7.252 Molise 933

Basilicata 1.726 Piemonte 25.341

Calabria 6.570 Puglia 24.377

Campania 21.587 Sardegna 8.628

Emilia Romagna 38.497 Sicilia 26.528

Friuli-Venezia Giulia 8.207 Toscana 34.380

Lazio 53.240 Trentino-Alto Adige 5.097

Liguria 17.048 Umbria 5.680

Lombardia 74.672 Valle D’Aosta 642

Marche 12.373 Veneto 29.396

Indagine sugli incidenti stradali in Italia.

Numero di veicoli coinvolti in incidenti stradali per regione.

(71)

Abruzzo Basilicata Calabria Campania Emilia Romagna Friuli-Venezia Giulia Lazio Liguria Lombardia Marche Molise Piemonte Puglia Sardegna Sicilia Toscana Trentino-Alto Adige Umbria Valle D'Aosta Veneto

0 20000 40000 60000 80000

Istogramma (1)

Frequenze assolute

La Lombardia ha il maggior numero di incidenti!

(72)

Regione Veicoli Incidenti Tasso Tasso%

Abruzzo 1.131.299 7.252 0,006 0,641

Basilicata 457.376 1.726 0,004 0,377

Calabria 1.565.296 6.570 0,004 0,420

Campania 4.350.447 21.587 0,005 0,496

Emilia Romagna 3.724.937 38.497 0,010 1,033 Friuli-Venezia Giulia 1.010.877 8.207 0,008 0,812

Lazio 4.859.950 53.240 0,011 1,095

Liguria 1.328.553 17.048 0,013 1,283

Lombardia 7.693.053 74.672 0,010 0,971

Marche 1.350.814 12.373 0,009 0,916

Molise 272.883 933 0,003 0,342

Piemonte 3.710.183 25.341 0,007 0,683

Puglia 2.862.659 24.377 0,009 0,852

Sardegna 1.303.464 8.628 0,007 0,662

Sicilia 4.257.928 26.528 0,006 0,623

Toscana 3.289.007 34.380 0,010 1,045

Trentino-Alto Adige 1.050.066 5.097 0,005 0,485

Umbria 803.525 5.680 0,007 0,707

Valle D’Aosta 201.564 642 0,003 0,319

Veneto 3.903.220 29.396 0,008 0,753

Incidenti per veicolo

(73)

Abruzzo Basilicata Calabria Campania Emilia Romagna Friuli-Venezia Giulia Lazio Liguria Lombardia Marche Molise Piemonte Puglia Sardegna Sicilia Toscana Trentino-Alto Adige Umbria Valle D'Aosta Veneto

0 0,35 0,7 1,05 1,4

Istogramma (2)

Tasso percentuale

La Lombardia detiene ancora il primato?

(74)

Ideogramma

Rappresentazione mediante figure stilizzate che rappresentano il fenomeno studiato.

Qui mettiamo a confronto la produzione di quattro case automobilistiche in un certo anno

(75)

Produzione di zucche


(in quintali)

Mary 10

Joe 20

Anne 40

Ideogramma

Mary Joe Anne

= 10 quintali

(76)

Produzione di zucche


(in quintali)

Mary 10

Joe 20

Anne 40

Ideogramma

La prima zucca ha una superficie

La seconda zucca ha una superficie

La terza zucca ha una superficie

Mary Joe Anne

xy 4xy

16xy

(77)

Rappresentazione dei dati

I dati raccolti in tabelle possono essere rappresentati attraverso grafici che offrono il vantaggio di una descrizione visiva del fenomeno che si sta analizzando.

Vediamo una situazione in cui il diagramma cartesiano si presenta adatto a rispondere a specifici quesiti.

(78)

Diagramma cartesiano

Viene usato soprattutto per serie temporali, ossia per visualizzare l’andamento di un fenomeno nel tempo.

Ann o

Vendite auto 1996 10.000

1997 15.000 1998 20.000 1999 18.000 2000 17.000 2001 22.000 2001 23.000

2003 10.000 0

6000 12000 18000 24000

1996 1997 1998 1999 2000 2001 2002 2003

👉

La linea continua è facoltativa.

(79)

Semplicità nei confronti

-2,5 -1,25 0 1,25 2,5 3,75 5

1977 1979 1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005

Media mese Media 5 anni Media assoluta

Andamento della temperatura media di dicembre ad Olmo al Brembo (BG) Media assoluta +1,88°C

Serie storica 1977-2006 (tendenza -0,74°C/10 anni)

(80)

Diagramma cartesiano

Atleta Peso (Kg) Altezza (cm)

Mario 66 174

Paolo 64 168

Luca 65 171

Giorgio 71 178

Sandro 64 169

Francesco 70 174

Alberto 71 180

Oreste 62 172

Bruno 60 169

Ettore 69 179

Domanda: è possibile ipotizzare che il peso

e l’altezza degli atleti siano legati da una

relazione lineare?

Mostriamo un esempio di distribuzione statistica (*)
 di due distinti caratteri

(81)

Diagramma cartesiano

Atleta Peso (Kg) Altezza (cm)

Mario 66 174

Paolo 64 168

Luca 65 171

Giorgio 71 178

Sandro 64 169

Francesco 70 174

Alberto 71 180

Oreste 62 172

Bruno 60 169

Ettore 69 179

Domanda: è possibile ipotizzare che il peso

e l’altezza degli atleti siano legati da una

relazione lineare?

Mostriamo un esempio di distribuzione statistica (*)
 di due distinti caratteri

(*) Si dice distribuzione statistica una rappresentazione di come le modalità di uno (distribuzione semplice) o più caratteri (distribuzione multipla) si presentano attribuite alle unità statistiche del collettivo.

(82)

Diagramma cartesiano

Altezza (cm)

167 169,5 172 174,5 177 179,5 182

Peso (Kg)

58 61,75 65,5 69,25 73

Bruno

Oreste

Paolo Sandro

Luca

Mario Francesco

Ettore

Giorgio Alberto

Disponiamo su un asse le modalità del carattere peso
 e sull'altro quelle del carattere altezza

(83)

Diagramma cartesiano

Altezza (cm)

167 169,5 172 174,5 177 179,5 182

Peso (Kg)

58 61,75 65,5 69,25 73

Bruno

Oreste

Paolo Sandro

Luca

Mario Francesco

Ettore

Giorgio Alberto

Decisamente no!

(84)

Diagramma cartesiano

Osserviamo che tutti i nostri tentativi lasciano 


esterni e distanti dalla retta troppi punti.

(85)

Diagramma cartesiano

Osserviamo che tutti i nostri tentativi lasciano 
 esterni e distanti dalla retta troppi punti.

Ne deduciamo che non c'è una relazione

lineare tra i due caratteri.

(86)

Diagramma cartesiano

Osserviamo che tutti i nostri tentativi lasciano 
 esterni e distanti dalla retta troppi punti.

Ne deduciamo che non c'è una relazione lineare tra i due caratteri.

Questo discorso verrà ripreso più avanti quando si introdurrà il concetto di

correlazione statistica.

(87)

Diagramma polare

0 10 20 30 40

50 Lunedì

Martedì

Mercoledì Giovedì

Venerdì

Assenze

Lunedì Martedì Mercoledì Giovedì Venerdì

50 40 30 40 50

Usato per particolari serie storiche con carattere di ciclicità

(88)

Istogramma & diagramma a torta

Mostriamo un modo per rappresentare efficacemente le frequenze relative

(89)

Istogramma & diagramma a torta

Città Disoccupati per
 100.000 abitanti

Atlanta 7.300

Boston 5.400

Chicago 6.700

Los Angeles 8.800

New York 8.200

Washington 8.900

Totale 45.300

Mostriamo un modo per rappresentare efficacemente le frequenze relative

Consideriamo la tabella

(90)

Istogramma & diagramma a torta

Città Disoccupati per
 100.000 abitanti

Atlanta 7.300

Boston 5.400

Chicago 6.700

Los Angeles 8.800

New York 8.200

Washington 8.900

Totale 45.300

Sul totale di 45300 disoccupati osservati, la tabella precedente mostra la distribuzione di frequenze assolute ripartite sulle diverse modalità costituite dalle città considerate (il campione è di 600000 persone equiripartite fra le città).

Mostriamo un modo per rappresentare efficacemente le frequenze relative

Consideriamo la tabella

(91)

Istogramma & diagramma a torta

Città Disoccupati per
 100.000 abitanti

Atlanta 7.300

Boston 5.400

Chicago 6.700

Los Angeles 8.800

New York 8.200

Washington 8.900

Totale 45.300

Dispongo sulle ascisse le modalità, sulle ordinate le

frequenze assolute.

0 2250 4500 6750 9000

Atlanta Boston Chicago Los Angeles New York Washington

(92)

Istogramma & diagramma a torta

0 2250 4500 6750 9000

Atlanta Boston Chicago Los Angeles New York Washington

20%

18%

19% 15%

12%

16%

Atlanta Boston

Chicago Los Angeles New York Washington

Diagramma a torta

Frequenze relative % (approssimate all'intero più vicino)

Utilizzo il diagramma a torta:

la torta rappresenta il tutto.

C i a s c u n o s p i c c h i o rappresenta in area la porzione percentuale data dalla frequenza relativa.

Legenda

(93)

Istogramma per variabili continue

(94)

Istogramma per variabili continue

Il preside di una scuola deve preparare un rapporto sul numero di ore a settimana che gli studenti trascorrono a studiare. Seleziona pertanto un campione di 30 studenti e chiede a ciascuno di loro questa informazione.

(95)

Istogramma per variabili continue

Il preside di una scuola deve preparare un rapporto sul numero di ore a settimana che gli studenti trascorrono a studiare. Seleziona pertanto un campione di 30 studenti e chiede a ciascuno di loro questa informazione.

15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;

17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;

10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.

Ottiene la seguente distribuzione:

(96)

Istogramma per variabili continue

Il diagramma cartesiano è adatto a 


fornire una rappresentazione significativa 


di questa distribuzione statistica?

(97)

Istogramma per variabili continue

Poniamo sull'asse delle ascisse le unità statistiche (gli studenti del campione) e su quello delle ordinate la modalità (le ore di studio)

15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;

17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;

10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.

(98)

Istogramma per variabili continue

Poniamo sull'asse delle ascisse le unità statistiche (gli studenti del campione) e su quello delle ordinate la modalità (le ore di studio)

15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;

17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;

10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.

Sull'asse delle ascisse riportiamo dunque i numeri da 1 a 30 e su quello delle ordinate i numeri compresi fra il minimo 10,3 ed il massimo 33,8.

(99)

Istogramma per variabili continue

Poniamo sull'asse delle ascisse le unità statistiche (gli studenti del campione) e su quello delle ordinate la modalità (le ore di studio)

15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;

17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;

10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.

Sull'asse delle ascisse riportiamo dunque i numeri da 1 a 30 e su quello delle ordinate i numeri compresi fra il minimo 10,3 ed il massimo 33,8.

Il numero di elementi del campione si dice taglia.


Nello specifico la taglia del campione è 30.

(100)

Istogramma per variabili continue

15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;

17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;

10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.

0 10 20 30 40

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Un diagramma cartesiano non sarebbe significativo!

Poniamo sull'asse delle ascisse le unità statistiche (gli studenti del campione) e su quello delle ordinate la modalità (le ore di studio)

(101)

Istogramma per variabili continue

Per variabili (ossia caratteri quantitativi) continue come nel nostro esempio, una opportuna rappresentazione g r a fi c a s i o t t i e n e a t t r a v e r s o u n p r e l i m i n a r e raggruppamento in classi finalizzato alla costruzione di un Istogramma.

(102)

Istogramma per variabili continue

Per variabili (ossia caratteri quantitativi) continue come nel nostro esempio, una opportuna rappresentazione g r a fi c a s i o t t i e n e a t t r a v e r s o u n p r e l i m i n a r e raggruppamento in classi finalizzato alla costruzione di un Istogramma.

Le classi di modalità andranno riportate sull'asse delle ascisse.

(103)

Istogramma per variabili continue

Per variabili (ossia caratteri quantitativi) continue come nel nostro esempio, una opportuna rappresentazione g r a fi c a s i o t t i e n e a t t r a v e r s o u n p r e l i m i n a r e raggruppamento in classi finalizzato alla costruzione di un Istogramma.

Le classi di modalità andranno riportate sull'asse delle ascisse

E sull'asse delle ordinate?

(104)

Istogramma per variabili continue

Costruzione

(105)

1° Passo: stabilire il campo di variazione

👉

massimo - minimo 33,8-10,3=23,5

Istogramma per variabili continue

Costruzione

(106)

1° Passo: stabilire il campo di variazione

👉

massimo - minimo 33,8-10,3=23,5

Istogramma per variabili continue

Costruzione

2° Passo: determinare le classi di modalità i) Numero di classi

(107)

1° Passo: stabilire il campo di variazione

👉

massimo - minimo 33,8-10,3=23,5

Istogramma per variabili continue

Costruzione

2° Passo: determinare le classi di modalità

i) Numero di classi ii) Ampiezza delle classi

(108)

1° Passo: stabilire il campo di variazione

👉

massimo - minimo 33,8-10,3=23,5

Istogramma per variabili continue

Costruzione

2° Passo: determinare le classi di modalità

i) Numero di classi ii) Ampiezza delle classi

👇

Regola empirica:

taglia

30 = 5,47 ≈ 6

(109)

1° Passo: stabilire il campo di variazione

👉

massimo - minimo 33,8-10,3=23,5

Istogramma per variabili continue

Costruzione

2° Passo: determinare le classi di modalità

i) Numero di classi ii) Ampiezza delle classi

👇 👇

Regola empirica:

taglia

30 = 5,47 ≈ 6 h =

23,5

6 = 3,91 ≈ 4

(110)

1° Passo: stabilire il campo di variazione

👉

massimo - minimo 33,8-10,3=23,5

Istogramma per variabili continue

Costruzione

2° Passo: determinare le classi di modalità

i) Numero di classi ii) Ampiezza delle classi

👇 👇

Regola empirica:

taglia

30 = 5,47 ≈ 6 h =

23,5

6 = 3,91 ≈ 4

Dunque raggruppiamo le modalità in 6 classi di ampiezza 4

(111)

Istogramma per variabili continue

Costruzione

2° Passo: determinare le classi di modalità

Problema: come determino gli estremi delle 6 classi?

(112)

Istogramma per variabili continue

Costruzione

2° Passo: determinare le classi di modalità

Problema: come determino gli estremi delle 6 classi?

6 classi di ampiezza 4: lunghezza totale = 6x4=24

(113)

Istogramma per variabili continue

Costruzione

2° Passo: determinare le classi di modalità

Problema: come determino gli estremi delle 6 classi?

6 classi di ampiezza 4: lunghezza totale = 6x4=24

Campo di variazione = 23,5

(114)

Istogramma per variabili continue

Costruzione

2° Passo: determinare le classi di modalità

Confrontando le due diverse lunghezze, si capisce che per pareggiarle occorre aggiungere ai due estremi del segmento rosso due segmenti di lunghezza pari alla semidifferenza delle lunghezze.

(115)

Istogramma per variabili continue

Costruzione

2° Passo: determinare le classi di modalità

Confrontando le due diverse lunghezze, si capisce che per pareggiarle occorre aggiungere ai due estremi del segmento rosso due segmenti di lunghezza pari alla semidifferenza delle lunghezze.

6 classi di ampiezza 4: lunghezza totale = 6x4=24

Campo di variazione = 23,5

(116)

Istogramma per variabili continue

Costruzione

2° Passo: determinare le classi di modalità

Confrontando le due diverse lunghezze, si capisce che per pareggiarle occorre aggiungere ai due estremi del segmento rosso due segmenti di lunghezza pari alla semidifferenza delle lunghezze.

d=(24-23,5)/2 d=(24-23,5)/2

(117)

Istogramma per variabili continue

Costruzione

2° Passo: determinare le classi di modalità

L'estremo inferiore della prima classe di modalità si ottiene nel seguente modo:

min-d = 10,3-0,25 = 10,05

👉

10 per arrotondamento.

(118)

Istogramma per variabili continue

Costruzione

2° Passo: determinare le classi di modalità

L'estremo inferiore della prima classe di modalità si ottiene nel seguente modo:

min-d = 10,3-0,25 = 10,05

👉

L'estremo superiore della prima classe si ottiene aggiungendo l'ampiezza: 10 + 4 = 14.

10 per arrotondamento.

(119)

Istogramma per variabili continue

Costruzione

2° Passo: determinare le classi di modalità

L'estremo inferiore della prima classe di modalità si ottiene nel seguente modo:

min-d = 10,3-0,25 = 10,05

👉

10 per arrotondamento.

L'estremo superiore della prima classe si ottiene aggiungendo l'ampiezza: 10 + 4 = 14.

Prima classe: [10;14)

(120)

Istogramma per variabili continue

Costruzione

2° Passo: determinare le classi di modalità

Le altre 5 classi si ottengono attraverso i successivi 5 intervalli di ampiezza h = 4:

2^a classe: [14;18) 3^a classe: [18;22) 4^a classe: [22;26) 5^a classe: [26;30) 6^a classe: [30;34]

(121)

Per far questo, innanzitutto ordiniamo i dati in ordine crescente

10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;

16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;

20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.

Istogramma per variabili continue

Costruzione

3° Passo: Contare quanti elementi
 cadono in ciascuna classe

(122)

Poi ripartiamo le modalità secondo il raggruppamento effettuato

10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;

16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;

20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.

Istogramma per variabili continue

Costruzione

3° Passo: Contare quanti elementi
 cadono in ciascuna classe

(123)

Istogramma per variabili continue

Costruzione

👇

[10;14) [14;18) )

[18;22) [22;26) [26;30) [30;34]

5 9 9 3 3 1

Distribuzione di frequenza assoluta

[10;14) [14;18) )

[18;22) [22;26) [26;30) [30;34]

0,17 0,30 0,30 0,10 0,10 0,03

Distribuzione di frequenza relativa

0,17 = 5 / 30

10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;

16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;

20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.

(124)

Distribuzione di frequenza relativa

0 0,088 0,175 0,263 0,35

[10;14) [14;18) [18;22) [22;26) [26;30) [30;34]

Distribuzione di frequenza assoluta

0 2,5 5 7,5 10

[10;14) [14;18) [18;22) [22;26) [26;30) [30;34]

La somma delle aree dei rettangoli è:

4 * 5 + 4 *9 +!+ 4 *1 = 4 * 5( + 9 +!+1) = 4 * 30

La somma delle aree dei rettangoli è:

4 * 0,17 + 4 *0,3+!+ 4 *0,03 = 4 * 0,17( + 0,3+!+ 0,03) = 4

Istogramma per variabili continue

L'area totale dipende dalla ampiezza delle classi!!!

L'area totale dipende dalla taglia del campione 
 e dalla ampiezza delle classi!!!

(125)

Istogramma per variabili continue

OSSERVAZIONE:

(126)

Istogramma per variabili continue

OSSERVAZIONE:

IL PROFILO DEI DUE DIAGRAMMI NON E'

CAMBIATO!

Riferimenti

Documenti correlati

Le medie e le deviazioni standard delle quotazioni giornaliere dei titoli azionari Indesit & De Longhi nell’arco del 2006 sono state:. Indesit: media = 9,89; deviazione standard

non solo la variazione intervenuta fra il tempo base e quello attuale, ma anche…. … la variazione a breve fra

Se un carattere non ha alcuna influenza sull’altro—e viceversa—allora si dice che i due caratteri sono indipendenti...

Quando la distribuzione dei dati non è caratterizzata da una forte asimmetria e le osservazioni sono concentrate in prossimità di media e mediana, vale la seguente

Le medie e le deviazioni standard delle quotazioni giornaliere dei titoli azionari Indesit & De Longhi nell’arco del 2006 sono state:. Indesit: media = 9,89; deviazione standard

non solo la variazione intervenuta fra il tempo base e quello attuale, ma anche…. … la variazione a breve fra

Lo stesso indice di concentrazione può essere utilizzato per classi di modalità scegliendo come valori di riferimento i centri delle classi al posto delle

Se un carattere non ha alcuna influenza sull’altro—e viceversa—allora si dice che i due caratteri sono indipendenti...