Statistica
Antonio Azzollini
antonio.azzollini@unibas.it
Anno accademico 2019/2020
Dipartimento di Matematica, Informatica ed Economia (DiMIE) Dipartimento di Matematica, Informatica ed Economia (DiMIE)
Che cos’è la statistica?
Che cos’è la statistica?
La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza.
Che cos’è la statistica?
La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza.
Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica
Che cos’è la statistica?
La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza.
Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica 1. Formulazione del problema.
Che cos’è la statistica?
La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza.
Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica 1. Formulazione del problema.
2. Individuazione dei dati pertinenti.
Che cos’è la statistica?
La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza.
Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica 1. Formulazione del problema.
2. Individuazione dei dati pertinenti.
3. Programmazione della rilevazione dei dati.
Che cos’è la statistica?
La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza.
Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica 1. Formulazione del problema.
2. Individuazione dei dati pertinenti.
3. Programmazione della rilevazione dei dati.
4. Analisi dei dati.
Che cos’è la statistica?
La statistica indaga sui fenomeni collettivi, ossia fenomeni che coinvolgono un insieme di individui, oggetti o beni, allo scopo di delineare un quadro interpretativo grazie al quale sia possibile prendere decisioni in condizioni di incertezza.
Tale indagine si sviluppa attraverso le seguenti fasi dell'indagine statistica 1. Formulazione del problema.
2. Individuazione dei dati pertinenti.
3. Programmazione della rilevazione dei dati.
4. Analisi dei dati.
5. Interpretazione dei risultati
Statistica descrittiva vs
statistica inferenziale
La statistica descrittiva si occupa di individuare le
tecniche per organizzare, riassumere e presentare i
dati.
Statistica descrittiva vs
statistica inferenziale
La statistica descrittiva si occupa di individuare le tecniche per organizzare, riassumere e presentare i dati.
• Il 2% delle lavatrici vendute in un certo negozio è difettato
• Il voto medio di una classe di studenti è 25/30
• L'abitante più anziano di una certa città ha 92 anni
• Tra i ragazzi fra i 15 ed i 25 anni il colore più diffuso nell'abbigliamento è il nero
Esempi
Statistica descrittiva vs
statistica inferenziale
La statistica inferenziale si occupa di individuare le
tecniche per generalizzare all'intera popolazione e con
un certo margine di errore i risultati ottenuti da un
sottoinsieme della popolazione, detto campione.
Esempio di applicazione della statistica inferenziale
Se in questa classe (campione) l'altezza media è di 172 cm, è possibile asserire che essa corrisponde all'altezza media della popolazione costituita da tutti gli studenti UNIBAS?
Se la risposta è affermativa, sono sicuro al 100% della validità di questa asserzione?
Esempio di applicazione della statistica inferenziale
Se in questa classe (campione) l'altezza media è di 172 cm, è possibile asserire che essa corrisponde all'altezza media della popolazione costituita da tutti gli studenti UNIBAS?
Se la risposta è affermativa, sono sicuro al 100% della validità di questa asserzione?
Terminologia essenziale
Terminologia essenziale
Collettivo statistico o popolazione. La molteplicità dei casi individuali, ossia l’insieme di riferimento.
Terminologia essenziale
Collettivo statistico o popolazione. La molteplicità dei casi individuali, ossia l’insieme di riferimento.
Unità statistica. Il caso individuale componente del collettivo statistico.
[un’azienda, una singola ripetizione dell’operazione di pesatura, un cittadino, un pezzo di produzione osservato]
Terminologia essenziale Terminologia essenziale
Collettivo statistico o popolazione. La molteplicità dei casi individuali, ossia l’insieme di riferimento.
Unità statistica. Il caso individuale componente del collettivo statistico.
[un’azienda, una singola ripetizione dell’operazione di pesatura, un cittadino, un pezzo di produzione osservato]
Carattere. Aspetto elementare oggetto di rilevazione nelle unità statistiche del collettivo.
[numero di addetti, peso dell’oggetto, stato occupazionale]
Terminologia essenziale
Collettivo statistico o popolazione. La molteplicità dei casi individuali, ossia l’insieme di riferimento.
Unità statistica. Il caso individuale componente del collettivo statistico.
[un’azienda, una singola ripetizione dell’operazione di pesatura, un cittadino, un pezzo di produzione osservato]
Carattere. Aspetto elementare oggetto di rilevazione nelle unità statistiche del collettivo.
[numero di addetti, peso dell’oggetto, stato occupazionale]
Modalità. Come un certo carattere si presenta nelle unità statistiche del collettivo.
[nello stato occupazionale: occupato, disoccupato, in cerca della prima occupazione; nella professione: imprenditore, libero professionista, impiegato; numero di vani di abitazioni: 1, 2, 3, ...]
Esempio
Collaudo di una bilancia
Esempio
Collaudo di una bilancia
Collettivo statistico: insieme delle misurazioni effettuate Unità statistica: la singola pesata (la prima, la seconda...) Carattere: il peso dell'oggetto
Modalità: un qualsiasi numero positivo (attraverso cui esprimiamo il peso rilevato)
Esempio
Collaudo di una bilancia
Collettivo statistico: insieme delle misurazioni effettuate Unità statistica: la singola pesata (la prima, la seconda...) Carattere: il peso dell'oggetto
Modalità: un qualsiasi numero positivo (attraverso cui esprimiamo il peso rilevato)
Esempio
Collaudo di una bilancia
Collettivo statistico: insieme delle misurazioni effettuate Unità statistica: la singola pesata (la prima, la seconda...) Carattere: il peso dell'oggetto
Modalità: un qualsiasi numero positivo (attraverso cui esprimiamo il peso rilevato)
Esempio
Collaudo di una bilancia
Collettivo statistico: insieme delle misurazioni effettuate Unità statistica: la singola pesata (la prima, la seconda...) Carattere: il peso dell'oggetto
Modalità: un qualsiasi numero positivo (attraverso cui esprimiamo il peso rilevato)
Caratteri
Caratteri
Qualitativi. Hanno modalità costituite da espressioni verbali. Possono essere ordinabili (rettilinei) oppure non ordinabili (sconnessi).
[il grado di un militare è un carattere rettilineo; la professione è un carattere sconnesso]
Caratteri
Qualitativi. Hanno modalità costituite da espressioni verbali. Possono essere ordinabili (rettilinei) oppure non ordinabili (sconnessi).
[il grado di un militare è un carattere rettilineo; la professione è un carattere sconnesso]
Quantitativi. Hanno modalità associate a numeri. Vengono detti anche variabili.
Caratteri
Qualitativi. Hanno modalità costituite da espressioni verbali. Possono essere ordinabili (rettilinei) oppure non ordinabili (sconnessi).
[il grado di un militare è un carattere rettilineo; la professione è un carattere sconnesso]
Quantitativi. Hanno modalità associate a numeri. Vengono detti anche variabili.
• Discreti. Quantità distinte, come ad esempio dei numeri interi, preventivamente individuabili ed elencabili.
[numero di vani di un’abitazione]
Caratteri
Qualitativi. Hanno modalità costituite da espressioni verbali. Possono essere ordinabili (rettilinei) oppure non ordinabili (sconnessi).
[il grado di un militare è un carattere rettilineo; la professione è un carattere sconnesso]
Quantitativi. Hanno modalità associate a numeri. Vengono detti anche variabili.
• Discreti. Quantità distinte, come ad esempio dei numeri interi, preventivamente individuabili ed elencabili.
[numero di vani di un’abitazione]
• Continui. Possono assumere tutti i valori in un certo intervallo di numeri reali.
[statura di una persona]
Caratteri
Qualitativi. Hanno modalità costituite da espressioni verbali. Possono essere ordinabili (rettilinei) oppure non ordinabili (sconnessi).
[il grado di un militare è un carattere rettilineo; la professione è un carattere sconnesso]
Quantitativi. Hanno modalità associate a numeri. Vengono detti anche variabili.
• Discreti. Quantità distinte, come ad esempio dei numeri interi, preventivamente individuabili ed elencabili.
[numero di vani di un’abitazione]
• Continui. Possono assumere tutti i valori in un certo intervallo di numeri reali.
[statura di una persona]
I caratteri quantitativi si distinguono in trasferibili e non trasferibili, a seconda che sia possibile o meno il trasferimento di parte del carattere da un’unità ad un’altra, come ad esempio un reddito o un patrimonio.
Caratteri
Caratteri di stato. Indipendenti dal fattore tempo.
[il numero di vani di una casa, la memoria di un computer]
Caratteri
Caratteri di stato. Indipendenti dal fattore tempo.
[il numero di vani di una casa, la memoria di un computer]
Caratteri di movimento. Soggetti a variare con il tempo e quindi devono essere misurati in un determinato arco di tempo.
[numero di nati, numero di morti, produzione di automobili]
Misurazione dei caratteri e scale
Misurazione dei caratteri e scale
Caratteri qualitativi
Misurazione dei caratteri e scale
Caratteri qualitativi
Costruzione di una "scala" fatta di nomi o espressioni lessicali.
• Sconnessi 👉 Scala nominale (non è ordinata).
[celibe/nubile, coniugato/a, divorziato/a, vedovo/a]
Misurazione dei caratteri e scale
Caratteri qualitativi
Costruzione di una "scala" fatta di nomi o espressioni lessicali.
• Sconnessi 👉 Scala nominale (non è ordinata).
[celibe/nubile, coniugato/a, divorziato/a, vedovo/a]
• Rettilinei 👉 Scala ordinale (è ordinata).
[soldato, caporale, caporalmaggiore, sergente…].
Misurazione dei caratteri e scale
Caratteri qualitativi
Costruzione di una "scala" fatta di nomi o espressioni lessicali.
• Sconnessi 👉 Scala nominale (non è ordinata).
[celibe/nubile, coniugato/a, divorziato/a, vedovo/a]
• Rettilinei 👉 Scala ordinale (è ordinata).
[soldato, caporale, caporalmaggiore, sergente…].
Si osservi che il termine "scala" è, anche se usuale, usato impropriamente nel caso di caratteri sconnessi.
Misurazione dei caratteri e scale
Caratteri quantitativi discreti
Misurazione dei caratteri e scale
Le modalità, espresse attraverso valori in un insieme finito o
"contabile", possono essere ordinate e confrontate fra loro attraverso la differenza o il rapporto.
Per questo motivo si parla di scala proporzionale.
Caratteri quantitativi discreti
Misurazione dei caratteri e scale
Le modalità, espresse attraverso quantità in un intervallo di numeri reali, sono confrontabili fra loro
• sempre attraverso differenze
• non sempre attraverso rapporti
Caratteri quantitativi continui
Misurazione dei caratteri e scale
Le modalità, espresse attraverso quantità in un intervallo di numeri reali, sono confrontabili fra loro
• sempre attraverso differenze
• non sempre attraverso rapporti
In particolare non è possibile utilizzare la scala proporzionale quando lo 0 è un valore convenzionale che non individua assenza del carattere (temperatura: 0° non vuole dire che il corpo non ha temperatura! Cronologia: l'anno 0 non indica l'inizio del tempo!).
Caratteri quantitativi continui
Misurazione dei caratteri e scale
Le modalità, espresse attraverso quantità in un intervallo di numeri reali, sono confrontabili fra loro
• sempre attraverso differenze
• non sempre attraverso rapporti
In questo caso si parla di scala intervallare.
Caratteri quantitativi continui
In particolare non è possibile utilizzare la scala proporzionale quando lo 0 è un valore convenzionale che non individua assenza del carattere (temperatura: 0° non vuole dire che il corpo non ha temperatura! Cronologia: l'anno 0 non indica l'inizio del tempo!).
Frequenze assolute, relative e
distribuzioni di frequenze
Frequenze assolute, relative e distribuzioni di frequenze
Si dice frequenza assoluta il numero di occorrenze nelle quali una certa modalità si presenta.
Frequenze assolute, relative e distribuzioni di frequenze
Si dice frequenza assoluta il numero di occorrenze nelle quali una certa modalità si presenta.
Si dice frequenza relativa il rapporto fra la frequenza assoluta ed il numero totale di osservazioni.
Frequenze assolute, relative e distribuzioni di frequenze
Si dice frequenza assoluta il numero di occorrenze nelle quali una certa modalità si presenta.
Si dice distribuzione di frequenze lo schema in cui vengono riportate in una colonna le varie modalità di un carattere ed in quelle successive le frequenze assolute e/o relative associate a ciascuna modalità.
Si dice frequenza relativa il rapporto fra la frequenza assoluta ed il numero totale di osservazioni.
Frequenze cumulate e
frequenze relative cumulate
Frequenze cumulate e
frequenze relative cumulate
Supponiamo di avere una distribuzione di frequenze tale per cui il carattere X sia a modalità ordinabili, e siano x1,x2,...,xk le modalità ordinate.
Frequenze cumulate e
frequenze relative cumulate
Supponiamo di avere una distribuzione di frequenze tale per cui il carattere X sia a modalità ordinabili, e siano x1,x2,...,xk le modalità ordinate.
Chiamiamo n1,n2,...,nk le corrispondenti frequenze assolute e f1,f2,...,fk le corrispondenti frequenze relative.
Frequenze cumulate e
frequenze relative cumulate
Supponiamo di avere una distribuzione di frequenze tale per cui il carattere X sia a modalità ordinabili, e siano x1,x2,...,xk le modalità ordinate.
Chiamiamo n1,n2,...,nk le corrispondenti frequenze assolute e f1,f2,...,fk le corrispondenti frequenze relative.
Si dice frequenza cumulata h-esima la quantità Nh=n1+n2+...+nh, per h =1,...,k
Frequenze cumulate e
frequenze relative cumulate
Supponiamo di avere una distribuzione di frequenze tale per cui il carattere X sia a modalità ordinabili, e siano x1,x2,...,xk le modalità ordinate.
Chiamiamo n1,n2,...,nk le corrispondenti frequenze assolute e f1,f2,...,fk le corrispondenti frequenze relative.
Si dice frequenza cumulata h-esima la quantità Nh=n1+n2+...+nh, per h =1,...,k
Si dice frequenza relativa cumulata h-esima la quantità
Fh=f1+f2+...+fh, per h=1,...,k
Come si rappresentano i dati?
Colore dei capelli N° di persone
Neri 10
Castani 6
Rossi 1
Biondi 5
Totale 22
Verde 👉carattere
Grigio 👉 modalità del carattere.
Azzurro 👉 frequenza assoluta di ciascuna modalità.
Esempio di distribuzione di frequenze di un carattere qualitativo sconnesso
Come si rappresentano i dati?
# stanze # appartamenti
1 300
2 500
3 2000
4 3000
5 150
6 100
7 300
Totale 6350
Esempio di distribuzione di frequenze di un carattere quantitativo discreto.
Come si rappresentano i dati?
Quando il carattere si presenta in un numero elevato di modalità (per esempio nel caso di caratteri quantitativi continui) ed effettuiamo un numero elevato di osservazioni, può essere utile rappresentare la distribuzione di frequenze attraverso il raggruppamento in classi.
Come si rappresentano i dati?
Peso (in grammi) # neonati 1.800;2.200 10
2.200;2.600 32 2.600;3.000 120 3.000;3.400 254 3.400;3.800 134 3.800;4.200 40 4.200;4.600 10
Totale 600
Esempio di distribuzione di frequenze di un carattere quantitativo continuo
con raggruppamento in classi.
Come si rappresentano i dati?
Peso (Kg)
Frequenza assoluta
52 1
54 1
55 2
61 1
63 1
68 2
69 3
71 1
73 1
75 1
76 1
Totale 15
Come si rappresentano i dati?
Dalle modalità alle classi di modalità
Peso (Kg)
Frequenza assoluta
52 1
54 1
55 2
61 1
63 1
68 2
69 3
71 1
73 1
75 1
76 1
Totale 15
Classi di modalità
Frequenza assoluta
50;60 4
60;70 7
70;80 4
Totale 15
👉
Come si rappresentano i dati?
In questa tabella riconosciamo dei caratteri qualitativi rettilinei!
Gradimento dei professori
Frequenze assolute
Frequenze cumulate
Frequenze relative
Frequenze percentuali
Frequenze percentuali
cumulate
molto deluso 36 36 36/250=0,144 14,4% 14,4%
insoddisfatto 90 126 90/250=0,360 36% 14,4+36=50,4%
parzialmente
insoddisfatto 63 189 63/250=0,252 25,2% 50,4+25,2=75,6%
soddisfatto 51 240 51/250=0,204 20,4% 75,6+20,4=96%
entusiasta 10 250 10/250=0,040 4% 96+4=100%
Totali 250 250 250/250=1,000 100% 100%
Come si rappresentano i dati?
Indagini statistiche
Si parte da una popolazione finita e si può procedere in uno dei seguenti modi:
Indagini statistiche
Si parte da una popolazione finita e si può procedere in uno dei seguenti modi:
Rilevazione censuaria.
L’indagine si estende a tutte le unità della popolazione.
Indagini statistiche
Si parte da una popolazione finita e si può procedere in uno dei seguenti modi:
Rilevazione censuaria.
L’indagine si estende a tutte le unità della popolazione.
Rilevazione campionaria.
I dati sono raccolti da un sottoinsieme della popolazione, scelto mediante un campionamento casuale o probabilistico.
Indagini statistiche
Si parte da una popolazione finita e si può procedere in uno dei seguenti modi:
Rilevazione censuaria.
L’indagine si estende a tutte le unità della popolazione.
Rilevazione campionaria.
I dati sono raccolti da un sottoinsieme della popolazione, scelto mediante un campionamento casuale o probabilistico.
Dopo una rilevazione campionaria si procede al cosiddetto riporto all’universo, ossia, si estendono all’intera popolazione le elaborazioni effettuate, secondo opportuni procedimenti sul campione.
Indagini statistiche
Ci sono più modi di procedere ad un campionamento casuale:
Indagini statistiche
Ci sono più modi di procedere ad un campionamento casuale:
Campionamento casuale semplice
Alle unità di popolazione si assegnano probabilità uguali di essere inserite nel campione.
Indagini statistiche
Ci sono più modi di procedere ad un campionamento casuale:
Campionamento casuale semplice
Alle unità di popolazione si assegnano probabilità uguali di essere inserite nel campione.
Campionamento casuale stratificato
Campionamento casuale semplice su singole sottopopolazioni derivanti dalla suddivisione della popolazione in sottoinsiemi omogenei.
Indagini statistiche
Ci sono più modi di procedere ad un campionamento casuale:
Campionamento casuale semplice
Alle unità di popolazione si assegnano probabilità uguali di essere inserite nel campione.
Campionamento casuale stratificato
Campionamento casuale semplice su singole sottopopolazioni derivanti dalla suddivisione della popolazione in sottoinsiemi omogenei.
Un esempio tipico di campionamento casuale stratificato è quello cosiddetto a due stadi. Nel primo stadio viene estratto casualmente un certo numero di unità di primo stadio (sottoinsiemi); da ciascuna di queste viene estratto un nuovo campione casuale di unità elementari dette unità di secondo stadio.
Rappresentazione dei dati
I dati raccolti in tabelle possono essere rappresentati attraverso grafici che offrono il vantaggio di una descrizione visiva del fenomeno che si sta analizzando.
Cartogramma
Serve a rappresentare quegli elementi della popolazione che vengono identificati con modalità geografiche
Stime di incidenza del carcinoma dei polmoni. Casi nei maschi × 100.000
Istogramma (0)
Abruzzo 7.252 Molise 933
Basilicata 1.726 Piemonte 25.341
Calabria 6.570 Puglia 24.377
Campania 21.587 Sardegna 8.628
Emilia Romagna 38.497 Sicilia 26.528
Friuli-Venezia Giulia 8.207 Toscana 34.380
Lazio 53.240 Trentino-Alto Adige 5.097
Liguria 17.048 Umbria 5.680
Lombardia 74.672 Valle D’Aosta 642
Marche 12.373 Veneto 29.396
Indagine sugli incidenti stradali in Italia.
Numero di veicoli coinvolti in incidenti stradali per regione.
Abruzzo Basilicata Calabria Campania Emilia Romagna Friuli-Venezia Giulia Lazio Liguria Lombardia Marche Molise Piemonte Puglia Sardegna Sicilia Toscana Trentino-Alto Adige Umbria Valle D'Aosta Veneto
0 20000 40000 60000 80000
Istogramma (1)
Frequenze assolute
La Lombardia ha il maggior numero di incidenti!
Regione Veicoli Incidenti Tasso Tasso%
Abruzzo 1.131.299 7.252 0,006 0,641
Basilicata 457.376 1.726 0,004 0,377
Calabria 1.565.296 6.570 0,004 0,420
Campania 4.350.447 21.587 0,005 0,496
Emilia Romagna 3.724.937 38.497 0,010 1,033 Friuli-Venezia Giulia 1.010.877 8.207 0,008 0,812
Lazio 4.859.950 53.240 0,011 1,095
Liguria 1.328.553 17.048 0,013 1,283
Lombardia 7.693.053 74.672 0,010 0,971
Marche 1.350.814 12.373 0,009 0,916
Molise 272.883 933 0,003 0,342
Piemonte 3.710.183 25.341 0,007 0,683
Puglia 2.862.659 24.377 0,009 0,852
Sardegna 1.303.464 8.628 0,007 0,662
Sicilia 4.257.928 26.528 0,006 0,623
Toscana 3.289.007 34.380 0,010 1,045
Trentino-Alto Adige 1.050.066 5.097 0,005 0,485
Umbria 803.525 5.680 0,007 0,707
Valle D’Aosta 201.564 642 0,003 0,319
Veneto 3.903.220 29.396 0,008 0,753
Incidenti per veicolo
Abruzzo Basilicata Calabria Campania Emilia Romagna Friuli-Venezia Giulia Lazio Liguria Lombardia Marche Molise Piemonte Puglia Sardegna Sicilia Toscana Trentino-Alto Adige Umbria Valle D'Aosta Veneto
0 0,35 0,7 1,05 1,4
Istogramma (2)
Tasso percentuale
La Lombardia detiene ancora il primato?
Ideogramma
Rappresentazione mediante figure stilizzate che rappresentano il fenomeno studiato.
Qui mettiamo a confronto la produzione di quattro case automobilistiche in un certo anno
Produzione di zucche
(in quintali)
Mary 10
Joe 20
Anne 40
Ideogramma
Mary Joe Anne
= 10 quintali
Produzione di zucche
(in quintali)
Mary 10
Joe 20
Anne 40
Ideogramma
• La prima zucca ha una superficie
• La seconda zucca ha una superficie
• La terza zucca ha una superficie
Mary Joe Anne
xy 4xy
16xy
Rappresentazione dei dati
I dati raccolti in tabelle possono essere rappresentati attraverso grafici che offrono il vantaggio di una descrizione visiva del fenomeno che si sta analizzando.
Vediamo una situazione in cui il diagramma cartesiano si presenta adatto a rispondere a specifici quesiti.
Diagramma cartesiano
Viene usato soprattutto per serie temporali, ossia per visualizzare l’andamento di un fenomeno nel tempo.
Ann o
Vendite auto 1996 10.000
1997 15.000 1998 20.000 1999 18.000 2000 17.000 2001 22.000 2001 23.000
2003 10.000 0
6000 12000 18000 24000
1996 1997 1998 1999 2000 2001 2002 2003
👉
La linea continua è facoltativa.
Semplicità nei confronti
-2,5 -1,25 0 1,25 2,5 3,75 5
1977 1979 1981 1983 1985 1987 1989 1991 1993 1995 1997 1999 2001 2003 2005
Media mese Media 5 anni Media assoluta
Andamento della temperatura media di dicembre ad Olmo al Brembo (BG) Media assoluta +1,88°C
Serie storica 1977-2006 (tendenza -0,74°C/10 anni)
Diagramma cartesiano
Atleta Peso (Kg) Altezza (cm)
Mario 66 174
Paolo 64 168
Luca 65 171
Giorgio 71 178
Sandro 64 169
Francesco 70 174
Alberto 71 180
Oreste 62 172
Bruno 60 169
Ettore 69 179
Domanda: è possibile ipotizzare che il peso
e l’altezza degli atleti siano legati da una
relazione lineare?
Mostriamo un esempio di distribuzione statistica (*) di due distinti caratteri
Diagramma cartesiano
Atleta Peso (Kg) Altezza (cm)
Mario 66 174
Paolo 64 168
Luca 65 171
Giorgio 71 178
Sandro 64 169
Francesco 70 174
Alberto 71 180
Oreste 62 172
Bruno 60 169
Ettore 69 179
Domanda: è possibile ipotizzare che il peso
e l’altezza degli atleti siano legati da una
relazione lineare?
Mostriamo un esempio di distribuzione statistica (*) di due distinti caratteri
(*) Si dice distribuzione statistica una rappresentazione di come le modalità di uno (distribuzione semplice) o più caratteri (distribuzione multipla) si presentano attribuite alle unità statistiche del collettivo.
Diagramma cartesiano
Altezza (cm)
167 169,5 172 174,5 177 179,5 182
Peso (Kg)
58 61,75 65,5 69,25 73
Bruno
Oreste
Paolo Sandro
Luca
Mario Francesco
Ettore
Giorgio Alberto
Disponiamo su un asse le modalità del carattere peso e sull'altro quelle del carattere altezza
Diagramma cartesiano
Altezza (cm)
167 169,5 172 174,5 177 179,5 182
Peso (Kg)
58 61,75 65,5 69,25 73
Bruno
Oreste
Paolo Sandro
Luca
Mario Francesco
Ettore
Giorgio Alberto
Decisamente no!
Diagramma cartesiano
Osserviamo che tutti i nostri tentativi lasciano
esterni e distanti dalla retta troppi punti.
Diagramma cartesiano
Osserviamo che tutti i nostri tentativi lasciano esterni e distanti dalla retta troppi punti.
Ne deduciamo che non c'è una relazione
lineare tra i due caratteri.
Diagramma cartesiano
Osserviamo che tutti i nostri tentativi lasciano esterni e distanti dalla retta troppi punti.
Ne deduciamo che non c'è una relazione lineare tra i due caratteri.
Questo discorso verrà ripreso più avanti quando si introdurrà il concetto di
correlazione statistica.
Diagramma polare
0 10 20 30 40
50 Lunedì
Martedì
Mercoledì Giovedì
Venerdì
Assenze
Lunedì Martedì Mercoledì Giovedì Venerdì
50 40 30 40 50
Usato per particolari serie storiche con carattere di ciclicità
Istogramma & diagramma a torta
Mostriamo un modo per rappresentare efficacemente le frequenze relative
Istogramma & diagramma a torta
Città Disoccupati per 100.000 abitanti
Atlanta 7.300
Boston 5.400
Chicago 6.700
Los Angeles 8.800
New York 8.200
Washington 8.900
Totale 45.300
Mostriamo un modo per rappresentare efficacemente le frequenze relative
Consideriamo la tabella
Istogramma & diagramma a torta
Città Disoccupati per 100.000 abitanti
Atlanta 7.300
Boston 5.400
Chicago 6.700
Los Angeles 8.800
New York 8.200
Washington 8.900
Totale 45.300
Sul totale di 45300 disoccupati osservati, la tabella precedente mostra la distribuzione di frequenze assolute ripartite sulle diverse modalità costituite dalle città considerate (il campione è di 600000 persone equiripartite fra le città).
Mostriamo un modo per rappresentare efficacemente le frequenze relative
Consideriamo la tabella
Istogramma & diagramma a torta
Città Disoccupati per 100.000 abitanti
Atlanta 7.300
Boston 5.400
Chicago 6.700
Los Angeles 8.800
New York 8.200
Washington 8.900
Totale 45.300
Dispongo sulle ascisse le modalità, sulle ordinate le
frequenze assolute.
0 2250 4500 6750 9000
Atlanta Boston Chicago Los Angeles New York Washington
Istogramma & diagramma a torta
0 2250 4500 6750 9000
Atlanta Boston Chicago Los Angeles New York Washington
20%
18%
19% 15%
12%
16%
Atlanta Boston
Chicago Los Angeles New York Washington
Diagramma a torta
Frequenze relative % (approssimate all'intero più vicino)
Utilizzo il diagramma a torta:
la torta rappresenta il tutto.
C i a s c u n o s p i c c h i o rappresenta in area la porzione percentuale data dalla frequenza relativa.
Legenda
Istogramma per variabili continue
Istogramma per variabili continue
Il preside di una scuola deve preparare un rapporto sul numero di ore a settimana che gli studenti trascorrono a studiare. Seleziona pertanto un campione di 30 studenti e chiede a ciascuno di loro questa informazione.
Istogramma per variabili continue
Il preside di una scuola deve preparare un rapporto sul numero di ore a settimana che gli studenti trascorrono a studiare. Seleziona pertanto un campione di 30 studenti e chiede a ciascuno di loro questa informazione.
15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;
17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;
10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.
Ottiene la seguente distribuzione:
Istogramma per variabili continue
Il diagramma cartesiano è adatto a
fornire una rappresentazione significativa
di questa distribuzione statistica?
Istogramma per variabili continue
Poniamo sull'asse delle ascisse le unità statistiche (gli studenti del campione) e su quello delle ordinate la modalità (le ore di studio)
15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;
17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;
10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.
Istogramma per variabili continue
Poniamo sull'asse delle ascisse le unità statistiche (gli studenti del campione) e su quello delle ordinate la modalità (le ore di studio)
15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;
17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;
10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.
Sull'asse delle ascisse riportiamo dunque i numeri da 1 a 30 e su quello delle ordinate i numeri compresi fra il minimo 10,3 ed il massimo 33,8.
Istogramma per variabili continue
Poniamo sull'asse delle ascisse le unità statistiche (gli studenti del campione) e su quello delle ordinate la modalità (le ore di studio)
15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;
17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;
10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.
Sull'asse delle ascisse riportiamo dunque i numeri da 1 a 30 e su quello delle ordinate i numeri compresi fra il minimo 10,3 ed il massimo 33,8.
Il numero di elementi del campione si dice taglia.
Nello specifico la taglia del campione è 30.
Istogramma per variabili continue
15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7;
17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9;
10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6.
0 10 20 30 40
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Un diagramma cartesiano non sarebbe significativo!
Poniamo sull'asse delle ascisse le unità statistiche (gli studenti del campione) e su quello delle ordinate la modalità (le ore di studio)
Istogramma per variabili continue
Per variabili (ossia caratteri quantitativi) continue come nel nostro esempio, una opportuna rappresentazione g r a fi c a s i o t t i e n e a t t r a v e r s o u n p r e l i m i n a r e raggruppamento in classi finalizzato alla costruzione di un Istogramma.
Istogramma per variabili continue
Per variabili (ossia caratteri quantitativi) continue come nel nostro esempio, una opportuna rappresentazione g r a fi c a s i o t t i e n e a t t r a v e r s o u n p r e l i m i n a r e raggruppamento in classi finalizzato alla costruzione di un Istogramma.
Le classi di modalità andranno riportate sull'asse delle ascisse.
Istogramma per variabili continue
Per variabili (ossia caratteri quantitativi) continue come nel nostro esempio, una opportuna rappresentazione g r a fi c a s i o t t i e n e a t t r a v e r s o u n p r e l i m i n a r e raggruppamento in classi finalizzato alla costruzione di un Istogramma.
Le classi di modalità andranno riportate sull'asse delle ascisse
E sull'asse delle ordinate?
Istogramma per variabili continue
Costruzione
1° Passo: stabilire il campo di variazione
👉
massimo - minimo 33,8-10,3=23,5
Istogramma per variabili continue
Costruzione
1° Passo: stabilire il campo di variazione
👉
massimo - minimo 33,8-10,3=23,5
Istogramma per variabili continue
Costruzione
2° Passo: determinare le classi di modalità i) Numero di classi
1° Passo: stabilire il campo di variazione
👉
massimo - minimo 33,8-10,3=23,5
Istogramma per variabili continue
Costruzione
2° Passo: determinare le classi di modalità
i) Numero di classi ii) Ampiezza delle classi
1° Passo: stabilire il campo di variazione
👉
massimo - minimo 33,8-10,3=23,5
Istogramma per variabili continue
Costruzione
2° Passo: determinare le classi di modalità
i) Numero di classi ii) Ampiezza delle classi
👇
Regola empirica:
taglia
30 = 5,47 ≈ 6
1° Passo: stabilire il campo di variazione
👉
massimo - minimo 33,8-10,3=23,5
Istogramma per variabili continue
Costruzione
2° Passo: determinare le classi di modalità
i) Numero di classi ii) Ampiezza delle classi
👇 👇
Regola empirica:
taglia
30 = 5,47 ≈ 6 h =
23,5
6 = 3,91 ≈ 4
1° Passo: stabilire il campo di variazione
👉
massimo - minimo 33,8-10,3=23,5
Istogramma per variabili continue
Costruzione
2° Passo: determinare le classi di modalità
i) Numero di classi ii) Ampiezza delle classi
👇 👇
Regola empirica:
taglia
30 = 5,47 ≈ 6 h =
23,5
6 = 3,91 ≈ 4
Dunque raggruppiamo le modalità in 6 classi di ampiezza 4
Istogramma per variabili continue
Costruzione
2° Passo: determinare le classi di modalità
Problema: come determino gli estremi delle 6 classi?
Istogramma per variabili continue
Costruzione
2° Passo: determinare le classi di modalità
Problema: come determino gli estremi delle 6 classi?
6 classi di ampiezza 4: lunghezza totale = 6x4=24
Istogramma per variabili continue
Costruzione
2° Passo: determinare le classi di modalità
Problema: come determino gli estremi delle 6 classi?
6 classi di ampiezza 4: lunghezza totale = 6x4=24
Campo di variazione = 23,5
Istogramma per variabili continue
Costruzione
2° Passo: determinare le classi di modalità
Confrontando le due diverse lunghezze, si capisce che per pareggiarle occorre aggiungere ai due estremi del segmento rosso due segmenti di lunghezza pari alla semidifferenza delle lunghezze.
Istogramma per variabili continue
Costruzione
2° Passo: determinare le classi di modalità
Confrontando le due diverse lunghezze, si capisce che per pareggiarle occorre aggiungere ai due estremi del segmento rosso due segmenti di lunghezza pari alla semidifferenza delle lunghezze.
6 classi di ampiezza 4: lunghezza totale = 6x4=24
Campo di variazione = 23,5
Istogramma per variabili continue
Costruzione
2° Passo: determinare le classi di modalità
Confrontando le due diverse lunghezze, si capisce che per pareggiarle occorre aggiungere ai due estremi del segmento rosso due segmenti di lunghezza pari alla semidifferenza delle lunghezze.
d=(24-23,5)/2 d=(24-23,5)/2
Istogramma per variabili continue
Costruzione
2° Passo: determinare le classi di modalità
L'estremo inferiore della prima classe di modalità si ottiene nel seguente modo:
min-d = 10,3-0,25 = 10,05
👉
10 per arrotondamento.Istogramma per variabili continue
Costruzione
2° Passo: determinare le classi di modalità
L'estremo inferiore della prima classe di modalità si ottiene nel seguente modo:
min-d = 10,3-0,25 = 10,05
👉
L'estremo superiore della prima classe si ottiene aggiungendo l'ampiezza: 10 + 4 = 14.
10 per arrotondamento.
Istogramma per variabili continue
Costruzione
2° Passo: determinare le classi di modalità
L'estremo inferiore della prima classe di modalità si ottiene nel seguente modo:
min-d = 10,3-0,25 = 10,05
👉
10 per arrotondamento.L'estremo superiore della prima classe si ottiene aggiungendo l'ampiezza: 10 + 4 = 14.
Prima classe: [10;14)
Istogramma per variabili continue
Costruzione
2° Passo: determinare le classi di modalità
Le altre 5 classi si ottengono attraverso i successivi 5 intervalli di ampiezza h = 4:
2^a classe: [14;18) 3^a classe: [18;22) 4^a classe: [22;26) 5^a classe: [26;30) 6^a classe: [30;34]
Per far questo, innanzitutto ordiniamo i dati in ordine crescente
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Istogramma per variabili continue
Costruzione
3° Passo: Contare quanti elementi cadono in ciascuna classe
Poi ripartiamo le modalità secondo il raggruppamento effettuato
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Istogramma per variabili continue
Costruzione
3° Passo: Contare quanti elementi cadono in ciascuna classe
Istogramma per variabili continue
Costruzione
👇
[10;14) [14;18) )
[18;22) [22;26) [26;30) [30;34]
5 9 9 3 3 1
Distribuzione di frequenza assoluta
[10;14) [14;18) )
[18;22) [22;26) [26;30) [30;34]
0,17 0,30 0,30 0,10 0,10 0,03
Distribuzione di frequenza relativa
0,17 = 5 / 30
10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7;
16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3;
20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8.
Distribuzione di frequenza relativa
0 0,088 0,175 0,263 0,35
[10;14) [14;18) [18;22) [22;26) [26;30) [30;34]
Distribuzione di frequenza assoluta
0 2,5 5 7,5 10
[10;14) [14;18) [18;22) [22;26) [26;30) [30;34]
La somma delle aree dei rettangoli è:
4 * 5 + 4 *9 +!+ 4 *1 = 4 * 5( + 9 +!+1) = 4 * 30
La somma delle aree dei rettangoli è:
4 * 0,17 + 4 *0,3+!+ 4 *0,03 = 4 * 0,17( + 0,3+!+ 0,03) = 4
Istogramma per variabili continue
L'area totale dipende dalla ampiezza delle classi!!!
L'area totale dipende dalla taglia del campione e dalla ampiezza delle classi!!!
Istogramma per variabili continue
OSSERVAZIONE:
Istogramma per variabili continue
OSSERVAZIONE: