C ORSO DI S TATISTICA
E SERCIZI
Corso di laurea in
Scienze e Tecnologie Viticole ed Enologiche
Prof.ssa Paola Zuccolotto
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 2
E SERCIZI SUL CAPITOLO 2 - R APPORTI STATISTICI PER L ’ ANALISI DELL ’ ANDAMENTO TEMPORALE DI UN FENOMENO
Esercizio 1
É data la seguente tabella, che riporta i fatturati dell’azienda XYZ presso i due canali distributivi enoteche e grande distribuzione (GDO) negli anni dal 2008 al 2012.
Calcolare:
1. I numeri indici a base fissa con base l’anno 2008 e le relative variazioni, per entrambi i canali distributivi;
2. I numeri indici a base mobile e le relative variazioni, per entrambi i canali distributivi;
3. Commentare i risultati ottenuti.
(Risultato)
Rispondere alle seguenti domande:
1. Qual è stata la variazione del fatturato presso le enoteche dal 2008 al 2012? (diminuzione del 30.79%)
2. Qual è stata la variazione del fatturato presso le enoteche dal 2011 al 2012? (diminuzione del 1.88%)
3. Qual è stata la variazione del fatturato presso GDO dal 2008 al 2010? (incremento del 41.87%) 4. Qual è stata la variazione del fatturato totale dal 2008 al 2012? (incremento del 8.82%)
Enoteche GDO
2008 60400 60900
2009 52500 75200
2010 45000 86400
2011 42600 88100
2012 41800 90200
Enoteche NIbf2008 Nibm Var bf2008 Var bm
2008 60400 1.0000 - 0.00% -
2009 52500 0.8692 0.8692 -13.08% -13.08%
2010 45000 0.7450 0.8571 -25.50% -14.29%
2011 42600 0.7053 0.9467 -29.47% -5.33%
2012 41800 0.6921 0.9812 -30.79% -1.88%
GDO NIbf2008 Nibm Var bf2008 Var bm
2008 60900 1.0000 - 0.00% -
2009 75200 1.2348 1.2348 23.48% 23.48%
2010 86400 1.4187 1.1489 41.87% 14.89%
2011 88100 1.4466 1.0197 44.66% 1.97%
2012 90200 1.4811 1.0238 48.11% 2.38%
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 3
Per rispondere alla domanda 4 va prima costruita la tabella dei fatturati totali
Esercizio 2
É data la seguente tabella, che riporta le variazioni annue nella produzione di un terreno, calcolate per gli anni dal 2009 al 2012.
Calcolare:
1. Le variazioni occorse nel 2010, nel 2011 e nel 2012 rispetto all’anno 2009 (Risultato)
Attenzione: Si calcolano prima di tutto i numeri indici a base mobile, da questi si ricavano i numeri indici a base fissa 2009 e quindi le variazioni a base fissa. Si vedano i passaggi intermedi nella tabella seguente.
2. Le variazioni occorse nel 2011 e nel 2012 rispetto all’anno 2010 (Risultato)
Enoteche GDO Totale
2008 60400 60900 121300
2009 52500 75200 127700
2010 45000 86400 131400
2011 42600 88100 130700
2012 41800 90200 132000
Variazioni annue
2009 -
2010 5.00%
2011 1.90%
2012 -8.41%
Variazioni annue Variazioni rispetto al 2009
2009 - 0%
2010 5.00% 5%
2011 1.90% 7%
2012 -8.41% -2%
Variazioni annue NIbm NIbf2009
2009 - - 1.0000
2010 5.00% 1.0500 1.0500
2011 1.90% 1.0190 1.0700
2012 -8.41% 0.9159 0.9800
Variazioni annue Variazioni rispetto al 2010
2009 - -
2010 5.00% 0.00%
2011 1.90% 1.90%
2012 -8.41% -6.67%
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 4
Attenzione: Si calcolano prima di tutto i numeri indici a base mobile, da questi si ricavano i numeri indici a base fissa 2010 e quindi le variazioni a base fissa. Si vedano i passaggi intermedi nella tabella seguente.
Esercizio 3
É data la seguente tabella, che riporta le variazioni nel fatturato di un’azienda rispetto all’anno 2008, calcolate per gli anni dal 2008 al 2012.
Calcolare:
1. La variazione occorsa dal 2010 al 2011 (decremento dell’8.33%) 2. La variazione dal 2010 al 2012 (nessuna variazione)
3. Sapendo che il fatturato del 2008 è pari a 100.000 €, il fatturato di tutti gli altri anni (Risultato punto 3)
Variazioni annue NIbm NIbf2010
2009 - -
2010 5.00% 1.0500 1.0000
2011 1.90% 1.0190 1.0190
2012 -8.41% 0.9159 0.9333
Variazioni rispetto al 2008
2008 0.00%
2009 0.00%
2010 8.00%
2011 -1.00%
2012 8.00%
Fatturato
2008 100000
2009 100000
2010 108000
2011 99000
2012 108000
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 5
E SERCIZI SUL CAPITOLO 3 - D ISTRIBUZIONI DI FREQUENZE Esercizio 1
É data la seguente tabella, che riporta la distribuzione di frequenze assolute dei 283 vini del dataset Altroconsumo, secondo il carattere Zona.
Qual è la percentuale di vini che possiede la certificazione DOC o DOCG? (il 77%) Esercizio 2
É data la seguente tabella, che riporta le distribuzioni di frequenze assolute dei vini di un dataset simile a quello di Altroconsumo, secondo il carattere Zona, per le regioni Abruzzo, Emilia Romagna, Piemonte, Puglia.
1. Qual è la regione con la più elevata incidenza di vini DOC? (l’Emilia Romagna, in quanto sono il 65.87%)
2. Rappresentare un grafico a barre che consenta di confrontare le distribuzioni di frequenze relative di Puglia e Piemonte.
Attenzione: Vanno calcolate le distribuzioni di frequenze relative delle 4 regioni, si veda la tabella seguente.
Zona ni
DOC 169
DOCG 49
IGT 65
Totale 283
Zona Abruzzo Emilia Romagna Piemonte Puglia
DOC 140 110 400 320
DOCG 120 25 350 150
IGT 139 32 120 120
Zona Abruzzo Emilia Romagna Piemonte Puglia
DOC 35.09% 65.87% 45.98% 54.24%
DOCG 30.08% 14.97% 40.23% 25.42%
IGT 34.84% 19.16% 13.79% 20.34%
fi
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 6
Esercizio 3
La seguente tabella riporta la distribuzione di frequenze assolute del carattere Premi relativamente ai vini del dataset Altroconsumo.
1. Calcolare la distribuzione di frequenze relative cumulata.
(Risultato)
2. Qual è il valore del carattere Premi tale per cui il 30% dei vini del dataset ha un valore uguale o inferiore ad esso? (0)
3. Qual è il valore del carattere Premi tale per cui il 70% dei vini del dataset ha un valore uguale o inferiore ad esso? (0)
4. Qual è il valore del carattere Premi tale per cui il 90% dei vini del dataset ha un valore uguale o inferiore ad esso? (1)
5. Qual è il valore del carattere Premi tale per cui il 95% dei vini del dataset ha un valore uguale o inferiore ad esso? (1)
6. Qual è il valore del carattere Premi tale per cui il 98% dei vini del dataset ha un valore uguale o inferiore ad esso? (2)
Premi ni
0 254
1 20
2 9
283
Premi ni fi Fi
0 254 0.8975 0.8975
1 20 0.0707 0.9682
2 9 0.0318 1.0000
283 1
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 7
Esercizio 4
La seguente tabella riporta la distribuzione di frequenze assolute del carattere Prezzo relativamente ai vini del dataset Altroconsumo.
1. Calcolare la distribuzione di frequenze assolute cumulata e rappresentarne il grafico.
(Risultato)
2. Qual è la percentuale di vini con un prezzo inferiore a 11 €? (l’89.40%)
3. Qual è la percentuale di vini con un prezzo uguale o superiore a 5 €? (il 51.59%) 4. Rappresentare l’istogramma della distribuzione.
Attenzione: al punto 4 vanno calcolate le frequenze specifiche, come in tabella.
Prezzo ni
1 |- 5 € 137 5 |- 11 € 116 11 |- 15 € 26 15 |- 19 € 4
Totale 283
Prezzo ni Ni
1 |- 5 € 137 137
5 |- 11 € 116 253
11 |- 15 € 26 279
15 |- 19 € 4 283
Totale 283
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 8
5. Qual è il valore del Prezzo tale per cui il 30% dei vini ha un valore inferiore ad esso? (3.4788, cioè arrotondando 3.48 €)
6. Qual è il valore del Prezzo tale per cui il 10% dei vini ha un valore superiore ad esso? (11.2612, cioè arrotondando 11.26 €)
Attenzione: fare riferimento alla seguente tabella delle frequenze cumulate o costruire il grafico delle frequenze relative cumulate.
Prezzo ni Di nsi
1 |- 5 € 137 4 34.25
5 |- 11 € 116 6 19.33
11 |- 15 € 26 4 6.50
15 |- 19 € 4 4 1.00
Totale 283
Prezzo ni fi Fi
1 |- 5 € 137 0.4841 0.4841
5 |- 11 € 116 0.4099 0.8940
11 |- 15 € 26 0.0919 0.9859
15 |- 19 € 4 0.0141 1.0000
Totale 283 1
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 9
Esercizio 5
Durante uno studio di analisi sensoriale, 100 consumatori hanno espresso le proprie valutazioni su una scala da 1 a 9 riguardo l’Intensità Olfattiva di un vino. La distribuzione di frequenze delle risposte è riportata nella tabella che segue.
1. Rappresentare graficamente la distribuzione di frequenze relative e quella di frequenze relative cumulate, sotto l’ipotesi di uniforme ripartizione dei soggetti nelle classi.
2. Qual è il valore della Valutazione sensoriale tale che il 30% dei consumatori ha espresso un punteggio inferiore ad esso? (5)
3. Qual è il valore della Valutazione sensoriale tale che il 70% dei consumatori ha espresso un punteggio inferiore ad esso? (8)
Attenzione: la Valutazione sensoriale qui va trattata come un carattere discreto raggruppato in classi, quindi bisogna prima di tutto scorporare le classi sotto l’ipotesi di uniforme ripartizione dei soggetti all’interno delle classi, come illustrato nella tabella sotto, poi si procede normalmente come per un qualunque carattere discreto.
Valutazioni sensoriali ni
1 - 3 15
4 - 6 35
7 - 9 50
Totale consumatori 100
Valutazioni sensoriali ni
1 5
2 5
3 5
4 11.6667
5 11.6667
6 11.6667
7 16.6667
8 16.6667
9 16.6667
Totale consumatori 100
Valutazioni sensoriali fi Fi
1 0.05 0.0500
2 0.05 0.1000
3 0.05 0.1500
4 0.1167 0.2667
5 0.1167 0.3833
6 0.1167 0.5000
7 0.1667 0.6667
8 0.1667 0.8333
9 0.1667 1.0000
Totale consumatori 1
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 10
Esercizio 6
In occasione di un’indagine di mercato, si è rilevata l’età dei consumatori che hanno dichiarato di apprezzare “molto” un certo vino. La distribuzione di frequenze ottenuta è riportata in tabella.
1. Rappresentare graficamente la distribuzione di frequenze relative e quella di frequenze relative cumulate, trattando il carattere come un quantitativo continuo.
Attenzione: il suggerimento di trattare il carattere come un quantitativo continuo viene dato perché il numero di modalità è elevato e pertanto sarebbe laborioso procedere come nell’esercizio 5. Quindi è possibile trattare il carattere con le tecniche utilizzate per i quantitativi continui. Dunque la distribuzione di frequenze relative andrà rappresentata con l’istogramma e la distribuzione di frequenze relative cumulate con la spezzata. Prima di tutto, però, bisogna procedere all’operazione di
“aggiustamento delle classi al continuo”, come illustrato nella tabella sottostante.
Età ni
18 - 25 15
26 - 45 54
46 - 55 85
56 - 65 59
66 - 85 26
86 - 95 8
Totale consumatori 247
Età ni
18 |- 26 15
26 |- 46 54
46 |- 56 85
56 |- 66 59
66 |- 86 26
86 |- 96 8
Totale consumatori 247
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 11
E SERCIZI SUL CAPITOLO 4 - M EDIE Esercizio 1
La seguente tabella riporta la distribuzione di frequenze assolute del carattere Regione di Produzione relativamente ai vini del dataset Altroconsumo.
1. Individuare la moda, calcolarne la rappresentatività, commentare il valore ottenuto (Piemonte, 16.96%, la moda ha una rappresentatività molto ridotta).
Esercizio 2
La seguente tabella riporta la distribuzione di frequenze assolute del carattere Valutazione Sensoriale di Percezione Sferica relativamente ai vini del dataset Altroconsumo.
1. Individuare la moda, calcolarne la rappresentatività, commentare il valore ottenuto (6; 51.6%, la moda ha una rappresentatività di medio livello).
2. Calcolare la mediana e la media aritmetica (6; 5,74).
3. Calcolare D
1, D
9, Q
3(il primo e il nono decile, il terzo quartile) (5; 6,5; 6).
Regione ni
Abruzzo 14
Alto_Adige 3
Basilicata 3
Calabria 3
Campania 6
Emilia_Romagna 12
Friuli 14
Lazio 7
Lombardia 19
Marche 11
Molise 2
Piemonte 48
Puglia 14
Sardegna 11
Sicilia 29
Toscana 46
Trentino 12
Umbria 3
Veneto 26
Totale 283
Valutazione sensoriale
Percezione Sferica ni
4 7
4.5 2
5 77
5.5 16
6 146
6.5 15
7 19
8 1
Totale 283
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 12
Esercizio 3
La seguente tabella riporta la distribuzione di frequenze assolute del carattere Acidità Volatile (g/l) relativamente ai vini del dataset Altroconsumo.
1. Individuare la classe modale, calcolarne la rappresentatività, commentare il valore ottenuto (Attenzione: utilizzare le frequenze specifiche per individuare la classe modale e le frequenze relative per la sua rappresentatività. 0.45 |- 0.55; 41.7%, la moda ha una rappresentatività di livello medio-basso).
2. Qual è la seconda classe più importante, dopo la classe modale, in termini di frequenza specifica? (0.55 |- 0.65 con una frequenza specifica pari a 600)
3. Calcolare la mediana (sotto l’ipotesi di uniforme distribuzione dei soggetti all’interno delle classi) e la media aritmetica (0.4996; 0.4973).
4. Calcolare D
1, D
9, Q
3(il primo e il nono decile, il terzo quartile) sotto l’ipotesi di uniforme distribuzione dei soggetti all’interno delle classi (0.3166; 0.6395; 0.5688).
Esercizio 4
Si supponga di considerare il carattere Zona come qualitativo ordinale, con le modalità nel seguente ordine: IGT, DOC, DOCG. Calcolare la mediana del carattere Zona per i vini riportati in tabella (DOC).
Chim3 ni
0.20 |- 0.25 1 0.25 |- 0.45 82 0.45 |- 0.55 118 0.55 |- 0.65 60 0.65 |- 0.85 20 0.85 |- 0.95 2 Totale 283
Zona Denominazione
1 DOC Sangiovese di Romagna DOC
2 DOC Sangiovese di Romagna Superiore DOC 2006 3 DOC Sangiovese di Romagna DOC 2006
4 DOC Sangiovese di Romagna Superiore DOC 2006 5 DOC Sangiovese di Romagna DOC 2006
6 IGT Puglia IGT Sangiovese 2006 7 IGT Sangiovese Rubicone IGT 8 DOC Friuli DOC Grave Merlot 2006 9 IGT Veneto IGT Merlot 2006
10 DOC Friuli DOC Grave Merlot Il Greto 2006 11 DOC Trentino DOC Merlot Mastri Vernacoli 2006
12 DOC Friuli DOC Grave Refosco dal Peduncolo Rosso Arnacis 2006 13 DOC Castelli Romani DOC 2006
14 DOC Castelli Romani DOC 2005
15 DOC Castelli Romani DOC Ducato dellAriccia 2006 16 DOC Castelli Romani DOC 2006
17 DOC Oltrepo Pavese DOC Buttafuoco
18 DOC Oltrepo Pavese DOC Buttafuoco La Manna 2006 19 DOC Oltrepo Pavese DOC Buttafuoco
20 DOC Terre Di Franciacorta DOC 2005
21 DOC Terre Di Franciacorta DOC Curtefranca 2004 22 DOC Terre Di Franciacorta DOC 2004
23 DOC Terre Di Franciacorta DOC Curtefranca 2004 24 DOCG Valtellina Superiore DOCG Inferno 2004 25 DOCG Valtellina Superiore DOCG Inferno 2004 26 DOCG Valtellina Superiore DOCG Inferno 2004
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 13
Esercizio 5
Un’azienda proprietaria di 5 appezzamenti di terreno coltivati a vite vuole valutare i costi connessi al trattamento dei suoi terreni con un certo prodotto chimico. I costi differiscono da un appezzamento all’altro a causa delle diverse composizioni del suolo. La tabella che segue riporta i costi annui per ettaro dei 5 appezzamenti.
1. Calcolare il costo annuo medio per ettaro (Attenzione: bisogna calcolare una media aritmetica dei costi ponderata con le estensioni. 1015,38€/ha).
2. Mostrare che è verificata la Proprietà di bilanciamento degli scarti dalla media aritmetica (Attenzione: gli scarti vanno anch’essi ponderati! Si consiglia di usare per la media 4 cifre decimali).
3. A causa degli altri costi, l’azienda ha deciso di diminuire le quantità somministrate del 15%.
Quale sarà il nuovo costo medio annuo? (Proprietà della media aritmetica di trasformazioni lineari:
a=0, b= 0,85. Nuova media: 863,08 €/ha)
Esercizio 6
Un’azienda produttrice di vini vende attraverso quattro distinti canali distributivi (Grande Distribuzione, Ingrosso, Negozi di bevande generiche, Enoteche), nei quali pratica diverse politiche di prezzo. La tabella che segue riporta, per un dato vino, il prezzo praticato nei quattro canali distributivi e il corrispondente volume delle vendite.
1. Calcolare il prezzo medio per bottiglia (Attenzione: bisogna calcolare una media aritmetica dei prezzi ponderata con il numero di bottiglie. 11,46 €/bottiglia).
2. Mostrare che è verificata la Proprietà di bilanciamento degli scarti dalla media aritmetica (Attenzione: gli scarti vanno anch’essi ponderati! Si consiglia di usare per la media 4 cifre decimali).
3. Nell’anno seguente interviene un aumento dei prezzi del 20%. Qual è il nuovo prezzo medio, ferme restando le bottiglie vendute? (Proprietà della media aritmetica di trasformazioni lineari: a=0, b=
1,2. Nuova media: 13,75 €/bottiglia).
Terreno Estensione (in ha) Costo annuo (€/ha)
1 5 1000
2 1 1200
3 10 800
4 3 1500
5 7 1100
Canale Bottiglie vendute Prezzo (€/bottiglia)
GD 15000 11.5
Ingrosso 6000 10
Negozi bevande 6500 12
Enoteche 3000 13
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 14
Esercizio 7
Un distributore di vini effettua i suoi acquisti da diversi produttori. A seconda della forza contrattuale nei confronti dei vari fornitori, può applicare ricarichi differenti. La tabella che segue riporta, per i 4 fornitori più importanti, il costo annuo delle bottiglie acquistate e il corrispondente ricavo.
1. Il ricarico (o mark-up), r, è un indice statistico calcolato come rapporto tra il guadagno (G) ottenuto dalla vendita (ricavo di vendita (R) – costo di acquisto (C)) e il costo di acquisto (C):
𝑟 = 𝑅 − 𝐶
𝐶 = 𝐺
𝐶
Per la sua intepretazione viene in genere moltiplicato per 100 e si ottiene il ricarico %. Calcolare i ricarichi per ogni fornitore.
(Risultato)
2. Calcolare il ricarico medio che lascia invariati i costi totali (0,1472 o 14,72%).
(Risultato)
Il ricarico relativo al fornitore i-esimo è dato da
𝑟
𝑖= 𝐺
𝑖𝐶
𝑖Quindi otteniamo il costo come
𝐶
𝑖= 𝐺
𝑖𝑟
𝑖La somma dei costi per i 4 fornitori è data da
𝐶
1+ 𝐶
2+ 𝐶
3+ 𝐶
4= 𝐺
1𝑟
1+ 𝐺
2𝑟
2+ 𝐺
3𝑟
3+ 𝐺
4𝑟
4Ora ci chiediamo quale sia il ricavo medio r che, sostituito a r
1, r
2, r
3, r
4, lasci invariata la somma dei costi.
𝐺
1𝑟 + 𝐺
2𝑟 + 𝐺
3𝑟 + 𝐺
4𝑟 = 𝐺
1𝑟
1+ 𝐺
2𝑟
2+ 𝐺
3𝑟
3+ 𝐺
4𝑟
4𝑟 = 𝐺
1+ 𝐺
2+ 𝐺
3+ 𝐺
4𝐺
1𝑟
1+ 𝐺
2𝑟
2+ 𝐺
3𝑟
3+ 𝐺
4𝑟
4= 0,1472
La media ottenuta è una media armonica dei ricarichi ponderata con i guadagni.
Fornitore Costo annuo acquisto vini Ricavo annuo vendita vini
A 50000 60000
B 35000 38000
C 26500 32000
D 21000 22000
Fornitore Costo annuo acquisto vini Ricavo annuo vendita vini Ricarico Ricarico %
A 50000 60000 0.2000 20.00%
B 35000 38000 0.0857 8.57%
C 26500 32000 0.2075 20.75%
D 21000 22000 0.0476 4.76%
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 15
Esercizio 8
In un’indagine di mercato è stato chiesto a 780 clienti di un’enoteca quante bottiglie di vino consumassero al mese. La tabella che segue riporta la distribuzione di frequenze delle risposte.
1. Calcolare media e mediana del numero di bottiglie consumate al mese, sotto l’ipotesi di uniforme ripartizione dei soggetti nelle classi. (Attenzione: si tratta di un carattere discreto raggruppato in classi, quindi bisogna prima di tutto scorporare le classi sotto l’ipotesi di uniforme ripartizione dei soggetti all’interno delle classi, come illustrato nella tabella sotto, poi si procede normalmente. 3,9224; 4)
Esercizio 9
Un gruppo di 10 giudici dà a un vino le seguenti valutazioni (scala da 1 a 9) riguardo 5 variabili sensoriali olfattive (Intensità olfattiva, Aroma Floreale, Aroma Fruttato, Aroma Speziato, Aroma Vegetale).
1. Rappresentare il profilo sensoriale medio del vino
Bottiglie/mese ni
0 - 1 210
2 - 5 358
6 - 8 125
9 - 10 87
780
Bottiglie/mese ni
0 105
1 105
2 89.5
3 89.5
4 89.5
5 89.5
6 41.67
7 41.67
8 41.67
9 43.5
10 43.5
780
Giudice Intensità olfattiva Aroma Floreale Aroma Fruttato Aroma Speziato Aroma Vegetale
1 6 8 9 5 4
2 7 9 8 3 7
3 6 7 7 2 5
4 8 8 6 1 5
5 7 8 6 1 7
6 8 7 9 5 5
7 7 7 9 1 6
8 9 6 8 2 7
9 9 9 6 5 6
10 7 9 6 3 4
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 16
E SERCIZI SUL CAPITOLO 5 – I NDICI DI V ARIABILITÀ
Esercizio 1
Un’azienda produttrice di vino effettua i seguenti investimenti pubblicitari all’estero (dati in migliaia di Euro)
1. Calcolare il campo di variazione (o range) degli investimenti (1500 €).
2. Calcolare lo scarto quadratico medio degli investimenti (540.2546 €).
Esercizio 2
Uno studio analizza 82 aziende produttrici di vino, secondo il numero di premi vinti negli ultimi 10 anni, ottenendo la distribuzione di frequenze riportata in tabella.
1. Calcolare la varianza del numero di premi utilizzando la formula diretta e quella indiretta (In questo caso si utilizzano i valori centrali di classe; si controllino i calcoli nelle tabelle riportate sotto. Varianza = 21.206).
Paese Investimento
Germania 1000
Francia 1200
Spagna 2000
Inghilterra 500
Numero premi ni
0 - 5 30
6 - 10 42
11 - 20 8
21 - 25 2
Totale 82
Numero premi ni xi·ni xi^2·ni
2.5 30 75 187.5
8 42 336 2688
15.5 8 124 1922
23 2 46 1058
Totale 82 581 5855.5
scarti dalla media ni scarto^2·ni
-4.5854 30 630.7768
0.9146 42 35.1327
8.4146 8 566.4439
15.9146 2 506.5490
Totale 82 1738.9024
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 17
2. Calcolare la differenza interquartile del numero di premi (Attenzione: si tratta di un carattere discreto
raggruppato in classi, quindi bisogna prima di tutto scorporare le classi sotto l’ipotesi di uniforme ripartizione dei soggetti all’interno delle classi, come illustrato nella tabella sotto, poi si procede normalmente. Differenza
interquartile = 5).
Si sarebbe potuto procedere anche attraverso l’arrotondamento delle classi al continuo, come illustrato di seguito:
Utilizzando poi il metodo dell’interpolazione, sempre sotto l’ipotesi di uniforme ripartizione dei soggetti all’interno delle classi, si ottengono i valori Q1=4.1 e Q3=9.75 che vanno entrambi arrotondati all’intero inferiore, quindi Q1=4 e Q3=9, da cui Q3-Q1=5, come con il procedimento precedente.
Numero premi ni Fi
0 5 0.0610
1 5 0.1220
2 5 0.1829
3 5 0.2439
4 5 0.3049 Q1
5 5 0.3659
6 8.4 0.4683
7 8.4 0.5707
8 8.4 0.6732
9 8.4 0.7756 Q3
10 8.4 0.8780
11 0.8 0.8878
12 0.8 0.8976
13 0.8 0.9073
14 0.8 0.9171
15 0.8 0.9268
16 0.8 0.9366
17 0.8 0.9463
18 0.8 0.9561
19 0.8 0.9659
20 0.8 0.9756
21 0.4 0.9805
22 0.4 0.9854
23 0.4 0.9902
24 0.4 0.9951
25 0.4 1.0000
Totale 82
Numero premi ni Fi
0 |- 6 30 0.3659
6 |- 11 42 0.8780
11 |- 21 8 0.9756
21 |- 26 2 1.0000
Totale 82
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 18
Esercizio 3
La seguente tabella riporta la distribuzione di frequenze di 100 aziende osservate secondo il fatturato annuo (dati in migliaia di €)
1. Calcolare lo scarto assoluto medio dalla mediana (Prima si calcola la mediana con l’interpolazione, poi si utilizzano i valori centrali; controllare i calcoli nella tabella riportata sotto. Scarto assoluto dalla mediana=30.7307).
2. Calcolare la differenza interdecile (116.1111).
Esercizio 4
La seguente tabella riporta la distribuzione di frequenze dei 283 vini del dataset Altroconsumo secondo la gradazione alcolica dichiarata sull’etichetta.
1. Calcolare il campo di variazione (o range) (4).
2. Calcolare la differenza interquartile (0.5).
3. Calcolare lo scarto quadratico medio (0.6818).
Fatturato ni
50 |- 100 25
100 |- 150 52 150 |- 200 18
200 |- 400 5
Totale 100
scarti dalla mediana ni scarto·ni
49.0385 25 1225.9625
0.9615 52 49.9980
50.9615 18 917.3070
175.9615 5 879.8075
Totale 100 3073.0750
Grado ni
11 2
11.5 15
12 43
12.5 96
13 64
13.5 43
14 13
14.5 6
15 1
Totale 283
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 19
Esercizio 5
I 283 vini del dataset Altroconsumo sono stati divisi i tre gruppi, secondo la variabile “Zona” (IGT, DOC, DOCG). La tabella che segue riporta, per ognuno dei tre gruppi, numerosità del gruppo, media e scarto quadratico medio del prezzo di vendita. Inoltre l’ultima riga contiene media e scarto quadratico medio del prezzo relativamente a tutti i 283 vini.
1. Verificare la proprietà di scomposizione della varianza relativamente al prezzo.
2. Dire quale dei tre gruppi presenta la maggiore variabilità del prezzo (Attenzione: per i confronti si utilizzano indici di variabilità relativi. In questo caso è semplice utilizzare il coefficiente di variazione. Il gruppo con la maggiore variabilità nel prezzo è quello composto dai vini DOC, cv=0.5324).
Esercizio 6
La tabella che segue descrive la composizione dell’assortimento di un’enoteca, attraverso la distribuzione di frequenze dei vini posseduti, secondo il tipo di vino.
1. Valutare (cioè: calcolare uno o più appositi indici e commentarli) l’eterogeneità dell’assortimento (Gini=0.9394; Shannon=0.9098. Commento: l’eterogeneità dell’assortimento è elevata, superiore al 90% del massimo teorico).
Zona ni media sqm
DOC 169 5.5497 2.9551
DOCG 49 8.7612 3.8543
IGT 65 5.0408 2.2137
Totale 283 5.9889 3.2504
Tipo numero di etichette possedute
Rossi fermi 82
Rossi frizzanti 18
Bianchi fermi 80
Bianchi frizzanti 95
Liquorosi 27
Champagne 32
Totale 334
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 20
E SERCIZI SUL CAPITOLO 6 – D ISTRIBUZIONI BIVARIATE
Esercizio 1
A N=12 soggetti è stato chiesto se preferissero il vino bianco o quello rosso. La seguente tabella riporta l’elenco delle risposte, assieme al sesso del rispondente.
1. Costruire la tabella a doppia entrata contenente le frequenze assolute congiunte dei due caratteri
“Sesso” e “Vino preferito”.
2. Fornire la distribuzione di frequenze assolute marginali del carattere “Vino preferito”.
3. Fornire la distribuzione di frequenze assolute del carattere “Sesso” condizionate alla modalità
“Rosso” del carattere “Vino preferito”.
Soggetto Sesso Vino preferito
1 M Rosso
2 M Bianco
3 F Rosso
4 F Rosso
5 F Bianco
6 M Bianco
7 M Bianco
8 M Rosso
9 F Bianco
10 M Rosso
11 F Rosso
12 M Bianco
Bianco Rosso
F 2 3
M 4 3
Bianco Rosso Totale
6 6 12
Rosso
F 3
M 3
Totale 6
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 21
Esercizio 2
A N soggetti è stato chiesto se preferissero il vino bianco o quello rosso ed è stato registrato il sesso di ogni rispondente. La seguente tabella riporta la distribuzione di frequenze congiunte percentuali dei due caratteri “Sesso” e “Vino preferito”.
1. Fornire la distribuzione di frequenze relative marginali del carattere “Vino preferito”.
2. Fornire la distribuzione di frequenze relative del carattere “Sesso” condizionate alla modalità
“Rosso” del carattere “Vino preferito”.
Esercizio 3
Si considerino i dati presentati nell’esercizio precedente. Sapendo che il numero di soggetti intervistati è pari a N = 1200, costruire la tabella a doppia entrata contenente le frequenze assolute congiunte dei due caratteri “Sesso” e “Vino preferito”.
Bianco Rosso Totale
F 26.4167% 20.5833% 47.0000%
M 26.8333% 26.1667% 53.0000%
Totale 53.2500% 46.7500% 100.0000%
Bianco Rosso Totale
0.5325 0.4675 1.0000
Rosso
F 0.4403
M 0.5597
Totale 1.0000
Bianco Rosso Totale
F 317 247 564
M 322 314 636
Totale 639 561 1200
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 22
Esercizio 4
La tabella che segue riporta la distribuzione di frequenze congiunte dei due caratteri “Zona” (IGT, DOC, DOCG) e “Area italiana di produzione” (Nord, Centro, Sud e Isole) relativa ai 283 vini del dataset Altroconsumo.
1. Costruire la corrispondente tabella a doppia entrata contenente le frequenze relative congiunte.
2. Fornire la distribuzione di frequenze relative marginali del carattere “Zona”.
3. Fornire la distribuzione di frequenze relative del carattere “Area italiana di produzione”
condizionate alla modalità “DOCG” del carattere “Zona”.
4. Fornire la distribuzione di frequenze relative del carattere “Zona” condizionate alla modalità
“Centro” del carattere “Area italiana di produzione”.
Nord Centro Sud e Isole
DOC 90 54 25
DOCG 19 30 0
IGT 12 12 41
Nord Centro Sud e Isole
DOC 0,3180 0,1908 0,0883
DOCG 0,0671 0,1060 0,0000
IGT 0,0424 0,0424 0,1449
Totale
DOC 0,5972
DOCG 0,1731
IGT 0,2297
Totale 1
Nord Centro Sud e Isole Totale
DOCG 0,3878 0,6122 0,0000 1
Centro
DOC 0,5625
DOCG 0,3125
IGT 0,1250
Totale 1
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 23
E SERCIZI SUL CAPITOLO 7 – A NALISI DELL ’ ASSOCIAZIONE TRA
C ARATTERI
Esercizio 1
A N = 1200 soggetti è stato chiesto se preferissero il vino bianco o quello rosso ed è stato registrato il sesso di ogni rispondente. La seguente tabella riporta la distribuzione di frequenze assolute congiunte dei due caratteri “Sesso” e “Vino preferito”.
1. Costruire una tabella di frequenze assolute congiunte che si sarebbe ottenuta se tra i due caratteri vi fosse stata massima connessione bilaterale.
2. Costruire la tabella di frequenze assolute congiunte teoriche nell’ipotesi di indipendenza distributiva tra i due caratteri.
3. Valutare con un indice apposito il grado di connessione esistente tra i due caratteri, commentando il risultato ottenuto (Si utilizza l’indice di connessione normalizzato C. Risulta C=0.06 e si commenta dicendo che il grado di connessione tra Sesso e Vino preferito è quasi nullo, pari solamente al 6%
del massimo teorico).
Bianco Rosso Totale
F 317 247 564
M 322 314 636
Totale 639 561 1200
Bianco Rosso Totale
F 564 0 564
M 0 636 636
Totale 564 636 1200
Bianco Rosso Totale
F 300.33 263.67 564
M 338.67 297.33 636
Totale 639 561 1200
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 24
Esercizio 2
La tabella che segue riporta la distribuzione di frequenze relative congiunte dei due caratteri “Zona”
(IGT, DOC, DOCG) e “Area italiana di produzione” (Nord, Centro, Sud e Isole) relativa a un dataset composto da un numero non noto di vini, rilevato da un Centro Studi di Mercato.
1. Dire se tra le modalità “DOC” e “Centro” esiste attrazione o repulsione e valutarne l’intensità calcolando la corrispondente contingenza relativa (La contingenza relativa risulta pari a -0.0541.
Poiché è negativa, esiste repulsione tra le due modalità, però tale repulsione è debole in quanto tra la frequenza teorica e quella osservata vi è un decremento pari solamente al 5.41% ).
2. Valutare con un indice apposito il grado di connessione esistente tra i due caratteri, commentando il risultato ottenuto (Si utilizza l’indice di connessione normalizzato C. Risulta C=0.3593 e si commenta dicendo che il grado di connessione tra Zona e Area italiana di produzione è medio- basso, pari al 35.93% del massimo teorico).
Esercizio 3
La tabella che segue riporta la distribuzione di frequenze assolute congiunte dei due caratteri “Zona”
(IGT, DOC, DOCG) e “Livello di prezzo” (Basso, Medio, Alto) relativa ai vini presenti sugli scaffali di un’azienda della Grande Distribuzione.
1. Dire se tra le modalità “DOCG” e “Alto” esiste attrazione o repulsione e valutarne l’intensità calcolando la corrispondente contingenza relativa (La contingenza relativa risulta pari a 0.9091.
Poiché è positiva, esiste attrazione tra le due modalità e tale attrazione è elevata in quanto tra la frequenza teorica e quella osservata vi è un incremento del 90.91% ).
2. Valutare con un indice apposito il grado di connessione esistente tra i due caratteri, commentando il risultato ottenuto (Si utilizza l’indice di connessione normalizzato C. Risulta C=0.6 e si commenta dicendo che il grado di connessione tra Zona e Livello di prezzo è medio-alto, pari al 60% del massimo teorico).
Nord Centro Sud e Isole
DOC 0,3164 0,1791 0,0966
DOCG 0,0623 0,1023 0,0168
IGT 0,0458 0,0384 0,1424
Basso Medio Alto
DOC 5 12 24
DOCG 0 0 40
IGT 32 11 2
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 25
Esercizio 4
I 283 vini del dataset Altroconsumo sono stati divisi i tre gruppi, secondo la variabile “Zona” (IGT, DOC, DOCG). La tabella che segue riporta, per ognuno dei tre gruppi, numerosità del gruppo, media e scarto quadratico medio del prezzo di vendita. Inoltre l’ultima riga contiene media e scarto quadratico medio del prezzo relativamente a tutti i 283 vini.
1. Valutare con un apposito indice il grado di dipendenza in media del Livello di prezzo dal carattere Zona (Si utilizza il rapporto di correlazione di Pearson
2. Risulta
2=0.1564 e si commenta dicendo che il grado di dipendenza in media del Livello di prezzo dal carattere Zona è modesto, pari al 15,64%
del massimo teorico).
Esercizio 5
La tabella che segue riporta la distribuzione di frequenze congiunte dei due caratteri “Zona” (IGT, DOC, DOCG) e “Numero di premi vinti” relativa ai 283 vini del dataset Altroconsumo.
1. Valutare con un apposito indice il grado di dipendenza in media del Numero di premi vinti dal carattere Zona (Attenzione: diversamente dall’esercizio precedente, qui bisogna prima di tutto calcolare medie e varianze parziali e generali, come nella tabella riportata sotto. Poi si utilizza il rapporto di correlazione di Pearson
2. Risulta
2=0.0153 e si commenta dicendo che il grado di dipendenza in media del Livello di prezzo dal carattere Zona è quasi nullo, pari soltanto al 1,53% del massimo teorico).
Zona ni media sqm
DOC 169 5.5497 2.9551
DOCG 49 8.7612 3.8543
IGT 65 5.0408 2.2137
Totale 283 5.9889 3.2504
0 1 2 Totale
DOC 149 14 6 169
DOCG 48 1 0 49
IGT 57 5 3 65
Totale 254 20 9 283
medie varianze DOC 0.1538 0.2011
DOCG 0.0204 0.02
IGT 0.1692 0.2329 Totale 0.1342 0.1798
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 26
Esercizio 6
Per i 283 vini del dataset Altroconsumo è stato registrato sia il grado alcolico dichiarato sull’etichetta (Alcdich) della bottiglia, sia quello verificato chimicamente attraverso un controllo in laboratorio (Alcver). Relativamente ai due caratteri, denominati nel seguito per semplicità rispettivamente X e Y, sono state poi calcolate le seguenti statistiche di sintesi:
1. Valutare con un apposito indice il grado di correlazione lineare tra X e Y (Si utilizza il coefficiente di correlazione lineare . Risulta =0.8457 e si commenta dicendo che tra i due caratteri vi è una relazione lineare positiva molto elevata, pari al 84,57% del massimo teorico).
2. Calcolare i parametri della retta interpolante che sintetizza la relazione tra X e Y, con Y dipendente da X (intercetta: 1.6470; coefficiente angolare: 0.8741).
3. Valutare la bontà di adattamento della retta determinata al punto 2 (Si utilizza l’indice di determinazione R
2. Risulta R
2=0.7152 e si commenta dicendo che la retta interpolante spiega il 71,52% della variabilità del fenomeno, quindi si tratta di un ottimo adattamento.)
X: Alcdic Y: Alcver X∙Y media 12.5453 12.6128 158.9167 varianza 0.784 0.8376
Paola Zuccolotto - Professore Associato di Statistica presso l’Università degli Studi di Brescia
c.da S. Chiara, 50. Tel. ++39(0)30/2988634 – email: paola.zuccolotto@unibs.it 27
Esercizio 7
É stato svolto uno studio di analisi sensoriale su sette vini rossi. Lo studio prevedeva la presenza di un gruppo di 30 giudici, a ognuno dei quali era stato chiesto di esprimere un giudizio, su una scala da 1 a 9, riguardo le due variabili sensoriali “Intensità Olfattiva” e “Ricchezza Aromatica”. La tabella che segue riporta, per ognuno dei sette vini, le valutazioni medie dei 20 giudici.
1. Valutare con un apposito indice il grado di correlazione lineare tra le medie di “Intensità olfattiva”
e “Ricchezza aromatica” (Si utilizza il coefficiente di correlazione lineare . Risulta =0.7021 e si commenta dicendo che tra i due caratteri vi è una relazione lineare positiva elevata, pari al 70,21% del massimo teorico).
2. Calcolare i parametri della retta interpolante che sintetizza la relazione tra le medie di “Intensità olfattiva” e “Ricchezza aromatica”, con la media di “Ricchezza aromatica” dipendente dalla media di
“Intensità olfattiva” (intercetta: 3.2155; coefficiente angolare: 0.5852).
3. Rappresentare graficamente i punti e la retta interpolante.
4. Valutare la bontà di adattamento della retta determinata al punto 2 (Si utilizza l’indice di determinazione R
2. Risulta R
2=0.4930 e si commenta dicendo che la retta interpolante spiega il 49.3% della variabilità del fenomeno, quindi si tratta di un adattamento di medio livello.)
Media Intensità Olfattiva Media Ricchezza Aromatica
Vino 1 4.5 6.2
Vino 2 7.8 8.1
Vino 3 2.3 5.2
Vino 4 5.9 4.2
Vino 5 4.9 5.9
Vino 6 7.5 8.7
Vino 7 6.9 7.5