Analisi Cereali per la prima Analisi Cereali per la prima
colazione colazione
Elaborazione Dati Naturalistici 2007
Giovanni - Chiara
• Oggetto Oggetto
77 tipi di cereali
perla prima colazione
7 marche differenti(mfr):
American Home Food Products (A) American Home Food Products (A)
General Mills (G) General Mills (G)
Kellog’s (K) Kellog’s (K) Nabisco (N) Nabisco (N)
Post (P) Post (P)
Quaker Oast (Q) Quaker Oast (Q) Ralston Purina (R) Ralston Purina (R)
10,4%
10,4%
11,7%
7,8%
29,9%
28,6%
1,3%
Category
P Q R A G K N
Distribuzione cereali per industrie di produzione (mfr)
• Variabili
tipo: freddi (c) o caldi (h)
calorie: calorie per porzione
proteine: grammi di proteine
grassi: grammi di grassi sodio: milligrammi di sodio
fibre: grammi di fibre dietetiche
carboidrati: grammi di carboidrati complessi
zuccheri: grammi di zuccheri
potassio: milligrammi di potassio
vitamine: vitamine e minerali - 0, 25, o 100, indicanti la tipica percentuale raccomandata dell’FDA
scaffale: scaffale d’esposizione (1, 2 o 3, contando dal pavimento)
peso: peso in once per 1 porzione tazze: tazze per 1 porzione
valutazione : una valutazione dei cereali
• Punti dell’Elaborazione dei Dati:
Analisi descrittiva delle variabili quantitative principali Analisi della correlazione tra le variabili quantitative.
Ci sono correlazioni inattese?
Costruzione di un modello di regressione lineare multipla avente come variabile risposta il rating e come variabili
esplicative le variabili nutrizionali
Ottenere un modello ridotto appropriato
Quali sono le variabili nutrizionali che sono più adatte a spiegare il gradimento dei prodotti?
L’analisi di regressione separatamente per i cereali caldi e freddi. Si ottengono le stesse conclusioni?
Analisi descrittiva delle variabili quantitative principali
Media St Dev Minimo Median
a Massimo
Calorie 106,88 19,48 50,00 110,00 160,00
Proteine (g) 2,545 1,095 1,000 3,000 6,000
Grassi (g) 1,013 1,006 0,000 1,000 5,000
Sodio (mg) 159,68 83,83 0,000 180,00 320,00
Fibre (g) 2,152 2,383 0,000 2,000 14,000
Carboidrati (g) 14,803 3,907 5,000 14,500 23,000
Zuccheri (g) 7,026 4,379 0,000 7,000 15,000
Potassio (mg) 98,67 70,41 15,000 90,000 330,00
Vitamine 28,25 22,34 0,000 25,000 100,00
Rating 42,67 14,05 18,04 40,40 93,70
Media St Dev Minimo Mediana Massimo
Calorie 106,88 19,48 50,00 110,00 160,00
Proteine (g) 2,545 1,095 1,000 3,000 6,000
Grassi (g) 1,013 1,006 0,000 1,000 5,000
Sodio (mg) 159,68 83,83 0,000 180,00 320,00
Fibre (g) 2,152 2,383 0,000 2,000 14,000
Carboidrati (g) 14,803 3,907 5,000 14,500 23,000
Zuccheri (g) 7,026 4,379 0,000 7,000 15,000
Potassio (mg) 98,67 70,41 15,000 90,000 330,00
Vitamine 28,25 22,34 0,000 25,000 100,00
Rating 42,67 14,05 18,04 40,40 93,70
Nonostante si tratti di differenti produttori, i grammi di proteine, grassi, fibre, carboidrati e zuccheri si mantengono costanti nelle diverse confezioni.
Deviazione Standard
Proteine (g) 1,095
Grassi (g) 1,006
Fibre (g) 2,383
Carboidrati (g) 3,907
Zuccheri (g) 4,379
Al contrario la quantità (mg) di Sodio e Potassio ha un
range piuttosto ampio,
deducibile anche dall’analisi del minimo /massimo.
St Dev Minimo Massimo Sodio (mg) 83,83 0,000 320,0 Potassio
(mg) 70,41 15,00 330,0
Analisi della correlazione tra le variabili quantitative
Calori
e Proteine Grassi Sodio Fibre Carboidrati Zuccher
i Potassi o Proteine
0,019 0,869
Grassi 0,4990,000 0,2080,069
Sodio 0,3010,008 -0,0550,637 -0,0050,963
Fibre -0,2930,010 0,000 0,500
0,017
0,885 -0,071 0,541
Carboidrat
i 0,2580,025 -0,025
0,830 -0,300
0,008 0,298 0,009
-0,380 0,001
Zuccheri 0,5670,000 -0,2920,011 0,3020,008 0,0590,613 -0,1390,232 -0,4710,000
Potassio -0,0720,539 0,5640,000 0,2000,085 -0,0430,716 0,9120,000 -0,3650,001 0,0010,990
Vitamine 0,2650,020 0,0070,950 -0,0310,788 0,3610,001 -0,0320,781 0,2190,057 0,0980,399 -0,0050,963
• Verde = Correlazione
lineare
• Giallo = Correlazione
diretta
• Rosso = Correlazione
inversa inattesa
• SCATTER PLOT o diagramma di dispersione bidimensionale delle variabili con correlazione lineare
Potassio (mg)
Fibre (g)
350 300
250 200
150 100
50 0
14 12 10 8 6 4 2 0
Scatterplot of Fibre (g) vs Potassio (mg)
Proteine (g) 6
4 2
14 12 10 8 6 4 2 0
6 4
2 350
300 250 200 150 100 50 0
Fibre (g) Potassio (mg)
Scatterplot Fibre (g); Potassio (mg) vs Proteine (g)
• SCATTER PLOT o diagrammi di dispersione bidimensionale delle variabili con correlazione diretta
Calorie
4,8 3,6
2,4 1,2
0,0 175 150 125
100 75 50
16 12
8 4
0
Grassi (g) Zuccheri (g)
Scatterplot of Calorie vs Grassi (g); Zuccheri (g)
Carboidrati (g)
Zuccheri (g)
25 20
15 10
5 16
14 12 10 8 6 4 2 0
Scatterplot Zuccheri (g) vs Carboidrati (g)
• SCATTER PLOT o diagrammi di dispersione bidimensionale delle variabili con correlazione inversa e inattesa
rating
150 125
100 75
50 90 60 30
5,5 4,5
3,5 2,5
1,5 0,0 1,2 2,4 3,6 4,8
15 10
5
0 0 150 300 0 150 300
90 60 30
16 8
0 90 60 30
Calorie Proteine (g) Grassi (g)
Fibre (g) Potassio (mg) Sodio(mg)
Zuccheri (g)
Scatterplot rating vs variabili nutrizionali
• SCATTER PLOT rating
Calori Calori
e
e ProteineProteine GrassiGrassi SodioSodio FibreFibre CarboidratiCarboidrati ZuccheriZuccheri PotassiPotassi o o Rating -0,689
0,000 0,471
0,000 -0,409 0,000
- 0,401 0,000
0,584
0,000 0,089
0,446 -0,764
0,000 0,416 0,000
Q1 Mediana Q3
Calorie 100,00 110,00 110,00
Proteine (g) 2,000 3,000 3,000
Grassi (g) 0,0000 1,000 2,000
Sodio(mg) 127,50 180,00 215,00
Fibre (g) 0,500 2,000 3,000
Carboidrati (g) 12,000 14,500 17,000
Zuccheri (g) 3,000 7,000 11,000
Potassio (mg) 40,00 90,00 120,00
• Analisi dei valori anomali
I valori anomali hanno un forte peso sulla correlazione: per passare dal modello completo a quello ridotto è stata esclusa la variabilità.
Calorie 175
150
125
100
75
50
Boxplot Calorie
Proteine (g)
6
5
4
3
2
1
Boxplot Proteine (g)
Grassi (g)
5
4
3
2
1
0
Boxplot Grassi (g)
Sodio (mg)
350 300 250 200 150 100 50 0
Boxplot Sodio (mg)
Fibre (g) 14 12 10 8 6 4 2 0
Boxplot Fibre (g)
Carboidrati (g)
25
20
15
10
5
Boxplot Carboidrati (g)
Zuccheri (g)
16 14 12 10 8 6 4 2 0
Boxplot Zuccheri (g)
Potassio (mg)
350 300 250 200 150 100 50 0
Boxplot Potassio (mg)
•Modello di regressione lineare multipla avente come variabile risposta il rating e come variabili esplicative le variabili nutrizionali.
Problema di interpolazione dei dati Stima
Previsione
Y= a+
bnxn
Rating = 54,9 - 0,223 Calorie + 3,27 Proteine (g) - 1,69 Grassi (g) - 0,0545 Sodio(mg) + 3,44 Fibre (g) + 1,09 Carboidrati (g)
- 0,725 Zuccheri (g) - 0,0340 Potassio (mg) - 0,0512 Vitamine
[Sono stati utilizzati solo 74 visto che gli altri 3 contenevano valori mancanti.]
Il rating rappresenta la variabile risposta ottenuta come combinazione finita di variabili esplicative
L’equazione della retta di regressione è risultata :
Solitamente per i valori di P-value ≥ 0,05 (5%) si accetta l’ipotesi che il coefficiente relativo alla variabile sia
nullo, e dunque non si ha influenza sulla variabile risposta.
Tutte le variabili esplicative hanno presentato un P = 0,000
P< 0,05
Tuttavia si è cercato di ottenere un modello ridotto che potesse indicare
quali variabili nutrizionali fossero più influenti sul rating..
E quindi fossero più adatte a spiegare il gradimento dei prodotti!
Calori Calori
ee ProteinProtein
ee GrassGrass
ii SodioSodio FibreFibre CarboidratCarboidrat
ii ZuccherZuccher
ii PotassioPotassio
Rating -0,6890,000 0,471
0,000 -,409 0,000
- 0,401 0,000
0,584
0,000 0,089
0,446 -0,764
0,000 0,416
0,000
Non tutte le variabili presentano un alto grado di correlazione con la variabile risposta
Posso pensare di cercare una correlazione lineare tra variabili con indice di Pearson = -1≤-0,5 o 0,5≥1
Fibre (g) 14 12 10 8 6 4 2 0
Boxplot Fibre (g)
Carboidrati (g)
25
20
15
10
5
Boxplot Carboidrati (g)
Zuccheri (g)
16 14 12 10 8 6 4 2 0
Boxplot Zuccheri (g)
Sodio (mg)
350 300 250 200 150 100 50 0
Boxplot Sodio (mg)
Potassio (mg)
350 300 250 200 150 100 50 0
Boxplot Potassio (mg)
Calorie
175
150
125
100
75
50
Boxplot Calorie
Proteine (g)
6
5
4
3
2
1
Boxplot Proteine (g)
Grassi (g)
5
4
3
2
1
0
Boxplot Grassi (g)
Eliminazione valori anomali :
L’equazione della retta di regressione L’equazione della retta di regressione
non cambia non cambia
1)- Eliminazione variabili con coefficiente minore: Potassio e Vitamine
Rating = 54,9 - 0,223 Calorie + 3,27 Proteine (g) - 1,69 Grassi (g) - 0,0545 Sodio(mg) + 3,44 Fibre (g) + 1,09 Carboidrati (g) - 0,725 Zuccheri (g) - 0,0340 Potassio (mg) - 0,0512 Vitamine L’equazione diventa:
Rating = 61,7 - 0,166 Calorie + 2,63 Proteine (g) - 2,84 Grassi (g) + 2,11 Fibre (g) + 0,049 Carboidrati (g) - 1,47 Zuccheri (g)
Predictor Coef SE Coef T P Constant 61,697 4,027 15,32 0,000 Calorie -0,1664 0,1121 -1,48 0,142 Proteine (g) 2,6313 0,7849 3,35 0,001 Grassi (g) -2,845 1,150 -2,47 0,016 Fibre (g) 2,1133 0,3086 6,85 0,000 Carboidrati (g) 0,0486 0,5011 0,10 0,923
Zuccheri (g) -1,4739 0,4722 -3,12 0,003
2)- Eliminazione variabili con P-value > 0,05: Calorie e Carboidrati L’equazione diventa:
Rating = 49,9 + 1,65 Proteine (g) - 3,83 Grassi (g) + 2,61 Fibre (g) - 1,88 Zuccheri (g)
Predictor Coef SE Coef T P Constant 49,854 2,080 23,96 0,000 Proteine (g) 1,6528 0,6974 2,37 0,021
Grassi (g) -3,8328 0,6434 -5,96 0,000 Fibre (g) 2,6061 0,2855 9,13 0,000 Zuccheri (g) -1,8795 0,1512 -12,43 0,000
3)- Eliminazione variabili con coefficiente più basso e P >0: Proteine
L’equazione diventa:
Rating = 53,7 - 3,35 Grassi (g) + 2,95 Fibre (g) - 2,00 Zuccheri (g)
con P = 0,000 per tutte le variabili.
Modello ridotto appropriato
Fibre Zuccheri Grassi
Sono le variabili più adatte a descrivere il rating
Tipo freddo (C)
Rating = 54,9 - 0,223 Calorie + 3,27 Proteine (g) - 1,69 Grassi (g)- 0,0545 Sodio (mg) + 3,44 Fibre (g) + 1,09 Carboidrati (g)- 0,725 Zuccheri (g) - 0,0340 Potassio (mg) - 0,0512 Vitamine P = 0,000
Rating = 61,5 + 1,68 Proteine (g) - 4,17 Grassi (g) + 2,22 Fibre (g) - 0,629 Carboidrati (g) - 2,08 Zuccheri (g) Carboidrati P = 0,001 Proteine P = 0,014 tutte le altre variabili P = 0,000
L’equazione di regressione è
Rating = 52,6 - 3,35 Grassi (g) + 3,05 Fibre (g) - 1,92 Zuccheri (g)
Tipo caldo (H)
Not enough data in column.
The regression equation is Rating = 84,15 - 6,853 Proteine (g) P = 0,149
Rating = 63,59 - 6,853 Grassi (g) P = 0,149 Rating = 52,84 + 0,1462 Sodio (mg) P = 0,184 Rating = 59,44 - 2,189 Fibre (g) P = 0,721 Rating = 57,68 - 0,1132 Vitamine P = 0,851
Per le variabili Carboidrati, Zuccheri e Potassio non è stato possibile determinare la retta di regressione a causa dell’insufficienza dei dati.
•L’analisi di regressione separatamente per i cereali caldi e freddi.
Si ottengono le stesse conclusioni?
Almeno per i cereali freddi la situazione non cambia …
Cambiano i coefficienti, ma le variabili esplicative del rating rimangono le stesse
Zuccheri Fibre Grassi
.. Trovate le variabili esplicative del rating ..
Quale marca di cereali dovrebbe avere più successo sul mercato?
Nome
Zuccheri (g)
16 14 12 10 8 6 4 2 0
Valori Zuccheri (g)- Nome
Nome
Grassi (g)
5,5 5,0 4,5 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0
Valori Grassi (g)-Nome
Nome
Fibre (g)
14 12 10 8 6 4 2 0
Valori Fibre (g)- Nome
Grassi Zero Fibre (g) Zuccheri Zero
4 4 (14) 4
7 1 (10) 21
10 3 (9) 55
16 53 (6) 56
17 10 (5) 64
18 28 (5) 65
21 29 (5) 66
22 59 (5) 12 (1)
24 26 27 29 31 34 38 51 54 55 56 61 62 63 64 65 66 68 69
“All Bran with Extra Fiber” (4) prodotto da Kellog’s
rating
100 90 80 70 60 50 40 30 20 10
Wheaties_Honey_GoldWheatiesWheat_ChexTrixTriplesTotal_Whole_GrainTotal_Raisin_BranTotal_Corn_FlakesStrawberry_Fruit_WheatsSpecial_KSmacks
Shredded_Wheat_spoon_size Shredded_Wheat_'n'Bran
Shredded_WheatRice_KrispiesRice_ChexRaisin_SquaresRaisin_Nut_BranRaisin_BranQuaker_OatmealQuaker_Oat_SquaresPuffed_WheatPuffed_RiceProduct_19Post_Nat,_Raisin_BranOatmeal_Raisin_CrispNutri-grain_WheatNutri-Grain_Almond-RaisinNut&Honey_CrunchMulti-Grain_CheeriosMueslix_Crispy_BlendMuesli_Raisins,_Peaches,_&_PecansMuesli_Raisins,_Dates,_&_AlmondsMaypoLucky_CharmsLifeKixJust_Right_Fruit_&_NutJust_Right_Crunchy__NuggetsHoney-combHoney_Nut_CheeriosHoney_Graham_OhsGreat_Grains_PecanGrape-NutsGrape_Nuts_FlakesGolden_GrahamsGolden_CrispFruity_PebblesFruitful_BranFruit_&_Fibre_Dates,_Walnuts,_and_OatsFrosted_Mini-WheatsFrosted_FlakesFroot_LoopsDouble_ChexCrispy_Wheat_&_RaisinsCrispixCream_of_Wheat_(Quick)Cracklin'_Oat_BranCount_ChoculaCorn_PopsCorn_FlakesCorn_ChexCocoa_PuffsClustersCinnamon_Toast_CrunchCheeriosCap'n'CrunchBran_FlakesBran_ChexBasic_4Apple_JacksApple_Cinnamon_CheeriosAlmond_Delight
All-Bran_with_Extra_Fiber
All-Bran100%_Natural_Bran100%_Bran
Grafico confronto Rating
Shredded Wheat ‘n’ bran(64)
Shredded Wheat spoon size(66)
Grassi 0 Fibre 3,0 Zucche
ri 0
100% Bran (1) All-Bran (3)
Grassi 1 1
Fibre 10,0 9,0
Zucche
ri 6 5