• Non ci sono risultati.

Esercizi Levine Capitolo 12

N/A
N/A
Protected

Academic year: 2021

Condividi "Esercizi Levine Capitolo 12"

Copied!
17
0
0

Testo completo

(1)

Insegnamento:

Statistica

Corso di Laurea Triennale in Ingegneria Gestionale Facoltà di Ingegneria, Università di Padova

Docenti: Prof. L. Salmaso, Dott. L. Corain

ESERCIZI

Regressione lineare semplice CAPITOLO 12

Levine, Krehbiel, Berenson, Statistica II ed., © 2006 Apogeo

Appello del 25/06/2007

Esercizio 3

Nel corso di uno studio sulle proprietà delle leghe metalliche, in un campione di 9 barre di metallo di una lega speciale è stata misurata la concentrazione di carbonio e la tensione di snervamento.

Carbonio 46 27 44 35 35 25 34 29 34

Snervam. 71 47 63 52 55 37 49 43 48

(a) costruire il diagramma di dispersione e calcolare le stime ai minimi quadrati della regressione lineare semplice tra la concentrazione di carbonio e la tensione di snervamento; disegnare la retta di regressione nel diagramma e commentare i risultati alla luce del problema in questione; (b) condurre un verifica di ipotesi per stabilire se sussiste una relazione lineare significativa tra la

concentrazione di carbonio e la tensione di snervamento. SOLUZIONE a. 45 35 25 70 60 50 40 Carbonio Sn e rv am . S = 3.17079 R-Sq = 91.7 % R-Sq(adj) = 90.5 % Snervam. = 3.86 + 1.39 Carbonio Regression Plot

(2)

2 Y X Y^2 X^2 XY 71 46 5041 2116 3266 47 27 2209 729 1269 63 44 3969 1936 2772 52 35 2704 1225 1820 55 35 3025 1225 1925 37 25 1369 625 925 49 34 2401 1156 1666 43 29 1849 841 1247 48 34 2304 1156 1632 Somma 465 309 24871 11009 16522 Media 52 34.3 b1 1.39 SQE 70.38 b0 3.86 SQR 775.62 SQT 846.00 Syx 3.171 R2 0.917 Sb1 0.159 toss = 6.314 t7;0.025 2.365 b1-t*Sb1 1.018 b1+t*Sb1 1.767 The regression equation is

Snervam. = 3.86 + 1.39 Carbonio

Predictor Coef SE Coef T P Constant 3.858 5.545 0.70 0.509 Carbonio 1.3925 0.1585 8.78 0.000 S = 3.171 R-Sq = 91.7% R-Sq(adj) = 90.5% Analysis of Variance Source DF SS MS F P Regression 1 775.62 775.62 77.15 0.000 Residual Error 7 70.38 10.05 Total 8 846.00

(3)

Appello del 09/01/2007

Esercizio 4

In un esperimento diretto allo studio della relazione tra il numero di pulsazioni sotto sforzo (per minuto) e l’età (in anni) sono stati rilevati i seguenti dati su 10 soggetti di sesso maschile:

Pulsazioni 200 195 200 190 188 180 185 180 163 170

Età 10 20 21 25 29 30 31 40 45 50

(a) si disegni e si commenti il diagramma di dispersione; (b) si calcoli (e si commenti) l’indice di correlazione;

(c) si stimi la retta di regressione del modello lineare che lega le pulsazioni all’età dei soggetti e si interpreti i risultati ottenuti;

(d) si calcoli il coefficiente di determinazione e si commenti il risultato ottenuto; (e) si verifichi l’ipotesi H01= 0 contro l’alternativa H11≠0 (si ponga α = 0.05). SOLUZIONE a) 50 40 30 20 10 205 200 195 190 185 180 175 170 165 160 Età P uls az io ni S = 4.78996 R-Sq = 86.3 % R-Sq(adj) = 84.6 % Pulsazioni = 213.172 - 0.932628 Età Regression Plot

Al crescere dell’età tendono a diminuire le pulsazioni al minuto b) Pearson correlation of Pulsazioni and Età = -0.929

(4)

4 c) – d) – e)

Pulsazioni Età Y X Y^2 X^2

200 10 200 10 40000 100 195 20 195 20 38025 400 200 21 200 21 40000 441 190 25 190 25 36100 625 188 29 188 29 35344 841 180 30 180 30 32400 900 185 31 185 31 34225 961 180 40 180 40 32400 1600 163 45 163 45 26569 2025 170 50 170 50 28900 2500 Somma 1851 301 343963 10393

OUTPUT RIEPILOGO Media 185 30

Statistica della regressione

R multiplo 0.929 b1 -0.933 SQE 183.6 R al quadrato 0.863 b0 213.2 SQR 1159.3 R al quadrato corretto 0.846 SQT 1342.9 Errore standard 4.79 Osservazioni 10 R2 0.863 c) ANALISI VARIANZA gdl SQ MQ F p-value Regressione 1 1159.3 1159.3 50.5 0.0001 Residuo 8 183.6 22.9 Totale 9 1342.9

Coefficienti Errore standard Stat t p-value Inf. 95% Sup. 95%

Intercetta 213.2 4.2 50.4 0.00000 203.4 222.9

Età -0.933 0.131 -7.1 0.00010 -1.235 -0.630

Si rifiuta l’ipotesi nulla e quindi il coeff. angolare è significativamente diverso da zero. [va bene una delle 3 soluzioni: test F, test t o intervallo di confidenza di beta 1]

(5)

Appello del 19/12/2006

Esercizio 5

Nella seguente sono riportati, per 10 autovetture di marche diverse, i dati relativi al numero di km percorribili in città con un litro di carburante e alla cilindrata del motore (in cc):

Autovetture km per litro Cilindrata (cc)

1 13.1 1590 2 6.7 2835 3 10.8 1590 4 8.2 2474 5 9.6 1950 6 11 1590 7 12.4 1393 8 6.7 2835 9 11.1 1590 10 11.3 1868

(a) Si disegni e si commenti il diagramma di dispersione;

(b) Si stimi la retta di regressione del modello lineare che lega i Km percorribili per litro alla cilindrata delle autovetture e si interpreti i risultati ottenuti;

(c) Si verifichi l’ipotesi H01= 0 contro l’alternativa H11≠0 (si ponga α = 0.05). SOLUZIONE a) e b) 2900 2400 1900 1400 13 12 11 10 9 8 7 Cilindrata K m per li tr o S = 0.747700 R-Sq = 90.1 % R-Sq(adj) = 88.8 % Km per litro = 17.7693 - 0.0038951 Cilindrata

Regression Plot

Al crescere della cilindrata diminuiscono i Km percorribili per litro. Per un incremento di cilindrata di 100 cc i Km percorribili con un litro diminuiscono di 0.4.

(6)

6

Km per litro Cilindrata Y X Y^2 X^2 XY

13.1 1590 13.1 1590 171.6 2528100 20829 6.7 2835 6.7 2835 44.9 8037225 18995 10.8 1590 10.8 1590 116.6 2528100 17172 8.2 2474 8.2 2474 67.2 6120676 20287 9.6 1950 9.6 1950 92.2 3802500 18720 11 1590 11.0 1590 121.0 2528100 17490 12.4 1393 12.4 1393 153.8 1940449 17273 6.7 2835 6.7 2835 44.9 8037225 18995 11.1 1590 11.1 1590 123.2 2528100 17649 11.3 1868 11.3 1868 127.7 3489424 21108 Somma 101 19715 1063 41539899 188517

OUTPUT RIEPILOGO Media 10 1972

Statistica della regressione

R multiplo 0.949 b1 -0.004 SQE 4.5 R al quadrato 0.901 b0 17.8 SQR 40.5 R al quadrato corretto 0.888 SQT 45.0 Errore standard 0.75 Osservazioni 10 R2 0.901 c) ANALISI VARIANZA gdl SQ MQ F p-value Regressione 1 40.5 40.5 72.5 0.00003 Residuo 8 4.5 0.6 Totale 9 45.0

CoefficientiErrore standard Stat t p-value Inf. 95% Sup. 95%

Intercetta 17.8 0.9 19.1 0.00000 15.6 19.9

X -0.0039 0.0005 -8.5 0.00003 -0.005 -0.003

Si rifiuta l’ipotesi nulla e quindi il coeff. angolare è significativamente diverso da zero. [va bene una delle 3 soluzioni: test F, test t o intervallo di confidenza di beta 1]

(7)

Seconda Prova parziale (Canale 2) del 07/12/2005

Esercizio 3

Una ditta che produce elettrodomestici vuole progettare un prototipo di lavatrice ed a questo scopo ha condotto un esperimento misurando il livello di rumorosità in funzione del peso del carico di lavaggio. Rumorosità Peso 25 31 26 33 29 37 31 38 24 29 29 35 26 32 27 35

(a) costruire il diagramma di dispersione dei dati sperimentali;

(b) calcolare le stime ai minimi quadrati della relazione lineare tra rumorosità e peso e disegnare la retta ottenuta nel diagramma di dispersione.

(c) condurre una verifica di ipotesi per verificare se sussiste una relazione lineare significativa tra rumorosità e peso.

(d) OPZIONALE (da svolgere nel retro): calcolare il coefficiente di determinazione R2 e l’intervallo di confidenza al 95% del coefficiente lineare.

SOLUZIONE (a) 38 37 36 35 34 33 32 31 30 29 31 30 29 28 27 26 25 24 23 Peso Ru mo ro si tà S = 0.745214 R-Sq = 91.4 % R-Sq(adj) = 90.0 % Rumorosità = 2.26336 + 0.736641 Peso Regression Plot (b)-(c)-(d) Y X Y^2 X^2 XY 25 31 625 961 775 26 33 676 1089 858 29 37 841 1369 1073 31 38 961 1444 1178 24 29 576 841 696 29 35 841 1225 1015 26 32 676 1024 832 27 35 729 1225 945 Somma 217 270 5925 9178 7372 Media 27 33.8

(8)

8 b1 0.737 SQE 3.33 b0 2.263 SQR 35.54 SQT 38.88 Syx 0.75 R2 0.914 Sb1 0.09 toss= 8.00 t7;0.025 2.45 b1-t*Sb1 0.51 b1+t*Sb1 0.96

(9)

Appello del 12/05/05

Esercizio 3

Un impianto industriale produce a ciclo continuo, secondo un certo processo industriale, un volume di produzione che è legato ad alcuni parametri tra cui il tempo di ciclo del processo e la temperatura. Su un campione casuale di 10 cicli di produzione sono stati registrati i seguenti dati, per le tre variabili volume di produzione, tempo e temperatura:

VOLUME PRODUZ. TEMPO TEMPERATURA

20.9 2.7 3.8 24.4 3.4 3.5 23.6 3.3 3.5 22.4 3.1 3.6 21.7 2.6 3.7 21.1 2.8 3.8 21.7 2.5 3.6 21.7 2.4 3.8 24.1 3.3 3.5 22.7 2.9 3.6

a. costruire i diagrammi di dispersione tra coppie di variabili e calcolare i coefficienti di correlazione. Commentare i risultati;

b. discutere analogie e differenze tra correlazione e regressione lineare semplice;

c. calcolare le stime ai minimi quadrati della regressione lineare semplice tra volume di produzione e temperatura e calcolare il coefficiente di determinazione R2; disegnare la retta di regressione nel diagramma di dispersione e commentare i risultati alla luce del problema in questione;

d. condurre un verifica di ipotesi per stabilire se sussiste una relazione lineare significativa tra produzione e temperatura. SOLUZIONE a. 23.525 21.775 3.15 2.65 23.525 21.775 3.725 3.575 3.15 2.65 3.575 3.725 VOL_PROD TEMPO TEMPER VOL_PROD TEMPO TEMPO 0.857 0.002 TEMPER -0.902 -0.783 0.000 0.007

Cell Contents: Pearson correlation P-Value

(10)

10 c. 3.8 3.7 3.6 3.5 24 23 22 21 TEMPER VOL _ P R OD S = 0.568441 R-Sq = 81.3 % R-Sq(adj) = 79.0 % VOL_PROD = 54.5833 - 8.83333 TEMPER Regression Plot

The regression equation is VOL_PROD = 54.6 - 8.83 TEMPER

Predictor Coef SE Coef T P Constant 54.583 5.456 10.01 0.000 TEMPER -8.833 1.498 -5.90 0.000 S = 0.5684 R-Sq = 81.3% R-Sq(adj) = 79.0% Analysis of Variance Source DF SS MS F P Regression 1 11.236 11.236 34.77 0.000 Residual Error 8 2.585 0.323 Total 9 13.821 Dettaglio calcoli Y X Y^2 X^2 XY 20.9 3.8 437 14 79 24.4 3.5 595 12 85 23.6 3.5 557 12 83 22.4 3.6 502 13 81 21.7 3.7 471 14 80 21.1 3.8 445 14 80 21.7 3.6 471 13 78 21.7 3.8 471 14 82 24.1 3.5 581 12 84 22.7 3.6 515 13 82 Somma 224 36 5045 133 815 Media 22 3.6 b1 -8.83 SQE 2.59 b0 54.58 SQR 11.24 SQT 13.82 Syx 0.568 R2 0.813 Sb1 1.498 toss = -5.897 t13;0.025 2.306 b1-t*Sb2 -12.29 b1+t*Sb1 -5.38

(11)

Appello del 20/12/04

Esercizio 4

Un macchinario industriale porta a compimento il proprio ciclo di produzione in un tempo che dipendente dal livello di temperatura a cui il macchinario viene mantenuto durante il processo produttivo. Sono stati rilevati un insieme di valori di tempo e temperatura relativi ad un campione di 10 cicli produttivi. TEMPO TEMPER 2.59 3.73 3.35 3.48 3.31 3.5 2.97 3.58 2.67 3.65 2.71 3.67 2.63 3.69 2.42 3.74 3.31 3.49 2.93 3.61

(a) costruire il diagramma di dispersione e calcolare le stime ai minimi quadrato della regressione lineare semplice tra il tempo di produzione e la temperatura del macchinario; disegnare la retta di regressione nel diagramma e commentare i risultati alla luce del problema in questione; (b) calcolare la previsione del tempo medio del ciclo produttivo per una temperatura di 3.55; (c) calcolare il coefficiente di determinazione R2 ed interpretarne il significato;

(d) condurre un verifica di ipotesi per stabilire se sussiste una relazione lineare significativa tra il tempo e la temperatura. SOLUZIONE (a) 3.7 3.6 3.5 3.4 3.3 3.2 3.1 3.0 2.9 2.8 2.7 2.6 2.5 2.4 TEMPER TE M P O S = 0.0539713 R-Sq = 97.7 % R-Sq(adj) = 97.5 % TEMPO = 15.1901 - 3.40372 TEMPER Regression Plot

The regression equation is TEMPO = 15.2 - 3.40 TEMPER

Predictor Coef SE Coef T P Constant 15.1901 0.6614 22.97 0.000 TEMPER -3.4037 0.1829 -18.61 0.000 S = 0.05397 R-Sq = 97.7% R-Sq(adj) = 97.5%

(12)

12 Analysis of Variance Source DF SS MS F P Regression 1 1.0084 1.0084 346.18 0.000 Residual Error 8 0.0233 0.0029 Total 9 1.0317 Dettaglio calcoli Y X Y^2 X^2 XY 2.59 3.73 6.71 13.91 9.66 3.35 3.48 11.22 12.11 11.66 3.31 3.50 10.96 12.25 11.59 2.97 3.58 8.82 12.82 10.63 2.67 3.65 7.13 13.32 9.75 2.71 3.67 7.34 13.47 9.95 2.63 3.69 6.92 13.62 9.70 2.42 3.74 5.86 13.99 9.05 3.31 3.49 10.96 12.18 11.55 2.93 3.61 8.58 13.03 10.58 Somma 28.89 36.14 84.49 130.70 104.11 Media 2.89 3.61 b1 -3.40 SQE 0.02 b0 15.19 SQR 1.01 Y(3.55) 3.11 SQT 1.03 Syx 0.05 r2 0.977 Sb1 0.18 t13;0.025 2.31 b1+t*Sb1 -2.98 b1-t*Sb2 -3.83 (b)

Predicted Values for New Observations

New Obs Fit SE Fit 95.0% CI 95.0% PI

1 3.1068 0.0207 ( 3.0591; 3.1546) ( 2.9735; 3.2401) Values of Predictors for New Observations

New Obs TEMPER 1 3.55

(c)-(d)

Regression Analysis: TEMPO versus TEMPER

The regression equation is TEMPO = 15.1901 - 3.40372 TEMPER S = 0.0539713 R-Sq = 97.7 % R-Sq(adj) = 97.5 % Analysis of Variance Source DF SS MS F P Regression 1 1.00839 1.00839 346.180 0.000 Error 8 0.02330 0.00291 Total 9 1.03169

(13)

Esercizio 12.63 (pag. 460)

Il manager di un’azienda produttrice di bibite in bottiglia intende allocare i costi della consegna a domicilio ai clienti. Tra i diversi fattori che determinano tali costi, vi è, oltre al tempo necessario per raggiungere il luogo della consegna, anche il tempo che occorre per scaricare le scatole delle bibite. La tabella seguente riporta il numero delle casse consegnate e il tempo (in minuti) necessario per la loro consegna, per un campione di 20 clienti.

(a) Create il diagramma di dispersione per i dati della tabella.

Diagramma di dispersione: Numero di casse vs Tempo di consegna

0 10 20 30 40 50 60 70 80 0 50 100 150 200 250 300 350 Numero di casse Te mp o di c o n s egna

(14)

14

(b) Stimate i coefficienti della retta di regressione b0 e b1 con il metodo dei minimi quadrati. X: Numero

Casse

Y: Tempo

consegna (X-µx) (Y-µy) (X-µx)×(Y-µy) (X-µx)2

52 32.1 -117.9 -16.525 1948.2975 13900.41 64 34.8 -105.9 -13.825 1464.0675 11214.81 73 36.2 -96.9 -12.425 1203.9825 9389.61 85 37.8 -84.9 -10.825 919.0425 7208.01 95 37.8 -74.9 -10.825 810.7925 5610.01 103 39.7 -66.9 -8.925 597.0825 4475.61 116 38.5 -53.9 -10.125 545.7375 2905.21 121 41.9 -48.9 -6.725 328.8525 2391.21 143 44.2 -26.9 -4.425 119.0325 723.61 157 47.1 -12.9 -1.525 19.6725 166.41 161 43 -8.9 -5.625 50.0625 79.21 184 49.4 14.1 0.775 10.9275 198.81 202 57.2 32.1 8.575 275.2575 1030.41 218 56.8 48.1 8.175 393.2175 2313.61 243 60.6 73.1 11.975 875.3725 5343.61 254 61.2 84.1 12.575 1057.5575 7072.81 267 58.2 97.1 9.575 929.7325 9428.41 275 63.1 105.1 14.475 1521.3225 11046.01 287 65.6 117.1 16.975 1987.7725 13712.41 298 67.3 128.1 18.675 2392.2675 16409.61 169.9 48.625 17450.05 124619.8 µx µy SQXY SQX b1 = SQXY / SQX = 0.140026304 b0 = µY - b1 × µX = 24.83453095 P R I M O M E T O D O X×Y X2 1669.2 2704 2227.2 4096 2642.6 5329 3213 7225 3591 9025 4089.1 10609 4466 13456 5069.9 14641 6320.6 20449 7394.7 24649 6923 25921 9089.6 33856 11554.4 40804 12382.4 47524 14725.8 59049 15544.8 64516 15539.4 71289 17352.5 75625 18827.2 82369 20055.4 88804 3398 972.5 182677.8 701940

somma X somma Y somma X×Y somma X2

SQXY = somma X×Y - (somma X)×(somma Y) / n = 17450.05

SQX = somma X2 - (somma X)2 / n = 124619.8

(15)

(c) Specificate l’espressione della retta di regressione.

Y = b0 + b1 X,

Tempo consegna = b0 + b1 Numero Casse,

Tempo consegna = 24.83 + 0.14×Numero Casse,

(d) Interpretate il significato di b0 e b1 con riferimento al problema in questione.

b0 = Tempo consegna per un numero di casse pari a zero; corrisponde all’intercetta della retta di

regressione;

b1 = variazione del tempo di consegna corrispondete ad un aumento unitario del Numero Casse;

corrisponde al coefficiente angolare della retta di regressione.

(e) Prevedete il tempo di consegna per un cliente che ordina 150 casse di bibite.

Tempo consegna (150) = b0 + b1×500 = 24.83 + 0.14×150 = 45.838,

(f ) Si può ricorrere al modello stimato per prevedere il tempo di consegna di 500 casse di bibite? Commentate.

Poiché l’intervallo in cui abbiamo osservato la variabile X è (52, 298), la previsione (estrapolazione, in questo caso) di Y corrispondente a 500, essendo questo valore escluso da l’intervallo (52, 298), può essere fatta soltanto sotto l’ipotesi che la relazione stimata tra le due variabili rimanga la stessa anche al di fuori dell’intervallo.

(g) Calcolate il coefficiente di determinazione r2 e spiegatene il significato con riferimento al problema in questione. SQT =

(

)

= − n i i Y Y 1 2 = 2514.4975 SQT =

(

)

= − n i i Y Y 1 2 ˆ = 2443.466 r2 = SQR / SQT = 0.972

Il coefficiente di determinazione misura la parte di variabilità di Y spiegata dalla variabile indipendente X nel modello di regressione. In questo caso, il 97.2% della variabilità del tempo di consegna è spiegata dal numero di casse. Osserviamo che esiste quindi una relazione lineare forte tra le due variabili considerate, perché solo il 2.8% della variabilità del tempo di consegna si deve ascrivere a fattori diversi dal numero di casse.

(16)

16

(k) Per un livello di significatività uguale a 0.05, verificate se sussiste una relazione lineare tra il tempo di consegna e il numero delle casse consegnate.

Metodo 1: test t SQE =

(

)

= − n i i i Y Y 1 2 ˆ = SQT – SQR = 71.031 SYX = 2 − n SQE = 1.987

NB: L’errore standard misura (nello stesso senso dello scarto quadratico medio) la variabilità delle osservazioni attorno alla retta di regressione.

   ≠ = 0 : 0 : 1 1 1 0 β β H H 1 1 b S b t= , SQX S S YX b1 = ,

(

)

= − = n i i X X SQX 1 2 8 . 124619 987 . 1 14 . 0 = t = 24.884 p-value = P

[

tt0.05;18

]

= 0.000

Poichè p-value<0.05, si rigetta l’ipotesi nulla che il parametro β1 sia uguale a zero a livello di

significatività 0.05 e quindi si può concludere che esiste evidenza a favore dell’esistenza di una relazione lineare tra il tempo di consegna e il numero di casse.

Metodo 2: test F 3.946 2443.466 ) 2 /( 1 / = − = = n SQE SQR MQE MQR F = 619.2 p-value = P

[

FF0.05;1,18

]

= 0.000

(17)

(l) Costruite un intervallo di confidenza del 95% per il tempo medio di consegna per tutti i clienti che ordinano 150 casse di bibite.

Tempo consegna (150) = b0 + b1×150 = 24.83 + 0.14×150 = 45.838, tn-2 = 2.101 SYX = 2 − n SQE = 1.987

(

)

2

(

)

2 9 . 169 150 150− X = − = 396.01;

(

)

= − = n i i X X SQX 1 2 = 124619.8 8 . 124619 01 . 396 201 + = h = 0.0532 Intervallo di confidenza = 45.838 ± 2.101×124619.8×√0.0532 = 45.838 ± 0.962 = [44.876, 46.801]

(m) Costruite un intervallo di confidenza del 95% per il tempo di consegna per un cliente che ordina 150 casse di bibite.

8 . 124619 01 . 396 1+ = h = 1.003 Intervallo di confidenza = 45.838 ± 2.101×124619.8×√1.003 = 45.838 ± 4.180 = [41.658, 50.019]

Riferimenti

Documenti correlati

Grafico che illustra l’approssimazione ai minimi quadrati di grado 5 su una perturbazione della funzione sin (2x) (campionamento in nodi equispaziati)).. u=0:(h/4):2*pi; %

Vediamo alcuni notevoli esempi di spazio euclideo: ◮ Lo spazio R m dotato del prod...

Nota: non ha senso utilizzare un interpolante polinomiale p di grado n n` e una spline interpolante visto che ricostruirebbero la funzione

Nota: non ha senso utilizzare un interpolante polinomiale p di grado n n`e una spline interpolante visto che ricostruirebbero la funzione

Universit` a degli Studi di Padova. Dipartimento

, M nel senso dei minimi quadrati, viene usualmente detto regressione lineare.. Vediamone un esempio

Ricordiamo che in generale, non ha senso cercare un grado troppo alto del polinomio di miglior approssimazione p N in quanto si otterrebbe a partire da un certo valore il