ANALISI STATISTICA PER L’IMPRESA Prova di autovalutazione relativa ai primi 6 CFU
NB Come potete vedere facendo la somma dei punteggi il numero di quesiti è superiore a quello che è richiesto di risolvere per la prova relativa ai primi 6 CFU, l’insieme è ampio solo per darvi un quadro più ampio delle tipologie di esercizio
Vi invito a svolgere la prova seriamente, con l’obiettivo di testare il livello della vostra preparazione. La correzione in aula degli esercizi avverrà il giorno 2 Maggio nell’orario di lezione. BUON LAVORO
TEST da 1 punto totale 4 punti (barrare con una crocetta la risposta che si ritiene esatta, 1 sola)
1. Consideriamo due variabili quantitative X e Y, abbiamo rappresentato graficamente i punti rilevati per le due variabili in uno scatter plot che riporta Y in ordinata e X in ascissa e l’andamento dei punti mostra che Y decresce al crescere di X. Volendo adesso stimare un modello di regressione lineare in cui Y è la variabile dipendente e X la variabile indipendente, cosa possiamo dire sul segno del coefficiente angolare?
a. è certamente positivo
b. è certamente negativo X
c. può essere positivo o negativo
2. Abbiamo stimato due modelli di regressione lineare Y = α+ β1X1 +β2X2+ β3X3 +ε e Y = α+ β1X1+ε per stabilire quale modello ha maggiore capacità esplicativa devo calcolare
a. il coefficiente di determinazione R^2
b. il coefficiente di determinazione R^2 aggiustato X
c. i test F di significatività congiunta
3. Relativamente ad un campione di n aziende è stato osservato il livello di input (X) e di output (Y), i valori sono stati riportati su un sistema di assi cartesiani. Si stima una frontiera di produzione deterministica con il metodo COLS. Siamo certi che
a. solo alcune aziende abbiano valori di TE nell’intervallo [0,1]
b. vi sia almeno un’azienda che presenta TE=0
c. vi sia almeno un’azienda che presenta TE=1 X
4. Seguire uno schema di campionamento probabilistico significa che tutte le unità statistiche della lista di campionamento hanno:
a. la stessa probabilità di essere estratte
b. probabilità nota e non nulla di essere estratte X c. probabilità costante e nota di essere estratte
5. Se per capire le abitudini di consumo degli italiani per varie tipologie di alimenti, analizzo i dati dell’Indagine Multiscopo condotta dall’Istat, la mia fonte di dati è costituita da:
a. dati primari
b. dati secondari
c. dati secondari esterni X
Esercizio da 4 punti
Da una popolazione di N = 10000 di unità suddivisa in due strati di numerosità: N1 = 6500 e N2=
3500 si vuole estrarre un campione, per il quale è stata fissata come frazione di campionamento f=0.05.
Calcolare la numerosità campionaria totale e le numerosità campionarie da estrarre da ogni strato, supponendo allocazione proporzionale.
...n1=f*N1=325 ...n2=f*N2=175 N=n1+n2=500
...
Esercizio 3 punti
Vogliamo calcolare di quanto è variato il prezzo della colazione tipo degli italiani tra il 2010 ed il 2016. Ipotizzando che la colazione tipo è costituita da 1 pasta, 1 cappuccino e 1 spremuta.
• Nel 2010 i prezzi unitari dei prodotti indicati erano rispettivamente: pcapp=0.90 euro, ppasta=0.80 euro, spremuta=1.60.
• Nel 2016 le i prezzi unitari dei prodotti indicati erano rispettivamente: pcapp=1.20 euro, ppasta=1.0 euro, spremuta=2.0.
Calcolare l’indice di Laspeyres per il 2016 in base 2010 per stabilire qual è stata la variazione di prezzo della colazione tipo.
………
Formula dell’indice di Laspeyres
M1
m m0 m0 M
1
m mt m0 M
1
m m0 m0 M
1
m m0 m0
0 m mt L
0 /
t
p q
q p q
p
q p p
p I
qm0=1 per ogni m perché ogni quantità è unitaria, quindi Ip(2016|2010)=1/3*(0.90/1.2+0.8/1+1.6/2)*100=127.27 Il prezzo della colazione tipo è aumentato del 27.27%
Esercizio 4 punti
Elencare sinteticamente le ipotesi di base del modello di regressione lineare multipla
...
forma funzionale del modello di tipo lineare;
variabili indipendenti non stocastiche (deterministiche)
matrice X di pieno rango (assenza di perfetta multicollinearità tra le variabili indipendenti) valore atteso del termine di errore =0
omoschedasticità (varianza costante per ogni osservazione i) del termine di errore termine di errore non correlati (covarianza nulle per ogni i, j)
...
Esercizio 4 punti
Descrivere per punti le fasi per effettuare un campionamento sistematico tenendo conto che pur facendo un semplice campionamento sistematico vorremmo che i maschi e le femmine fossero rappresentati nel campione con le stesse proporzioni della popolazione. Si suppone che la lista di campionamento a disposizione sia la lista anagrafica del Comune di Siena sia costituita da 24771 maschi e 29001 femmine.
Calcolo N=24771+29001=53772
Devo stabilire una frazione di campionamento (mia ipotesi) f=0.01 Calcolo la numerosità campionaria n=537720.01=/537.72 (circa 538) Calcolo il passo di campionamento k=53772/537.72 =100
Estraggo un numero tra 1 e 100, supponiamo s=20, quindi estraggo un elemento ogni 100 partendo dal ventesimo.
Per garantire la proporzionalità tra i due generi devo organizzare la lista inserendo prima tutti i maschi e poi tutte le femmine (o viceversa), ovvero opero una stratificazione implicita e procedo all’estrazione degli elementi
20 120 220 320
…..
I2016|2010=(1.2+1+2)/(0.9+0.8+1.6)*100=127.27
quindi il prezzo della colazione tipo è aumentato del 27.27% tra il 2010 ed il 2016
Domanda Aperta da 2 punti
Tra le dimensioni che determinano la qualità del dato statistico vi è la COERENZA, che cosa si intende per dato coerente?
La coerenza si riferisce alle statistiche rilasciate da più fonti su uno stesso dominio o da una stessa fonte in tempi diversi ma in relazione alla stessa popolazione di riferimento. Per avere dati coerenti è necessario utilizzare standard metodologici e definizioni e classificazioni omogenee
...
...
Esercizio da 5 punti
Ad un campione di persone con reddito annuo netto tra 15000 e 30000 euro è stato chiesto di indicare il reddito annuo netto in Euro del 2007 (reddito), la spesa per viaggi turistici in Euro del 2007 (viaggi) e la preferenza per vacanze in Italia o all’estero (estero=1 se preferiscono viaggi all’estero, estero=0 se la preferenza è per l’Italia).
Si stima il modello di regressione lineare che spiega linearmente la spesa per viaggi turistici in funzione delle altre variabili rilevate. I risultati ottenuti sono i seguenti:
regress viaggi reddito estero
Source | SS df MS Number of obs = 10 ---+--- F( 2, 7) = 177.26 Model | 8181314.91 2 4090657.45 Prob > F = 0.0000 Residual | 161541.728 7 23077.3897 R-squared = ………
---+--- Adj R-squared = 0.9751 Total | 8342856.64 9 926984.071 Root MSE = 151.91
--- viaggi | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---+--- reddito | ……… .0111833 12.79 0.000 .1166171 .1695058 estero | 1.622644 144.2361 …….. 0.991 -339.4415 342.6868 _cons | 596.016 ……….. 2.93 0.022 114.979 1077.053
a) calcolare il valore del coefficiente della variabile reddito e stabilire il significato di tale coefficiente nel contesto del problema proposto
b) calcolare il valore della statistica test t relativo al coefficiente della variabile estero e stabilire se tale coefficiente risulta significativamente diversa da zero fissato α =0.05
c) calcolare il valore dello STD.ERR relativo all’intercetta (_cons)
d) A quanto ammonta la stima della varianza del termine di errore?
a) B(reddito)=0.0111833*12.79=0.143 Assumendo che il reddito sia espresso in euro, possiamo dire che per un aumento di reddito pari a 1 euro, in media la spesa la spesa per viaggi turistici aumenta di Euro 0.143, fermo restando tutto il resto.
b) t(estero)= 1.622644/144.2361=0.01125, il coefficiente della variabile estero fissato α =0.05 non risulta significativamente diversa da zero in quanto dato il valore del p-value l’ipotesi nulla del test t viene ACCETTATA
c) se(_cons)= 596.016/2.93 =203.4184
d) La stima della varianza del termine di errore ammonta a 23077.3897 Esercizio da 5 punti (basato sulla spiegazione dell’ultima lezione svolta)
La tabella successiva riporta i dati rilevati osservando output prodotto (Y) e input impiegato (X) da 5 aziende selezionate tramite campionamento casuale semplice
firm X Y
1 22 10
2 30 12
3 50 15
4 60 21
5 95 33
Stimando un modello di regressione lineare sulle variabili(X,Y) si ottengono i seguenti risultati (con calma potete provare a calcolarli per esercizio):
gdl SQ MQ F
Significatività F Regressione 1 332,65 332,65 …98,32. 0,00
Residuo 3 10,15 3,383
Totale 4 342,80
Coefficienti Errore
standard Stat t p-value Inferiore
95% Superiore 95.0%
Intercetta 1,88 1,84 1.022 0,38 -3,98 7,74
X 0,32 0.0323 9,91 0,00 0,22 0,42
OUTPUT RESIDUI
Firm Previsto
Y Residui Y Yfront IP
TE 1,000 8,865 1,135 10,000 10,06 0,455 0,99 2,000 11,405 0,595 12,000 12,62 0,400 0,95 3,000 17,755 -2,755 15,000 19,02 0,300 0,79 4,000 20,931 0,069 21,000 22,22 0,350 0,95 5,000 32,044 0,956 33,000 33,42 0,347 0,99
Sulla base dei risultati disponibili
a) Scrivere l’equazione della funzione frontiera di produzione deterministica
c) Calcolare l’indice di produttività per ogni azienda
d) Infine, riempire gli spazi lasciati in bianco (……) nelle tavole sopra
a) alfa (COLS) =1.88+max(residuo)= 1.88+1.135=3.015 quindi
l’equazione della funzione frontiera di produzione deterministica è Yfront=3.015+0.32X
b) TE= Yfront/Y (calcoli in tabella) c) IP=Y/X (calcoli in tabella)
d) t=coeff. Stimato/se ; se= coeff. Stimato/t ; MQ(residuo)= SQ(residuo)/df F= MQ(regressione)/MQ(residuo) (vedi calcoli in tabella)