• Non ci sono risultati.

L'effetto del pensionamento sul consumo: uno studio empirico in presenza di errore di misura.

N/A
N/A
Protected

Academic year: 2021

Condividi "L'effetto del pensionamento sul consumo: uno studio empirico in presenza di errore di misura."

Copied!
128
0
0

Testo completo

(1)

FACOLTÀ DI SCIENZE STATISTICHE

Corso di laurea Specialistica in Scienze Statistiche Economiche,

Finanziarie e Aziendali

TESI DI LAUREA

L’EFFETTO DEL PENSIONAMENTO

SUL CONSUMO:

STUDIO EMPIRICO IN PRESENZA DI

ERRORE DI MISURA

Relatore: Ch.ma Prof.ssa Alessandra R. Brazzale

Correlatore: Ch.mo Prof. Erich Battistin

Laureanda: Federica Villani

(2)

Ringraziamenti

Se sono riuscita a raggiungere questo traguardo, fortemente voluto, `e merito anche del sostegno di alcune persone.

Prima di tutto quello della mia relatrice, la Prof. Alessandra R. Brazzale, che in questi mesi ha saputo guidarmi in questo lungo percorso che mi ha portata fino a qui. La desidero ringraziare vivamente per la sua disponi-bilit`a, per i suoi preziosi consigli e insegnamenti che sicuramente nella vita professionale verranno utli.

Un ringraziamento profondo anche al mio correlatore, il Prof. Erich Bat-tistin, per gli interessanti spunti, i validi suggerimenti e il suo aiuto in questi mesi.

Ringrazio inoltre il Prof. Helmut K¨uchenhoff per lo scambio di opinione e la Prof. Adriana Brogini per il suo appropriato consiglio quando ne ho avuto bisogno.

Inoltre desidero ringraziare il personale tecnico del Dipartimento di Scien-ze Statistiche per la disponibilit`a dimostrata.

Un ringraziamento profondo alla mia amica e collega Elena, che in questi anni si `e sempre dimostrata leale, onesta e di supporto nei miei confronti. Ricorder`o con lei i pomeriggi a lezione, le corse per fotocopiare appunti, i pranzi in mensa e le discussioni superficiali ma anche altrettanto profonde. Vorrei anche ricordare Roberta. Insieme abbiamo trascorso una bellissima esperienza, quella del Mimprendo, che merita essere menzionata.

Un ringraziamento sincero alla mia amica Alessandra per la sua costante presenza, il suo supporto in ogni momento della mia vita e la sua capacit`a a

(3)

comprendermi in qualunque occasione.

Desidero ricordare anche Anna, Martina e Gioia per i bei momenti pas-sati insieme. E, ovviamente, Maddalena con la quale ho sempre avuto un bellissimo rapporto di amicizia, fin dalle superiori e con la quale ho sempre trascorso bellissimi momenti di festa.

Mi sento di ringraziare profondamente alcune persone che in questi ultimi due anni ho conosciuto e alle quali tengo molto. In particolare, Davide Merlin, Margherita Morpurgo, il Prof. Paolo Gubitta e Bernardo Moronato. Il ringraziamento pi`u sentito va ai miei genitori. Senza di loro, il loro amore e supporto, che non `e mai venuto meno, non sarei mai diventata quella che ora sono oggi. Non mi hanno mai lasciata sola un momento, mi hanno sempre incoraggiata, anche nei momenti di sconforto, quando hai l’illusione di aver raggiunto un obiettivo e invece ti ritrovi a mani vuote. Quello che mi hanno insegnato `e non arrendersi, rialzarsi ed affrontare con grinta la vita. Vi voglio bene.

A mia sorella Giulia, per la sua allegria e tenacia in ogni cosa che fa: questo ho imparato da lei e la ringrazio per il suo supporto in questi anni di universit`a ma anche in quest’ultimo delicato momento, nonostante stesse preparando la maturit`a.

Un profondo grazie ad Alberto, per la sua costante presenza e il suo amore. Lo ringrazio, in quanto ha sempre avuto la parola giusta in ogni momento. E’ riuscito a starmi vicino, con premura ma senza pressione, nei momenti pi`u delicati della mia vita universitaria. Lo ringrazio per i bellissimi momenti trascorsi insieme.

Ringrazio la mia nonna, per le sue preghiere prima degli esami e il suo costante interesse per me e mia sorella.

Ringrazio i miei cugini, Luca, Sarah, Marco e Gianmarco e i miei zii, che mi hanno accompagnato in questo percorso.

(4)

Indice

1 Introduzione 9

1.1 Motivazione del lavoro . . . 9

1.2 Obiettivo dello studio . . . 11

1.3 Organizzazione del testo . . . 17

2 L’errore di misura 19 2.1 Introduzione . . . 19

2.2 Modelli, conseguenze e rimedi . . . 20

2.2.1 Modelli per l’errore di misura . . . 22

2.2.2 Conseguenze nella regressione lineare semplice . . . 24

2.2.3 Conseguenze nella regressione lineare multipla e nei modelli non lineari . . . 28

2.2.4 Metodo dei momenti . . . 29

2.3 Metodi di correzione . . . 31

2.3.1 La regressione di calibrazione . . . 33

2.3.2 Variabili strumentali . . . 35

2.3.3 SIMEX . . . 36

2.3.4 Funzioni di punteggio corrette o condizionate . . . 38

2.3.5 Verosimiglianza . . . 40

2.3.6 Metodi semi parametrici . . . 44

2.3.7 Approccio bayesiano . . . 46

3 Studio di simulazione 49 3.1 Descrizione dello studio . . . 49

(5)

3.1.1 Variabili economiche . . . 51

3.1.2 Errore di misura . . . 52

3.1.3 Parametri della simulazione . . . 55

3.1.4 Scenari considerati . . . 59

3.1.5 Indici riassuntivi . . . 60

3.2 Risultati della simulazione . . . 62

3.2.1 Confronto fra risultati noti ed evidenza empirica . . . . 62

3.2.2 Commenti al caso S0.M0. e S1.M0. . . 65

3.2.3 Tabelle per i casi S0.M1. e S1.M1. . . 70

3.3 Interpretazione ed implicazioni economiche . . . 75

3.3.1 Caso S0.M1. . . 75

3.3.2 Caso S1.M1. . . 78

4 Un passo in avanti: correzione tramite SIMEX 81 4.1 Il metodo SIMEX applicato al caso S0.M0. . . 81

4.2 Il metodo SIMEX applicato al caso S1.M1. . . 84

4.3 Una proposta alternativa per il caso S1.M1. . . 87

5 Conclusioni e sviluppi futuri 91 5.1 Conclusioni tratte dallo studio di simulazione . . . 91

5.2 Sviluppi futuri . . . 92

A Tabelle complete dello studio di simulazione 93 B Stima della varianza 106 B.1 Il metodo jackknife . . . 106

B.2 Il metodo bootstrap . . . 107

B.3 Il metodo sandwich . . . 107 C Istruzioni di R per lo studio di simulazione 109 D Istruzioni di R per il metodo SIMEX 117

(6)

Elenco delle figure

2.1 Errore di misura classsico vs berkson . . . 27

2.2 Metodo SIMEX . . . 39

3.1 Consumo per individui con et`a fra 61–65 anni . . . 56

3.2 Andamento del consumo rispetto all’eleggibilit`a . . . 57

(7)
(8)

Elenco delle tabelle

2.1 Tabella riassuntiva per diversi modelli per l’errore di misura . 28 3.1 Valori teorici di λ, del coefficiente angolare e della varianza

residua . . . 64

3.2 Media campionaria del coefficiente angolare e della varianza residua . . . 65

3.3 Caso S0.M0: distorsione relativa e livello di copertura reale . . 67

3.4 Caso S1.M0: distorsione relativa e rapporto fra varianza e distorsione . . . 68

3.5 Caso S1.M0: livello di copertura reale per intervalli bilaterali e unilaterali . . . 69

3.6 Caso S0.M1: distorsione relativa e rapporto fra varianza e distorsione . . . 71

3.7 Caso S0.M1: livello di copertura reale e test statistici . . . 72

3.8 Caso S1.M1: distorsione relativa e rapporto fra varianza e distorsione . . . 73

3.9 Caso S1.M1: livello di copertura reale e test statistici . . . 74

4.1 SIMEX al caso S0.M0. . . 83

4.2 SIMEX al caso S1.M1. . . 86

4.3 SIMEX: una proposta alternativa . . . 89

(9)
(10)

Capitolo 1

Introduzione

1.1

Motivazione del lavoro

Il pensionamento e, in particolare, il modo in cui le persone affrontano questo cambiamento, `e un fenomeno di notevole interesse per quanto riguar-da l’analisi dell’anriguar-damento del livello del consumo nell’ambito dei programmi di valutazione economica.

In base al modello del ciclo di vita di Modigliani (vedi [1] per maggiori dettagli) i consumatori risparmiano parte del reddito per far fronte alle loro esigenze di consumo al termine dell’attivit`a lavorativa, durante il pensiona-mento. Questa semplice idea `e alla base della teoria del ciclo di vita, formula-ta dal premio Nobel Modigliani: si risparmia da “giovani”, quando si dispone di un reddito, per poter spendere e finanziare le spese anche da “anziani”, quando quel reddito mancher`a. E’ il ciclo di vita del risparmio, positivo du-rante la fase lavorativa, negativo dudu-rante il pensionamento. Infatti, secondo Modigliani, il pensionamento, esclusi shock di salute, `e un evento pianifica-bile da parte degli agenti. I consumatori allocano risorse nel ciclo di vita con l’obiettivo di mantenere costante l’utilit`a marginale del consumo. Dunque, i consumatori arrivano a pianificare le loro scelte per perseguire l’obiettivo appena descritto. Ne segue che, intuitivamente, in corrispondenza del pen-sionamento, non si dovrebbe vedere un calo drastico del consumo. Questo

(11)

calo, in parte, potrebbe essere spiegato tramite una naturale diminuizione di spesa per alcune categorie di beni. Si pensi, ad esempio, alle spese inerenti la necessit`a di utilizzare i mezzi di trasporto, di pranzare fuori, di comprare vestiti consoni al tipo di lavoro. In pratica, ci si riferisce a quelle spese legate al lavoro.

Recenti lavori hanno per`o evidenziato la presenza di un crollo pesante del consumo nel momento del pensionamento, risultato che difficilmente si accosta al comportamento ideale previsto dal modello del ciclo di vita di Modigliani. Osservare una caduta drastica del consumo `e assimilabile al fatto che gli agenti arrivano non preparati al pensionamento. Avere una caduta drastica del loro consumo `e una conseguenza derivante dal fatto che anche il loro reddito disponibile diminuisce. Insomma, `e come se il pensionamento fosse uno shock non previsto.

La presenza di questo fenomeno `e stata analizzata per il Regno Unito (vedi [2] per maggiori dettagli, indicato con BBT nel seguito), per gli Stati Uniti (vedi [3] per maggiori dettagli, BSW nel seguito) e per l’Italia (vedi [4] per maggiori dettagli, MMW nel seguito) ed `e noto come the retirement consumption puzzle (o the retirement savings puzzle).

BBT usa dati provenienti dall’indagine sulla spesa delle famiglie inglesi, nota come FES, 1 per esaminare i cambiamenti nella spesa delle famiglie nel

momento del pensionamento. Gli autori trovano evidenza del fenomeno in quanto solo una parte del calo del consumo pu`o essere spiegata e attribuita all’aumento di tempo libero che segue il pensionamento: il pensionamento dovrebbe apparire come un evento prevedibile e invece si registra un crollo del consumo tale da sembrare un comportamento provocato da uno shock inat-teso. Sembra che le persone non programmino l’evento e si trovino dunque impreparate. Inoltre BBT evidenzia l’importanza di distinguere tra pension-amento volontario e involontario: infatti si osserva un crollo significativo nel consumo alimentare solamente per coloro che sono costretti ad anticipare il pensionamento a causa di problemi di salute o per la perdita del lavoro.

(12)

BSW usa dati panel sulle famiglie degli Stati Uniti, tratti dal PSID2. Gli

autori concludono dicendo che i risultati ottenuti non sono completamente a supporto della teoria del ciclo di vita di Modigliani ma non possono essere nemmeno esclusi da qualsiasi schema razionale: i risultati infatti possono essere spiegati dal mental accounting, una teoria sviluppata dall’economista statunitense Richard Thaler. Costui ipotizza che le scelte economiche delle persone sono mediate da un vero e proprio sistema di contabilit`a mentale, che non `e neutrale e produce comportamenti non del tutto coerenti con il modello microeconomico neoclassico standard, basato sulla perfetta razionalit`a degli agenti.

MMW usa dati forniti dall’indagine sui consumi delle famiglie italiane, nota come ISFB3per il periodo dal 1985 al 1996. Gran parte del lavoro `e

ded-icato ad illustrare come il consumo per diverse categorie di beni pu`o variare con l’et`a degli individui e con il loro pensionamento. Il consumo di beni col-legati all’attivit`a lavorativa decresce mentre aumenta quello di beni prodotti in casa. Gli autori dunque stabiliscono che il consumo di beni collegati al-l’attivit`a lavorativa (trasporti, vitto fuori casa e indumenti) diminuiscono a seguito del pensionamento mentre non ci sarebbero prove di brusche cadute per la categoria di beni non durevoli (spese per la salute, carburante e spese per la casa). I risultati sono a sostegno della tesi che in Italia non ci sarebbe un retirement consumption puzzle. Questo potrebbe essere dovuto alla pre-senza, in Italia, di un adeguato sostegno economico per quelle famiglie di neo pensionati che si trovano in difficolt`a economica.

1.2

Obiettivo dello studio

La tesi prende spunto da un lavoro proposto da Battistin e coautori, collo-cato in letteratura nell’ambito degli studi relativi alla stima dell’effetto del pensionamento sul consumo. Il lavoro si intitola: The Retirement

Consump-2PSID: Panel Study of Income Dynamics 3ISFB: Italian Survey of Family Budgets

(13)

tion Puzzle: Evidence from a Regression Discontinuity Approach, scritto nel 2005 (vedi [5]). Il lavoro utilizza informazioni ricavate dalla Banca d’Italia in merito ad un’indagine sul reddito e la ricchezza delle famiglie italiane (SHIW

4) per il periodo 1993–2004. I dati riguardano la spesa delle famiglie italiane

circa il consumo di alimenti e beni non durevoli. Qui di seguito verranno ora presentati i passaggi rilevanti di questo lavoro.

Vengono chiamati Y1 e Y0 i consumi potenziali che si osserverebbero nel

caso in cui l’i-esimo individuo fosse rispettivamente in pensione oppure no. Il risultato potenziale, per ogni singola unit`a di osservazione, `e il valore che una certa variabile, detta appunto risultato, acquista, qualora si realizza un valore specifico del trattamento. Seguendo l’approccio indicato da Donald Rubin, l’effetto causale del pensionamento sul consumo `e definito come differenza in termini di consumo individuale β = Y1 − Y0, il quale per`o non pu`o essere

stimato. Invece, `e possibile considerare e stimare l’effetto medio come β = E{Y1− Y0} = E{Y1} − E{Y0}. (1.1)

Ovviamente `e impossibile osservare per lo stesso soggetto, nello stesso istante temporale, entrambi gli stati e uno, fra i due risultati potenziali, `e sempre mancante. Ma se si pu`o ritenere che i due sottocampioni, riferiti rispettiva-mente alle persone pensionate e a quelle non pensionate, siano equivalenti in termini di meccanismo di assegnazione casuale, allora l’effetto causale medio del fenomeno sulla quantit`a oggetto di studio pu`o essere calcolato come dif-ferenza fra i due valori attesi riferiti rispettivamente ai due sottocampioni. Per approfondimenti riguardanti il modello causale indicato da Donald Rubin si veda [6] e [7].

Nel lavoro in esame, R `e una variabile binaria che rappresenta la con-dizione del capofamiglia, dove R = 1 se il soggetto i `e in pensione, R = 0 se il soggetto non lo `e. Quindi Y1 `e il consumo che si osserverebbe nel caso di

pensionamento, mentre Y0 `e il consumo che si osserverebbe nel caso di non

pensionamento.

(14)

Gli autori utilizzano un approccio basato sui disegni di discontinuit`a (re-gression discontinuity approach). In queste circostanze infatti ci si pu`o av-valere di tale metodo in quanto la variabile R dipende da una variabile os-servabile S∗ e nel supporto di Sesiste un punto noto ¯s dove la probabilit`a

di essere trattato cambia in modo discontinuo. Valutando infatti un intorno di ¯s e utilizzando il disegno di discontinuit`a, si possono recuperare le propri-et`a di un esperimento casuale, ossia l’intorno di ¯s ha la stessa valenza di un confronto sperimentale. Quindi, se ¯s rappresenta il punto di discontinuit`a, una regression discontinuity `e definita se

Pr{R = 1|¯s+} 6= Pr{R = 1|¯s−}, (1.2) dove ¯s+ e ¯ssi riferiscono a quei soggetti che si trovano localmente e

rispet-tivamente sopra e sotto rispetto a ¯s. Per approfondimenti sui disegni di discontinuit`a (RDD) si veda [8], [9], [10] e [11].

Nel lavoro di riferimento la variabile S∗ rappresenta l’eleggibilit`a intesa

come numero di anni che mancano alla pensione (S∗ negativa) o che sono

trascorsi dal momento in cui il soggetto `e diventato idoneo alla pensione (S∗

positiva); si assume che il supporto di questa variabile sia continuo. Inoltre, per la variabile S∗ vale la regola deterministica

R = I(S∗ ≥ ¯s), (1.3) ovvero, il valore assegnato alla variabile R `e legato al fatto che il valore as-sunto dalla variabile S∗ sia positivo. In altre parole, gli individui sono idonei

al pensionamento se e solo se presentano un valore della variabile S∗ non

inferiore al punto di soglia ¯s = 0. Questa variabile dicotomica indica se l’in-dividuo `e o non `e in pensione e potr`a valere 1 se e solo se s∗ ≥ 0. Con ci`o,

si sottolinea il fatto che un soggetto, avente un valore dell’eleggibilit`a nega-tivo, non potr`a apparire in pensione in quanto dovr`a versare ancora anni di contributi. D’altro canto, un soggetto con un valore positivo dell’eleggibilit`a, `e idoneo al pensionamento e ha la possibilit`a di scegliere se andarci oppure continuare a lavorare.

(15)

Sia

Y = Y0+ R(s)β (1.4)

il consumo osservato. Per sottolineare la dipendenza fra R e S∗ si scrive

R(s∗). L’espressione si semplifica a seconda del valore assunto dalla variabile

R. Infatti, nel caso R = 1 si ha Y ≡ Y1 mentre, se R = 0 allora Y ≡ Y0.

La differenza fra i valori attesi nei due gruppi costituiti rispettivamente da coloro che riportano valori sotto e sopra la soglia di idoneit`a ¯s

E[Y |¯s+] − E[Y |¯s−] (1.5) pu`o essere scritta come

E[Y0|¯s+] − E[Y0|¯s−] + E[R(s∗)β|¯s+] − E[R(s∗)β|¯s−]. (1.6)

Poich`e vale la regola deterministica (1.3) l’espressione pu`o essere riscritta come

E[Y0|¯s+] − E[Y0|¯s−] + E[β|¯s+]. (1.7)

Condizione 1. Il valore atteso di Y0 condizionato ad S∗ `e una funzione

continua di S∗ in ¯s.

Questa condizione stabilisce che, in un mondo dove non esiste il fenomeno del pensionamento, non dovrebbe nemmeno sussistere una discontinuit`a at-torno al punto di soglia ¯s ma piuttosto un andamento del consumo continuo in corrispondenza della soglia. Se vale questa condizione allora si pu`o scrivere E[β|¯s+] ≡ E[Y |¯s+] − E[Y |¯s−], (1.8) ovvero, l’effetto causale medio che il pensionamento provoca sui consumi di quei soggetti localmente idonei `e definibile in termini di differenza fra i valori attesi dei consumi osservati, rispettivamente sopra e sotto la soglia ¯s.

Se vale la condizione 1, usando la legge dei valori attesi iterati e notando che E[R(s∗)β|R = 0, ¯s+] = 0, allora l’espressione (1.7) produce

(16)

in modo che l’impatto medio sugli individui pensionati in un intorno destro di ¯s sia identificato da

E[β|R = 1, S∗ = ¯s+] = E[Y |S

= ¯s+] − E[Y |S= ¯s]

E[R|S∗ = ¯s+] . (1.10)

Il risultato ottenuto fonda sul fatto che la probabilit`a di trovare individui in pensione, pur non essendo idonei, sia zero. Questo semplifica l’espressione (1.6), senza dover fare ulteriori assunzioni sul comportamento degli agenti. Segue che la (1.10) pu`o essere stimata usando il metodo delle variabili stru-mentali, dove la variabile S∗ viene usata come strumento per correggere la

natura endogena della variabile R condizionata ad S∗.

Questo `e ci`o che dovrebbe succedere a livello teorico. Ovvero, la proba-bilit`a di andare in pensione, condizionata a diversi valori della variabile S∗,

dovr`a essere zero per valori di S∗ appartenenti all’intorno sinistro della soglia

¯

s. In corrispondenza di ¯s si dovr`a evidenziare un salto a dimostrazione del fatto che una buona porzione di individui, appena raggiunta l’idoneit`a, deci-dono di andare in pensione. E’ ragionevole ipotizzare che altri individui, pur essendo idonei, continuino a lavorare: la curva dunque, nell’intorno destro di ¯

s, avr`a un andamento crescente fino a che tutti siano in pensione.

Contrariamente a quello che ci si potrebbe attendere, con dati reali si osserva una porzione non trascurabile di individui che appaiono in pensione pur non essendo idonei. Ad esempio, si osserva un 2.5% di uomini che, nonostante manchi ancora un anno per andare in pensione (s∗ = −1), lo sono

gi`a. Per le donne invece si osserva un valore pari al 14%. In corrispondenza di s∗ = −2 invece si osserva l’1.5% di uomini e il 3.5% di donne, non ancora

eleggibili ma gi`a in pensione. Quindi, la probabilit`a di essere in pensione, avendo un valore negativo della variabile S∗, `e diverso da zero. Questo va a

contrastare la (1.3).

Gli autori cercano di spiegare tale comportamento ipotizzando una strut-tura per l’errore di misura contenuto in S∗. Supponendo che Ssia una

variabile misurata con errore, gli autori valutano sotto quali condizioni del-l’errore di misura, si `e in grado di identificare il parametro d’interesse β e se i risultati che si trovano sono robusti.

(17)

Si assume infatti che, nel gruppo di individui per i quali viene valutato il valore della variabile S∗, una porzione di essi riportino il valore corretto e una

parte il valore errato. Si tratta di una mistura, che formalmente `e espressa come

Smistura = S∗Z + Sclassico(1 − Z), (1.11)

dove Z rappresenta una variabile binaria che vale 1 se il valore riferito `e cor-retto, mentre `e uguale a 0 atrimenti. La variabile Sclassico invece rappresenta

la variabile S∗ contaminata da un errore di misura di tipo classico. Verranno

forniti maggiorni dettagli in seguito.

La (1.2) motiva l’ipotesi di presenza di errore di misura in S∗. Infatti,

dovrebbe essere una funzione discontinua in ¯s = 0, in quanto una buona porzione di soggetti, appena diventano idonei, decidono di andare in pensione e per valori negativi dell’eleggibilit`a non si dovrebbero osservare soggetti in pensione. Con dati reali, non `e cos`ı.

Lo stimatore (1.10) dipende dalla distribuzione congiunta di (Y, R, S∗).

A causa dell’errore di misura in S∗ lo stimatore costruito non `e consistente

per il parametro d’interesse. Invece, il seguente rapporto E[β|R = 1, Smistura = ¯s+] =

E[Y |Smistura = ¯s+] − E[Y |Smistura = ¯s−]

E[R|Smistura = ¯s+] − E[R|Smistura = ¯s−]

(1.12) identifica il parametro d’interesse ovvero l’effetto causale che il fenomeno del pensionamento provoca sul consumo, a condizione che l’errore di misura di tipo mistura sia compatibile con i dati a disposizione. Questa espressione pu`o essere stimata con le variabili strumentali, utilizzando l’eleggibilit`a S come strumento per la scelta di pensionamento R (si veda [12] per maggiori dettagli).

In conclusione, gli autori stimano un calo del consumo relativo ai beni non durevoli del 9.8%. Tale risultato pu`o essere comunque spiegato dal fatto che gli individui, appena entrano in pensione, cambiano stile di vita. Le spese collegate all’attivit`a lavorativa vengono sospese. Inoltre, nel lavoro, viene mostrato che il pensionamento porta ad una riduzione del numero di adulti all’interno del nucleo familiare. Anche questa circostanza giustifica il

(18)

calo del consumo stimato. Le conclusioni tratte e i risultati ottenuti vanno a sostegno della tesi che in Italia non esisterebbe un retirement consumption puzzle, come dimostrato appunto nel lavoro di Miniaci R., Monfardini C. e Weber G., qui indicato MMW (si veda [4]).

1.3

Organizzazione del testo

Nel Capitolo 2 illustreremo la teoria sottostante l’errore di misura. Dopo una breve introduzione, presenteremo i modelli per l’errore di misura e i metodi di correzione proposti in letteratura.

Il Capitolo 3 `e dedicato interamente allo studio di simulazione effettuato. Descriveremo le variabili economiche utilizzate, le due strutture adottate per l’errore di misura, l’assegnazione dei valori ai parametri della simulazione, gli scenari considerati ed infine gli indici calcolati. Il Capitolo 3 si conclude con l’interpretazione dei risultati ottenuti e le implicazioni economiche. I risultati trovati serviranno a rispondere ad una precisa domanda di ricerca che guida l’intero capitolo.

Nel Capitolo 4 viene considerato il metodo SIMEX per la correzione del-l’errore di misura. Il metodo verr`a applicato in particolare a due casi. Infine, il capitolo 4 si concluder`a con una proposta alternativa del SIMEX.

(19)
(20)

Capitolo 2

L’errore di misura

2.1

Introduzione

In molte discipline scientifiche la quasi totalit`a delle misurazioni sono affette da errore di misura. I problemi connessi all’errata misurazione delle vari-abili possono essere ricondotti a cause diverse: alcuni esempi possono essere gli elevati costi di rilevazione dei dati per ottenere misure esatte, l’impreci-sione degli strumenti utilizzati, analisi di laboratorio poco curate, l’intrinseca variabilit`a naturale o la natura soggettiva di alcune variabili oggetto di stu-dio. Se non se ne tiene conto e non si opera una correzione, gli errori di misura sono una fonte di problemi inferenziali non irrilevanti (si veda [13] per maggiori dettagli). In letteratura si `e a lungo evidenziato il fatto che la presenza di errori di misura porta a stime distorte dei parametri. Inoltre gli errori di misura possono incidere sulla varianza e sul livello di copertu-ra degli intervalli di confidenza degli stimatori. Queste circostanze sorgono poich`e, non potendo osservare la variabile d’interesse X, si devono utilizzare le informazioni riguardanti un’altra variabile W e questa non risulta perfetta-mente correlata con X. Gli scostamenti fra la vera variabile X e la variabile W misurata con errore sono chiamati errori di misura (measurement errors). Convenzionalmente, si usa questo termine per fare riferimento a variabili di tipo numerico, continue o discrete, mentre per variabili di tipo categoriale si

(21)

predilige un termine che fa riferimento alla natura qualitativa delle variabili e si usa la parola inglese missclassification per definire un’errata classificazione. Il modello statistico per dati affetti da errori di misura viene chiamato mod-ello per l’errore di misura. Negli ultimi vent’anni in letteratura sono stati presentati numerosi metodi per correggere la presenza dell’errore di misura. Nel Paragrafo 2.1 verr`a fatta una breve introduzione all’errore di misura. Nel Paragrafo 2.2 verranno indicati i concetti di base e i modelli per l’errore di misura. Seguir`a una presentazione sulle conseguenze alle quali si pu`o an-dare incontro nel caso in cui la presenza dell’errore di misura venga ignorata. Infine, nel Paragrafo 3.2, verr`a fornita una visione d’insieme sui metodi pro-posti in letteratura per far fronte al problema della presenza dell’errore di misura in una o pi`u variabili esplicative, includendo la teoria sottostante.

2.2

Gli errori di misura: modelli,

conseguen-ze e rimedi

Esiste una vasta letteratura che approfondisce il problema della presenza dell’errore di misura nelle variabili presenti nel modello. Per il caso della regressione lineare semplice e per i modelli lineari generalizzati si veda [14] per maggiori dettagli. Per un’analisi approfondita sui modelli non lineari si veda [15] per maggiori dettagli.

Verr`a indicata con Y la variabile risposta del modello. Viene fatta una distinzione tra due tipi di variabili concomitanti: con Z verr`a indicato il vet-tore contenente tutte quelle variabili che sono misurate senza errore mentre con X quelle che non possono essere osservate esattamente. La caratteristica sostanziale del problema dell’errore di misura nasce dal fatto che si osserva la variabile W invece di X. Il primo passo `e quello di costruire un modello per l’errore di misura mentre l’obiettivo primario `e quello di ottenere stime non distorte dei parametri d’interesse nella situazione di dover stimare un modello per Y in termini di (Z, W ) invece di (Z, X). Per avere successo in questa delicata operazione sono richieste attente analisi. Si pu`o sostituire

(22)

infatti W al posto di X ma devono essere eseguite le correzioni necessarie, altrimenti si ottengono stime distorte, come verr`a illustrato in seguito.

Se il meccanismo dell’errore di misura viene visto in termini di distribuzione della variabile surrogato W data la vera variabile d’interesse X, `e possibile esprimere la densit`a congiunta delle variabili rilevanti come

f (W, Y, X, Z) = f (W |Y, X, Z)f (Y |X, Z)f (X|Z)f (Z) (2.1) Il primo termine si definisce modello per l’errore di misura (measurement mod-el). In altre parole si tratta della densit`a della variabile affetta da errore di misura W , condizionata alla variabile risposta Y , alla vera variabile d’inter-esse X e al vettore contenente le altre variabili esplicative Z. Questo descrive come la variabile esplicativa surrogato W deriva dalla vera variabile esplica-tiva X, considerando il fatto che le variabili Y e Z possono influenzare questo processo.

Il secondo termine indica il modello per la variabile d’interesse (disease model) e descrive la relazione fra la variabile risposta Y e le variabili esplica-tive (X, Z). Tipicamente il primo obiettivo consiste nel scoprire la forma di questa relazione.

Considerati insieme, il terzo e quarto termine costituiscono il modello per l’esposizione (exposure model) ovvero la distribuzione congiunta di (X, Z).

Quando si lavora con gli errori di misura capita spesso di non essere in gra-do di stimare i parametri d’interesse servengra-dosi solamente delle informazioni contenute nel campione formato dai valori delle variabili (Y, Z, W ). Alcuni parametri che caratterizzano la distribuzione congiunta di (Z, X, W ) devono essere noti oppure stimati al fine di ottenere una stima del parametro d’in-teresse. Sono necessarie dunque delle informazioni supplementari e la selezione dipende molto dal tipo di modello scelto per l’errore di misura. In seguito si approfondir`a la questione.

Infine, si precisa che questo lavoro si concentrer`a sui problemi che sorgono quando si vuole stimare un modello che mette in relazione una variabile risposta Y con le vere variabili esplicative X e le variabili non affette da errore Z, date le osservazioni sulla variabile W , affette da errore, in aggiunta

(23)

a quelle su Y e Z. Anche la Y potrebbe essere affetta da erorre di misura ma l’attenzione qui si restringe esclusivamente alla presenza dell’errore di misura sulle variabili esplicative.

2.2.1

Modelli per l’errore di misura

Per analizzare gli effetti dell’errore di misura `e fondamentale costruire un modello per il processo che provoca l’errore di misura. In letteratura si distinguono due grandi gruppi:

• modelli per l’errore che plasmano la distribuzione condizionata di W dato (Z, X) e fra questi si trova il modello per l’errore di misura classico; • modelli per l’errore che utilizzano la distribuzione condizionata di X dato (Z, W ) e fra questi si trova il modello per l’errore di misura di Berkson.

Il modello pi`u semplice per l’errore di misura `e il modello classico

W = X + U (2.2)

Questo modello risulta appropriato quando si tenta di determinare diretta-mente X ma si `e incapaci di farlo a causa di varie fonti di errori di misura, come per esempio la taratura dello strumento, errori manuali, l’imprecisione dell’operatore. Nel modello di tipo classico `e la quantit`a d’interesse x ad essere fissa per ciascun individuo ma il valore w che si va a misurare `e pertur-bato da errore. Ha senso perci`o ipotizzare, in queste circostanze, un modello di tipo additivo dove U ha media zero ed `e indipendente da X. Infatti, dal momento che si impone che W sia una misura non distorta per X e che quindi il valore atteso di W condizionato ad X e a tutte le altre variabili Z misurate senza errore sia pari ad X, allora deve essere che E[U |X, Z] = 0. Inoltre la varianza di U pu`o essere di tipo omoschedastico oppure eteroschedastico e viene indicata con σ2

u.

Un modello alternativo `e rappresentato dal modello di Berkson, chiamato anche modello controllato. In questo modello `e la vera variabile X a variare

(24)

attorno a W ossia

X = W + U (2.3)

dove U ha media zero ed `e indipendente da W . Nel modello di Berkson si ha che E[X|W, Z] = W ] dal momento che E[U |W, Z] = 0 e dunque W `e un predittore non distorto per X. Se nel modello di tipo classico U `e indipendente in media dalla vera variabile X, nel modello di Berkson U `e indipendente in media dalla variabile osservata W . Tipicamente un modello di questo tipo per l’errore di misura si pu`o trovare in studi di laboratorio o in situazioni sperimentali nel caso in cui la variabile osservata W si pos-sa misurare con precisione perch`e stabilita dal ricercatore stesso mentre la variabile d’interesse X cambia a causa di svariate fonti d’errore, intrinseche nella natura dell’oggetto stesso. Per esempio si supponga che, in un diseg-no sperimentale, si debba solidificare in un fordiseg-no un certo materiale ad una specifica temperatura W . Nonostante l’operatore possa impostare la temper-atura desiderata W , non si pu`o conoscere con certezza la tempertemper-atura vera X, all’interno del forno, perch´e questa potrebbe variare attorno al valore di W . Questo esempio fa capire bene quanto sia ragionevole l’assunzione che E(X|W ) = W . In letteratura sono state sviluppate procedure di stima e di inferenza per entrambi i modelli.

E’ utile riportare un’altra importante distinzione: la differenza fra er-rori di tipo differenziale e non differenziale. Si presenta un errore di misura non differenziale quando W non apporta su Y pi`u informazioni rispetto a quelle contenute in X e Z. L’errore in W quindi `e non differenziale se la dis-tribuzione condizionata di Y dato (X, Z, W ), indicata come fY |XZW(y|x, z, w),

`e la stessa di Y dato (X, Z), indicata come fY |XZ(y|x, z), ossia

fY |XZW(y|x, z, w) = fY |XZ(y|x, z). In questo caso, W `e chiamato surrogato

per X. Quando invece fY |XZW(y|x, z, w) 6= fY |XZ(y|x, z) l’errore `e

differen-ziale. In letteratura alcuni metodi statistici, atti a correggere gli errori di misura, si basano sull’assunzione che gli errori siano non differenziali e la ra-gione principale `e che questa ipotesi semplifica molti passaggi. Ma `e sempre importante domandarsi se sia ragionevole assumere un errore di questo tipo.

(25)

E’ accettabile in molti casi, per esempio quando l’errore di misura `e ricon-ducibile ad errori legati ad analisi di laboratorio o agli strumenti utilizzati ma soprattutto sono tipici nelle indagini panel.

Per riflettere sulla plausibilit`a dell’assunzione che W possa o no essere un surrogato `e utile immaginare di poter osservare direttamente X e allo stesso tempo includere nel modello di regressione anche W . Per esempio, si suppon-ga che il vero predittore X sia un qualche valore medio temporale o spaziale di un fattore di rischio che varia con il tempo o di un’esposizione che varia nello spazio, mentre W `e una misura di un singolo punto nel tempo o nello spazio. In questi casi W non contribuisce aggiungendo maggiori informazioni di quelle gi`a contenute in X e per questo pu`o definirsi un surrogato.

In ogni caso, questo modo di ragionare non `e infallibile. Anche il par-ticolare modello a cui si fa riferimento influenza la definizione di W come surrogato. Per esempio si supponga che Z sia formata da due compo-nenti, Z = (Z1, Z2). E’ possibile avere che fY |Z1Z2XW = fY |Z1Z2X e che

fY |Z1XW 6= fY |Z1X. Quindi W `e un surrogato nel modello completo che

in-clude Z1 e Z2 ma non lo `e nel modello ridotto. In altre parole, il fatto che

una variabile sia o no un surrogato dipende anche dalle altre variabili incluse nel modello di riferimento.

Con gli errori di misura non differenziali `e possibile stimare i parametri del modello che collega la variabile risposta Y alle vere esplicative usando il predittore W affetto da errore solamente con una quantit`a minima di in-formazioni supplementari sulla distribuzione dell’errore di misura. Inoltre, non `e necessario osservare la vera variabile X. Questo non si pu`o fare con gli errori di misura differenziali ma `e necessario avere un sottocampione con dati di validazione sia del valore misurato che del vero valore.

2.2.2

Conseguenze nella regressione lineare semplice

Per capire gli effetti dell’errore di misura sui risultati inferenziali si prenda come riferimento il seguente modello di regressione lineare semplice

(26)

dove la variabile scalare X ha media µx e varianza σx2. L’errore casuale ε si

distribuisce con media 0 e varianza σ2

ε, in simboli ε ∼ (0; σε2). Supponiamo

inoltre che la variabile d’interesse X e la variabile W siano distribuite normal-mente, con V ar(X) = σ2

x, V ar(W ) = σw2, Cov(X, W ) = σxw, Cov(ε, X) = 0

e Cov(ε, W ) = σεw. I dati disponibili sono le osservazioni provenienti da

(Y, W ). Per stimare i parametri si utilizzano, come metodo di stima, i min-imi quadrati ordinari. In assenza di errore di misura, se si considera la regressione di Y su W , lo stimatore per βx risulta non distorto. In presenza

di errore di misura invece questo stimatore in genere `e distorto e la varianza residua aumenta. La distorsione dello stimatore e il comportamento della varianza residua dipendono molto dal tipo di errore di misura adottato. Fra breve, questa affermazione verr`a maggiormente chiarita.

Per cominciare, si prenda il caso dell’errore di tipo classico (2.2). La variabile X non pu`o essere osservata e invece quello che si osserva `e W = X + U dove U `e indipendente da X, con media 0 e varianza σ2

u. Questo `e il

classico modello additivo per l’errore di misura dove lo stimatore dei minimi quadrati ordinari sulla regressione di Y su W non `e consistente per βx ma lo

`e per βx∗ = λβx, dove λ = σ 2 x σ2 x+ σu2 < 1. (2.5) Dunque, poich`e |βx|σx2/(σ2x+ σ2u) ≤ |βx|, si conclude affermando che lo

sti-matore del coefficiente angolare βx `e sempre distorto verso lo zero. Questo

comportamento `e noto in letteratura con il nome di attenuazione verso lo zero e la quantit`a λ viene invece chiamata fattore di attenuazione o quoziente di affidabilit`a (reliability ratio). La varianza residua della regressione di Y su W `e Var(Y |W ) = σε2+ βxx2 σ 2 u σ2 x+ σ2u . (2.6)

Questo lato del problema, spesso ignorato, `e invece molto importante. La presenza dell’errore di misura non causa solo una sottostima in termini as-soluti del parametro relativo al coefficiente angolare ma apporta anche un notevole aumento della varianza residua, che non `e pari a σ2

(27)

Ora ipotizziamo per l’errore di misura il modello di Berkson. In questo caso lo stimatore del coefficiente angolare βx `e non distorto per βx. La

varianza residua invece `e pi`u grande di quella del vero modello ed `e pari a Var(Y |W ) = σ2ε+ βxx2σ 2 u σ2 x . (2.7)

L’inferenza sui coefficienti di regressione del modello lineare `e robusta con un modello di Berkson per l’errore di misura.

In generale, quando W `e un surrogato di X, lo stimatore del coefficiente angolare βx stima in modo non distorto la quantit`a βxσxw/σw2 e non βx. La

stima potrebbe essere pi`u grande o pi`u piccola di βxe non `e possibile definire

con precisione se c’`e una sovrastima oppure una sottostima come nel caso del modello classico. Per quanto riguarda la varianza residua, essa `e pari a:

Var(Y |W ) = σε2+ βxx2(1 − ρ2xw). (2.8) Quando W `e un surrogato la varianza residua non `e mai inferiore a quella del vero modello ma `e sempre pi`u grande. Si pu`o notare che questa quantit`a, quando ρ2

xw = 1 ossia quando X e W sono perfettamente correlati, si

sem-plifica e viene a coincidere proprio con la varianza residua del vero modello, indicata con σ2

ε. Segue che il coefficiente di determinazione del modello

sti-mato con i minimi quadrati ordinari `e sempre inferiore o al massimo uguale a quello del vero modello. Per recuperare il valore di βxda un’analisi dei dati

osservati, occorre che σxwsia nota. Questa quantit`a si pu`o stimare attraverso

uno studio di validazione dove ci si avvale delle osservazioni per le variabili (X, W ).

Infine, nei modelli con errori differenziali, lo stimatore del coefficiente angolare βx stima in modo non distorto la quantit`a (βxσxw + σεw)/σw2 che

pu`o essere pi`u grande o pi`u piccola di βx a seconda del valore assunto dalle

due covarianze e dalla varianza di W . Conclusioni generali sulla distorsione non sono possibili. Per quanto riguarda la varianza residua, essa `e pari a

Var(Y |W ) = σ2 ε + βx2σx2− (σxwβx+ σεw)2 σ2 w . (2.9)

(28)





 

Figura 2.1: Confronto fra una regressione lineare semplice, in cui la variabile esplicativa X non `e affetta da errore di misura e una regressione lineare semplice in cui la variabile esplicativa X `e affetta da un errore di misura di tipo classico (grafico sopra) ed un errore di misura di tipo Berkson (grafico sotto). La variabile X affetta da errore di misura viene indicata con W . L’illustrazione si riferisce, in entrambi i casi, ad un modello additivo per l’errore di misura. I cerchi di colore verde fanno riferimento alle vere osservazioni del tipo (Y, X) e la linea passante per quei punti `e la retta di regressione stimata con il metodo dei minimi quadrati ordinari. I cerchi blu e la linea passante per essi sono rispettivamente le osservazioni osservate delle variabili (Y, W ) e la retta di regressione stimata con il metodo dei minimi quadrati ordinari.

(29)

In modo analogo, anche la varianza residua potrebbe essere pi`u grande o pi`u piccola rispetto a quella del vero modello.

Modello Valore atteso di βx Varianza residua

Senza errore βx σε2 Classico βx σ 2 x σ2 x+σ 2 u σ2 ε + β2 xσ 2 uσ 2 x σ2 x+σ 2 u Berkson βx σε2+ βx2σx2 σ2 u σ2 x Surrogato βxσσxw2 w σ2 ε + βx2σx2(1 − ρ2xw) Differenziale βxσσxw2 w + σεw σ2 w σ 2 ε + βx2σ2x−(σ xwβx+σεw) 2 σ2 w

Tabella 2.1: I valori attesi e le corrispondenti varianze residue relative al coefficiente angolare in un modello di regressione lineare del tipo (2.4), considerando diversi modelli per l’errore di misura.

2.2.3

Conseguenze nella regressione lineare multipla e

nei modelli non lineari

I risultati riportati nella tabella e le conclusioni qualitative presentate nel caso di un modello di regressione lineare semplice possono essere generalizzate al caso di una regressione lineare multipla.

Se si ipotizza per l’errore di misura il modello di Berkson, sostituendo W al posto di X, non sussiste il problema della distorsione per gli stimatori dei parametri del modello. L’effetto principale, dovuto alla presenza dell’errore di misura, `e rappresentato dall’aumento della varianza residua.

Per un modello di errore di misura classico `e bene evidenziare due aspetti importanti, non presenti nel modello di regressione lineare semplice. Quando il modello include sia le variabili esplicative misurate con errore X e sia quelle misurate senza errore Z, la presenza dell’errore di misura pu`o causare una distorsione anche nello stimatore per βz oltre che sullo stimatore per βx.

Inoltre, l’attenuazione sul coefficiente di una variabile misurata con errore non `e pi`u una semplice funzione della varianza di questa variabile e della varianza dell’errore di misura. Quando sono presenti nel modello pi`u variabili

(30)

esplicative misurate con errore, la distorsione negli stimatori dei coefficienti della regressione `e rappresentata da una funzione non intuitiva che coinvolge la matrice di covarianza dell’errore di misura e la matrice di covarianza del vero predittore.

Gli effetti dell’errore di misura in un modello non lineare sono sostanzial-mente gli stessi di un modello lineare, ovvero inducono distorsione negli sti-matori dei parametri e riducono il potere di previsione del modello. Per quanto riguarda il modello per l’errore di misura di Berkson, se nei modelli di regressione lineare semplice e multipla non induce distorsione nelle stime dei parametri, nei modelli non lineari produce distorsione anche se questa `e nettamente meno forte rispetto a quella causata dall’errore di misura classico.

2.2.4

Metodo dei momenti

Per quanto riguarda la regressione lineare semplice con un modello di tipo classico per l’errore di misura, nella (2.5) si `e visto che i minimi quadrati ordinari forniscono una stima di λβx, dove λ `e il fattore di attenuazione. Se

λ fosse noto, si potrebbe ottenere una stima di βx semplicemente dividendo

βx∗ per λ. Raramente per`o, nella pratica, il fattore di attenuazione `e noto ma

pu`o essere stimato. Se ˆσ2

u`e una stima consistente della varianza dell’errore di

misura e se ˆσ2

w `e la varianza del campione di W , allora una stima consistente

per il fattore di attenuazione `e ˆλ = (ˆσ2

w − ˆσu2)/ˆσw2. Quindi, la stima di

ˆ

βx = βx∗/ˆλ. L’algoritmo descritto `e detto metodo dei momenti.

Sia ˆβx∗ lo stimatore per il coefficiente angolare ottenuto con il metodo dei

minimi quadrati della regressione di Y su W. La sua media `e E[ ˆβx∗] = λβx e

la varianza `e σ2

∗. Lo stimatore di βx ricavato con il metodo dei momenti, se

λ `e noto, `e ˆβM M

x = λ−1βˆx∗, ha media E[ ˆβxM M] = βx e varianza Var[ ˆβxM M] =

λ−2σ2

∗. E’ chiaro che, dal momento che λ < 1, mentre la correzione per

l’attenuazione in ˆβM M

x riduce la distorsione a 0, si verifica un aumento della

variabilit`a dovuto alla varianza dello stimatore distorto ˆβx∗. Se si vuole

ridurre la distorsione il prezzo da pagare `e un aumento della varianza. Nei casi in cui l’assenza della distorsione `e un risultato di primaria importanza,

(31)

allora non si pu`o evitare un incremento della varianza. Nei casi in cui la distorsione pu`o essere tollerata allora `e necessario prendere in considerazione l’errore quadratico medio. Gli stimatori non corretti sono dotati di una maggior distorsione ma di una varianza pi`u piccola rispetto agli stimatori corretti. Infatti si noti che

EQM ( ˆβx∗) = σ∗2+ (1 − λ)2βx2 (2.10) EQM ( ˆβxM M) = λ−2σx2. (2.11) Segue che EQM ( ˆβM M x ) < EQM ( ˆβx∗) (2.12) se e solo se σ2 < λ 2(1 − λ)β2 x 1 + λ (2.13) Poich´e σ2

∗ diminuisce con l’aumentare della numerosit`a campionaria si pu`o

concludere che in campioni sufficientemente ampi `e sempre vantaggioso, in termini di errore quadratico medio, correggere l’attenuazione causata dall’er-rore di misura.

Ricapitolando, le stime dei parametri risultano distorte se non si tiene conto della presenza dell’errore di misura. Volendo per`o risolvere questo problema, nasce un compromesso fra distorsione e varianza. Infatti, quello che succede correggerendo la distorsione, `e che lo stimatore corretto ottenuto `e pi`u variabile di quello distorto. E ovviamente, quando uno stimatore ha una varianza pi`u elevata, gli intervalli di confidenza associati sono pi`u ampi. Questa questione viene portata alla luce facendo riferimento ad una regres-sione lineare semplice del tipo (2.4) ed ad un modello per l’errore di misura classico, del tipo (2.2) ma `e un problema molto generale. Si suppone inoltre che il fattore di attenuazione λ nella (2.5) sia noto. Raramente lo `e nella pratica ma questa assunzione viene fatta per semplificare il ragionamento.

(32)

2.3

Metodi di correzione

In questo paragrafo verranno presentati vari metodi proposti in letteratura per porre rimedio al problema della presenza dell’errore di misura in una o pi`u variabili. Per ciascun metodo verr`a richiamata la teoria sottostante. L’ordine di presentazione seguir`a quello proposto da Carroll, Ruppert e Stefanski in [15]:

• regressione di calibrazione; • variabili strumentali; • simulazione-estrapolazione;

• funzioni di punteggio corrette o condizionate; • verosimiglianza;

• metodi semi parametrici; • approccio bayesiano.

I metodi possono essere di tipo funzionale o strutturale. Un metodo fun-zionalenon fa assunzioni sulla variabile non osservata X ma la modellazione avviene attraverso costanti fisse e non note. Spesso si `e costretti a ricorrere ad una modellazione di tipo funzionale poich´e ci sono poche informazioni sulla distribuzione di X nei dati. I metodi funzionali si dividono fra quelli approssimativamente consistenti dove viene rimossa una parte della distor-sione degli stimatori e quelli completamente consistenti che eliminano tutta la distorsione presente. Tipicamente, i metodi completamente consistenti alla base dei modelli di regressione non lineari richiedono assunzioni sulla distribuzione dell’errore di misura. La regressione di calibrazione e il SIMEX sono esempi di metodi funzionali approssimativamente consistenti mentre i metodi delle funzioni di punteggio corrette o condizionate e alcuni metodi che usano le variabili strumentali sono completamente consistenti per un’ampia classe di modelli.

(33)

Al contrario, in un metodo strutturale la X `e una variabile casuale che deve essere descritta dal modello per l’esposizione. I metodi basati sulla verosimiglianza sono strutturali.

La scelta tra un modello funzionale o strutturale dipende tipicamente dalle assunzioni fatte e in particolare dal modello per la variabile d’interesse, che mette in relazione la variabile Y con la variabile esplicativa, non nota, X e con le altre variabili esplicative Z non affette da errore.

Si noti che i termini funzionale e strutturale fanno riferimento alle as-sunzioni sulla X non sul modello per l’errore di misura. Il vantaggio di un metodo funzionale `e quello di fornire una valida inferenza anche senza occuparsi della distribuzione della X.

Quando si lavora in presenza di errore di misura, una difficolt`a che deve essere affrontata `e la mancanza di informazioni supplemementari al fine di evitare che non venga soddisfatta la condizione per l’identificabilit`a dei parametri. Il problema dell’identificazione riguarda la possibilit`a di individ-uare univocamente i parametri incogniti partendo dalle quantit`a note riferite all’intera popolazione. Se ci`o non succede bisogna ricorrere ad informazioni aggiuntive per ottenere stime consistenti dei parametri d’interesse. Possono essere disponibili in una di queste due forme:

• interni, ossia sottoinsiemi dei dati primari; • esterni, ossia ricavati da altri studi.

Per ciascuna di queste categorie, possiamo identificare tre tipi di dati: • dati di validazione, se `e disponibile un’osservazione diretta della variabile

X; questa osservazione viene chiamata misura gold standard di X; • misure ripetute, quando due o pi`u osservazioni di W sono effettuate sulle

medesime unit`a statistiche;

• variabili strumentali, quando si osserva anche un’altra variabile V , oltre a W .

(34)

Esistono due tipologie di metodi che consentono di superare il problema del-l’errore di misura e migliorare l’inferenza, avendo a disposizione osservazioni sulle variabili (Y, Z, W ). Infatti, `e utile fare una distinzione tra approc-cio statistico ed approcapproc-cio econometrico. La distinzione si basa sul tipo di informazioni supplementari che vengono utilizzate.

Infatti, i metodi statistici di correzione, sfruttano poca informazione es-terna per concentrarsi direttamente sull’errore e sulle sue caratteristiche. Per esempio, si deve avere un’idea del valore da assegnare a σ2

u. E questa

infor-mazione la si pu`o ricavare da studi passati oppure basandosi sulle aspettative che hanno le persone. Un metodo statistico ha bisogno di informazioni sup-plementari relative proprio all’errore e ricaver`a queste informazioni attraverso dati di validazione oppure misure ripetute.

In econometria invece ci si chiede cosa succede a fare inferenza quando tutta l’informazione a disposizione `e sulle variabili (Y, Z, W ). L’approccio al problema, utilizzato in econometria, `e quello di usare le variabili strumentali. In altre parole, si sfrutta una seconda misura, affetta da errore, usata come strumento per la prima misura, affetta da errore. Ci`o che comunque nei metodi econometrici non si fa `e quello di intervenire direttamente sull’errore di misura.

2.3.1

La regressione di calibrazione

Il metodo della regressione di calibrazione (regression calibration), RC per ab-breviare, `e uno dei metodi pi`u diffusi per correggere la presenza dell’errore di misura e viene applicato con successo a molti modelli di regressione. Questo metodo funzionale, per la sua semplicit`a e per la facile implementazione grazie a pacchetti gi`a esistenti in R, `e ampiamente utilizzato.

L’algoritmo alla base di questo metodo punta ad approssimare il modello che lega la Y con (Z, X) considerando la regressione lineare della vera vari-abile X sulla varivari-abile surrogato W e sulle variabili non affette da errore Z. Per descrivere questo metodo `e utile immaginare un approccio che attribuisce valori alla variabile non osservata X. In effetti l’idea che caratterizza questo

(35)

metodo `e quella di stimare la X con X∗, ovvero con il valore previsto di X

del-la regressione di X su (Z, W ). Per modeldel-lare e stimare del-la regressione di X su (Z, W ) sono necessarie informazioni supplementari come dati di validazione, interni o esterni, osservazioni replicate o variabili strumentali. I parametri nel vero modello per la variabile d’interesse vengono stimati regredendo la Y su (Z, X∗). Si noti che la X`e la miglior stima di X usando le variabili

esplicative osservate (Z, W ), ossia `e la stima che meglio riesce a minimizzare l’errore quadratico medio di previsione. Questa approssimazione del vero modello per la variabile d’interesse viene poi usata per effettuare un’analisi e per ottenere le stime dei parametri. Infine gli errori standard di queste stime dovranno essere aggiustati dal momento che la X viene stimata. Solitamente si ricorre ai metodi bootstrap, jackknife o sandwich. Il metodo bootstrap richiede meno programmazione ma il calcolatore impiega molto tempo ad elaborare il risultato e questo pu`o essere un vero problema dal momento che `e realistico pensare che i ricercatori non siano propensi a volerlo utilizzare facilmente nelle loro applicazioni. Una spiegazione dei metodi bootstrap, jackknife e sandwich `e riportata in Appendice.

Per riassumere, la RC si sviluppa attraverso questi due passi:

1. modellare e stimare la regressione di X su (Z, W ) per ottenere X∗;

2. regredire la Y su (Z, X∗) per ottenere le stime dei parametri della

regressione.

Per alcuni modelli, come per esempio i modelli loglineari e la regressione lineare, quando la varianza di X dati (Z, W ) `e costante, allora l’approssi-mazione della RC, che lega X a (Z, W ), `e esatta, fatta eccezione per un cambiamento nell’intercetta del parametro. Questo metodo dunque risulta completamente consistente. Nei modelli non lineari come la regressione logis-tica `e approssimativamente consistente. L’approssimazione pu`o essere svolta usando uno sviluppo in serie di Taylor, assumendo che la varianza dell’errore di misura sia piccola. In ogni caso, prendendo dei termini aggiuntivi nella serie di Taylor si possono ottenere approssimazioni migliori.

(36)

Per applicare il metodo della RC devono essere soddisfatte alcune assun-zioni. In particolare si richiede che:

• il modello che lega X a W sia di tipo lineare omoschedastico; • gli errori di misura siano non differenziali;

• la varianza dell’errore di misura sia piccola.

Quando saltano una o pi`u fra queste assunzioni, la RC pu`o risultare inef-ficiente per ridurre la distorsione, specialmente nei modelli non lineari. In particolare, l’ipotesi che l’errore di misura sia non differenziale raramente, nelle applicazioni, `e soddisfatta.

Come si `e gi`a anticipato prima, il metodo della RC richiede informazioni aggiuntive per essere in grado di predire le osservazioni per la variabile non nota X dalle osservazioni di W affette da errore. L’informazione supple-mentare ideale `e rappresentata dalle misure esatte per X (gold standard) in un sottoinsieme dei dati primari.

2.3.2

Variabili strumentali

Si prenda in considerazione il modello per l’errore di misura classico, ossia W = X + U , U ∼ N (0, σ2

u), con σu2 nota. Una variabile strumentale V `e una

misura supplementare di X che soddisfa i seguenti tre requisiti: 1. `e correlata con X;

2. non `e correlata con il termine d’errore U = W − X;

3. `e un surrogato di X, nel senso che fY |XZV(y|x, z, v) = fY |XZ(y|x, z).

Per capire meglio l’idea principale del metodo di stima che usa le variabili strumentali si prenda in esame questo semplice esempio. Si consideri un modello lineare semplice senza intercetta: Y = βxX + ε e W = X + U . Non

potendo osservare X, si deve lavorare con W e il modello Y = βxW +˜ε. Ma W

(37)

modello di regressione lineare causando cos`ı la distorsione dello stimatore dei minimi quadrati ordinari di βx. L’equazione di stimaPni=1(Yi− βxWi)Wi = 0

`e distorta perch´e Wi e Yi−βxWi sono correlati. Si pu`o costruire un’equazione

non distorta sostituendo Wi, fuori dalle parentesi, con una quantit`a

incorre-lata con Yi− βxWi. Una variabile strumentale V soddisfa questo requisito e

l’equazione di stima Pn

i=1(Yi− βxWi)Vi = 0 fornisce lo stimatore consistente

ˆ βx = n X i=1 YiVi/ n X i=1 WiVi. (2.14)

Per quanto riguarda i modelli lineari, la stima con le variabili strumentali `e ampiamente illustrata da Fuller (si veda [14] per maggiori dettagli). Per i modelli non lineari sono stati proposti vari approcci. Tra i pi`u comuni si pu`o menzionare quello presentato da Carroll e Stefanski , collegato alla RC (si veda [16] per maggiori dettagli). Approcci differenti si possono trovare in Amemiya per i modelli non lineari (si veda [17], [18], [19] per maggiori dettagli) e in Buzas e Stefanski per i modelli lineari generalizzati nella forma canonica (si veda [20] per maggiori dettagli).

2.3.3

SIMEX

La RC `e un metodo semplice per correggere la presenza degli errori di misura quando sono disponibili dati di validazione o di replicazione per modellare la relazione fra X e (Z, W ). Questo approccio per`o richiede che alcune assun-zioni siano soddisfatte. Per contro il metodo della simulazione-estrapolazione (SIMEX, per abbreviare) non necessita di ipotesi sulla distribuzione delle variabili. E’ un metodo funzionale che si basa sulla simulazione per ridurre la distorsione dovuta all’errore di misura ed `e consistente per il modello lin-eare classico e approssimativamente consistente per i modelli non lineari. Condivide con la RC la semplicit`a di applicazione e si presta bene in quei casi dove si ipotizza, per l’errore di misura, una struttura di tipo additivo. E’ l’unico metodo in grado di fornire una rappresentazione concreta e visiva degli effetti che l’errore di misura ha sulle stime dei parametri.

(38)

L’intuizione sottostante a questo procedimento `e che l’effetto dell’errore di misura su uno stimatore possa essere determinato sperimentalmente at-traverso la simulazione. In effetti la distorsione varia in modo sistematico a seconda del peso assunto dall’errore di misura. Le stime SIMEX sono ot-tenute mediante una procedura suddivisa in due passaggi. Nel primo passo viene aggiunto in maniera progressiva errore alle misure e vengono stimati i parametri della regressione corrispondente. Questa prima fase viene chiamata simulazione (simulation step). Successivamente viene modellata la relazione tra le stime dei parametri e la varianza degli errori di misura. In pratica si inserisce errore di misura nei dati, si cerca di coglierne l’andamento e in-fine si rimuove per ottenere le stime SIMEX dei parametri. Questo secondo passaggio viene chiamato estrapolazione (extrapolation step). La tecnica `e stata proposta da Cook a Stefanski (si veda [21] per maggiori dettagli). Pi`u tardi `e stata sviluppata da Carroll, K¨uchenhoff, Lombard e Stefanski (si veda [22] per maggiori dettagli) e da Stefanski e Cook (si veda [23] per maggiori dettagli).

Le caratteristiche specifiche dell’algoritmo SIMEX verranno descritte in questa sezione prendendo come esempio la regressione lineare semplice con errore di misura classico additivo. Si suppone che Y = β0 + βxX + ε, con

W = X + U , dove U `e una variabile normale, indipendente da (Y, X), con media zero e varianza σ2

u. Nei casi in cui σu non sia nota viene stimata

usando informazioni supplementari. La stima con i minimi quadrati ordinari di βx, indicata con ˆβxnaive, non stima in modo consistente βx ma piuttosto

la quantit`a βxσx2/(σx2+ σu2) come gi`a spiegato precedentemente. Inoltre, per

questo semplice modello, l’effetto dell’errore di misura sullo stimatore dei minimi quadrati ordinari `e facilmente determinato matematicamente.

Se guardiamo all’errore di misura come ad un fattore di cui si vuole conoscere l’influenza che ha sullo stimatore, si pensa subito a ricorrere al-la simual-lazione dove si possono variare o tenere sotto controllo le quantit`a desiderate, come per esempio la varianza dell’errore di misura. In aggiunta ai dati originari usati per calcolare ˆβnaive

(39)

dati, generati dall’algoritmo SIMEX, ciascuno con una varianza dell’errore di misura pi`u ampia del precedente, pari a (1 + λj)σu2, con j = 1, ..., M ,

dove 0 = λ1 < λ2 < ... < λM. La stima naive del coefficiente angolare

ot-tenuta dal j-mo insieme di dati, ˆβx,j, stima in modo consistente la quantit`a

βxσx2/[σx2+ (1 + λj)σu2]. Per ciascun λj ≥ 0, si determinano

Wb(λj) = W +

q

λjUb, b = 1, ..., B, (2.15)

dove [Ub]Bb=1 sono B pseudo errori generati dal calcolatore, indipendenti fra

loro e con tutte le osservazioni identicamente distribuite come variabili casuali normali, ciscuna con media 0 e varianza σ2

u. La regola pratica suggerisce che

B = 100 per un lavoro accurato. Per ciascun insieme di dati, si calcola la stima naive ˆβb

x di βx. Il valore medio delle B stime naive, indicato con ˆβ(λj)

`e calcolato come ˆ β(λj) = PB b=1βˆbx(λj) B (2.16)

Durante la fase di estrapolazione viene modellata hβ(λˆ j), λj

iM

j=1 come una

funzione di λ. Lo stimatore SIMEX `e l’estrapolazione del modello per λ = −1. Lo stimatore naive `e invece ottenuto per λ = 0.

2.3.4

Funzioni di punteggio corrette o condizionate

I metodi RC e SIMEX sono facilmente applicabili e risultano consistenti se vengono utilizzati nel caso della regressione lineare e nei modelli log-lineari. Sono invece approssimativamente consistenti negli altri casi. Esistono altri metodi funzionali, consistenti per alcuni tipi di modelli lineari generalizzati e per alcune strutture dell’errore di misura. Si tratta dei metodi con funzione di punteggio corretta o condizionata (corrected and conditional scores).

Questi metodi sono stati sviluppati partendo dalle equazioni di stima per i parametri della regressione, nel caso di assenza di errore di misura. Un’equazione di stima `e non distorta se la sua media `e pari a zero. Un esempio `e l’equazione di verosimiglianza basata sulla derivata prima della funzione di log verosimiglianza, fatta rispetto ai parametri. L’errore di misura provoca

(40)

Figura 2.2: Il grafico rappresenta il principio di correzione sottostante al metodo SIMEX. Il valore di (1+λ) `e riportato sull’asse delle ascisse, mentre il valore del coefficiente stimato `e riportato sull’asse delle ordinate. La stima SIMEX `e un’estrapolazione in corrispondenza di λ = −1. La stima naive si trova in corrispondenza di λ = 0.

(41)

distorsione nelle equazioni di stima che a loro volta inducono inconsistenza negli stimatori dei parametri. In effetti, il metodo della funzione punteggio corretta fornisce uno stimatore consistente, simile a quello che si andrebbe ad utilizzare nel caso di assenza di errore di misura. Tale metodo `e stato studiato da Stefanski (si veda [24] per maggiori dettagli) e da Nakamura (si veda [25] per maggiori dettagli).

Il metodo della funzione punteggio conditionata `e stato sviluppato da Ste-fanski e Carroll (si veda [26] per maggiori dettagli) e successivamente raffina-to da Stefanski e Carroll, adattandolo al caso di modelli non lineari (si veda [27] per maggiori dettagli). Si tratta di un metodo funzionale e si basa sulla teoria delle statistiche sufficienti. Condizionandosi a queste, i parametri di disturbo possono essere eliminati. Si deve assumere che gli errori di misura si distribuiscano normalmente.

2.3.5

Verosimiglianza

I metodi che usano la verosimiglianza per trattare gli errori di misura sono strutturali. Rispetto ad altri metodi, come per esempio la RC, hanno rice-vuto poca attenzione in letteratura a causa della loro complessit`a in termini computazionali e della difficolt`a a controllare la validit`a delle assunzioni che essi richiedono. Recentemente invece alcuni risultati hanno portato alla luce i vantaggi dei metodi di verosimiglianza, pi`u di tutto le propriet`a di ottimalit`a degli stimatori corrispondenti. Si veda [28] e [29] per maggiori dettagli.

Qui sotto vengono riportate alcune significative differenze fra l’approccio basato sulla verosimiglianza e i metodi funzionali precedentemente descritti. • Ci sono metodi funzionali che sono completamente consistenti e non solo approssimativamente consistenti senza dover fare assunzioni sulla distribuzione della vera variabile d’interesse X. Al contrario, i meto-di basati sulla verosimiglianza, richiedono forti assunzioni sulle meto- dis-tribuzioni delle variabili coinvolte ma possono essere applicati a prob-lemi pi`u generali.

(42)

• I metodi basati sulla verosimiglianza consentono di sviluppare proce-dure inferenziali, per calcolare intervalli di confidenza e test, molto pi`u attendibili rispetto a quelle solitamente adottate nei metodi funzion-ali, dove l’inferenza si affida a ricampionamento e ad approssimazioni normali.

• I metodi di verosimiglianza sono molto pi`u esigenti dal punto di vista computazionale, al contrario dei metodi fin qui descritti che presup-pongono l’utilizzo di pacchetti statistici standard.

• La selezione del modello e l’analisi di robustezza sono generalmente problemi pi`u rilevanti nei metodi basati sulla verosimiglianza.

• In un contesto di regressione lineare segmentata, nelle simulazioni dove le variabili X e W sono distribuite normalmente, si evince che le stime di massima verosimiglianza sono tipicamente molto pi`u efficienti rispet-to a stime ottenute con il merispet-todo SIMEX (si veda [30]). Assumendo inoltre che la X sia una mistura di distribuzioni normali si aggiun-gono informazioni considerevoli al problema. La verosimiglianza ne trae vantaggio dal momento che lo stimatore corrispondente mostra una varianza pi`u piccola.

L’analisi basata sulla verosimiglianza richiede che tutti i componenti vengano completamente descritti da un modello parametrico.

1. Il modello che lega il risultato Y alla vera variabile X, alla variabile W affetta da errore e alle variabili Z, ossia il modello per la variabile d’interesse, deve essere specificato

fY |XZW(y|x, z, w; θ1). (2.17)

Il modello (2.17) coincide con fY |XZ(y|x, z; θ1) quando si assume che

l’errore di misura sia di tipo non differenziale, come si assumer`a d’ora in poi. La distribuzione normale e quella logistica sono solitamente adottati per il modello (2.17).

(43)

2. Il modello che collega la variabile W affetta da errore con la vera es-posizione X e le variabili Z, deve essere specificato e viene chiamato modello per l’errore di misura

fW |XZ(w|x, z; θ2). (2.18)

3. Infine, si ha bisogno di specificare il modello per la vera esposizione X, chiamato appunto modello per l’esposizione

fX|Z(x|z; θ3). (2.19)

La verosimiglianza per i dati osservati da (Y, W, Z) `e ottenuta mediante inte-grazione fatta rispetto alle vere ma ignote variabili X. Perci`o, la verosimiglian-za integrata `e data dalla seguente espressione

L(θ; y, w, z) =

Z

fY |XZ(y|x, z; θ1)fW |XZ(w|x, z; θ2)fX|Z(x|z; θ3)dx, (2.20)

dove θ = (θ1, θ2, θ3). L’integrale deve essere sostituito dalla sommatoria se

X `e una variabile discreta.

Se `e disponibile l’informazione supplementare su X, questa pu`o essere usata per stimare θ2 e θ3. Queste stime possono poi essere sostituite al posto

dei parametri corrispondenti nella (2.20) e la pseudo verosimiglianza ottenuta pu`o cos`ı essere massimizzata rispetto ai restanti parametri θ1.

Finora `e stato assunto che l’errore di misura fosse di tipo non differenziale. Se invece si ipotizza un errore di Berkson, allora il modello per l’errore di misura (2.18) cambia e cos`ı pure la verosimiglianza. Dopo aver specificato il modello per la variabile d’interesse (2.17), occorre determinare anche il modello che lega la X alla W , fX|W Z(x|w, z; θ4) e la distribuzione di W ,

fW |Z(w|z, θ5). La funzione di verosimiglianza per θ = (θ1, θ4, θ5) `e pari a

L(θ; y, w, z) =

Z

fY |XZ(y|x, z; θ1)fX|W Z(x|w, z; θ4)fW |Z(w|z; θ5)dx, (2.21)

che pu`o essere semplificata nella L(θ; y, w, z) =

Z

(44)

se si considera che la fW |Z(w|z; θ5) non apporta informazioni sul parametro

d’interesse θ1 e non dipende da X. Come prima, l’integrale verr`a sostituito

dalla sommatoria nel caso in cui la variabile casuale X sia discreta.

Per soddisfare la condizione di identificazione dei parametri non basta sfruttare le informazioni fornite da (Y, Z, W ) ma `e necessario procurare infor-mazioni supplementari. Alcuni parametri possono essere assunti noti perch`e il valore viene fornito da studi precedenti, altri possono essere stimati ricor-rendo ad informazioni supplementari, come per esempio dati di validazione, sia interni che esterni.

In alcuni casi, invece, i parametri sono identificabili senza dover ricor-rere ad informazioni supplementari, fatta eccezione per quelle fornite da (Y, Z, W ). Per esempio, nel caso della regressione lineare `e noto che, se la variabile X non `e distribuita normalmente, i parametri della regressione pos-sono essere identificati anche senza osservazioni ripetute o dati di validazione, (si veda [14] per maggiori dettagli).

Ci`o significa che le stime dei parametri saranno molto instabili se la X `e vicina all’essere distribuita come una normale. In una regressione binaria, avente una X distribuita normalmente, `e noto che il modello probit non `e identificato senza informazioni supplementari mentre un modello logistico lo `e, si veda Carroll et al. ([15]).

Possono sorgere alcuni problemi di tipo computazionale quando si tratta di valutare le espressioni (2.20) o il (2.21). Se la variabile vera, non nota, X `e continua, sia nel caso in cui l’errore sia classico o di Berkson, il calcolo della funzione di verosimiglianza necessita la valutazione di un integrale e solitamente si utilizzano metodi numerici o approssimazioni analitiche. Ci si riferisce al metodo Monte Carlo, presentato da Carroll et al. (si veda [15], paragrafo 7.9.1). Inoltre, si trovano esempi di modelli di regressione lineare, logistica e probit con una distribuzione normale per (X, Z), si veda Carroll et al. (si veda [15], paragrafo 7.9.2).

Figura

Figura 2.1: Confronto fra una regressione lineare semplice, in cui la variabile esplicativa X non `e affetta da errore di misura e una regressione lineare semplice in cui la variabile esplicativa X `e affetta da un errore di misura di tipo classico (grafic
Tabella 2.1: I valori attesi e le corrispondenti varianze residue relative al coefficiente angolare in un modello di regressione lineare del tipo (2.4), considerando diversi modelli per l’errore di misura.
Figura 2.2: Il grafico rappresenta il principio di correzione sottostante al metodo SIMEX
Figura 3.1: Rappresentazione empirica che mostra la distribuzione del logaritmo del consumo per individui con un’et`a compresa fra 61–65 anni
+7

Riferimenti

Documenti correlati

È importante sottolineare che XML non può essere posto sullo stesso pia- no dello HTML, il linguaggio correntemente utilizzato per la realizzazione delle pagine web. Come si è

Come afferma Gianfranco Ghiglione, proprietario insieme alla sorella del Frantoio Ghiglione di Dolcedo (Imperia), in un’intervista rilasciata alla sottoscritta in

SE R² =0 SIGNIFICA CHE IL CONTRIBUTO ESPLICATIVO ALLA DEVIANZA COMPLESSIVA APPORTATO DAL MODELLO È IDENTICAMENTE NULLO; LA DEVIANZA COMPLESSIVA È SOLO SPIEGATA DALLA

La distorsione nel punto di collegamento comune (PCC) di un utente è il ri- sultato dell'interazione della distorsione prodotta di tutti gli utenti collegati allo

Si può notare, sulla base di quanto detto, che gli errori sistematici sono legati al grado di accuratezza con cui viene effettuata la misura, mentre quelli accidentali sono

Di solito l’errore δx `e composto da due tipi di errori diversi, gli errori casuali (anche chiamati errori statistici) e gli errori sistematici.. 1.1