Analisi delle serie storiche: considerazioni teoriche per valutazioni qualitative e quantitative

CAPITOLO 3 La serie storica RICA

3.2. Analisi delle serie storiche: considerazioni teoriche per valutazioni qualitative e quantitative

Le innovazioni introdotte nel campione RICA-Italia 2003 hanno determinato una rot- tura nella continuità delle serie storiche delle principali variabili economiche che risultano oggetto di interesse per analisi di tipo socio-economico, oltre a modificare i principali indicatori da esse derivanti, rendendo particolarmente difficili i confronti intertemporali dei dati.

Gli effetti principali di tali discrepanze sono rappresentati dalla difficoltà a produrre: - analisi di lungo periodo, per le quali occorrono serie storiche coerenti sul piano

temporale;

renti con la nuova metodologia di rilevazione.

Un possibile approccio per una lettura della serie storica che garantisca continuità viene qui proposto attraverso una metodologia che si basa sulla ricostruzione della serie storica a partire dalle caratteristiche del campione casuale del 2003. Il fine è quello di ottenere dati coerenti con la nuova indagine che siano utilizzabili per analisi di breve, medio e lungo periodo. La tecnica proposta vuole essere una prima indi- cazione per agevolare la soluzione del problema del confronto intertemporale dei dati per analisi di tipo economico, questione che necessiterà comunque di ulteriori approfondimenti e della disponibilità dei dati campionari degli anni successivi al 2003. L’obiettivo che si intende raggiungere è rappresentato dalla ricostruzione di una serie storica “a ritroso”, basata sui dati del campione casuale 2003 (ISTAT 2005). Questo procedimento permette di ottenere una stima dei dati della serie storica precedente sulla base dei criteri del campione probabilistico. Si ha quindi la possibilità di con- frontare la stima dei dati del passato con i dati effettivamente registrati nel campione ragionato, producendo una valutazione degli scostamenti (Brewer, 1995; Copas, 1997). Applicando al campione ragionato i criteri del campione causale, si produco- no stime di dati che sono stati effettivamente registrati. Le differenze che si possono osservare tra le stime e i valori dei dati osservati indicano gli scostamenti, ovvero mettono in evidenza quanto il campione ragionato si discosti da campione casuale. Tale metodologia si può definire di “raccordo” tra le serie storiche e si basa su un modello per componenti (ISTAT, 2004). Essendo un approccio “model based”, vengono utilizzate tecniche econometriche e statistiche di analisi dei dati temporali: la serie storica di ogni variabile viene scomposta nelle sue componenti (Trend, Ciclo/Stagionalità e Componente Erratica) attraverso modelli di tipo ARIMA (Piccolo 1990). Al fine di poter ottenere la serie “a ritroso”, è necessario individuare dei parametri di raccordo basati sulle informazioni ottenibili dal campione casuale 2003. Una volta individuati tali coefficienti, essi vengono applicati ai valori della serie precedente, portando così all’indietro il punto iniziale della nuova serie, ovvero “trasferendo” le innovazioni statistiche sulla serie costruita con metodo non probabilistico. Questa metodologia potrebbe essere applicata ad alcune variabili interessanti dal punto di vista delle stime: Reddito Lordo Standard, Superficie Agricola Utilizzata, Produzione Lorda Vendibile, Valore Aggiunto, Consumi Intermedi. La dimensione territoriale potrebbe essere l’Italia oppure le singole regioni con una discriminazione per OTE e UDE.

Il concetto sul quale si basa l’analisi delle serie storiche si potrebbe riassumere in questo modo:

In un contesto di analisi temporale dei dati si riscontra la tendenza di alcuni fenome- ni (variabili) ad evolversi in modo più o meno regolare; questo meccanismo induce alla riflessione che un dato rilevato oggi (t) sia più simile a quello rilevato ieri (t-1) piuttosto che a quello rilevato alcuni anni fa23_.

L’analisi classica delle serie temporali propone di scomporre la serie nelle sue componenti, isolandole per poterle studiare meglio. L’approccio stocastico alle serie storiche prevede l’eliminazione delle componenti Trend e Stagionalità (modelli AR, MA, ARIMA) al fine di ottenere un processo stazionario. Le componenti della serie storica possono essere legate tra loro attraverso un modello additivo oppure moltipli-

cativo24_{. Quest’ultimo viene spesso trasformato in un modello additivo impiegando}

l’operatore logaritmo. La componente stagionale è presente nel caso di serie storiche infrannuali (mensili, trimestrali, ecc.), mentre il ciclo è tipico delle serie storiche che descrivono dei fenomeni economici in un periodo di osservazione piuttosto lungo. Spesso, quando non è particolarmente evidente, la componente ciclica viene conside- rata all’interno della componente di fondo. Per la stima del trend si ricorre di solito a funzioni tipiche come la retta (trend lineare), la parabola (trend parabolico), un poli- nomio di grado k, l’esponenziale (trend esponenziale), la logistica e altre. Tali funzioni sono, per la maggioranza dei casi, lineari o per le quali risulta semplice applicare opportune trasformazioni per renderle lineari. Oltre al metodo analitico per la stima del trend, ci sono metodi più elementari, anche se meno raffinati, per de-trendizzare una serie temporale: la perequazione meccanica con medie mobili e l’applicazione dell’operatore differenza. L’analisi delle serie storiche può essere organizzata secondo steps consecutivi che conducono all’individuazione di un modello finale che inter- preta l’andamento dei dati e fornisce gli strumenti per effettuare un’interpolazione previsionale. Per gli approfondimenti del caso, si rimanda alla letteratura specialisti- ca a partire dal testo citato in bibliografia (Piccolo 1990).

3.2.1. La post-stratificazione

L’attuale fase di transizione “dal campione disponibile a quello probabilistico” non ha permesso di ottenere un campione casuale coerente con le ipotesi a priori: i problemi di “caduta” delle aziende e le successive sostituzioni, hanno, infatti, inficiato la natu- ra probabilistica del campione RICA. Non sussistendo quindi le condizioni per l’applicazione dei metodi dell’inferenza statistica classica, si è fatto ricorso al metodo della post-stratificazione quale tecnica utile ad interpretare e correggere le distorsioni intrinseche del campione. La validità della post-stratificazione in questo senso è largamente riconosciuta perché permette di ottenere stime più accurate delle quantità di popolazione: il concetto sul quale si basa questa metodologia è il fatto che se la popolazione è composta da gruppi distinti (strati) che differiscono tra loro rispetto alla quantità che vogliamo stimare, ed è nota la composizione di questi strati in popolazione, allora è possibile ottenere una stima più accurata delle quantità oggetto di interesse, attraverso una correzione delle stime campionarie riequilibrando, ove necessario, la non rappresentatività degli strati del campione (strati sottorappresenta-

24_{Forma funzionale del modello additivo Y}

t= Tt + Ct + St + E t e del modello moltiplicativo Y_t= T_{t * Ct * St * E t}

ti oppure sovrarappresentati). Tale correzione si ottiene utilizzando una media pesata delle medie di strato, come stima della media di popolazione. Se si calcola la varianza di questa stima condizionatamente al numero di osservazioni che compongono ogni strato (Holt, Smith, 1979) e la varianza di questa stima sarà una combinazione lineare della varianza delle medie di strato. I risultati saranno tanto migliori quanto le variabili oggetto di interesse saranno correlate con le variabili utilizzate per post-stratificare. L’utilizzo di questa metodologia ha forti limiti e, tra questi, il principale è la

necessità di dover conoscere la proporzione della popolazione di ciascuno strato25_.

L’operazione di stratificazione attraverso alcune variabili si basa, infatti, essenzial- mente sulla conoscenza di due aspetti:

- della distribuzione della popolazione rispetto a tali fattori di stratificazione; - dell’appartenenza ad un particolare strato delle unità di popolazione.

Generalmente è noto il primo, ma non il secondo di questi aspetti: in questi casi è possibile applicare il concetto di post-stratificazione, ovvero effettuare una stratificazione successiva alla selezione. Il campione viene trattato come se fosse un campione casuale stratificato al quale vengono associati dei pesi: il proposito è quello di conte- nere le distorsioni, pesando le medie di strato che si sarebbero ottenute con un campionamento casuale, in modo che la media campionaria possa rappresentare la media della popolazione il più correttamente possibile.

Nei paragrafi successivi vengono presentati i risultati di due applicazioni del metodo della post-stratificazione (Alvisi, Filippucci 1994): la prima riguarda la serie storica RICA 1990-2000 di una regione italiana, mentre la seconda si riferisce al campione RICA nazionale per gli anni 2002, 2003.

3.2.2. Il caso del Veneto: la serie storica RICA 1990-2000

Un’applicazione del metodo della post-stratificazione è stato effettuato sulla serie storica RICA 1990-2000 della regione Veneto. L’obiettivo di questa analisi è stato rea- lizzato attraverso il compimento di tre fasi:

1. la prima ha permesso di indagare sulla conformità della distribuzione campiona-

riarispetto a quella della popolazione, mettendo in evidenza i problemi di rappre-

sentatività del campione RICA;

2. la seconda fase è stata dedicata alla riorganizzazione del campione, utilizzando criteri di classificazione diversi rispetto a quelli utilizzati fino ad ora, formulando alcune ipotesi di stratificazione a posteriori in grado di cogliere e correggere la distorsione che affligge il campione;

3. la terza fase, infine, ha cercato di produrre stime accettabili di alcuni aggregati, mettendoli a confronto con alcune fonti esterne disponibili.

25_{In alcuni casi, stratificare la popolazione prima di effettuare un campionamento può risultare impossi-}

bile; ciò accade quando l’attributo necessario alla stratificazione diviene disponibile solo una volta che il campione è stato estratto.

La ricerca ha come obiettivo quello di definire e applicare una strategia per effettuare inferenza. Il problema principale è quello di non avere a disposizione un campione casuale e di riscontrare una ripetizione temporale parziale delle osservazioni. I dati sono stati, perciò, considerati come se appartenessero ad un’indagine longitudinale, anche se i periodi di permanenza nel campione sono diversi (Drudi, Filippucci, 2000). È necessario ribadire che non è possibile trarre delle conclusioni certe. Tra i fattori che hanno influito sulla costruzione di questo sistema di analisi, il primo fra tutti è la costruzione del sistema dei pesi basato sul Censimento del 1990 (Appendice B). La prima conseguenza è che l’interpretazione delle stime è alquanto rischiosa per gli anni successivi al 1990. Inoltre, poiché la serie storica è composta da undici anni, risulta evidente che l’arco temporale considerato è tale da produrre cambiamenti con- sistenti in qualsiasi contesto e, a maggior ragione, in agricoltura. Un altro aspetto che andrebbe approfondito è la distinzione tra piccole e grandi imprese e la conseguente diversa valutazione dei fatti economici che le contraddistingue. Inoltre, per le caratteristiche dei dati RICA, non sono stati applicati alcuni stimatori complessi (come, per esempio, lo stimatore di Fuller) che avrebbero forse contribuito a fornire una maggiore correttezza delle stime. Ultima, ma non meno importante, la mancanza di alcune procedure di controllo dei dati che avrebbero dovuto precedere l’inizio delle operazioni di valutazione, come ad esempio il controllo delle aziende outliers. L’ipotesi accettata è che la banca dati sia “affidabile”, tuttavia, se aziende anomale fossero rimaste in banca dati, esse avrebbero influito notevolmente sulle stime, facen- done aumentare la distorsione. Infine, potrebbe essere utile operare un confronto dei risultati ottenuti rispetto a quelli derivanti dall’applicazione di altre metodologie statistiche, come ad esempio quella dei cosiddetti metodi dipendenti da modello. La verifica della rappresentatività del campione RICA è stata realizzata attraverso il confronto delle distribuzioni del numero di aziende e della SAU, secondo: il carattere territoriale delle Province, il carattere economico OTE, la classificazione delle aziende per UDE (Alvisi, Filippucci, 1994). Questo confronto è stato osservato per le aziende della Rete e per le aziende regionali rilevate attraverso il Censimento 1990, considerando in particolare le aziende con UDE maggiore di 2. Per valutare lo sco- stamento delle distribuzioni della RICA da quelle del Censimento è stato utilizzato il test di conformità chi-quadro. E’ stata poi proposta una riclassificazione delle aziende, per quanto riguarda localizzazione, tipologia produttiva e dimensione aziendale. Successivamente sono state individuate alcune variabili di post-stratificazione secondo le aggregazioni ritenute più idonee. Infine, dopo aver costruito un sistema di pon- derazione, sono state proposte le stime di alcune variabili economiche, utili alla com- prensione dell’andamento economico del settore agricolo (RLS, SAU, PLV, Valore Aggiunto, Consumi Intermedi).

Prospetto 3.1: Elementi considerati per il confronto fra campione RICA

Nel documento La rete contabile agricola nazionale RICA : da rete di assistenza tecnica a fonte statistica (pagine 49-54)