• Non ci sono risultati.

Il metodo Peaks over Threshold

Capitolo 1: Introduzione al risk management

4.2 Il metodo Peaks over Threshold

Come è stato dimostrato nei paragrafi precedenti, la tecnica di modellare i massimi di ogni blocco con una distribuzione GEV è inefficiente perché anche se si dispone di rilevazioni giornaliere o orarie, si dovrebbe comunque considerare solamente una osservazione per ogni anno, con una evidente perdita di informazioni.

In anni recenti, l'attenzione si è rivolta verso metodi basati sullo studio delle eccedenze rispetto ad una soglia, denominati Peaks – over – threshold (POT). Il metodo POT, a differenza del metodo block – maxima, non considera solamente i massimi, ma anche tutte quelle osservazioni che superano una soglia prestabilita. Questo fatto permette di utilizzare il metodo anche in presenza di un minor numero di osservazioni e per questo motivo è preferibile.

Si consideri nuovamente una serie di variabili aleatorie i.i.d. ( indipendenti e identicamente distribuite ) X1,..., Xn con funzione di ripartizione F. L'idea di base è quella di fissare una soglia alta u e studiare tutti gli eventi che superano questa soglia.

Posto che F(x) è la funzione di distribuzione di tutti i dati a disposizione, identificheremo Fu(x ) come la funzione di distribuzione condizionale degli

eccessi oltre la soglia u che descrive la distribuzione dei valori eccedenti la soglia, condizionatamente al fatto che x > u.

La funzione condizionale di distribuzione degli eccessi può essere definita come segue:

Fu(x )=P ( X −u≤x∣X >u)=F ( x+u)−F (u)

1−F (u)

per 0≤x<xFu , dove xF≤∞ è il valore massimo (della coda di destra) di F. La distribuzione maggiormente usata per approssimare le eccedenze oltre la soglia è la distribuzione generalizzata di Pareto (GPD), la cui funzione di ripartizione è data da:

con β > 0 e x ≥ 0 quando ξ ≥ 0 e 0 ≤ x ≤ -β/ξ quando ξ < 0.

Il parametro ξ è il parametro di forma ( shape parameter ), che determina lo spessore della coda della distribuzione. Il parametro β è invece il parametro di scala ( scale parameter ).

Al pari della distribuzione GEV, la GPD è detta generalizzata perché può racchiudere una serie di casi particolari:

ξ > 0 distribuzione heavy – tailed ;ξ < 0 distribuzione short – tailed; – ξ = 0 distribuzione esponenziale.

Il parametro ξ rappresenta dunque il parametro chiave, che definisce la coda e assume valore positivo per le distribuzioni caratterizzate da code spesse, ossia per quelle che assumono maggiore interesse per il risk management. Esso assume invece valore nullo nel caso della distribuzione normale.

G( x ;ξ ,β)=

{

1−(1+ξ x /β)−1/ ξse ξ≠0

Per la maggior parte delle variabili finanziarie il valore di ξ è positivo e in genere varia tra 0.1 e 0.447.

Si riporta in Figura 6 la densità di probabilità della GPD per diversi valori di ξ positivi, osservando come, all'aumentare del parametro di forma, essa si concentri maggiormente verso valori estremi, ovvero nella coda destra.

Figura 6: Confronto delle densità di probabilità della GPD con u = 0, β = 1 e diversi valori di ξ ≥ 0.

Analogamente, in Figura 7, si riporta la densità della GPD per valori di ξ negativi, osservando in particolare come tutte queste distribuzioni abbiano supporto limitato, sempre più stretto all'aumentare del modulo di ξ.

Figura 7: Confronto delle densità di probabilità delle GPD con u = 0, β = 1 e diversi valori di ξ < 0.

La distribuzione generalizzata di Pareto può essere dunque utilizzata per stimare la funzione di densità cumulata per le osservazioni che si collocano al di sopra della soglia u, ossia per i rendimenti estremi ( positivi, ma anche negativi ) che si collocano nella coda destra o sinistra di una distribuzione. Tali stime risultano peraltro conseguibili in forma chiusa, ossia senza dover ricorrere a procedure di ottimizzazione numerica48, e sono dunque relativamente semplici da calcolare.

4.2.1 La scelta della soglia u

Un primo problema che si incontra nell'applicazione del metodo POT è proprio la scelta della soglia u. Su questo argomento molti ricercatori hanno aperto un dibattito volto ad individuare le soluzioni più efficienti per l'applicazione della GPD. Sembra ormai superato il concetto che individua la soglia in valori stabiliti a priori ed indipendenti dalle grandezze dei dati elaborati. Infatti ogni realizzazione di osservazioni ha in se un concetto relativo di “evento estremo”. Il problema dell'individuazione della soglia u consiste nella scelta di un valore che garantisca il giusto equilibrio tra bias e varianza ( bias/variance trade - off )

48 I problemi di ottimizzazione richiedono di trovare il punto in cui una data funzione assume il valore massimo (o minimo). Spesso, il punto deve soddisfare anche alcuni vincoli.

ovvero tra validità della EVT stessa e incertezza ( varianza ) delle stime: utilizzando una soglia troppo bassa il rischio è di basare il processo di stima su dati non necessariamente estremi con conseguente distorsione dei parametri. Viceversa, con una soglia troppo alta il rischio è di ottenere un numero esiguo di eccedenze con cui stimare il modello, determinando stime inefficienti dei parametri con intervalli di confidenza molto grandi.

Non esiste una regola oggettiva con cui individuare la soglia per ciascun set di dati. Una soluzione comunemente adottata consiste nel fissare la soglia al 90°/95° percentile della distribuzione della variabile in esame.

Ad esempio, per campioni di circa 1.000 osservazioni giornaliere ( circa 4 – 5 anni di dati ), una regola generale è quella di fissare la soglia ad un valore tale da conservare sulla coda un 5% delle osservazioni, ossia circa 50 dati utilizzabili per la stima di ξ. La soglia u sarà dunque rappresentata dal 95° percentile dei dati campionari49.

Nella pratica statistica più in voga, le metodologie di individuazione della soglia si basano principalmente su due metodi grafici.

Il primo viene effettuato prima della stima dei parametri, il secondo, invece, si basa su analisi di robustezza delle stime degli altri parametri al variare della soglia.

Più dettagliatamente, il primo metodo per la scelta di u si basa sull'espressione della media della distribuzione GPD. La media della GPD è definita solo se ξ < 1 ed è pari a:

E ( X )= β

(1−ξ)

Quando ξ ≥ 1 il valore della media è infinito.

La funzione di eccesso medio per la variabile casuale X con media finita, è data invece dalla seguente formula:

e (u)=E ( X −u∣X >u)=β+ξu

1−ξ

dove 0 ≤ u < ∞ se 0 ≤ ξ < 1 e 0 ≤ u ≤ - β / ξ se ξ < 0.

Si osservi che la funzione di eccesso medio è lineare rispetto alla soglia u, ovvero ci si aspetta che queste stime cambino linearmente con u e questa è una delle proprietà che caratterizzano la GPD.

Una soluzione migliore consiste nell'iniziare con un valore di u molto grande e controllare la sensitività delle stime a valori via via più piccoli di u, fermandosi quando le stime diventano ragionevolmente stabili.

Documenti correlati