Lasceltadeltipodimodelloperlavericadellenostreipotesiricadenella classe dei modelli additivi generalizzati. Quello che si cercherà di fare è di formulareecalcolareunprimo CoreModel, un modellonucleo,che conterrà tuttele variabiliconfondenti selezionate eritenute utili. Perquesto modello si utilizzeranno le medie giornaliere osservate (i dati originali). Il secondo passo sarà quello di creare un secondo Core Model, impiegando la stessa formulazione e gli stessi elementi del primo modello, ma utilizzando i dati espansi. Formulati i due modelli, e calibrati tra di loro, si inseriranno in essi ledue variabilirelative all'ozono,rispettivamentela media giornalierae leosservazioni orarie, perpoter confrontare idue metodi.
3.2.1 Costruzione
La formulazione delmodello di partenza è simile a quellaintrodotta nel paragrafo 1.2, anche se in questa tesi non verranno utilizzati modelli stra- ticati per età ma verranno presi in considerazione solo gli anziani over75 anni.
Considerandoilnumerodiricovericomevariabilerisposta, èfacileimpostare il problema con
Yj, j = 1, . . . , J
(J
numero di giorni) variabile conteggio e quindi:Yj
∼ P oisson(λj)
ediconseguenzailmodelloadditivocheandremoacalcolaresaràesprimibile:
log λj
= β0+ conf ondentij
+ ozonoj.
(3.2)Esattamente come nel caso descritto nel Capitolo 1, in
conf ondentij
sono raccolte tutte le variabili che utilizziamo per delineare il problema e che servono per creare la base per poi studiare la relazione traYj
eozonoj
, quindi trailnumerodi ricoveri ele quantitàdiO3
rilevata.Glielementi diconfondimentoconsiderati ed inseriti sono:
conf ondentij
= s1(tj) + s2(tempj) + s3(temp
lag
Le tre funzioni
s1(·), s2(·), s3(·)
, sono funzioni di lisciamento opportune, che vedremo in dettaglio in seguito, e sono relative al tempo (tj
), alla media giornalieradellatemperatura(tempj
) eallamediadella temperaturadeitre giorni precedenti (temp
lag
j
). Le altre tre variabili considerate descrivono laconcentrazionemediagiornalieradi
P M10
(pj
),ilfattorefesta(fj
)eilfattore relativo algiorno della settimana (gj
).All'internodi
ozonoj
vieneinseritoilvaloreregistratodiO3
,maaseconda di che indicatoreutilizzeremo verrà espresso diversamente:(
oj
nelcaso di indicegiornaliero(media),oj(h)
nel caso divaloriorari.3.2.2 La scelta dei GAM
La scelta di utilizzarei modelliadditivi generalizzati(GAM Generalized AdditiveModels)èdovutaalfattoche questistrumentidianalisisiprestano beneastudiincuibisognatenercontodipiùfattori,dipiùvariabiliesplicati- ve. Malacaratteristicadimaggiorrilievoperquestostudioèlapossibilitàdi trattarele variabiliesplicativeall'internodeimodelliinmodoparametricoo intermininonparametrici,attraverso appositilisciatori. Questocipermette di raggiungeremaggioreessibilità nellamodellazione.
Ne è un esempio praticoil modoin cuivengono trattatiglielementiinseriti in
conf ondentij
nella formula(3.3): i primi tre sono inseriti non parametri- camente tramite le tre funzioni di lisciamento, mentre gli ultimi tre fattori, relativialP M10
, afesta e agiorno,sono trattatilinearmente.Diconseguenza, ilmodellocheandremoastimare,senzaconsiderarel'ozono, sarà espresso nelmodoseguente:
log λj
= β0
+ β1pj
+ β2fj+ β3gj+ s1(tj) + s2(tempj) + s3(temp
lag
j
).
(3.4)Essendo
fj
egj
variabili categorialicon, rispettivamente, due e sette livelli, i parametriβ2
eβ3
rappresentano, sinteticamente, i vettori di parametriLe funzioni di regressione
sw(x)
, usate in questa tesi, sono mezzi mol- to utili per descrivere le variabili in quanto sono strumenti che esprimono l'andamento dei valori considerati. Sono particolarmente ecaci anche se inserite all'interno di un modello di regressione nello studio della relazione tra due o più variabili. La struttura delle spline di regressione (il tipo di funzioni utilizzatein questa tesi)sw(x)
è esprimibilecome:sw(x) =
kw
X
i=1
βi· b1i(x),
(3.5)dove
x
èlavariabiledalisciare,kw
èladimensionedellabase utilizzatanella splinew
per rappresentare il terminelisciato,βi
sono i parametri all'interno della funzione eb
·(·)
è la funzione di base. Un esempio di funzioneb
·(·)
è un polinomio di terzo grado; quindi lo spline di regressione formato da questi polinomi di terzo grado è detto spline cubico e la sua composizione è data dall'unione dikw
polinomi di terzo grado uniti tra di loro ink
nodi, precedentemente ssati.Dunque laprocedura perla creazione diuno spline diregressione, dierente perogni variabilea cuisi vuoleapplicare questa tecnica,consiste nelssare
k
nodi e di disporli tra i valori della variabile d'interesse. Successivamente, scelto il tipo di funzione di base (ad esempio il polinomio di terzo grado), si applica questa funzione ad ogni intervallo tra due nodi facendo in modo che le due funzioni di base, aventi il nodoki
in comune, si congiungano correttamente, ovvero che tutte le derivate disw(x)
siano continue inki
. Una tecnica del genere dipende molto dalla scelta della base e dei nodi; un'alternativa, adottata nei modelli additivi ed utilizzata in questa tesi, è quelladiutilizzaredeglisplinedilisciamentochecomportanol'inserimentodi un parametrodipenalizzazione. Passandoadun approccio non parametrico si utilizza perla stima ilcriterio deiminimiquadrati penalizzati:ky − Xβk2
+ λ
Z
1
0
[s00(x)]2
dx,
(3.6)mentre
λ
rappresentailparametrodilisciamento;. Permaggioridettaglisul- la stima diλ
tramite la convalida incrociata e per altri dettagli sugli spline di lisciamentosi rimandaa Wood(2006).Sono molte le possibili combinazioni che si possono provare per denire la spline di lisciamento più opportuna per la variabile studiata. Il conside- rare indipendentemente tuttele variabilida lisciareo accorparlein un'unica funzione,iltipodibaseelasuadimensione,che tipologiadisplineutilizzare, penalizzata o diregressione, sono solo alcuneopzioni selezionabili.
La scelta eettuata in questa tesi, per letre variabili relative altempo, alla temperaturaed allatemperaturaritardata,è stata dilisciareseparatamente questifattoriediutilizzarepertuttietredellesplinecubichecondimensione di base pari a 10.
La decisione di utilizzarele spline cubiche al posto delle thin-plate spline, o delle p-spline, oppure delle spline prodotto tensoriale o di altri tipi,è stata presadopoaverprovatodiversecombinazionied allanesièoptatoperque- ste, che risultano anche più semplici nel calcolo computazionale. La scelta, invece, di utilizzare il valore di default (proposto dal software R, per det- tagli si veda l'Appendice) di 10, per la dimensione della base, è legata alla grande arbitrarietà associata a questa opzione, tenendo anche conto che la dimensione della base