F ormulazione dei Modelli Additivi

Lasceltadeltipodimodelloperlavericadellenostreipotesiricadenella classe dei modelli additivi generalizzati. Quello che si cercherà di fare è di formulareecalcolareunprimo CoreModel, un modellonucleo,che conterrà tuttele variabiliconfondenti selezionate eritenute utili. Perquesto modello si utilizzeranno le medie giornaliere osservate (i dati originali). Il secondo passo sarà quello di creare un secondo Core Model, impiegando la stessa formulazione e gli stessi elementi del primo modello, ma utilizzando i dati espansi. Formulati i due modelli, e calibrati tra di loro, si inseriranno in essi ledue variabilirelative all'ozono,rispettivamentela media giornalierae leosservazioni orarie, perpoter confrontare idue metodi.

3.2.1 Costruzione

La formulazione delmodello di partenza è simile a quellaintrodotta nel paragrafo 1.2, anche se in questa tesi non verranno utilizzati modelli stra- ticati per età ma verranno presi in considerazione solo gli anziani over75 anni.

Considerandoilnumerodiricovericomevariabilerisposta, èfacileimpostare il problema con

Yj, j = 1, . . . , J

(

J

numero di giorni) variabile conteggio e quindi:

Yj

∼ P oisson(λj)

ediconseguenzailmodelloadditivocheandremoacalcolaresaràesprimibile:

log λj

= β0+ conf ondenti_j

+ ozono_j.

(3.2)

Esattamente come nel caso descritto nel Capitolo 1, in

conf ondentij

sono raccolte tutte le variabili che utilizziamo per delineare il problema e che servono per creare la base per poi studiare la relazione tra

Yj

ozonoj

, quindi trailnumerodi ricoveri ele quantitàdi

O3

rilevata.

Glielementi diconfondimentoconsiderati ed inseriti sono:

conf ondentij

= s1(t_j) + s2(temp_j) + s3(temp

lag

Le tre funzioni

s1(·), s2(·), s3(·)

, sono funzioni di lisciamento opportune, che vedremo in dettaglio in seguito, e sono relative al tempo (

tj

), alla media giornalieradellatemperatura(

tempj

) eallamediadella temperaturadeitre giorni precedenti (

temp

lag

j

). Le altre tre variabili considerate descrivono la

concentrazionemediagiornalieradi

P M10

(

pj

),ilfattorefesta(

fj

)eilfattore relativo algiorno della settimana (

gj

All'internodi

ozonoj

vieneinseritoilvaloreregistratodi

O3

,maaseconda di che indicatoreutilizzeremo verrà espresso diversamente:

(

oj

nelcaso di indicegiornaliero(media),

oj(h)

nel caso divaloriorari.

3.2.2 La scelta dei GAM

La scelta di utilizzarei modelliadditivi generalizzati(GAM Generalized AdditiveModels)èdovutaalfattoche questistrumentidianalisisiprestano beneastudiincuibisognatenercontodipiùfattori,dipiùvariabiliesplicati- ve. Malacaratteristicadimaggiorrilievoperquestostudioèlapossibilitàdi trattarele variabiliesplicativeall'internodeimodelliinmodoparametricoo intermininonparametrici,attraverso appositilisciatori. Questocipermette di raggiungeremaggioreessibilità nellamodellazione.

Ne è un esempio praticoil modoin cuivengono trattatiglielementiinseriti in

conf ondentij

nella formula(3.3): i primi tre sono inseriti non parametri- camente tramite le tre funzioni di lisciamento, mentre gli ultimi tre fattori, relativial

P M10

, afesta e agiorno,sono trattatilinearmente.

Diconseguenza, ilmodellocheandremoastimare,senzaconsiderarel'ozono, sarà espresso nelmodoseguente:

log λj

= β0

+ β1p_j

+ β2f_j+ β3g_j+ s1(t_j) + s2(temp_j) + s3(temp

lag

j

).

(3.4)

Essendo

fj

gj

variabili categorialicon, rispettivamente, due e sette livelli, i parametri

β2

β3

rappresentano, sinteticamente, i vettori di parametri

Le funzioni di regressione

sw(x)

, usate in questa tesi, sono mezzi mol- to utili per descrivere le variabili in quanto sono strumenti che esprimono l'andamento dei valori considerati. Sono particolarmente ecaci anche se inserite all'interno di un modello di regressione nello studio della relazione tra due o più variabili. La struttura delle spline di regressione (il tipo di funzioni utilizzatein questa tesi)

sw(x)

è esprimibilecome:

sw(x) =

kw

X

i=1

βi· b1_i(x),

(3.5)

dove

x

èlavariabiledalisciare,

kw

èladimensionedellabase utilizzatanella spline

w

per rappresentare il terminelisciato,

βi

sono i parametri all'interno della funzione e

b

·(·)

è la funzione di base. Un esempio di funzione

b

·(·)

è un polinomio di terzo grado; quindi lo spline di regressione formato da questi polinomi di terzo grado è detto spline cubico e la sua composizione è data dall'unione di

kw

polinomi di terzo grado uniti tra di loro in

k

nodi, precedentemente ssati.

Dunque laprocedura perla creazione diuno spline diregressione, dierente perogni variabilea cuisi vuoleapplicare questa tecnica,consiste nelssare

k

nodi e di disporli tra i valori della variabile d'interesse. Successivamente, scelto il tipo di funzione di base (ad esempio il polinomio di terzo grado), si applica questa funzione ad ogni intervallo tra due nodi facendo in modo che le due funzioni di base, aventi il nodo

ki

in comune, si congiungano correttamente, ovvero che tutte le derivate di

sw(x)

siano continue in

ki

. Una tecnica del genere dipende molto dalla scelta della base e dei nodi; un'alternativa, adottata nei modelli additivi ed utilizzata in questa tesi, è quelladiutilizzaredeglisplinedilisciamentochecomportanol'inserimentodi un parametrodipenalizzazione. Passandoadun approccio non parametrico si utilizza perla stima ilcriterio deiminimiquadrati penalizzati:

ky − Xβk2

+ λ

Z

1

0 [s00_(x)]2

dx,

(3.6)

mentre

λ

rappresentailparametrodilisciamento;. Permaggioridettaglisul- la stima di

λ

tramite la convalida incrociata e per altri dettagli sugli spline di lisciamentosi rimandaa Wood(2006).

Sono molte le possibili combinazioni che si possono provare per denire la spline di lisciamento più opportuna per la variabile studiata. Il conside- rare indipendentemente tuttele variabilida lisciareo accorparlein un'unica funzione,iltipodibaseelasuadimensione,che tipologiadisplineutilizzare, penalizzata o diregressione, sono solo alcuneopzioni selezionabili.

La scelta eettuata in questa tesi, per letre variabili relative altempo, alla temperaturaed allatemperaturaritardata,è stata dilisciareseparatamente questifattoriediutilizzarepertuttietredellesplinecubichecondimensione di base pari a 10.

La decisione di utilizzarele spline cubiche al posto delle thin-plate spline, o delle p-spline, oppure delle spline prodotto tensoriale o di altri tipi,è stata presadopoaverprovatodiversecombinazionied allanesièoptatoperque- ste, che risultano anche più semplici nel calcolo computazionale. La scelta, invece, di utilizzare il valore di default (proposto dal software R, per dettagli si veda l'Appendice) di 10, per la dimensione della base, è legata alla grande arbitrarietà associata a questa opzione, tenendo anche conto che la dimensione della base

k

rappresenta il limite superiore dei gradi di libertà associabili alla variabile lisciata all'interno del modello additivo, limite pari a

k − 1

. Associare ad una variabile dalisciare una dimensione di base troppo piccolarischiadi limitarel'informazionecontenuta nelle osservazioni, ma conferirle una dimensione troppo grande rischia di attribuire a quel fattore anche della variabilità presente nei dati ma non relativa a quella variabile, andando, probabilmente, a modicare l'interpretazione del problema. Si è voluto, dunque,evitare quest'ultima complicazione.

Nel documento Effetto dell'ozono sulla salute umana: un approccio basato sull'utilizzo delle concentrazioni orarie (pagine 40-43)

Yj, j = 1, . . . , J

J

Yj

∼ P oisson(λj)

log λj

= β0+ conf ondentij

+ ozonoj.

conf ondentij

Yj

ozonoj

O3

conf ondentij

= s1(tj) + s2(tempj) + s3(temp

lag

s1(·), s2(·), s3(·)

tj

tempj

temp

lag

j

P M10

pj

fj

gj

ozonoj

O3

(

oj

oj(h)

conf ondentij

P M10

log λj

= β0

+ β1pj

+ β2fj+ β3gj+ s1(tj) + s2(tempj) + s3(temp

lag

j

).

fj

gj

β2

β3

sw(x)

sw(x)

sw(x) =

kw

X

i=1

βi· b1i(x),

x

kw

w

βi

b

·(·)

b

·(·)

kw

k

k

ki

sw(x)

ki

ky − Xβk2

+ λ

Z

1

0

[s00(x)]2

dx,

λ

λ

k

k − 1

= β0+ conf ondenti_j

+ ozono_j.

= s1(t_j) + s2(temp_j) + s3(temp

+ β1p_j

+ β2f_j+ β3g_j+ s1(t_j) + s2(temp_j) + s3(temp

βi· b1_i(x),

[s00_(x)]2