• Non ci sono risultati.

LO STRUMENTO DI ANALISI: IL PROPENSITY SCORE MATCHING

4.1 IL PROPENSITY SCORE MATCHING

Questa tecnica risale agli anni settanta; fu Rubin nel 1974 ad utilizzarla per la prima volta21 e successivamente, negli anni ’80, lo stesso Rubin con Rosenbaum ne ha studiato gli sviluppi22.

Per comprendere le motivazioni e il significato del PSM analizziamo il seguente caso. Immaginiamo che dai risultati di interviste fatte ai consumatori abituali di vino, emerga che chi consuma vino abitualmente sia meno sottoposto ad attacchi di cuore. La notizia in prima battuta può sembrare sensata, ma ad un’analisi più approfondita emergono molte perplessità. La prima riguarda il fatto che

“volontariamente” si diviene consumatori abituali di vino. E se si autoselezionassero solo coloro con l’apparato cardiocircolatorio più forte, o comunque senza problemi cardiaci? In questo caso la minore incidenza di attacchi di cuore non sarebbe dovuta al vino, ma alle caratteristiche “nascoste” dei consumatori abituali. Se accettiamo la notizia così com’è implicitamente ipotizziamo che gli attacchi di cuore siano dovuti la vino e non anche all’età, allo stato sociale, allo stato generale di salute, etc…, a quei fattori cioè che hanno verosimilmente guidato l’autoselezione e che non appaiono più dai risultati. Lo studio per valutare l’effetto del vino sugli attacchi di cuore avrebbe dovuto essere condotto su due gruppi casuali di soggetti scelti a parità d’età, sesso, stato sociale e di qualsiasi altro fattore, escluso il vino, si pensasse legato agli attacchi di cuore.

A conclusione dell’esperimento si sarebbe dovuto valutare l’effetto del vino sugli attacchi di cuore, contando quanti fra i consumatori e non ne fossero stati affetti. Randomizzare l’assegnazione dei soggetti al gruppo dei consumatori e a quello dei non consumatori, sebbene desiderabile, ma può risultare impraticabile, perché antietica o troppo costosa e lunga; ad esempio, è antietico anche solo pensare di studiare le conseguenze di un trattamento che ha un impatto diretto sulla salute delle persone forzando un gruppo di persone a bere ed un altro a non bere.

In situazioni simili a quella sopra descritta è più opportuno studiare il gruppo autoselezionato dei consumatori (detto gruppo dei “casi”, o dei “trattati”) affiancando a questo un altro gruppo (detto dei “controlli”, o dei “non trattati”) reperito tra i non consumatori tramite opportune tecniche di abbinamento.

In pratica l’incidenza di attacchi di cuore tra i casi viene confrontata con quella dei controlli a loro abbinati. Il processo di abbinamento deve scegliere i controlli più simili ai casi per quanto riguarda i fattori di rischio per il cuore, escluso l’uso di vino. Tali fattori sono detti variabili pre-trattamento o pre-intervento.

In termini tecnici, la scelta della tecnica del PSM nasce come tecnica di abbinamento che seleziona controlli simili ai casi, secondo le variabili pre- intervento.

La scelta della tipologia di abbinamento, ovvero il criterio per scegliere quante

unità abbinare e come, può appunto basarsi sul calcolo del cosiddetto propensity score (indice di propensione).

Il propensity score di caso o di controllo è la probabilità condizionata che un’unità venga assegnata al trattamento date le sue caratteristiche osservabili prima del trattamento, ignorando quindi il fatto che sia stata realmente trattata o non-trattata. Tale metodo di abbinamento, molto usato in campo biomedico, ha trovato recentemente applicazione anche nel campo delle indagini statistiche23. In questo ambito il trattamento consiste nell’intervista Web delle varie unità della popolazione oggetto di studio; quindi procederemo indicando con “intervistati” le unità trattate e, viceversa, con “non-intervistati” le unità che non hanno partecipato all’indagine. Si suppone di conoscere per entrambi i gruppi di unità le caratteristiche che possono essere in relazione con il trattamento (cioè con la risposta ad un’intervista Web). Queste caratteristiche sono dette “variabili pre- intervento”; nella letteratura recente sulle indagini Web sono dette “variabili Webographic”24.

Il primo passo per ottenere questo propensity score è quello di stimare, utilizzando tutti gli intervistati Web e non-intervistati disponibili, un modello probabilistico di tipo logit (o probit) che metta in relazione il trattamento (che qui diventa la variabile dipendente) con le variabili esplicative d’interesse. Ovviamente il reperimento di dati sui non intervistati non è banale. Tale aspetto, su cui qui sorvoliamo, è trattato nel paragrafo 4.1.3.

23 Sunghee Lee, “PROPENSITY SCORE ADJUSTMENT AS A WEIGHTING SCHEME FOR

VOLUNTEER PANEL WEB SURVEYS” - Joint Program in Survey Methodology, University of Maryland - 1218 LeFrak Hall College Park, MD 20742

Nel caso del modello logit la relazione funzionale tra la probabilità di trattamento e le variabili esplicative sarà data dalla funzione logistica:

( ) ( m m) m m X X X X e e X T P α+αβ+β+ ++β + = = ...... 1 1 1 1 1 ) 1 (

Una volta stimato, tale modello permetterà, per ogni unità, di predirne la probabilità di partecipare all’intervista condizionata al valore delle sue variabili esplicative: cioè produrrà, per ogni unità, il suo propensity score (che non sarà altro che un numero tra zero e uno.) Quelle unità le cui caratteristiche implicano un’alta propensione alla partecipazione all’intervista avranno un propensity score più vicino a 1 rispetto a quelle unità che invece hanno una bassa propensione. A questo punto torniamo al matching, che è il nostro scopo ultimo. Una volta che disponiamo del propensity score possiamo definire come distanza tra due unità, una intervistata e una no, la differenza “dij” tra i loro propensity score:

j i p p − = ij d dove:

pi è il propensity scorse nel caso dell’unità intervistata;

pj è il propensity scorse nel caso della non-intervistata.

Il vantaggio principale nell’utilizzo del propensity score sta nella possibilità di ridurre a una sola il numero delle variabili da utilizzare per calcolare le differenze tra unità, riducendo sensibilmente la mole e il tempo di lavoro, e semplificando la lettura dei risultati.

Una volta definita la distanza tra le unità, è possibile procedere all’abbinamento di unità intervistate e non-intervistate.

In conclusione potremmo dunque dire che prevediamo che le unità intervistate, in assenza di partecipazione all’indagine, si sarebbero comportate come le unità non-intervistate ad esse più simili; ovvero le due tipologie di unità hanno una simile probabilità di trattamento se risultano simili tra loro, in base alle variabili pre-intervento.

Le procedure di abbinamento in base ai propensity scores sono più d’una ma prima di passarle in rassegna, focalizziamo l’attenzione sui presupposti teorici dell’applicazione del PSM alle indagini Web e facciamo una breve riflessione su come ottenere i dati su i non intervistati.

4.1.1 PRESUPPOSTI TEORICI DEL METODO

Le ipotesi che vincolano la possibile applicazione alle indagini Web di detta procedura sono essenzialmente tre:

1. INDIPENDENZA CONDIZIONALE (o Forte Ignorabilità): si intende che

l’appartenenza al gruppo degli intervistati dipende esclusivamente dalle variabili pre-intervento. Studi empirici mostrano che condizionatamente a certe variabili pre-intervento tale ipotesi può essere accettata nel contesto delle indagini Web. Variabili utili nel nostro caso sono le cosiddette variabili “Webographic”25. Sesso, età, professione, frequenza di uso di

internet, luogo di connessione ad internet hanno predetto la probabilità di partecipare ad un’indagine web in molte applicazioni sulla popolazione generale in molti paesi diversi (Schonlau, Fricker, Elliott,, 2002; Biffignandi e Pratesi, 2002; Varedian e Forsman, 2002; Pratesi, Lozar Manfreda, Biffignandi, Vehovar, 2004).26

2. ADESIONE VOLONTARIA: la decisione individuale di partecipare

all’indagine non deve dipendere dalla decisione di altri individui appartenenti alla popolazione obiettivo. Questa ipotesi, per quanto difficilmente verificabile, è comunemente accettata nello studio della

partecipazione alle indagini statistiche e quindi pare accettabile anche nel caso dei sondaggi web.

Documenti correlati