• Non ci sono risultati.

Impostazione e formalizzazione del modello MUB

IL MODELLO CUB

4.4 Impostazione e formalizzazione del modello MUB

In questo paragrafo si riporta la formalizzazione del modello MUB tratta dagli elaborati proposti dagli autori D’elia e Piccolo.

Le preferenze dei consumatori, ad esempio verso un cibo, uno sport, un ambiente sono molto importanti perché permettono di carpire informazioni fondamentali sui gusti dei soggetti e di poter sviluppare nuovi prodotti. Attraverso le valutazioni espresse si possono portare alla luce bisogni latenti nei consumatori che vengono esternati attraverso la manifestazione di un’opinione sotto forma di numero. L’idea di fondo dalla quale si parte è che i gusti dei consumatori siano considerati come delle variabili causali e le valutazioni siano espresse sotto forma di numero ordinale, è per questo che molto spesso vengono utilizzate le scale likert per chiedere di esprimere un’opinione.

Viene indicato con r la realizzazione di una variabile causale R che rappresenterà il modello MUB, cioè il modello Mistura di una variabile causale Uniforme e di una variabile causale Binomiale traslata (Piccolo, 2008).

Si può pensare al grado di simpatia di un soggetto verso un oggetto come una distribuzione gaussiana in cui è il valore assegnato a tale oggetto e analizzato come una variabile causale discreta R.

17Se non specificato diversamente i dati riguardanti le formule sono tratti da: A. D’elia, D. Piccolo, “A

155 Formalmente si può definire R MUB ( :

[(

) ] [ ] ,

FEELING

INCERTEZZA

in cui sia che assumono valori tra 0 e 1 compresi,

La prima parte di equazione compresa nelle parentesi quadre indica la componente che nel paragrafo precedente è stata definita come feeling ed è rappresentata da una distribuzione binomiale traslata.

Il secondo elemento [ ], rappresenta la componente dell’incertezza, rappresentata da una variabile casuale.

L’espressione di preferenza da parte dell’utente finale è composta di due parti: il sentimento di simpatia/antipatia verso l’oggetto analizzato e l’incertezza nell’esprimere la propria opinione. Come più volte ripetuto, si utilizza spesso una scala di valutazione e tendenzialmente il soggetto che esprime una preferenza è portato ad esprimere un parere più incerto per i valori centrali della scala. Difatti su una scala da 1 a 7 il valore 3 può esprimere una certa indifferenza verso l’oggetto analizzato, non vi è né un sentimento di simpatia/antipatia né una spiccata preferenza.

Inoltre le due componenti dipendono dai pesi a loro assegnati, mentre la componente incertezza dipende dal valore assegnato , il feeling dipende dalla valore assunto da Questi due elementi, come sopra riportato possono assumere valori tra 0 e 1 compresi.

Si ponga il caso che:

 in questo caso la componente del feeling tende a 0 mentre la componente dell’incertezza sarà massima e tendente a 1. Ciò significa che, ad esempio, un intervistato nel rispondere a una domanda percepirà come uguali le varie

156

risposte e la scelta non sarà immediata. Il modello può essere rappresentato come una distribuzione uniforme.

 in questo caso la componente del feeling tende a 1 mentre la componente dell’incertezza sarà minima e tendente a 0. Diversamente da prima, ci si trova nella situazione in cui l’intervistato ha chiara la risposta da dare e questo avverrà in maniera immediata. Il modello può essere rappresentato come una distribuzione binomiale traslata.

 in questo caso la misura del feeling potrà assumere valori compresi tra 0 e 1 esclusi e la componente dell’incertezza sarà data da 1-

Ora si propone la spiegazione del modello utilizzando una semplificazione e si dimostrerà che, anche se il modello assume una forma diversa, l’interpretazione finale risulta la medesima.

Sono introdotte due variabili casuali: una variabile casuale Binomiale traslata X e una variabile casuale Uniforme Discreta Y Tali variabili casuali sono tra loro indipendenti ed entrambe definite da 1, 2, …. m.

Si indica un’ulteriore variabile casuale detta di Bernoulli, che si può indicare come D e assume valori 0 o 1. Il valore che tale variabile assume dipende su quale base il soggetto effettua la propria scelta, cioè su X o su Y.

Sulla base di quanto detto il modello MUB può essere così formalizzato:

Poiché D può assumere due valori, si possono verificare due situazioni:

 Se D=1 allora R=X e ci si trova di fronte una popolazione di decisori che avranno il massimo feeling e la minima incertezza nell’effettuare la scelta. Si

157

tratterà di una valutazione immediata poiché avranno chiaro l’oggetto della scelta.

 Se D=0 allora R=Y e ci si trova di fronte una popolazione, viceversa, che avrà il minimo feeling e la massima incertezza nell’effettuare una scelta, e quindi avranno un comportamento maggiormente riflessivo poiché percepiscono le risposte come uguali.

L’interpretazione finale è che il singolo soggetto decisore ha una propensione a X mentre una propensione 1- per Y, quest’ultima rappresenta la misura dell’incertezza.

Infine si può definire per ogni i=1, 2, … n la distribuzione di probabilità dello stesso modello: | [( ) ]

Il passo successivo che si affronta è l’individuazione della media e della deviazione standard nella distribuzione MUB e i relativi comportamenti di questi valori.

Il primo step è quello di definire come attraverso la media della variabile causale Binomiale traslata e la media della variabile causale Uniforme discreta, possa essere definita la media del modello MUB.

Il valore medio della distribuzione è indicato con E(R), indica l’aspettativa di R e può essere così descritto:

( )

Si veda come varia il valore medio della distribuzione MUB affidando determinati valori ai parametri e .

158

Quando la media ( ) . Posto che rimanga invariato, se il valore di aumenta anche il valore della media aumenterà, allo stesso modo se il valore di diminuisce assumerà un andamento decrescente. Tradotto graficamente se il valore della media aumenta la distribuzione sarà asimmetrica a destra, contrariamente l’asimmetria sarà a sinistra.

Si approfondisce brevemente il concetto di simmetria di una distribuzione. Una distribuzione simmetrica presenta il seguente andamento:

Fonte: Blog Pocketstudy

Fig. 4.2 Immagine di distribuzione simmetrica e di distribuzione asimmetrica positiva e negativa.

Moda, media e mediana vengono a coincidere dando origine ad una distribuzione che presenta lo stesso quantitativo di dati sia a destra sia a sinistra di tali valori.

Proseguendo l’analisi della distribuzione MUB associamo a e risulterà che

E(R) è pari a , il parametro , cioè l’appartenenza dei dati ad un dato gruppo non

inciderà qualsiasi sia il suo valore e quindi la distribuzione potrà essere definita simmetrica.

Infine se la media sarà ( ) e la distribuzione potrà assumere andamenti diversi a seconda del valore assunto da Se ha un andamento

159

crescente, la media tenderà a decrescere e assumerà una forma asimmetrica a destra, ovvero se decresce il valori di avranno un andamento crescente e la distribuzione sarà asimmetrica a sinistra.

Si veda ora cosa succede se ad essere fisso è il valore del parametro Quando 0 ci si trova nella situazione precedente di simmetria in cui E(R) = .

Se invece la media sarà ( ) . L’andamento del valore sarà crescente se sarà decrescente, viceversa altrimenti.

Infine l’ultima situazione proposta è il caso in cui sia fisso è posto pari a anche in questo caso il valore associato a assumerà lo stesso andamento del parametro Sarà crescente se aumenta e decrescente se diminuisce.

Allo stesso modo si può definire la varianza del modello MUB e può essere così descritta:

{

}

Come prima vediamo come cambia la varianza, modificando i valori dei parametri e .

Ponendo fisso il valore di pari a 0, la varianza che ne deriva è:

{

(

)}

Se invece la varianza risulta semplificata in:

{ }

160

Infine l’ultimo caso presentato è quando e la varianza del modello MUB risulta:

{ }

Variando i valori relativi a ci si trova di fronte altre tre situazioni differenti. Nel caso in cui la varianza del modello è:

[ ]

Se invece la varianza risulta:

{ (

) (

)}

Infine per la varianza è semplificata in:

161 Fonte: A.D’elia, D. Piccolo

Fig 4.3 Funzione di distribuzione di probabilità della variabile causale MUB per dati valori di .

Nell’esempio riportato m=12 e le tre linee rappresentano rispettivamente: =1/4 con la linea continua, =1/2 con la linea tratteggiata e =3/4 con la linea puntinata.

La prima osservazione che si può muovere è che, all’aumentare del valore corrispondente a la distribuzione passa da un’asimmetria a sinistra (asimmetria positiva) a un’asimmetria a destra (asimmetria negativa), per il valore =0,5=1/2 la distribuzione è invece simmetrica.

Per quando riguarda la varianza, essa tende nel caso in cui sia fisso, a diminuire fornendo distribuzioni in cui i dati sono sempre meno dispersi. Allo stesso modo se il valore della componente aumenta, l’indice di varianza diminuisce rendendo le code sempre più vicine al valore 0. Mentre se entrambi i parametri e variano aumentando, quindi aumenta la probabilità di successo e il peso della componente feeling, la componente di incertezza tenderà a 0.

162

In terza battuta si può affermare che la distribuzione ammette valori intermedi, infatti può essere costruita per qualsiasi valore di , inoltre il modello MUB è reversibile cioè se: allora

Queste osservazioni confermano quanto detto nella parte introduttiva del paragrafo, il modello MUB è uno strumento molto flessibile ed è indicato per lo studio di dati relativi alle preferenze di una data popolazione.

Il punto sul quale ci si focalizza ora è la definizione dei due parametri . Il primo parametro è facilmente determinabile poiché è inversamente correlato alla componente dell’incertezza. Possiamo quantificare come l’incertezza media pari a

, nell’esempio presentato attraverso i grafici m era pari a 12 e l’incertezza media risulterà , attraverso la quale è possibile quantificare .

Il problema più complesso risulta la quantificazione del parametro partendo dalla funzione di probabilità del modello MUB:

| [( ) ]

si può ottenere dopo alcuni passaggi algebrici, la seguente funzione di :

{ [ ]}

La componente dell’incertezza è quindi facilmente quantificabile, ma per quanto riguarda il feeling risulta più complesso. L’aumento di determina un abbassamento della componente incertezza e quindi anche un aumento di , contribuendo ad avere un maggior senso di preferenza e di feeling.

Il problema maggiore di tipo interpretativo e rappresentativo si ha quando i parametri tendo entrambi a 0.

163

4.5 Algoritmo EM

Partendo dal modello MUB generalizzato è possibile risalire ai valori di quando essi non sono noti, attraverso l’utilizzo dell’algoritmo EM, che individua la stima di massima verosimiglianza dei due parametri.

Per poter stimare i due parametri , nel seguente paragrafo, saranno considerati come un vettore di parametri sconosciuti , di conseguenza la funzione logaritmica di verosimiglianza per il modello MUB è:

per stimare sarà utilizzato l’algoritmo EM, in particolare per definire le stime di massima verosimiglianza di

Queste stime sono state introdotte alla fine degli anni ’70 dal professore e studioso Arthur Pentland Dempster. Si definisce, in primo luogo, che cosa rappresenta un dato incompleto. Nella sua affezione più generale, tale dicitura implica la presenza di due spazi campionari che saranno chiamati X e Y. La relazione che esiste tra essi è di tipo molti-uno , cioè ad ogni elemento di X corrisponde un solo elemento di Y, ma ad ogni elemento di Y possono corrispondere più elementi di X. Il generico elemento y è osservato nello spazio campionario Y, il generico elemento x non viene però osservato in maniera diretta nello spazio X, ma indirettamente attraverso l’elemento y. La scrittura utilizzata è : , dove y rappresenta un generico dato osservato e un dato completo, mentre x molto spesso comprende dei parametri.

Ipotizzando una famiglia di dati la cui densità di campionamento è data dalla funzione | a seconda dei parametri rappresentati da , la famiglia corrispondente al campionamento avrà densità | La definizione di queste due funzioni è data da:

164

L’algoritmo EM è utilizzato per definire il valore dei parametri rappresentati da massimizzando | dato l’elemento y osservato ma attraverso l’utilizzo del gruppo di elementi associati |

L’algoritmo viene riassunto in due passaggi principali (Dempster, Laird, Rubim, 1976):

1. E-Step o Expectation-Step attraverso cui si stima la statistica dei dati completi (x) trovando:

|

2. M-Step o Maximization-Step attraverso cui si determina dall’equazione:

|

Negli anni a seguire, l’algoritmo appena illustrato è stato notevolmente sviluppato per poter essere applicato alla formulazione dei modelli mistura. Mclachlan e Peel hanno introdotto la variante ECM all’algoritmo EM precedentemente esposto.

La variante Expectation – Conditional – Maximization (ECM) può essere impiegata per effettuare la stima di verosimiglianza di una distribuzione t con gradi di libertà non definiti. Se il grado di libertà però è specificato in anticipo per ogni componente, il passaggio M-Step esiste in forma chiusa attraverso componenti e matrici di covarianza aggiornata in modo efficace utilizzando i minimi quadrati ponderati (McLachlan, Bean, Peel, 2001).

Si vede ora come è possibile applicare l’algoritmo EM al modello MUB. I dati possono essere considerati come incompleti. S’introducono delle variabili latenti e sarà uguale a 1 se la i-esima preferenza espressa proviene dalla g- esima distribuzione, mentre sarà pari a 0 altrimenti.

Posto che e ) la funzione logaritmica di verosimiglianza è:

165

∑ ∑ { ( ) ( ) }

mentre i due step possono essere così descritti:

( | ( ) = ∑ { ( ) ( ) ( ) ∑ ( ) [ ] ( ) }

Le due formule riportate rappresentano i due passi presentati precedentemente. L’E-step è il passo che costruisce la funzione logaritmica per la stima di verosimiglianza dei parametri, mentre con l’M-step si vanno a individuare i valori dei parametri attraverso la massimizzazione della funzione trovata nell’E-step.

È possibile ricavare dall’ultima funzione la stima di come:

Mentre la stima del parametro alla k-esima iterazione può essere riassunta come:

∑ ∑

Gli autori D’elia e Piccolo hanno presentato l’algoritmo EM applicato ad un modello CUB generalizzato (D’Elia, Piccolo, 2004) I passi sono riportati nella seguente figura:

166 Fonte: D’Elia, Piccolo, 2004

Finora si è parlato di modello MUB, cioè di un modello generalizzato senza covariate per entrambi i parametri , che nella letteratura è indicato anche come MUB(0,0). Tuttavia esistono anche altri modelli come il MUB(1,0), cioè quel modello di mistura che considera le covariate solo per il parametro ovvero il modello MUB(0,1) che invece considera le covariate del parametro . In questo caso è stata introdotta la nuova dicitura CUB che corrisponde al modello MUB(1,1), cioè il modello mistura che tiene conto delle covariate di entrambi i parametri. E’ stato ritenuto opportuno inserire a questo punto tale dicitura poiché verrà analizzata nel prossimo paragrafo. In questa sede ci si limita a riportare come l’algoritmo E-M cambia a seconda delle covariate considerate.

167

Il primo passo è considerare l’applicazione dell’algoritmo al modello MUB(0,0) attraverso cui è possibile stimare entrambi i parametri senza l’utilizzo delle covariate:

168

Se l’algoritmo di verosimiglianza è applicato invece al modello MUB(1,0) il procedimento sarà il seguente:

169

Infine l’E-step e lo M-step applicati al modello MUB(0,1), cioè al modello che considera il valore limitatamente al valore risultano così riassunti:

Fonte: Piccolo, 2006

L’ultima applicazione è la prima presentata in questo lavoro, e sarà applicata nel prossimo paragrafo in particolare dal terzo esempio in poi.

Attraverso questi otto passi gli autori illustrano i vari step per ottenere una stima dei parametri di feeling e incertezza.

Nel prossimo paragrafo sono riportati alcuni brevi esempi per applicare un approccio pratico a quanto introdotto, e saranno presentati ulteriori concetti che porteranno alla formalizzazione del modello CUB e di alcuni indici di misura sia per il modello MUB che per il modello CUB.

170