IL MODELLO CUB
4.2 Cenni storic
La concezione di base dalla quale solitamente si parte, è che la popolazione sia composta di soggetti che prendono decisioni omogenee, si deve però tenere in considerazione la possibilità che tali giudizi non siano omogenei. È di questo avviso Marden (Bockenholt, 1993), che attraverso il modello Thurstonian, nel 1995, spiega come le scelte possono avere natura multidimensionale. La somiglianza e la comparabilità di situazioni di scelta possono derivare da differenti parametri, e da differenze individuali. Attraverso dei modelli si cerca di individuare come questi criteri incidono nella scelta. Per questo motivo di non eterogeneità dei giudizi espressi sono stati sviluppati dei modelli, chiamati modelli mistura.
In questa ottica s’inseriscono autori come Croon e Luijkx che partono da una considerazione di base: “the basic idea behind all models is that an heterogeneous
population of respondents may be partitioned into a small number of homogeneous sub- populations, within each of which the choise or ranking processes are assumed to satisfy a relatively simple model” (Cronn, Luijkx, 1993). L’idea portante è che
all’interno dei modelli vi sia una popolazione formata da soggetti eterogenei tra loro, che possono essere suddivisi in gruppi più piccoli ma composti da una popolazione maggiormente omogenea. Questa omogeneità è data dal tipo di scelte effettuate o dal tipo di processo di scelta svolto, i quali, a loro volta possono soddisfare un modello relativamente semplice.
Per indagare uno dei primi modelli probabilistici utilizzati, si deve tornare indietro fino al 1929 circa, epoca in cui fu sviluppato il modello di Bradley-Terry-Luce (d’ora in poi modello BTL). Questo modello può essere così formalizzato: dato un insieme S di elementi e un sottoinsieme R, s’ipotizza che R sia contenuto in S. Si sceglie un elemento arbitrario i appartenete a R e quindi a S (Cronn, Luijkx, 1993).
S’identifica con pS(i) la probabilità che i sia un elemento di S, e può essere così scritta:
147
cioè la probabilità che R sia un sottoinsieme di S moltiplicata per la probabilità che l’elemento i sia un sotto-elemento dell’insieme R.
Le scelte che sono effettuate da un individuo soddisfano questa probabilità, esiste poi una scala di valutazione attraverso la quale l’arbitrario elemento i assume un valore positivo.
La scala di valutazione ui è definita da una moltiplicazione tra costanti, in questo caso
possiamo dire tra due elementi come: l’elemento i e l’elemento j, entrambi racchiusi nel sottoinsieme R, e quindi la probabilità di scegliere entrambi gli elementi, pij, è data da:
Il modello BTL risulta compatibile con modelli composti da variabili casuali indipendenti, rappresentate da parametri di scala costanti ma diversi tra loro.
Questo modello è stato successivamente sviluppato assumendo che per poter avere una classificazione completa, dato un insieme di tre elementi, occorra calcolare la probabilità che questi tre elementi facciano parte della stessa classificazione.
La costante C è scelta in modo tale che la somma delle probabilità dei tre elementi dia come risultato 1 (cronn, Luijkx, 1993).
I successivi modelli che furono sviluppati trovarono applicazione nel campo scientifico ma anche nel campo economico, ad esempio quelli sviluppati negli anni ’90 furono utilizzati per valutazioni socio-economiche. Come illustrato da Hall Stern (1993), il modello di mistura fu utilizzato per spiegare le preferenze espresse in una campagna elettorale presidenziale negli Usa. Un soggetto che vota per un candidato esprime una preferenza, fonte di una valutazione, il sistema elettorale è quindi un insieme di queste preferenze espresse dai soggetti votanti.
148
Attraverso il modello di mistura si voleva indagare e individuare i criteri secondo cui l’elettore sceglie uno o l’altro candidato, esprimendo la propria preferenza.
L’evoluzione più recente del modello mistura genera dei modelli più flessibili, rispetto ai precedenti, imponendo dei vincoli sui parametri relativi la precisione. Questo tema è stato sviluppato e presentato da Murphy e Martin all’inizio degli anni 2000 (D’Elia, Piccolo, 2004). Molti modelli partono dal presupposto, come già ribadito, che la situazione iniziale sia caratterizzata da popolazioni omogenee di elementi, ma è molto più probabile supporre che esistano numerose popolazioni composte da elementi eterogenei tra loro. Sviluppando il modello probabilistico proposto da Marden, il quale sostiene che vi possano essere delle popolazioni eterogenee di elementi suddivisibili in sottopopolazioni omogenee composte di un numero finito di componenti, si arriva ai modelli mistura basati sulla distanza. Tali modelli presentano due componenti principali che sono: un punto centrale e una misura di precisione. In particolare, gli autori Murphy e Martin sostengono che: “the probability of a ranking occuring is large fro rankings
close to the central ranking and is small for rankings far away from the central ranking” (Murphy, Martin, 2002). Quindi più un elemento è vicino al punto centrale,
più è probabile il suo rilevamento e più ridotta la distanza, ovvero più un elemento è lontano dal centro e di conseguenza maggiore la distanza registrata, meno sarà probabile il rilevamento del suddetto elemento. Più il parametro relativo all’accuratezza è preciso migliore sarà il modello che ne deriva.
Il punto sul quale questi autori si fermano a riflettere è l’individuazione di un numero ottimale delle componenti che debbano essere analizzate.
Il modello basato sulla distanza può essere così formalizzato: i due parametri di riferimento sono R e λ, rispettivamente il punto centrale e il parametro di precisione. La probabilità che l’elemento r possa essere classificato è:
149
La distanza d può essere calcolata in tre modalità differenti:
Distanza di Kendall individuata come:
Distanza di Spearman descritta come:
√∑ 2
Distanza di Cayley misurata come:
In generale i modelli di mistura sono sviluppati per classificare popolazioni eterogenee in un insieme di sottopopolazioni omogenee. Se si considerano per esempio, G sottogruppi, l’elemento g è una componente arbitraria e pg rappresenta la probabilità di
osservazione dell’elemento g, ottenuta tramite il modello basato sulla distanza, in particolare attraverso i parametri e . Tale modello può essere così formalizzato
(Murphy, Martin, 2002): ∑ ( | ) ∑ ( ) ( )
Inoltre, esistono differenti modi per definire i parametri di precisione (λ) nei modelli mistura basati sulla distanza e questo permette di ottenere modelli sempre più flessibili. La stessa cosa può succedere in una distribuzione Gaussiana variando i parametri che misurano la varianza.
I parametri di precisione possono avere differenti livelli, che ne determinano la precisione, possono essere posti uguali a 0 oppure avere delle restrizioni.
150 Queste situazioni si possono così riassumere:
Tutti i componenti di un insieme hanno parametri di precisione che non presentano restrizioni;
Tutti i componenti di un insieme hanno parametri di precisione che non presentano restrizioni, ma solo un componente ha un livello di precisione pari a 0. In questo modo tutti i componenti del modello hanno una distribuzione uniforme;
Tutti i componenti hanno il medesimo parametro di precisione;
Tutti i componenti hanno il medesimo parametro di precisione, ma solo una componente ha un livello di precisione pari a 0. In quest’ultimo caso solo una componente ha distribuzione uniforme.
I modelli che sono stati fin qui presentati, a partire da quelli proposti da Marden, sino ad arrivare al modello mistura basato sulla distanza, si basano su distribuzioni probabilistiche di componenti uguali per tutti i sottogruppi analizzati, ma utilizzando parametri differenti. Il modello più recente, che verrà analizzato nel corso del lavoro, si basa diversamente su due differenti distribuzioni probabilistiche. Il risultato che si vorrà dimostrare è l’eterogeneità nei soggetti che effettuano le valutazioni.