• Non ci sono risultati.

CAPITOLO 3 PIANO DI CAMPIONAMENTO E METODOLOGIA DI ANALISI

3.2 Analisi sul campione

3.2.4 Regressione logistica binaria

Il quarto ed ultimo tipo di analisi effettuata sul dataset è una regressione logistica di tipo binario. Questo tipo di analisi consente di poter prevedere, in base all’analisi dei fattori che lo influenzano, il successo o insuccesso di un brano musicale.

In questo caso il successo o insuccesso rappresenta la variabile dipendente 𝑌, che è influenzato o può essere previsto da una o più variabili indipendenti 𝑋 , 𝑋 ,𝑋 . Quest’ultime sono rappresentate da tutte le variabili utilizzate anche nelle precedenti analisi, con la particolarità che, in questo caso, è stato necessario trasformare le variabili “key” e “time_signature” in tante variabili binarie quante sono le modalità che esse possono assumere.

Come in ogni modello di regressione, anche in quella logistica, i parametri 𝛽 ,𝛽 ,𝛽 associati alle variabili indipendenti o esplicative, misurano la variazione nella variabile dipendente 𝑌 associata ad un incremento unitario di una variabile indipendente, tenendo costanti le altre variabili indipendenti.

L’esposizione teorica di quest’ultima analisi, da questo punto in poi, trae i suoi contenuti dalle dispense del corso di Statistica per le Ricerche di Mercato tenuto dal professor Masserini (anno 2020). La definizione di un modello statistico di regressione si concretizza in diverse fasi, quali la specificazione del modello attraverso la formalizzazione della relazione che lega la variabile dipendente a quelle esplicative attraverso una funzione nota, successivamente si stimano i parametri riferendosi ad uno stimatore appropriato, si procede poi con l’inferenza e la verifica del modello, che prevedono lo svolgimento di test di ipotesi al fine di verificare la significatività del modello nel suo complesso e dei singoli parametri. Successivamente si prosegue con la valutazione del modello, nello specifico la bontà di adattamento e l’analisi dei residui. Infine, si procede con l’interpretazione dei risultati e la previsione anche per valori non osservati.

Le variabili indipendenti sono sia quantitative che binarie, nello specifico tranne “mode”, “key” e “time_signature” che sono binarie, tutte le altre sono quantitative. Le binarie hanno l’effetto di modificare il valore medio della variabile dipendente “successo”, quelle che possono assumere 𝐾 modalità di risposta, sono incluse considerando 𝐾 − 1 variabili binarie, altrimenti si incontra il problema dell’impossibilità di stimare i parametri; la modalità che assume il valore zero per ogni variabile binaria, definisce la categoria di riferimento e non viene inclusa nel modello. La costante, rappresentata dal parametro 𝛽 , definisce il valore della variabile dipendente in corrispondenza della categoria di riferimento.

Nel modello in questione la variabile dipendente è binaria, lo scopo in questo caso è modellare la probabilità che la variabile dipendente assuma valore 1 in caso di successo, quindi di “Hit”, e valore pari a zero in caso di insuccesso, quindi di “Flop”. Queste probabilità si possono esplicitare con le seguenti formule (vedi Equazione n.19 ed Equazione n.20):

𝑦 = 1 → 𝜋 = 𝑃(𝑦 = 1) Equazione n.19

𝑦 = 0 → 1 − 𝜋 = 𝑃(𝑦 = 0) Equazione n.20

(vedi Equazione n.21):

𝜋(𝑥) = 𝑃(𝑦 = 1|𝑥) =

( … )

( … ) Equazione n.21

Questo modello è non lineare nei parametri, ma può essere semplificato e reso lineare nei parametri applicando una trasformazione logit.

Occorre esprimere la variabile dipendente in termini di rapporto tra la probabilità di successo e quella di insuccesso, definito “odds ratio”. La formula è la seguente (vedi Equazione n.22)

= 𝑒( … ) Equazione n.22

La funzione logit (π), invece, prevede di modellare il logaritmo naturale del rapporto tra la probabilità di successo e quella di insuccesso, esso può assumere valori nell’intero asse reale (+ ∞; −∞) ed è lineare nei parametri, vedi Equazione n.23:

𝑙𝑜𝑔 = 𝛽 + 𝛽 + ⋯ + 𝛽 Equazione n.23

La probabilità di successo si può sintetizzare con la seguente Equazione n.24:

𝜋(𝑥) = (( … … )) Equazione n.24

Quella di insuccesso, invece, si può esprimere come segue (vedi Equazione n.25):

1 − 𝜋(𝑥) = ( … ) Equazione n.25

Il rapporto di probabilità, odds ratio, si esprime nel seguente modo (vedi Equazione n.26):

( ) ( )= ( … ) ( … ) 𝑥 ( … ) = 𝑒( … ) Equazione n.26

Si arriva alla seconda fase, quella della stima dei parametri, la quale viene eseguita con il metodo di massima verosimiglianza (ML), massimizzando la funzione log-verosimiglianza (𝑙= log – likelihood), espressa dall’Equazione n.27:

𝑙 = 𝛽 ,𝛽,𝛽 = 𝑙(𝛽) Equazione n.27

La soluzione si ottiene attraverso una procedura iterativa che il software statistico in questione, SPSS, esegue automaticamente.

Si prosegue, poi, con la valutazione dell’adeguatezza del modello. Per questo è utile ricavare i valori della funzione log – verosimiglianza (𝑙=log – likelihood) in corrispondenza dei seguenti modelli:

 Modello nullo che possiede solo la costante 𝛽 , senza alcuna variabile indipendente (Equazione n.28):

𝑙 = (𝛽 ) = 𝑙(0) Equazione n.28

 Modello completo che possiede tutte le variabili esplicative × (Equazione n.29):

𝑙 = 𝛽 ,𝛽,𝛽 = 𝑙(𝛽) Equazione n.29

Si giunge poi alla procedura inferenziale, la quale può riguardare il modello nel suo complesso, cercando di rilevare se il set di variabili in questione è in grado di spiegare la probabilità che un brano abbia successo o meno. La si può eseguire anche per verificare la significatività di ogni singolo parametro, oppure, ancora, per confrontare due modelli alternativi quando questi differiscono per più di un parametro.

Partendo dalla prima possibilità di applicazione, si opera un confronto fra due ipotesi: 1. 𝐻 : 𝛽 = 𝛽 = 𝛽 = 0

dove tutti i parametri presi in considerazione sono uguali alle variabili scelte, non contribuiscono a spiegare la probabilità di successo e quella dove almeno un parametro è diverso:

2. 𝐻 : 𝑎𝑙𝑚𝑒𝑛𝑜 𝑢𝑛 𝛽 ≠ 0

Per operare questo confronto si usa la statistica G denominata anche “extradevianza”, la quale si distribuisce come una chi-quadrato con p gradi di libertà, dove p è uguale al numero di variabili risposta. Questa statistica consente di valutare se il modello completo è migliore di quello nullo o meno (vedi Equazione n.30):

La figura che segue mostra la distribuzione della statistica chi-quadrato (vedi Figura n.33).

Quando p-value < α  rifiuto 𝐻 , quindi se il valore dell’extradevianza ricade nella zona bianca a destra, si accetta l’ipotesi alternativa 𝐻 , per cui si può ritenere che il modello è nel complesso significativo.

Per quanto riguarda la verifica della significatività sui singoli parametri, si procede ancora ad una verifica di ipotesi:

1. 𝐻 : 𝛽 = 0 2. 𝐻 : 𝛽 ≠ 0

Per eseguire questa verifica si utilizza la statistica di Wald, che per grandi campioni si distribuisce come una normale standardizzata, dove 𝑠(𝛽 ) è la stima dell’errore standard (Equazione n.31):

𝑊 = ( ) Equazione n.31

anche in questo caso, se p-value < α  rifiuto 𝐻 .

I parametri β misurano la variazione del logit (logaritmo del rapporto di probabilità) dovuta all’aumento di un’unità della variabile indipendente 𝑥 , mantenendo costanti le altre variabili risposta. Inoltre, il segno del coefficiente β di una variabile dà il segnale di quale tipo di influenza questa eserciti sulla variabile dipendente, se il parametro è > 0 la variabile indipendente 𝑥 ha un effetto positivo sul successo di un brano musicale, mentre quando il valore del parametro è < 0 si verifica la

Figura n.3 – distribuzione chi-quadrato (Fonte: treccani.it)

situazione opposta, in caso di valore β pari a 0 questo significa che la variabile risposta non ha alcun effetto sulla variabile dipendente.

Comunque sia, i valori dei coefficienti β devono essere valutati contestualmente al p-value, in quanto questo potrebbe presentare valori non significativi.

Interpretare i parametri tramite il logaritmo non è immediato e si preferisce a questo la variazione del rapporto di probabilità (Equazione n.32).

= 𝑒 Equazione n.32

Nello specifico si cerca di intuire di quanto varia questo rapporto (successo/insuccesso di un brano musicale) al variare di una unità della variabile indipendente 𝑥 . In questo ambito è necessario distinguere la natura delle variabili risposta, nel caso in questione ve ne sono alcune binarie, come “mode”. In presenza di queste variabili, la variazione dell’odds si calcola come segue (vedi Equazione n.33):

𝑒( ) Equazione n.33

La variazione dell’odds equivale al calcolo del rapporto tra le due categorie rappresentate dalla variabile in questione, nell’esempio di “mode” queste possono rappresentare il modo maggiore e quello minore.

Vi sono poi altre variabili che sono invece categoriche, ma presentano più di due modalità di risposta, le variabili in questione sono “key” e “time_signature”, le quali hanno origine categorica e sono state trasformate in tante binarie quante sono le modalità di risposta. La variazione dell’odds si calcola come nella precedente equazione.

Vi sono, infine, variabili quantitative per le quali è possibile prendere in considerazione l’incremento unitario o di più di una unità, ad esempio 5. In questo caso basterà modificare la precedente equazione come segue (vedi Equazione n.34):

Fra le funzioni svolte dai parametri c’è anche quella di stimare la probabilità che la variabile dipendente, in questo caso “target”, assuma valori pari ad 1 (successo), in corrispondenza dei valori che questa assume per le variabili risposta. Esse esplicano, quindi, una funzione di previsione, anche per unità non comprese nei dati.

Si arriva poi alla valutazione della bontà di adattamento del modello che viene eseguita sfruttando gli indici 𝑅 . Nel caso in questione il software statistico SPSS ne calcola due, quello di Cox e Snell e quello di Nagelkerke, il primo però presenta dei limiti, non riuscendo mai a raggiungere il suo massimo teorico (1), perciò si preferisce considerare il secondo (Field, 2009).

Occorre preventivamente calcolare l’𝑅 dal quale si deriva quello di Nagelkerke come segue (vedi Equazione n.35):

𝑅 = 1 − 𝑒[ ( ) ( ) ] Equazione n.35

Questa misura si basa sulla probabilità logaritmica del modello (LL (nuovo)) e la probabilità logaritmica del modello originale (LL (linea di base)) e la dimensione del campione, n.

Da questo si ricava la misura di Nagelkerke come segue (vedi Equazione n.36), per ovviare all’inconveniente sopra esplicitato:

𝑅 =

[ ( )] Equazione n.36

Un'altra via per valutare l’adattamento del modello ai dati è quella di confrontare i valori osservati di 𝑦 con quelli stimati, la misura in questione prende il nome di residui di Pearson (vedi Equazione n.37):

𝑟 =

( ) Equazione n.37

Se il modello si adatta perfettamente ai dati, i valori osservati e quelli attesi si eguaglieranno per ogni unità, ma è un caso piuttosto raro in quanto i valori stimati sono probabilità e come tali sono compresi tra 0 e 1. Inoltre, il perfetto adattamento non è lo scopo del modello, che deve riuscire a rappresentare la realtà in maniera sintetica garantendo un buon adattamento ai dati.

I residui possono essere rappresentati graficamente in un diagramma di dispersione. Se il modello si adatta bene ai dati, i residui dovrebbero gravitare intorno allo 0, se, invece, presentano valori esterni all’intervallo [-2, 2], significa che il modello non è in grado di spiegare i dati.

Infine, l’ultimo scopo del modello di regressione logistica è quello di classificare in quale categoria, in questo caso “Hit” e “Flop”, ciascuna unità può essere assegnata. Nel caso di modello binario, i valori osservati 𝑦 assumono valori 0 e 1, mentre quelli stimati possono assumere valori compresi tra 0 e 1, perciò, al fine di predirre il successo musicale, è necessario stabilire una regola di classificazione che consenta di trasformare la probabilità 𝜋 nei corrispondenti valori 𝑦 di una variabile binaria. Si stabilisce, quindi, una regola di probabilità stimata superata la quale ci si aspetta che la probabilità che una canzone abbia successo si concretizzi nel successo stesso di questa. Suddetta regola, di solito, stabilisce che se la probabilità è >= .50, allora si attribuisce valore 1, quindi successo, in caso contrario si attribuisce valore 0. Si ottiene, così, una tabella di classificazione delle previsioni del modello, dove la percentuale di unità classificate correttamente è data dalla somma dei valori stimati e osservati che presentano valore 1 e quelli osservati e stimati che assumono valore 0, il tutto rapportato alla totalità delle unità.

CAPITOLO 4 - ANALISI DEI RISULTATI