CAPITOLO 4 ANALISI DEI RISULTATI
4.4 Analisi 4: Regressione logistica binaria
4.4.1 Regressione Logistica Binaria su tutto il dataset
Al fine di eseguire suddetta analisi statistica, si inserisce sul software SPSS la variabile “target” come variabile dipendente, ovvero quella che deve essere spiegata dalle variabili indipendenti o covariate. Quest’ultime sono rappresentate da tutte le altre variabili già ampiamente menzionate nei paragrafi precedenti.
Gli output più rilevanti ai fini interpretativi sono quelli facenti parte del blocco 1, che considera l’inserimento delle covariate nel modello.
Riepilogo del modello
Fase Logaritmo della verosimiglianza -2 R-quadrato di Cox e Snell R-quadrato di Nagelkerke
1 43253,747a 0,284 0,379
a. Stima terminata all'iterazione numero 6 perché le stime dei parametri sono state modificate in misura inferiore a ,001.
Tabella n.50 – Log di verosimiglianza e indice R-quadro
Il primo valore che cattura l’attenzione è quello del Logaritmo di verosimiglianza, il quale è un indicatore di quanta variabilità dei dati non viene spiegata dal modello (Tabella n.50).
Grandi valori indicano una scarsa capacità di previsione dei modelli statistici, perché più elevato è il valore, più inspiegabili sono le osservazioni. Nel caso in questione, il risultato è piuttosto elevato e positivo (43253.75).
Un altro valore non riportato (per evitare sovrabbondanza di dati) è quello del Chi-quadro che indica la quantità di riduzione dell’errore dovuta al modello, nel caso in questione il valore di significatività è inferiore a .05, dimostrando che la previsione migliora se si considerano i predittori.
Gli altri valori messi in evidenza nella tabella n.54 sono i risultati relativi all’indice 𝑅 di Cox e Snell, nonché quello di Nagelkerke. Nella regressione logistica, a differenza di quella lineare, non si prende in considerazione l’indice 𝑅 in quanto questo risente molto dell’influenza della Statistica di Wald che non è sempre una misura esatta. Questo conduce al fatto che l’indice 𝑅 può risultare non accurato e non interpretabile in questo modello alla stregua di quello che viene fatto nella regressione lineare. L’indice 𝑅 , basato sul log-verosimiglianza, è una misura di quanto migliora il valore di adeguatezza in conseguenza dell'inclusione delle variabili predittrici. Può variare tra 0 (indicando che i predittori sono inutili a predire la variabile di risultato, quindi assenza di adattamento) e 1 (indicando che il modello predice perfettamente la variabile di risultato, quindi completo adattamento). SPSS utilizza, invece, la misura di Cox e Snell, ma questa statistica non raggiunge mai il suo massimo teorico pari ad 1. Questo conduce all’utilizzo della misura di Nagelkerke ottenuta apportando alcune modifiche. Sebbene tutte queste misure differiscano nel loro calcolo (e nelle risposte che si ottengono), concettualmente sono in qualche modo le stesse. Quindi, in termini di interpretazione possono essere visti come simili all'𝑅 nella regressione lineare in quanto forniscono una misura del significato sostanziale del modello. Il valore ottenuto in questo caso si aggira intorno al 38%, indicando che il modello predice in maniera abbastanza soddisfacente la variabile “target”.
Inserita nella nota della tabella, vi è l’informazione circa il fatto che i risultati mostrati sono stati ottenuti alla sesta iterazione che può essere considerato un numero piuttosto contenuto e adeguato vista la mole di dati presi in esame. Il processo è ripetuto (iteration) fino a quando la capacità di miglioramento della funzione non è stata infinitesimale.
Un’altra tabella interessante è quella posta qui di seguito (Tabella n.51). Tabella di classificazionea Osservato Previsto target Percentuale di correttezza 0 1 Fase 1 target 0 13340 7213 64,9 1 3882 16671 81,1 Percentuale globale 73,0 a. Il valore di divisione è ,500
Tabella n.51 – Tabella di Classificazione
La tabella di classificazione indica come il modello predice l’appartenenza al gruppo delle “Hit” o dei “Flop”. Il modello attuale classifica correttamente 13340 canzoni che sono “Flop”, me ne classifica non correttamente altre 7213 (classifica correttamente il 64.9 % dei casi). Il modello classifica correttamente anche 16671 “Hit”, ma ne presenta altri non elencati correttamente (3882), in questo caso classifica correttamente l’81.1% dei casi. L’accuratezza complessiva della classificazione è la media ponderata dei due valori che risulta essere pari a 73%. Così, quando è stata inclusa solo la costante, il modello ha classificato correttamente il 50% dei brani musicali (non è stata riportata la relativa tabella di classificazione per evitare eccessiva ridondanza), ma adesso, con l’inclusione dei predittori, questo valore è salito al 73%.
Infine, l’ultima tabella rilevante ai fini interpretativi, è quella che mostra le variabili che fanno parte dell’equazione, la quale contiene valori e statistiche del modello molto interessanti.
Una precisazione risulta essere necessaria per interpretare correttamente la tabella che segue. La variabile “key”, la quale possiede 12 modalità di risposta, è stata inserita solo considerando i valori che vanno da 1 a 11, escludendo la tonalità 0. Questo accade perché la tonalità 0, ovvero il DO, risulta essere la più diffusa e può essere interessante operare un confronto fra l’effetto delle altre tonalità e quello di questa più diffusa, perciò è stata esclusa dall’elenco delle covariate.
Variabili nell'equazione
β S.E. Wald gl Sign. Exp(B) Fase 1a danceability 3,113 0,091 1165,977 1 0,000 22,479 energy -1,925 0,100 369,907 1 0,000 0,146 loudness 0,107 0,004 588,084 1 0,000 1,113 mode 0,421 0,027 246,860 1 0,000 1,524 speechiness -3,196 0,158 409,091 1 0,000 0,041 acousticness -1,423 0,053 722,849 1 0,000 0,241 instrumentalness -3,401 0,067 2558,807 1 0,000 0,033 liveness -0,217 0,069 9,782 1 0,002 0,805 valence 0,444 0,059 56,559 1 0,000 1,559 tempo 0,000 0,000 1,691 1 0,194 1,000 duration_ms 0,000 0,000 5,506 1 0,019 1,000 chorus_hit -0,001 0,000 3,638 1 0,056 0,999 sections -0,017 0,003 31,776 1 0,000 0,983 time_signature1 -2,006 1,301 2,379 1 0,123 0,134 time_signature3 -1,460 1,292 1,276 1 0,259 0,232 time_signature4 -1,300 1,292 1,013 1 0,314 0,272 time_signature5 -1,670 1,297 1,658 1 0,198 0,188 key_1 0,161 0,054 8,734 1 0,003 1,174 key_2 -0,194 0,048 16,441 1 0,000 0,823 key_3 0,187 0,072 6,728 1 0,009 1,206 key_4 -0,023 0,053 0,197 1 0,657 0,977 key_5 0,093 0,051 3,316 1 0,069 1,098 key_6 0,147 0,061 5,859 1 0,015 1,159 key_7 -0,082 0,047 3,041 1 0,081 0,921 key_8 0,147 0,060 6,077 1 0,014 1,159 key_9 -0,064 0,048 1,726 1 0,189 0,938 key_10 0,355 0,057 38,603 1 0,000 1,426 key_11 0,080 0,056 1,987 1 0,159 1,083 Costante 2,586 1,297 3,973 1 0,046 13,270 a. Variabili inserite nella fase 1: danceability, energy, loudness, mode, speechiness, acousticness, instrumentalness, liveness, valence, tempo, duration_ms, chorus_hit, sections, time_signature1, time_signature3, time_signature4, time_signature5, key_1, key_2, key_3, key_4, key_5, key_6, key_7, key_8, key_9, key_10, key_11.
Osservando i risultati ottenuti dalla Tabella n.52, risultano chiari a prima vista alcuni andamenti desumibili iniziando l’interpretazione dai coefficienti β, i cui segni indicano una crescita (se β > 0) o una decrescita (se β < 0) nella probabilità che si verifichi il successo di una canzone, all’aumentare delle covariate.
In particolare, la variabile “danceability”, la quale presenta un valore molto elevato del coefficiente β con segno positivo, risulta essere altamente correlata alle “Hit”.
Altre che risultano essere correlate positivamente con le “Hit” sono: “loudness”, “mode”, “valence”, key_1”, “key_3”, “key_5”, “key_6”, “key_8”, “key_10” e “key_11”.
Più è elevato il valore presentato dalle covariate, più è elevata la correlazione con il gruppo delle “Hit”.
Avendo escluso la tonalità 0, ovvero il DO, si può rilevare come, le tonalità che hanno un effetto più dirompente come predittrici del successo rispetto alla più diffusa sono, in ordine decrescente, la 10 che corrisponde al LA#/Sib, la 3 (RE#/Mib), 1 (DO#/REb), la 6 e 8 a pari merito (FA#/SOLb e SOL#/Lab), infine la 5 e la 11 (FA e SI).
Viceversa, si nota come la variabile “energy”, che dalle precedenti analisi risultava essere molto legata al successo delle canzoni, è qui correlata negativamente con le “Hit”, presentando un valore piuttosto elevato del coefficiente β, ma negativo. Lo stesso discorso può essere fatto per altre variabili come “speechiness”, “acousticness”, “instrumentalness” e tutte le altre che presentano un valore negativo, ma mentre per queste variabili il risultato ottenuto non era una sorpresa, per “energy” questo ha comportato un ribaltamento rispetto alle precedenti analisi.
Altro elemento che suscita stupore riguarda la variabile “time_signature”. Nella precedente analisi 3 si rilevava come solo il 4/4 caratterizzasse le “Hit”, mentre tutti gli altri erano più presenti nei “Flop”. In questa analisi anche il 4/4 è correlato negativamente con il successo musicale presentando un valore di non poca importanza, per quanto riguarda le tonalità, invece, sono correlate negativamente con le “Hit” tutte tranne la 3, 5, 6, 8, 10 e 11.
I valori più elevati di tutti sono presentati dalle variabili relative alla ballabilità, strumentalità, parlabilità e al tempo 1/4, ma mentre la prima è molto predittiva di una “Hit”, le altre lo sono riguardo ai “Flop”.
In seguito, si procederà alla valutazione della significatività di questi risultati.
Nella colonna a fianco sono riportati anche gli standard error relativi ai coefficienti β.
Se si osserva la penultima colonna, quella della significatività, appare chiaro come molti dei risultati ottenuti siano significativi, ma ce ne sono altrettanti che, invece, non lo sono. In particolare, le variabili “tempo”, “chorus_hit”, “time_signature_1”, “time_signature_2”, “time_signature_3”, “time_signature_4”, “time_signature_5”, “key_4”, “key_5”, “key_7”, “key_9” e “key_11”, smentendo in qualche modo le considerazioni fatte nell’analisi dei coefficienti β.
Un’altra colonna rilevante all’interno dell’output in questione attiene alla statistica di Wald, la quale evidenzia se il coefficiente beta, per quel predittore, è significativamente diverso da zero. Se così è, allora si può supporre che il predittore stia dando un contributo significativo alla previsione del risultato (successo). Molti coefficienti beta sono significativamente diversi da 0, molti altri, pur presentando valori diversi dallo 0, hanno valori di gran lunga inferiori rispetto ad altre variabili: si tratta di “liveness”, “tempo”, “duration_ms”, “chorus_hit”, tutti i tempi musicali, tutte le tonalità eccetto la 1, la 2, la 3, la 8, la 10 e la 11.
Tuttavia, questa statistica dovrebbe essere usata con cautela perché, quando il coefficiente di regressione (β) è grande, l'errore standard tende a gonfiarsi, con conseguente sottovalutazione della statistica di Wald. L'inflazione dell'errore standard aumenta la probabilità di rifiutare un predittore come significativo quando in realtà sta dando un contributo significativo al modello. Risulta quindi essere più accurato esaminare le statistiche del rapporto di probabilità che si trovano nell’ultima colonna.
Il valore del rapporto di probabilità è interpretabile come segue: se il valore è maggiore di 1 allora indica che mentre il predittore aumenta, le probabilità che il risultato si verifichi aumentano. Al contrario, un valore inferiore a 1 indica che man mano che il predittore aumenta, le probabilità che il
risultato si verifichi diminuiscono. Come si può notare, la variabile che presenta il rapporto di probabilità più elevato è la ballabilità, in accordo ai risultati rilevati per gli altri parametri. Ciò significa che all’aumentare del predittore (ballabilità), la probabilità del successo (“Hit”) aumenta. Lo stesso ragionamento risulta valido per altre variabili, quali “loudness”, “mode”, “valence”, “key_1, 3, 5, 6, 8, 10, 1”.
Altre covariate presentano un valore esattamente pari ad 1, interpretabile in modo quasi analogo a quello delle variabili sopra menzionate, si tratta di “tempo” e “duration_ms”, tutte le altre, invece, presentano valori inferiori ad uno, dimostrando che all’aumentare del predittore, la probabilità che si verifichi il successo di un brano si riduce.
In conclusione, volendo unire tutti i risultati sopra esposti singolarmente, si nota come il modello di regressione logistica in questione presenti una scarsa capacità di previsione del modello (Log della verosimiglianza -2) in quanto risultano molte osservazioni non spiegate. L’indice 𝑅 di Nagelkerke ha un valore abbastanza soddisfacente, dimostrando un buon adattamento del modello ai dati e una soddisfacente capacità predittiva del successo in ambito musicale.
Inoltre, dalla tabella di classificazione, si evince che, dopo l’introduzione delle variabili predittrici, il modello migliora notevolmente classificando correttamente ben oltre la maggioranza dei brani musicali.
Infine, l’ultima tabella dell’output mette in luce, attraverso i coefficienti β, la crescita o meno della probabilità che il successo si verifichi.
Fra i migliori predittori del successo (quelli che lo spiegano meglio) si può annoverare senz’altro la ballabilità al primo posto, a seguire in ordine decrescente, “valence”, “mode”, “key_1, 3, 5, 6, 8, 10, 11”.