• Non ci sono risultati.

CAPITOLO 3 PIANO DI CAMPIONAMENTO E METODOLOGIA DI ANALISI

3.1 Descrizione del campione

Il dataset utilizzato per la ricerca in esame non è stato costituito ex novo selezionando un campione di brani musicali ma è stato direttamente estrapolato da Kaggle, già pronto per essere utilizzato. Kaggle è una comunità online di data scientists molto accreditata, dove si può trovare una grande quantità di analisi di tipo statistico. Tramite questa piattaforma si possono realizzare anche competizioni a distanza, in quanto vengono rese note tutte le informazioni necessarie per eseguire una qualsiasi analisi (variabili, dati, spiegazione del problema, esempi di analisi, file in CSV del training set). La piattaforma dispone anche di una sezione riguardante le discussioni, in cui si possono fare domande agli altri partecipanti alle competizioni ed ottenere risposta.

In questo caso il dataset, riguardante ovviamente i brani musicali, prende il nome di “The Spotify Hit Predictor Dataset (1960 – 2019)” e contiene dati relativi a 41106 brani musicali divisi in sei diverse decadi che vanno da inizio anni ’60 fino al 2019 compreso. Ogni decade possiede un numero diverso di brani musicali, la decade che ne contiene meno è quella degli anni ’90 che conta 5520 canzoni. I brani contenuti in questa classifica appartengono a vari generi musicali che, purtroppo, non sono noti. Questo aspetto è senz’altro da richiamare nel capitolo che contiene i limiti della ricerca, perché la possibilità di conoscere il genere musicale dei brani, sarebbe di gran lunga interessante per predire il successo degli stessi.

Il dataset è stato costruito utilizzando la Web API di Spotify, tecnologia che permette agli sviluppatori di applicazioni e siti Web di accedere al grande archivio di informazioni, metadati e contenuti musicali in possesso della piattaforma.

Grazie alla Web API di Spotify sono disponibili, per i programmatori o gli interessati di musica, le variabili che la piattaforma sfrutta per classificare i brani. Suddette variabili sono presenti anche nel dataset in questione e saranno quelle che permetteranno di definire se è possibile o meno predire il

successo di un brano musicale, queste sono: “track”, che identifica il nome della traccia, “artist” che indica l’autore, “uri”, identificatore delle risorse per la traccia. Queste prime tre non sono state prese in considerazione nelle varie analisi, in quanto non svolgenti una funzione utile. Quelle che seguono sono, invece, le vere protagoniste delle varie analisi effettuate (fonte descrizione delle variabili:

https://www.kaggle.com/theoverman/the-spotify-hit-predictor-dataset/).

- “danceability”, che descrive quanto un brano sia adatto per ballare e si basa su una combinazione di elementi musicali tra cui il tempo, la stabilità del ritmo, la forza del battito e la regolarità generale. Un valore di 0 è molto poco ballabile mentre 1 è molto ballabile. Non ha un range di variabilità definito.

- “energy”, questa varia tra 0 e 1 e rappresenta una misura percettiva di intensità e attività. Tipicamente, le tracce energetiche sono veloci e ad alto volume. Le caratteristiche percettive che contribuiscono a questo attributo includono gamma dinamica, intensità percepita, timbro, velocità di inizio ed entropia generale.

- “key”, identifica la chiave complessiva stimata della traccia, ossia la tonalità. Ve ne sono in totale 12 varianti: la 0 corrisponde al DO, la 1 al DO#/REb, la 2 al RE, poi abbiamo RE#/Mib, MI, FA, FA#/SOLb, SOL, SOL#/Lab, LA, LA#/Sib ed infine il SI. Nel caso in cui non sia stata rilevata alcuna chiave, il valore è -1.

- “loudness”, che corrisponde al volume della traccia in dB. È la qualità di un suono che è il principale correlato psicologico della forza fisica (ampiezza). I valori sono compresi tra -60 e 0 dB.

- “mode”, indica la modalità maggiore o minore di una canzone (il tipo di scala da cui deriva il suo contenuto melodico). Il valore 1 corrisponde alla modalità maggiore e lo 0 a quella minore.

- “speechiness”, rileva la presenza del parlato in una traccia musicale. Più il brano è parlato più il valore si avvicina ad 1. Valori superiori a .66 descrivono tracce che sono probabilmente fatte interamente di parole pronunciate. I valori tra .33 e .66 descrivono tracce che possono

contenere sia musica che parlato, sia in sezioni o strati, inclusi casi come la musica rap. Valori inferiori a .33 probabilmente rappresentano solo musica e altre tracce inusuali.

- “acousticness”, che può variare tra 1 e 0, dove 1 rappresenta un’alta probabilità che la traccia sia stata registrata in acustico.

- “instrumentalness”, predice se una traccia contiene voci o meno, più questo valore si avvicina ad 1 più è probabile che la canzone non contenga contenuto vocale. Valori > .05 sono destinati a rappresentare le tracce strumentali, ma la fiducia è maggiore quando il valore si avvicina a 1.

- “liveness”, rileva se la traccia è stata registrata dal vivo o meno. Valori elevati rappresentano una maggiore probabilità che la traccia sia stata eseguita dal vivo. Un valore superiore a .8 fornisce una forte probabilità che la traccia sia live.

- “valence”, descrive la positività di una traccia. Presenta valori compresi tra 0 e un massimo di 1 (brano allegro, euforico).

- “tempo”, identifica il tempo complessivo stimato di una traccia in battiti al minuto (BPM). Nella terminologia musicale, il tempo è la velocità o il ritmo di un dato brano e deriva direttamente dalla durata media del beat.

- “duration_ms”, rappresenta la durata della traccia in millisecondi.

- “time_signature”, il tempo/ritmo musicale in cui è scritta la traccia, è una notazione per specificare quanti battiti ci sono in ogni battuta o misura (https://www.pianosolo.it/il-tempo/). - “chorus_hit”, stima il momento in cui parte il ritornello della traccia.

- “sections”, che rappresenta il numero di sezioni che compongono un brano.

- “target”, la variabile target per la traccia. Può essere “0” o “1”. “1” implica che questa canzone è stata inserita nella lista settimanale (stilata da Billboard) delle tracce Hot-100 in quel decennio almeno una volta ed è quindi una “Hit”. “0” implica che la traccia è un “Flop”. L’autore ha identificato alcune condizioni per poter definire un brano musicale come un “Flop”, come il fatto che né la traccia né l’artista dovevano figurare nell’elenco degli “Hit” in quel decennio, oppure

il genere del brano è tale da non poter essere considerato mainstream, ancora, il genere della traccia non deve avere una canzone nell'elenco delle “Hit” e, infine, gli USA devono rappresentare uno dei suoi mercati (https://www.kaggle.com/theoverman/the-spotify-hit-predictor-dataset/).

Il set di dati considerato può essere utilizzato per creare un modello di classificazione che predice se una traccia potrebbe essere una “Hit” o meno.

(Nota: L'autore non considera oggettivamente una traccia inferiore o un fallimento se è etichettata “Flop”. Questa dicitura qui implica semplicemente che è una traccia che probabilmente non potrebbe essere considerata popolare nel mainstream).