UNIVERSITÀ DEGLI STUDI DI PISA
DIPARTIMENTO DI ECONOMIA E MANAGEMENT
MARKETING E RICERCHE DI MERCATO
Il ruolo delle recensioni musicali nella costruzione di
significati per il mercato:
Relatore:
Prof. Matteo Corciolani
UNIVERSITÀ DEGLI STUDI DI PISA
DIPARTIMENTO DI ECONOMIA E MANAGEMENT Corso di Laurea Magistrale in
MARKETING E RICERCHE DI MERCATO
Tesi di Laurea Magistrale
Il ruolo delle recensioni musicali nella costruzione di
significati per il mercato: un'analisi sui diversi generi
della popular music
A.A. 2014/2015
Matteo Corciolani Eleonora Castellanotti
DIPARTIMENTO DI ECONOMIA E MANAGEMENT
MARKETING E RICERCHE DI MERCATO
Il ruolo delle recensioni musicali nella costruzione di
un'analisi sui diversi generi
Candidato: Eleonora Castellanotti
Ai miei genitori, con immensa gratitudine.
Indice
1. Introduzione ... 1
2. Dissertazione teorica ... 3
2.1. Il concetto di “genere” ... 3
2.2. Fasi di evoluzione dei generi musicali ... 7
3. Metodologia della ricerca ... 14
3.1. L’evoluzione della content analysis ... 14
3.2. Metodo di creazione di un dataset tramite l’automated content analysis 16 3.3. Analisi della varianza... 20
3.4. L'analisi della varianza con SPSS ... 23
3.5. Regressione lineare multipla ... 27
3.6. Analisi sulla correttezza del modello e sulla sua generalizzazione ... 31
3.7. La regressione multipla con SPSS ... 34
4. Analisi dei risultati ... 44
4.1. Selezione statistica delle variabili per l’analisi della varianza ... 44
4.2. Risultati dei test post-hoc ... 46
4.3. Risultati dell'analisi di regressione ... 72
5. Considerazioni finali ... 94
5.1. Sintesi dei risultati ... 94
5.2. Considerazioni teoriche ... 96
5.3. Implicazioni di marketing ... 99
5.4. Limiti della ricerca e studi futuri ... 101
Appendice I ... 103
Appendice III ... 106
Appendice IV ... 109
Appendice V ... 116
Appendice VI ... 118
1
CAPITOLO 1
Introduzione
Il presente lavoro ha lo scopo di portare alla luce eventuali relazioni tra i diversi generi presenti nel panorama musicale ed il lessico usato dai critici di magazine specializzati per recensire i vari album.
Le riviste da cui provengono tali recensioni sono Spin e, nella versione statunitense, Rolling Stone, che forniscono sui propri siti web aggiornati database con tutte le revisioni. Ciò ha reso agevole la creazione di un dataset composto da 7960 rilevazioni, tutte classificate rispetto a 124 diverse variabili, alcune delle quali riprese dai dizionari del software per l’analisi dei contenuti LIWC, altre auto-prodotte. La creazione del database è resa possibile tramite l’utilizzo di una tecnica denominata automated content analysis, in cui l’analisi dei contenuti dei giudizi è ottimizzata da procedure automatizzate.
Questo lavoro di creazione di una banca dati è stato fondamentale per lo sviluppo della presente analisi che, pertanto, è da considerarsi non come un unicum, piuttosto come parte di un tutto.
Nello specifico, la disamina inizia con una rassegna circa i vari studi condotti sul tema dei generi musicali. A tal proposito, dapprima, ci si riferisce al concetto universale di genere, successivamente si spiega il modello sociologico creato dagli studiosi Lena e Peterson (2008). Tale analisi risulta interessante soprattutto per la loro concezione evolutiva dei vari generi musicali analizzati.
Nel capitolo seguente trovano spazio i vari metodi utilizzati. La rassegna inizia con una definizione della content analysis e dell’uso di procedure computerizzate per portarla avanti al fine di creare il dataset utilizzato. Successivamente si apre una spiegazione delle metodologie statistiche utilizzate ed implementate grazie al programma SPSS: l’analisi della varianza e l’analisi di
2
regressione multipla. Il lavoro si sofferma anche sulle tabelle fornite come output dal software, al fine di rendere più comprensibile il modello.
Il lavoro prosegue con l’esposizione dei risultati ottenuti tramite i metodi descritti precedentemente. Anche in questo capitolo, la presentazione degli esiti si continua a dividere tra quelli ottenuti tramite l’analisi della varianza, che restituisce le differenze tra le medie statisticamente rilevanti rispetto a determinate dimensioni, e la regressione multipla, che mette in luce tutte le variabili che permettono la creazione, per ogni stile, di un album top rated.
L’elaborato si conclude con un breve sunto in cui si evidenziano gli esiti più importanti della ricerca e come questi possano trovare riscontro in un contesto teorico. Di primaria importanza risultano essere le implicazioni a livello di marketing soprattutto per chi opera nel mercato discografico, affinché questa ricerca possa avere una valenza in termini di mercato.
In ultima istanza, si evidenziano i limiti della ricerca, ma se ne mette in risalto anche la totale innovatività che deriva dalla mancanza di una solida base teorica puramente di marketing dalla quale partire, e si propongono degli spunti per indirizzare future ricerche affinché possano implementare e migliorare il presente lavoro.
3
CAPITOLO 2
Dissertazione teorica
In questo capitolo è presentata una panoramica su quella che è la concezione dei generi musicali in letteratura. Fin da subito si nota come la materia che più di tutte si preoccupi di definire tale concetto sia la sociologia, mentre mancano consistenti contributi teorici da parte degli studiosi di marketing. Ad ogni modo, gli studi proposti da sociologi appaiono esaustivi e, soprattutto, pertinenti con l’analisi svolta in questo lavoro, perciò saranno ampiamente usati nel corso del capitolo.
È stato ritenuto opportuno iniziare la trattazione con una definizione universale di genere, che andasse al di là del solo aspetto musicale. Successivamente, si passa alla descrizione delle varie evoluzioni compiute da più o meno tutti i generi musicali, servendosi del lavoro compiuto da Jennifer C. Lena e Richard A. Peterson (2008) su sessanta diversi stili presenti negli Stati Uniti d’America durante tutto il ventesimo secolo.
Tutta la trattazione sarà corredata da esempi, in modo da rendere ancora più chiara la comprensione.
2.1. Il concetto di “genere”
Il concetto di “genere” può essere applicato ad una moltitudine di campi come l’arte visiva, la cultura popolare, i videogame, i film, la letteratura ed, ovviamente, la musica, e organizza la produzione ed il consumo degli stessi (Ahlkvist e Faulkner 2002, Ballard, Dodson e Bazzini 1999, Becker 1982, Bielby e Bielby 1994, Griswold 1987, Hirsch 1972, Negus 1999).
4
Il genere può essere definito anche come uno strumento concettuale usato per classificare i prodotti culturali, che molto spesso appaiono assai variegati, ma anche come mezzo che permette di descrivere i modi con cui gli artisti, i loro simili e il pubblico simpatizzante si esprimono (Becker 1982, Bourdieu 1993), condividendo determinati gusti (Bourdieu 1993 e 1995, Lizardo 2006).
Lo studio del genere si divide in due diversi approcci. Il primo pone l’attenzione sui contenuti testuali dell’oggetto culturale in esame, astraendolo dal contesto sociale in cui si è formato o in cui è consumato (Apperley 2006, Devitt 2004, Fowler 1982, Frow 2006, Hyon 1996, Swales 1990, C. Williams 2006), in questo modo gli studiosi di musica identificano come genere musicale una serie di parti di musica che condividono lo stesso distintivo linguaggio musicale (Van der Merwe 1989). Il secondo approccio si può definire di stampo sociologico poiché scende nel merito dei comportamenti e degli usi delle persone. Alcuni esempi possono essere lo studio dei generi musicali come utile mezzo attraverso il quale l’individuo descrive il suo status sociale (Mark 1998), oppure si riunisce spontaneamente in subculture (Thornton 1996) o in neo-tribù (Maffesoli 1996) a seconda del livello di organizzazione che è stato raggiunto dalla comunità (Lena 2012).
Da quanto espresso si evince la natura partecipativa e comunitaria della musica (Lena 2012) in cui il genere funge da collante in quanto sistema di orientamenti, aspettative e convinzioni che uniscono tutti coloro che operano nel campo musicale a diversi livelli, dall’industria stessa, agli artisti, passando per i critici e i fan. Tutti questi attori contribuiscono alla creazione del genere stesso, ovvero di cosa loro identifichino come un particolare e distinto modo di fare musica (Neale 1980).
Da questa definizione si può capire la moltitudine di generi presenti e la difficoltà per gli studiosi di identificarne i confini che molto spesso mutano in corrispondenza della nascita, dell’evoluzione e della scomparsa del genere stesso (Lamont e Molnàr 2002). Molti artisti ripudiano l’idea di essere confinati all’interno di queste barriere dettate dal genere, ma è anche vero che la loro libertà espressiva è strettamente legata alle aspettative dei fan, dei critici e di
5
coloro che promuovono, distribuiscono e consumano il lavoro prodotto (Becker 1982).
L’attività di definizione dei confini tra i generi ha come discriminanti i contesti sociale, politico, economico e culturale, che a loro volta influenzano tutti coloro che, a vari livelli, agiscono nel campo di un determinato genere musicale (Lena e Peterson 2008). Si possono fornire numerosi esempi circa l’influenza subita dai generi nei diversi contesti, ma sicuramente il binomio musica-arte rimane il più prolifico. Si ricordano gli artisti di bebop jazz, che per loro stessa ammissione si sentivano legati ai lavori avanguardisti di artisti loro contemporanei nei tardi anni ’40, oppure si pensi al rapporto che, vent’anni dopo, si instaura tra i Velvet Underground ed il portavoce della pop art Andy Warhol (Genddron 2002).
I diversi generi possono essere classificati anche attraverso la popolarità ricevuta e la loro longevità. Alcuni, come il rock’n’roll, hanno riscosso molto successo fin dalla loro istituzione e tutt’ora continuano ad essere molto popolari, altri invece, come la disco music, hanno vissuto gloriosi ma brevi momenti di celebrità (Brewster e Broughton 2000). La polka rappresenta un caso a parte, in quanto si perpetua da molto tempo senza mai riuscire a raggiungere le luci della ribalta (Shepherd, Horn e Laing 2005).
Proprio per la caratteristica volatilità dei loro confini, alcuni generi hanno dato vita a numerose varianti come è successo per esempio al rock, nato dall’r&b, dal country e dal pop, e che nel 1954 è stato riconosciuto come stile a sé (Ennis 1992); dallo stesso sono poi fiorite numerose varianti come il rockabilly, il punk, l’heavy metal ed altre ancora (Lena e Peterson 2008).
Tuttavia, non tutti gli stili musicali che comunemente si è abituati a definire “generi” sono in realtà degni di tale appellativo. Un esempio portato alla luce da Lena e Peterson è quello della pop e teen music (Lena e Peterson 2008). Nella sua essenza, la pop music è stata creata assieme alla classifica del magazine Billboard denominata “Hot 100 singles1” (Lena e Peterson 2008) ed è
1 La chart è nata il 4 agosto 1958, integrando tre tipi di classifiche preesistenti: “Best sellers in the stores”,
6
caratterizzata da uno spiccato orientamento al mercato che fa passare in secondo piano le caratteristiche distintive di tale genere, in modo da poter raccogliere quanti più consensi possibili (Weisbard 2008).
Gli artisti che producono questo tipo di musica possono anche pensare e preoccuparsi delle loro performance in termini stilistici, ma di certo tutta l’industria discografica che sta a monte non la concepisce in questi termini. Le canzoni sono appositamente create per raggiungere un vastissimo audience che, in questo caso, non è opportuno definire “fan” poiché essi non operano un processo discriminatorio di “appartenenza” o “non appartenenza” ad un certo genere correlato ad un dato sistema di valori, in quanto la pop music non detiene caratteristiche distintive e proprie peculiarità stilistiche ed artistiche. Le produzioni pop si possono definire come prodotti commerciali e non culturali (Lena e Peterson 2008).
Un esempio è quello della creazione e della proliferazione del fenomeno delle “boyband” nei tardi anni ’90 negli Stati Uniti per opera di Lou Pearlman. All’esperto discografico si deve la nascita di gruppi quali Backstreet Boys ed ‘N Sync, formati tramite casting (Lena e Peterson 2008). Questa specie di format non ha smesso di mietere consensi, e tutt’oggi si possono trovare esempi di boyband create ad hoc per un target specifico di mercato; un esempio è il gruppo britannico One Direction, appositamente formato nell’ambito del talent-show X-factor per essere un prodotto commerciale di successo nella sfera della teen music.
Un altro motivo per cui il pop non debba essere considerato come genere proprio è dato dal fatto che potenzialmente tutti i generi posso trasformarsi in pop. In altre parole, quando si guarda ad una chart, si possono ritrovare brani (od album) che sono pop nella maniera esplicitata prima (prodotto commerciale e non artistico), oppure lavori che sono pop nel senso di “popular”, ovvero che sono popolari in quel preciso momento ed in virtù di questo entrano a pieno titolo nella classifiche; paradossalmente possono definirsi pop anche lavori punk o rap.
trasmesse in radio, e “Most played in juke-boxes”, ossia i brani più replicati nei juke-box (Anand e Peterson 2000).
7
Per questo motivo sarebbe meglio considerare il pop non come un genere ma come un modo di fare business (Anand e Peterson 2000).Tuttavia la convinzione che il pop sia un genere è talmente radicata che le analisi svolte in questo lavoro vedono la partecipazione anche di questo stile musicale, visto che è consuetudine anche per i diversi magazine specializzati concepirlo come un particolare modo di fare musica.
2.2. Fasi di evoluzione dei generi musicali
Un importante contributo allo studio delle traiettorie di evoluzione dei diversi generi musicali è stato conferito dal lavoro di stampo sociologico di Lena e Peterson nel 2008. L’analisi vede la presenza di 60 diversi generi musicali che hanno contraddistinto il panorama statunitense durante tutto il ventesimo secolo. L’analisi universale di questi stili ha portato all’individuazione di quattro diversi momenti nell’evoluzione dei generi: la fase avanguardista (“Avant-garde genres”), la fase legata alla scena musicale locale (“Scene-based genres”), la fase della ribalta a livello di industria discografica (“Indistry-based genres”) e la fase di un ritorno alle origini e alla tradizione del genere (“Traditionalist genres”) (Lena e Peterson 2008).
Questi quattro differenti momenti sono individuati basandosi su dodici differenti attributi che vanno dalla forma organizzativa e il luogo d’attività, fino all’ideale di genere e allo stile. Ogni genere che rientri in una determinata fase condivide con gli altri le specificità di tali attributi, che ovviamente variano al mutare delle fasi (la matrice con la totalità delle dimensioni è disponibile in Appendice I) (Lena e Peterson 2008).
I generi nella fase avanguardista vedono la formazione di piccoli circoli, composti al massimo da una dozzina di persone che si incontrano in maniera informale ed irregolare, mancano di un leader e si creano e disfano nel giro di pochi mesi per mancanza di apprezzamento oppure, nel caso contrario, perché i
8
partecipanti mirano a raggiungere un più grande riconoscimento, aprendosi così alle fasi successive (Lena e Peterson 2008).
Questi generi si formano come risposta ad un panorama musicale nel quale gli artisti non si riconoscono perché prevedibile e privo di emozioni, e dunque cercano di creare musica totalmente diversa attraverso nuovi suoni, nuovi strumenti o, addirittura, attraverso l’uso non convenzionale di strumenti musicali. Per esempio, nei loro primi live, Iggy and the Stooges usarono come batteria dei fusti da 50 galloni di petrolio percuotendoli con dei martelli. La sperimentazione non tocca però solamente l’ambito musicale ma arriva fino al modo di vestire e di parlare (Lena e Peterson 2008).
I membri di questi generi non percepiscono alcun ricavo dalla loro attività artistica e la accompagnano a lavori in cui è richiesta poca specializzazione (Lena e Peterson 2008).
La loro attività non è di certo finanziata dalla grande industria discografica, perciò si devono affidare al supporto di familiari, amici e fan con i quali spesso hanno un rapporto personale (Lena e Peterson 2008).
Questa vita sempre al limite ha contribuito a creare un’immagine un po’ romanzata e bohemien delle icone di movimenti quali il punk o il grunge nella loro fase d’avanguardia (Lena e Peterson 2008), si pensi a una figura come quella di Joe Strummer, frontman dei Clash, che in gioventù visse in abitazioni occupate.
Probabilmente, però, l’esempio più calzante è quello del primo grunge, che nasce come antitesi ai generi più in voga al tempo come l’hair metal, il pop e il rock. Il grunge era underground, poco appariscente (al contrario delle grandi icone pop del tempo come Madonna), il cantato era semplice a livello tecnico e molto spesso indecifrabile, il loro stile era dimesso con camicie a quadri di flanella ed anfibi (Lena e Peterson 2008).
Nella fase “Scene-based” non ci si riferisce più a piccoli circoli isolati, bensì a una comunità di artisti, fan ed etichette indipendenti che condividono la stessa locazione spaziale: si pensi ad Austin in Texas per quanto concerne il rock
9
ed il country (Shank 1994), alla florida scena di Liverpool (Cohen 1991), a Kansas City per il jazz (Becker 2004) e a Chicago per il blues (Grazian 2004).
Fulcro centrale sono i quartieri spesso degradati delle grandi città, dove gli affitti sono bassi, la criminalità elevata e convivono diverse minoranze (Florida 2002, Lloyd 2006); un esempio calzante potrebbe essere quello della Manchester di metà anni ’80 e primi anni ’90, che vede la nascita del britpop e di band come gli Stone Roses prima, e gli Oasis poi.
Per la prima volta il business sembra accorgersi di questi generi e si assiste alla nascita di locali ad hoc, della promozione musicale, di etichette indipendenti e la stampa e le radio locali iniziano a mostrare interesse2. La curiosità è
trasmessa anche, in tempi più recenti, tramite la rete (Lena e Peterson 2008). Nonostante questo crescente supporto, gli artisti non possono permettersi ancora di fare della musica la loro principale occupazione (Lena e Peterson 2008).
L’evoluzione tecnologica gioca un ruolo fondamentale in questa fase, in quanto può cambiare gli equilibri stilistici all’interno dei generi stessi, come nel rap della prima ora in cui i dj ricoprivano un ruolo di spicco. Il punto di svolta ci fu quando Grandmaster Flash modificò il mixer rendendo possibile la produzione di beat continui; a questo punto l’attenzione si spostò sui contenuti dei testi e sul modo di cantare (Chang 2005, Fricke e Ahearn 2002, Lena 2003 e 2004).
Anche in questa fase assumono importanza il vestiario e i gerghi, che superano l’eccentricità della fase avanguardista per raggiungere una loro propria caratterizzazione e diventare emblematici del genere stesso. Passano alla storia le magliette tie-dye del rock psichedelico e le creste “alla moicana” dei punk (Lena e Peterson 2008). Il modo di vestire diventa anche veicolo non solo dei propri gusti musicali, ma anche di convinzioni e proprie scelte di vita, come nel caso dei punk rocker straight-edge, che attraverso il disegno di una grossa “X” sul dorso delle mani dichiaravano alla società la loro rinuncia all’alcol, alle droghe e alla vita sregolata (Haenfler 2006).
2 Si ricordi il caso della scena grunge a Seattle, in cui radio come KCMU e KJET inserirono brani grunge
10
I circoli della fase avanguardista vengono rimpiazzati da una gerarchia più complessa al cui vertice si trovano gli artisti pionieri e le icone del genere, subito sotto ci sono le persone attivamente impegnate all’interno della scena in cui riconosco la loro identità. Seguono i fan che più o meno assiduamente partecipano alla scena; chiudono la piramide coloro a cui piace trovarsi all’interno del contesto ma che non si identificano in una maniera profonda nel genere3 (Lena e Peterson 2008).
La terza fase vede approdare il genere in un contesto più formale ed istituzionalizzato: quello dell’industria discografica, sia essa quella delle grandi major che operano a livello multinazionale, sia delle etichette più piccole od indipendenti (Lena e Peterson 2008). Il comun denominatore sembra essere il fatto che i generi, in questa fase, siano market oriented, ovvero che entrino in quel campo chiamato “popular music” com’è stato definito precedentemente (Frith 1996).
I vari generi iniziano un processo di istituzionalizzazione, hanno a disposizione sempre più risorse sia a livello di capitali che a livello di servizi, come produttori, vocal coach, addetti al merchandising, autori di testi e così via. Il prodotto musicale tende ad appiattirsi, a perdere di caratterizzazione, quasi a compromettersi, per adeguarsi ai gusti di un mercato sempre più in crescita (Lena e Peterson 2008). Tutto viene stereotipato affinché il prodotto sia facilmente classificabile e collocabile sul mercato (Longhurst 2007, Negus 1999) e i potenziali acquirenti possano essere individuati, segmentati e targetizzati proprio come per qualsiasi altro prodotto commerciale (Negus 1999).
È in questa fase che si consolida l’immagine dei vari generi attribuendogli nomi e talvolta fondendo assieme, sotto lo stesso genere, più scene diverse (Peterson 1997).
I mass media, che ora rivestono importanza nazionale se non internazionale, aiutano a creare clamore attorno le personalità musicali, evidenziando i loro
3Si può ritrovare tale segmentazione all’interno della scena blues della Chicago degli anni ’90 (Grazian
11
eccessi, oppure mettendo in luce caratteristiche razziste, classiste o sessiste dei generi (Lena e Peterson 2008). Per esempio, a cavallo tra il 1943 ed il 1944, il bebop jazz fu accusato di fomentare le lotte razziali nelle città industriali del nord degli Stati Uniti (Lopes 2002); quarant’anni dopo la situazione si ripropose con il rap quando ci furono delle rivolte a Los Angeles in seguito al processo riguardante Rodney King4 (Chang 2005).
Anche il vestiario subisce lo stesso trattamento riservato alla musica: viene portato all’estremo e commercializzato per essere alla portata di tutti all’interno del nuovo mercato (Lena e Peterson 2008). Un caso ad hoc è quello riguardante il grunge, la cui estetica caratterizzata da camicie di flanella, cappelli di lana e stivali Dr. Martens, fu ripresa dal fashion designer Marc Jacobs nella collezione primaverile di Perry Ellis del 1992 (Moore 2005).
Il fatto di esporsi su un mercato commerciale fa sì che, attraverso il massiccio ricorso al marketing, molte più persone si avvicinino al genere, scatenando le ire di coloro che hanno sempre supportato la scena e se ne identificano. La diatriba ruota attorno al concetto di autenticità che, secondo i fan di lunga data, è andata persa con la corruzione del genere tramite il contatto col mondo commerciale (Cantwell 1984, Eyerman e Jamison 1998, Lopes 2002). Questa tensione si trasforma a sua volta in motrice per un nuovo cambiamento; non è insolito, infatti, che alcuni artisti passino ad altri generi più d’avanguardia, oppure transitino verso la fase tradizionalista, per riappropriarsi dell’autenticità perduta (Lena e Peterson 2008).
Si giunge così all’ultima fase, quella in cui si ha una sorta di ritorno alla tradizione. Lo scopo di coloro che si identificano in un genere tradizionalista è quello di conservare e tramandare il retaggio artistico e culturale del genere stesso per far sì che le generazioni future possano capirne le tecniche, la storia ed i rituali (Lena e Peterson 2008). I luoghi di ritrovo e di contatto tra i fan e gli artisti non sono più né lo scantinato degli inizi carriera né i grandi palcoscenici
4Rodney King, cittadino statunitense afroamericano, fu vittima di un pestaggio da parte di diversi agenti
della Los Angeles Police Department. Gli scontri a fondo razziale si incendiarono a seguito dell’assoluzione degli agenti durante il processo.
12
della ribalta, ma piuttosto festival, concerti celebrativi e reunion, in cui vi è la possibilità di rivivere anche per un solo istante lo spirito autentico del genere, e condividere l’esperienza sia con vecchi che con nuovi supporter (Rosenberg 1985). Si capisce fin da subito che si è distanti dalle lotte tra “vecchi” e “nuovi” fan caratterizzanti la fase “Industry-based”, visto che il genere ritorna alle sue origini, si riappropria dell’autenticità perduta ed i fan sono coloro i quali si rivedono e si identificano con questo nuovo sistema di valori, siano essi della prima ora o meno.
I seguaci spesso si riuniscono in club e si tengono in contatto tramite mail, magazine specializzati o blog online, molto utili per ricostruire e promuovere la storia di un determinato genere (Bennett 2004). Nascono anche dibattiti accesi, ad esempio su quale gruppo o quale personaggio rappresenti meglio lo stile musicale stesso, o in quale luogo sia nata per prima una certa scena artistica, come nel caso dei tradizionalisti del punk statunitense che vedono in New York e Detroit le culle dei questo genere, tra i tardi anni ’60 e i primi anni ’70. Al contrario i sostenitori del punk inglese indicano la Londra dei primi anni ’70 come luogo di nascita (Longhurst 2007).
I tradizionalisti operano anche attraverso un metodo critico, censurando e ripudiando coloro che si sono corrotti col mercato mainstream, anteponendo i profitti e gli interessi delle grandi major ai valori del genere. Questo tipo di censura può essere rivista nella denigrazione di artisti rap “crossover5” degli anni
’80 come Vanilla Ice, colpevoli di aver reso appetibile ai “giovani bianchi” un genere fortemente ancorato nella cultura giovanile afroamericana (Light 2004).
Il ritorno alle origini passa anche per una categorizzazione stereotipata del genere secondo variabili come l’etnia, la classe sociale, il livello di educazione scolastica oppure il paese d’origine (Lena e Peterson 2008). Si dice che un vero musicista bluegrass debba essere giovane, “bianco”, della classe operaia e preferibilmente proveniente dalle campagne dei monti Appalachi (Rosenberg
5Un lavoro si definisce “crossover” quando riunisce al suo interno diversi generi musicali; quando un
13
1985), oppure che un vero punk debba essere giovane, “bianco” e reietto (Laing 1985)
Questo studio è stato scelto proprio per la sua potente portata esplicativa, ma anche per la sua grande novità: in questo caso il genere è usato come unità di misura dell’analisi, a differenza di altri sudi che si focalizzano o sul consumatore oppure considerano i generi come immutabili e non soggetti a una continua evoluzione (Lena 2012).
14
CAPITOLO 3
Metodologia della ricerca
Nel presente capitolo si tratta in maniera esplicativa la metodologia usata nel corso delle varie analisi. In una prima parte è definito il concetto di content analysis (in italiano “analisi del contenuto”) e della sua evoluzione più recente, e come questo si sia rivelato uno strumento fondamentale per la creazione del dataset finale. Nella seconda, invece, si passano in rassegna tutti i procedimenti statistici che hanno dato vita alle interpretazioni dei dati tramite l’utilizzo di metodi come l’analisi della varianza e la regressione multipla.
3.1. L’evoluzione della content analysis
La content analysis è definita come “un metodo usato nelle scienze sociali per stimare e analizzare in maniera sistematica il contenuto di un messaggio, solitamente sottoforma di testo” (Humphreys 2014, p. 8). Il primo a proporre tale tecnica fu, nel 1924, Max Weber, che introdusse l’uso dei cosiddetti human coder ovvero dei codificatori umani per studiare la stampa di quell’epoca (Humphreys 2014). Da quel momento in poi, l’analisi del contenuto è stata usata per tracciare mutamenti circa la comunicazione al passare del tempo, per descriverne i trend, per esaminare gli interessi, le preferenze e le intenzioni sia di gruppi sia di individui (Berelson 1971).
Il ricorso ad un metodo basato sul lavoro di persone comporta però tutta una serie di problematiche collegate, appunto, all’uso della componente umana. In primo luogo, lo stesso testo potrebbe essere analizzato in diverse maniere
15
secondo l’esperienza e la sensibilità dei coder (Carley 1997, Potter e Levine-Donnerstein 1999). Inoltre il personale deve essere istruito e pagato, senza dimenticare che il lavoro deve subire un processo di cross-validation1
(Humphreys 2014).
A tutta questa serie di problematiche si va ad aggiungere il sempre più crescente numero di risorse testuali collocate online, che suscitano un grande interesse per la loro rilevanza, ma dalle quali è molto difficoltoso ricavare dati significativi tramite l’uso della tradizionale analisi del contenuto (Humphreys 2014).
Si giunge così a un nuovo metodo denominato “automated content analysis”, evoluzione del precedente. Questo possiede una serie di vantaggi rispetto ai procedimenti antecedenti di analisi dei dati testuali o provenienti da archivio, quali la maggiore affidabilità, la trasparenza e l’efficienza conferiti dall’uso di approcci basati sul computer (Humphreys 2014).
Mentre nella content analysis tradizionale sono impiegati due o più codificatori per smistare i dati all’interno delle categorie, tramite questo nuovo approccio tutto è automatizzato ed il coder diventa unico e, grazie allo sviluppo di speciali codebook, egli non decide circa l’inclusione o meno di un dato in una categoria piuttosto che in un’altra (Humphreys 2014).
Tramite l’uso di liste di parole e di algoritmi, il metodo di analisi può essere implementato e replicato da qualsiasi ricercatore sia sullo stesso dataset sia su altri, senza perdere affidabilità rispetto al metodo tradizionale di analisi tramite persone (Morris 1994), anzi migliorando quelle che sono le tecniche storiche (Golder 2000).
L’analisi del contenuto automatica non dev’essere però considerata una panacea. Per esempio il computer non può di certo cogliere le sfumature di significato associate ad un determinato uso delle parole, ed è per questo che tale procedimento deve essere ritenuto un’importante risorsa nelle mani del ricercatore, ma di certo non l’unica (Humphreys 2014).
16
Nel caso specifico di questo lavoro, l’automated content analysis è stata fondamentale per la creazione di un dataset in cui sono state classificate le diverse recensioni in base a differenti dimensioni. Le modalità e le fasi necessarie alla sua creazione sono illustrate nel paragrafo successivo.
3.2. Metodo di creazione di un dataset tramite
l’automated content analysis
Per la creazione di un dataset tramite l’automated content analysis, esistono fondamentalmente due approcci: quello “top down2” e quello “bottom up3” (Mehl
e Gill 2008).
Il primo fa uso di un dizionario composto da parole chiave e poi passa ad identificare e a verificare la presenza di tali keyword nel testo. Il secondo approccio, invece, inizia con la codifica di tutti i concetti presenti nel testo per poi calcolare le variazioni di frequenza con le quali vengono usati tali concetti al fine di evidenziare i cambiamenti statisticamente più rilevanti sia al trascorrere del tempo sia trasversalmente a diversi testi (Rayson 2009).
Nel presente caso, il dataset è stato costruito usando il metodo top down, poiché risulta più semplice e pratico da implementare non solo a livello di creazione del database, ma anche a livello di revisione del processo (Humphreys 2014).
Prima di passare alla disamina dell’iter creativo del dataset, è di fondamentale importanza aver ben chiaro quale sia l’argomento della ricerca, il focus su cui ci si vuole concentrare, la domanda alla quale si vuole dare una risposta (Humphreys 2014). Nel presente caso si vogliono analizzare le recensioni provenienti da due magazine musicali di fama internazionale come Rolling Stone e Spin, per capire le variazioni tematiche delle stesse rispetto ad
2 Letteralmente “dall’alto al basso”. 3 Letteralmente “dal basso all’alto”.
17
un’unica variabile che è il genere musicale. Detto ciò, il processo si può scomporre in sei fasi susseguenti l’una all’altra (Humphreys 2014).
La prima è denominata “Data collection4” ed è il momento in cui si identificano le fonti da dove reperire le informazioni (Humphreys 2014). Come è facile intuire, tali fonti possono essere numerose: digitalizzazione di testi cartacei, web scraping5, materiali presenti in archivi, interviste sul campo oppure
il ricorso a database o riviste online (Humphreys 2014). Proprio quest’ultima opzione è servita per creare il dataset in questione, sfruttando il ricco archivio di recensioni dei due magazine fruibile online6. Sempre in questo campo è
importante condurre un buon lavoro di campionamento, selezionando i siti web più affidabili, gli argomenti più rilevanti (Golder 2000) e la finestra temporale più opportuna (Krippendorff 2004). Nello specifico, il dataset è composto da 7960 recensioni di album che vanno dagli anni ’60 fino al primo decennio degli anni 2000, tutte provenienti dalle pagine web dei due magazine citati in precedenza.
Lo step successivo è il “Data preparation e unitization7” e prevede
un’attenta analisi dei dati raccolti. Dopo che le informazioni sono state rilevate ed archiviate, bisogna procedere con un controllo ortografico per eliminare e modificare tutti gli eventuali vocaboli scritti male e quelli usati in maniera gergale (Humphreys 2014). In un secondo momento, i dati così ripuliti devono essere organizzati in strutture per una più facile archiviazione e consultazione (Humphreys 2014).
Successivamente si passa alla definizione delle categorie e alla creazione del dizionario (“Construct definition and dictionary creation”) (Humphreys 2014). Dopo che i dati sono stati rilevati, categorizzati e resi comprensibili, si può passare a raccoglierli in un dizionario, inteso come una lista di parole che gravitano attorno ad un costrutto o ad un concetto (Humphreys 2014). Nel caso proposto, si sono usati in parte vocabolari pretestati come quelli del software
4 Letteralmente “raccolta dei dati”.
5 Tramite un software si estraggono dei dati da una pagina web.
6 Si vedano i siti http://www.rollingstone.com/music/albumreviews e http://www.spin.com/reviews/. 7 Letteralmente “preparazione e scomposizione dei dati”.
18
LIWC8 e in parte se ne sono creati di nuovi, soprattutto per quanto riguarda il
tema dell’autenticità e del mondo musicale (la lista delle categorie è consultabile in Appendice II).
La quarta fase è definita “Measurement9” e prevede il conteggio delle
parole tramite l’utilizzo di un computer. Le decisioni circa la misurazione devono basarsi sulle finalità della ricerca e possono comprendere: la percentuale assoluta di tutte le parole, la percentuale delle parole all’interno di una categoria e di uno spazio temporale oppure un metodo di tipo binario (“pertinenza” o “non pertinenza” rispetto ad un argomento) (Humphreys 2014). Gli output di questa fase sono tutti espressi in percentuale poiché così i risultati non sono inficiati dalle diverse lunghezze dei testi presi in considerazione (cosa che accadrebbe se si limitasse a considerare gli output in valore assoluto) (Humphreys 2014). Nel presente caso, gli esiti riportano la percentuale di volte che una parola, appartenente a una data categoria presente nel dizionario, è menzionata nelle diverse recensioni.
Successivamente si passa alla convalida del dizionario (“Dictionary validation”) tramite due differenti metodi (Humphreys 2014). Il primo prevede l’uso di una persona che giudica, di solito, 20 parole per ogni categoria. Il verdetto viene poi confrontato con quanto prodotto al computer tramite un criterio denominato “alfa di Krippendorff” (Krippendorff 2010, Krippendorff 2007). Tale discriminante non dovrebbe essere minore del 70% per ogni categoria (Weber 2005).
Il secondo metodo è meno dispendioso e non risente della sensibilità del codificatore, prevede infatti l’uso di una procedura di saturazione (Humphreys 2014). Preliminarmente si fa scorrere il dizionario sul testo e si esaminano 10 casi alla volta guardando se siano concordi o meno con la categoria alla quale si riferiscono e tenendo nota delle omissioni e dei falsi positivi (Weber 2005). In questo modo il dizionario può essere revisionato tramite un “hit rate10” e un
8 Il Linguistic Inquiry Word Count (LIWC) prevede dei dizionari standard psicometricamente testati per
concetti come le emozioni positive e negative, il linguaggio cognitivo e i tempi verbali (Pennebaker, Francis e Booth 2007).
9 Letteralmente “misurazione”.
19
“false hit rate11” (Humphreys 2014). Essendo una tecnica quantitativa permane
sempre un certo grado di errore, anche se si può accettare un risultato di almeno l’80% all’hit rate e di meno del 10% al false hit rate (Wade, Porac e Pollock 1997, Weber 2005).
L’ultima fase è quella dell’ “Interpretation”. Dopo che le categorie sono state individuate, misurate e validate si procede con l’interpretazione dei dati così raccolti. Le analisi che possono essere condotte sono essenzialmente tre: lo scaling multidimensionale che viene usato per capire le relazioni tra una molteplicità di concetti appartenenti allo stesso campo (Corman et al. 2002, Mohr 1998), l’analisi della varianza e la regressione (Humphreys 2014).
Il presente lavoro si sofferma solamente su quest’ultima fase, lasciando al prosieguo della trattazione la disamina specifica dell’analisi della varianza e della regressione multipla.
L’analisi condotta da coloro che si sono occupati più specificatamente dell’analisi del contenuto ha portato alla creazione di un dataset contenente 7960 recensioni di album musicali.
Per le finalità del mio personale lavoro sono di fondamentale importanza i dati relativi ai diversi generi musicali, presentati come una variabile di tipo qualitativo distinta in 13 modalità:
 African (38 recensioni. 0.5%)  Avant-garde (238 recensioni, 3%)  Blues (123 recensioni, 1.5%)
 Caribbean e Latin (76 recensioni, 1%)  Country (358 recensioni, 4.5%)
 Electronic (783 recensioni, 9.8%)  Folk (674 recensioni, 8.5%)  Hip hop (720 recensioni, 9%)  Jazz (95 recensioni, 1.2%)  Pop (491 recensioni, 6.2%)
20
 R&B (442 recensioni, 5.6%)  Rock (3913 recensioni, 49.2%)  Comedy (9 recensioni, 0.1%)
Conclusa questa prima parte inerente alla content analysis ed alla creazione di un dataset, si passa ad una seconda in cui i diversi generi sono confrontati tramite l'analisi della varianza in merito a diverse variabili dipendenti. Successivamente si cerca di individuare le variabili più importanti per produrre un disco “perfetto” ovvero quali siano le caratteristiche essenziali per ricevere un alto rating nelle recensioni sui magazine presi in esame. Questa seconda analisi è portata avanti tramite l'utilizzo della regressione multivariata.
Fondamentale per le analisi è SPSS (acronimo di Statistical Package for the Social Sciences), un software ideale per le analisi statistiche nato per lo studio in campo delle scienze sociali .
3.3. Analisi della varianza
In questa prima parte, il genere musicale è considerato una variabile indipendente (o fattore), e le sue differenti modalità sono confrontate tra di loro, servendosi di una molteplicità di variabili dipendenti, tramite l’analisi della varianza (d’ora in avanti ANOVA, analisys of variance).
Prima di spiegare nel dettaglio in cosa consista e cosa implichi l’analisi ANOVA, è importante spiegare il perché si usi questo metodo piuttosto che semplicemente compiere tanti t-test12 per mettere a confronto tutte le possibili
combinazioni tra le modalità del fattore indipendente (Field 2009).
Ovviamente in primo luogo sarebbe troppo dispendioso in termini di tempo effettuare questi confronti a coppie ma sussiste anche un motivo di carattere
12Il t-test è un test statistico che ha lo scopo di verificare se il valore medio di una distribuzione si discosti
21
statistico. Supponiamo per semplicità che le modalità della variabile indipendente siano 3, dunque si dovrebbero compiere tre diversi t-test, uno per ogni coppia (gruppo 1 e 2; gruppo 1 e 3; gruppo 2 e 3). Ponendo il livello di significatività a 0.05 (che rimarrà assestato su questo valore per tutto lo studio) per ogni test la probabilità di incorrere nell’errore di prima specie13 è solo del 5%
(di conseguenza la probabilità di non incorrere in un errore di prima specie è del 95%). Assumendo l’indipendenza di ogni test, la probabilità generale di non abbattersi in un errore di tipo I è del 85.7%14 mentre la probabilità di incorrervi è
del 14.3%15. È semplice evidenziare come l’eventualità di compiere l’errore sia
aumentata dal 5% al 14.3%. Questo è ciò che accade quando si prendono in considerazione solo 3 gruppi, si pensi cosa possa accadere quando si lavora invece, come nel presente caso, con ben 13 differenti gruppi corrispondenti ad altrettanti generi musicali (Field 2009).
Quando si ha a che fare con tre o più campioni bisogna, per forza di cose, ricorrere all’ANOVA. Similarmente a quanto accade col t-test, anche nell’analisi della varianza lo scopo è quello di verificare l’ipotesi nulla, ovvero che tutti i gruppi abbiano media uguale. L’ANOVA restituisce una F-ratio che rapporta l’ammontare di varianza sistematica (la varianza causata da fattori esterni ai gruppi, “Varbetween”) con quella non sistematica (la varianza causata da fattori interni ai gruppi, “Varwithin”), in altre parole è il rapporto tra il modello ed il suo errore (Field 2009).
Il limite principale del processo è che la F-ratio dice solo che l’esperimento ha avuto dati effetti (ha confermato o meno l’ipotesi nulla di uguaglianza tra le medie) ma non esplicita nulla in merito agli effetti stessi. In altre parole, può indicare per esempio che le medie differiscono, ma non evidenzia quali variano e in che misura (Field 2009).
13Nella statistica inferenziale si vuole verificare la veridicità di un’ipotesi definita nulla ed indicata con
H0. Nel caso essa venga rifiutata si accetta l’ipotesi alternativa H1. Se si rifiuta un’ipotesi nulla che nella
realtà è vera allora si incorre in un cosiddetto errore di prima specie o di tipo I.
14Assumendo l’indipendenza dei test possiamo moltiplicare le probabilità ed ottenere così la probabilità
generale di non incorrere in un errore di prima specie con 0.95*0.95*0.95=0.857.
15Si sottrae semplicemente da 1, che è il numero massimo che la probabilità di accadimento di un evento
22
Una parte fondamentale del processo implica il controllare se i dati che si devono analizzare siano o meno appropriati per l’utilizzo dell’ANOVA univariata. A monte della ricerca quindi si devono rispettare sei fondamentali presupposti (Field 2009):
1. Le variabili dipendenti devono essere quantitative continue, ovvero scaturite da un processo di misurazione;
2. La variabile indipendente deve presentare tre o più modalità indipendenti; 3. Le osservazioni dovrebbero essere indipendenti, il che significa che non vi
deve essere alcuna relazione tra le osservazioni all’interno di ciascun gruppo o tra i gruppi stessi;
4. Non ci dovrebbero essere valori anomali, ovvero valori che si discostano di molto dagli altri presenti all’interno dello stesso gruppo;
5. Ciascuna variabile dipendente dovrebbe essere approssimativamente distribuita normalmente per ogni modalità della variabile indipendente; 6. Ci deve essere l’omogeneità delle varianze, attuabile con SPSS attraverso
lo specifico test di Levene.
Non bisogna però rimanere sorpresi se, nell’analizzare i dati presenti in un dataset con SPSS, uno o più presupposti vengano violati. Questo è ciò che accade quando si gestiscono dati provenienti da indagini vere, condotte nel mondo reale (Field 2009).
Un esempio è quello delle frequenze all’interno del fattore “Genere musicale” che sono distribuite in maniera non uniforme (vedi Tabella 3.1).
MusicGenre Frequenza Percentuale Percentuale valida Percentuale cumulata Validi African 38 ,5 ,5 ,5 Avant-garde 238 3,0 3,0 3,5 Blues 123 1,5 1,5 5,0
Caribbean & Latin 76 1,0 1,0 6,0
Country 358 4,5 4,5 10,5
Electronic 783 9,8 9,8 20,3
23 Hip-hop 720 9,0 9,0 37,8 Jazz 95 1,2 1,2 39,0 Pop 491 6,2 6,2 45,2 R&B 442 5,6 5,6 50,7 Rock 3913 49,2 49,2 99,9 Comedy 9 ,1 ,1 100,0 Totale 7960 100,0 100,0
Tabella 3.1 Distribuzione di frequenze per la variabile “Genere musicale”.
3.4. L'analisi della varianza con SPSS
Il programma SPSS risulta di vitale importanza. Il software offre una moltitudine di opzioni a disposizione del ricercatore e restituisce utili tabelle per poter commentare, alla luce delle conoscenze, i risultati ottenuti.
Dopo questa precisazione, di seguito sono fornite delle spiegazioni circa le diverse tabelle generate dal software. In questo primo momento si illustrano le metodologie usate e i criteri di giudizio dei risultati, ma il commento dettagliato degli stessi è proposto nel capitolo dedicato.
Va precisato che SPSS può affrontare una moltitudine di calcoli matematico-statistici in pochi secondi, ma quello che non può fare è controllare la qualità del modello da lui generato né giudicarlo oppure dare alcuna indicazione circa la sua validità (Field 2009). Selezionare le giuste alternative, i metodi più opportuni e l'interpretazione degli output è compito di coloro che stanno dietro il programma. SPSS fornisce i mezzi, ma sta al ricercatore usarli bene (Chiorri 2010).
Il procedimento inizia scegliendo la prima variabile dipendente che è quella in base alla quale sono confrontate le diverse modalità del fattore, e poi via via si ripete lo stesso metodo per tutte le variabili dipendenti selezionate.
24
Statistiche descrittive. SPSS dà la possibilità di effettuare delle statistiche descrittive preliminari che calcolano il numero dei casi, le medie, le deviazioni standard, gli errori standard, il valore minimo e massimo e gli intervalli di confidenza al 95% della variabile presa in esame per ogni modalità della variabile indipendente. La tabella fornisce dati interessanti circa la composizione generale del fattore scisso nelle sue diverse modalità (Field 2009).
ANOVA univariata e Test di omogeneità delle varianze. L’ANOVA univariata restituisce la Tabella 3.216:
ANOVA univariata WordCount Somma dei quadrati df Media dei quadrati F Sig.
Fra gruppi 2,123E7 12 1769064,568 18,802 ,000
Entro gruppi 7,477E8 7947 94087,921
Totale 7,689E8 7959
Tabella 3.2 Output di SPSS per l'analisi della varianza con variabile dipendente “Word count”.
La tabella è divisa in effetti fra gruppi ed entro i gruppi (quest’ultimo fornisce dettagli circa la varianza non sistematica dei dati) (Field 2009). La penultima e l'ultima colonna sono le più interessanti perché esplicitano il valore di F, che risulta fondamentale per capire l'esistenza di effetti rilevanti sul fattore, ed il livello di significatività ad esso associato. Si usa un valore pari a 0.05 come discriminante al di sotto del quale si può accettare l'effetto del genere musicale sulla variabile dipendente. In altri termini, a questo punto si sa che l’effetto esiste, che almeno una coppia di medie differisce, ma non si sa quale (Field 2009).
Prima però di passare allo step successivo che permette di individuare tali coppie, bisogna dare uno sguardo ad un’altra tabella (vedi Tabella 3.3) che è fornita dalle opzioni, ovvero quella del test di omogeneità delle varianze.
16D’ora in avanti, a titolo esemplificativo, si prenderà la relazione tra il genere musicale e la lunghezza in
25
Test di omogeneità delle varianze
WordCount
Statistica di
Levene df1 df2 Sig.
27,629 12 7947 ,000
Tabella 3.3 Output di SPSS circa il test di Levene sull'omogeneità della varianze con variabile dipendente “Word count”.
Il test di Levene prova se le varianze dei gruppi siano o meno significativamente differenti tra loro. Se il valore dell’ultima colonna Sig. è superiore a 0.05 si può affermare che le varianze siano simili e dunque si prende per buono il risultato messo in evidenza dalla tabella di ANOVA (Field 2009).
Ma cosa succede se, come nel caso proposto, il valore è inferiore alla soglia di 0.05? Per prima cosa non rimane valido il risultato fornito dall’analisi della varianza (Field 2009). Dal momento in cui cade l’ipotesi di omogeneità, è opportuno verificare un’altra volta l’ipotesi nulla dell’ANOVA ricorrendo a test robusti per l’uguaglianza delle medie. È stato ritenuto opportuno affidarsi al test di Welch (Field 2009) (vedi Tabella 3.4):
Test robusti per l'uguaglianza delle medie
WordCount
Statisticaa df1 df2 Sig.
Welch 37,653 12 296,093 ,000
a. Distribuito a F asintoticamente
Tabella 3.4 Output di SPSS circa il test di Welch per l'uguaglianza delle medie con variabile dipendente “Word count”.
Se il test portasse a rifiutare l’ipotesi di uguaglianza delle medie (dato che il livello di significatività associato alla statistica è inferiore a 0.05), allora si dovrebbe prendere per buono il valore di F in Tabella 3.4 e non più quello presenta nella tabella dell'ANOVA (vedi Tabella 3.2) (Field 2009). Giova ricordare che ciò non implica che le medie siano tutte diverse, ma piuttosto che esiste almeno una coppia di medie la cui differenza risulta notevole (Field 2009).
26
A questo punto si rende necessario individuare quali siano queste coppie, tramite il confronto a due a due di tutte le medie attraverso i cosiddetti test post-hoc.
Test post-hoc. Questi test consistono in comparazioni a coppie disegnate per relazionare tutte le differenti combinazioni possibili tra le diverse modalità del fattore per studiarne gli effetti sulla variabile dipendente. In sostanza sarebbe come prendere ciascuna coppia di medie e costruirci un t-test per ognuna (Field 2009). Ovviamente per non incorrere nei problemi sopra descritti riguardo la molteplice applicazione del test, il software automaticamente corregge il livello di significatività e dunque il livello critico rimane il solito 0.05 (Field 2009).
Quando le varianze non sono omogenee (come in questo caso) i test post-hoc standard non possono essere utilizzati17. Procedura adeguata risulta essere
dunque il test di Dunnett che tiene conto della non omogeneità (Field 2009) (vedi Tabella 3.5).
Confronti multipli
WordCount T3 di Dunnett
(I) MusicGenre (J) MusicGenre
Differenza fra medie (I-J) Errore std. Sig. Intervallo di confidenza 95% Limite
inferiore Limite superiore African Avant-garde -102,91420* 23,69267 ,003 -186,0681 -19,7603
Blues -258,75139* 34,17311 ,000 -377,4062 -140,0966 Caribbean & Latin -119,57895 35,02508 ,066 -242,1742 3,0163 Country -173,25007* 26,53460 ,000 -265,4697 -81,0305 Electronic -71,44397* 19,53364 ,044 -142,0599 -,8281 Folk -214,15641* 23,35213 ,000 -296,1304 -132,1824 Hip-hop -120,58984* 19,97939 ,000 -192,4583 -48,7214 Jazz -201,07368* 37,85089 ,000 -333,0323 -69,1150 Pop -175,50005* 22,23925 ,000 -254,0562 -96,9439 R&B -211,98369* 22,75369 ,000 -292,1270 -131,8403 Rock -212,95319* 18,86675 ,000 -281,7467 -144,1597 Comedy -15,49123 26,46294 1,000 -117,0479 86,0654
17Tra i test standard più importanti si ricordano Bonferroni, REGWQ, Turkey, Gabriel e Hochberg (Field
27
Tabella 3.5 Output di SPSS circa il test di Dunnett con variabile dipendente “Word count” limitato al solo genere “African”.
Ogni genere musicale è comparato ai restanti generi. Per ogni coppia è visualizzata la differenza tra le medie, l’errore standard delle stesse, il livello di significatività di quella differenza e gli estremi dell’intervallo di confidenza al 95%. In automatico il software evidenzia con un asterisco le medie che maggiormente differiscono ed anche il segno e l'entità di tale differenza.
3.5. Regressione lineare multipla
La seconda parte dell'esperimento ha come obiettivo quello di descrivere, genere per genere, le caratteristiche chiave che deve possedere un album per essere un top rated nelle recensioni dei magazine presi in esame18.
Nell'ambito di questa analisi la variabile dipendente, ovvero l'outcome che si vuole studiare, è lo ”Star rating” inteso come punteggio da 1 a 10 che i critici hanno fornito per ogni disco recensito19, mentre le variabili indipendenti di
partenza, cioè quelle che potrebbero o meno influenzare l'outcome, sono le stesse usate nell'analisi precedente.
In sintesi si vuole rispondere alle domande “Che cosa serve per produrre un album che ottenga un voto di 10 nelle recensioni? Esiste il perfetto album rock, folk, pop e così via?”. Il metodo usato per rispondere a queste domande è la regressione multipla.
L'analisi di regressione multipla è un modo per predire una variabile outcome dipendente (nello specifico “Star rating”) usando diverse variabili indipendenti (chiamate predictor) tramite la creazione di un modello che aderisca
18Si sono analizzate le recensioni di due riviste musicali specializzate: Rolling Stone e Spin.
19In realtà non si hanno le valutazioni di tutti gli album perché il fatto di giudicarli tramite un punteggio è
28
quanto più ai dati in possesso, permettendo di andare oltre le mere informazioni che forniscono gli stessi (Field 2009).
Il tutto può essere riassunto tramite l'uso di una equazione: i n nX X X y 0 1 1 2 2 ... 
in cui y è la variabile dipendente ( outcome ), β1 rappresenta il coefficiente del
primo predictor X1, β2 è il coefficiente del secondo predictor X2, βn è il
coefficiente dell'n-esimo predictor Xn, e εi rappresenta la differenza tra il valore
predetto e quello osservato di y per l'i-esima rilevazione (Field 2009).
Questa analisi differisce dalla regressione lineare semplice poiché quest'ultima presenta un solo predictor (dunque l'equazione generale diventa graficamente quella di una retta) però il principio di base rimane lo stesso: cercare di scoprire la combinazione di predictor che si correlano di più con la variabile outcome (Field 2009).
Per prima cosa dunque si devono scegliere le differenti variabili da cui dipende il risultato finale. In un mondo ideale queste dovrebbero essere selezionate sulla base di precedenti studi, ma quando ciò non è possibile diventa cruciale la bontà statistica del metodo scelto e l'accortezza del ricercatore nel selezionare i predictor che sulla carta appaiono più appetibili e più rilevanti ai fini dello studio (Field 2009).
I diversi metodi si dividono in tre categorie a seconda dell'uso (Field 2009):
 Gerarchico ( “Hierachical regression” ): per una ricerca in cui tutti i predictor sono totalmente non correlati, l'ordine di immissione delle variabili ha scarsissimo effetto sui parametri. L'unica eccezione è rappresentata dalla regressione gerarchica, in cui i predictor sono selezionati in base alle ricerche passate ed è il ricercatore che decide in quale ordine inserirli nel modello, dal più importane al meno rilevante.
 Immissione forzata ( “Forced entry” ): tutte le variabili indipendenti sono incluse nel modello simultaneamente. Come per quello gerarchico, anche questo modello si deve basare su buone fondamenta teoriche derivanti da
29
ricerche condotte in precedenza al fine di incorporare le giuste variabili. Si differenzia dalla metodologia vista sopra in quanto il ricercatore non può decidere l'ordine in cui inserire i predictor.
 Metodi per passi ( “Stepwise methods” ): in questo caso le decisioni sull'ordine nel quale le variabili sono immesse nel modello sono basate su un criterio esclusivamente matematico di inclusione ed esclusione. SPSS è preimpostato già su valori di default20.
La regressione per passi a sua volta presenta tre diverse varianti (Field 2009):
1. Metodo in avanti ( “Forward method” ): si definisce un modello iniziale che contiene solo la costante β0, dunque il programma ricerca
la variabile indipendente che meglio predice quella dipendente, e lo fa selezionando il predictor che ha la più alta correlazione semplice con l'outcome. Se tale predictor migliora significativamente l'abilità del modello di predire l'outcome allora viene incorporato e si procede alla ricerca di una seconda variabile indipendente. Il criterio utilizzato in questo secondo step è quello di ricercare il predictor che ha la più alta correlazione semi-parziale21 con l'outcome22. La variabile che spiega la
maggior parte della nuova varianza residuale è aggiunto al modello e, se apporta un significativo contributo al potere di predizione dello stesso, allora viene trattenuto e si passa a considerare un'altra variabile. In questo modo l'equazione di regressione è continuamente ridefinita.
2. Metodo per passi ( “Stepwise method” ): SPSS tratta questo metodo esattamente come quello descritto in precedenza con l'unica eccezione che ogni volta che un predictor è aggiunto all'equazione, un test di rimozione scarta la variabile meno utile.
20I valori di default sono di 0,05 per l'inclusione e di 0,10 per l'esclusione (Chiorri 2010). Tale intervallo
garantisce un buon compromesso fra errori di I e II tipo. A seconda delle necessità (se si vogliono includere più o meno variabili nel modello finale) tali valori possono essere più dilatati o più restringenti.
21La correlazione semi-parziale fornisce una misura di quanta “nuova varianza” dell'outcome può essere
spiegata da ogni predictor rimanente.
22Supponiamo che il primo predictor possa spiegare il 30% della variazione nella variabile outcome,
dunque permane un 70% di variazione non spiegata. Il programma ricerca la variabile indipendente che può spiegare la maggior parte di questo 70% rimanente.
30
3. Metodo all'indietro ( “Backward method” ): si presenta come l'opposto del metodo “in avanti” nel senso che il computer inizia mettendo tutti i predictor nel modello e successivamente calcola il contributo di ognuno guardando alla significatività del valore del t-test. Tale numero viene confrontato con una regola di rimozione e se il predictor incontra tale criterio, ovvero se non porta un contributo statisticamente rilevante alla bontà di predizione dell'outcome del modello, viene rimosso e si effettua una nuova stima sulle variabili rimanenti.
Le reticenze da parte degli studiosi circa i metodi a passi sono molte. Prima tra tutte è la mancanza di controllo da parte dei ricercatori su molte importanti decisioni di tipo metodologico che invece sono lasciate al computer (Field 2009). In secondo luogo, il modello che ne deriva è frutto di decisioni che SPSS prende sulla base di talvolta piccole differenze tra le correlazioni semi-parziali delle diverse variabili (Field 2009). Può accadere che questi leggeri scarti possano portare all'esclusione di predictor molto importanti per il modello dal punto di vista teorico. Si potrebbero riscontrare anche problemi di over-fitting23 e di
under-fitting24 (Field 2009).
Se si decidesse di usare un metodo a passi, sarebbe preferibile usare quello backward a causa dell'effetto di soppressione25 (Field 2009). Il criterio forward,
infatti, ha una maggiore possibilità di escludere predictor che in realtà ben predicono l'outcome (i.e. errore di II tipo) (Field 2009).
Qualora si fosse in possesso di una buona base teorica da cui partire, il modello si dovrebbe costruire partendo da questa, mirando ad includere ogni variabile significativa nel suo ordine di importanza rispetto alle altre (Field 2009). Il metodo a passi risulta poco accurato in una situazione come questa, mentre diventa utile per una ricerca esplorativa (Chiorri 2010).
Questo lavoro, purtroppo, non può sfruttare informazioni derivanti da studi pregressi, dunque è ritenuto opportuno, alla luce delle motivazioni teoriche
23Con over-fitting si intende l'includere nel modello troppe variabili che contribuiscono in maniera esigua
alla previsione dell'outcome.
24Quando si parla di under-fitting si fa riferimento all'esclusione dal modello di variabili importanti. 25L'effetto di soppressione si verifica quando una variabile ha un effetto rilevante solo quando un'altra
31
precedentemente espresse, utilizzare il metodo per passi di tipo backward, reputandolo un giusto compromesso tra rilevanza statistica e teorica.
3.6. Analisi sulla correttezza del modello e sulla sua
generalizzazione
Una volta deciso il metodo con cui portare avanti l'analisi, si procede dapprima con la verifica della bontà del modello trovato.
Si vuole capire, in sostanza, se il fit di tale modello sia influenzato o meno da tanti o pochi casi estremi, che prendono il nome di outlier. Questi possono provocare delle distorsioni perché inficiano i valori dei coefficienti stimati di regressione (Field 2009).
A livello grafico l'individuazione di outlier è relativamente semplice poiché per loro natura si discostano molto dagli altri valori e si posizionano lontani dalla nuvola dei punti sullo spazio cartesiano (vedi Grafico 3.1) (Field 2009).
32
Grafico 3.1 Individuazione grafica di outlier tramite un grafico a dispersione in cui in ascissa (asse X) si colloca la lunghezza di ogni recensione e in ordinata (asse Y) il voto degli album di genere “African” presi in esame.
Un ulteriore concetto da introdurre è quello dei residui, che sarebbero la differenza tra i valori dell'outcome predetti dal modello e quelli osservati nel campione (Field 2009). Se un modello aderisce bene ai dati allora i residui saranno piccoli, nel caso opposto saranno molto grandi. Comunque, ogni osservazione che presenta un importante residuo potrebbe essere un potenziale outlier (Field 2009).
Per capire il grado di bontà del fit del modello si possono seguire particolari regole di interpretazione che verranno illustrate in maniera dettagliata nel successivo paragrafo.
Riferendosi invece alla possibilità di generalizzazione del modello, occorre verificare alcuni assunti di base (Field 2009):
33
1. Tipologia delle variabili: i predictor devono essere quantitativi26 o
categoriali (con due categorie), e l'outcome quantitativo, continuo e unbounded27.
2. Varianza non nulla delle variabili indipendenti.
3. Imperfetta multicollinearità tra le variabili: la multicollinearità esiste quando vi è una forte correlazione tra due o più predictor in un modello di regressione (Chiorri 2010). La perfetta multicollinearità si registra quando almeno una variabile è una combinazione lineare perfetta di altre28 e causa
l'interscambiabilità dei coefficienti β29.
4. Predictor non correlate con variabili “esterne”: se esistono variabili non incluse nel modello che sono fortemente correlate con i predictor, allora il modello diviene inaffidabile.
5. Omoschedasticità: i residui hanno la medesima varianza a tutti i livelli dei predictor.
6. Errori indipendenti: per ogni coppia di osservazioni, i residui devono essere indipendenti (non correlati). Questo assunto viene dimostrato tramite il test di Durbin-Watson che verrà illustrato più in specifico nel paragrafo successivo (Chiorri 2010).
7. Errori distribuiti normalmente e con una media pari a 0: significa che le differenze tra il modello e i dati osservati è molto frequentemente 0 o almeno un valore molto vicino ad esso30. SPSS fornisce l'opzione di
rappresentare graficamente tramite istogramma la distribuzione dei residui standardizzati.
8. Linearità: la media della variabile outcome giace lungo una retta per ogni incremento dei predictor31.
26Le variabili devono essere misurate a livello di intervalli. 27Non ci devono essere limiti alla variabilità dell'outcome.
28Un esempio è il caso in cui due variabili abbiano un coefficiente di correlazione pari a 1.
29Diventa impossibile fare stime uniche dei coefficienti di regressione dal momento che ci sono infinite
combinazioni possibili degli stessi che assicurano la medesima efficacia predittiva al modello.
30L'assunto si riferisce solamente alla distribuzione dei residui, e non a quella delle variabili. Per esse non
è richiesta alcuna distribuzione normale.
31Se modellassimo una relazione non-lineare usando in modello lineare, ovviamente si limiterebbe la
34
È sempre utile ricordare che nel caso gli assunti non fossero rispettati non si potrebbe procedere ad inferire i risultati. Tuttavia ciò non inficia assolutamente la bontà di un modello che può adattarsi benissimo ai dati e tramite il quale si possono trarre interessanti conclusioni sul campione preso in esame (Field 2009).
3.7. La regressione multipla con SPSS
Statistiche descrittive. La tabella omonima restituita da SPSS fornisce dati come la media, la deviazione standard di ogni variabile ed il numero totale dei casi presi in considerazione che in realtà non sono necessari all'interpretazione del modello di regressione ma sono utili perché danno una prima idea sulla composizione generale dei dati (vedi Tabella 3.6) (Field 2009).
Statistiche descrittivea Media Deviazione standard Variabile N StarRating 6,7632 1,14925 38 Magazine 1,71 ,460 38 Decade 5,71 ,460 38 GenderBand 1,50 1,502 38 Career 1,74 ,644 38 WordCount 99,8421 111,78564 38 affect 4,83211 3,956680 38 posemo 3,05553 2,551048 38 negemo 1,60105 2,664811 38 sexual ,19079 ,586752 38 leisure 4,22026 3,562888 38 money ,25553 ,456631 38 music_jargon 2,06816 2,339249 38 social_issues ,24579 ,442301 38 ethnicity_issues ,02947 ,181688 38 quality ,34026 ,653256 38 honesty ,29658 ,969573 38 marketing_communications ,42868 ,807362 38