• Non ci sono risultati.

Capitolo 2. Metodologia

2.2 Raccolta dei dati

È stata effettuata una raccolta di dati secondari, ovvero una raccolta di informazioni già esistenti. Quest’ultime sono state trovate grazie alla consultazione di due banche dati: Lexis Nexis e Scopus. Nella prima banca dati sono incluse riviste di carattere divulgativo mentre nella seconda sono incluse riviste di carattere prettamente scientifico. Ma perché proprio queste due banche dati? La scelta è ricaduta su Lexis Nexis e Scopus poiché esse sono due fra le banche dati più complete a livello mondiale in ambito multidisciplinare. Inoltre, esse ospitano solamente le principali pubblicazioni a diffusione internazionale scritte in lingua inglese (es: New York Times). In sostanza, la scelta delle sopracitate banche dati risponde all’esigenza di avere a disposizione la miglior rappresentazione possibile dell’opinione pubblica e della ricerca scientifica sulla Digital Health (Corciolani, Gistri, Pace, 2019).

Una volta scelte le fonti, è stato costituito il campione; per fare ciò sono stati ricercati tutti gli articoli1 che contenessero la parola chiave inglese “Digital Health” ed è stato

effettuato il loro download. Di fatto, anziché concentrarsi su specifiche riviste o su specifiche aree geografiche è stato applicato il cosiddetto metodo della “keyword search” (Tamul, Martínez-Carrillo, 2017).

Relativamente alla prima banca dati, Lexis Nexis, sono stati individuati e quindi scaricati 2.877 documenti in formato .txt; poiché non è stato possibile scaricare tutti i file contemporaneamente, in prima battuta è stato effettuato il download di alcuni macro-gruppi di documenti da 200 file ciascuno e, in seconda battuta, i vari gruppi sono stati divisi attraverso l’utilizzo del software Text Magician. Invece, relativamente alla seconda banca dati, Scopus, sono stati individuati, e di conseguenza scaricati, 700 documenti in formato .pdf. In questo caso non ci sono stati particolari problemi relativi alla fase di download.

1

Tali articoli fanno riferimento sia a riviste offline sia a riviste online. Inoltre, come anticipato nel testo, sono di natura sia divulgativa (quelli pubblicati su Lexis Nexis) sia scientifica (quelli pubblicati su Scopus).

- 36 -

Dopo aver scaricato tutti gli articoli, è stato creato il dataset2 relativo alle loro

principali informazioni; in particolar modo, è stato possibile ottenere le seguenti variabili: AUTORE DELL’ARTICOLO, ANNO DI PUBBLICAZIONE DELL’ARTICOLO e NOME DELLA CORRISPONDENTE RIVISTA (si veda

l’immagine delle prime dieci righe del dataset finale, Figura 1). Successivamente, grazie ad alcune manipolazioni di data cleaning e data integration, è stato riorganizzato il dataset in modo tale che ci fosse corrispondenza tra la posizione di download dell’articolo stesso e le sue principali informazioni (riportate sul foglio di lavoro Excel); i dati presenti nella seconda riga del dataset (Figura 1), ad esempio, sono relativi al primo articolo che è stato individuato e scaricato (nello specifico si tratta di un articolo di Lexis Nexis in quanto prima sono stati scaricati i 2.877 documenti trovati proprio su questa banca dati e successivamente i 700 trovati su Scopus). E così via. Queste manipolazioni hanno semplificato di molto la fase successiva relativa all’analisi dei risultati ottenuti dall’applicazione della Content Analysis.

Per completezza va detto che il dataset, nonostante le sopracitate manipolazioni, presenta comunque delle celle vuote; dalla Figura 1, in effetti, si può facilmente intuire che ci sono alcuni missing data, soprattutto in relazione alla variabile

AUTORE DELL’ARTICOLO.

2

- 37 -

Figura 1. Prime dieci righe del dataset (relative agli articoli di Lexis Nexis)

Infine, una volta creato il dataset, è stata condotta l’analisi testuale sugli articoli (si veda la Figura 2); quest’ultima è stata effettuata attraverso l’utilizzo del software

Liwc, acronimo di Linguistic Inquiry and Word Count.

Figura 2. Stadi 3 e 4 del processo di applicazione della Content Analysis

Come funziona nello specifico Liwc? Esso presenta un dizionario di parole organizzate gerarchicamente in diverse categorie. Quest’ultime coincidono con delle macro-aree relative sia agli aspetti linguistici sia ad alcuni dei principali stati psicologici e sociali; nello specifico, queste categorie sono state individuate e create dai programmatori attingendo sia dalla letteratura di linguistica sia dalle principali teorie economiche, psicologiche e mediche. Tutto ciò ha permesso ai programmatori di capire quali fossero gli aspetti linguistici, gli aspetti psicologici e quelli sociali più

- 38 -

facilmente esplicabili, e quindi misurabili, attraverso il linguaggio. Dunque, quello che Liwc fa nella pratica è leggere testi verbali e confrontare ogni parola presente nel testo stesso con il dizionario. Da questo confronto il software è in grado di associare le parole alle varie categorie e capire se in un testo è presente, ad esempio, la dimensione “emozioni negative” (dimensione identificata e costituita da termini con una evidente accezione negativa) e, soprattutto, in quale misura. Infatti, oltre a identificare e contabilizzare le parole del testo preso in considerazione, è in grado di calcolare le percentuali che corrispondono a ciascuna categoria presente nel dizionario rispetto al numero totale di parole presenti in un testo. Per visualizzare meglio tali aspetti si veda la Figura 3 e la Figura 43.

Figura 3. Esempio dell’organizzazione gerarchica delle categorie di Liwc

La Figura 3 permette di visualizzare meglio l’organizzazione gerarchica del vocabolario incorporato nel software di analisi: la categoria “affect words” (riportata nella Figura 3 con il termine “affect”) comprende le “positive emotions” e le “negative emotions” (in Figura 3 con i termini posemo e negemo); a loro volta, le “negative emotions” sono costituite dai termini “anxiety”, “anger” e “sadness”.

3

Le figure rappresentano in entrambi i casi le prime dieci righe del dataset in relazione alla specifica macro-area del dizionario di Liwc denominata affect words (riportata nella Figura 3 con il termine “affect”).

- 39 -

Nella Figura 4, invece, è evidenziata la riga numero quattro (in corrispondenza della quale sono riportati i dati relativi all’articolo scaricato in terza posizione da Lexis Nexis); i valori numerici riportati nelle celle costituiscono l’output della Content Analysis e, da un punto di vista interpretativo, rappresentano la quantità di parole, rispetto al numero totale delle parole stesse che formano il rispettivo testo, attribuibili alla macro-area “affect words” e alle varie sottocategorie. Come è possibile osservare nella Figura 4, rispetto alla dimensione “affect words”, l’articolo numero tre riporta il 2.02%. Questo significa che all’interno del testo, il 2.02% delle parole è annoverabile in questa categoria; più specificatamente, poi, l’1.54% di quest’ultimo valore corrisponde ad emozioni positive e lo 0.48% a emozioni negative, e così via.

Nel prossimo capitolo vengono presentate le analisi e le relative interpretazioni effettuate sull’output della Content Analysis. Alcuni dei quesiti ai quali cercheremo di rispondere attraverso il suddetto processo sono i seguenti: da quanto tempo si discute del concetto di Digital Health? Quali sono i Paesi in cui si parla maggiormente

Figura 4. Esempio di interpretazione dell’output della

Content Analysis

- 40 -

di questa tematica? E ancora, se ne parla con un’accezione tendenzialmente negativa oppure positiva? Nel corso degli anni c’è stata un’inversione di tendenza?

- 41 -

Documenti correlati