Raccolta dei dati e costruzione del database: dall’indagine

2.3 Metodologia e strumenti

2.3.2 Raccolta dei dati e costruzione del database: dall’indagine

L’obiettivo della raccolta dei dati è stato quello di seguire e riportare in matrice lo sviluppo delle discussioni esattamente così come si presentava sulla bacheca online. Obiettivo non praticabile, perlomeno in una prima fase del processo avvenuta per così dire “manualmente”: al momento di avvio della ricerca, il gruppo Facebook della comunità di insegnanti contava circa 10.000 utenti, tale dato è variato considerevolmente nel periodo di raccolta dati, arrivando ad un numero di oltre 30.000 iscritti e provocando conseguentemente un incremento continuo ed esponenziale degli interventi e delle discussioni pubblicate dai partecipanti, implementate in modalità asincrona.

Alla difficoltà di poter seguire e registrare gli interventi nel loro sviluppo naturale, si è aggiunta la constatazione di una visualizzazione dei contenuti “imposta” dal social network, che non segue affatto un criterio di ordine cronologico, bensì prevede continui cambi di algoritmo nella News Feed – ovvero nel flusso di informazioni che compaiono sulla bacheca di chi visualizza i contenuti di una pagina46_{– in questo caso il} ricercatore.

46_S_{econdo le ultime direttive del social network, a determinare la visibilità dei} post sulle bacheche degli utenti vi sono diversi fattori. Per citarne alcuni, tendono ad avere maggiore visibilità i post che si caratterizzano per una maggiore affinità con gli interessi dell’utente che visita la pagina; i video e link appaiono più frequentemente degli status, questo avviene anche per i post con maggior “peso” ovvero che generano un maggior numero di interazioni (commenti o like). Per approfondimenti: https://newsroom.fb.com/news/2016/02/news-feed-fyi-using- qualitative-feedback-to-show-relevant-stories/

Si è rivelato dunque impossibile per un essere umano fotografare lo stato della pagina Facebook in modo oggettivo, ed è stato necessario ricercare strumenti in grado di estrarre tramite procedure automatiche informazioni e dati da pagine web, ovvero software di web scraping o data extraction.

La raccolta dei dati e dunque la costruzione della database o codebook per la loro immissione, è avvenuta in due fasi ed ha risentito di modifiche sostanziali nel passaggio dall’una all’altra:

- Marzo-maggio 2015 – raccolta di un corpus “pilota” (costituito da 34 discussioni con relativi commenti e risposte per un totale di 360 frammenti di testo) e predisposizione di una matrice in Excel per l’allocazione dei testi e delle variabili identificative ad essi correlate47_.

- Dicembre-gennaio 2016 – raccolta del corpus definitivo e adattamento della matrice predisposta in fase pilota, sulla base delle informazioni estraibili con l’attività di web scraping tramite il software Netlytic.

In fase di indagine pilota, al fine di poter analizzare nel dettaglio gli scambi comunicativi dei partecipanti, è stata costituita una griglia di analisi in formato Excel.

Per la classificazione di ciascun utente è stato predisposto un codice identificativo, in modo tale da svincolare dai dati sensibili il dato testuale ad essi associato.

Tra le variabili di sfondo relative a ciascun partecipante sono stati riportati nella matrice dei dati solo il genere e la professione anche se quest’ultima è stata registrata solo in fase di raccolta del campione pilota

47_{I dati dell’analisi del corpus pilota non sono riportati in questo elaborato,} perché non rappresentativi in quanto tali e non omogenei con quelli della raccolta finale.

e tralasciata nella raccolta del corpus definitivo, richiedendo un’indagine per così dire manuale sui profili dei singoli utenti.

Fin dall’inizio si è scelto di omettere dalla raccolta dei dati informazioni di dettaglio quali la provenienza geografica o il curriculum di studi, poichè raramente condivise dagli utenti e difficilmente verificabili.

Ciascun intervento è stato trascritto in un'unica cella con un codice identificativo progressivo.

Al fine di non perdere lo sviluppo ed il grado di interrelazione fra gli scambi comunicativi interni a ciascuna discussione, sono stati distinti nella griglia d'analisi tre diversi livelli del processo conversazionale, corrispondenti rispettivamente a:

• thread o post di avvio di una nuova discussione - I livello della discussione

• commenti al post - II livello della discussione

• risposte a commenti specifici - III livello della discussione Ciò ha portato ad una triplice ripartizione e classificazione dei frammenti testuali nella matrice (Fig. 2.4), ciascuno identificato con un codice progressivo.

Tale classificazione, definita in fase preliminare alla raccolta, è stata abbandonata nella fase della raccolta finale con Netlytic, dovendo risentire in fase di web scraping, di un forte limite del software: questo non è infatti in grado di includere nella registrazione dei dati, le risposte ai commenti (III livello). Si è comunque ritenuto che tale limite potesse essere accolto a beneficio di altre possibilità, senza ricorrere al software per la data estraction, sarebbe stato infatti impossibile fotografare in modo oggettivo e a frequenza costante gli scambi comunicativi e i materiali prodotti dagli utenti, nonché raccogliere un corpus di dati sufficientemente ampio per un’analisi automatica del testo.

Figura 2.4 - Esempio di struttura della discussione:

In fase di raccolta del campione pilota, per i soli thread, è stato inoltre riportato nel codebook il dato relativo al numero di like e condivisioni ottenuti da ciascun post: tale lavoro non è stato portato avanti in quanto la quantificazione di questa tipologia di dato non è assolutamente stabile nè definitiva, bensì esposta ad una crescita non monitorabile.

Infine, ancora in fase di raccolta del corpus per l’indagine pilota, al momento dell’immissione dei thread in matrice, i singoli post sono stati classificati nell'ambito di cinque categorie principali:

1. richieste di supporto 2. segnalazione di eventi

3. condivisione di tipo social (foto e status)

4. condivisione di risorse – per questa categoria è prevista un'ulteriore suddivisione in: articoli, lavori degli studenti, video, petizioni.

Thread (I livello)

Bianca: "Stiamo per concludere il lavoro su The Pearl, di John Steinbeck. Questo è solo uno dei videoriassunti dell'opera - 30 secondi. Al di là delle polemiche flipped-non flipped, io noto un significativo miglioramento nella qualità del lavoro a casa dei miei studenti. Dietro i 30 secondi c'è molto lavoro, c'è cura, ci sono ore di attenzione che non avrebbero mai dedicato alla disciplina, se non avessi proposto loro questo tipo di compito. Ditemi la vostra, please

Commento (II livello)

Anna Maria: Che bello! È fatto con Powtoon? Io purtroppo non lo so usare!

Risposta (III livello)

Luigi: Anna Maria, prova con

questo tutorial: (link al tutorial)

Risposta (III Livello)

Anna Maria: Grazie mille!

5. off topic

Ricapitolando, prima dell’utilizzo del software Netlytic, la matrice dati del Corpus Pilota era costituita dai seguenti campi:

- Nome Id utente (es. U1) - Sesso

- Professione

- ID intervento (es. 1I) - Testo intervento/thread - Tipologia

- Risorsa condivisa: articoli, lavori degli studenti, video, tutorial, petizioni.

- numero di Like

- numero di Condivisioni

- testo commento (con ID: es. 1IC1) - testo risposta (con ID: es. R1IC4)

L’estrazione dei dati con Netlytic ha indubbiamente influenzato la struttura della matrice o codebook, ma ne ha anche consentito una importante semplificazione.

Il software ha permesso di mantenere per ciascun intervento un codice identificativo, tale codice è composto da una stringa alfanumerica che si differenzia per lunghezza e composizione a seconda che il post sia un thread di “lancio” di un nuovo argomento o un commento ad una discussione già avviata.

Accanto a ciascun intervento è stato riportato il link diretto alla fonte, molto utile per revisionare la tipologia di thread. Inoltre ciascun thread è stato classificato dal software nelle categorie: link, video, evento, status, photo.

Tale classificazione è stata integrata manualmente al fine di rispondere alle tipologie identificate in fase di predisposizione del disegno di ricerca.

Riportiamo di seguito i campi della matrice di dati finale:

- Id (n. progressivo)

- guid (codice identificativo thread/post) - link (diretto alla fonte)

- pubdate - author (nome)

- author_id (codice identificativo autore) - description (testo)

- source_type – integrata manualmente. - like_count (solo per i thread)

- to (solo per i post in risposta ad un thread)

Nel documento Formazione e sviluppo professionale online degli insegnanti. Studio di un gruppo di insegnanti su Facebook (pagine 93-98)