79
80 Allo stesso modo, il file “reviews.cvs”, utilizzato per il database sui guest e sulle review, è stato prima salvato in formato xls e poi ordinato sempre utilizzando il programma in linguaggio C++. Sono state eliminate le righe bianche e le recensioni in cui al posto delle lettere comparivano simboli. I dati considerati sono inerenti alla fascia temporale 2015-2020, quindi sono state cancellate tutte le recensioni risalenti agli anni precedenti. Inoltre, si è deciso di mantenere i dati del 2020 fino al 31/01/2020, questo perché nel mese di febbraio sono stati individuati i primi pazienti affetti da Covid-19. In questo periodo sono iniziate le varie restrizioni che non hanno permesso di spostarsi e quindi di usufruire della piattaforma Airbnb. I dati relativi a soggiorni successivi alla data prescelta rischiavano di compromettere l’analisi e di generare risultati distorti.
Il database iniziale di 216.681 righe è diventato di 129.844 righe.
Una delle informazioni principali necessarie per questo lavoro di tesi è stata la definizione del sesso degli host e dei guest. Per quanto concerne i primi, il sesso è stato definito manualmente poiché il numero di nomi da analizzare non era particolarmente eccessivo (2160 host). Il sesso dei guest, d’altro canto, è stato identificato mediante un programma scritto in Python. Il codice restituiva cinque differenti alternative: male, female, most_male, most_female, unknown. Nei casi di most_male e most_female sono stati sostituiti rispettivamente con male e female. In un secondo momento invece sono stati analizzati i casi riconosciuti dal programma come unknown e manualmente è stato definito il sesso del guest, ove possibile.
Infine, le recensioni sono state tutte tradotte in un’unica lingua: la scelta è ricaduta sulla lingua inglese perché la maggior parte delle reviews erano già scritte in questo modo. Anche per questa operazione è stato utilizzato un programma scritto in Python, riportato in appendice.
81
7.1 Descrizione dati
Per una miglior chiarezza dei dati si è scelto di costruire due database separati per le recensioni e per i listings.
Il database delle recensioni comprende i seguenti dati:
• codice identificativo del listing presso il quale il guest ha soggiornato;
• codice identificativo del guest;
• nome del guest;
• sesso;
• data della recensione;
• codice identificativo della review;
• numero_parole: mediante l’utilizzo della formula “LUNGHEZZA” di Excel è stato possibile contare il numero di parole all’interno della recensione;
• nome_host_in_recensione: attraverso alcune formule di Excel si è valutato se il guest chiama l’host per nome nella review. Questa informazione permette di valutare il livello di confidenza raggiunto tra guest e host durante il soggiorno. La variabile assume valore 1 se compare il nome dell’host, 0 altrimenti.
Dal momento le recensioni risultavano particolarmente pesanti, è stato deciso di tenerle separate. Si mantiene traccia in un ulteriore file dei codici identificativi del guest e del listings, del sesso del guest e della recensione rilasciata.
Per quanto riguarda il database dei listings, le variabili considerate sono state le seguenti:
• Codice_Listing: codice identificativo del listings;
• Codice_Host: codice identificativo dell’host;
• Nome: nome dell’host;
• Sesso: sesso dell’host, identificato manualmente come spiegato in precedenza;
82
• Listing_type: i listing si dividono in quattro tipologie: entire home/apt, private room, hotel room, shared room. Questa informazione è particolarmente rilevante per le analisi successive: nel prevedere se c’è una tendenza dei guest a soggiornare in case di host del medesimo sesso, si potrebbe pensare che questo effetto sia più evidente nelle situazioni in cui bisogna condividere la casa e quindi quando c’è più interazione con l’host, rispetto ai soggiorni in cui si ha l’intero appartamento a disposizione e gli incontri con l’host si limitano la maggior parte delle volte esclusivamente al check-in e al check-out.
• Prezzo: prezzo per una notte. Tutte le sistemazioni che registravano un prezzo a notte superiore a 800 euro sono state rimosse;
• Numero_reviews: numero di review rilasciate per il listing;
• Notti_minime: numero di notti minime necessarie per soggiornare in quel listing;
• Disponibilità: giorni all’anno in cui è disponibile il listing sulla piattaforma.
Il database è stato ripulito eliminando le righe in cui la disponibilità risultava pari a zero;
• Review_al_mese: numero di review rilasciate in media in un mese;
• Distanza_avg: distanza in km dai principali punti di attrazione. Nel file scaricato da Insider Airbnb per ogni listing è presente il quartiere di Bologna in cui si trova. Su Google Maps è stata calcolata la distanza del quartiere del listing dalle tre principali attrazioni della città: la torre degli Asinelli, Piazza Maggiore e Piazza del Nettuno. È stata fatta la media delle tre distanze e il risultato è stato inserito nel database;
• Host_response_rate: tasso di risposta dell’host;
• Host_is_superhost: booleana, 1 se l’host possiede la qualifica di superhost, 0 altrimenti;
• Host_has_profile_pic: booleana, 1 se l’host possiede una foto profilo, 0 altrimenti
83
• Host_identity_verified: booleana, 1 se l’identità dell’host è verificata, 0 altrimenti
• Accommodates: massimo numero di persone che l’host può ospitare;
• bedrooms: numero di camere da letto disponibili nel listing;
• letti: numero di letti presenti nel listing;
• bagni: numero di bagni presenti nel listing
• review_scores_rating: media dei punteggi delle recensioni, da 1 a 100;
• review_scores_accuracy: punteggio su precisione dell’host, da 1 a 10;
• review_scores_cleanliness: punteggio su pulizia, da 1 a 10;
• review_scores_checkin: punteggio sul momento del check-in, da 1 a 10;
• review_scores_communication: punteggio sulla comunicazione tra l’ospite e l’host, da 1 a 10;
• review_scores_location: punteggio su posizione listings, da 1 a 10;
• review_scores_value: punteggio su rapporto qualità/prezzo, da 1 a 10.
84