• Non ci sono risultati.

Costruzione Database

79

80 Allo stesso modo, il file “reviews.cvs”, utilizzato per il database sui guest e sulle review, è stato prima salvato in formato xls e poi ordinato sempre utilizzando il programma in linguaggio C++. Sono state eliminate le righe bianche e le recensioni in cui al posto delle lettere comparivano simboli. I dati considerati sono inerenti alla fascia temporale 2015-2020, quindi sono state cancellate tutte le recensioni risalenti agli anni precedenti. Inoltre, si è deciso di mantenere i dati del 2020 fino al 31/01/2020, questo perché nel mese di febbraio sono stati individuati i primi pazienti affetti da Covid-19. In questo periodo sono iniziate le varie restrizioni che non hanno permesso di spostarsi e quindi di usufruire della piattaforma Airbnb. I dati relativi a soggiorni successivi alla data prescelta rischiavano di compromettere l’analisi e di generare risultati distorti.

Il database iniziale di 216.681 righe è diventato di 129.844 righe.

Una delle informazioni principali necessarie per questo lavoro di tesi è stata la definizione del sesso degli host e dei guest. Per quanto concerne i primi, il sesso è stato definito manualmente poiché il numero di nomi da analizzare non era particolarmente eccessivo (2160 host). Il sesso dei guest, d’altro canto, è stato identificato mediante un programma scritto in Python. Il codice restituiva cinque differenti alternative: male, female, most_male, most_female, unknown. Nei casi di most_male e most_female sono stati sostituiti rispettivamente con male e female. In un secondo momento invece sono stati analizzati i casi riconosciuti dal programma come unknown e manualmente è stato definito il sesso del guest, ove possibile.

Infine, le recensioni sono state tutte tradotte in un’unica lingua: la scelta è ricaduta sulla lingua inglese perché la maggior parte delle reviews erano già scritte in questo modo. Anche per questa operazione è stato utilizzato un programma scritto in Python, riportato in appendice.

81

7.1 Descrizione dati

Per una miglior chiarezza dei dati si è scelto di costruire due database separati per le recensioni e per i listings.

Il database delle recensioni comprende i seguenti dati:

• codice identificativo del listing presso il quale il guest ha soggiornato;

• codice identificativo del guest;

• nome del guest;

• sesso;

• data della recensione;

• codice identificativo della review;

• numero_parole: mediante l’utilizzo della formula “LUNGHEZZA” di Excel è stato possibile contare il numero di parole all’interno della recensione;

• nome_host_in_recensione: attraverso alcune formule di Excel si è valutato se il guest chiama l’host per nome nella review. Questa informazione permette di valutare il livello di confidenza raggiunto tra guest e host durante il soggiorno. La variabile assume valore 1 se compare il nome dell’host, 0 altrimenti.

Dal momento le recensioni risultavano particolarmente pesanti, è stato deciso di tenerle separate. Si mantiene traccia in un ulteriore file dei codici identificativi del guest e del listings, del sesso del guest e della recensione rilasciata.

Per quanto riguarda il database dei listings, le variabili considerate sono state le seguenti:

• Codice_Listing: codice identificativo del listings;

• Codice_Host: codice identificativo dell’host;

• Nome: nome dell’host;

• Sesso: sesso dell’host, identificato manualmente come spiegato in precedenza;

82

• Listing_type: i listing si dividono in quattro tipologie: entire home/apt, private room, hotel room, shared room. Questa informazione è particolarmente rilevante per le analisi successive: nel prevedere se c’è una tendenza dei guest a soggiornare in case di host del medesimo sesso, si potrebbe pensare che questo effetto sia più evidente nelle situazioni in cui bisogna condividere la casa e quindi quando c’è più interazione con l’host, rispetto ai soggiorni in cui si ha l’intero appartamento a disposizione e gli incontri con l’host si limitano la maggior parte delle volte esclusivamente al check-in e al check-out.

• Prezzo: prezzo per una notte. Tutte le sistemazioni che registravano un prezzo a notte superiore a 800 euro sono state rimosse;

• Numero_reviews: numero di review rilasciate per il listing;

• Notti_minime: numero di notti minime necessarie per soggiornare in quel listing;

• Disponibilità: giorni all’anno in cui è disponibile il listing sulla piattaforma.

Il database è stato ripulito eliminando le righe in cui la disponibilità risultava pari a zero;

• Review_al_mese: numero di review rilasciate in media in un mese;

• Distanza_avg: distanza in km dai principali punti di attrazione. Nel file scaricato da Insider Airbnb per ogni listing è presente il quartiere di Bologna in cui si trova. Su Google Maps è stata calcolata la distanza del quartiere del listing dalle tre principali attrazioni della città: la torre degli Asinelli, Piazza Maggiore e Piazza del Nettuno. È stata fatta la media delle tre distanze e il risultato è stato inserito nel database;

• Host_response_rate: tasso di risposta dell’host;

• Host_is_superhost: booleana, 1 se l’host possiede la qualifica di superhost, 0 altrimenti;

• Host_has_profile_pic: booleana, 1 se l’host possiede una foto profilo, 0 altrimenti

83

• Host_identity_verified: booleana, 1 se l’identità dell’host è verificata, 0 altrimenti

• Accommodates: massimo numero di persone che l’host può ospitare;

• bedrooms: numero di camere da letto disponibili nel listing;

• letti: numero di letti presenti nel listing;

• bagni: numero di bagni presenti nel listing

• review_scores_rating: media dei punteggi delle recensioni, da 1 a 100;

• review_scores_accuracy: punteggio su precisione dell’host, da 1 a 10;

• review_scores_cleanliness: punteggio su pulizia, da 1 a 10;

• review_scores_checkin: punteggio sul momento del check-in, da 1 a 10;

• review_scores_communication: punteggio sulla comunicazione tra l’ospite e l’host, da 1 a 10;

• review_scores_location: punteggio su posizione listings, da 1 a 10;

• review_scores_value: punteggio su rapporto qualità/prezzo, da 1 a 10.

84