CODICE PYTHON - La professionalizzazione degli host di Airbnb: il caso studio della Toscana = A

7 ALLEGATI

7.2 CODICE PYTHON

Estrazione dal database monthly 2020 import pandas as pd

import numpy as np import sys

print('Librerie importate.')

cols_monthly = ['Property ID', 'Property Type', 'Listing Type', 'Bedrooms', 'Reporting Month',

'Revenue (USD)', 'Number of Reservations', 'Reservation Days', 'Available Days', 'Country', 'State',

'City', 'Zipcode', 'Neighborhood', 'Latitude', 'Longitude', 'Airbnb Host ID', 'Blocked Days']

dfMensile=pd.DataFrame() #crea il dataset vuoto dimensione_chunk = 10**6

counter = 1 goal = 167

for chunk in pd.read_csv("R:\dataset\CONTINENT_europe-continent_LTM_Monthly_Match_2021-01-28.csv",

usecols=cols_monthly, chunksize=dimensione_chunk):

chunk = chunk[chunk['State']=='Toscana']

dfMensile=dfMensile.append(chunk)

#barra di completamento

progressPercentage = round((float(counter)/goal)*100, 1) progressString = 'Computing ...' + str(progressPercentage) + '%\r'

sys.stdout.write(progressString) sys.stdout.flush()

counter += 1

106

print('\n') print('Finito.')

dfMensile=dfMensile[dfMensile['Listing Type']!='Hotel room']

dfMensile.drop_duplicates(subset=['Property ID', 'Reporting Month'], keep='first', inplace=True)

dfMensile.dropna(subset=['Latitude'], axis=0, inplace=True) dfMensile.dropna(subset=['Longitude'], axis=0, inplace=True) dfMensile.dropna(subset=['Airbnb Host ID'], axis=0, inplace=True) print(dfMensile.head())

print('Numero di righe del database:') print(len(dfMensile))

dfMensile.to_csv("R:\dataset\monthly_toscana_2020.csv", decimal='.', index=False)

print('Finito.')

Estrazione dal database monthly 2018 e 2019 import pandas as pd

import numpy as np import sys

print('Librerie importate.')

cols_monthly = ['Property ID', 'Property Type', 'Listing Type', 'Bedrooms', 'Reporting Month', 'Revenue (USD)', 'Number of Reservations', 'Reservation Days', 'Available Days', 'Country', 'State', 'City', 'Zipcode', 'Neighborhood', 'Latitude',

'Longitude', 'Airbnb Host ID', 'Blocked Days']

dfMensile=pd.DataFrame() #crea il dataset vuoto dimensione_chunk = 10**6

counter = 1 goal = 187

for chunk in

pd.read_csv("R:\dataset\CONTINENT_europe-continent_Monthly_Match_2020-01-23.csv", usecols=cols_monthly, chunksize=dimensione_chunk):

chunk = chunk[chunk['State']=='Toscana']

dfMensile=dfMensile.append(chunk)

#barra di completamento

progressPercentage = round((float(counter)/goal)*100, 1) progressString = 'Computing ...' + str(progressPercentage) + '%\r'

sys.stdout.write(progressString) sys.stdout.flush()

107 counter += 1

print('\n') print('Finito.')

dfMensile['Reporting Month'] =

pd.to_datetime(dfMensile['Reporting Month']) dfMensile = dfMensile[dfMensile["Reporting

Month"].isin(pd.date_range('2018-01-01', '2019-12-31'))] #prendo i dati del 2018 e del 2019

dfMensile=dfMensile[dfMensile['Listing Type']!='Hotel room']

dfMensile.drop_duplicates(subset=['Property ID', 'Reporting Month'], keep='first', inplace=True)

print('Numero di righe del database:') print(len(dfMensile))

dfMensile.to_csv("R:\dataset\monthly_toscana_2018_2019.csv", decimal='.', index=False)

print('Finito.')

Database mensile anno 2018 import pandas as pd import numpy as np import sys

print('Librerie importate.')

df=pd.read_csv("R:\\def_2020\\monthly_toscana_2018_2019.csv", decimal='.')

df['Reporting Month'] = pd.to_datetime(df['Reporting Month']) df = df[df["Reporting Month"].isin(pd.date_range('2018-01-01', '2018-12-31'))] #prendo i dati del 2018

print(df.head())

cols_prop=['Property ID', 'Bathrooms', 'Max Guests', 'Response Rate', 'Airbnb Superhost', 'Number of Reviews', 'Overall Rating']

dfP=pd.read_csv("R:\dataset\CONTINENT_europe-continent_Property_Match_2019-04-19.csv", usecols=cols_prop) dfP.drop_duplicates(subset=['Property ID'], keep='first', inplace=True)

print(dfP.head())

#trovo le property attive nell'anno

df2=df[['Property ID', 'Reporting Month', 'Reservation Days', 'Available Days']]

108 df2['Active Month']=np.where(((df2['Reservation

Days']+df2['Available Days'])>=1), 1, 0) df2=df2[df2['Active Month']==1]

print(df2.head())

df3=df2[['Property ID']] #property attive almeno un giorno nel corso dell'anno

df4=pd.merge(left=df, right=df3, on='Property ID') df5=pd.merge(left=df4, right=dfP, on='Property ID')

print(df5.head()) #ho ottenuto il monthly con le property attive e i dati dal db property

df5=df5[df5['Listing Type']!='Hotel room']

df5.drop_duplicates(subset=['Property ID', 'Reporting Month'], keep='first', inplace=True)

df5.dropna(subset=['Latitude'], axis=0, inplace=True) df5.dropna(subset=['Longitude'], axis=0, inplace=True) df5.dropna(subset=['Airbnb Host ID'], axis=0, inplace=True) df5.to_csv('R:\\def_2020\\toscana_def_2018.csv', decimal='.') print('Finito')

Database mensile anno 2019 import pandas as pd import numpy as np import sys

print('Librerie importate.')

df=pd.read_csv("R:\\def_2020\\monthly_toscana_2018_2019.csv", decimal='.')

df['Reporting Month'] = pd.to_datetime(df['Reporting Month']) df = df[df["Reporting Month"].isin(pd.date_range('2019-01-01', '2019-12-31'))] #prendo i dati del 2019

print(df.head())

cols_prop=['Property ID', 'Bathrooms', 'Max Guests', 'Response Rate', 'Airbnb Superhost', 'Number of Reviews', 'Overall Rating']

dfP=pd.read_csv("R:\dataset\CONTINENT_europe-continent_Property_Match_2020-01-23.csv", usecols=cols_prop) #db property 2019

dfP.drop_duplicates(subset=['Property ID'], keep='first', inplace=True)

print(dfP.head())

#trovo le property attive nell'anno

df2=df[['Property ID', 'Reporting Month', 'Reservation Days', 'Available Days']]

109 df2['Active Month']=np.where(((df2['Reservation

Days']+df2['Available Days'])>=1), 1, 0) df2=df2[df2['Active Month']==1]

print(df2.head())

df3=df2[['Property ID']] #property attive almeno un giorno nel corso dell'anno

df4=pd.merge(left=df, right=df3, on='Property ID') df5=pd.merge(left=df4, right=dfP, on='Property ID')

print(df5.head()) #ho ottenuto il monthly con le property attive e i dati dal db property

df5=df5[df5['Listing Type']!='Hotel room']

df5.drop_duplicates(subset=['Property ID', 'Reporting Month'], keep='first', inplace=True)

Database mensile anno 2020 import pandas as pd import numpy as np import sys

print('Librerie importate.')

df=pd.read_csv("R:\def_2020\monthly_toscana_2020.csv", decimal='.')

print(df.head())

cols_prop=['Property ID', 'Bathrooms', 'Max Guests', 'Response Rate', 'Airbnb Superhost', 'Number of Reviews', 'Overall Rating']

dfP=pd.read_csv("R:\dataset\CONTINENT_europe-continent_LTM_Property_Match_2021-01-28.csv", usecols=cols_prop) dfP.drop_duplicates(subset=['Property ID'], keep='first',

inplace=True) print(dfP.head())

#trovo le property attive nell'anno

df2=df[['Property ID', 'Reporting Month', 'Reservation Days', 'Available Days']]

df2['Active Month']=np.where(((df2['Reservation Days']+df2['Available Days'])>=1), 1, 0)

df2=df2[df2['Active Month']==1]

print(df2.head())

110 df3=df2[['Property ID']] #property attive almeno un giorno nel corso dell'anno

df4=pd.merge(left=df, right=df3, on='Property ID') df5=pd.merge(left=df4, right=dfP, on='Property ID')

print(df5.head()) #ho ottenuto il monthly con le property attive e i dati dal db property

df5=df5[df5['Listing Type']!='Hotel room']

df5.drop_duplicates(subset=['Property ID', 'Reporting Month'], keep='first', inplace=True)

Database active properties per host in Europe import pandas as pd

import numpy as np import sys

print('Librerie importate')

dfMensile=pd.DataFrame() #crea il dataset vuoto dimensione_chunk = 10**6

counter = 1 goal = 187

for chunk in pd.read_csv("R:\dataset\CONTINENT_europe-continent_LTM_Monthly_Match_2021-01-28.csv",

usecols=cols_monthly, chunksize=dimensione_chunk):

chunk['Reporting Month'] = pd.to_datetime(chunk['Reporting Month'])

chunk = chunk[chunk["Reporting

Month"].isin(pd.date_range('2020-01-01', '2020-12-01'))]

dfMensile=dfMensile.append(chunk)

#barra di completamento

progressPercentage = round((float(counter)/goal)*100, 1) progressString = 'Computing ...' + str(progressPercentage) + '%\r'

111 sys.stdout.write(progressString)

sys.stdout.flush() counter += 1

print('\n')

dfMensile.drop_duplicates(subset=['Property ID', 'Reporting Month'], keep='first', inplace=True)

dfMensile.dropna(subset=['Latitude'], axis=0, inplace=True) dfMensile.dropna(subset=['Longitude'], axis=0, inplace=True) print(dfMensile.head())

dfMensile["Active Month"]=np.where((dfMensile['Reservation Days']+dfMensile['Available Days'])>0, True, False) #cancello i mesi in cui i listing non sono attivi

dfMensile=dfMensile[dfMensile["Listing Type"]!="Hotel room"]

#cancello le stanze di Hotel print(dfMensile.head())

dfMensile=dfMensile[dfMensile["Active Month"]==True] #cancello i mesi non attivi e quindi anche tutti i listing non attivi

print(dfMensile.head())

dfMensile.drop_duplicates(subset=['Property ID'], keep='first', inplace=True)

print(len(dfMensile))

hosts=dfMensile['Airbnb Host ID'].value_counts().to_frame()

#trovo il numero di properties attive per ciascun host print(hosts.head())

hosts.to_csv('R:\property_host_europe_2020.csv', index = True, decimal = ',')

print("Finito")

dfHE=pd.read_csv('R:\property_host_europe_2020.csv', decimal = ',')

dfHE.columns=['Airbnb Host ID', 'Properties Europa']

print(dfHE.head())

dfHE.to_csv('R:\property_host_europe_2020.csv', index = False, decimal = ',')

print("Finito")

Analisi descrittiva, anno 2018 import numpy as np import sys

print('Librerie importate.')

df=pd.read_csv('R:\estrazioni-2021-08-07\property_host_europe_2018.csv', decimal=',') print(df.head())

112 conditionlist = [(df['Properties Europa']>= 13),

(np.logical_and(df['Properties Europa']>= 4, df['Properties Europa']<=12)), (np.logical_or(df['Properties Europa']==2, df['Properties Europa']==3)),(df['Properties Europa']==1)]

choicelist = ['Q4', 'Q3', 'Q2', 'Q1']

df['Quartile'] = np.select(conditionlist, choicelist, default='Not Specified')

print(df)

conditionlist = [(df['Properties Europa']>= 13),

(np.logical_and(df['Properties Europa']>= 4, df['Properties Europa']<=12)), (np.logical_or(df['Properties Europa']==2, df['Properties Europa']==3)),(df['Properties Europa']==1)]

choicelist = ['Q4', 'Q3', 'Q2', 'Q1']

df['Quartile'] = np.select(conditionlist, choicelist, default='Not Specified')

print(df)

df2=pd.read_csv("R:\\def_2020\\toscana_def_2018.csv", decimal='.')

print(df2.head())

df3=pd.merge(left=df2, right=df, on='Airbnb Host ID') print(df3.head())

df4=df3.groupby('Quartile').agg({'Revenue (USD)':'sum', 'Number of Reservations':'sum', 'Reservation Days':'sum', 'Available Days':'sum', 'Property ID':pd.Series.nunique, 'Airbnb Host ID':pd.Series.nunique})

df4.reset_index(inplace=True)

df4['Supply (days)']=df4['Reservation Days']+df4['Available Days']

df4.rename(columns={'Reservation Days':'Demand (days)'}, inplace=True)

df4.rename(columns={'Revenue (USD)':'Annual Revenue'}, inplace=True)

df4.rename(columns={'Property ID':'Active Listings'}, inplace=True)

df4.rename(columns={'Airbnb Host ID':'Active Hosts'}, inplace=True)

df4['Occupancy Rate']=df4['Demand (days)']/df4['Supply (days)']

print(df4.head())

df5=df3.groupby(['Quartile', 'Listing Type']).agg({'Revenue (USD)':'sum', 'Number of Reservations':'sum', 'Reservation Days':'sum', 'Available Days':'sum', 'Property

ID':pd.Series.nunique, 'Airbnb Host ID':pd.Series.nunique}) df5.reset_index(inplace=True)

113 df5['Supply (days)']=df5['Reservation Days']+df5['Available

Days']

df5.rename(columns={'Reservation Days':'Demand (days)'}, inplace=True)

df5.rename(columns={'Revenue (USD)':'Annual Revenue'}, inplace=True)

df5.rename(columns={'Property ID':'Active Listings'}, inplace=True)

df5.rename(columns={'Airbnb Host ID':'Active Hosts'}, inplace=True)

df5['Occupancy Rate']=df5['Demand (days)']/df5['Supply (days)']

print(df5.head())

df6=df3[df3['City'].isin(['Florence','Cortona', 'Lucca'])]

df7=df6.groupby(['Quartile', 'City']).agg({'Revenue (USD)':'sum', 'Number of Reservations':'sum', 'Reservation Days':'sum',

'Available Days':'sum', 'Property ID':pd.Series.nunique, 'Airbnb Host ID':pd.Series.nunique})

df7.reset_index(inplace=True)

df7['Supply (days)']=df7['Reservation Days']+df7['Available Days']

df7.rename(columns={'Reservation Days':'Demand (days)'}, inplace=True)

df7.rename(columns={'Revenue (USD)':'Annual Revenue'}, inplace=True)

df7.rename(columns={'Property ID':'Active Listings'}, inplace=True)

df7.rename(columns={'Airbnb Host ID':'Active Hosts'}, inplace=True)

df7['Occupancy Rate']=df7['Demand (days)']/df7['Supply (days)']

print(df7.head())

file=pd.ExcelWriter('R:\\Dogru_2018.xlsx', engine='xlsxwriter') df4.to_excel(file, sheet_name='TAB 1')

df5.to_excel(file, sheet_name='TAB 2') df7.to_excel(file, sheet_name='TAB 3-4-5') file.save()

Analisi descrittiva, anno 2019 import pandas as pd import numpy as np import sys

print('Librerie importate.')

df=pd.read_csv('R:\estrazioni-2021-08-07\property_host_europe_2019.csv', decimal=',')

114 print(df.head())

conditionlist = [(df['Properties Europa']>= 14),

(np.logical_and(df['Properties Europa']>= 4, df['Properties Europa']<=13)), (np.logical_or(df['Properties Europa']==2, df['Properties Europa']==3)),(df['Properties Europa']==1)]

choicelist = ['Q4', 'Q3', 'Q2', 'Q1']

df['Quartile'] = np.select(conditionlist, choicelist, default='Not Specified')

print(df)

df2=pd.read_csv("R:\\def_2020\\toscana_def_2019.csv", decimal='.')

print(df2.head())

df3=pd.merge(left=df2, right=df, on='Airbnb Host ID') print(df3.head())

df4.reset_index(inplace=True)

df4['Supply (days)']=df4['Reservation Days']+df4['Available Days']

df4.rename(columns={'Reservation Days':'Demand (days)'}, inplace=True)

df4.rename(columns={'Revenue (USD)':'Annual Revenue'}, inplace=True)

df4.rename(columns={'Property ID':'Active Listings'}, inplace=True)

df4.rename(columns={'Airbnb Host ID':'Active Hosts'}, inplace=True)

df4['Occupancy Rate']=df4['Demand (days)']/df4['Supply (days)']

print(df4.head())

df5=df3.groupby(['Quartile', 'Listing Type']).agg({'Revenue (USD)':'sum', 'Number of Reservations':'sum', 'Reservation Days':'sum', 'Available Days':'sum', 'Property

ID':pd.Series.nunique, 'Airbnb Host ID':pd.Series.nunique}) df5.reset_index(inplace=True)

df5['Supply (days)']=df5['Reservation Days']+df5['Available Days']

df5.rename(columns={'Reservation Days':'Demand (days)'}, inplace=True)

df5.rename(columns={'Revenue (USD)':'Annual Revenue'}, inplace=True)

df5.rename(columns={'Property ID':'Active Listings'}, inplace=True)

115 df5.rename(columns={'Airbnb Host ID':'Active Hosts'},

inplace=True)

df5['Occupancy Rate']=df5['Demand (days)']/df5['Supply (days)']

print(df5.head())

df6=df3[df3['City'].isin(['Florence','Cortona', 'Lucca'])]

df7=df6.groupby(['Quartile', 'City']).agg({'Revenue (USD)':'sum', 'Number of Reservations':'sum', 'Reservation Days':'sum',

'Available Days':'sum', 'Property ID':pd.Series.nunique, 'Airbnb Host ID':pd.Series.nunique})

df7.reset_index(inplace=True)

df7['Supply (days)']=df7['Reservation Days']+df7['Available Days']

df7.rename(columns={'Reservation Days':'Demand (days)'}, inplace=True)

df7.rename(columns={'Revenue (USD)':'Annual Revenue'}, inplace=True)

df7.rename(columns={'Property ID':'Active Listings'}, inplace=True)

df7.rename(columns={'Airbnb Host ID':'Active Hosts'}, inplace=True)

df7['Occupancy Rate']=df7['Demand (days)']/df7['Supply (days)']

print(df7.head())

file=pd.ExcelWriter('R:\\Dogru_2019.xlsx', engine='xlsxwriter') df4.to_excel(file, sheet_name='TAB 1')

df5.to_excel(file, sheet_name='TAB 2') df7.to_excel(file, sheet_name='TAB 3-4-5') file.save()

Analisi descrittiva, anno 2020 import pandas as pd import numpy as np import sys

print('Librerie importate.')

df=pd.read_csv('R:\estrazioni-2021-08-07\property_host_europe_2020.csv', decimal=',') print(df.head())

conditionlist = [(df['Properties Europa']>= 15),

(np.logical_and(df['Properties Europa']>= 4, df['Properties Europa']<=14)), (np.logical_or(df['Properties Europa']==2, df['Properties Europa']==3)),(df['Properties Europa']==1)]

choicelist = ['Q4', 'Q3', 'Q2', 'Q1']

df['Quartile'] = np.select(conditionlist, choicelist, default='Not Specified')

116 print(df)

df2=pd.read_csv("R:\\def_2020\\toscana_def_2020.csv", decimal='.')