• Non ci sono risultati.

3.4. I modelli di simulazione realizzati

4.1.1. Dimensione della rete

Nella Figura 4.1 è riportata la distribuzione del numero di host catturati dai crawler nel corso di 8 giorni di monitoraggio della rete. Le informazioni raccolte rappresentano il volume di traffico misurato a intervalli di tempo regolari, della durata approssimativa di 2 minuti, attraverso i quali è possibile comprendere come le connessioni variano in funzione del tempo. Esistono variazioni di lungo periodo, che registrano un andamento crescente del traffico della rete, e variazioni di breve periodo, che si verificano fra i giorni della settimana e le ore giornaliere.

Il numero totale delle peer catturate dai crowler di Gnutella è 1.239.487. Da un’analisi del grafico riportato nella Figura 4.1, possiamo osservare che nell’arco delle ventiquattro ore giornaliere si ha un picco delle connessioni fra le 3 p.m. PST e le 7 p.m. PST, mentre nel week- end si registrano incrementi di traffico di circa il 10% del totale delle peer connesse alla rete.

Discretizzando la Figura 4.1, otteniamo la seguente funzione di distribuzione statistica, nella quale f(x) è una funzione continua che restituisce il numero delle peer catturate dai crowler, m è il coefficiente angolare di f(x), x è il tempo misurato espresso in ore e q è l’ordinata all’origine di f(x) .

La relazione che lega queste variabili è: f(x) = mx + q x∈[0,192] La distribuzione è la seguente: f(x) = -429x + 9330 0 < x < 3 f(x) = 68x + 8247 3 < x < 8,5 f(x) = 497x + 12640 8,5 < x < 11 f(x) = -176x + 7723 11 < x < 12,5 f(x) = 286x + 12970 12,5 < x < 15,5 f(x) = -226x + 6746 15,5 < x < 19 f(x) = -29x + 8908 19 < x < 23,5 f(x) = -180x + 5100 23,5 < x < 24 f(x) = 83x + 9240 24 < x < 34,5 f(x) = 165x + 11841 34,5 < x < 36,5 f(x) = -47x + 9851 36,5 < x < 40 f(x) = 62x + 11259 40 < x < 42,5 f(x) = -88x + 8802 42,5 < x < 45 f(x) = -62x + 8901 45 < x < 48 f(x) = -76x + 10022 48 < x < 52,5 f(x) = -96x + 9250 52,5 < x < 57 f(x) = 224x + 11269 57 < x < 60 f(x) = -22x + 9659 60 < x < 61,5 f(x) = 166x + 12137 61,5 < x < 65 f(x) = -13x + 10248 65 < x < 67,5 f(x) = -163x + 7268 67,5 < x < 70 f(x) = -302x + 3385 70 < x < 72 f(x) = -193x + 9429 72 < x < 74,5 f(x) = -66x + 8780 74,5 < x < 76,5 f(x) = 82x + 9181 76,5 < x < 85,5 f(x) = 181x + 11997 85,5 < x < 87,5 f(x) = 147x + 12183 87,5 < x < 90,5 f(x) = -126x + 8027 90,5 < x < 93,5 f(x) = -114x + 7532 93,5 < x < 95,5 f(x) = -396 x + 451 95,5< x < 96 f(x) = -121x + 9549 96 < x < 100 f(x) = -31x + 8943 100 < x < 102,5 f(x) = 75x + 9475 102,5 < x < 107,5 f(x) = 388x +13828 107,5 < x < 109 f(x) = 161x + 12040 109 < x < 112 f(x) = -46x + 9686 112 < x < 116,5 f(x) = -77x + 8643 116,5 < x < 119,5 f(x) = -440x – 341 119,5 < x < 120 f(x) = -88x + 9769 120 < x < 122 f(x) = 227x+ 10048 122 < x < 125 f(x) = -77x + 9890 125 < x < 128 f(x) = 254x + 12076 128 < x < 132,5 f(x) = -48x + 10592 132,5 < x <135,5 f(x) = -264x + 6956 135,5 < x < 136 f(x) = -20x + 10590 136 < x < 142 f(x) = 198x + 15143 142 < x < 143 f(x) = -121x + 8209 143 < x < 144 f(x) = -35x + 10868 144 < x < 147,5 f(x) = -223x + 9965 147,5 < x < 150,5 f(x) = 306x + 12064 150,5 < x < 154,5 f(x) = 3x+ 113265 4,5 < x < 158,5 f(x) = 22x + 11626 158,5 < x < 163 f(x) = -132x + 8901 163 < x < 166 f(x) = -626x – 2769 166 < x < 168 f(x) = -165x + 9758 168 < x < 170,5 f(x) = 95 x + 9580 170,5 < x < 174

f(x) = -66x + 9275 174 < x < 177 f(x) = 201x + 11285 177 < x < 181,5 f(x) = 134x + 12184 181,5 < x < 184,5 f(x) = 188x + 13889 184,5 < x < 188 f(x) = -146x + 8527 188 < x < 192.

Nella distribuzione statistica abbiamo diminuito il numero degli intervalli di tempo per il calcolo della funzione di distribuzione e aumentato la loro ampiezza da 2 minuti a 30 minuti. Gli andamenti costanti e quelli per i quali le variazioni sono trascurabili, sono stati raggruppati in un unico intervallo di tempo di ampiezza superiore.

Nel lungo termine la distribuzione statistica ha un andamento crescente descritto da una distri- buzione di Poisson.

Nei nostri simulatori è possibile selezionare la durata dell’esperimento e la funzione di di- stribuzione delle query, quest’ultima può essere: statistica, costante oppure di Poisson.

Per le ultime due opzioni è possibile selezionare: il parametro di distribuzione e la frequenza con la quale si ripete la distribuzione, questo valore è espresso in minuti e deve essere compreso fra 1 minuto e 1 ora.

A scopo illustrativo, è riportato un frammento del file di configurazione XML in cui la distri- buzione delle query è costante con parametro 2 e frequenza di 30 minuti.

- <CONFIGURAZIONE> <QUERY> - <DISTRIBUZIONE> <COSTANTE>2</COSTANTE> <FREQUENZA>30</FREQUENZA> - <DURATA> <GIORNI>1</GIORNI> <ORE>1</ORE> <MINUTI>0</MINUTI> <SECONDI>0</SECONDI> </DURATA>

</DISTRIBUZIONE> </QUERY>

</CONFIGURAZIONE>

Per ogni peer sono state misurate alcune proprietà, che hanno permesso di analizzare le carat- teristiche fondamentali degli utenti di Gnutella. I dati raccolti includono:

la latenza della rete,

la distribuzione dell’ampiezza di banda,

il numero di file shared per peer,

la distribuzione delle peer attraverso i domini DNS e

il “lifetime” delle peer, ossia la frequenza con cui le peer si connettono alla rete e la durata di ciascuna connessione.

4.1.2. Latenza

La latenza della rete [3] è stata calcolata misurando il tempo per il percorso circolare di un pacchetto TCP (RTT, round-trip time), ossia il tempo necessario per il viaggio di andata e ritorno di un messaggio tra le macchine utilizzate per la raccolta dei dati statistici e le peer individuate dal protocollo ping-pong.

A questo scopo è stato introdotto un tool che misura il RTT di un pacchetto TCP della dimen- sione di 40 byte.

La Figura 4.2 mostra la latenza delle peer di Gnutella. Si può vedere che, approssimativamente:

il 20% delle peer ha latenza inferiore a 70ms,

il 20% ha latenza superiore a 280ms,

il restante 60% ha latenza compresa fra 70ms e 280ms.

Da queste considerazioni, possiamo dedurre che in un sistema P2P in cui la rete non è strutturata ad-hoc, una sostanziale frazione delle connessioni è soggetta a una latenza relativamente alta. La Figura 4.3 mostra la correlazione fra la banda e la latenza nella rete Gnutella. Attraverso un’attenta analisi, possiamo individuare due raggruppamenti:

1. uno più piccolo situato alla sinistra del grafico, che rappresenta il 10% delle peer della rete (20-60Kbps, 100-1.000ms);

2. uno più grande, collocato alla destra del grafico, che raggruppa il restante 90% delle peer (1.000Kbps, 60-300ms).

Figura 4.2 Latenze delle peer di Gnutella

Questi raggruppamenti corrispondono rispettivamente all’insieme dei modem e delle connessioni a banda larga. La presenza di un evidente raggruppamento nel quale la banda di connessione è bassa, corrisponde a un non trascurabile ritardo nella trasmissione dei dati.

Il raggruppamento più grande presenta due raggruppamenti orizzontali molto pronunciati che corrispondono alle peer situate rispettivamente, nella Costa Orientale del Nord America e in Europa.

I risultati conclusivi di quest’analisi sulla latenza della rete, identificano tre principali classi di latenze:

1. la latenza delle peer collocate su una delle parti del continente americano, 2. la latenza delle peer su opposte locazioni del continente, e

3. la latenza delle peer transoceaniche.

La Figura 4.3 mostra come il valore della banda delle peer oscilli significativamente all’interno di ciascuna delle tre classi della latenza.

Nei nostri simulatori, la latenza è conforme alle informazioni individuate dalla Figura 4.2:

il 20% delle peer ha latenza fra 10ms e70ms (<L70>20</L70>)

il 20% delle peer ha latenza fra 280ms e 1.000ms (<L1000>20</L1000>)

Abbiamo trascurato: sia le latenze inferiori a 10ms sia quelle superiori a 1.000ms, che rappresentano una piccola percentuale delle peer della rete.

Figura 4.3 Correlazione fra la banda e la latenza delle peer di Gnutella

Documenti correlati