• Non ci sono risultati.

3.2 Il mondo di Google

3.2.1 PageRank

Il vero successo di Google è dovuto alla creazione dell’algoritmo PageRank, bre- vetto US628599910depositato dall’Università di Stanford come protezione di pro-

prietà intellettuale. PageRank deriva il suo nome dall’inventore Larry Page, però il brevetto è stato registrato a nome dell’Università di Stanford dati gli elevati co- sti di deposito del brevetto. Successivamente però l’università ha concesso alla società Google Inc. lo sfruttamento esclusivo del brevetto in cambio di 1,8 milioni di azioni.

Alla base del loro algoritmo vi era un’ampia letteratura accademica basata sulle citazioni scientifiche11. Page e Brin infatti volevano applicare la teoria delle

citazioni scientifiche alle ricerche nel web per migliorare il livello qualitativo dei motori di ricerca online. Secondo questa teoria si poteva misurare l’importanza di un paper accademico in base al numero di volte che esso veniva citato in altre pubblicazioni e anche in base all’importanza relativa di queste ultime.

Partendo quindi dallo stesso presupposto della teoria accademica, i due Goo- gle Boys elaborarono PageRank. Esso è un algoritmo matematico che serve du- rante una ricerca ad assegnare un valore ad ogni pagina web, non basandosi esclusivamente sul contenuto della pagina ma valutando la rilevanza della pa- gina anche in base al numero di link presenti in rete relativi a quella pagina e alla loro autorevolezza. Esso indica la probabilità di un navigatore qualsiasi di accedere ad una determinata pagina tramite link successivi da altri siti web.

10 Ufficio Brevetti: http://worldwide.espacenet.com/publicationDetails/

biblio?CC=US&NR=6285999&KC=&FT=E.

11Sviluppata inizialmente dallo scienziato americano Eugene Garfield, padre della

La formula di questo algoritmo può essere espressa come: P R[A] = 1 d N + d n X k=1 P R[Pk] C[Pk] ! in cui:

• P R[A] è il valore di PageRank della pagina A che l’algoritmo vuole deter- minare;

• N è il numero delle pagine note;

• d è definito come ”dumping factor” ovvero un fattore preselezionato da Google pari a 0,85 che indica la probabilità che un utente casuale continui a navigare dopo un certo numero di click12;

• n è il numero delle pagine che contengono collegamenti verso la pagina A di cui si vuole calcolare il PageRank;

• Pkè ognuna delle n pagine;

• P R[Pk]valore di PageRank delle pagine Pk;

• C[Pk]è il numero totale di link che si trovano in ogni pagina Pk.

La seconda parte dell’algoritmo indica che il PageRank della pagina A di- pende in grande misura dalla sommatoria dei PageRank delle k pagine web che contengono collegamenti verso la pagina A rapportati al numero di link che le pagine k hanno verso terzi siti, il tutto aggiustato attraverso il dumping factor che diminuisce il valore totale della sommatoria. La prima parte è invece compo- sta da un fattore determinato come la differenza tra 1 e il dumping factor diviso il numero delle pagine note. A volte la prima parte dell’algoritmo è determinata 12Infatti i visitatori, anche se teorici, dopo un certo numero di click smettono di naviga-

re ed è perciò necessario determinare un fattore di aggiustamento che tenga conto di questa caratteristica.

semplicemente come differenza tra 1 e il dumping factor13, questo non modifica

il senso della formula ma solo la scala a cui rapportarsi. Nel caso dell’algoritmo esplicitato in questo lavoro la sommatoria di tutti i PageRank è pari a 1, mentre nel secondo caso il PageRank totale somma a N.

Si può quindi concludere che all’aumentare del numero dei link relativi alla pagina A il valore di PageRank aumenta con il conseguente miglioramento della posizione del sito nei risultati di ricerca. Se i siti che contengono link verso la determinata pagina A hanno un elevato livello di PageRank, P R[Pk], allora an-

che il rango della pagina A aumenterà notevolmente. L’entità di questo apporto al livello finale dipende però anche da quanti link esterni possiedono le altre n pagine web collegate Pk, ovvero se le pagine possiedono numerosi collegamenti

ad altre pagine allora l’aumento di PageRank per la pagina A sarà molto piccolo. Concludendo quindi vi possono essere due situazioni opposte che portano un sito web ad ottenere un elevato livello di PageRank:

• molte pagine, anche con bassa rilevanza, che contengo link verso la deter- minata pagina A;

• poche pagine ma con elevato livello di PageRank e quindi con elevata au- torevolezza che contengono collegamenti diretti e naturali verso la pagina A.

Questo algoritmo calcola ad ogni nuova ricerca di un utente la posizione del- le varie pagine nei risultati, e ad ogni nuova ricerca è possibile ottenere risultati diversi nel tempo in pochi istanti. Infatti Google mette sempre in evidenza nei risultati il numero delle pagine selezionate ed il tempo che è stato necessario per l’algoritmo per determinare quali pagine fossero rilevanti per la ricerca e in che ordine classificarle. La determinazione del rank è subordinato a quei collegamen- 13Nella prima pubblicazione di Brin e Page infatti veniva indicata quest’ultima formulazione

ti definiti ”naturali”, ovvero quei link non viziati da pagamenti e favori. In caso di forzatura e utilizzo di metodi non convenzionali per aggirare il calcolo del ran- go per migliorare la propria posizione finale sono severamente puniti da Google che può arrivare fino a eliminare14le pagine colpevoli dalle proprie ricerche, poi-

ché vi è il rischio di diminuire la qualità delle ricerche effettuate dagli utenti e questo potrebbe ricadere negativamente sull’immagine pubblica di Google.

Documenti correlati