• Non ci sono risultati.

SESSION IDENTIFICATION

2.8 Sequential pattern

Mentre le regole di associazione trovano le relazioni intra-transazione, i sequential pattern trovano schemi inter-transazione per rilevare la presenza di un insieme di elementi in una sequenza di transazioni ordinata in base al tempo. Nel mining delle regole di associazione gli elementi che si verificano in una transazione non sono ordinati, nel mining dei sequential pattern, invece, esiste un ordine tra gli elementi (eventi) e un elemento può ripresentarsi nella stessa sequenza.

Grazie ai sequential pattern, i web marketer14 possono prevedere modelli di visite future

che potranno essere utili per l'inserimento di annunci pubblicitari mirati a determinati gruppi di utenti.

Ad esempio, a partire dalla home page di un motore di ricerca, gli utenti possono indivi- duare informazioni riguardanti le università in Canada seguendo uno dei seguenti percorsi:

13 P. Giudici, C. Tarantola, Web Mining pattern discovery, No.156, settembre 2003. 14 Persona che si occupa della promozione del sito attraverso i canali legati al Web.

34

Home → Education → Higher Education → Colleges and Universities → By Region → Countries → Canada;

Home → Regional → Countries → Canada → Education → Higher Education.

Pertanto, le università che desiderano attrarre potenziali studenti possono posizionare i propri annunci su una delle pagine lungo il percorso.

La tecnica del modello sequenziale è utile per trovare modelli frequenti di accesso al web. È possibile distinguere tra Sequential rule diretta e indiretta. Nel caso di Sequential rule indiretta, tra la visita della pagina A e della pagina B vengono visualizzate altre pagine web. Nel caso di Sequential rule diretta, la visita della pagina A e della pagina B è sequenziale. Nell'analisi di clickstream web le regole sequenziali sono tipicamente indirette.

2.9 Web Log

Le statistiche di un sito web dipendono da un insieme di fattori. Il primo elemento da considerare, che può essere definito il “livello 0”, è il file di log del web server.

Un file web log registra tutte le informazioni riguardanti le azioni di un utente che visita un sito web. Le informazioni raccolte all'interno del web log non riguardano solo le visite dell'utente, vengono registrate anche le informazioni riguardanti gli spider dei motori di ri- cerca che visitano un sito web per includerlo nel proprio indice.

Un file di log può trovarsi in tre diversi punti: i) Web Servers, ii) Web Proxy Servers, iii) Client Browsers. Ognuno di questi presenta due importanti inconvenienti.

Server-side logs. Questi generalmente forniscono dati più completi e accurati, ma sono caratterizzati dai seguenti svantaggi:

 Contengono informazioni personali sensibili, pertanto i proprietari dei server di solito li tengono chiusi.

35

 Non registrano le pagine visitate nella cache. Le pagine memorizzate nella cache non vengono richiamate dal Web server ma dallo storage locale del browser o dal proxy server.

Proxy-side logs. Un proxy server accetta le richieste HTTP dagli utenti e le passa a un Web server, quindi restituisce agli utenti i risultati trasmessi loro dal Web server. Anche in questo caso si presentano degli svantaggi:

 La costruzione del proxy server è un compito difficile che richiede una program- mazione di rete avanzata, come TCP / IP.

 L'intercettazione della richiesta è limitata.

Client-side logs. I partecipanti testano da remoto un sito Web scaricando un software speciale che ne registra l'utilizzo, o modificando il codice sorgente di un browser esistente. Anche i cookie HTTP potrebbero essere utilizzati per questo scopo. Si tratta di informazioni che vengono generate da un Web server e memorizzate nei computer degli utenti, pronte per accessi futuri. Gli svantaggi di questo approccio sono:

 Il team di progettazione deve distribuire il software speciale e farlo installare dagli utenti finali.

 La tecnica rende difficile ottenere compatibilità con una vasta gamma di sistemi operativi e Web browser.

2.9.1 Struttura Web Log

Il contenuto del file log può variare in base al Web server e può contenere diversi tipi di informazioni. Tuttavia, possono essere definiti alcuni elementi del file log comuni a tutti i Web server:

36

 Indirizzo IP. L'indirizzo IP15 viene assegnato dall’Interne Service Provider (ISP)16

e identifica univocamente la macchina dalla quale è partita la richiesta della pa- gina sul web server.

 Authuser. Identifica l'utente qualora questo abbia effettuato l'autenticazione. In caso di utente non autentificato è presente il segno “-“.

 Time stamp. Si tratta della data e dell'ora della richiesta e definisce il momento esatto in cui è stata richiesta una pagina.

 Action. Indica l'oggetto della richiesta. Le azioni richieste possono essere di tipo GET, HEAD e POST. GET: Richiede una risorsa ad un server. HEAD: Il server risponde soltanto con i metadati associati alla risorsa. POST: Permette di trasmet- tere delle informazioni dal client al server.

 Request. Indica la risorsa a cui l'utente ha avuto accesso (pagina HTML, file mul- timediali, script ecc).

 Status. Indica il codice di risposta HTTP restituito all'utente, indica se la richiesta è andata a buon fine o meno e l'eventuale messaggio di errore restituito.

 Bytes. La dimensione totale dei byte trasferiti per il contenuto richiesto.

Nella Figura 2-14 viene presentato un esempio di file log, mentre nella Figura 2-15 sono elencati i possibili status della richiesta.

15 IP (Internet Protocol). Etichetta numerica che identifica univocamente un dispositivo detto host collegato a

una rete informatica che utilizza l'Internet Protocol come protocollo di rete. È costituito da 4 byte e suddiviso in 4 gruppi separati da un punto.

16 Organizzazione che offre agli utenti servizi inerenti a internet, i principali sono l'accesso al World Wide

37 Figura 2-14 Esempio di File Log.

38

Capitolo 3

Documenti correlati