• Non ci sono risultati.

4.3

Instagram

Anche per Instagram lo scopo finale di questa fase `e capire quali info utili `e necessario portare nel DWH e, come per Twitter, individuare una regola di classificazione per separare i post riguardanti il marchio da quelli incoerenti.

La mole dei dati raccolti da Instagram `e decisamente diversa dagli altri social, inoltre anche l’uso degli hashtag `e molto pi`u imponente. Soltanto nel mese in analisi abbiamo riscontrato circa 1 milione di post da cui abbiamo ricavato pi`u di 22 milioni di coppie < post, tag >.

Da questi dati abbiamo ricavato l’elenco di tutti i tag utilizzati.

Con stupore si vede che abbiamo a che fare con pi`u di 100.000 tag distinti.

E’ ovvio che non potremmo utilizzarli tutti nel calcolo delle regole associative poich`e rischiamo di ottenere informazioni troppo dispersive.

Nel cercare una logica per decidere quali tag utilizzare ci troviamo a fare alcune considerazioni: all’interno di questo insieme sono molti i tag coerenti con l’universo della moda, ma notiamo che spesso capitano anche tag irrilevanti, causati ad esempio da errori di digitazioni da tastiera (es. #f edni). In questo caso la loro frequenza `e decisamente bassa.

Per questo motivo abbiamo deciso di provare ad osservare solo i tag pi`u utilizzati, nella speranza che il frequente utilizzo sia sintomo di coerenza: li abbiamo classificati a seconda della frequenza con cui appaiono nei post e abbiamo individuato 3 possibili insiemi: i primi 100 (top100), i primi 50 (top50) e i primi 10 (top10) in ordine di frequenza d’uso. Per ognuno di essi abbiamo osservato la percentuale di copertura sul totale dei post:

(a) T op100 (b) T op50 (c) T op10

Figura 10: Percentuale di copertura dei top100, top50 e top10 tag sui post

In particolare osserviamo che i tag appartenenti all’insieme dei top100 appaiono (singolarmente o in combinazione tra loro) nel 96% dei post in analisi (circa 983 mila post), i tag appartenenti alla top50 appaiono nel 86% (circa 886 mila post) mentre i tag della top10 appaiono nel 83% dei post (circa 844 mila).

Considerati questi valori, anche se la differenza tra considerare i top50 o i top10 `

e molto poca (il delta riguarda solo il 3% dei post) sembra un buon compromesso utilizzare i top50 nel calcolo delle regole associative.

Calcoliamo le AR su questo sottoinsieme di tag e troviamo:

Lhs Rhs Support Confid Lift 1 celine fendi 0.6493065 0.9995495 1.010087 2 ferragamo fendi 0.6288751 0.9999539 1.010495 3 balenciaga fendi 0.6846648 0.9998383 1.010378 4 givenchy fendi 0.7160264 0.9998233 1.010363 5 prada fendi 0.8280067 0.9996531 1.010191 6 dior, hermes fendi 0.6248705 0.9997511 1.010290 7 hermes, prada fendi 0.6249127 0.9998228 1.010363 8 balenciaga, prada fendi 0.6398290 0.9999547 1.010496 9 cartier, prada fendi 0.6320676 0.9999583 1.010500 10 chanel, givenchy fendi 0.6270112 0.9999285 1.010470 11 chanel, prada fendi 0.7317600 0.9997407 1.010280 12 givenchy, gucci fendi 0.6325791 0.9999875 1.010529 13 dior, givenchy fendi 0.6239320 0.9999493 1.010491 14 givenchy, prada fendi 0.6579905 0.9999359 1.010477 15 gucci, prada fendi 0.6940211 0.9998899 1.010431 16 dior, prada fendi 0.7382638 0.9997965 1.010336 17 chanel, gucci, prada fendi 0.6302512 0.9998913 1.010432 18 chanel, dior, prada fendi 0.6633845 0.9998053 1.010345 19 dior, gucci, prada fendi 0.6319569 0.9999082 1.010449

La prima considerazione che salta all’occhio `e che in tutte le regole f endi appare a destra. Cosa pu`o significare? Sicuramente `e un indice del fatto che i tag scelti sono strettamente legati al marchio.

Seconda considerazione, che in parte va a modificare la deduzione appena detta, `

e che sulla sinistra delle regole appaiono tutti e soli nomi di altri grandi marchi del mondo della moda: per quale motivo aziende diverse dovrebbero voler apparire insieme nello stesso post?

Nel capitolo 7 relativo alla Fase 5: Suggerimenti interpretativi sui dati verr`a data una spiegazione pi`u dettagliata basata non solo su nostre interpretazioni dei post, ma anche su suggerimenti interpretativi proposti da Fendi stesso. Nel frattempo per i nostri scopi `e sufficiente osservare la presenza di questa caratteristica e decidere come sfruttarla per classificare i post.

Decisione finale `e quella di classificare i post con una logica diversa da quella utilizzata precedentemente per Twitter (applicazione delle AR). Nel caso di Insta- gram, infatti, le regole associative non ci hanno indicato la coerenza o incoerenza del post rispetto al marchio, ma piuttosto la presenza frequente del marchio insieme ad altri nomi importanti del campo della moda.

4.3 Instagram

Decidiamo di utilizzare questa informazione confrontando la presenza dei 14 tag in analisi: verranno classificati nel Gruppo 1 i post in cui #f endi appare da solo (non in combinazione non gli altri 13 tag), mentre classifichiamo nel Gruppo 0 tutti gli altri post, ovvero tutti quelli in cui appare almeno un hashtag tra i 13 rimanenti, eventualmente in aggiunta a #f endi.

La procedura di classificazione si `e svolta in 2 fasi:

1. Tutti i post provenienti dalla ricerca del tag #f endi (quindi contenenti quel tag) sono stati classificati nel Gruppo 1.

2. Tutti i post provenienti dalle altre ricerche sono stati classificati nel Gruppo 0. Nel caso un post fosse gi`a stato classificato nella fase precedente nel Gruppo 1, esso verr`a aggiornato e andr`a a far parte del Gruppo 0, poich`e, se appare in questa seconda fase, significa che oltre al tag #f endi `e presente anche uno degli altri 13 tag.

L’applicazione di questa logica porta ad una suddivisione che vede classificati nel Gruppo 0 circa il 15% dei post, nel Gruppo 1 il restanti 85%.

Figura 11: Classificazione dei post di Instagram

Questa classificazione porta a due insiemi molto sbilanciati, ma la predominanza del Gruppo 1 non sorprende. Tutte le AR calcolate coinvolgono altri marchi e questo porta alla considerazione che gli itemset pi`u frequenti sono quelli in cui appaiono diverse aziende insieme. Perci`o se basiamo la logica di classificazione sull’idea di separare i post in cui diversi marchi appaiono insieme da quelli in cui questo non avviene non sorprende il fatto che il Gruppo 1 sia molto pi`u numeroso dell’altro. Passo successivo consiste nel calcolo delle AR sui due gruppi ottenuti.

Le regole calcolate sul Gruppo 1 ci confermano di aver impostato correttamente la procedura di classificazione poich`e emergono regole del tutto simili a quelle pre- cedentemente ottenute.

Per quanto riguarda il Gruppo 0 il mining `e stato pi`u complesso.

Le regole ottenute da una prima applicazione dell’algoritmo di calcolo mostrano la presenza ancora di diversi altri marchi, ma soprattutto si nota che F endi non appare mai:

Lhs Rhs Support Confid Lift 1 bahrain ysl 0.07811060 0.9274966 9.127744 2 bahrain louisvuitton 0.07838710 0.9307798 8.021414 3 bahrain gucci 0.07877880 0.9354309 7.370679 4 ysl louisvuitton 0.09449309 0.9299320 8.014108 5 bahrain, ysl louisvuitton 0.07806452 0.9994100 8.612866 6 bahrain, louisvuitton ysl 0.07806452 0.9958848 9.800771 7 bahrain, ysl gucci 0.07806452 0.9994100 7.874799 8 bahrain, gucci ysl 0.07806452 0.9909330 9.752039 9 gucci, ysl bahrain 0.07806452 0.9254302 10.988693 10 bahrain, louisvuitton gucci 0.07831797 0.9991182 7.872500 11 bahrain, gucci louisvuitton 0.07831797 0.9941503 8.567539 12 gucci, ysl louisvuitton 0.08389401 0.9945370 8.570871 13 bahrain, louisvuitton, ysl gucci 0.07806452 1.0000000 7.879448 14 bahrain, gucci, ysl louisvuitton 0.07806452 1.0000000 8.617951 15 bahrain, gucci, louisvuitton ysl 0.07806452 0.9967638 9.809421 16 gucci, louisvuitton, ysl bahrain 0.07806452 0.9305136 11.049053

Prima di decidere di correggere la regola di classificazione abbiamo provato a ricalcolare le regole su questo gruppo modificando i valori assegnati a Supporto e Confidenza.

In effetti notiamo dal grafico a bolle sottostante, che rappresenta le nuove regole calcolate, che stavolta riemerge F endi .

Anche se non appare direttamente nelle regole, vediamo comunque come tag ad esso affini (ad esempio Karlito) adesso emergono con forza.

4.3 Instagram

Queste considerazioni sono interessanti e sorprendenti e mettono in evidenza la rilevanza di ogni singolo hashtag di un post.

Oltre alle analisi riguardo i tag, sono state osservate anche le distribuzioni tem- porali. Il periodo analizzato `e molto breve, quindi i dati trovati sono difficilmente interpretabili da soli, ma `e chiaro gi`a da adesso quanto un’analisi pi`u approfondita (ed eventualmente su un periodo di tempo pi`u lungo) possa far emergere informa- zioni interessanti. Per questo decidiamo di portare nel DWH tutte le informazioni temporali a disposizione.

Significativa `e l’osservazione dell’uso della geolocalizzazione: il fatto che Insta- gram sia un’applicazione ormai quasi esclusivamente usata nella versione mobile `e ci`o che probabilmente giustifica la presenza di molti post in cui `e presente l’infor- mazione di localizzazione geografica. In particolare nel Gruppo 1 la percentuale di post da cui si riesce a ricavare questa informazione `e poco minore del 50%.

Non avremo modo in questo progetto di andare ad analizzare la geolocalizzazione nel dettaglio, ma, pensando al futuro, decidiamo comunque di portare nel DWH anche l’informazione geografica.

Documenti correlati