• Non ci sono risultati.

6.2 Visualizzazione dei cubi

7.1.1 Altro gruppo di blog

Gi`a nel mining iniziale avevamo notato un comportamento particolare per questo insieme di blog. Ma l’analisi riguardava un periodo breve (aprile e maggio), quindi ampliamo l’intervallo di analisi per vedere se e cosa cambia.

Osserviamo la distribuzione delle pubblicazioni per fascia oraria:

(a) Tutti post (b) Gruppo 1: Fendi

Figura 23: Distribuzione per fascia

Notiamo una predominanza degli orari diurni, specialmente nelle fasce Pomerig- gio e Sera mentre, come atteso, la fascia Notte `e quella in cui le pubblicazioni sono minori, sia in generale, sia per il Gruppo 1: Fendi in particolare.

Figura 24: Blog, secondo gruppo: Distribuzione per fascia per ogni fonte

Osservando le distribuzioni divise per fonte si vede che per alcune di esse questa differenza tra le fasce `e notevole (es. Anna dello Russo, Man Repeller ), mentre in altri casi `e pi`u uniforme (es. Elin Kling, StyleList ).

7.1 I blog

Restringendo l’osservazione all’analisi del Gruppo 1: Fendi troviamo corrispon- denza con la stessa analisi applicata al datalake per intero. Questo ci lascia pensare che la profilazione dell’utente sia simile.

Per evidenziare questa corrispondenza osserviamo anche la distribuzione per giorno della settimana:

(a) Tutti post (b) Gruppo 1: Fendi

Figura 25: Blog, secondo gruppo: Distribuzione per giorno della settimana

In questo caso non abbiamo di fronte il picco del venerd`ı, ma notiamo comunque una netta differenza tra giorni feriali e festivi, soprattutto osservando la totalit`a dei post.

In quest’ottica, come proposto per il gruppo di blog precedente, le informazioni ottenibili da questi dati sono moltissime, ma la loro utilit`a e rilevanza dipende dallo scopo ultimo che l’azienda vuole ottenere.

7.2

Twitter

In fase di mining `e emersa subito la possibilit`a e l’utilit`a dell’uso delle Association Rules. In effetti l’applicazione delle regole ha portato ad una classificazione dalla quale sono emersi comportamenti particolari per entrambi i gruppi. Riepiloghiamo le regole applicate. Sono classificati nel Gruppo 1: Fendi tutti i post in cui `e verificata almeno una di queste corrispondenze:

• la parola f endi `e presente nel titolo o nel testo del post

• troviamo corrispondenza con almeno una delle 6 regole precedentemente sele- zionate:

deals us → f endi sunglass → f endi ss15 → f endi deals → f endi bargains → f endi sunglasses → f endi

In fase di mining queste regole avevano portato ad una classificazione in propor- zione 60/40, e in ognuno dei due gruppi avevamo osservato comportamenti differenti. Queste regole si confermano corrette anche osservando il datalake per intero, in quanto la distribuzione dei post nei due gruppi mantiene proporzioni simili alle precedenti, inoltre nel Gruppo 1: Fendi continuano a valere le stesse considerazioni fatte in precedenza.

Si conferma inoltre l’importanza di osservare entrambi i gruppi, per dedurre da un lato le buone norme per aumentare la visibilit`a di un post e quindi incrementare la probabilit`a di diffusione dell’informazione, dall’altro comprendere quali compor- tamenti, invece, `e bene evitare perch`e i nostri sforzi per rendere il post rilevante non vengano vanificati dall’uso di determinati hashtag o dalla pubblicazione del post stesso in giorni od orari sbagliati.

Iniziamo osservando le distribuzioni temporali.

Figura 26: Gruppo 1: Fendi - Distribuzione per giorno della settimana

Rispetto alle differenze tra giorni feriali e festivi rilevate nel caso dei blog, in Twitter notiamo invece una certa uniformit`a.

7.2 Twitter

Questo pu`o essere dovuto alla natura stessa di Twitter: siamo di fronte ad un Social Network, una rete utilizzata dagli utenti per tenersi in contatto con i propri amici e parenti, per condividere con loro le proprie passioni e i momenti della vita quotidiana.

Non stupisce che gli utenti utilizzino Twitter pi`u o meno con la stessa frequenza tutti i giorni, feriali o festivi.

Anche per quanto riguarda gli orari non notiamo andamenti sorprendenti.

Figura 27: Gruppo 1: Fendi - Distribuzione per orario

E’ evidente un calo (fisiologico) nelle ore notturne, come sono chiari anche alcuni picchi, in particolare notiamo che si trovano in corrispondenza con l’ora di pranzo e con la met`a della mattinata e del pomeriggio, diciamo in corrispondenza delle pause dal lavoro. Sar`a un caso?

Le stesse distribuzioni temporali osservate sul Gruppo 0: nonFendi portano in- vece a considerazioni del tutto diverse. In questo caso sia il delta tra feriali e festivi, sia quello tra orari notturni e diurni `e pi`u marcato.

In parte queste differenze sorprendono, o comunque portano diversi spunti di riflessione, in parte invece confermano gli andamenti che ci aspettavamo.

Dal punto di vista dell’orario, ad esempio, viste le AR che regolano questo gruppo (paragrafo 4.2.3 - Distribuzioni Gruppo 0: non Fendi ) ci saremmo aspettati una predominanza delle ore notturne. Il perch`e non c’`e stata andrebbe ricercato nel contenuto dei post (il text mining in effetti `e stato individuato come un’interessante sviluppo futuro).

Dal punto di vista del giorno della settimana invece non sorprende che i post siano concentrati nei feriali, proprio l`a dove il lavoro assorbe tipicamente molte ore della giornata e quindi, a differenza del weekend, il tempo libero da dedicare fisicamente alle interazioni sociali `e minore, di conseguenza rimane pi`u agevole rifugiarsi nei social senza uscire da casa.

Twitter permette di raccogliere anche le informazioni sulla lingua utilizzata nei post. Possiamo quindi andare ad osservare quali sono le lingue pi`u utilizzate dei diversi raggruppamenti.

Sono diverse decine le lingue diverse utilizzate nei post, ma di queste molte sono usate decisamente di rado.

Figura 28: Distribuzione della lingua

Nel grafico si mostrano le distribuzioni delle lingue sia in generale per tutti i post raccolti, in giallo, sia per il Gruppo 0: nonFendi in rosso, sia per il Gruppo 1: Fendi in blu. Osservare tutto sullo stesso grafico `e comodo per poter fare confronto.

Se osserviamo la distribuzione in generale notiamo la presenza imponente dell’i- taliano e dell’inglese. Per il Gruppo 1: Fendi notiamo invece come l’uso dell’italiano sia molto limitato, questo probabilmente perch`e, anche se Fendi `e un marchio ita- liano, la lingua con cui in generale `e pi`u probabile riuscire a farsi capire dal mondo `

e l’inglese.

Notiamo invece varie differenze rispetto all’altro gruppo: in questo caso vediamo come emerge il tedesco.

Come possiamo giustificare questa punta? In questo caso per scoprire le reali mo- tivazioni dovremmo fare un’analisi approfondita anche dal punto di vista sociologico, ci`o esula dalle nostre competenze. Possiamo per`o ricondurre questi dati pensando alla storia recente della Germania e a tutte le recenti legalizzazioni messe in atto.

In ultima analisi possiamo confrontare le pubblicazioni dei blogger sui loro blog e su Twitter: come gi`a precedentemente descritto abbiamo potuto recuperare da Twitter anche i dati relativi alle pubblicazioni ricercate per utente, in particolare abbiamo cercato quelle relative agli utenti ufficiali del primo insieme di blog. La quantit`a di utenti scelta `e limitata poich`e non eravamo sicuri che analisi di questo genere avrebbero portato a risultati interessanti, `e stata una prova.

7.2 Twitter

Figura 29: Confronto blog/Twitter

Ad eccezione di un picco in corrispondenza di ContattoNews, osserviamo che in generale l’andamento delle pubblicazioni sui blog `e molto simile a quello delle pubblicazioni su Twitter (stiamo parlando di numeri veri, non percentuali).

Non ci aspettavamo un risultato del genere: per natura i due mezzi sono molto diversi e l’attesa era di trovare andamenti simili, ma di ordini di grandezza diversi. Come possiamo interpretare questo dato? Potrebbe essere sintomo della grande cura che i blogger riservano ad entrambi i mezzi, spesso capita che la corripondenza tra blog e Twitter sia 1 a 1.

La domanda che ci pone a questo punto `e: quando ci interfacciamo con un blog- ger `e meglio richiedere pubblicazioni sul suo blog o su Twitter? La risposta, come in molti altri casi `e: dipende. Dipende dall’argomento, dipende dal blog, dipende dall’effetto finale che si vuole ottenere. Di certo `e da tenere in considerazione che la visibilit`a del tweet probabilmente sar`a maggiore, ma di minor durata, mentre in generale quella sul blog sar`a pi`u limitata come numero di lettori, ma pi`u durevole a causa della minore rotazione dei post in homepage.

A conclusione di questa analisi possiamo affermare che dal punto di vista tempo- rale i suggerimenti per aumentare la visibilit`a di un post sono limitati, a causa dell’u- niformit`a rilevata. Anche dal punto di vista della scelta della lingua le informazioni ricavate sono in linea con ci`o che ci si aspettava.

In compenso hanno sorpreso molto le analisi sui tag: indicazione principale che emerge `e legata al tag #peekaboo che abbiamo scoperto essere utilizzato non soltanto a riguardo del marchio, parlando della borsa, ma anche in altre accezioni.

In questo senso ci sentiamo di sconsigliare l’uso dell’hashtag in maniera isolata poich`e, se non contestualizzato rispetto al mondo della moda o, ancor meglio, ri- spetto al marchio o a prodotti affini ad esso, si rischia che possa essere interpretato con un significato diverso da quello atteso.

7.3

Instagram

In fase di mining il campione di dati aveva cardinalit`a 1 milione circa di post e 22 milioni di coppie < tag, post >, il dataset intero comprende invece una quantit`a di dati pi`u che triplicata: siamo nell’ordine di 3,3 milioni di post e 77 milioni di coppie < tag, post >.

Prima di cominciare ad analizzare i dati `e necessario capire se il campione scelto ha dato origine a regole ancora significative anche sui gruppi ottenuti dal datalake. Ricordiamo che i due gruppi in questo caso sono stati calcolati in modo indipen- dente dalle AR, in particolare:

• il Gruppo 1 comprende i post in cui appare #f endi, ma non `e presente nessuno degli altri 13 tag in analisi. Chiameremo questo insieme gruppo pubblicit`a. • Il Gruppo 0 comprende tutti gli altri post raccolti, ovvero tutti quelli in cui

appare almeno uno dei 13 tag in analisi, quindi tutti i post in cui #f endi non `e presente o comunque non appare da solo. Chiameremo questo insieme gruppo coerenti.

Applicando lo stesso algoritmo al datalake vediamo che la proporzione tra i due gruppi calcolati `e di 1 a 6, ovvero il gruppo pubblicit`a ha cardinalit`a 6 volte mag- giore rispetto all’altro. Nonostante questo divario possiamo confermare che le AR all’interno di questi gruppi rimangono valide.

Dall’osservazione del divario tra le cardinalit`a risulta evidente quanto l’uso del- l’hashtag #f endi sia spesso decisamente improprio. Nella maggior parte dei casi viene utilizzato non tanto per parlare del marchio, quanto per sfruttare la visibilit`a derivata da esso per aumentare la visibilit`a e la probabilit`a di diffusione del post.

Il marchio in questo caso deve decidere come sfruttare a suo vantaggio questa informazione.

Di certo `e una buona cosa che #f endi sia nominato cos`ı spesso in Instagram, ma deve essere chiaro che solo nel 15% dei post si sta parlando veramente del marchio o di suoi prodotti, negli altri casi si tratta di sfruttamento della sua popolarit`a.

Nel nostro caso perci`o non sar`a utile tanto studiare le dinamiche interne al gruppo pubblicit`a, quanto imparare a capire come gestire il tag #f endi quando lo si vuole utilizzare in modo mirato.

7.3 Instagram

Confrontiamo alcune dimensioni sui due gruppi.

Per quanto riguarda l’orario di pubblicazione osserviamo in generale un anda- mento morbido, fisiologicamente legato alle fasce, quindi con una flessione al mattino molto presto (tra le 3 e le 7) e un picco a met`a giornata attorno alle 15.

Per i due gruppi persi singolarmente il comportamento `e abbastanza simile a quello generale, di conseguenza simile anche tra i due gruppi:

(a) Gruppo pubblicit`a

(b) Gruppo coerenti

Figura 30: Distribuzione per ora

La similitudine, nonostante il diverso ordine di grandezza, si vede anche osser- vando le rette che descrivono i comportamenti in modo lineare.

Le differenze non sono molte, scendendo nel dettaglio possiamo individuare una maggiore uniformit`a nel gruppo dei coerenti rispetto all’altro in cui ci sono flessioni in positivo e negativo pi`u nette.

Dall’uniformit`a che regna sul gruppo dei coerenti non emergono indicazioni par- ticolari sugli orari migliori per le pubblicazioni dei post. La quantit`a di post pubbli- cati segue una curva naturale: unica indicazione utile pu`o essere pubblicare il post

nel primo pomeriggio, indicaticamente verso le 13-14, in questo modo il post `e gi`a in linea prima del momento in cui si raggiunge il picco. Evitando di pubblicare nel momento di maggior attivit`a `e pi`u probabile che un post rimanga a lungo in prima pagina per gli utenti e studiando la giusta combinazione di hashtag si potrebbe riu- scire a mantenere l’interesse sul post anche durante il picco, momento di maggior diffusione delle informazioni.

La distribuzione dei post per giorno della settimana mostra come il comporta- mento nel gruppo pubblicit`a sia simile a quello dell’intero datalake. Ci`o non stupisce se pensiamo che questo gruppo comprende l’85% del totale dei post.

Concentrandoci sul gruppo coerenti emergono come giorni di grande attivit`a quelli festivi, inoltre vediamo che il picco si ha in corrispondenza del luned`ı.

A cosa `e dovuto questo comportamento?

Probabilmente ci`o `e sintomo del rapporto che gli utenti hanno con questo social: se in Twitter valeva l’idea di condividere fatti della vita quotidiana tramite testi, qui invece gli utenti di esprimono soprattutto per immagini. Inoltre stiamo parlando di moda, quindi possiamo supporre che le immagini pubblicate riguardino foto personali (con abiti, borse e scarpe) o momenti di shopping.

Figura 31: Instagram: Distribuzione per giorno della settimana

7.3 Instagram

Figura 33: Instagram: Distribuzione per giorno della settimana per il gruppo coerenti

In questo senso, immaginando che l’utente medio durante la settimana sia lavora- tivamente impegnato, non stupisce che il weekend venga destinato a queste attivit`a. La presenza di molti post il luned`ı probabilmente `e conseguenza della grande mole di post prodotta nel weekend (ricordiamo che basta un like o un commento per ri- portare un post vecchio in prima pagina).

Come accadeva nel caso dell’orario questa informazione pu`o essere ben sfruttata in combinazione con un uso corretto degli hashtag per ottimizzare la diffusione del- l’informazione: in particolare pu`o essere utile, ad esempio, concentrarsi sul venerd`ı nell’ottica di creare interesse e curiosit`a nell’utente nella speranza che nel weekend egli decida di approfondire l’argomento.

Un’ulteriore informazione potenzialmente utile riguarda la posizione geografi- ca (latitudine e longitudine dell’utente almomento della pubblicazione del post): notiamo che in Instagram diversi post contengono anche l’informazione di geoloca- lizzazione. Questo probabilmente `e dovuto al fatto che Instagram `e ormai un’appli- cazione usata quasi totalemnte da dispositivi mobile, proprio per lo stretto legame con immagini e soprattutto foto.

Non c’`e stato modo di studiare l’andamento dell’informazione geografica all’in- terno di questo progetto, ma quando abbiamo fatto presente questo dato a Fendi `e stato accolto con molto interesse: in effetti potrebbe essere utile per loro conoscere le zone geografiche da cui pi`u spesso provengono post. Per ognuna di queste sarebbe interessante ricavare informazioni sul tipo di post e di utente e sul contenuto dei post per studiarne le corrispondenze con le campagne in atto nella zona.

Spostiamo la nostra attenzione su uno dei punti centrali di questa analisi, i tag. Anche se l’origine degli hashtag `e da ricercare in Twitter, l’uso di essi in Instagram `

e decisamente maggiore. In proporzione, infatti, in Twitter abbiamo calcolato una media di 3 tag utilizzati in ogni post, per Instagram questo valore `e superiore di pi`u

Osservando questi numeri risulta evidente quanto un buon uso dei tag sia fon- damentale per determinare la diffusione dell’informazione.

Il primo commento che salta all’occhio `e quello che ha influito anche sulla classi- ficazione, ovvero l’uso del tag #f endi. Dalle analisi fatte `e emerso che usare questo tag da solo all’interno di un post rischia di portare ad un’interpretazione del tag stesso diversa da quella attesa, in particolare `e probabile che vada a disperdersi al- l’interno dell’insieme dei post di pubblicit`a, soprattutto in corrispondenza di quei giorni e quegli orari in cui l’attivit`a del gruppo di pubblicit`a `e molto superiore a quella del gruppo dei coerenti.

Consigliamo perci`o, per evitare casi di questo tipo, di utilizzare il tag #f endi assieme ad altri tag affini al marchio: in questo modo, oltre a sfruttare la popolarit`a di tutti i tag utilizzati, il post viene contestualizzato e la probabilit`a che vada a finire nella pubblicit`a cala notevolemente.

Altra consederazione riguarda la quantit`a di distinti tag che abbiamo rilevato. Vista la mole di post raccolti, e di conseguenza i diversi contesti d’uso dei vari hashatg, non soprende che questo numero sia molto elevato.

E’ per`o necessario osservarli in modo dettagliato per rendersi conto di quali in effetti hanno un certo livello di rilevanza e quali invece sono frutto di errori di digitazione o magari di concatenazione di hashtag diversi.

Per ricavare info utili a riguardo potrebbe risultare utile applicare algoritmi di text mining: si tratta di una delle analisi che sono state individuate come po- tenzialmente interessanti e come tali sono state inserite nell’elenco degli sviluppi futuri.

7.4 Facebook

7.4

Facebook

L’uso degli hashtag in Facebook `e tanto limitato da farci distogliere l’attenzione da quel tipo di analisi.

Proviamo ad osservare le distribuzioni temporali. Vediamo per`o come in questo caso si evidenzia una distribuzione tanto uniforme nei giorni e negli orari, da non destare molto interesse.

In questo senso non abbiamo consigli da fornire su giorni o orari di pubblicazione migliori di altri, n`e sull’uso di particolari hashtag, in quanto il loro uso limitato non aiuta nello studio della diffusione del post.

Per ampliare il raggio d’azione si potrebbe pensare di lavorare a livello di uten- ti: sappiamo che, a meno di indicazioni particolari, quando due account stringono amicizia o diventano l’uno fan dell’altro, in entrambe le direzioni l’uno ha visibilit`a di tutti i post pubblicati dall’altro. La stessa visibilit`a sui post `e estesa per gli amici di entrambi.

Potrebbe perci`o essere utile cercare di ampliare la rete di amicizie attorno all’u- tente F endi, in questo modo immaginiamo che la diffusione del post possa crescere esponenzialmente. Si tratta per`o solo di congetture, sarebbe necessario un lavoro pi`u approfondito sul Social Network per capire come in effetti vengono gestite queste situazioni dagli algoritmi interni.

Anche dall’analisi del tipo di post non emergono sostanzialmente informazioni troppo sorprendenti.

Figura 34: Distribuzione del tipo di post

I tipi di post pi`u utilizzati sono l’aggiunta di una foto, la pubblicazione di uno stato d’animo e la condivisione di un album: `e evidente come anche in questo social

gli utenti prediligano i metodi pi`u diretti per esprimersi: immagini ed emozioni. Gi`a asservando le cardinalit`a dei post raccolti nei vari social ci si rende conto quanto le immagini, quindi Instagram, siano apprezzate dagli utenti, in effetti questi dati in Facebook confermano questa affermazione.

Il livello di dettaglio scelto in questo progetto non sembra adatto per l’analisi di questo social. Per ricavare da esso informazioni utili probabilmente sarebbe neces- sario impostare le analisi in modo diverso, ad esempio analizzando le reti di amicizia e le modalit`a di diffusione delle informazioni all’interno di queste strutture.

Possiamo quindi concludere che le analisi impostate inizialmente non sono adatte a Facebook, o comunque non al tipo di analisi e di risultati che ci aspettavamo. Questo non significa che da questo social non sia possibile ricavare informazioni interessanti, ma semplicemente che `e necessario in questo caso ricercare dati diversi e impostare le analisi in maniera differente.

8

Commento di Fendi al lavoro

Pur trattandosi di un lavoro interno a BNova, l’azienda Fendi `e stata da subito coinvolta in quanto ci siamo resi conto in fretta che un progetto di questo tipo poteva in effetti risultare utile ed interessante per entrambi: per BNova come una porta verso l’analisi del web, per Fendi come Supporto decisionale.

L’entusiasmo di Fendi `e emerso gi`a all’inizio in fase di raccolta, ci hanno fornito infatti in breve tempo l’elenco dei blog che gi`a stavano monitorando, in questo modo abbiamo potuto inserire parte di essi nelle nostre analisi.

Documenti correlati