• Non ci sono risultati.

CASE STUDY

4.2 PREPARAZIONE DEI DAT

Come è stato spiegato nel primo capitolo nel paragrafo 1.4, usare il data mining dal punto di vista pratico significa avere la capacità di tradurre i problemi di business in problemi di data mining. Per farlo è necessario seguire una serie di step che conducono alla costruzione del modello di analisi più adatto, segue poi l’implementazione, l’applicazione e infine la valutazione dei risultati. Prima di arrivare al modello vero e proprio però sono necessarie una serie di fasi preliminari che servono a preparare i dati affinché le operazioni di data mining siano efficaci e i risultati attendibili. Poiché questo capitolo è un esercizio pratico di quello che è stato trattato nei capitoli precedenti, useremo proprio lo schema del processo di data mining descritto nel capitolo 1.4 del presente lavoro come guida fino al paragrafo sull’applicazione concreta dei modelli.

Tutto inizia dal primo step: tradurre il problema aziendale in un problema di data mining. Quello che intendiamo fare è eseguire un’analisi della correttezza delle previsioni di budget rispetto ai valori a consuntivo, per vedere se ci sono margini di manovra per migliorare i valori previsionali e di conseguenza le decisioni che ne derivano. Come spiegato nel secondo capitolo di questa tesi una buona previsione porta ad un uso ottimale delle risorse ed a decisioni migliori. Dopo l’analisi degli scostamenti verranno applicati dei modelli di data mining per

- 73 - provare a cogliere i trend delle vendite; nello specifico verrà usata la regressione lineare, l’autoregressione e dei modelli a media mobile. Il nostro problema è quindi quello di verificare la correttezza delle nostre previsioni e individuare eventuali trend per quanto riguarda la parte delle vendite.

Il secondo passaggio del processo di data mining riguarda il selezionare i dati giusti. Per far questo sono apparse necessarie alcuni aggiustamenti nella forma al data base iniziale.Con la prima modifica abbiamo uniformato l’ordine delle colonne a consuntivo e a budget in modo che le voci fossero disposte con la stessa posizione sia per l’uno che per l’altro. Inoltre come spiegato nel paragrafo precedente di questo capitolo, la data è riportata nella forma giorno/mese/anno ma osservando meglio si nota subito che i dati sono aggregati in realtà per mese/anno. Da una successiva analisi si nota che ogni prodotto appare riportato più volte nel corso dello stesso mese. Ciò significa che per ogni stesso mese sono stati venduti più lotti di ogni prodotto e che quindi i dati non sono sommati. Considerando che il nostro scopo finale è quello di analizzare l’andamento delle vendite per ogni prodotto appare opportuno aggregare

tali dati per avere ogni mese il totale delle vendite.

Per chiarezza espositiva e per facilitare i successivi calcoli, data la mole di dati, è stata creata una scheda all’interno del file Excel per ogni prodotto. Per separare i dati è bastato filtrare la colonna del prodotto usando la funzione del programma Ordina e filtra dalla A alla Z ricordandosi di espandere la sezione a tutte le celle del foglio. In questo modo i dati sono automaticamente aggregati per prodotto ed è bastato copiare e incollare in un nuovo foglio le sottotabelle ottenute. Il risultato in figura 4.5 riporta l’esempio per il Prodotto 1.

- 74 -

Lo step successivo del processo di data mining, il terzo, riguarda l’analisi dei dati. Per farlo aggregheremo materialmente le vendite dei prodotti per vedere il totale dei lotti venduti ogni mese. Useremo la funzione di Excel SOMMA.PIÙ.SE che serve proprio a sommare certi valori in base a delle condizioni. Per esempio per fare la somma dei valori a consuntivo delle vendite di gennaio per il primo prodotto la formula sarà:

=SOMMA.PIÙ.SE($D$2:$D$193;$N$2:$N$193;P2)

Nella prima parte si indica la colonna dalla quale bisogna prendere i valori per fare la somma, nella seconda parte si specifica la colonna che contiene le varie condizioni e nell’ultima parte la condizione. Nel nostro caso il mese nella forma (gg/mm/aaaa). Questa operazione sarà ripetuta per i valori delle vendite a budget e a consuntivo di entrambi gli anni di osservazione (2010 e 2011). Si completerà l’analisi con lo scostamento assoluto e con quello percentuale fra i due valori.

Un esempio di queste tabelle riassuntive per prodotto può essere vista in figura 4.6:

Figura 4.6: Tabella riassuntiva del Prodotto1

Si aggiunge inoltre una riga finale per il totale e verrà anche calcolato lo scostamento medio e la deviazione standard49 per ogni anno. Quest’ultima misura è molto utile nei calcoli statistici

anche se meno usata rispetto a media, moda e mediana. A volte la media di un insieme di dati non li rappresenta correttamente perché non coglie la volatilità che possono avere. È qui che entra in gioco la deviazione standard: essa dà un’idea di come siano distribuiti i dati nel campione rispetto alla media consentendo di sapere se essa è affidabile nel dare una rappresentazione significativa dei dati. Per capire meglio cosa significa questa misura consideriamo il caso limite, ovvero una deviazione standard di 0 che starebbe a significare che ogni dato è esattamente uguale alla media del campione. Quanto più la deviazione standard è

- 75 - vicina a 0, quanto più affidabile è la media e tanto meno volatilità è presente nel campione. Bisogna poi considerare che esistono diversi tipi di deviazione e la differenza più importante è quella fra deviazione della popolazione o del campione: la prima formula va usata nel caso stiamo usando un set di dati completo, come poteva essere per esempio la deviazione standard di tutti i prodotti. Ma poiché noi stiamo operando per creare delle tabelle riassuntive per prodotto, abbiamo a che fare con un set parziale di dati, un sottoinsieme di dati, ovvero quello che viene chiamato un campione. Il motivo per cui questa distinzione è importante è perché il calcolo per la deviazione standard cambia leggermente a seconda della natura dei dati trattati. In particolare, il modo di calcolare la varianza campionaria per quella che viene definita la Correzione di Bessel che afferma che quando si utilizza un campione di un set di dati, invece di una intera popolazione, è necessario sottrarre 1 dal conteggio dei dati utilizzati (ciò viene scritto in gergo statistico come n-1). Se non si sa cosa stiamo esaminando e non si fa la scelta giusta si potrebbe avere una deviazione standard diversa.50 Nello specifico per questo caso è stata usata la funzione DEV.ST.VALORI che calcola la deviazione standard di un campione utilizzando la Correzione di Bessel (n-1) e che permette l’utilizzo di valori di testo e valori logici VERO/FALSO.

In generale con una deviazione standard bassa, gli scostamenti del Prodotto 1 sarebbero coerenti. In questo caso in realtà esso presenta una deviazione standard di 30,2 per l’anno 2010 e 51,2 per l’anno successivo. Sono entrambi alte ma il primo anno è più coerente del secondo.