• Non ci sono risultati.

On Line Analytical Processing

N/A
N/A
Protected

Academic year: 2021

Condividi "On Line Analytical Processing"

Copied!
11
0
0

Testo completo

(1)

On Line Analytical Processing

Data Warehouse



Data Warehouse Data Warehouse (magazzino dati) (magazzino dati)



 integra in un unico schema globaleintegra in un unico schema globale ll’’informazione estratta da informazione estratta da piupiu’’ sorgenti

sorgenti



 solitamente èsolitamente è interrogabile, ma non modificabileinterrogabile, ma non modificabile

 èèunun’’architettura per larchitettura per l’’integrazioneintegrazione di database alternativa alla di database alternativa alla replicazione

replicazione ai database distribuitiai database distribuiti



 puo’puo’ essere essere



 ricostruito periodicamentericostruito periodicamente(es. tutte le notti)(es. tutte le notti)

 aggiornato periodicamenteaggiornato periodicamente(es. tutte le notti)(es. tutte le notti)



 aggiornato immediatamenteaggiornato immediatamente(es. ogni n(es. ogni n transazioni)transazioni)

(2)

Maggini, Scarselli Sistemi per basi di dati 3

OLTP vs OLAP

 OLTPOLTP (On Line Transaction Processing)

 Gestione efficiente dei dati in linea (molti operatori)

 Dati privi di errori e completi

 Dati relativi allo stato attuale dell’azienda

 Semplici da realizzare e diffusi capillarmente

 I sistemi OLTP non sono adatti all’analisi dei dati Data sources Operational

databases

OLTP vs OLAP II

 OLAPOLAP (On Line Analytical Processing)

 Pochi utentidedicati all’analisi dell’andamento dell’azienda

 I dati storicipossono essere utili per la pianificazionepianificazione e il supporto alle decisionisupporto alle decisioni

 Capire quali prodotti sono di maggiore successo

 Stabilire l’efficacia delle promozioni sui prodotti

 Grandi quantita’ di dati

 Dati spesso scorretti o incompleti

WarehouseData

(3)

Maggini, Scarselli Sistemi per basi di dati 5

OLTP vs OLAP III



Gli OLTP sono la fonte principale di informazioni per gli OLAP Gli OLTP sono la fonte principale di informazioni per gli OLAP

Operational

databases Data

Warehouse

Applicazione OLTP Applicazione OLAP

Perché OLAP



Definizione di un’interfaccia di analisi dei dati per utenti che svolgono attività di supporto alle decisioni



Ottimizzazione delle operazioni di analisi invece che di gestione in linea



Si separa l’ambiente on-line da quello di analisi



E’ l’analisi che avviene in modo interattivo on-line



Il centro è il magazzino dati magazzino dati (data warehouse - DW)

WarehouseData server

Data marts

OLAP servers

(4)

Maggini, Scarselli Sistemi per basi di dati 7

Esempi di applicazioni OLAP

 Vendite

 analisi e predizione delle vendite

 Marketing

 analisi delle ricerche di mercato

 analisi delle promozioni

 analisi dei consumi

 segmentazione dei mercati/clienti

 Produzione

 Pianificazione della produzione

 Analisi dei difetti

E’ un investimento!



Studio dell’International Data Corporation (IDC) 1996



Alti costi per l’implementazione di una efficace DW

MAMA



Ritorno di investimento medio in 3 anni del 401%



90% delle aziende con ritorno superiore al 40%



25% delle aziende con più del 600% di ritorno

 Maggiore produttività dei decision-makers

(5)

Maggini, Scarselli Sistemi per basi di dati 9

On Line Analytical Processing



OLAP

Sistemi orientati all’elaborazione elaborazione e all’analisi analisi dei dati

•Extract

•Transform

•Load

•Refresh

Serve

WarehouseData server

Data marts

Tools

Data mining reports analysis

OLAP servers

External sources

Data sources Operational

databases

Monitoring and administration Metadata

repository

Data warehousing

I sistemi OLTP (i database operativi) sono una fonte dati



Il data warehouse data warehouse server server trasferisce i dati dai database operativi al suo interno integrandoli (vista unitaria dei dati) integrandoli



I dati nella data warehouse sono di tipo storico storico- -temporale temporale

 L’importazione dei dati è asincronaasincrona(disallineamento controllato dei dati) e periodicaperiodica (riallineamento batch)

 Occorre garantire la qualitqualitàà dei datidei dati nella DW

•Extract

•Transform

•Load

•Refresh

WarehouseData server

External sources

Data sources Operational

databases

(6)

Maggini, Scarselli Sistemi per basi di dati 11

La data warehouse

Fonti dati eterogenee



Raccolte dati non gestite da DBMS (es. i log di un Web server)



Dati gestiti da DBMS di vecchia generazione (legacy legacy systems) systems



Accesso tramite connectors connectors e filtri e filtri dati forniti con il DW server



Creazione/aggiornamento tramite procedure di

 acquisizione (loadload)

 aggiornamento (refreshrefresh)

•Load

•Refresh

WarehouseData server

External sources

Data sources Operational

databases

•Export

•Filter

•Export

•Filter

•Export

•Filter

•Data access

•Data mining

•Export

Data filter & export



I data data filter filter controllano la correttezza dei dati prima dell’inserimento nella DW effettuando il data data cleaning cleaning

 eliminazione dei dati scorretti con vincoli e controlli su una o più sorgenti dati



I data export data export sono i driver che consentono l’estrazione dei dati da una certa sorgente (DBMS, documenti, ...)

 deve gestire un aggiornamento incrementale (basato sulle modifiche)

•Load

•Refresh WarehouseData

server

Data source

•Export

•Filter

(7)

Maggini, Scarselli Sistemi per basi di dati 13

Data load & refresh



Componente di acquisizione dati ( acquisizione dati (load load ) )

 inserimento iniziale dei dati

 costruzione delle strutture dati della DW

 eseguita batch quando la DW non è usata



Componente di allineamento dati allineamento dati (refresh refresh)

 aggiornamento incrementale della DW

 utilizza le modifiche sulle sorgenti dati

•Load

•Refresh WarehouseData

server

Data source

•Export

•Filter

Data refresh



Il refresh è basato su archivi archivi variazionali variazionali che registrano cancellazioni, inserimenti e modifiche



 Data shippingData shipping((snapshot)snapshot)

uso triggers nella sorgente e trasferimento dei dati modificati



 TransactionTransaction shippingshipping (copia transazionale(copia transazionale)) uso dei log e trasferimento delle transazioni



Per le cancellazioni i dati non sono eliminati nella DW per non perdere lo storico ma solo marcati

•Load

•Refresh WarehouseData

server

Data source

•Export

•Filter

Archivi variazionali

(8)

Maggini, Scarselli Sistemi per basi di dati 15

Analisi con la DW



Componente di accesso ai dati accesso ai dati

 realizza in modo efficiente operazioni complesse di analisi - join fra tabelle, ordinamenti, aggregazioni -

 operazioni come roll uproll up, drilldrill downdown e datacubedatacube

 interfaccia di facile uso per gli analisti



Componente di data data mining mining

 scoprire in modo automatico regolarità nei dati



Componente di esportazione dei dati esportazione dei dati verso altre DW (es. da un DW dipartimentale ad un DW di tutta l’azienda)

WarehouseData server

•Data access

•Data mining

•Export

I data mart



Costruire una DW aziendale completa è complesso



Si costruiscono schemi per sottoinsiemi semplici dei dati aziendali (data data mart mart) per i quali è chiaro l’obiettivo dell’analisi

 vendite

 operazioni di sportello



I dati di un data data mart mart sono rappresentati secondo uno schema schema multidimensionale multidimensionale (data ( data cube) e realizzato attraverso uno cube ) e realizzato attraverso uno schema a stella schema a stella

WarehouseData server

Data marts

(9)

Maggini, Scarselli Sistemi per basi di dati 17

Il modello multidimensionale



Il modello multidimensionale è costituito da

 fattiun concetto da analizzare (es. la vendita di un prodotto)fatti



 misuremisure

una proprieta’ atomica di un fatto (es. il numero delle vendite, l’incasso)



 dimensioniuna prospettiva lungo la quale si analizza il fatto (es. il negozio, il mese)dimensioni



Le dimensioni sono organizzate in livelli di aggregazione

regione provincia negozio

citta

anno trimestre

giorno

luogo prodotto mese tempo

categoria marca articolo

Data cube



 Data cubeData cube

 con gli assi si indicano le con gli assi si indicano le istanze delle dimensioni istanze delle dimensioni



 le celle contengono la misura le celle contengono la misura del fatto

del fatto

Quantit

Quantitàà(Luogo,Categoria,Periodo)(Luogo,Categoria,Periodo) Luog o

Categoria

Periodo

Quantità

Milano Roma

Siena Firenze Frullatori

Proiettori Televisori

Radio Maggio Aprile Febbraio Gennaio

(10)

Maggini, Scarselli Sistemi per basi di dati 19

Data cube: operazioni

 Selezione di una vista (sliceslice--andand--dicedice)

Luog o

Categoria

Period

Quantità

Gennaio

Luog o

Categoria Gennaio

Data cube: operazioni II





Aggregazione dei dati lungo una dimensione salendo nella gerarchia Aggregazione dei dati lungo una dimensione salendo nella gerarc hia (roll ( roll- -up up) )

Luog o

Categ

Milano Roma

Siena Firenze Frullatori

Proiettori Televisori

Radio Maggio Aprile Febbraio Gennaio

Luog o

Categoria iodo

Milano Roma

Siena Firenze Frullatori

Proiettori Televisori

Radio II trim

I trim

(11)

Maggini, Scarselli Sistemi per basi di dati 21

Data cube: operazioni III



Al limite l’operazione di roll-up elimina una dimensione



affinche’ sia applicabile, occorre che la misura sia additiva additiva lungo la dimensione prescelta

 quantita’ e incasso sono additive rispetto al periodo

 scorte non è additiva rispetto al periodo



L’operazione di drill-down

 i dati sono disaggregati e resi piu’ dettagliati muovendo una dimensione verso il basso della gerarchia

 è l’opposto di roll-up

Riferimenti

Documenti correlati

b) Le Parti intendono disciplinare nel presente “accordo principale per il trattamento dei dati personali – Master Data Processing Agreement” (nel seguito

Il/la sottoscritto/a è consapevole che l'eventuale rinuncia alla frequenza del corso, dopo l'invio della conferma a mezzo email o fax alla segreteria ABAP, dovrà essere comunicato

45 del GDPR, il Fornitore potrà adottare altre modalità di trasferimento dei Dati Personali conformi a quanto previsto dalla Legislazione in materia di Protezione dei Dati

III di questa Direzione Centrale, nella quale viene evidenziata la necessità di procedere all’assunzione dell’impegno di spesa in favore della Ditta in questione per il rateo

DATA WAREHOUSE: OLAP - 1 Copyright – Tutti i diritti riservati.. Database and data mining group, Politecnico

When the user-supplied map and reduce operators are de- terministic functions of their input values, our distributed implementation produces the same output as would have been

I dati sono tratti dalla libreria on-line Statlib: http://lib.stat.cmu.edu/datasets/pbc e riguardano pazienti affetti da una malattia del fegato, la cirrosi biliare primaria.. Il

•  Se tale valore viene fissato fin dal primo passo della procedura ricorsiva, l’andamento della media pesata presenta, oltre al transitorio di.. STIMA DEL