• Non ci sono risultati.

Data. Information. Knowledge. L Analisi Multidimensionale dei Dati x k estrarre informazione nascosta nei dati. Data Mining: dal dato alle decisioni

N/A
N/A
Protected

Academic year: 2022

Condividi "Data. Information. Knowledge. L Analisi Multidimensionale dei Dati x k estrarre informazione nascosta nei dati. Data Mining: dal dato alle decisioni"

Copied!
49
0
0

Testo completo

(1)

x1

x2

x3

xj

xk

xp

xm

L’Analisi

Multidimensionale dei Dati

Introduzione al Data Mining Introduzione al Introduzione al

Data

Data Mining Mining

estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche

Prof. N.Carlo Lauro Dipartimento di

Matematica e Statistica Università di Napoli Federico II clauro@unina.it

Data Data Warehouse Warehouse Operational

Operational Data Data Store Store

Data Mart

Data Mining Data Mining

Data Mart

Data Mart

Data

Information

Knowledge

Data Mining: dal dato alle decisioni

Data preparation Data preparation

Alberi decisionali

Reti neurali

Regole induttive

Cluster analysis

Algoritmi genetici

(2)

Le origini del Data Mining

Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (codici a barre , transazioni tramite carta di credito, dati da satellite o da sensori remoti, servizi on line..)

Sviluppo delle tecnologie per l’immagazzinamento dei dati, tecniche di gestione di database e data warehouse, supporti piu’ capaci piu’ economici (dischi, CD) hanno consentito l’archiviazione di grosse quantita’ di dati

V olumi di dati che superano di molto la capacità di analisi dei metodi tradizionali di information retrieval.

DATA MINING

DBMS STATISTICA

MULTIVARIATA

MACHINE LEARNING

Esigenza di tecniche e strumenti con la capacità di assistere in modo intelligente e

automatico i Decision Makers nell'estrazione di elementi di conoscenza dai dati.

Queste tecniche e strumenti prendono il nome di Data Mining e costituiscono il cuore del Knowledge Discovery in Databases (KDD). Il DM rappresenta un nuovo capitolo della Statistica computazionale nato dall’integrazione di tecnologie proprie del machine learning e dei moderni DBMS con l’analisi statistica multivariata.

Le fasi del KDD

Il processo di estrazione della conoscenza in un database (Knowledge Discovery in Database) consiste in una sequenza iterativa ed interattiva delle seguenti fasi:

selezione dei dati: i dati significativi per l’obiettivo del lavoro di analisi sono recuperati dal database;

pulizia dei dati: si agisce sui dati alterati, errati, dispersi, o irrilevanti, recuperandoli o eliminandoli;

integrazione dei dati: le fonti di dati multiple o eterogenee possono essere integrate in una unica fonte;

trasformazione e codifica dei dati: i dati sono trasformati e consolidati in una forma appropriata per la ricerca, grazie all’esecuzione di operazioni di aggregazione, sintesi e codifica;

data mining: è la fase essenziale dove metodi intelligenti sono applicati allo scopo di estrarre patterns dai dati;

valutazione dei patterns: si devono identificare i patterns veramente interessanti che rappresentano la conoscenza, basandosi su delle misure di interesse;

presentazione della conoscenza: le tecniche di visualizzazione e di

rappresentazione sono usate per presentare la conoscenza scoperta

(3)

Ambiti applicativi del Data Mining

– Customer profiling – Market segmentation – Affinità modelli d’acquisto – Database marketing

– Credit scoring e analisi dei rischi – Scoperta di frodi

– Analisi testuale – Click stream analysis

……….

1000 2000 2000 3456 6577 2000 56600 78797 990 90091 87885 4565 12854

12090

123599

279878 999 109988 1987363 10928783 33345 67398 320793 39384 320983 57583 398 209 8378373 10076 354802 2973673 3939399 306145 01910 46458 817262

Le principali tecniche del Data Mining

METODI DI PRIMA GENERAZIONE

• Metodi fattoriali

• Cluster analysis

• Modelli di regressione e classificazione METODI DI SECONDA GENERAZIONE

• Reti Neurali

• Alberi decisionali

• Regole di associazione

• Algoritmi genetici

• Marcaggio semantico

• PLS Path Modelling

……….

TECNICHE DI VISUALIZZAZIONE DEI DATI

Analisi

Multidimensionale dei Dati

(4)

TIPI DI INFORMAZIONI OTTENUTE

• FATTORI STRUTTURALI

identificazione di variabili latenti non osservabili direttamente

• RAGGRUPPAMENTI (CLUSTER)

raggruppamenti di elementi in classi non definite a priori

CLASSIFICAZIONI

raggruppamenti di elementi in classi secondo un modello predefinito

• ASSOCIAZIONI

insieme di regole che specifica l’occorrenza congiunta di due (o piu’) elementi

• SEQUENZE

possibilita’ di stabilire concatenazioni temporali di eventi

• TENDENZE (TREND)

scoperta di andamenti temporali caratteristici con valenza previsionale

La Statistica descrittiva consente di rappresentare e sintetizzare i dati relativi ad una (due) variabile (i) che derivano dall’osservazione di un fenomeno con tecniche semplici e di immediata comprensione.

L’Analisi multidimensionale dei dati ne costituisce la naturale generalizzazione quando questi dati riguardino più variabili o dimensioni.

• La Statistica esplorativa multidimensionale

(5)

Non si tratta più solo di sintetizzare sintetizzare o presentare presentare i dati raccolti ma di approfondire gli aspetti strutturali e fisiologici aspetti strutturali e fisiologici di sistemi complessi mediante l’impiego di metodi

che consentono di palesare aspetti non osservabili direttamente con gli strumenti della statistica classica

• La Statistica esplorativa multidimensionale

• L’Analisi Multidimensionale dei Dati consente...

… il trattamento simultaneo di numerose variabili ed osservazioni

… il trattamento simultaneo di numerose variabili ed osservazioni

… la visualizzazione di associazioni complesse

… la visualizzazione di associazioni complesse

… la individuazione di fattori multidimensionali

… la individuazione di fattori multidimensionali

… la costruzione di tipologie di osservazioni

… la costruzione di tipologie di osservazioni

… l’analisi di fenomeni evolutivi complessi

… l’analisi di fenomeni evolutivi complessi

… l’identificazione di modelli

… l’identificazione di modelli

ma altresì …...

(6)

Le relazioni tra le va- riabili, tra le unità e tra le une e le altre …

… A)

Metodi fattoriali

Le Medie e le Dev. Standard

Le correlazioni

cereali riso patate zucchero verdure vino carne latte burro uova Belgio 72,20 4,20 98,80 40,40 103,20 20,90 102,00 80,00 7,70 14,20 Danimarca 70,50 2,20 57,00 39,50 50,00 22,00 105,80 145,20 4,10 14,30 Germania 71,30 2,30 74,10 37,10 83,10 22,80 97,20 90,70 6,90 14,80 Grecia 109,80 5,40 90,00 30,00 229,50 25,30 77,10 63,10 0,90 11,30 Spagna 71,40 5,80 107,80 26,80 191,70 43,00 102,10 98,40 0,60 15,30 Francia 73,00 4,30 78,20 34,10 95,00 64,50 110,50 98,90 8,90 15,00 Irlanda 93,40 3,20 151,50 34,80 55,00 3,90 105,00 185,90 3,40 11,40 Italia 110,20 4,80 38,60 27,90 181,90 61,60 88,00 65,00 2,40 11,10 Olanda 54,60 5,00 86,70 39,70 99,00 14,00 89,40 136,20 5,40 10,70 Portogallo 86,00 5,70 106,60 29,40 100,00 57,00 75,50 96,00 1,50 7,70 RegnoUnito 74,30 4,50 94,10 39,80 60,00 10,40 74,40 129,30 3,20 10,80 Austria 68,70 4,20 62,60 37,10 81,90 34,30 93,40 121,30 4,30 13,40 Finlandia 70,10 5,40 61,60 35,70 52,60 10,20 65,00 208,40 5,80 10,90 Islanda 79,70 1,90 50,20 54,90 50,00 6,20 71,70 205,60 4,60 11,30 Norvegia 76,90 3,50 73,20 37,30 48,30 6,60 54,90 176,50 2,10 11,30 Svezia 69,30 4,30 70,00 37,50 48,50 12,30 60,50 154,10 5,70 12,90

I dati

Mean St. dev.

cereali 78,213 14,452

riso 4,169 1,203

patate 81,313 26,480

zucchero 36,375 6,403

verdure 95,606 55,014

vino 25,938 19,689

carne 85,781 17,049

latte 128,413 46,031

burro 4,219 2,352

uova 12,275 2,014

cereali riso patate zucchero verdure vino carne latte burro uova

cereali 1 0,135 0,060 -0,408

0,558

0,286 -0,067 -0,342

-0,519

-0,342

riso 0,135 1 0,231

-0,690 0,568

0,419 -0,155 -0,385 -0,336 -0,308

patate 0,060 0,231 1 -0,285 0,070 -0,133 0,291 -0,041 -0,195 -0,103

zucchero -0,408

-0,690

-0,285 1

-0,643 -0,615

-0,185

0,583

0,426 0,016

verdure

0,558 0,568

0,070

-0,643

1

0,540

0,222

-0,755

-0,458 0,065

vino 0,286 0,419 -0,133

-0,615 0,540

1 0,395

-0,695

-0,061 0,109

carne -0,067 -0,155 0,291 -0,185 0,222 0,395 1 -0,410 0,288

0,600

latte -0,342 -0,385 -0,041

0,583 -0,755 -0,695

-0,410 1 0,099 -0,221

burro

-0,519

-0,336 -0,195 0,426 -0,458 -0,061 0,288 0,099 1 0,445

(7)

Il cerchio dele correlazioni

L’analisi in

componenti principali

La mappa fattoriale

Variables (axes F1 and F2: 62 %)

cerealir i s o patate

zucchero verdure

vino carne

latte burro

uova

- 1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1

- 1 -0,5 0 0,5 1

- - a x i s F 1 ( 3 9 % ) - - >

Variables and observations (axes F1 and F2: 62 %)

Belgio Danimarca

Germania

Grecia Spagna Francia

Irlanda

Italia Olanda

Portogallo RegnoUnito

Austria

Finlandia Islanda

Norvegia

Svezia cerealir i s o patate

zucchero verdure

vino carne

latte burro

u o v a

-1,5 -1 -0,5 0 0,5 1 1,5 2

-2 -1,5 -1 -0,5 0 0,5 1 1,5 2

- - a x i s F 1 ( 3 9 % ) - - >

Eigenvalues

F1

F 2

F3 F4

F 5F 6F7 F 8 F 9 F 1 0

0,0 1,0 2,0 3,0 4,0 5,0

F1 F2

Belgio -0,225 1,961

Danimarca -1,522 1,478 Germania -0,852 2,124

Grecia 3,452 -1,432

Spagna 2,921 0,952

Francia 0,676 3,077

Irlanda -0,580 -0,624

Italia 3,419 -0,312

Olanda -0,790 -0,044

Portogallo 2,398 -1,956 RegnoUnito -0,704 -1,170

Austria -0,181 0,887

Finlandia -1,483 -1,433 Islanda -3,575 -0,952 Norvegia -1,465 -2,016

Svezia -1,489 -0,539

Cli scores

Le classi di equivalenza delle unità statistiche rappresentabili mediante strutture ad albero o grafi …

… B)

Metodi di

classificazione

(8)

I dati

Le distanze “alimentari”

cereali riso patate zucchero verdure vino carne latte burro uova Belgio 72,20 4,20 98,80 40,40 103,20 20,90 102,00 80,00 7,70 14,20 Danimarca 70,50 2,20 57,00 39,50 50,00 22,00 105,80 145,20 4,10 14,30 Germania 71,30 2,30 74,10 37,10 83,10 22,80 97,20 90,70 6,90 14,80 Grecia 109,80 5,40 90,00 30,00 229,50 25,30 77,10 63,10 0,90 11,30 Spagna 71,40 5,80 107,80 26,80 191,70 43,00 102,10 98,40 0,60 15,30 Francia 73,00 4,30 78,20 34,10 95,00 64,50 110,50 98,90 8,90 15,00 Irlanda 93,40 3,20 151,50 34,80 55,00 3,90 105,00 185,90 3,40 11,40 Italia 110,20 4,80 38,60 27,90 181,90 61,60 88,00 65,00 2,40 11,10 Olanda 54,60 5,00 86,70 39,70 99,00 14,00 89,40 136,20 5,40 10,70 Portogallo 86,00 5,70 106,60 29,40 100,00 57,00 75,50 96,00 1,50 7,70 RegnoUnito 74,30 4,50 94,10 39,80 60,00 10,40 74,40 129,30 3,20 10,80 Austria 68,70 4,20 62,60 37,10 81,90 34,30 93,40 121,30 4,30 13,40 Finlandia 70,10 5,40 61,60 35,70 52,60 10,20 65,00 208,40 5,80 10,90 Islanda 79,70 1,90 50,20 54,90 50,00 6,20 71,70 205,60 4,60 11,30 Norvegia 76,90 3,50 73,20 37,30 48,30 6,60 54,90 176,50 2,10 11,30 Svezia 69,30 4,30 70,00 37,50 48,50 12,30 60,50 154,10 5,70 12,90

Belgio Danimarca Germania Grecia Spagna Francia Irlanda Italia Olanda PortogalloRegnoUnito Austria Finlandia Islanda Norvegia Svezia

Belgio 0 3,260 2,028 5,342 4,452 2,710 4,436 5,540 2,879 5,364 3,362 2,473 4,527 5,322 4,786 3,503

Danimarca 3,260 0 2,017 6,243 5,280 3,890 4,503 5,740 3,648 5,988 3,570 2,167 4,336 3,866 3,845 3,417

Germania 2,028 2,017 0 5,805 4,996 2,987 4,723 5,493 3,575 5,866 3,690 2,292 4,659 4,744 4,364 3,342

Grecia 5,342 6,243 5,805 0 3,981 6,104 5,723 3,017 5,455 3,885 4,705 4,948 5,938 7,343 5,399 5,617

Spagna 4,452 5,280 4,996 3,981 0 4,596 5,495 4,672 4,702 4,616 4,835 3,919 5,863 7,771 5,771 5,399

Francia 2,710 3,890 2,987 6,104 4,596 0 5,731 5,115 4,286 5,592 4,928 2,962 5,310 6,525 5,948 4,601

Irlanda 4,436 4,503 4,723 5,723 5,495 5,731 0 6,668 4,446 5,191 3,629 4,604 4,944 5,553 4,391 4,719

Italia 5,540 5,740 5,493 3,017 4,672 5,115 6,668 0 5,806 4,034 5,336 4,490 6,012 7,282 5,805 5,753

Olanda 2,879 3,648 3,575 5,455 4,702 4,286 4,446 5,806 0 4,402 2,078 2,392 2,801 4,657 3,499 2,641

Portogallo 5,364 5,988 5,866 3,885 4,616 5,592 5,191 4,034 4,402 0 3,750 4,412 4,871 6,978 4,697 4,945

RegnoUnito 3,362 3,570 3,690 4,705 4,835 4,928 3,629 5,336 2,078 3,750 0 2,568 2,657 4,048 2,054 2,081

Austria 2,473 2,167 2,292 4,948 3,919 2,962 4,604 4,490 2,392 4,412 2,568 0 3,337 4,542 3,417 2,521

Finlandia 4,527 4,336 4,659 5,938 5,863 5,310 4,944 6,012 2,801 4,871 2,657 3,337 0 4,310 2,521 1,867

Islanda 5,322 3,866 4,744 7,343 7,771 6,525 5,553 7,282 4,657 6,978 4,048 4,542 4,310 0 3,552 3,882

Norvegia 4,786 3,845 4,364 5,399 5,771 5,948 4,391 5,805 3,499 4,697 2,054 3,417 2,521 3,552 0 2,034

Svezia 3,503 3,417 3,342 5,617 5,399 4,601 4,719 5,753 2,641 4,945 2,081 2,521 1,867 3,882 2,034 0

0,0 10,00 20,00 30,00 40,00 50,00 60,00

Svezia Finlandia

Norvegia RegnoUnito Olanda Islanda Irlanda Austria Germania Danimarca

Francia Belgio Portogallo

Italia Grecia Spagna

Dissimilarità Dendrogramma

Histogram of node levels

0,000 10,000 20,000 30,000 40,000 50,000 60,000

Dissimilarity

Cluster cereali riso patate zucchero verdure vino carne latte burro uova

Cluster 1 18,921 1,165 -2,513 -8,142 105,427 17,363 3,285 -52,913 -2,919 0,292 Cluster 2 -6,888 -0,119 0,950 0,763 -11,581 4,800 7,744 -16,213 1,031 0,337 Cluster 3 -0,333 -0,509 -0,012 3,665 -44,726 -18,098 -14,361 57,688 0,101 -0,715

La cluster analysis

I centri delle classi

(9)

… C)

… le relazioni di dipendenza per predire classi, preferenze, valori

Metodi esplicativi

191

1

2 3

6 7

12 13 14 15

24 25

48 49

29

voto basso

162 età

30-35 anni +35 anni

diploma scient.

tecn.

prof.

129 residenza altra provincia

40 genere femmine

18 economia tesi aziend.

8

voto basso voto alto

10

22

voto basso

89

voto alto

33 piano st.

pubb., prof.

2

voto basso voto alto

31

% BC campione base: 74.35%

% BC campione test: 69.47%

Esempio: Indagine sui laureati

(10)

Le

Le

ipotesi

ipotesi

Sistema osservato

La Formazione dei Dati

La Formazione dei Dati

Øscelta delle osservazioni Øscelta delle variabili Øcodifica dei dati Ømatrice dei dati

Ømatrice di correlazione/associazione Ømatrice di distanze (similarità) Matrice

Datidei

………

••

• . .•

M1 M2 M3 M4

Rappresentazioni in

Rappresentazioni in

Analisi dei Dati

Analisi dei Dati

Rappresentazioni Fattoriali Ø Analisi delle Componenti Principali Ø Analisi delle Corrispondenze Ø Analisi Discriminante Ø Analisi Canonica

Classificazione Ø Classificazione Gerarchica Ø Partizioni

Classi di equivalenza

livello di similarità

a2

a1

interazione tra colonne tipologie di

righe

interazione righe × colonne

• Le basi dell’AMD

Le

Le

ipotesi

ipotesi

Sistema osservato

La Formazione dei Dati

La Formazione dei Dati

Øscelta delle osservazioni Øscelta delle variabili Ø

codifica dei dati

Ømatrice dei dati

Ømatrice di correlazione/associazione Ømatrice di distanze (similarità) Matrice

Datidei

………

••

• . .•

M1 M2 M3 M4

Codifica dei dati

Codifica dei dati

Livello di quantificazione Ø var. qualitative (nominali) Ø var. semiquantitative (ordinali) Ø var. quantitative (discrete/continue)

Trasformazioni

• Le basi dell’AMD

Omogeneizzazione Ø standardizzazione

Ø categorizzazione (cod. disgiuntiva)

(11)

Le

Le

ipotesi

ipotesi

Sistema osservato

La Formazione dei Dati

La Formazione dei Dati

Øscelta delle osservazioni Øscelta delle variabili Øcodifica dei dati Ømatrice dei dati

Ø matrice di correlazione associazione

Ømatrice di distanze (similarità) Matrice

Datidei

………

••

• . .•

M1 M2 M3 M4

Associazioni tra variabili

• Le basi dell’AMD

•matrice di correlazione (associazione)

pp p

ji ij

p

c c c

c c c

..

..

..

..

..

..

1

1 1

1 ……….. p 1 .

.. . .. .. p

cij= cji cij

Coeff. di correlaz. Bravaisr Indice di cograduazioneρ Contingenza quadratica media ϕ2

Le

Le

ipotesi

ipotesi

Sistema osservato

La Formazione dei Dati

La Formazione dei Dati

Øscelta delle osservazioni Øscelta delle variabili Øcodifica dei dati Ømatrice dei dati

Ømatrice di correlazione/associazione

Ømatrice di distanze (similarità)

Matrice Datidei

………

••

• . .•

M1 M2 M3 M4

Relazioni tra le unità

• Le basi dell’AMD

•matrice di distanze (similarita’ )

•dii= 0, dij≥ 0

•dij= dji

•dij ≤ dih +djh (sij= 1-dij) 0

..

..

..

..

..

..

0

1

1

n ji

ij n

d d

d d 1 ……….. n 1 .

. .. .. .. n

(12)

Particolare rilevanza assumono quindi le fasi di preparazione preparazione e codifica

codifica dei dati, e la definizione di regole di interpretazione regole di interpretazione e di validazione

validazione delle rappresentazioni fornite dalle tecniche utilizzate.

• La Statistica esplorativa multidimensionale

• La matrice dei dati:

1 2 j p

12

X =

i

x

ij

n

n punti in R

p

p punti in R

n

(13)

• Rappresentazione geometrica delle unità statistiche

i

1

i

2

i

3

x y 1 2

4 5 5 2

Spazio degli individui

( ) ( )

( x x ) ( y y ) 1 1 2

18 9 9 y y x x

2 2 1 2 2 1

2 3 2 2 3 2

= +

=

− +

= +

=

− +

29 2 5

2 2

2

3

= + =

i

Lunghezza del vettore Lunghezza del vettore

esprime la taglia dell’individuo

Distanza tra unità Distanza tra unità

esprime la dissosomiglianza tra unità

Se le variabili sono eterogenee si rende necessaria una misura di distanza ponderata

3 2 2 1

i , i i

i ≈ ≠

x y

i

1

i

2

i

3

[

5, 2

] 3 individui in R

2

R

p

• Rappresentazione geometrica delle variabili statistiche

Spazio delle variabili i

1

i

2

i

3

x y

4 5 1 2 5 2

Lunghezza del vettore Lunghezza del vettore

esprime la variabilità del carattere

(per variabili centrate è ladevianza)

30 5 2 1

x

2

=

2

+

2

+

2

= Angolo tra vettori

Angolo tra vettori esprime la correlazione tra le variabili

( per variabili centrate è il coefficienter)

65 , 45 0 30

2 5 5 2 4 1

y x

y x y

x

y cos x

2 i 2 i

i i

× =

× +

× +

= ×

=

=

θ ∑ ∑

cos( 90°) = 0

vettori

ortogonali

(var. incorrelate

cos( 0°) =|1|⇒

vettori

collineari

(var. max correlate)

x = [ 1,2,5 ]

y

=

[

4,5,2

] θ

2 variabili in R

3

i

1

i

2

i

3

(14)

• Richiami sulla distanza euclidea

Proprietà di una Distanza Proprietà di una Distanza

Teorema di Pitagora e Distanza Euclidea Teorema di Pitagora e Distanza Euclidea

( ) ( ) ( ) ( ) ( ) ( ) ( ) ,i i d ,i i d i , i

d

i , i d i ,i d

0 i ,i d

0 i ,i d

′′

+ ′

≤ ′′

• ′

=

′ ≥

=

i

x

1

x

2

i’

i’’

P2

P1

x y

x1 x2 y1

y2

( ) [ ] [ 2 2 1 ] 2

1 2 2

1 P x x y y

P

d = − + −

Nel caso di più variabili x, y, …, z

( ) [ ] [ ] 2 [ 2 1 ] 2

1 2 2

1 2 2

1 P x x y y z z

P

d = − + − + K + −

Necessità di introdurre un sistema di pesi es.:

1 σ

i

1

i

2

i

n

v

1

v

j

v

p

Ricerca delle nuove variabili di sintesi (fattori)

più correlate con le variabili originarie e tra loro non correlate ...

,

2

1

ξ ξ

( )

ξ =

= r V ,

α

max CRIT

2 j

ξ

α

= u

α1

V

1

+ u

α2

V

2

+ ... + u

αp

V

p

I Criteri dell’ AF (Hotelling 1936)

Spazio delle variabili

I coefficienti u

α

esprimono il ruolo delle variabili originarie nella costruzione delle variabili di sintesi, risultando preziosi per la interpretazione di queste ultime

ξ

1

ξ

2

(15)

i

1

i

2

i

n

v

1

v

j

v

p

Ricerca di piani (sottospazi), generati da assi ortogonali di lunghezza unitaria u

1

,

,

u

2

… , che consentano lai migliore visualizzazione dell’immagine della nube delle unità

I Criteri dell’ AF (Pearson 1904)

Spazio delle unità

i

h

u

1

u

2

•i1

•i2

( ) i , i max

d CRIT

i i

2

′ =

= ∑

( ) i , i d ( ) ,

d

2

′ ≈

2

Le rappresentazioni sono valide se le distanze tra punti non si modificano molto in proiezione

Gli assi u

α

evidenziano le direzioni di massima variabilità (informazione) della nuvola delle unità statistiche

ih

• Esempio ACP: i consumi alimentari

Matrice dei dati: 16 Paesi, 10 variabili continue Matrice dei dati: 16 Paesi, 10 variabili continue

Cereali Riso Patate Zucchero Verdure Vino Carne Latte Burro Uova

Belgio 72,2 4,2 98,8 40,4 103,2 20,9 102,0 80,0 7,7 14,2

Danimarca 70,5 2,2 57,0 39,5 50,0 22,0 105,8 145,2 4,1 14,3

Germania 71,3 2,3 74,1 37,1 83,1 22,8 97,2 90,7 6,9 14,8

Grecia 109,8 5,4 90,0 30,0 229,5 25,3 77,1 63,1 0,9 11,3

Spagna 71,4 5,8 107,8 26,8 191,7 43,0 102,1 98,4 0,6 15,3

Francia 73,0 4,3 78,2 34,1 95,0 64,5 110,5 98,9 8,9 15,0

Irlanda 93,4 3,2 151,5 34,8 55,0 3,9 105,0 185,9 3,4 11,4

Italia 110,2 4,8 38,6 27,9 181,9 61,6 88,0 65,0 2,4 11,1

Olanda 54,6 5,0 86,7 39,7 99,0 14,0 89,4 136,2 5,4 10,7

Portogallo 86,0 5,7 106,6 29,4 100,0 57,0 75,5 96,0 1,5 7,7

RegnoUnito 74,3 4,5 94,1 39,8 60,0 10,4 74,4 129,3 3,2 10,8

Austria 68,7 4,2 62,6 37,1 81,9 34,3 93,4 121,3 4,3 13,4

Finlandia 70,1 5,4 61,6 35,7 52,6 10,2 65,0 208,4 5,8 10,9

Islanda 79,7 1,9 50,2 54,9 50,0 6,2 71,7 205,6 4,6 11,3

Norvegia 76,9 3,5 73,2 37,3 48,3 6,6 54,9 176,5 2,1 11,3

Svezia 69,3 4,3 70,0 37,5 48,5 12,3 60,5 154,1 5,7 12,9

(16)

Cere Riso Pata Zucc Verd Vino Carn Latt Burr Uova

Cere 1,00

Riso 0,13 1,00 Pata 0,06 0,23 1,00 Zucc -0,41 -0,69 -0,28 1,00 Verd 0,56 0,57 0,07 -0,64 1,00 Vino 0,29 0,42 -0,13 -0,62 0,54 1,00 Carn -0,07 -0,15 0,29 -0,19 0,22 0,39 1,00 Latt -0,34 -0,39 -0,04 0,58 -0,75 -0,69 -0,41 1,00 Burr -0,52 -0,34 -0,19 0,43 -0,46 -0,06 0,29 0,10 1,00 Uova -0,34 -0,31 -0,10 0,02 0,07 0,11 0,60 -0,22 0,45 1,00

• Esempio ACP: i consumi alimentari

Matrice di correlazione Matrice di correlazione

• Esempio ACP: i consumi alimentari

La variabilità sui nuovi fattori: gli autovalori La variabilità sui nuovi fattori: gli autovalori

Num Autov. % % cum. Istogramma

1 3.8920 38.92 38.92

•••••••••••••••••••••••••••••••••••••••

2 2.2966 22.97 61.89

•••••••••••••••••••••••

3 1.2126 12.13 74.01

••••••••••••

4 0.9672 9.67 83.68

••••••••••

5 0.5595 5.59 89.28

••••••

6 0.4064 4.06 93.34

••••

7 0.3050 3.05 96.39

•••

8 0.2148 2.15 98.54

••

9 0.1091 1.09 99.63

10 0.0367 0.37 100.00

(17)

• Esempio ACP: i consumi alimentari

Autovettori Autovettori

1 2 3 4 5

Cere – cereali 0.30 0.24 0.18 -0.61 -0.27 Riso – riso 0.35 0.18 -0.13 0.62 0.09 Pata – patate 0.11 0.05 -0.86 -0.10 -0.15 Zucc – zucchero -0.44 -0.01 0.15 -0.18 -0.05 Verd – verdure 0.45 -0.03 0.11 -0.13 0.37 Vino – vino 0.37 -0.23 0.27 0.17 -0.46 Carn – carne 0.12 -0.54 -0.29 -0.26 -0.20 Latt – latte -0.40 0.26 -0.14 0.02 0.02 Burr – burro -0.25 -0.42 0.08 0.28 -0.42 Uova – uova -0.04 -0.57 -0.01 -0.09 0.58

• Esempio ACP: i consumi alimentari

Coordinate sui nuovi assi

Coordinate sui nuovi assi

• Es.: Belgio sul primo fattore

0,30 0,35 0,11 -0,44 0,45 0,37 0,12 -0,40 -0,25 -0,04

×

= (-0,42 ×0,30) + (0,03 ×0,35) + (0,66 ×0,11) + … + (0,96 ×-0,04) -0,42 0,03 0,66 0,63 0,14 -0,26 0,95 -1,05 1,48 0,96

72,2 4,2 98,8 40,4 103,2 20,9 102,0 80,0 7,7 14,2 Cere Riso Pata Zucc Verd Vino Carn Latt Burr Uova

= - 0,23

Valori iniziali

Dati standardizzati

Primo autovettore

Coordinata del BELGIO sul primo fattore

(18)

• Esempio ACP: i consumi alimentari

Coordinate sui nuovi assi Coordinate sui nuovi assi

1 2 3 4 5

BELGIO -0.23 -1.96 -0.62 0.10 -0.12

DANIMARCA -1.52 -1.48 0.43 -1.00 0.28 GERMANIA -0.85 -2.12 0.30 -0.64 0.12

GRECIA 3.45 1.43 0.32 -1.14 0.78

SPAGNA 2.92 -0.95 -1.23 0.39 1.72

FRANCIA 0.68 -3.08 0.32 0.77 -1.10 IRLANDA -0.58 0.62 -2.93 -1.78 -0.81

ITALIA 3.42 0.31 2.27 -0.75 -0.57

OLANDA -0.79 0.04 -0.67 1.36 0.05

PORTOGALLO 2.40 1.96 -0.42 0.83 -1.55 REGNO UNITO -0.70 1.17 -0.54 0.25 0.01 AUSTRIA -0.18 -0.89 0.48 0.42 0.21 FINLANDIA -1.48 1.43 0.26 1.63 0.05 ISLANDA -3.58 0.95 1.35 -1.36 -0.14 NORVEGIA -1.46 2.02 0.29 -0.07 0.63

SVEZIA -1.49 0.54 0.39 0.99 0.46

• Esempio ACP: i consumi alimentari

L’interpretazione dei fattori: correlazioni tra variabili iniziali e componenti principali L’interpretazione dei fattori: correlazioni tra variabili iniziali e componenti principali

Ce Ri Pa Zu Ve Vi Ca La Bu Uo 1 2 3 4 5

Ce 1,00 Ri 0,13 1,00 Pa 0,06 0,23 1,00 Zu -0,41 -0,69 -0,28 1,00

Ve 0,56 0,57 0,07 -0,64 1,00

Vi 0,29 0,42 -0,13 -0,62 0,54 1,00 Ca -0,07 -0,15 0,29 -0,19 0,22 0,39 1,00 La -0,34 -0,39 -0,04 0,58 -0,75 -0,69 -0,41 1,00 Bu -0,52 -0,34 -0,19 0,43 -0,46 -0,06 0,29 0,10 1,00 Uo -0,34 -0,31 -0,10 0,02 0,07 0,11 0,60 -0,22 0,45 1,00

1 0,59 0,69 0,21 -0,87 0,89 0,73 0,24 -0,79 -0,50 -0,07 1,00 2 0,36 0,27 0,07 -0,01 -0,05 -0,35 -0,81 0,39 -0,64 -0,86 0,00 1,00 3 0,19 -0,14 -0,95 0,16 0,12 0,30 -0,32 -0,16 0,09 -0,01 0,00 0,00 1,00 4 -0,60 0,61 -0,10 -0,18 -0,13 0,17 -0,25 0,02 0,28 -0,09 0,00 0,00 0,00 1,00 5 -0,20 0,07 -0,11 -0,04 0,28 -0,34 -0,15 0,02 -0,31 0,43 0,00 0,00 0,00 0,00 1,00

(19)

• L’interpretazione dei fattori

α α α

= α

α

λ

= ⋅

=

λ ∑

n 2i i i 2i

1 I

i

c Ca p

; c p

O

Un autovalore

λα

è una espressione della capacità informativa dei singoli fattori. Esso misura la variabilità della nuvola dei punti lungo l’asse α - esimo

Un

autovalore λα

è una espressione della capacità informativa dei singoli fattori. Esso misura la variabilità della nuvola dei punti lungo l’asse α - esimo

e

i

p

i

c

iα

u

α

u

1

u

m

Il contributo

assoluto Ca

misura l’apporto di ogni punto alla variabilità dell’asse.

Il contributo

assolutoCaiα

misura l’apporto di ogni punto alla variabilità dell’asse.

I punti con un contributo molto grande, es.maggiore di 0.7, vanno posti in supplementare

• Una misura della qualità della rappresentazione

e2

e1

~

e

~

1

e2

O

θ

1

θ

2

2 2 2

i i i

x cos α = xˆ α

Il coseno al quadrato è una misura della qualità della rappresentazione dei punti-unità sul sottospazio generato dai fattori scelti:

quanto più risulta prossimo ad 1 tanto più il punto avrà conservato, in proiezione, la distanza dall’origine che aveva nello spazio iniziale, e risulterà quindi ben rappresentato.

Il

coseno al quadrato

è una misura della qualità della rappresentazione dei punti-unità sul sottospazio generato dai fattori scelti:

quanto più risulta prossimo ad

1

tanto più il punto avrà conservato, in proiezione, la distanza dall’origine che aveva nello spazio iniziale, e risulterà quindi ben rappresentato.

Due punti-unità possono trovarsi vicini nello spazio di proiezione non perché lo siano nello spazio iniziale di riferimento ma solo per gli effetti distorsivi dell’operazione di proiezione

e3

e3

~

(20)

(1) (2) (3) (4) (5) (1) (2) (3) (4) (5)

Belgio 0,30 12,30 0,70 0,20 11,40 0,02 0,69 0,02 0,01 0,14

Danimarca 5,40 4,20 2,20 5,40 9,20 0,41 0,20 0,06 0,11 0,10

Germania 2,30 11,60 2,10 1,10 0,30 0,19 0,59 0,06 0,02 0,00

Grecia 26,70 1,20 5,00 2,80 0,30 0,85 0,02 0,05 0,02 0,00

Spagna 13,10 6,40 4,70 1,40 45,30 0,51 0,15 0,06 0,01 0,25

Francia 0,30 20,10 0,00 2,30 7,90 0,02 0,81 0,00 0,04 0,07

Irlanda 0,00 0,10 33,40 38,30 0,80 0,00 0,00 0,49 0,46 0,01

Italia 15,40 0,20 28,80 0,90 2,70 0,57 0,00 0,35 0,01 0,01

Olanda 0,70 0,00 4,30 10,50 1,60 0,09 0,00 0,18 0,36 0,03

Portogallo 8,90 10,80 6,00 0,40 8,20 0,43 0,33 0,10 0,01 0,06

Gr. Bret. 0,20 3,40 2,00 0,10 0,40 0,04 0,52 0,16 0,01 0,01

Austria 0,40 1,40 0,70 1,50 2,40 0,15 0,30 0,08 0,15 0,12

Finlandia 2,30 7,60 0,30 16,50 0,00 0,16 0,33 0,01 0,31 0,00

Islanda 19,60 6,70 9,50 10,60 0,00 0,61 0,13 0,10 0,09 0,00

Norvegia 1,50 12,70 0,20 0,00 9,10 0,13 0,66 0,00 0,00 0,11

Svezia 2,90 1,50 0,10 7,90 0,30 0,37 0,12 0,01 0,27 0,01

Contributi assoluti delle unità all'inerzia degli assi principali

Coseni al quadrato degli angoli tra i vettori e gli assi principali

• Esempio i consumi alimentari

• I diversi tipi di rappresentazione

Visualizzazione nel miglior spazio

ridotto

Metodi

Raggruppamenti nello spazio

completo

Metodi di

Classificazione Automatica

(21)

• Matrici e metodi di AMD

Strategia di AMD

Matrice strutturata

Analisi nello spazio delle

variabili Per riga SI NO

Anal. Discrimin.

Segmentazione SI

Analisi simmetrica

NO

Regress.PLS Conjoint Anal.

An. Non Simm Corrisp.

NO Correl. Canon.

Corrisp . Multi.

An. Matrici 3D SI

Cluster Anal.

Scaling Multid NO

Comp.Princ.

An. Corrisp.

SI

Analisi confermative

Analisi esplorative

• Variabili qualitative

• Variabili ordinali

• Variabili quantitative

Classificazione automatica

I dati

Tabelle individui-variabili numeriche

• Tabelle di contingenza

• Tabelle di presenza-assenza

Si ipotizza la presenza di raggruppamenti tra le unità oppure

oppure

Se ne richiede la determinazione

La identificazione delle classi si ottiene mediante algoritmi iterativi basati su una serie di operazioni elementari ripetute in maniera ricorsiva.

Insieme di procedure (algoritmi) che si prefiggono di classificare o raggruppare individui in classi tali che:

- gli individui all'interno di una classe siano molto simili

- ogni classe sia relativamente distinta dalle altre

(22)

I metodi di Classificazione automatica

Obiettivo Obiettivo

Obiettivo

Definire una o più partizioni a partire dall’insieme dei punti considerati

Definire una o più partizioni a partire dall’insieme dei punti considerati

Problema

Numero delle partizioni possibili

Numero delle partizioni possibili

Es.: 4 elementi (A,B,C,D) e 2 gruppi Es

Es.: 4 elementi (A,B,C,D) e 2 gruppi .: 4 elementi (A,B,C,D) e 2 gruppi

(A) (B,C,D) (B) (A,C,D) (C) (A,B,D) (D) (A,B,C) (A,B) (C,D) (A,C) (B,D) (A,D) (B,C)

Numero delle partizioni (

Numero delle partizioni (P P) ) 2 n-1 - 1

n=4 P = 7 P = 7 n=10 P = 511 P = 511

n=100 P = 1,000,000,000,000,000,000,000,000,000,00 P = 1,000,000,000,000,000,000,000,000,000,00 - - 1 1

= 10

= 10

2929

- -1 1

I metodi di Classificazione automatica

1 milione di partizioni al secondo 1 milione di partizioni

al secondo

Partizione ottimale di...

… 20 unità in 5 classi 20 unità in 5 classi

… 30 unità in 5 classi 30 unità in 5 classi 2444 2444 secoli! secoli!

8 giorni

8 giorni

(23)

I metodi di Classificazione automatica

• Gli algoritmi per la classificazione automatica possono portare:

° Direttamente a delle partizioni

Classificazione non gerarchica

Alla costruzione di classi per aggregazioni successive di coppie di oggetti

° Alla costruzione di classi per dicotomizzazioni successive dell’insieme degli oggetti

Classificazione gerarchica ascendente

Classificazione gerarchica discendente

(segmentazione)

°

Metodo delle nubi dinamiche

1° passo : Scelta casuale dei k nuclei iniziali 2° passo : Calcolo delle distanze e definizione della prima partizione

Convergenza: Stabilità della partizione Passi successivi: Definizione dei nuovi nuclei, calcolo delle nuove

distanze, definizione della nuova partizione, e così via...

(24)

P3={(e1 e2) (e3 e4)e5} P2={(e1e2)e3 e4 e5} nodi

rami

"

taglio del dendrogramma per ottenere i gruppi

e1

e2

e3

e4

e5

E

e5

e1 e2 e3 e4

P1={e1 e2 e3 e4 e5} P4={(e1 e2 e3 e4) e5} H(E)

H(E)

P5={(e1e2 e3 e4 e5)}

Gerarchia una gerarchia è una

sequenza di partizioni nidificate

Albero Gerarchico Dendrogramma o

• Il principio dell’algoritmo consiste nel creare, a ciascun passo, una partizione ottenuta aggregando a due a due gli elementi più vicini;

L’algoritmo non fornisce una partizione in q classi di un insieme di n oggetti ma una gerarchia di partizioni gerarchia di partizioni che si presentano sotto forma di albero detto anche dendrogramma dendrogramma e che contiene n-1 partizioni;

• L’importanza della lettura del dendrogramma è nella possibilità di suggerire il numero di classi effettivamente presenti nell’insieme osservato.

Classificazione gerarchica

(25)

I passi di una procedura di classificazione

PASSO 0: n individui da classificare

PASSO 1: analisi della matrice di dissimilarità

(distanza) e aggregazione dei due elementi più vicini

PASSO 2: calcolo delle distanze tra il nuovo punto ed i punti restanti. Ritorno al passo 0 con n-1 punti da classificare

PASSO 3: nuova ricerca dei due punti più vicini e loro aggregazione. Calcolo delle nuove distanze e

ripetizione del processo fino a comprendere tutti gli elementi in un'unica classe

Dendrogramma

x x x

19 gruppi 18 gruppi 17 gruppi 14 gruppi 4 gruppi 8 gruppi 9 gruppi 7 gruppi 6 gruppi 5 gruppi

Scelta del livello di “taglio”

Definizione delle classi della partizione

(26)

La misura del grado di somiglianza

Si può definire una applicazione d che faccia corrispondere un numero reale positivo o nullo a ciascuna coppia (i,h)

Condizioni:

1) Separabilità:

2) Simmetria:

3) Disuguaglianza triangolare:

4) Condizione di Krassner:

Parleremo di:

.) indice di dissimilarità → se si verificano le condizioni 1 e 2 .) metrica o distanza → se si verificano le condizioni 1, 2 e 3 .) ultrametrica → se si verificano le condizioni 1, 2 e 4

( ) i , h 0 e

i

e

h

d = ⇔ =

( ) i h d ( ) h i

d , = ,

( ) i h d ( ) ( ) i e d e h i h e

d , ≤ , + , ∀ , ,

( ) i h SUP [ d ( ) ( ) i e d e h ] i h e

d , ≤ , ; , ∀ , ,

• indici di similarità: dati booleani

• indici di distanza: dati numerici e frequenze

La misura del grado di somiglianza Dati binari

 

 

=

=

=

=

..., 1, se solo max S

) (simmetria

S S

0 S E ,

p j

x x e

e

j i ij i

i i i i i i i i

i

1 2 3 4 5 .. .. .. .. 10 .. .. .. .. 15 .. .. .. .. 20 ei 0 1 1 0 0 1 0 0 1 0 0 1 1 1 0 0 1 0 1 0 ei′ 0 1 1 1 0 0 0 0 1 1 1 1 1 1 0 1 1 0 1 0

ei′ ei′

1 0 1 0

1 a b ei 1 8 1 9

ei 0 c d 0 4 7 11

12 8 20

a+ d = concordanza

• Indici di similarità:

• Indice di Sokal-Michener: 0 , 1 0 . 7 5 a + d ( ) 1 5

a + b + c + d 2 0

S

i i

= ∈ → =

• Coefficente di Jaccard: 0,1 0.6 ( ) 8

ii

13 S a

a b c

= ∈ → =

+ +

(27)

La misura del grado di somiglianza Dati binari

e1 . . ei

ei . . en

e1. . ei ei ′ . . en

1 1

1

Sii′

Si ′i

Matrice di Similarità

• quadrata n × n

• simmetrica

• diagonale = 1

Indice di dissimilarità

i i i

i S

d = 1 −

La misura del grado di somiglianza Dati numerici

• Metrica di Minkowsky

h

j

h j i ij h

i

i

x x

d

1

-

 

 

= ∑

Caso particolare

• h=2 Distanza Euclidea

• h=1 Distanza di Manhattan (city block)

( )

12

j

2 2

 

 

= ∑ x

ij

- x

ij

d

=

j

j i ij

- x x d

1

4 2 e

1

e

2

x

12

x

22

x

11

x

21

( )

1

2 2 2 2

2 1

4 2 4.472 4 2 6

d d

= + =

= + =

(28)

La misura del grado di somiglianza Frequenze

2

.

- 1

= 

j i.

j i

i.

ij

j i

i

f

f f f d f

2

.

- 1

ij i j

jj

i i .j .j

f f

d f f f

 

= ∑      

• Distanza tra due righe i e i’:

• Distanza tra due colonne j e j’:

Un esempio (Criterio della distanza minima Criterio della distanza minima)

a b c d e f g

a b c d e f g

a 0 1 3 6 7 11 16

b 0 2 5 6 10 15

c 0 3 4 8 13

d 0 1 5 10

e 0 4 9

f 0 5

g 0

ab c de f g

ab 0 2 5 10 15

c 0 3 8 13

de 0 4 9

f 0 5

g 0

abc de f g

abc 0 3 8 13

de 0 4 9

f 0 5

g 0

abcde f g

abcde 0 4 9

f 0 5

g 0

abcdef g

abcdef 0 5

g 0

a b c d e f g

1 2 3 4 5 6

(29)

I diversi criteri di raggruppamento

Gruppo A Gruppo B

• Criteri per la determinazione della distanza tra due gruppi Criteri per la determinazione della distanza tra due gruppi

Distanza minima

a. b. Distanza massima

Distanza centroidi

c. d. Distanza media

;

;

x x

• Criteri basati sull’inerzia dei gruppi Criteri basati sull’inerzia dei gruppi Metodo di Ward Metodo di Ward

I diversi criteri di raggruppamento

• Criteri basati sull’inerzia dei gruppi Criteri basati sull’inerzia dei gruppi Metodo di Ward Metodo di Ward Il metodo di Ward è basato sulla minimizzazione della varianza

all’interno dei gruppi

Teorema di Huyghens:

g

xi

gi

gj

gk g

Inerzia totale = Inerzia entro le classi + Inerzia tra le classi

• Varianza tra i gruppi in caso di n classi: massima

• Varianza tra i gruppi in caso di una classe: nulla

• Obiettivo della partizione è minimizzare la quota di variabilità interna ai gruppi, massimizzando al contempo la variabilità tra i gruppi, così da ottenere classi omogenee al loro interno e ben separate l’una dall’altra

• L’algoritmo di Ward aggrega, ad ogni passo intermedio, gli oggetti (gruppi o

unità) che determinano la perdita di inerzia tra le classi minima.

(30)

I diversi criteri di raggruppamento

a b c d e f g

a b c d e f g a b c d e f g a b c d e f g Distanza

Distanza minima minima

Distanza Distanza massima massima

Distanza Distanza media media

I passi di una classificazione gerarchica

1 … p 1

:

n

Matrice dei dati

1

:

n

1 … n

Matrice delle distanze

1

:

n-1

1 … n-1

Matrice delle distanze

1 2

1 … 2

Matrice delle distanze

1

:

n

1 … n

Matrice delle ultrametriche

. . .

(31)

La descrizione delle classi: I valori-test

a)

a) variabili continue : ~ N(0,1)

b)

b) variabili nominali

~ N(0,1)

Variabilej Media classek

Media generale

Numerosità totale

Numerosità classek

( )

1 N

n N n

x X x

t

k k 2 j

j jk j

k

⋅ − σ

= −

( ) ( )

1 N

n N n

P 1 P

P X p

t

k k

j j

j jk j

k

⋅ −

= −

Varianza variabilej

La definizione delle classi

Classe Generale 2,81 104,10 85,78 Carne

2,20 6,20 4,22 Burro

2,16 13,94 12,27 Uova

1,05 91,92 81,31 Patate

0,33 37,18 36,38 Zucchero

-0,39 76,08 78,21 Cereali -0,47 120,14 128,41 Latte -0,87 77,26 95,61 Verdure

-2,02 3,24 4,17 Riso

V. test Media

Variab.

Classe Generale 2,46 161,63 128,41 Latte 2,09 40,29 36,38 Zucchero

0,33 4,44 4,22 Burro

-0,15 4,11 4,17 Riso

-1,12 11,61 12,27 Uova

-1,30 71,20 81,31 Patate -1,82 70,51 78,21 Cereali -2,03 62,90 95,61 Verdure -2,61 72,76 85,78 Carne V. test Media

Variab.

Classe Generale 3,26 175,78 95,61 Verdure 2,50 94,35 78,21 Cereali

2,33 5,43 4,17 Riso

0,37 85,75 81,31 Patate

-0,01 85,68 85,78 Carne

-1,03 11,35 12,27 Uova

-2,32 80,62 128,41 Latte

-2,73 1,35 4,22 Burro

-2,74 28,52 36,38 Zucchero V. test Media

Variab.

Classe 1 BE, FR, GE, DA, IR

Classe 2

AU, OL, SV, FI, GB, NO, IS

Classe 1 SP, PO, GR, IT

( ) 18 6 . 53 . 32 1

16 5 16 5

70 . 290

78 . 85 10 .

t Carne , Cl . 1 104 =

⋅ −

= − 2.81

es.:

(32)

Le “tipologie”

La dieta mediterranea

La dieta iperproteica

La dieta grassa

L’analisi degli sbocchi L’analisi degli sbocchi occupazionali dei laureati occupazionali dei laureati

delle Facoltà di Scienze delle Facoltà di Scienze Politiche e di Economia Politiche e di Economia

di Macerata

di Macerata

(33)

Il piano delle interviste

74%

339 251

Totale

81%

159 Economia 129

Bancaria

68%

180 Scienze 122

Politiche

% Tot. Laureati

Intervistati

Conoscere le caratteristiche dei laureati della Facoltà di Scienze Politiche (Luglio 1995 - Gennaio 1998) e i loro sbocchi occupazionali

Obiettivo

Le variabili attive

1. Corso di laurea (Scienze Politiche; Economia Bancaria)

2. Genere (M; F)

3. Residenza (MC; provincia MC; altra prov.)

4. Età alla laurea (24-25; 26-28; >28)

5. Voto di laurea ( ≤ 95; 96-104; 105-109; 110-110e lode)

6. Diploma (Liceo; Tecnico Comm.; Altro Tecnico; Altro Diploma)

7. Voto diploma (36-42; 43-48; 49-54; 55-60)

8. Area Tesi (Economica; Giuridica; Aziendale; Altra)

9. Anni laurea (4-5a.a.; 6-7a.a.; 8 e più)

10. Posizione durante gli studi (Studente Lav.; Part-time; Studente)

10 variabili 35 modalità

(34)

Le variabili illustrative

• Borse post-laurea

• Specializzazione

• Colloqui post-laurea

• Esigenze mercato

• Condizione occupazionale

• Scelta universitaria

• Tempo prima occupazione

• Canali

• Corrispondenza Laurea/Lavoro

• Soddisfazione lavoro

• Preparazione universitaria

Id. Genere Età Profess. Tit. studio Reddito … 1 maschio 35 Operaio Media inferiore 2,200 … 2 maschio 21 Studente Media Superiore 0,000 …

3 femmina 46 Dirigente Laurea 3,800 …

:

n maschio 71 Pensionato Media inferiore 1,700 …

• ACM - La matrice dei dati

Id. Genere Età Profess. Tit. studio Reddito …

1 1 35 2 2 2,200 …

2 1 21 1 3 0,000 …

3 2 46 3 4 3,800 …

:

n 1 71 4 2 1,700 …

Riferimenti

Documenti correlati

Example applications of relevant knowledge management, data mining, and text mining research are then reviewed in order including: ontologies; knowledge management for

Sottosegretario di Stato, Ministero del Lavoro e delle Politiche Sociali Fabio Pammoli. Professore ordinario, Politecnico di Milano

To observe which data instances were selected, feed the output of the Data Sampler widget to the Data Table or Info widgets.#.. The Classification Tree widget outputs a

Tratto da Golfarelli, Rizzi,”Data warehouse, teoria e pratica della progettazione”, McGraw Hill 2006...

DATA WAREHOUSE: OLAP - 1 Copyright – Tutti i diritti riservati.. Database and data mining group, Politecnico

– il rapporto tra l’importo della riga corrente per le vendite e il totale complessivo per mese. DATA WAREHOUSE: OLAP - 52 Copyright – Tutti i

Tanto è vero che anche dai Centri per l'Impiego è uscito, come dire, anche una valutazione positiva degli incontri che sono stati fatti tra operatori del Centro per l'Impiego

L’uso congiunto di dati telerilevati acquisiti da piattaforme di prossimità, quali micro-droni e veicoli terrestri, e di informazioni puntuali relative alle principali