x1
x2
x3
xj
xk
xp
xm
L’Analisi
Multidimensionale dei Dati
Introduzione al Data Mining Introduzione al Introduzione al
Data
Data Mining Mining
estrarre informazione nascosta nei dati in modo da consentire decisioni strategiche
Prof. N.Carlo Lauro Dipartimento di
Matematica e Statistica Università di Napoli Federico II clauro@unina.it
Data Data Warehouse Warehouse Operational
Operational Data Data Store Store
Data Mart
Data Mining Data Mining
Data Mart
Data Mart
Data
Information
Knowledge
Data Mining: dal dato alle decisioni
Data preparation Data preparation
Alberi decisionali
Reti neurali
Regole induttive
Cluster analysis
Algoritmi genetici
Le origini del Data Mining
• Crescita notevole degli strumenti e delle tecniche per generare e raccogliere dati (codici a barre , transazioni tramite carta di credito, dati da satellite o da sensori remoti, servizi on line..)
• Sviluppo delle tecnologie per l’immagazzinamento dei dati, tecniche di gestione di database e data warehouse, supporti piu’ capaci piu’ economici (dischi, CD) hanno consentito l’archiviazione di grosse quantita’ di dati
• V olumi di dati che superano di molto la capacità di analisi dei metodi tradizionali di information retrieval.
DATA MINING
DBMS STATISTICA
MULTIVARIATA
MACHINE LEARNING
• Esigenza di tecniche e strumenti con la capacità di assistere in modo intelligente e
automatico i Decision Makers nell'estrazione di elementi di conoscenza dai dati.• Queste tecniche e strumenti prendono il nome di Data Mining e costituiscono il cuore del Knowledge Discovery in Databases (KDD). Il DM rappresenta un nuovo capitolo della Statistica computazionale nato dall’integrazione di tecnologie proprie del machine learning e dei moderni DBMS con l’analisi statistica multivariata.
Le fasi del KDD
Il processo di estrazione della conoscenza in un database (Knowledge Discovery in Database) consiste in una sequenza iterativa ed interattiva delle seguenti fasi:
selezione dei dati: i dati significativi per l’obiettivo del lavoro di analisi sono recuperati dal database;
pulizia dei dati: si agisce sui dati alterati, errati, dispersi, o irrilevanti, recuperandoli o eliminandoli;
integrazione dei dati: le fonti di dati multiple o eterogenee possono essere integrate in una unica fonte;
trasformazione e codifica dei dati: i dati sono trasformati e consolidati in una forma appropriata per la ricerca, grazie all’esecuzione di operazioni di aggregazione, sintesi e codifica;
data mining: è la fase essenziale dove metodi intelligenti sono applicati allo scopo di estrarre patterns dai dati;
valutazione dei patterns: si devono identificare i patterns veramente interessanti che rappresentano la conoscenza, basandosi su delle misure di interesse;
presentazione della conoscenza: le tecniche di visualizzazione e di
rappresentazione sono usate per presentare la conoscenza scoperta
Ambiti applicativi del Data Mining
– Customer profiling – Market segmentation – Affinità modelli d’acquisto – Database marketing
– Credit scoring e analisi dei rischi – Scoperta di frodi
– Analisi testuale – Click stream analysis
……….
1000 2000 2000 3456 6577 2000 56600 78797 990 90091 87885 4565 12854
12090
123599
279878 999 109988 1987363 10928783 33345 67398 320793 39384 320983 57583 398 209 8378373 10076 354802 2973673 3939399 306145 01910 46458 817262Le principali tecniche del Data Mining
METODI DI PRIMA GENERAZIONE
• Metodi fattoriali
• Cluster analysis
• Modelli di regressione e classificazione METODI DI SECONDA GENERAZIONE
• Reti Neurali
• Alberi decisionali
• Regole di associazione
• Algoritmi genetici
• Marcaggio semantico
• PLS Path Modelling
……….
TECNICHE DI VISUALIZZAZIONE DEI DATI
Analisi
Multidimensionale dei Dati
TIPI DI INFORMAZIONI OTTENUTE
• FATTORI STRUTTURALI
identificazione di variabili latenti non osservabili direttamente
• RAGGRUPPAMENTI (CLUSTER)
raggruppamenti di elementi in classi non definite a priori
• CLASSIFICAZIONI
raggruppamenti di elementi in classi secondo un modello predefinito
• ASSOCIAZIONI
insieme di regole che specifica l’occorrenza congiunta di due (o piu’) elementi
• SEQUENZE
possibilita’ di stabilire concatenazioni temporali di eventi
• TENDENZE (TREND)
scoperta di andamenti temporali caratteristici con valenza previsionale
La Statistica descrittiva consente di rappresentare e sintetizzare i dati relativi ad una (due) variabile (i) che derivano dall’osservazione di un fenomeno con tecniche semplici e di immediata comprensione.
L’Analisi multidimensionale dei dati ne costituisce la naturale generalizzazione quando questi dati riguardino più variabili o dimensioni.
• La Statistica esplorativa multidimensionale
Non si tratta più solo di sintetizzare sintetizzare o presentare presentare i dati raccolti ma di approfondire gli aspetti strutturali e fisiologici aspetti strutturali e fisiologici di sistemi complessi mediante l’impiego di metodi
che consentono di palesare aspetti non osservabili direttamente con gli strumenti della statistica classica
• La Statistica esplorativa multidimensionale
• L’Analisi Multidimensionale dei Dati consente...
… il trattamento simultaneo di numerose variabili ed osservazioni
… il trattamento simultaneo di numerose variabili ed osservazioni
… la visualizzazione di associazioni complesse
… la visualizzazione di associazioni complesse
… la individuazione di fattori multidimensionali
… la individuazione di fattori multidimensionali
… la costruzione di tipologie di osservazioni
… la costruzione di tipologie di osservazioni
… l’analisi di fenomeni evolutivi complessi
… l’analisi di fenomeni evolutivi complessi
… l’identificazione di modelli
… l’identificazione di modelli
ma altresì …...
Le relazioni tra le va- riabili, tra le unità e tra le une e le altre …
… A)
Metodi fattoriali
Le Medie e le Dev. Standard
Le correlazioni
cereali riso patate zucchero verdure vino carne latte burro uova Belgio 72,20 4,20 98,80 40,40 103,20 20,90 102,00 80,00 7,70 14,20 Danimarca 70,50 2,20 57,00 39,50 50,00 22,00 105,80 145,20 4,10 14,30 Germania 71,30 2,30 74,10 37,10 83,10 22,80 97,20 90,70 6,90 14,80 Grecia 109,80 5,40 90,00 30,00 229,50 25,30 77,10 63,10 0,90 11,30 Spagna 71,40 5,80 107,80 26,80 191,70 43,00 102,10 98,40 0,60 15,30 Francia 73,00 4,30 78,20 34,10 95,00 64,50 110,50 98,90 8,90 15,00 Irlanda 93,40 3,20 151,50 34,80 55,00 3,90 105,00 185,90 3,40 11,40 Italia 110,20 4,80 38,60 27,90 181,90 61,60 88,00 65,00 2,40 11,10 Olanda 54,60 5,00 86,70 39,70 99,00 14,00 89,40 136,20 5,40 10,70 Portogallo 86,00 5,70 106,60 29,40 100,00 57,00 75,50 96,00 1,50 7,70 RegnoUnito 74,30 4,50 94,10 39,80 60,00 10,40 74,40 129,30 3,20 10,80 Austria 68,70 4,20 62,60 37,10 81,90 34,30 93,40 121,30 4,30 13,40 Finlandia 70,10 5,40 61,60 35,70 52,60 10,20 65,00 208,40 5,80 10,90 Islanda 79,70 1,90 50,20 54,90 50,00 6,20 71,70 205,60 4,60 11,30 Norvegia 76,90 3,50 73,20 37,30 48,30 6,60 54,90 176,50 2,10 11,30 Svezia 69,30 4,30 70,00 37,50 48,50 12,30 60,50 154,10 5,70 12,90
I dati
Mean St. dev.
cereali 78,213 14,452
riso 4,169 1,203
patate 81,313 26,480
zucchero 36,375 6,403
verdure 95,606 55,014
vino 25,938 19,689
carne 85,781 17,049
latte 128,413 46,031
burro 4,219 2,352
uova 12,275 2,014
cereali riso patate zucchero verdure vino carne latte burro uova
cereali 1 0,135 0,060 -0,408
0,5580,286 -0,067 -0,342
-0,519-0,342
riso 0,135 1 0,231
-0,690 0,5680,419 -0,155 -0,385 -0,336 -0,308
patate 0,060 0,231 1 -0,285 0,070 -0,133 0,291 -0,041 -0,195 -0,103
zucchero -0,408
-0,690-0,285 1
-0,643 -0,615-0,185
0,5830,426 0,016
verdure
0,558 0,5680,070
-0,6431
0,5400,222
-0,755-0,458 0,065
vino 0,286 0,419 -0,133
-0,615 0,5401 0,395
-0,695-0,061 0,109
carne -0,067 -0,155 0,291 -0,185 0,222 0,395 1 -0,410 0,288
0,600latte -0,342 -0,385 -0,041
0,583 -0,755 -0,695-0,410 1 0,099 -0,221
burro
-0,519-0,336 -0,195 0,426 -0,458 -0,061 0,288 0,099 1 0,445
Il cerchio dele correlazioni
L’analisi in
componenti principali
La mappa fattoriale
Variables (axes F1 and F2: 62 %)
cerealir i s o patate
zucchero verdure
vino carne
latte burro
uova
- 1 -0,8 -0,6 -0,4 -0,2 0 0,2 0,4 0,6 0,8 1
- 1 -0,5 0 0,5 1
- - a x i s F 1 ( 3 9 % ) - - >
Variables and observations (axes F1 and F2: 62 %)
Belgio Danimarca
Germania
Grecia Spagna Francia
Irlanda
Italia Olanda
Portogallo RegnoUnito
Austria
Finlandia Islanda
Norvegia
Svezia cerealir i s o patate
zucchero verdure
vino carne
latte burro
u o v a
-1,5 -1 -0,5 0 0,5 1 1,5 2
-2 -1,5 -1 -0,5 0 0,5 1 1,5 2
- - a x i s F 1 ( 3 9 % ) - - >
Eigenvalues
F1
F 2
F3 F4
F 5F 6F7 F 8 F 9 F 1 0
0,0 1,0 2,0 3,0 4,0 5,0
F1 F2
Belgio -0,225 1,961
Danimarca -1,522 1,478 Germania -0,852 2,124
Grecia 3,452 -1,432
Spagna 2,921 0,952
Francia 0,676 3,077
Irlanda -0,580 -0,624
Italia 3,419 -0,312
Olanda -0,790 -0,044
Portogallo 2,398 -1,956 RegnoUnito -0,704 -1,170
Austria -0,181 0,887
Finlandia -1,483 -1,433 Islanda -3,575 -0,952 Norvegia -1,465 -2,016
Svezia -1,489 -0,539
Cli scores
Le classi di equivalenza delle unità statistiche rappresentabili mediante strutture ad albero o grafi …
… B)
Metodi di
classificazione
I dati
Le distanze “alimentari”
cereali riso patate zucchero verdure vino carne latte burro uova Belgio 72,20 4,20 98,80 40,40 103,20 20,90 102,00 80,00 7,70 14,20 Danimarca 70,50 2,20 57,00 39,50 50,00 22,00 105,80 145,20 4,10 14,30 Germania 71,30 2,30 74,10 37,10 83,10 22,80 97,20 90,70 6,90 14,80 Grecia 109,80 5,40 90,00 30,00 229,50 25,30 77,10 63,10 0,90 11,30 Spagna 71,40 5,80 107,80 26,80 191,70 43,00 102,10 98,40 0,60 15,30 Francia 73,00 4,30 78,20 34,10 95,00 64,50 110,50 98,90 8,90 15,00 Irlanda 93,40 3,20 151,50 34,80 55,00 3,90 105,00 185,90 3,40 11,40 Italia 110,20 4,80 38,60 27,90 181,90 61,60 88,00 65,00 2,40 11,10 Olanda 54,60 5,00 86,70 39,70 99,00 14,00 89,40 136,20 5,40 10,70 Portogallo 86,00 5,70 106,60 29,40 100,00 57,00 75,50 96,00 1,50 7,70 RegnoUnito 74,30 4,50 94,10 39,80 60,00 10,40 74,40 129,30 3,20 10,80 Austria 68,70 4,20 62,60 37,10 81,90 34,30 93,40 121,30 4,30 13,40 Finlandia 70,10 5,40 61,60 35,70 52,60 10,20 65,00 208,40 5,80 10,90 Islanda 79,70 1,90 50,20 54,90 50,00 6,20 71,70 205,60 4,60 11,30 Norvegia 76,90 3,50 73,20 37,30 48,30 6,60 54,90 176,50 2,10 11,30 Svezia 69,30 4,30 70,00 37,50 48,50 12,30 60,50 154,10 5,70 12,90
Belgio Danimarca Germania Grecia Spagna Francia Irlanda Italia Olanda PortogalloRegnoUnito Austria Finlandia Islanda Norvegia Svezia
Belgio 0 3,260 2,028 5,342 4,452 2,710 4,436 5,540 2,879 5,364 3,362 2,473 4,527 5,322 4,786 3,503
Danimarca 3,260 0 2,017 6,243 5,280 3,890 4,503 5,740 3,648 5,988 3,570 2,167 4,336 3,866 3,845 3,417
Germania 2,028 2,017 0 5,805 4,996 2,987 4,723 5,493 3,575 5,866 3,690 2,292 4,659 4,744 4,364 3,342
Grecia 5,342 6,243 5,805 0 3,981 6,104 5,723 3,017 5,455 3,885 4,705 4,948 5,938 7,343 5,399 5,617
Spagna 4,452 5,280 4,996 3,981 0 4,596 5,495 4,672 4,702 4,616 4,835 3,919 5,863 7,771 5,771 5,399
Francia 2,710 3,890 2,987 6,104 4,596 0 5,731 5,115 4,286 5,592 4,928 2,962 5,310 6,525 5,948 4,601
Irlanda 4,436 4,503 4,723 5,723 5,495 5,731 0 6,668 4,446 5,191 3,629 4,604 4,944 5,553 4,391 4,719
Italia 5,540 5,740 5,493 3,017 4,672 5,115 6,668 0 5,806 4,034 5,336 4,490 6,012 7,282 5,805 5,753
Olanda 2,879 3,648 3,575 5,455 4,702 4,286 4,446 5,806 0 4,402 2,078 2,392 2,801 4,657 3,499 2,641
Portogallo 5,364 5,988 5,866 3,885 4,616 5,592 5,191 4,034 4,402 0 3,750 4,412 4,871 6,978 4,697 4,945
RegnoUnito 3,362 3,570 3,690 4,705 4,835 4,928 3,629 5,336 2,078 3,750 0 2,568 2,657 4,048 2,054 2,081
Austria 2,473 2,167 2,292 4,948 3,919 2,962 4,604 4,490 2,392 4,412 2,568 0 3,337 4,542 3,417 2,521
Finlandia 4,527 4,336 4,659 5,938 5,863 5,310 4,944 6,012 2,801 4,871 2,657 3,337 0 4,310 2,521 1,867
Islanda 5,322 3,866 4,744 7,343 7,771 6,525 5,553 7,282 4,657 6,978 4,048 4,542 4,310 0 3,552 3,882
Norvegia 4,786 3,845 4,364 5,399 5,771 5,948 4,391 5,805 3,499 4,697 2,054 3,417 2,521 3,552 0 2,034
Svezia 3,503 3,417 3,342 5,617 5,399 4,601 4,719 5,753 2,641 4,945 2,081 2,521 1,867 3,882 2,034 0
0,0 10,00 20,00 30,00 40,00 50,00 60,00
Svezia Finlandia
Norvegia RegnoUnito Olanda Islanda Irlanda Austria Germania Danimarca
Francia Belgio Portogallo
Italia Grecia Spagna
Dissimilarità Dendrogramma
Histogram of node levels
0,000 10,000 20,000 30,000 40,000 50,000 60,000
Dissimilarity
Cluster cereali riso patate zucchero verdure vino carne latte burro uova
Cluster 1 18,921 1,165 -2,513 -8,142 105,427 17,363 3,285 -52,913 -2,919 0,292 Cluster 2 -6,888 -0,119 0,950 0,763 -11,581 4,800 7,744 -16,213 1,031 0,337 Cluster 3 -0,333 -0,509 -0,012 3,665 -44,726 -18,098 -14,361 57,688 0,101 -0,715
La cluster analysis
I centri delle classi
… C)
… le relazioni di dipendenza per predire classi, preferenze, valori
Metodi esplicativi
191
1
2 3
6 7
12 13 14 15
24 25
48 49
29
voto basso162 età
30-35 anni +35 anni
diploma scient.
tecn.
prof.
129 residenza altra provincia
40 genere femmine
18 economia tesi aziend.
8
voto basso voto alto
10
22
voto basso89
voto alto33 piano st.
pubb., prof.
2
voto basso voto alto
31
% BC campione base: 74.35%
% BC campione test: 69.47%
Esempio: Indagine sui laureati
Le
Leipotesi
ipotesiSistema osservato
La Formazione dei Dati
La Formazione dei DatiØscelta delle osservazioni Øscelta delle variabili Øcodifica dei dati Ømatrice dei dati
Ømatrice di correlazione/associazione Ømatrice di distanze (similarità) Matrice
Datidei
………
••
• . .•
•
M1 M2 M3 M4
Rappresentazioni in
Rappresentazioni inAnalisi dei Dati
Analisi dei Dati•Rappresentazioni Fattoriali Ø Analisi delle Componenti Principali Ø Analisi delle Corrispondenze Ø Analisi Discriminante Ø Analisi Canonica
•Classificazione Ø Classificazione Gerarchica Ø Partizioni
Classi di equivalenza
livello di similarità
a2
a1
interazione tra colonne tipologie di
righe
interazione righe × colonne
• Le basi dell’AMD
Le
Leipotesi
ipotesiSistema osservato
La Formazione dei Dati
La Formazione dei DatiØscelta delle osservazioni Øscelta delle variabili Ø
codifica dei dati
Ømatrice dei dati
Ømatrice di correlazione/associazione Ømatrice di distanze (similarità) Matrice
Datidei
………
••
• . .•
•
M1 M2 M3 M4
Codifica dei dati
Codifica dei dati•Livello di quantificazione Ø var. qualitative (nominali) Ø var. semiquantitative (ordinali) Ø var. quantitative (discrete/continue)
•Trasformazioni
• Le basi dell’AMD
•Omogeneizzazione Ø standardizzazione
Ø categorizzazione (cod. disgiuntiva)
Le
Leipotesi
ipotesiSistema osservato
La Formazione dei Dati
La Formazione dei DatiØscelta delle osservazioni Øscelta delle variabili Øcodifica dei dati Ømatrice dei dati
Ø matrice di correlazione associazione
Ømatrice di distanze (similarità) Matrice
Datidei
………
••
• . .•
•
M1 M2 M3 M4
•Associazioni tra variabili
• Le basi dell’AMD
•matrice di correlazione (associazione)
pp p
ji ij
p
c c c
c c c
..
..
..
..
..
..
1
1 1
1 ……….. p 1 .
.. . .. .. p
cij= cji cij
Coeff. di correlaz. Bravaisr Indice di cograduazioneρ Contingenza quadratica media ϕ2
Le
Leipotesi
ipotesiSistema osservato
La Formazione dei Dati
La Formazione dei DatiØscelta delle osservazioni Øscelta delle variabili Øcodifica dei dati Ømatrice dei dati
Ømatrice di correlazione/associazione
Ømatrice di distanze (similarità)
Matrice Datidei
………
••
• . .•
•
M1 M2 M3 M4
•Relazioni tra le unità
• Le basi dell’AMD
•matrice di distanze (similarita’ )
•dii= 0, dij≥ 0
•dij= dji
•dij ≤ dih +djh (sij= 1-dij) 0
..
..
..
..
..
..
0
1
1
n ji
ij n
d d
d d 1 ……….. n 1 .
. .. .. .. n
Particolare rilevanza assumono quindi le fasi di preparazione preparazione e codifica
codifica dei dati, e la definizione di regole di interpretazione regole di interpretazione e di validazione
validazione delle rappresentazioni fornite dalle tecniche utilizzate.
• La Statistica esplorativa multidimensionale
• La matrice dei dati:
1 2 j p
12
X =
ix
ijn
n punti in R
pp punti in R
n• Rappresentazione geometrica delle unità statistiche
i
1i
2i
3x y 1 2
4 5 5 2
Spazio degli individui
( ) ( )
( x x ) ( y y ) 1 1 2
18 9 9 y y x x
2 2 1 2 2 1
2 3 2 2 3 2
= +
=
− +
−
= +
=
− +
−
29 2 5
2 22
3
= + =
i
Lunghezza del vettore Lunghezza del vettore
esprime la taglia dell’individuo
Distanza tra unità Distanza tra unità
esprime la dissosomiglianza tra unità
Se le variabili sono eterogenee si rende necessaria una misura di distanza ponderata
3 2 2 1
i , i i
i ≈ ≠
x y
i
1i
2i
3[
5, 2] 3 individui in R
2R
p• Rappresentazione geometrica delle variabili statistiche
Spazio delle variabili i
1i
2i
3x y
4 5 1 2 5 2
Lunghezza del vettore Lunghezza del vettore
esprime la variabilità del carattere
(per variabili centrate è ladevianza)
30 5 2 1
x
2=
2+
2+
2= Angolo tra vettori
Angolo tra vettori esprime la correlazione tra le variabili
( per variabili centrate è il coefficienter)
65 , 45 0 30
2 5 5 2 4 1
y x
y x y
x
y cos x
2 i 2 i
i i
× =
× +
× +
= ×
=
=
θ ∑ ∑
∑
cos( 90°) = 0 ⇒
vettori
ortogonali(var. incorrelate
cos( 0°) =|1|⇒vettori
collineari(var. max correlate)
x = [ 1,2,5 ]
y
=[
4,5,2] θ
2 variabili in R
3i
1i
2i
3• Richiami sulla distanza euclidea
Proprietà di una Distanza Proprietà di una Distanza
Teorema di Pitagora e Distanza Euclidea Teorema di Pitagora e Distanza Euclidea
( ) ( ) ( ) ( ) ( ) ( ) ( ) ,i i d ,i i d i , i
d
i , i d i ,i d
0 i ,i d
0 i ,i d
′′
+ ′
≤ ′′
• ′
′
=
′
•
′ ≥
•
=
•
i
x
1x
2i’
i’’
P2
P1
x y
x1 x2 y1
y2
( ) [ ] [ 2 2 1 ] 2
1 2 2
1 P x x y y
P
d = − + −
Nel caso di più variabili x, y, …, z
( ) [ ] [ ] 2 [ 2 1 ] 2
1 2 2
1 2 2
1 P x x y y z z
P
d = − + − + K + −
Necessità di introdurre un sistema di pesi es.:
1 σ
i
1i
2i
nv
1v
jv
pRicerca delle nuove variabili di sintesi (fattori)
più correlate con le variabili originarie e tra loro non correlate ...
,
21
ξ ξ
( )
∑ ξ =
= r V ,
αmax CRIT
2 jξ
α= u
α1V
1+ u
α2V
2+ ... + u
αpV
pI Criteri dell’ AF (Hotelling 1936)
Spazio delle variabili
I coefficienti u
αesprimono il ruolo delle variabili originarie nella costruzione delle variabili di sintesi, risultando preziosi per la interpretazione di queste ultime
ξ
1ξ
2i
1i
2i
nv
1v
jv
pRicerca di piani (sottospazi), generati da assi ortogonali di lunghezza unitaria u
1,
,u
2… , che consentano lai migliore visualizzazione dell’immagine della nube delle unità
I Criteri dell’ AF (Pearson 1904)
Spazio delle unità
i
hu
1u
2•i1
•i2
( ) i , i max
d CRIT
i i
2
′ =
= ∑
′
( ) i , i d ( ) iˆ , iˆ
d
2′ ≈
2′
Le rappresentazioni sono valide se le distanze tra punti non si modificano molto in proiezione
Gli assi u
αevidenziano le direzioni di massima variabilità (informazione) della nuvola delle unità statistiche
ih
• Esempio ACP: i consumi alimentari
Matrice dei dati: 16 Paesi, 10 variabili continue Matrice dei dati: 16 Paesi, 10 variabili continue
Cereali Riso Patate Zucchero Verdure Vino Carne Latte Burro Uova
Belgio 72,2 4,2 98,8 40,4 103,2 20,9 102,0 80,0 7,7 14,2
Danimarca 70,5 2,2 57,0 39,5 50,0 22,0 105,8 145,2 4,1 14,3
Germania 71,3 2,3 74,1 37,1 83,1 22,8 97,2 90,7 6,9 14,8
Grecia 109,8 5,4 90,0 30,0 229,5 25,3 77,1 63,1 0,9 11,3
Spagna 71,4 5,8 107,8 26,8 191,7 43,0 102,1 98,4 0,6 15,3
Francia 73,0 4,3 78,2 34,1 95,0 64,5 110,5 98,9 8,9 15,0
Irlanda 93,4 3,2 151,5 34,8 55,0 3,9 105,0 185,9 3,4 11,4
Italia 110,2 4,8 38,6 27,9 181,9 61,6 88,0 65,0 2,4 11,1
Olanda 54,6 5,0 86,7 39,7 99,0 14,0 89,4 136,2 5,4 10,7
Portogallo 86,0 5,7 106,6 29,4 100,0 57,0 75,5 96,0 1,5 7,7
RegnoUnito 74,3 4,5 94,1 39,8 60,0 10,4 74,4 129,3 3,2 10,8
Austria 68,7 4,2 62,6 37,1 81,9 34,3 93,4 121,3 4,3 13,4
Finlandia 70,1 5,4 61,6 35,7 52,6 10,2 65,0 208,4 5,8 10,9
Islanda 79,7 1,9 50,2 54,9 50,0 6,2 71,7 205,6 4,6 11,3
Norvegia 76,9 3,5 73,2 37,3 48,3 6,6 54,9 176,5 2,1 11,3
Svezia 69,3 4,3 70,0 37,5 48,5 12,3 60,5 154,1 5,7 12,9
Cere Riso Pata Zucc Verd Vino Carn Latt Burr Uova
Cere 1,00
Riso 0,13 1,00 Pata 0,06 0,23 1,00 Zucc -0,41 -0,69 -0,28 1,00 Verd 0,56 0,57 0,07 -0,64 1,00 Vino 0,29 0,42 -0,13 -0,62 0,54 1,00 Carn -0,07 -0,15 0,29 -0,19 0,22 0,39 1,00 Latt -0,34 -0,39 -0,04 0,58 -0,75 -0,69 -0,41 1,00 Burr -0,52 -0,34 -0,19 0,43 -0,46 -0,06 0,29 0,10 1,00 Uova -0,34 -0,31 -0,10 0,02 0,07 0,11 0,60 -0,22 0,45 1,00
• Esempio ACP: i consumi alimentari
Matrice di correlazione Matrice di correlazione
• Esempio ACP: i consumi alimentari
La variabilità sui nuovi fattori: gli autovalori La variabilità sui nuovi fattori: gli autovalori
Num Autov. % % cum. Istogramma
1 3.8920 38.92 38.92
•••••••••••••••••••••••••••••••••••••••2 2.2966 22.97 61.89
•••••••••••••••••••••••3 1.2126 12.13 74.01
••••••••••••4 0.9672 9.67 83.68
••••••••••5 0.5595 5.59 89.28
••••••6 0.4064 4.06 93.34
••••7 0.3050 3.05 96.39
•••8 0.2148 2.15 98.54
••9 0.1091 1.09 99.63
•10 0.0367 0.37 100.00
•• Esempio ACP: i consumi alimentari
Autovettori Autovettori
1 2 3 4 5
Cere – cereali 0.30 0.24 0.18 -0.61 -0.27 Riso – riso 0.35 0.18 -0.13 0.62 0.09 Pata – patate 0.11 0.05 -0.86 -0.10 -0.15 Zucc – zucchero -0.44 -0.01 0.15 -0.18 -0.05 Verd – verdure 0.45 -0.03 0.11 -0.13 0.37 Vino – vino 0.37 -0.23 0.27 0.17 -0.46 Carn – carne 0.12 -0.54 -0.29 -0.26 -0.20 Latt – latte -0.40 0.26 -0.14 0.02 0.02 Burr – burro -0.25 -0.42 0.08 0.28 -0.42 Uova – uova -0.04 -0.57 -0.01 -0.09 0.58
• Esempio ACP: i consumi alimentari
Coordinate sui nuovi assi
Coordinate sui nuovi assi
• Es.: Belgio sul primo fattore0,30 0,35 0,11 -0,44 0,45 0,37 0,12 -0,40 -0,25 -0,04
×
= (-0,42 ×0,30) + (0,03 ×0,35) + (0,66 ×0,11) + … + (0,96 ×-0,04) -0,42 0,03 0,66 0,63 0,14 -0,26 0,95 -1,05 1,48 0,96
72,2 4,2 98,8 40,4 103,2 20,9 102,0 80,0 7,7 14,2 Cere Riso Pata Zucc Verd Vino Carn Latt Burr Uova
= - 0,23
Valori iniziali
Dati standardizzati
Primo autovettore
Coordinata del BELGIO sul primo fattore
• Esempio ACP: i consumi alimentari
Coordinate sui nuovi assi Coordinate sui nuovi assi
1 2 3 4 5
BELGIO -0.23 -1.96 -0.62 0.10 -0.12
DANIMARCA -1.52 -1.48 0.43 -1.00 0.28 GERMANIA -0.85 -2.12 0.30 -0.64 0.12
GRECIA 3.45 1.43 0.32 -1.14 0.78
SPAGNA 2.92 -0.95 -1.23 0.39 1.72
FRANCIA 0.68 -3.08 0.32 0.77 -1.10 IRLANDA -0.58 0.62 -2.93 -1.78 -0.81
ITALIA 3.42 0.31 2.27 -0.75 -0.57
OLANDA -0.79 0.04 -0.67 1.36 0.05
PORTOGALLO 2.40 1.96 -0.42 0.83 -1.55 REGNO UNITO -0.70 1.17 -0.54 0.25 0.01 AUSTRIA -0.18 -0.89 0.48 0.42 0.21 FINLANDIA -1.48 1.43 0.26 1.63 0.05 ISLANDA -3.58 0.95 1.35 -1.36 -0.14 NORVEGIA -1.46 2.02 0.29 -0.07 0.63
SVEZIA -1.49 0.54 0.39 0.99 0.46
• Esempio ACP: i consumi alimentari
L’interpretazione dei fattori: correlazioni tra variabili iniziali e componenti principali L’interpretazione dei fattori: correlazioni tra variabili iniziali e componenti principali
Ce Ri Pa Zu Ve Vi Ca La Bu Uo 1 2 3 4 5
Ce 1,00 Ri 0,13 1,00 Pa 0,06 0,23 1,00 Zu -0,41 -0,69 -0,28 1,00
Ve 0,56 0,57 0,07 -0,64 1,00
Vi 0,29 0,42 -0,13 -0,62 0,54 1,00 Ca -0,07 -0,15 0,29 -0,19 0,22 0,39 1,00 La -0,34 -0,39 -0,04 0,58 -0,75 -0,69 -0,41 1,00 Bu -0,52 -0,34 -0,19 0,43 -0,46 -0,06 0,29 0,10 1,00 Uo -0,34 -0,31 -0,10 0,02 0,07 0,11 0,60 -0,22 0,45 1,00
1 0,59 0,69 0,21 -0,87 0,89 0,73 0,24 -0,79 -0,50 -0,07 1,00 2 0,36 0,27 0,07 -0,01 -0,05 -0,35 -0,81 0,39 -0,64 -0,86 0,00 1,00 3 0,19 -0,14 -0,95 0,16 0,12 0,30 -0,32 -0,16 0,09 -0,01 0,00 0,00 1,00 4 -0,60 0,61 -0,10 -0,18 -0,13 0,17 -0,25 0,02 0,28 -0,09 0,00 0,00 0,00 1,00 5 -0,20 0,07 -0,11 -0,04 0,28 -0,34 -0,15 0,02 -0,31 0,43 0,00 0,00 0,00 0,00 1,00
• L’interpretazione dei fattori
α α α
= α
α
λ
= ⋅
=
λ ∑
n 2i i i 2i1 I
i
c Ca p
; c p
O
Un autovalore
λαè una espressione della capacità informativa dei singoli fattori. Esso misura la variabilità della nuvola dei punti lungo l’asse α - esimo
Un
autovalore λαè una espressione della capacità informativa dei singoli fattori. Esso misura la variabilità della nuvola dei punti lungo l’asse α - esimo
e
ip
ic
iαu
αu
1u
mIl contributo
assoluto Caiαmisura l’apporto di ogni punto alla variabilità dell’asse.
Il contributo
assolutoCaiαmisura l’apporto di ogni punto alla variabilità dell’asse.
I punti con un contributo molto grande, es.maggiore di 0.7, vanno posti in supplementare
• Una misura della qualità della rappresentazione
e2
e1
~
e~
1e2
O
θ
1θ
22 2 2
i i i
x cos α = xˆ α
Il coseno al quadrato è una misura della qualità della rappresentazione dei punti-unità sul sottospazio generato dai fattori scelti:
quanto più risulta prossimo ad 1 tanto più il punto avrà conservato, in proiezione, la distanza dall’origine che aveva nello spazio iniziale, e risulterà quindi ben rappresentato.
Il
coseno al quadratoè una misura della qualità della rappresentazione dei punti-unità sul sottospazio generato dai fattori scelti:
quanto più risulta prossimo ad
1tanto più il punto avrà conservato, in proiezione, la distanza dall’origine che aveva nello spazio iniziale, e risulterà quindi ben rappresentato.
Due punti-unità possono trovarsi vicini nello spazio di proiezione non perché lo siano nello spazio iniziale di riferimento ma solo per gli effetti distorsivi dell’operazione di proiezione
e3
e3
~
(1) (2) (3) (4) (5) (1) (2) (3) (4) (5)
Belgio 0,30 12,30 0,70 0,20 11,40 0,02 0,69 0,02 0,01 0,14
Danimarca 5,40 4,20 2,20 5,40 9,20 0,41 0,20 0,06 0,11 0,10
Germania 2,30 11,60 2,10 1,10 0,30 0,19 0,59 0,06 0,02 0,00
Grecia 26,70 1,20 5,00 2,80 0,30 0,85 0,02 0,05 0,02 0,00
Spagna 13,10 6,40 4,70 1,40 45,30 0,51 0,15 0,06 0,01 0,25
Francia 0,30 20,10 0,00 2,30 7,90 0,02 0,81 0,00 0,04 0,07
Irlanda 0,00 0,10 33,40 38,30 0,80 0,00 0,00 0,49 0,46 0,01
Italia 15,40 0,20 28,80 0,90 2,70 0,57 0,00 0,35 0,01 0,01
Olanda 0,70 0,00 4,30 10,50 1,60 0,09 0,00 0,18 0,36 0,03
Portogallo 8,90 10,80 6,00 0,40 8,20 0,43 0,33 0,10 0,01 0,06
Gr. Bret. 0,20 3,40 2,00 0,10 0,40 0,04 0,52 0,16 0,01 0,01
Austria 0,40 1,40 0,70 1,50 2,40 0,15 0,30 0,08 0,15 0,12
Finlandia 2,30 7,60 0,30 16,50 0,00 0,16 0,33 0,01 0,31 0,00
Islanda 19,60 6,70 9,50 10,60 0,00 0,61 0,13 0,10 0,09 0,00
Norvegia 1,50 12,70 0,20 0,00 9,10 0,13 0,66 0,00 0,00 0,11
Svezia 2,90 1,50 0,10 7,90 0,30 0,37 0,12 0,01 0,27 0,01
Contributi assoluti delle unità all'inerzia degli assi principali
Coseni al quadrato degli angoli tra i vettori e gli assi principali
• Esempio i consumi alimentari
• I diversi tipi di rappresentazione
Visualizzazione nel miglior spazio
ridotto
Metodi
Raggruppamenti nello spazio
completo
Metodi di
Classificazione Automatica
• Matrici e metodi di AMD
Strategia di AMD
Matrice strutturata
Analisi nello spazio delle
variabili Per riga SI NO
Anal. Discrimin.
Segmentazione SI
Analisi simmetrica
NO
Regress.PLS Conjoint Anal.
An. Non Simm Corrisp.
NO Correl. Canon.
Corrisp . Multi.
An. Matrici 3D SI
Cluster Anal.
Scaling Multid NO
Comp.Princ.
An. Corrisp.
SI
Analisi confermative
Analisi esplorative
• Variabili qualitative
• Variabili ordinali
• Variabili quantitative
Classificazione automatica
I dati
• Tabelle individui-variabili numeriche
• Tabelle di contingenza
• Tabelle di presenza-assenza
Si ipotizza la presenza di raggruppamenti tra le unità oppure
oppure
Se ne richiede la determinazione
La identificazione delle classi si ottiene mediante algoritmi iterativi basati su una serie di operazioni elementari ripetute in maniera ricorsiva.
Insieme di procedure (algoritmi) che si prefiggono di classificare o raggruppare individui in classi tali che:
- gli individui all'interno di una classe siano molto simili
- ogni classe sia relativamente distinta dalle altre
I metodi di Classificazione automatica
Obiettivo Obiettivo
Obiettivo
Definire una o più partizioni a partire dall’insieme dei punti consideratiDefinire una o più partizioni a partire dall’insieme dei punti considerati
Problema
Numero delle partizioni possibiliNumero delle partizioni possibili
Es.: 4 elementi (A,B,C,D) e 2 gruppi Es
Es.: 4 elementi (A,B,C,D) e 2 gruppi .: 4 elementi (A,B,C,D) e 2 gruppi
(A) (B,C,D) (B) (A,C,D) (C) (A,B,D) (D) (A,B,C) (A,B) (C,D) (A,C) (B,D) (A,D) (B,C)
Numero delle partizioni (
Numero delle partizioni (P P) ) 2 n-1 - 1
n=4 P = 7 P = 7 n=10 P = 511 P = 511
n=100 P = 1,000,000,000,000,000,000,000,000,000,00 P = 1,000,000,000,000,000,000,000,000,000,00 - - 1 1
= 10
= 10
2929- -1 1
I metodi di Classificazione automatica
1 milione di partizioni al secondo 1 milione di partizioni
al secondo
Partizione ottimale di...
…
… 20 unità in 5 classi 20 unità in 5 classi
…
… 30 unità in 5 classi 30 unità in 5 classi 2444 2444 secoli! secoli!
8 giorni
8 giorni
I metodi di Classificazione automatica
• Gli algoritmi per la classificazione automatica possono portare:
° Direttamente a delle partizioni
Classificazione non gerarchica
Alla costruzione di classi per aggregazioni successive di coppie di oggetti
° Alla costruzione di classi per dicotomizzazioni successive dell’insieme degli oggetti
Classificazione gerarchica ascendente
Classificazione gerarchica discendente
(segmentazione)
°
Metodo delle nubi dinamiche
1° passo : Scelta casuale dei k nuclei iniziali 2° passo : Calcolo delle distanze e definizione della prima partizione
Convergenza: Stabilità della partizione Passi successivi: Definizione dei nuovi nuclei, calcolo delle nuove
distanze, definizione della nuova partizione, e così via...
P3={(e1 e2) (e3 e4)e5} P2={(e1e2)e3 e4 e5} nodi
rami
"
taglio del dendrogramma per ottenere i gruppi
e1
e2
e3
e4
e5
E
e5
e1 e2 e3 e4
P1={e1 e2 e3 e4 e5} P4={(e1 e2 e3 e4) e5} H(E)
H(E)
P5={(e1e2 e3 e4 e5)}
Gerarchia una gerarchia è una
sequenza di partizioni nidificate
Albero Gerarchico Dendrogramma o
• Il principio dell’algoritmo consiste nel creare, a ciascun passo, una partizione ottenuta aggregando a due a due gli elementi più vicini;
• L’algoritmo non fornisce una partizione in q classi di un insieme di n oggetti ma una gerarchia di partizioni gerarchia di partizioni che si presentano sotto forma di albero detto anche dendrogramma dendrogramma e che contiene n-1 partizioni;
• L’importanza della lettura del dendrogramma è nella possibilità di suggerire il numero di classi effettivamente presenti nell’insieme osservato.
Classificazione gerarchica
I passi di una procedura di classificazione
• PASSO 0: n individui da classificare
• PASSO 1: analisi della matrice di dissimilarità
(distanza) e aggregazione dei due elementi più vicini
• PASSO 2: calcolo delle distanze tra il nuovo punto ed i punti restanti. Ritorno al passo 0 con n-1 punti da classificare
• PASSO 3: nuova ricerca dei due punti più vicini e loro aggregazione. Calcolo delle nuove distanze e
ripetizione del processo fino a comprendere tutti gli elementi in un'unica classe
Dendrogramma
x x x
19 gruppi 18 gruppi 17 gruppi 14 gruppi 4 gruppi 8 gruppi 9 gruppi 7 gruppi 6 gruppi 5 gruppi
Scelta del livello di “taglio”
Definizione delle classi della partizione
La misura del grado di somiglianza
Si può definire una applicazione d che faccia corrispondere un numero reale positivo o nullo a ciascuna coppia (i,h)
Condizioni:
1) Separabilità:
2) Simmetria:
3) Disuguaglianza triangolare:
4) Condizione di Krassner:
Parleremo di:
.) indice di dissimilarità → se si verificano le condizioni 1 e 2 .) metrica o distanza → se si verificano le condizioni 1, 2 e 3 .) ultrametrica → se si verificano le condizioni 1, 2 e 4
( ) i , h 0 e
ie
hd = ⇔ =
( ) i h d ( ) h i
d , = ,
( ) i h d ( ) ( ) i e d e h i h e
d , ≤ , + , ∀ , ,
( ) i h SUP [ d ( ) ( ) i e d e h ] i h e
d , ≤ , ; , ∀ , ,
• indici di similarità: dati booleani
• indici di distanza: dati numerici e frequenze
La misura del grado di somiglianza Dati binari
=
∀
=
=
=
≥
⇒
∈
∀
′
′
′
′
′
′
..., 1, se solo max S
) (simmetria
S S
0 S E ,
p j
x x e
e
j i ij i
i i i i i i i i
i
1 2 3 4 5 .. .. .. .. 10 .. .. .. .. 15 .. .. .. .. 20 ei 0 1 1 0 0 1 0 0 1 0 0 1 1 1 0 0 1 0 1 0 ei′ 0 1 1 1 0 0 0 0 1 1 1 1 1 1 0 1 1 0 1 0
ei′ ei′
1 0 1 0
1 a b → ei 1 8 1 9
ei 0 c d 0 4 7 11
12 8 20
a+ d = concordanza
• Indici di similarità:
• Indice di Sokal-Michener: 0 , 1 0 . 7 5 a + d ( ) 1 5
a + b + c + d 2 0
S
i i′= ∈ → =
• Coefficente di Jaccard: 0,1 0.6 ( ) 8
ii
13 S a
a b c
′
= ∈ → =
+ +
La misura del grado di somiglianza Dati binari
e1 . . ei
ei ′ . . en
e1. . ei ei ′ . . en
1 1
1
Sii′
Si ′i
Matrice di Similarità
• quadrata n × n
• simmetrica
• diagonale = 1
Indice di dissimilarità
i i i
i S
d ′ = 1 − ′
La misura del grado di somiglianza Dati numerici
• Metrica di Minkowsky
h
j
h j i ij h
i
i
x x
d
1
-
= ∑
′′
Caso particolare
• h=2 Distanza Euclidea
•
• h=1 Distanza di Manhattan (city block)
( )
12j
2 2
= ∑ x
ij- x
i′jd
∑
′=
j
j i ij
- x x d
14 2 e
1e
2x
12x
22x
11x
21( )
12 2 2 2
2 1
4 2 4.472 4 2 6
d d
= + =
= + =
La misura del grado di somiglianza Frequenze
2
.
- 1
= ∑
′
′
′
j i.
j i
i.
ij
j i
i
f
f f f d f
2
.
- 1
ij i jjj
i i .j .j
f f
d f f f
′
′
′
= ∑
• Distanza tra due righe i e i’:
• Distanza tra due colonne j e j’:
Un esempio (Criterio della distanza minima Criterio della distanza minima)
a b c d e f g
a b c d e f g
a 0 1 3 6 7 11 16
b 0 2 5 6 10 15
c 0 3 4 8 13
d 0 1 5 10
e 0 4 9
f 0 5
g 0
ab c de f g
ab 0 2 5 10 15
c 0 3 8 13
de 0 4 9
f 0 5
g 0
abc de f g
abc 0 3 8 13
de 0 4 9
f 0 5
g 0
abcde f g
abcde 0 4 9
f 0 5
g 0
abcdef g
abcdef 0 5
g 0
a b c d e f g
1 2 3 4 5 6
I diversi criteri di raggruppamento
Gruppo A Gruppo B
•
• Criteri per la determinazione della distanza tra due gruppi Criteri per la determinazione della distanza tra due gruppi
Distanza minima
a. b. Distanza massima
Distanza centroidi
c. d. Distanza media
;
;
x x
•
• Criteri basati sull’inerzia dei gruppi Criteri basati sull’inerzia dei gruppi Metodo di Ward Metodo di Ward
I diversi criteri di raggruppamento
•
• Criteri basati sull’inerzia dei gruppi Criteri basati sull’inerzia dei gruppi Metodo di Ward Metodo di Ward Il metodo di Ward è basato sulla minimizzazione della varianza
all’interno dei gruppi
Teorema di Huyghens:
g
xi
gi
gj
gk g
Inerzia totale = Inerzia entro le classi + Inerzia tra le classi
• Varianza tra i gruppi in caso di n classi: massima
• Varianza tra i gruppi in caso di una classe: nulla
• Obiettivo della partizione è minimizzare la quota di variabilità interna ai gruppi, massimizzando al contempo la variabilità tra i gruppi, così da ottenere classi omogenee al loro interno e ben separate l’una dall’altra
• L’algoritmo di Ward aggrega, ad ogni passo intermedio, gli oggetti (gruppi o
unità) che determinano la perdita di inerzia tra le classi minima.
I diversi criteri di raggruppamento
a b c d e f g
a b c d e f g a b c d e f g a b c d e f g Distanza
Distanza minima minima
Distanza Distanza massima massima
Distanza Distanza media media
I passi di una classificazione gerarchica
1 … p 1
:
n
Matrice dei dati
1
:
n
1 … n
Matrice delle distanze
1
:
n-1
1 … n-1
Matrice delle distanze
1 2
1 … 2
Matrice delle distanze
1
:
n
1 … n
Matrice delle ultrametriche
. . .
La descrizione delle classi: I valori-test
a)
a) variabili continue : ~ N(0,1)
b)
b) variabili nominali
~ N(0,1)
Variabilej Media classek
Media generale
Numerosità totale
Numerosità classek
( )
1 N
n N n
x X x
t
k k 2 j
j jk j
k
−
⋅ − σ
= −
( ) ( )
1 N
n N n
P 1 P
P X p
t
k k
j j
j jk j
k
−
⋅ −
−
= −
Varianza variabilej
La definizione delle classi
Classe Generale 2,81 104,10 85,78 Carne
2,20 6,20 4,22 Burro
2,16 13,94 12,27 Uova
1,05 91,92 81,31 Patate
0,33 37,18 36,38 Zucchero
-0,39 76,08 78,21 Cereali -0,47 120,14 128,41 Latte -0,87 77,26 95,61 Verdure
-2,02 3,24 4,17 Riso
V. test Media
Variab.
Classe Generale 2,46 161,63 128,41 Latte 2,09 40,29 36,38 Zucchero
0,33 4,44 4,22 Burro
-0,15 4,11 4,17 Riso
-1,12 11,61 12,27 Uova
-1,30 71,20 81,31 Patate -1,82 70,51 78,21 Cereali -2,03 62,90 95,61 Verdure -2,61 72,76 85,78 Carne V. test Media
Variab.
Classe Generale 3,26 175,78 95,61 Verdure 2,50 94,35 78,21 Cereali
2,33 5,43 4,17 Riso
0,37 85,75 81,31 Patate
-0,01 85,68 85,78 Carne
-1,03 11,35 12,27 Uova
-2,32 80,62 128,41 Latte
-2,73 1,35 4,22 Burro
-2,74 28,52 36,38 Zucchero V. test Media
Variab.
Classe 1 BE, FR, GE, DA, IR
Classe 2
AU, OL, SV, FI, GB, NO, IS
Classe 1 SP, PO, GR, IT
( ) 18 6 . 53 . 32 1
16 5 16 5
70 . 290
78 . 85 10 .
t Carne , Cl . 1 104 =
−
⋅ −
= − 2.81
es.:
Le “tipologie”
La dieta mediterranea
La dieta iperproteica
La dieta grassa
L’analisi degli sbocchi L’analisi degli sbocchi occupazionali dei laureati occupazionali dei laureati
delle Facoltà di Scienze delle Facoltà di Scienze Politiche e di Economia Politiche e di Economia
di Macerata
di Macerata
Il piano delle interviste
74%
339 251
Totale
81%
159 Economia 129
Bancaria
68%
180 Scienze 122
Politiche
% Tot. Laureati
Intervistati
Conoscere le caratteristiche dei laureati della Facoltà di Scienze Politiche (Luglio 1995 - Gennaio 1998) e i loro sbocchi occupazionali
Obiettivo
Le variabili attive
1. Corso di laurea (Scienze Politiche; Economia Bancaria)
2. Genere (M; F)
3. Residenza (MC; provincia MC; altra prov.)
4. Età alla laurea (24-25; 26-28; >28)
5. Voto di laurea ( ≤ 95; 96-104; 105-109; 110-110e lode)
6. Diploma (Liceo; Tecnico Comm.; Altro Tecnico; Altro Diploma)
7. Voto diploma (36-42; 43-48; 49-54; 55-60)
8. Area Tesi (Economica; Giuridica; Aziendale; Altra)
9. Anni laurea (4-5a.a.; 6-7a.a.; 8 e più)
10. Posizione durante gli studi (Studente Lav.; Part-time; Studente)
10 variabili 35 modalità
Le variabili illustrative
• Borse post-laurea
• Specializzazione
• Colloqui post-laurea
• Esigenze mercato
• Condizione occupazionale
• Scelta universitaria
• Tempo prima occupazione
• Canali
• Corrispondenza Laurea/Lavoro
• Soddisfazione lavoro
• Preparazione universitaria
Id. Genere Età Profess. Tit. studio Reddito … 1 maschio 35 Operaio Media inferiore 2,200 … 2 maschio 21 Studente Media Superiore 0,000 …
3 femmina 46 Dirigente Laurea 3,800 …
:
n maschio 71 Pensionato Media inferiore 1,700 …
• ACM - La matrice dei dati
Id. Genere Età Profess. Tit. studio Reddito …
1 1 35 2 2 2,200 …
2 1 21 1 3 0,000 …
3 2 46 3 4 3,800 …
:
n 1 71 4 2 1,700 …