• Non ci sono risultati.

Bozze MARCELLO CHIODI 202

N/A
N/A
Protected

Academic year: 2022

Condividi "Bozze MARCELLO CHIODI 202"

Copied!
87
0
0

Testo completo

(1)

Bozze

MAR

CELLO

CHIODI

Indice 2020

1 Richiami di algebra matriciale 4

1.1 Introduzione . . . 4

1.1.1 Rango di una matrice . . . 6

1.1.2 Traccia di una matrice . . . 8

1.1.3 Matrice inversa . . . 9

1.1.4 Matrici ortogonali . . . 14

1.1.5 Matrici idempotenti. . . 14

1.1.6 Forme quadratiche . . . 16

1.2 Calcolo differenziale con vettori e matrici . . . 16

1.2.1 Gradiente di una funzione . . . 16

1.2.2 Hessiano di una funzione . . . 16

1.2.3 Derivate di forme lineari e quadratiche . . . 17

1.2.4 Derivate di inverse e di determinanti . . . 18

1.3 Autovalori e autovettori . . . 19

1.3.1 Definizione di autovettore e autovalore . . . 19

1.3.2 Propriet`a generali degli autovalori . . . 20

1.3.3 Autovalori e autovettori di matrici simmetriche . . . 21

2 Vettori aleatori 25 2.1 Momenti primo e secondo multivariati di vettori aleatori . . . 25

2.1.1 Momenti di una trasformata lineare di un vettore aleatorio . . 27

2.2 Analisi delle componenti principali (ACP), solo cenni . . . 36

2.2.1 Significato statistico e probabilistico delle componenti principali 39 3 Variabili Statistiche Multiple 40 3.1 Calcoli statistici in notazione vettoriale . . . 41

3.1.1 Espressione della varianza di una variabile statistica . . . 41

3.2 Definizione della matrice dei dati . . . 45

3.2.1 Dati mancanti . . . 47

3.3 I momenti primi e secondi multivariati . . . 48

3.3.1 La matrice di varianza e covarianza . . . 50

3.3.2 La matrice di correlazione . . . 50

3.3.3 esempio . . . 52

3.4 La matrice degli scarti . . . 54

3.4.1 I momenti di combinazioni lineari di variabili statistiche multiple 56 3.4.2 Rango della matrice di Varianze e Covarianze . . . 58

(2)

Bozze

MAR

CELLO

CHIODI

2020

4 link esterni e argomenti mancanti 59

4.1 Cenni all’analisi in componenti principali . . . 62

4.1.1 Richiamo su autovalori e autovettori . . . 64

4.1.2 Esempio . . . 68

4.2 ANALISI DELLE COMPONENTI PRINCIPALI . . . 84

4.2.1 ACP per variabili statistiche osservate . . . 89

4.2.2 Distribuzione campionaria degli autovalori . . . 93

4.2.3 significato dei primi due momenti multivariati empirici . . . . 95

(3)

Bozze

MAR

CELLO

CHIODI

Elenco delle figure 2020

3.1 matrice di grafici di 4 variabili . . . 52

3.2 Matrice di correlazione delle 4 variabili dell’esempio dei neonati . . . 53

4.1 Tre variabili correlate: matrice di grafici di punti di tre variabili molto correlate; tuttavia il rango della matrice di varianza e covarianze `e 3 perch`e non vi sono vincoli lineari esatti.. . . 63

4.3 Tre variabili standardizzate correlate (matrix plot). . . 85

4.4 Le tre componenti principali (matrix plot) . . . 86

4.5 Tre variabili standardizzate correlate . . . 87

4.6 Le tre componenti principali . . . 88

4.7 Retta di minima distanza (ortogonale!) dai punti osservati: regres- sione principale . . . 91

(4)

Bozze

MAR

CELLO

CHIODI

Capitolo 1 2020

Richiami di algebra elementare delle matrici per lo studio dei modelli statistici lineari

Contents

1.1 Introduzione . . . 4

1.1.1 Rango di una matrice . . . 6

1.1.2 Traccia di una matrice . . . 8

1.1.3 Matrice inversa . . . 9

1.1.4 Matrici ortogonali . . . 14

1.1.5 Matrici idempotenti . . . 14

1.1.6 Forme quadratiche . . . 16

1.2 Calcolo differenziale con vettori e matrici . . . 16

1.2.1 Gradiente di una funzione . . . 16

1.2.2 Hessiano di una funzione . . . 16

1.2.3 Derivate di forme lineari e quadratiche . . . 17

1.2.4 Derivate di inverse e di determinanti . . . 18

1.3 Autovalori e autovettori . . . 19

1.3.1 Definizione di autovettore e autovalore . . . 19

1.3.2 Propriet`a generali degli autovalori . . . 20

1.3.3 Autovalori e autovettori di matrici simmetriche . . . 21

1.1 Introduzione

E’ un richiamo delle nozioni e degli strumenti tecnici necessari per una trattazione agevole degli argomenti che coinvolgono, in varia misura, vettori di variabili casuali

(5)

Bozze

MAR

CELLO

CHIODI

2020

e vettori di variabili casuali normali. La strumentazione di calcolo vettoriale e ma- triciale `e anche essenziale per lo studio delle variabili statistiche multiple e per lo studio dei modelli lineari.

Sebbene questi appunti siano stati concepiti come supporto ad alcuni dei miei corsi per studenti di area statistica, possono essere un breviario utile per corsi di analisi statistica multivariata e analisi dei modelli lineari di dipendenza.

• Ove possibile, viene enfatizzato il significato statistico e/o probabilistico delle propriet`a delle matrici richiamate.

• In particolare verranno evidenziate alcune propriet`a di matrici di varianza e covarianza, sia per vettori di variabili aleatorie che variabili statistiche multiple (rilevate attraverso una matrice di dati).

• Sebbene le propriet`a del calcolo matriciale siano comunque importanti, ho evidenziato qui solo quelle che nel resto del corso vengono utilizzate.

• Presuppongo che lo studente che legge questa sezione abbia le necessarie no- zioni di algebra lineare (ed eventualmente questo `e il momento buono per aggiornare o integrare le proprie nozioni).

• Queste nozioni sono essenziali per lo studio dei modelli lineari: tale studio risulter`a in questo modo molto scorrevole e di semplice comprensione (spero!)

• Lo studio delle propriet`a delle matrici e dei vettori di variabili casuali `e an- che finalizzato allo studio delle variabili aleatorie con distribuzione norma- le multivariata, modello parametrico multivariato importante per uno studio approfondito dei modelli lineari.

In molti esempi e casi di studio esposti in queste pagine, si ha a che fare in vario modo con problemi che coinvolgono p variabili rilevate su n unit`a (in generale tratter`o, nel corso sui modelli lineari, sia variabili quantitative che qualitative, ma in questo richiamo su matrici e vettori aleatori mi riferisco solo a variabili quantitative;

eventualmente qualche variabile pu`o essere costituita solo da 0 e 1).

Accade spesso che di queste variabili una sia oggetto di interesse e che se ne voglia studiare la dipendenza dalle altre; in altre situazioni magari vogliamo studiare il comportamento simultaneo delle variabili.

Talora le n osservazioni sono da considerarsi come un campione casuale semplice da una qualche distribuzione multivariata, oppure come determinazioni di variabili che contengono delle componenti aleatorie (come per esempio nei modelli lineari)

In ogni caso non v’`e dubbio che `e utile definire (o ricordare) alcuni concetti rela- tivi alle distribuzioni di vettori aleatori, per generalizzare la definizione di momento gi`a nota nel caso univariato, almeno per il momento primo e secondo; sebbene i risultati che vedremo abbiano validit`a generale, uno degli scopi sar`a quello di im- padronirci degli strumenti tecnici necessari per lo studio dei modelli lineari e della distribuzione normale multivariata e per apprezzarne l’importanza come modello di base per i modelli di dipendenza e di regressione lineare semplice e multipla.

Un altro motivo dell’importanza degli strumenti di questo capitolo `e la familiariz- zazione con il linguaggio dei vettori e delle matrici, che consente in molti problemi

(6)

Bozze

MAR

CELLO

CHIODI

2020

multivariati di adottare una notazione compatta, semplice e del tutto analoga a quella univariata, come si vede anche nel capitolo sulle matrici di dati e la notazione matriciale per i calcoli statistici. In effetti gli strumenti tecnici di questo capitolo sono necessari per lo studio dei seguenti argomenti:

• combinazioni (lineari) di variabili casuali

• distribuzione normale multivariata

• forme quadratiche in variabili casuali normali

• inferenza nei modelli statistici lineari

• regressione multipla

• GLM (generalized linear models)

• Modelli di dipendenza non parametrica

• analisi componenti principali per vettori aleatori

• analisi serie temporali

• analisi esplorativa dei dati

• tecniche multivariate

• Qualsiasi altra tecnica statistica moderna non esplictamente citata nei punti precedenti...

un esempio

La normale multivariata

1.1.1 Rango di una matrice

Il rango di una matrice A qualsiasi, ρ(A), `e definito come:

il massimo numero di righe (o colonne) linearmente indipendenti op- pure:

il massimo ordine per il quale si possono estrarre minori non tutti nulli da una matrice qualsiasi A .

Alcune propriet`a del rango di una matrice:

ρ(AT) = ρ(A)

ρ(ATA) = ρ(AAT) = ρ(A) ρ(AB) ≤ min {ρ(A), ρ(B)}

ρ(A + B) ≤ ρ(A) + ρ(B)

(7)

Bozze

MAR

CELLO

CHIODI

2020

Rango della matrice di varianza e covarianza di un vettore aleatorio:

• Se in un vettore aleatorio composto da p v.a. elementari, una componente

`

e combinazione lineare delle altre, allora il rango della matrice di varianza e covarianza di X risulta uguale (al pi`u) a p − 1;

• in generale il rango di V [X] risulta uguale a p−k se esattamente k componenti sono ottenute attraverso combinazioni lineari (indipendenti) degli elementi di X.

• Il rango di V [X] risulta uguale esattamente a p (ossia a rango pieno) se e solo se le componenti di X sono linearmente indipendenti.

Nel caso di matrici di dati occorrer`a specificare che n ≥ p. Se invece n < p, ossia le variabili sono pi`u delle unit`a, il rango sar`a senz’altro inferiore a p e quindi esisteranno senz’altro dei vincoli lineari fra le variabili

Esempio 1.1.1 Ad esempio sia X una variabile aleatoria doppia, con componenti X1 e X2 con speranze matematiche nulle e matrice di varianza e covarianza (per ipotesi di rango 2):

V [X] = σ12 σ12

σ12 σ22

!

essendo X = (X1, X2)T Se otteniamo ora un nuovo vettore aleatorio Y a tre com- ponenti, con:

y1 = X1 y2 = X2

y3 = 2X1+ 3X2,

abbiamo utilizzato in pratica una matrice di traformazione:

A =

1 0 0 1 2 3

cos`ı che Y =A X corrisponde alla trasformazione prima definita.

Per ottenere la matrice di varianza e covarianza di Y dovremo utilizzare la regola:

V [Y] = AV [X] AT, ottenendo:

V [Y] =

c1 c2 c3

r1 : σ12 σ1212+ 3σ12 r2 : σ12 σ2212+ 3σ22 r3 : 2σ12+ 3σ1212+ 3σ2212+ 12σ12+ 9σ22

(8)

Bozze

MAR

CELLO

CHIODI

2020

E’ immediato verificare che la terza riga (colonna) di V [Y] si ottiene come combi- nazione lineare delle prime due righe:

r3 = 2r1 + 3r2,

ossia lo stesso vincolo lineare esistente fra le componenti di y.

Pertanto ρ(V [Y]) = 3 − 1 = 2.

Rango della matrice di varianza e covarianza e relazioni fra variabili La sola conoscenza del rango di una matrice di varianza e covarianza ci dice poco sul tipo di interrelazioni (eventualmente lineari) esistenti fra le p com- ponenti del vettore aleatorio: ci dice solo se esistono uno o pi`u legami lineari esatti.

Esistono altre indicatori associati alle matrici di varianza e covarianza che ci consentono di sapere qualcosa di pi`u su tali interrelazioni.

1.1.2 Traccia di una matrice

La traccia di una matrice A[p×p] quadrata, tr(A), `e definita come la somma degli elementi sulla diagonale principale:

tr(A) =

p

X

i=1

aii

Alcune propriet`a della traccia di una matrice:

tr(ATA) = tr(AAT) =

p

X

i=1 k

X

j=1

a2ij (A con p righe e k colonne)

• tr(cA) = c tr(A)

• tr(A + B) = tr(A) + tr(B) (A e B quadrate dello stesso ordine)

• tr(AB) = tr(BA) (A e B quadrate dello stesso ordine)

(9)

Bozze

MAR

CELLO

CHIODI

2020

Traccia della Matrice di Varianze e covarianze

Se X `e un qualsiasi vettore aleatorio a p componenti con matrice di varianza e covarianza V [X], la traccia di V [X] corrisponde alla somma delle varianze delle componenti di X , ossia alla somma delle dispersioni lungo gli assi coordinati:

tr(V [X]) =

p

X

i=1

V [Xi] =

p

X

i=1

σ2i

Varianza generalizzata

Un’altra misura di variabilit`a di una variabile aleatoria multipla X `e la varianza generalizzata (Wilks, 1932)

Vg[X] = Det[V [X]].

Il significato, anche in termini geometrici, di tale misura sar`a pi`u chiaro pi`u avanti, in termini di autovalori e di ellissoidi di equiprobabilit`a per variabili normali multiple.

Possiamo per`o vedere che Vg[X] pu`o essere nulla anche se tutte le varianze sono maggiori di zero, e precisamente nel caso in cui V [X] `e di rango non pieno, ossia esiste almeno un vincolo lineare esatto fra le componenti di X.

(La varianza generalizzata pu`o essere ben interpretata per distribuzioni condi- zionate di variabili normali multivariate; ma anche come prodotto degli autovalori, ossia delle varianze delle componenti principali; o come volume dell’ellissoide di equiprobabilit`a in una normale multivariata)

1.1.3 Matrice inversa

Data una matrice quadrata A , (A[p×p]), con |A| 6= 0, si definisce inversa di A , e si indica con A−1, una matrice tale che:

AA−1 = A−1A = Ip matrice identit`a

La condizione |A| 6= 0, ossia che A sia di rango pieno, `e necessaria e sufficiente per l’esistenza e l’unicit`a di A−1.

E’ noto infatti che l’elemento generico della matrice inversa (A)−1 `e dato da:

nA−1o

ij = Aji

|A|

essendo Aij il cofattore di aij ;

(10)

Bozze

MAR

CELLO

CHIODI

2020

Inversa di una matrice quadrata a rango pieno

Pertanto l’inversa `e uguale alla trasposta della matrice aggiunta diviso il determinante della matrice.

nA−1o

ij = Aji

|A|

essendo Aij il cofattore di aij ;

Ovviamente `e una definizione utile solo per la dimostrare l’esistenza dell’ inversa, ma non `e conveniente numericamente per il calcolo: meglio ricorrere al metodo di Gauss-Siedel, o ad altri metodi di riduzione con la ricerca di elementi di pivot.

E’ evidente che si far`a ricorso, come sempre, a software matematico statistico, fornito sempre di buone routines per il calcolo dei determinanti e dell’inversa di una matrice: occorre comunque sempre accertarsi del grado di precisione fornito dal software usato, e cercare di usare la massima precisione numerica possibile;1

Il software R, con licenza di tipo public domain, ha degli algoritmi comunque ottimizzati per il calcolo matriciale (estremamente semplice da usare, dato che gli enti fondamentali in questo linguaggio sono le matrici e gli array, che si manipolano con funzioni che accettano matrici come argomenti).

Per impiegare al meglio R per l’algebra lineare, occorre installare R con le librerie openblas, in modo tale che R usi un set di istruzioni ottimizzate per buona parte di processori.

ALCUNE PROPRIET `A DELL’INVERSA DI UNA MATRICE

A, B quadrate di rango pieno

AT−1 = (A−1)T

(A−1)−1 = A

A−1 `e simmetrica se e solo se A `e simmetrica A−1 `e diagonale se e solo se A `e diagonale

|A−1| = |A|−1

(AB)−1 = B−1A−1

1ad esempio alcuni software nella risoluzione di sistemi di equazioni lineari, utilizzano una

”extended precision calculation” che `e sempre bene usare

(11)

Bozze

MAR

CELLO

CHIODI

2020

Significato degli elementi dell’inversa di una matrice di varianza e cova- rianza

Anche gli elementi dell’ inversa di una matrice di varianza e covarianza hanno un preciso significato probabilistico statistico in termini di distribuzioni condizionate, link con (vedere anche → normale multivariata )

come si vedr`a pi`u avanti a proposito della normale multivariata.

Gli elementi non diagonali sono funzione della correlazione lineare condizionata, mentre gli elementi diagonali sono legati alla correlazione multipla. adv.

Inversa di una matrice simmetrica partizionata

Supponiamo di avere una matrice simmetrica partizionata in quattro blocchi:

A = A11 A12 A21 A22

!

(primo e quarto blocco quadrati, e A12 = A21) Poniamo intanto:A11.2 = A11− A12A−122AT12 il motivo di questa notazione sar`a chiarissimo (o almeno un po’ meno oscuro di quanto non sia adesso) nel capitolo sulle distribuzioni condizionate di varia-

bili normali multivariate. link con distribuzioni condizionate di variabili normali Si pu`o dimostrare che, se esiste A−122, l’inversa della matrice partizionata pu`o

essere espressa come:

A−1 = A−111.2 −A−111.2A12A−122

−A−111.2A12A−122 A−122[AT12A−111.2A12A−122 + I]

!

Si ha anche:

|A| = |A11− A12A−122AT12||A22| = |A11.2||A22|

Il risultato sull’inversa di una matrice partizionata, arduo da ricordare, si di- mostra effettuando il prodotto (sia destro che sinistro) per la matrice originaria partizionata A e verificando che si ottiene la matrice identit`a.

Questo risultato `e utile per ricavare le distribuzioni condizionate di variabili normali multivariate.

Nella regressione lineare multipla pu`o servire il risultato particolare nel caso in cui A11 `e uno scalare a e quindi A12`e un vettore riga che indico con yT. Il risultato

`e utile per esempio quando si aggiunge una riga, ossia si aggiunge una variabile, ad una matrice di varianza e covarianza di cui gi`a si conosce l’inversa.

Abbiamo quindi:

A = a yT

y A22

!

Si ha allora:

a11.2 = a − yTA−122y

(12)

Bozze

MAR

CELLO

CHIODI

2020

e quindi:

A−1 = 1/a11.2 −yTA−122/a11.2

−yTA−122/a11.2 A−122[yyTA−122/a11.2+ I]

!

semplificabile in:

A−1 = 1 a11.2

1 −yTA−122

−yTA−122 A−122(yyTA−122 + Ia11.2)

!

Si ha in questo caso anche:

|A| = |a − yTA−122y||A22| = |a11.2||A22| Determinante e inversa di una matrice simmetrica orlata

Il risultato relativo a matrici A simmetriche orlate, o partizionate in una riga e (p − 1) righe (e quindi 1 colonna e (p − 1) colonne) pu`o essere ricavato in modo diretto senza far ricorso al risultato generale.

Il risultato `e utile per ricavare le formule relative alla devianza spiegata nella regressione multipla e per ottenere gli indici di correlazione lineare parziale e sar`a applicato a matrici di correlazione o di varianza e covarianza.

Sar`a utile per attribuire un significato statistico agli elementi dell’inversa di una matrice di varianza e covarianza2

Supponiamo quindi di avere una matrice simmetrica A di rango pieno p cos`ı partizionata:

A = a yT

y A22

!

ove:

• a `e uno scalare

• yT `e un vettore riga

• A22`e una matrice di rango p − 1 (ovviamente simmetrica) di cui si conoscono l’inversa (A22)−1 e il determinante |A|.

Troviamo prima il determinante di A in funzione di quello di A22.

Consideriamo una matrice B (partizionata in quattro parti delle stesse dimen- sioni delle parti di A ) cos`ı definita:

B = 1 0T

0 (A22)−1

!

E’ facile vedere, effettuando il prodotto AB, che si ha:

AB = a yT y A22

! 1 0T 0 (A22)−1

!

= a yT(A22)−1

y I

!

2Dal momento che il risultato verr`a utilizzato pi`u volte in questo testo, ho ritenuto utile inserirne anche una dimostrazione elementare, che non `e comunque essenziale per l’impiego successivo che faremo del risultato di questa sezione nella regressione parziale e multipla

(13)

Bozze

MAR

CELLO

CHIODI

2020

Per l’ultima matrice `e facile vedere che:

a yT(A22)−1

y I

!

= a − yT(A22)−1y

Mettendo insieme le relazioni precedenti e applicando le propriet`a dei determi- nanti di prodotti di matrici si ha:

|A||B| = |AB| = a − yT(A22)−1y Dal momento che si ha anche evidentemente:

|B| =

1 0T

0 (A22)−1

!

= (A22)−1 = 1/|A22|, mettendo insieme le ultime due relazioni si ha infine:

|A| = a − yT(A22)−1y

|B| = (a − yT(A22)−1y)|A22|. (1.1) Questo risultato consente semplicemente si ottenere esplicitamente il primo ele- mento dell’inversa di A , ossian(A)−1o

11. Infatti:

n(A)−1o

11= cofattore({A}11)

|A|

Dato che:

cofattore({A}11) = |A22| e |A| = (a − yT(A22)−1y)|A22| si ha:

n(A)−1o

11 = cofattore({A}11)

|A| = |A22|

(a − yT(A22)−1y)|A22| =

= 1

a − yT(A22)−1y (1.2)

adv.

Matrice inversa generalizzata

In certi casi, ad esempio per la risoluzione di sistemi di equazioni lineari a rango non pieno, conviene ricorrere alla cosiddetta inversa generalizzata.

inserire almeno un esempio numerico, se no il paragrafo non funziona

Data una matrice (anche rettangolare) di rango qualsiasi A , si definisce inversa generalizzata di A , e si indica con A, una matrice tale che:

AAA = A

(14)

Bozze

MAR

CELLO

CHIODI

2020

L’inversa generalizzata di una qualsiasi matrice non `e unica, tranne che per le matrici quadrate di rango pieno, per le quali si ha chiaramente: A = A−1

L’inversa generalizzata fornisce una delle soluzioni del sistema di equazioni li- neari:

Ax = b

di rango anche non pieno, ovviamente nel caso in cui siano soddisfatte le condizioni per l’esistenza di soluzioni, ossia ρ(A) = ρ(A|b).

Infatti con successive trasformazioni:

(A)x = b; (AAA)x = b;

(AA)(Ax) = b (AA)b = b;

e infine:

A(Ab) = b,

per cui x = Ab `e una soluzione del sistema originario.

Se la matrice A `e simmetrica valgono ulteriori propriet`a. Si vedr`a poi che me- diante la decomposizione spettrale `e possibile determinare una inversa generalizzata di una matrice simmetrica.

In effetti la definizione di inversa generalizzata `e utile essenzialmente perch`e consente di esprimere in modo compatto una generica soluzione di un sistema di equazioni lineari anche di rango non pieno.

1.1.4 Matrici ortogonali

Si definisce ortogonale una matrice quadrata A di p righe e p colonne la cui trasposta coincide con l’inversa:

Definizione di matrice ortogonale A

AT = A−1 ⇒ AAT= ATA = I

1.1.5 Matrici idempotenti

Si definisce idempotente una matrice quadrata A di p righe e p colonne uguale al proprio quadrato:

Definizione di matrice idempotente A A = AA

(15)

Bozze

MAR

CELLO

CHIODI

2020

Se A `e idempotente allora valgono le seguenti propriet`a:

A = AA = . . . = An ∀n, n > 0 A `e uguale a tutte le sue potenze An `e idempotente ∀n, n > 0. Tutte le potenze di A sono idempotenti

I − A `e idempotente infatti:

[I − A][I − A] = I2− 2A + A2 =

= I − 2A + A = I − A

tr(A) = ρ(A) La traccia di A `e uguale al suo rango Indicando con λi gli autovalori di A si ha:

( λi = 1 se i = 1, 2, . . . , ρ(A) λi = 0 se i = ρ(A) + 1, . . . , p

Infatti dal momento che gli autovalori delle potenze di una matrice sono uguali alle potenze degli autovalori, essendo A = AA, si deve avere λi = λ2i, per cui λi pu`o essere solo 0 o 1.

Risulta ovvio dalla definizione che l’unica matrice idempotente di rango pieno `e la matrice identit`a; gli scalari idempotenti sono 0 e 1.

Esempio

H = X(XTX)−1XT, ∀X, purch`e esista:XTX−1

`e una matrice idempotente (con ρ(H) = ρ(X)), come si verifica facilmente effettuando il prodotto:

HH = X(XTX)−1XTX(XTX)−1XT= X(XTX)−1XT= H.

Il concetto di matrice idempotente, in assoluto non particolarmente rilevante, `e uno strumento tecnico che sar`a utilissimo per lo studio delle propriet`a delle forme quadratiche in variabili normali, e per lo studio di particolari quantit`a che scaturi- scono dall’analisi dei modelli lineari; proprio nei modelli lineari la matrice H viene chiamata hat matrix, per motivi chiariti in quel capitolo.

Esempi di matrici idempotenti di rango 2

Come `e facile verificare mediante calcolo diretto, le seguenti matrici sono tutte idempotenti:

A1 =

9/17 8/17 −2/17 −2/17 8/17 9/17 2/17 2/17

−2/17 2/17 8/17 8/17

−2/17 2/17 8/17 8/17

A2 =

2/3 −1/3 1/3

−1/3 2/3 1/3 1/3 1/3 2/3

A3 =

1 0 0

0 1/5 2/5 0 2/5 4/5

(16)

Bozze

MAR

CELLO

CHIODI

2020

1.1.6 Forme quadratiche

Se A `e una matrice quadrata simmetrica p × p, e t `e un vettore di p componenti, si definisce forma quadratica la funzione omogenea di secondo grado:

Q = tTAt = a11t21+ a22t22+ . . . + aiit2i + . . . + appt2p+ +2a12t1t2+ . . . + 2aijtitj + . . . + 2ap−1,ptp−1tp

Forme Quadratiche positive

se tTAt > 0, ∀t, t 6= 0 : ⇒ A `e definita positiva se tTAt ≥ 0, ∀t, t 6= 0 : ⇒ A `e semidefinita positiva

In effetti si dice definita (o semidefinita) sia la matrice che la forma quadratica corrispondente.

Significato geometrico delle forme quadratiche

Una forma quadratica definita positiva definisce un’ellissoide in uno spazio p-dimensionale mediante l’equazione tTAt = k. Il volume di tale ellissoide `e funzione del de- terminante della matrice A. Questo aspetto sar`a importante quando si parler`a di

distribuzione normale multivariata. inserire

esempi e figure

1.2 Calcolo differenziale con vettori e matrici

1.2.1 Gradiente di una funzione

Data una funzione di k variabili f (x1, x2, . . . , xk), si definisce gradiente della funzio- ne il vettore (colonna!) formato dalle derivate parziali di f (·) rispetto a ciascuna variabile:

5f (x1, x2, . . . , xk)

(x1, x2, . . . , xk) = ∂f (x)

∂x =

∂f (x1,x2,...,xk)

∂x1

∂f (x1,x2,...,xk)

∂x2

...

∂f (x1,x2,...,xk)

∂xj

...

∂f (x1,x2,...,xk)

∂xk

(1.3)

1.2.2 Hessiano di una funzione

Data una funzione di k variabili f (x1, x2, . . . , xk), si definisce Hessiano della funzione la matrice formata dalle derivate parziali seconde di f (·) rispetto a ciascuna coppia di variabili:

(17)

Bozze

MAR

CELLO

CHIODI

2020

2f (x)

∂x∂xT =

2f (x)

∂x21 . . . ∂x2f (x)

1∂xj . . . ∂x2f (x)

1∂xk

. . . .

2f (x)

∂xi∂x1 . . . ∂x2f (x)

i∂xj . . . ∂x2f (x)

i∂xk

. . . .. . . .

2f (x)

∂xk∂x1 . . . ∂x2f (x)

k∂xj . . . 2∂xf (x)2 k

(1.4)

1.2.3 Derivate di forme lineari e quadratiche

Gradiente di combinazioni lineari di variabili:

∂xTb

∂x = b (x, b vettori di p componenti)

Infatti:

xTb = b1x1+ b2x2 + . . . + bpxp per cui la singola derivata parziale `e data da:

∂xTb

∂xi = bi i = 1, 2, . . . , p e quindi il risultato in forma vettoriale:

∂xTb

∂x = b

In generale, per il gradiente di un vettore di combinazioni lineari si ha:

∂xTB

∂x = B ove: x `e un vettore di p componenti e

B `e una matrice di p × k elementi e di elemento generico bij Gradiente ed Hessiano di una forma quadratica:

∂xTAx

∂x = 2Ax

2xTAx

∂x∂xT = 2A

x vettore (colonna!) di p componenti A `e una matrice simmetrica di p × p elementi e di elemento generico aij

Infatti:

Q = xTAx =

= a11x21+ a22x22+ . . . aiix2i + . . . + appx2p+ 2a12x1x2+ + . . . + 2aijxixj + . . . + 2ap−1,pxp−1xp

(18)

Bozze

MAR

CELLO

CHIODI

2020

∂Q

∂xi = ∂xTAx

∂xi =

= 2aiixi+ 2ai1x1. . . + 2aijxj+ . . . + 2aipxp

= 2aTi x essendo aTi l’ i -esima riga di A .

Quindi segue il risultato in forma vettoriale, tenendo presente che derivando rispetto a tutti gli elementi di x, le righe ai ricostituiscono la matrice A :

∂xTAx

∂x = 2Ax

Derivando ancora, si ottiene facilmente il risultato per le derivate seconde di una forma quadratica:

2xTAx

∂x∂xT = 2A Jacobiano di una trasformazione lineare:

Sia A una matrice quadrata; data la trasformazione lineare:

x = Ay + b, lo Jacobiano di tale trasformazione `e dato da:

J (y) =

∂x

∂y

= |A|

ossia il valore assoluto del determinante di A .

1.2.4 Derivate di inverse e di determinanti

Sia B = A−1, di elemento generico: bij = Aji/|A|, indicato con Aij il cofattore di aij in A si pu`o dimostrare che:

∂bij

∂ahk

= −bihbkj = AhiAjk/|A|2 Se A = AT (ossia A `e simmetrica)

∂|A|

∂aii = Aii

∂|A|

∂aij = 2Aij i 6= j (ricordando che |A| =Ppi=1aijAij).

(19)

Bozze

MAR

CELLO

CHIODI

2020

1.3 Autovalori e autovettori

Gli autovalori e gli autovettori 3 sono delle quantit`a associate ad una matrice quadrata, che ne riassumono alcune caratteristiche essenziali.

In particolare per una matrice simmetrica si possono dimostrare propriet`a molto forti.

Se poi la matrice simmetrica `e una matrice di varianza e covarianza, si possono attribuire particolari significati a tali quantit`a, sia nel caso di matrici di varianza e covarianza di vettori di variabili aleatorie che nel caso di matrici di varianza e covarianza empiriche di vettori di variabili statistiche osservate, sebbene la loro interpretabilit`a, dal punto di vista dello statistico, non sia sempre agevole, se non in particolari contesti.

Nell’analisi esplorativa dei dati sono importanti per misurare la correlazione ge- nerale fra tutte le variabili, per determinare il grado di collinearit`a presente in un insieme di dati multivariati o in un vettore di variabili aleatorie e per trovare un sistema di riferimento ortogonale (per rotazione).

In questo corso saranno impiegati per sscopi esplorativi e per lo studio della multicollinearit`a nella regressione multipla; per quanto riguarda i vettori aleatori, si vedr`a presto l’interpretazione migliore degli autovettori e degli autovalori per vettori aleatori distribuiti secondo una normale multivariata.

Nelle pagine che seguono vengono brevemente richiamate le propriet`a algebriche e geometriche degli autovalori e degli autovettori, con riferimento in particolare alle caratteristiche che verranno successivamente sfruttate nel corso. Resta sottinteso che si tratta semplicemente di un richiamo di nozioni che in modo pi`u completo e sistematico vanno approfondite, se non lo si `e gi`a fatto, in un corso di algebra lineare.

1.3.1 Definizione di autovettore e autovalore

Data la matrice quadrata A , si vuole trovare la soluzione non banale4 γ del sistema di equazioni:

Autovettore di una matrice quadrata A

Aγ = λγ

Si vuole quindi trovare un vettore γ la cui proiezione secondo lo spazio definito da A sia parallela al vettore stesso.

Si tratta di un sistema omogeneo nell’incognita γ , infatti:

Aγ − λγ = 0p

3Termini italiani: autovalore, radice caratteristica; Termini inglesi: characteristic roots, eigenvalue Termini italiani:autovettore, vettore caratteristico Termini inglesi: eigenvector

4Una soluzione non banale `e una soluzione con elementi non tutti nulli

(20)

Bozze

MAR

CELLO

CHIODI

2020

e quindi:

[A − λIp]γ = 0p

Condizione necessaria per avere una soluzione γ diversa dal vettore nullo `e che:

|A − λIp| = 0.

La precedente `e un’ equazione di grado p in λ, per cui vi saranno p autovalori

complessi (distinti e non): autovalori

λ1, λ2, . . . , λi, . . . , λp.

L’equazione `e di grado p in quanto sviluppando il determinante di A − λIp, il primo termine `e: Qpi=1(aii− λ) che risulta essere di grado p in λ

Di solito si conviene di normalizzare gli autovettori in modo tale che:

γTγ = 1.

Infatti in corrispondenza di ciascun autovalore λi vi sar`a certamente un’infinit`a di autovettori proporzionali γi (Si vede subito dalla definizione di autovettore: se γi `e un autovettore lo `e anche kγi).

In ogni caso resta l’ambiguit`a sul segno di γ.

1.3.2 Propriet` a generali degli autovalori

Dall’equazione fondamentale:

|A − λIp| = 0, si vede che il polinomio di grado p in λ:

q(λ) = |A − λIp|

si pu`o esprimere in funzione delle p radici complesse λi: q(λ) = |A − λIp| =

p

Y

i=1

i− λ)

(si pu`o dimostrare dalle propriet`a relative alla fattorizzazione dei polinomi).

Per cui si ha subito (sfruttando le propriet`a dei polinomi):

Traccia e determinante in funzione degli autovalori

|A| =

p

Y

i=1

λi

Il determinante di una matrice `e uguale al prodotto dei suoi autovalori.

tr(A) =

p

X

i=1

λi

La traccia di una matrice `e uguale alla somma dei suoi autovalori.

(21)

Bozze

MAR

CELLO

CHIODI

2020

1.3.3 Autovalori e autovettori di matrici simmetriche

Per gli autovalori e gli autovettori di una matrice simmetrica A si possono dimostrare propriet`a molto forti, corrispondenti a molte caratteristiche essenziali della matrice (in generale molte propriet`a valgono anche per matrici hermitiane, ossia con elementi aij e aji complessi coniugati, tuttavia per gli argomenti da noi trattati `e sufficiente riferirci a matrici simmetriche reali)

Se A `e simmetrica tutti gli autovalori e gli autovettori sono reali, per cui con- venzionalmente gli autovalori λi vengono indicizzati in ordine decrescente:

λ1 ≥ λ2 ≥ . . . ≥ λi ≥ . . . ≥ λp.

Se A `e simmetrica, il numero degli autovalori non nulli `e uguale a ρ(A) (rango di A ). Se per i 6= j i corrispondenti autovalori λi e λj sono distinti si ha:

( γTiγj = 0 (ortogonalit`a) γTij = 0

Infatti λi e λj, insieme ai corrispondenti autovettori, forniscono due soluzioni distinte del sistema di equazioni: Aγ = λγ, e quindi valgono contemporaneamente i due gruppi di eguaglianze:

(i = λiγij = λjγj

Premoltiplicando ambo i membri del primo sistema per γTj e i due membri del secondo per γTi otteniamo due eguaglianze fra scalari:

( γTji = γTjλiγi γTij = γTi λjγj

in cui i primi membri sono uguali, perch`e γTji `e la trasposta di γTij, ed essendo scalari sono uguali, per cui uguagliando i secondi membri si ha:

γTjλiγi = γTi λjγj e quindi:

γTi γji− λj) = 0

e infine, avendo supposto distinti i due autovalori, (λi − λj) 6= 0, per cui deve essere:

γTiγj = 0.

Saranno quindi nulli anche i primi membri, per cui:

γTij = 0.

In ogni caso si pu`o dimostrare per ogni autovalore di molteplicit`a m, m au- tovettori corrispondenti possono essere rimpiazzati da m loro combinazioni lineari indipendenti. Gli autovettori possono essere scelti in modo da soddisfare i vincoli di ortogonalit`a per ogni coppia i 6= j

γTiγj = 0 ed anche γTij = 0

(22)

Bozze

MAR

CELLO

CHIODI

2020

Pertanto se Γ `e la matrice che ha come colonne gli autovettori yi, allora per l’ortogonalit`a fra gli autovettori si ha:

ΓTΓ = I;

ed anche:

Γ−1 = ΓT, e quindi:

ΓΓT= I.

(queste ultime propriet`a valgono comunque per matrici ortogonali) Diagonalizzazione di una matrice simmetrica

Dalla definizione di autovettore si anche l’importante propriet`a:

(avendo posto Λ = Diag(λ)).

ΓTAΓ = Diag(λ) = Λ (1.5)

Dalla definizione si ha infatti:

i = λiγi Premoltiplicando ambo i membri per γTj si ha:

( γTii = λi se i = j γTji = 0 se i 6= j

La diagonalizzazione di una matrice simmetrica sar`a importante quando A `e una matrice di varianza e covarianza.

Dal risultato fondamentale sulla diagonalizzazione di una matrice simmetrica si pu`o ricavare un altro risultato molto utile:

D

ata una matrice simmetrica definita positiva A di rango pieno `e possibile sempre trovare una matrice B tale che:

BTAB = I

E’ facile vedere che le colonne della matrice B si ottengono riscalando gli auto- vettori di A, ossia con: γi/√

λi (dal momento che la matrice `e di rango pieno i suoi autovalori sono tutti positivi)

(23)

Bozze

MAR

CELLO

CHIODI

2020

Decomposizione spettrale di una matrice simmetrica

Dalla relazione1.5 ΓTAΓ = Λ, si ha anche, premoltiplicando ambo i membri per Γ e postmoltiplicando per ΓT:

Decomposizione canonica (o spettrale) di A

A = ΓΛΓT= λ1γ1γT1 + λ2γ2γT2 + . . . + λpγpγTp

relazione fondamentale per la ricostruzione di una matrice simmetrica a partire dagli autovettori. I primi k termini (k < p) forniscono un’approssimazione della matrice A di rango k.

Autovalori di inverse e di potenze

Vediamo che relazioni esistono fra gli autovalori e gli autovettori di una matrice e quelli della sua inversa e delle sue potenze.

Operiamo ancora sull’equazione che definisce gli autovalori e gli autovettori:

i = λiγi

Se il rango di A `e pieno, premoltiplicando ambo i membri per λ−1i A−1, si ottiene λ−1i A−1i = λ−1i A−1λiγi ⇒ λ−1i γi = A−1γi

e si vede facilmente che:

λi(A−1) = [λi(A)]−1 (a meno di un riordinamento degli indici)

Qualunque sia il rango di A , premoltiplicando ripetutamente ambo i membri per A , si dimostra per induzione che:

λi(Ak) = [λi(A)]k

In entrambi i casi gli autovettori sono sempre quelli di A . Matrice λ γ Decomposizione canonica A λi γi A = ΓΛΓT=Ppi=1λiγiγTi A−1(|A| 6= 0) λ−1i γi A−1 = ΓΛ−1ΓT=Ppi=1γiγTii Akk intero λki γi Ak= ΓΛkΓT=Ppi=1λkiγiγTi

(24)

Bozze

MAR

CELLO

CHIODI

2020

Autovalori di una forma quadratica definita positiva

Autovalori di una forma quadratica definita positiva

Una matrice simmetrica A `e definita positiva, se e solo se tutti i suoi autovalori sono positivi.

A `e semidefinita positiva, se e solo se tutti i suoi autovalori sono non negativi.

Infatti ricorrendo agli autovalori ed agli autovettori di A si pu`o scrivere A secondo la decomposizione canonica A = ΓΛΓT:

Q(x) = xTAx = xTΓΛΓTx Ponendo ora y = ΓTx, si ha:

Q(x) = yTΛy =

p

X

i=1

λiy2i da cui deriva il risultato sulla positivit`a di Q(x).

Si vede anche che una forma quadratica si pu`o sempre esprimere come somma ponderata di quadrati di variabili ruotate secondo gli autovettori di A.

Infatti si `e pu`o sempre trasformare un ellissoide qualsiasi, mediante opportune trasformazioni lineari ortogonali, in un ellissoide ad assi paralleli a quelli coordinati, e quindi, mediante cambiamenti di scala, in un’ ipersfera.

un esempio

Questi concetti saranno impegati nella sezione sull’analisi delle componenti prin- cipali (2.2 )

(25)

Bozze

MAR

CELLO

CHIODI

Capitolo 2 2020

Richiami di alcune propriet` a dei vettori aleatori.

Contents

2.1 Momenti primo e secondo multivariati di vettori aleatori 25 2.1.1 Momenti di una trasformata lineare di un vettore aleatorio 27 2.2 Analisi delle componenti principali (ACP), solo cenni . 36

2.2.1 Significato statistico e probabilistico delle componenti prin- cipali . . . 39

2.1 Momenti primo e secondo multivariati di vet- tori aleatori

Sia X un qualsiasi vettore di variabili casuali,sia discrete che continue, con p com- ponenti:

X = {X1, X2, . . . , Xi, . . . , Xp}T

Definiamo i primi due momenti di un vettore aleatorio , con una notazione

momenti di un vettore aleatorio

analoga a quella del caso univariato:

Momento primo e secondo multivariati vettore di speranze matematiche:

E [X] = µ momento primo (multivariato) dal- l’origine

matrice di varianze e covarianze:

V [X] = Eh(X − µ)(X − µ)Ti momento secondo (multivariato) centrale

Ovviamente nella definizione si presuppone l’esistenza dei momenti primi e secondi delle varie componenti e coppie di componenti.

(26)

Bozze

MAR

CELLO

CHIODI

2020

• µ `e un vettore di p elementi, con elemento generico:

E [Xi] = µi

• V [X] `e una matrice simmetrica p × p di elemento generico:

σij = {V [X]}ij = E [(Xi− µi)(Xj − µj)] = E [XiXj] − µiµj e quindi in definitiva si ha:

E [X] =

µ1 µ2 ... µi

... µp

V [X] =

σ21 . . . σ1i . . . σ1p . . . . σ1i . . . σ2i . . . σip . . . .. . . . σ1p . . . σip . . . σp2

Per gli elementi sulla diagonale principale di V [X], ossia per le varianze delle sin- gole componenti, invece della notazione σiisi impiega la notazione σ2i per uniformit`a col simbolismo nel caso univariato.

Momenti centrati e momenti secondi dall’origine

Vale la nota relazione in termini di momenti multivariati dall’origine:

V [X] = Eh(X − µ)(X − µ)Ti= EhXXTi− µµT

Si pu`o definire la matrice di correlazione, R(X), di elemento generico:

ρij = {R(X)}ij = σij σiσj

che, ovviamente, `e simmetrica ed ha elementi diagonali tutti uguali ad uno:

R(X) =

1 . . . ρ1i . . . ρ1p . . . . ρ1i . . . 1 . . . ρip . . . . ρ1p . . . ρip . . . 1

Dati gli argomenti che qui trattiamo, evidentemente abbiamo supposto di avere un numero p fissato di variabili, e non una sequenza di variabili aleatorie anche infinita, come avviene per esempio nella definizione di processi aleatori.

(27)

Bozze

MAR

CELLO

CHIODI

2020

E’ovviamente possibile definire momenti multivariati di X centrali e non centrali

momenti multiva- riati

di ordine superiore rispetto al secondo, ma per gli argomenti ora trattati non `e necessario.

Come per le variabili aleatorie semplici i momenti di ordine 3 e 4 forniscono degli indici di forma, i momenti multivariati di ordine superiore al secondo forniscono degli indici di forma multivariati, degli indicatori di allontanamento dalla multinormalit`a, indici di non linearit`a delle regressioni e di eteroscedasticit`a.

link con sezione uso dei momenti bivariati nell’analisi dei residui

In effetti la matrice di varianze e covarianze fornisce informazioni solo sulla variabilit`a delle singole componenti e sulle loro correlazioni lineari, sia per le distribuzioni congiunte che per quelle condizionate (elementi della matrice inversa). Per le combinazioni lineari di variabili si useranno gli autovalori e gli autovettori della matrice di varianze e covarianze.

link o riferimento

(vedere anche → schema delle relazioni lineari)

Come chiarito nella parte sulla normale multivariata, in analogia al caso uni- variato, la normale multivariata dipende solo dai primi due momenti multi- variati, per cui la conoscenza della matrice di varianza e covarianza `e in quel caso sufficiente per valutare qualsiasi relazione di tipo lineare fra componenti

link con normale multivariata

2.1.1 Momenti di una trasformata lineare di un vettore alea- torio

Sia ora Y una v.c. a k componenti, ottenuta mediante una qualsiasi trasformazione lineare di X:

Y = A[k×p]X + c[k×1]

La matrice A ha k righe e p colonne e per il resto `e qualsiasi, nel senso che il suo rango pu`o anche essere inferiore a min(k, p). Il vettore c ha k elementi. Con semplici passaggi si vede come data la matrice A e il vettore c `e possibile ottenere tutti i momenti di Y in funzione di quelli di X:

E [Y] = E [AX + c] = AE [X] + c = Aµ + c

V [Y] = V [AX + c] = Eh(AX + c − Aµ − c)(AX + c − Aµ − c)Ti=

= EhA(X − µ)(X − µ)TATi= AV [X] AT

(28)

Bozze

MAR

CELLO

CHIODI

2020

Momenti di una trasformazione lineare di un vettore aleatorio

Se X: Y = AX+c

E [AX + c] = AE [X] + c Speranza matematica V [AX + c] = AV [X] AT Matrice di varianze e covarianze

In particolare se k = 1 allora A `e un vettore riga bT, c `e uno scalare e Y `e una v.c. semplice y (ossia scalare) e si ha:

y = bTX + c e quindi:

E [y] = bTE [X] + c =

= b1µ1+ b2µ2+ . . . + bpµp + c V [y] = bTV [X] b =

= b21σ21 + b22σ22+ . . . + b2iσi2+ . . .

+ . . . + b2pσp2+ 2b1b2σ12+ . . . + 2bibjσij + . . . + 2bp−1bpσp−1,p

Formule pi`u complesse valgono per i momenti multivariati di ordine superiore al secondo, ma `e sempre possibile ricavare tutti i momenti (multivariati) di grado m di Y, sia centrali che non centrali, a partire dalla conoscenza della matrice di trasformazione A e dei momenti multivariati di grado 1, 2, . . . , m di X.

Esempio 2.1.1 Si hanno n variabili casuali Xi normali indipendenti con E [Xi] = µi e V [Xi] = σi2,

Quali sono i primi due momenti della nuova variabile aleatoria Zdefinita dalla relazione:

Z =

n

X

i=1

Xj2 E’ facile vedere che per ogni Xi si ha:

EhXi2i = µ2i + σ2i,

VhXi2i = EhXi4i− (EhXi2i)2 =

= µ4i + 6σi2µ2i + 3σi4− (µ2i + σi2)2

= 2(σi4+ 2σi2µ2i)

Riferimenti

Documenti correlati

Another important element of this switch which must be noted is the change of attitude towards emigrants, concerning the dual citizenship acquisition of

Anche se non si può affermare con sicurezza furono circa 18.000 i nuovi immigrati Italiani che varcarono i confini australiani 9 , tra cui molti con il fine

For migrants who register a return to their origin country, we observe an insignificant associ- ation of approximately 1 between Dutch citizenship and subsequent migration,

I Se x0 e un vettore di due componenti fzero assume che x0 ` e un intervallo e che il segno di fun(x0(1)) e diverso del segno di fun(x0(2))... Che cosa si osserva sulla velocit` a

I Se x0 e un vettore di due componenti fzero assume che x0 ` e un intervallo e che il segno di fun(x0(1)) e diverso del segno di fun(x0(2)).. Che cosa si osserva sulla velocit` a

 Le componenti di un sistema possono operare in modo indipendente, ma quando sono integrate in un sistema dipendono da altre componenti.

Questo semplificher` a l’analisi di nostri dati perch` e una matrice diagonale possiede tutti gli elementi fuori dalla diagonale pari a zero e quindi baster` a considerare i

Quindi, la funzione costante e la funzione identica sono casi particolari della funzione lineare.. E facile convincersi che per a 6= 0 la funzione lineare `e