• Non ci sono risultati.

Progettazione e sviluppo di metodi di selezione di caratteristiche per analisi di dati ad alta dimensionalità.

N/A
N/A
Protected

Academic year: 2021

Condividi "Progettazione e sviluppo di metodi di selezione di caratteristiche per analisi di dati ad alta dimensionalità."

Copied!
2
0
0

Testo completo

(1)

Baldini Paolo Progettazione e sviluppo di metodi di selezione di caratteristiche per analisi di dati ad alta dimensionalità

I

Premessa

La presente tesi descrive un lavoro di ricerca che si svolge nel campo dell’analisi di dati. In particolare, il contesto di lavoro è quello relativo alla classificazione di dati attraverso tecniche di data clustering.

Queste tecniche effettuano un’analisi multivariata dei dati volta ad individuare, all’interno di un insieme di dati apparentemente eterogenei, i dati tra loro il più possibile omogenei e a raggrupparli in classi distinte.

I dati (definiti anche come pattern o campioni) sono generalmente descritti attraverso un insieme di caratteristiche (in inglese, feature), che ne esprimono aspetti intrinseci.

Talvolta però i dati possono essere rappresentati in forma così detta relazionale; in questo caso ogni pattern è descritto in funzione di tutti gli altri, attraverso una determinata relazione. Il numero di caratteristiche diviene allora pari a quello dei pattern, che in genere è molto grande; ciò comporta innanzitutto una maggiore occupazione di memoria, e inoltre può indurre il fenomeno noto come maledizione dimensionale, cioè l’eccessivo numero di caratteristiche fa perdere definizione alla rappresentazione dei dati, impedendone la classificazione.

Una riduzione del numero di caratteristiche diviene allora importante sia per diminuire lo spazio di memoria occupato, che per eliminare la maledizione dimensionale. Ovviamente tale riduzione non deve inficiare le informazioni necessarie alla corretta classificazione dei campioni.

Nel caso di dati relazionali l’obiettivo di ridurre il numero di caratteristiche sembra raggiungibile in quanto la rappresentazione relazionale è in realtà intrinsecamente ridondante. In pratica non è necessario, descrivere ciascun pattern rispetto a tutti gli altri, ma è sufficiente riferirsi ad un una parte di essi.

Per farlo bisogna allora individuare quali campioni scegliere come riferimento, il che si traduceva di fatto in una selezione delle caratteristiche salienti nella rappresentazione relazionale.

(2)

Baldini Paolo Progettazione e sviluppo di metodi di selezione di caratteristiche per analisi di dati ad alta dimensionalità

II L’attività svolta in questa tesi si è proprio articolata in tal senso: sono state infatti sviluppate e sperimentate apposite tecniche di selezione di caratteristiche (feature selection) da applicare in contesto relazionale.

Inoltre si è sperimentato l’uso in tale contesto di tecniche già note, che sono state riprese del tutto o parzialmente dalla letteratura.

Contestualmente, è stato necessario elaborare appositi indici di valutazione, per verificare che la riduzione dimensionale non compromettesse la classificazione dei campioni.

Alla fine, l’ipotesi iniziale è risultata confermata: si è riusciti cioè a ridurre drasticamente l’originale numero delle caratteristiche, senza compromettere la corretta classificazione dei pattern.

Inoltre è stato verificato l’assunto che la riduzione dimensionale elimina efficacemente il fenomeno della maledizione dimensionale, e rende effettuabile la partizione di dati ad alta e altissima dimensionalità.

La presente tesi si articola come segue:

o il primo capitolo contiene una breve descrizione dello scenario teorico in cui la ricerca è ambientata, con riferimento alle tecniche di clustering e di selezione di caratteristiche;

o il secondo capitolo descrive gli indici di valutazione applicati, ne chiarisce il significato e fornisce dimostrazione della loro validità;

o nel terzo capitolo sono esposte le tecniche di selezione delle caratteristiche implementate, di cui si spiega il fondamento teorico e il funzionamento e si dimostra l’efficacia;

o il quarto capitolo illustra gli insiemi di dati impiegati nella sperimentazione;

o il quinto capitolo, infine, riporta la descrizione dettagliata degli esperimenti eseguiti e il commento dei risultati ottenuti.

Riferimenti

Documenti correlati

(in tali casi quale conduttore è stata considerata la per- sona che si occupava della gestione corrente dell'azienda). Da quanto premesso consegue: a) che sono

Tra i coloni impropri sono compresi anche i compartecipanti, vale a dire quei lavoratori ai quali 'Vengono affidati, nel corso di una annata agraria, tutti o

c) la coltivazione consociata più importante dal punto di vista economico (valore della produzione annuale) nel caso in cui vi era consociazione tra piante

c) la coltivazione consociata più importante dal punto di vista economico (valore della produzione annuale) nel caso in cui vi era consociazione tra piante

Tra i coloni impropri sono compresi anche i compartecipanti, vale a dire quei lavoratori ai quali vengono affidati, nel corso di una annata agraria, tutti o

Tra i coloni impropri sono compresi anche i compartecipanti, vale a dire quei lavoratori ai quali vengono affidati, nel corso di una annata agraria, tutti o

Tra questi ultimi sono compr:esi anche coloro che stanno assolvendo gli obblighi di leva~ tali persone al censimento del 1971 venivano attribuite alla popolazione in

pericolosità di reazione dal ∆H e dalla Tonset. ∆H → indice dell’energia potenziale liberata dalla reazione.. Tonset → indice della