Classificazione degli algoritmi di Machine learning

PARTE II: MACHINE LEARNING E CALCOLO DELLA LGD

3.1 Classificazione degli algoritmi di Machine learning

Gli algoritmi di Machine Learning vengono utilizzati per affrontare diversi problemi con diverse condizioni ed è sulla base di questi fattori che vengono classificati. Nello specifico si parla principalmente di:

• Algoritmi Supervisionati vs Non supervisionati

• Algoritmi ad Apprendimento Online vs Apprendimento a Batch

• Algoritmi Instance-based vs Model-based

Questi tre insiemi non sono mutuamente esclusivi. Un unico algoritmo, in base alle proprie caratteristiche, può rientrare contemporaneamente in più di una di queste classi.

3.1.1 Algoritmi Supervisionati vs Non supervisionati

Si parla di Algoritmi Supervisionati quando, avendo gli attributi del dataset, si hanno a disposizione anche i risultati osservati/desiderati (labels). Questi algoritmi vengono utilizzati nella maggior parte dei casi per risolvere due tipologie di problemi: Classificazione e Regressione.

I problemi di classificazione di una variabile target entro determinate categorie, possono essere affrontati avendo a disposizione le informazioni (o gli attributi) che in passato hanno permesso di determinare la categoria di appartenenza dell’istanza osservata. Si potrebbe, ad esempio, alimentare l’algoritmo con tutte le informazioni rilevanti (gli attributi) di tutti i clienti (istanze) di una determinata società specificando quelli che si sono rivelati dei cattivi creditori da quelli che hanno sempre pagato quanto dovuto nei tempi prestabiliti. In questo modo l’algoritmo imparerà a classificare, in base alle proprie caratteristiche della controparte, tutti i clienti futuri come cattivi o buoni creditori.

Lo stesso vale per i problemi di regressione nei quali vogliamo determinare non una categoria di appartenenza ma un valore continuo che potrebbe essere ad esempio un prezzo o una quantità.

Esempi di algoritmi supervisionati sono:

• k-Nearest neighbors

• Regressione Lineare

• Regressione Logistica

• Support Vector Machines

• Decision Tree

• Random Forest

Nelle successive pagine si entrerà nel dettaglio di alcuni di questi.

Con Algoritmi Non-Supervisionati si intende dire che pur avendo a disposizione gli attributi, non sono disponibili le labels. Si potrebbe dire che mentre nel caso supervisionato l’algoritmo ha modo di correlare o confrontare per ogni istanza un risultato finale, quindi una variabile target, in questo caso il risultato finale non esiste e dev’essere dedotto. Per questo motivo le problematiche che vengono affrontate con gli algoritmi non-supervisionati differiscono da quelle affrontate con quelli non-supervisionati.

Si parla spesso di:

• Clustering: Avendo un insieme di informazioni cercare di capire se ci sono dei sottoinsiemi che differiscono seguendo un determinato modello con determinate caratteristiche. Ad esempio, avendo a disposizione i dati della clientela di una azienda si può scoprire che ci sono gruppi di clienti molto simili tra loro e molto dissimili con gli altri gruppi. Questo potrebbe aiutare a personalizzare l’esperienza, i servizi o i prodotti offerti e ad incrementare il beneficio del cliente.

• Visualizzazione: Avendo moltissimi dati potrebbe essere utile predisporli in modo visibilmente capibile per indagare l’esistenza di pattern non direttamente ricavabili dalla sola analisi dei dati. Questo punto potrebbe essere visto come una coda di quello precedente.

• Riduzione della dimensione: Un problema molto diffuso quando si hanno grosse quantità di dati è quello di capire quali di questi possono essere effettivamente utili. Algoritmi non-supervisionati possono aiutare ad individuare gli attributi più esplicativi ma anche

a crearne di nuovi come combinazione di quelli presenti, per meglio spiegare il contenuto informativo dell’insieme.

• Individuazione delle anomalie: Si possono usare algoritmi non supervisionati per trovare i cosiddetti outliers¹, che possono rivelarsi come dati anomali.

• Ricerca delle correlazioni: L’esplorazione e combinazione degli attributi può aiutare a scoprire correlazioni nascoste e non intuitive che spesso e volentieri portano ad applicazioni pratiche

estremamente utili.

Esistono anche gli algoritmi Semi-supervisionati. È facile intuire che in questo caso si parla di insiemi per i quali abbiamo le labels ma non su tutto il set informativo. Il riconoscimento degli elementi nelle fotografie è un esempio lampante di questi algoritmi. Dato un insieme di fotografie di animali, l’algoritmo non supervisionato probabilmente individuerà efficacemente che un cane è diverso da un gatto senza tuttavia sapere che si tratta di un cane. Basta fornire all’algoritmo un insieme piccolo di fotografie nelle quali indichiamo l’insieme di pixel nel quale è presente un cane per abilitare l’algoritmo a classificare come cani tutti quegli elementi che aveva precedente indicato come simili senza tuttavia averne la label.

3.1.2 Algoritmi ad Apprendimento Online vs Apprendimento a Batch

La differenza fra algoritmi online ed a batch è molto intuitiva già solo dal nome. Nel primo caso si tratta di un algoritmo in grado di imparare progressivamente e sul momento “da nuovi arrivi”, ovvero online, mentre nel secondo abbiamo un algoritmo che studia l’intera storia fino a quel punto ed in questo modo si prepara per affrontare tutti i “futuri arrivi”. Con arrivi si intendono informazioni nuove che l’algoritmo dovrà analizzare per svolgere una determinata operazione.

1 Si tratta di valori tendenzialmente anomali in quanto molto rari e diversi dalla media.

L’algoritmo online è un’ottima soluzione quando si hanno sistemi che ricevono dati costantemente e che necessitano di una capacità di giudizio flessibile e adattabile a forti oscillazioni dei parametri di valutazione. Inoltre, scegliendo un tasso di apprendimento (o learning rate) basso, solitamente hanno il vantaggio di evitare di salvare costantemente tutte le informazioni ricevute in memoria in quanto l’algoritmo “se ne può dimenticare” con risparmio di memoria. Tuttavia, il grosso svantaggio dell’avere alimentazioni e apprendimento online con un basso tasso di apprendimento è che in caso di scarsa qualità dei dati di input, l’algoritmo viene molto rapidamente influenzato. Pertanto, bisogna garantire la massima qualità dei dati entranti.

3.1.3 Algoritmi Instance-based vs Model-based

Si fa riferimento al metodo di apprendimento di cui l’algoritmo dispone o per essere più precisi, al modo di generalizzare. Gli algoritmi vengono allenati con il training set e poi vengono utilizzati su nuove istanze, mai viste prima, in modo che generalizzino quanto imparato durante la fase di allenamento.

Nel caso si tratti di Instance-based, l’algoritmo imparerà e svolgerà il suo compito per similitudine, senza quindi parametri definiti a priori. Ad esempio, dovendo classificare tutti i nuovi clienti come rischiosi o meno, l’algoritmo assegnerà l’etichetta “rischioso” a tutti i clienti che presentano caratteristiche simili ma non esattamente uguali a quelle di precedenti (e verificati) clienti rischiosi. Questa misura di similitudine può essere manipolata per ottenere le performance desiderate. Il Decision Tree è un esempio di questa tipologia di algoritmo.

Un altro approccio è il metodo Model-based. In questo caso si crea un modello prestabilito e si insegna l’algoritmo a stimare i parametri del modello che permettono di ottenere le migliori performances (ad esempio la Regressione Lineare).

Nel documento POLITECNICO DI TORINO. Facoltà di Ingegneria. Corso di Laurea in Ingegneria Gestionale. Tesi di Laurea Magistrale (pagine 59-63)