K- means
4.4 Implicit Shape Model (ISM)
4.4.4 Valutazioni
Un punto di forza di questo metodo `e la creazione di un modello geometrico, ma il
punto di debolezza `e che manca la possibilit`a di specificare configurazioni illegali,
come ad esempio una faccia con 2 bocche, poich´e le feature non vengono contate,
ma vengono solo misurate. ISM e alcune sue estensioni sono state applicate con successo a varie categorie di oggetti [28].
Capitolo 5
Soluzione implementata
L’obiettivo del progetto `e quello di classificare una determinata immagine o frame
video, identificando automaticamente la classe di appartenenza, basandosi sulla presenza di una particolare classe di oggetti al suo interno. La classificazione di
immagini `e un tema vasto, che trova ampi settori di applicazione. Il suo scopo
principale `e quello di interpretare le caratteristiche di immagini, per poi poterle
classificare in classi di appartenenza.
Ho scelto di realizzare questa applicazione attraverso il modello Bag of Visual
Words (BoW), descritto nel capitolo 4.2, per la sua semplicit`a ed efficienza com-
putazionale, rispetto ad altri modelli che includono informazioni spaziali al loro interno. Nonostante tutto, BoW permette di ottenere risultati molto interessanti,
come illustrer`o nel capitolo seguente.
Durante gli esperimenti effettuati ho scelto di utilizzare SIFT come tecnica di localizzazione e descrizione di features, dato che nei sistemi che implementano
il modello BoW, l’utilizzo di questo descrittore `e divenuto lo standard grazie
alla sua robustezza. Per la classificazione ho utilizzato diversi algoritmi di ap- prendimento supervisionato: SVM, AdaBoost, Random forest e Artificial Neural Network. Indipendentemente dal classificatore utilizzato, mi aspetto un calo delle prestazioni all’aumentare del numero delle classi utilizzate nella fase di test.
Nei primi due capitoli descriver`o gli strumenti utilizzati; nel Capitolo 5.2 af-
fronter`o il problema di classificazione multiclasse. I dettagli implementativi del
modello BoW sono illustrati nei Capitoli 5.3 e 5.4. Il Capitolo 5.5 `e dedicato
all’analisi degli algoritmi di classificazione. Infine nel Capitolo 5.6 ho spiegato
come si pu`o integrare questo progetto, sulla sterecamera, utilizzando BRISK.
5.1 Dataset per classificazione
In questo capitolo analizzer`o le risorse liberamente fruibili per quanto riguarda
i dati su cui operare. Dato lo scopo di questo progetto di tesi `e molto impor-
tante addestrare il classificatore su un insieme vasto di immagini, per rendere il classificatore robusto. Le immagini considerate dovrebbero contenere solamente
un oggetto appartenente a una specifica categoria, dato che in presenza di pi`u
oggetti di categorie diverse, il classificatore non riuscirebbe a prendere decisioni.
Con l’avvento di Internet `e diventato estremamente facile accedere a collezioni
di immagini (Dataset), anche se spesso queste collezioni non si prestano a casi di studio o esperimenti scientifici.
Universit`a e centri di ricerca, mettono a disposizione Dataset per scopi didat-
tici. Questa `e una lista (non esaustiva) di alcuni Dataset gratuitamente scaricabili
online:
• LEAR - Learning and Recognition in Vision centro di ricerca congiunto
INRIA Grenoble - RhˆoneAlpes and the LJK laboratory (indirizzo web: http:
//lear.inrialpes.fr/data). Sono forniti diversi Dataset specifici per determinati scopi per esempio: Soccer Team Dataset, Horse Dataset, Car Dataset, Person Dataset.
• Beckman Institute - Computer Vision and Robotics - University of Illinois at Urbana-Champaign - (indirizzo web: http://www-cvr.ai. uiuc.edu/ponce_grp/) Sono forniti diversi Dataset specifici per deter- minati scopi per esempio: Texture Database, Object Recognition Databa- se, Butterflies Dataset, Birds Dataset, Visual Hull Datasets, 3D Object Recognition Stereo Dataset.
• California Institute of Technology - Computational Vision (indi- rizzo web: http://www.vision.caltech.edu/archive.html) mette a disposizione diverse tipologie di Dataset:
– Caltech-UCSD Birds 200 `e un set di dati di immagini con le foto
di 200 specie di uccelli (soprattutto Nord America);
– Caltech Pedestrian Database collezione di immagini di pedoni. – Caltech in cui sono presenti macchine, moto, aerei, volti, foglie di
alberi e sfondi;
– Caltech-101 100 categorie di oggetti differenti; – Caltech-256 255 categorie di oggetti differenti;
5.1. DATASET PER CLASSIFICAZIONE 93
– Home Objects questo dataset contiene oggetti casuali da casa. Gli
oggetti sono tratte per lo pi`u da ambienti cucina, bagno e living-room.
• Cognitive Computation Group University of Illinois at Urbana-Champaign (indirizzo web: http://cogcomp.cs.illinois.edu/page/resources/ data UIUC Image Database for Car Detection e UIUC Dataset of 3D object categories (S. Savarese and L. Fei-Fei);
• PASCAL VOC dataset (indirizzo web: http://pascallin.ecs.soton. ac.uk/challenges/VOC/voc2009/index.html);
• Visual Geometry Group - Department of Engineering Science, Uni- versity of Oxford - 17 Flower Category Dataset (indirizzo web: http: //www.robots.ox.ac.uk/~vgg/data0.html);
• Computer Vision Lab - Stanford University - (indirizzo web: http: //vision.stanford.edu/resources_links.html#datasets) mette a disposizione diverse tipologie di Dataset:
– Stanford Dogs Dataset;
– Event Dataset contenente 8 categorie di eventi sportivi: sport a remi (250 immagini), badminton (200 immagini), Polo (182 immagi- ni), bocce (137 immagini), snowboard (190 immagini), croquet (236 immagini), vela (190 immagini), e arrampicata su roccia (194 im-
magini). Informazione della distanza degli oggetti in primo piano `e
prevista anche per ogni immagine;
– People-Playing-Musical-Instrument (PPMI) Dataset Il dataset PPMI contiene immagini di esseri umani che interagiscono con dodici diversi strumenti musicali. Essi sono: fagotto, violoncello, clarinetto, erhu, flauto, corno, chitarra, arpa, registratore, sassofono, tromba e violino;
– 3D Object Category Dataset;
• Computer Vision at Microsoft Research Cambridge (web: http:// research.microsoft.com/en-us/projects/objectclassrecognition/ default.aspx) Object Recognition Image Database
• Center for Biological and Computational Learning (indirizzo web: http://cbcl.mit.edu/software-datasets/CarData.html) Car Da- taset, StreetScenes Challenge Framework.