Ricerca Lineare - Progetto ed implementazione di un sistema per il riconoscimento di oggetti in

Come primo passo `e necessario realizzare la ricerca lineare e produrre una rete che verr`a usata in seguito nel sistema ibrido. La descrizione viene fatta mediante l’algoritmo SHOT, il calcolo degli input alla rete neurale e l’architettura della rete sono le stesse del sistema descritto nel capitolo 8.

11.2.1 Scelta dei set

L’insieme di addestramento è stato ottenuto usando le coppie formate da due serie di registrazioni effettuate in diversi momenti. Chiamiamo Round1 l’insieme di riferimento che assume il ruolo di database e Round3 l’insieme di point cloud da mappare nel database. Round1 è formato da 898 point cloud, Round3 ne ha 792, quindi l’insieme di addestramento ha un totale di 792 × 898 = 711216 coppie. Per realizzare l’insieme di test gli oggetti sono stati ripresi in un’altra circostanza ed è stata prodotta la collezione di dati chiamata Round4, anch’essa di 792 point cloud che vengono mappate su Round1 allo stesso modo. Gli oggetti sono sempre inquadrati dalla stessa altezza, viene variata la loro posa mediante rotazioni con un passo regolare di 10◦.

11.2.2 Assegnazione dei target

Il criterio di addestramento è variabile per ogni test eseguito. Come prima verifica il range di validità delle differenze di rotazione viene testato con valori diversi per ogni prova. In un primo momento non si farà uso del concetto di categoria di oggetti, pertanto ogni oggetto verrà considerato associabile solo a sé stesso. if o g g e t t i d i v e r s i t a r g e t =0 e l s e if s i m m e t r i c i t a r g e t =1 e l s e if | r o t a z i o n e | <= r a n g e t a r g e t =1 e l s e non u s a r e per a d d e s t r a m e n t o

In una seconda fase verranno introdotte categorie di oggetti (in questo caso tazze, posate e piatti).

if c a t e g o r i e d i v e r s e t a r g e t =0

e l s e

if s i m m e t r i c i t a r g e t =1

e l s e if | r o t a z i o n e | <= r a n g e t a r g e t =1

11.2.3 Addestramento

L’addestramento ha avuto un esito visibile nelle figure, dove si possono confrontare risultati con range 10 e 20 per entrambi i tipi di addestramento adottati.

(a) senza categorie (b) categorie

Figura 11.5: Matrici di confusione - range 10

(a) senza categorie (b) categorie

Le prestazioni migliori si ottengono con l’uso di categorie ma sono in- feriori di qualche punto percentuale rispetto ai test eseguiti con il dataset precedente. In particolare aumentano le quantit`a di falsi positivi. Dato che il sistema deve restituire una point cloud corrispondente all’uscita massi- ma, questo fatto potrebbe provocare un abbassamento delle prestazioni di riconoscimento.

(a) senza categorie (b) categorie

Figura 11.7: Matrici di errori - range 10

(a) senza categorie (b) categorie

Figura 11.8: Matrici di errori - range 20

Anche dagli istogrammi degli errori sull’uscita si pu`o notare un lieve abbassamento delle prestazioni. Sono un po’ meno concentrati intorno allo zero.

Da queste considerazioni si pu`o prevedere che anche durante la fase di test ci saranno delle flessioni sui risultati.

11.2.4 Test

I risultati ottenuti sono visibili e confrontabili mediante le tabelle 11.1 e 11.2, rispettivamente senza uso di categorie e con categorie.

Range Oggetti ric. Pose ric. Pose no ric. Sbagliati 10 526 (66.4%) 380 (48.0%) 146 (18.4%) 266 (33.6%) 20 536 (67.7%) 430 (54.3%) 106 (13.4%) 256 (32.3%) 30 489 (61.7 %) 382 (48.2%) 107 (13.5%) 303 (38.3%) Tabella 11.1: Dataset PaCMan, algoritmo locale SHOT, senza categorie

Range Oggetti ric. Pose ric. Pose no ric. Sbagliati 10 618 (78.0%) 397 (50.1%) 221 (27.9%) 174 (22.0%) 20 609 (76.8%) 435 (54.9%) 174 (21.9%) 183 (23.2%) 30 582 (73.5%) 420 (53.0%) 162 (20.5%) 210 (26.5%) Tabella 11.2: Dataset PaCMan, algoritmo locale SHOT, con categorie

Si possono fare le seguenti osservazioni:

• usando le categorie le prestazioni sono migliorate a livello generale sia per quanto riguarda il riconoscimento degli oggetti che per la stima delle loro pose; infatti la Kinect non `e un dispositivo cos`ı sensibile da fare distinzione nel caso di oggetti diversi dello stesso tipo;

• con questo dataset il range di somiglianza non può aumentare troppo altrimenti le prestazioni degradano in entrambi i casi; la qualità delle immagini non consente questa flessibilità nella scelta del range perché il rumore può alterare le point cloud. Con range più stretti è più probabile che le immagini presentino più elementi di somiglianza e non risultino modificati a causa dei disturbi;

• con range troppo basso migliora solo il riconoscimento degli oggetti, invece peggiora la stima delle pose. In realt`a dipende dal criterio troppo restrittivo. Infatti verificando manualmente le somiglianze visive si pu`o notare che il sistema riconosce effettivamente un maggior numero di pose simili rispetto a quanto detto dal criterio. Alcuni esempi sono visibili nelle figure 11.9;

• tutte le percentuali di successo (oggetti e pose) sono scese circa del 20% rispetto a quelle con il dataset [5]. Questo fatto non deve meravigliare perché non solo quel dataset è più semplice ma è anche costituito da

poche categorie con molti oggetti del rispettivo tipo. E anche vero` che l’addestramento e il test avevano immagini in comune o ruotate di pochi gradi. In questo caso gli oggetti sono stati ripresi in giorni diversi (questa scelta è stata fatta per testare l’efficacia e robustezza del sistema) e sono molto più variegati, al punto tale che sono state individuate euristicamente solo tre categorie di oggetti dello stesso tipo; • si deve anche considerare la minore qualità delle immagini prodotte dalla Kinect, soggetta a rumore; inoltre ci sono sia oggetti più complessi sia più piccoli quindi ne risentono più facilmente.

Considerando le due reti migliori (quelle con range pari a 10 e 20 che fanno uso di categorie) si pu`o verificare manualmente la qualit`a delle risposte nel caso di pose considerate sbagliate dalla procedura automatica del criterio di addestramento.

Dagli esempi di figura 11.9 si pu`o notare che in questi casi le immagini sono effettivamente somiglianti ma, a causa del criterio automatico troppo approssimativo e restrittivo, in seguito al test sono state giudicate non somiglianti. Il sistema invece ha individuato le somiglianze ed `e riuscito a classificarle correttamente.

Analizzando manualmente uno per uno questi esempi per entrambe le reti sono state individuate un certo numero di possibili pose somiglianti fra quelle giudicate errate mediante il criterio automatico. Con una forbice di incertezza di 180-200 casi favorevoli in pi`u per il sistema con range 10 e di 150-170 casi per il sistema con range 20, le prestazioni subirebbero queste modifiche.

Range Oggetti ric. Pose ric. Pose no ric. Sbagliati 10 618 (78.0%) 577- 597 (72,8-75.4%) 41-21 (5.2-2.6%) 174 (22.0%) 20 609 (76.8%) 585-605 (73.9-76.4%) 24-4 (4.1-1,6%) 183 (23.2%) Tabella 11.3: Dataset PaCMan, algoritmo locale SHOT, con categorie. Percentuali stimate empiricamente

Da questi dati si pu`o intuire che il sistema locale `e un buon sistema per riconoscere le pose di questo dataset ma ha bisogno di un sistema aggiuntivo che consenta di trovare anche l’oggetto giusto.

Nel documento Progetto ed implementazione di un sistema per il riconoscimento di oggetti in point cloud nell'ambito dell'afferraggio con mano robotica (pagine 131-136)