Template matching - Model Matching - BIN PICKING ROBOT: ALGORITMI DI VISIONE E FRAMEWORK SOFTWA

Model Matching

3.2.1 Template matching

L’approccio più semplice per il rilevamento di un oggetto nella scena è dato dal Template Matching. Il template matching utilizza una maschera di convoluzione basata sul modello che vogliamo trovare all’interno dell’immagine. L’output della convoluzione sarà massimo quando la struttura dell’immagine sarà simile alla struttura del template utilizzato.

Figura 3.1: Piramide di immagini.

Per la creazione del template si parte dal modello e si crea un’immagine binaria dove i pixel con valore 1 indicano la presenta del modello in quel punto. Otteniamo quindi l’immagine I_T(x_t, y_t). L’immagine di ingresso viene a sua volta binarizzata, ad esempio identificando i bordi presenti nell’immagine e in seguito eseguendo un operazione di sogliatura, ottenendo in questo modo l’immagine IS(xs, ys). Utilizzando come metrica la somma dei valori assoluti delle differenze (SAD, Sum of absolute differences) di ogni singolo pixel otteniamo:

SAD(x, y) = Tcol X i=0 Trow X j=0 |I_S(x_s+ i, y_s+ j) − I_T(i, j)| (3.1)

dove T_row × T_col è la dimensione del template. Otteniamo in questo modo una matrice di dimensione pari all’immagine dal quale è possibile determinare il punto di maggiore affinità con il modello, il quale corrisponde alla presunta posizione del prodotto nell’immagine.

Si noti che il template matching è in grado di determinare solo la traslazione a cui è soggetto il modello. Per includere trasformazioni più complesse è necessario

agire sul template in modo da includere l’effetto di queste trasformazioni. Ad esempio, volendo individuare la similitudine nello spazio 2D, `e necessario con-siderare diversi template per tutte le possibili combinazioni di rotazioni e scala del modello. Per ogni template viene quindi valutata la risposta separatamente. I risultati possono essere successivamente raggruppati in una matrice a quattro dimensione, dove ogni dimensione rappresenta un parametro della trasformazio-ne. Per trovare il candidato migliore `e infine necessario eseguire un processo di clustering.

Grazie alla sua semplicità, il template matching offre diversi vantaggi imple-mentativi. Da un lato è semplice definire una procedura efficiente per il suo calcolo, da eseguire eventualmente su hardware dedicato. Dall’altro, è possibile definire dei criteri di terminazione dell’algoritmo che rendono il tempo di elabo-razione nel caso medio molto ridotto. Ad esempio è possibile scartare un ipotesi di posizione quando la somma parziale dopo la valutazione di n punti è inferiore ad una soglia determinata. Inoltre, l’intero algoritmo può terminare nel momen-to in cui si ottiene un valore maggiore di un determinamomen-to limite impostamomen-to per il quale il riconoscimento è ritenuto concluso con successo. Un altro modo per ridurre il tempo di elaborazione è quello di eseguire l’algoritmo su una piramide di immagini, dove ogni immagine viene dimezzata in dimensioni rispetto al livello precedente (si veda figura 3.1). Si parte quindi dal livello superiore e, per ogni ipotesi individuata, si effettua una ricerca limitata ad un intorno del valore tro-vato nell’immagine precedente, fino ad arrivare al livello inferiore della piramide contenente l’immagine originale.

La misura di similarità data dalla somma dei valori assoluti delle differenze eseguita su immagini binarizzate, nonostante la sua semplicità, presenta svan-taggi sia per quanto riguarda la tolleranza al rumore presente nell’immagine che riguardo alle variazioni delle condizioni di illuminazione della scena. In [60] è stato introdotto un metodo di ricerca basato sul template matching che consente di su-perare queste limitazioni. L’algoritmo base viene esteso su due fronti distinti: in primo luogo viene considerata l’immagine in scala di grigi data dall’applicazione di un algoritmo di edge detection senza sogliatura (come ad esempio l’operatore di Sobel oppure il metodo di Canny interrotto prima della non-maximum sup-pression). Questo consente di incrementare il valore della similitudine anche in caso che il template non sia precisamente sovrapposto con il prodotto presente

nell’immagine. In secondo luogo viene introdotta una nuova misura per la valu-tazione della similitudine tra il template e l’immagine, la quale `e stata studiata per essere robusta alle variazioni di luminosit`a ambientale.

Per vedere i dettagli del metodo, `e necessario riformulare il problema del template matching. Il modello, invece di essere riportato nell’immagine, viene dato da un insieme di punti p_i = (x_i, y_i)T ai quali sono associati i rispettivi vettori di direzione d_i = (t_i, u_i), i = 1, ..., n. L’immagine in ingresso viene quindi elaborata per determinare quale sia la direzione del gradiente in ogni suo punto, ex,y = (vx,y, wx,y). Al fine di valutare la similarit`a tra l’immagine e il modello posizionato nel punto q = (x, y)^T, viene calcolata la somma su tutti i punti del modello del prodotto vettoriale tra la direzione del gradiente nel modello e la direzione del gradiente nell’immagine:

s = ¹ n n X i=0 hd_i, e_q+p_ii (3.2)

Se una parte del modello è mancante in quanto occlusa, non vi sono bordi nella corrispondente posizione dell’immagine, quindi i vettori di direzione avranno una lunghezza limitata influendo poco nella somma. Allo stesso modo, se ci sono punti di bordi rilevati erroneamente nell’immagine, è probabile che non vi sia il rispettivo punto del modello in quella posizione. La misura appena introdotta non è però realmente invariante ai cambiamenti di luminosità, in quanto la lunghezza dei vettori del gradiente sarà maggiore dove la variazione di luminosità è più accentuata. La soluzione è quella di normalizzare i vettori in modo che abbiamo lunghezza unitaria, ottenendo:

s = ¹ n n X i=0 hdi, eq+pii kd_ikke_q+p_ik ^(3.3)

Questa misura è inoltre più tollerante al rumore nell’immagine, in quanto que-st’ultimo introdurrà dei risultati che, mediamente, verranno eliminati tra loro. L’equazione 3.3 restituisce un valore più elevato quando le direzioni dei vettori nel modello e nell’immagine coincidono. In alcune applicazioni è importante otte-nere un alto valore di similarità anche se il contrasto è invertito. Questo può essere ottenuto applicando il valore assoluto di s. In altre circostanze non si dispone di informazioni sul contrasto per il modello. Questo è particolarmente importante nei casi in cui il modello sia stato costruito utilizzando una descrizione analitica,

come quella fornita da un disegno CAD. Avendo solo queste informazioni, non `

e possibile determinare il verso del gradiente. Possiamo quindi ignorare il verso applicando il valore assoluto ad ogni elemento della sommatoria:

s = ¹ n n X i=0 hd_i, e_q+p_ii kdikkeq+pik (3.4)

Si noti che, a causa della normalizzazione dei vettori del gradiente, anche i vet-tori di piccola entità, dovuti ad esempio a rumore, influiscono nella sommatoria. Al fine di migliorare la qualità della rilevazione in presenza di rumore all’inter-no dell’immagine, è importante effettuare una sogliatura dei vettori di direzione rilevati.

Nel documento BIN PICKING ROBOT: ALGORITMI DI VISIONE E FRAMEWORK SOFTWARE (pagine 65-68)