• Non ci sono risultati.

LA VIDEOSORVEGLIANZA

N/A
N/A
Protected

Academic year: 2021

Condividi "LA VIDEOSORVEGLIANZA"

Copied!
55
0
0

Testo completo

(1)

Sardegna FESR 2014/2020 - ASSE PRIORITARIO I

“RICERCA SCIENTIFICA, SVILUPPO TECNOLOGICO E INNOVAZIONE”

Azione 1.1.4 Sostegno alle attività collaborative di R&S per lo sviluppo di nuove tecnologie sostenibili, di nuovi prodotti e servizi

LA VIDEOSORVEGLIANZA

Introduzione e aspetti tecnologici

Progetto cluster Top Down “PROSSIMO”

(2)

Indice dei contenuti

Indice dei contenuti ... 2

1 Il problema della (in)sicurezza ... 4

2 La videosorveglianza: una possibile risposta al problema della sicurezza ... 7

3 L'evoluzione dell'hardware: dall'analogico al digitale ... 9

4 Standard tecnologici delle telecamere di videosorveglianza ... 14

4.1 Telecamere fisse e mobili ... 14

4.2 Tipologia di obiettivi ... 15

4.2.1 Obiettivo emisferico o supergrandangolare ... 15

4.2.2 Obiettivo ultragrandangolare (fisheye) ... 16

4.2.3 Teleobiettivo ... 16

4.3 Tipo di connessione ... 17

4.4 Risoluzione e velocità di acquisizione ... 17

4.5 Visone a infrarossi ... 19

5 Lo stato dell’arte delle tecniche di videosorveglianza ... 20

5.1 Schema di un sistema di videosorveglianza ... 21

5.2 Descrizione delle condizioni di utilizzo ... 23

5.3 Localizzazione degli oggetti in movimento ... 25

5.3.1 Sottrazione dello sfondo ... 25

5.3.2 Differenze temporali ... 28

5.3.3 Flusso ottico ... 29

5.4 Classificazione degli oggetti ... 30

5.4.1 Classificazione basata sulla forma. ... 31

5.4.2 Classificazione basata sul tipo di moto. ... 32

5.5 Tracking ... 32

5.5.1 Tracking basato su regioni ... 33

5.5.2 Tracking basato sui contorni ... 34

5.5.3 Tracking basato su features ... 35

5.5.4 Tracking basato su modelli ... 36

5.6 Fusione di flussi multi telecamera ... 39

5.6.1 Calibrazione multitelecamera ... 39

5.6.2 Descrizione della topologia del sistema multi telecamera ... 40

5.6.3 Re-identificazione degli oggetti ... 41

5.6.4 Tracking multi camera ... 43

5.7 Le reti neurali nella videosorveglianza ... 44

6 Progetti sviluppati ... 45

6.1 VSAM ... 45

6.2 W4 ... 46

6.3 PFINDER ... 47

7 Gli operatori e il loro potere ... 48

(3)

8 Conclusioni ... 52 9 Bibliografia ... 53

(4)

1 Il problema della (in)sicurezza

La domanda di sicurezza cresce in tutto il mondo, costantemente, perché gli individui percepiscono, in misura sempre maggiore, una forte insicurezza sociale. La paura, l'ansia e lo smarrimento sono sensazioni presenti da sempre nelle città e accompagnano la vita dei cittadini che si sentono minacciati, a prescindere dalla concretezza della minaccia stessa. Le paure vengono generate dalla consapevolezza, insita negli individui, di poter essere tra le vittime degli episodi di microcriminalità che, anche grazie ai mezzi di comunicazione di massa, si diffonde con maggior facilità.

Queste minacce vengono percepite dagli individui e contribuiscono allo sviluppo di quella “condizione esistenziale individuale e collettiva” [1] denominata vulnerabilità.

Gli individui si sentono minacciati maggiormente dai reati lievi e meno dai reati gravi quali omicidio o crimine organizzato. La paura colpisce le persone senza che vi sia un effettivo rapporto di causa-effetto tra una violenza subita e la paura stessa. Molti cittadini si sentono vulnerabili anche se in realtà non sono mai stati tra le vittime di alcun episodio criminale e la sensazione deriva, spesso, dall'allarmismo con cui vengono proposte dai mass media certe notizie di cronaca piuttosto che da un rischio reale [2]. Alla crescente mediatizzazione della società corrisponde un aumento dell'ansia che viene “amplificata dai grandi eventi criminali o violenti ipermediatizzati” [3] che contribuiscono a rafforzare la sensazione di insicurezza, enfatizzando certi tipi di episodi criminali anche perché, notoriamente, con la cronaca nera si vende di più rispetto alla cronaca bianca.

Capita che il numero di notizie pubblicate dai giornali riguardanti episodi legati a reati di varia natura non corrisponda al numero effettivo di reati compiuti, come nel caso riportato da Sias e relativo alla criminalità nella provincia di Sassari [2]. Questi, infatti, nota che, anche se in Nord Sardegna dal 1991 al 2000 si è registrata una diminuzione dei reati,

“La Nuova Sardegna”, il maggior quotidiano locale, ha pubblicato un numero maggiore di notizie riguardanti crimini rispetto al passato. Il numero delle notizie di cronaca nera pubblicate dai media può non corrispondere ad altrettanti eventi criminali, ma se la stessa notizia viene riproposta per più giorni la sua percezione viene distorta ed amplificata. Ma è

(5)

soprattutto la televisione che alimenta la paura di massa trasmettendo serie tv, film e servizi giornalistici drammatizzati che hanno ad oggetto condotte criminali. Si confondono i fatti di cronaca con la fiction e vengono rafforzati gli stereotipi per cui un individuo viene percepito come criminale perché vestito in un certo modo o perché presenta caratteristiche che nell'immaginario collettivo sono riconducibili all'aspetto del delinquente.

In questo contesto è interessante evidenziare la teoria sociologica delle opportunità criminali avanzata nel 1979 da L.E. Cohen e M. Felson [4] i quali sostengono che siano necessarie una serie di condizioni e delle convergenze sia spaziali che temporali affinché possa verificarsi un evento criminale. Queste sono:

• la presenza di un aggressore motivato;

• la presenza di un bersaglio adatto;

• l'assenza di un guardiano capace.

Figura 1: Visualizzazione delle tre condizioni che portano ad un evento criminoso [4]

Come si vede nella Figura 1 l'evento criminoso avviene quando queste tre condizioni convergono ed esistono contemporaneamente in uno stesso momento ed in uno stesso

(6)

luogo. Le attività di prevenzione dovrebbero essere utilizzate per evitare questa convergenza. Delle tre condizioni sopra esposte una in particolare è stata oggetto di studio:

l'assenza di un guardiano capace.

Ci si è domandati a lungo e ci si domanda tuttora come possa migliorare la sorveglianza, che è stata per secoli ed è ancora una problematica importante. A lungo è stato impossibile ottenere miglioramenti in quest'ambito senza inserire unità aggiuntive di personale addetto al pattugliamento delle strade e alla difesa delle persone in pericolo dagli aggressori ma, nel corso degli ultimi decenni, è stato fornito un utile supporto dalle tecniche e dalle tecnologie legate alla sorveglianza video, che consentono di controllare gli spazi in maniera più efficace e con un minor dispendio di risorse rispetto al passato.

In questo contesto i moderni sistemi di videosorveglianza sono delle risorse fondamentali. Il loro funzionamento è semplice quanto efficace, perché, composti da numerose telecamere dislocate all'interno delle aree di interesse, trasmettono le immagini riprese ad addetti appositi in grado di agire in maniera efficace ed efficiente.

Attraverso questi strumenti si crea un ambiente ostile per i malintenzionati che hanno maggiori difficoltà a realizzare atti criminali, perché crescono le probabilità di essere fermati in tempo o di essere catturati in seguito.

(7)

2 La videosorveglianza: una possibile risposta al problema della sicurezza

Tra i moderni metodi adottati per far fronte al problema della sicurezza un ruolo importante è svolto dai sistemi di videosorveglianza anche se, in realtà, le telecamere di ultima generazione e i software che le gestiscono non sono altro che l'ultima evoluzione tecnologica riguardante l'utilizzo delle immagini nella lotta al crimine. Le enormi potenzialità che nascono dall'incontro tra l'immagine e la prevenzione delle azioni criminali vennero capite già alla nascita della fotografia. Infatti, se quest'ultima nacque ufficialmente nel 1839 a Parigi fu già nel 1840 che iniziò ad essere utilizzata per identificare e documentare i criminali e, nel periodo attorno al 1850, si cominciò, in Francia ed Inghilterra, a fotografare tutti i detenuti per prevenire le evasioni e riconoscere i criminali già arrestati.

La storia per quanto riguarda le immagini televisive è analoga, ma meno immediata.

Le prime trasmissioni avvennero nel 1926 e già nel 1928 iniziò la commercializzazione degli apparecchi ma non abbiamo notizia di un loro utilizzo per la lotta al crimine, probabilmente perché le immagini trasmesse avevano le dimensioni di un francobollo ed erano ingrandite con una lente apposita. Fu solo nel 1942 che si ebbe un primo esempio di sistema di telecamere a circuito chiuso quando, durante la Seconda guerra mondiale, l'ingegnere tedesco Walter Bruch organizzò un apparato di videocamere per monitorare i lanci dei razzi V2. Qualche anno più tardi, nel 1947, la polizia britannica avanzò una proposta nei confronti della BBC per avere accesso in tempo reale alle riprese del Royal Wedding tra l'allora Principessa Elisabetta e Filippo, Principe di Edinburgo. L'intenzione era di aiutare gli agenti di pattuglia e migliorarne la disposizione con l'ausilio delle immagini ma, per via dei costi, la richiesta venne respinta. Nonostante questo, però, era nata l'idea di utilizzare le riprese televisive in tempo reale per aiutare le attività di polizia.

A partire dagli anni '50 e '60 del XX secolo si iniziarono a sviluppare i primi sistemi di videosorveglianza veri e propri, detti anche televisioni a circuito chiuso (Closed Circuit TeleVision o CCTV). Altro elemento importante per lo sviluppo e la diffusione delle CCTV, derivante dallo sviluppo tecnologico di quegli anni, è stata l'invenzione e la successiva

(8)

diffusione massiccia, anche ad uso domestico, dei videoregistratori. Infatti, solo in seguito a questa innovazione tecnologica era finalmente data la possibilità di rivedere le immagini catturate tramite le telecamere a costi accessibili a una platea crescente di individui.

I sistemi di CCTV attorno alla seconda metà del secolo scorso erano poche decine ed erano utilizzati per pochi eventi mirati mentre al giorno d'oggi ne possiamo contare migliaia e sono utilizzati per svariati obbiettivi sia dalle forze di polizia che dai privati cittadini. [17] Inoltre, le innovazioni tecnologiche avvenute negli ultimi anni hanno portato ad un'enorme diffusione di dispositivi di vario tipo quali smartphone, tablet e PC portatili che a loro volta hanno incorporate delle fotocamere e delle telecamere facilmente utilizzabili per riprendere anche atti criminali cui si sta assistendo e, tramite internet, si ha la possibilità di condividere in tempo reale sia le fotografie che i filmati con il resto del mondo.

(9)

3 L'evoluzione dell'hardware: dall'analogico al digitale

Nel corso dei decenni è molto cambiata la concezione e la tecnologia che sta alla base dei sistemi di videosorveglianza. Evoluzioni che sono state dettate, in larga parte, dal mercato perché sono state le richieste dei clienti a indurre gli sviluppatori a concentrarsi su determinati aspetti piuttosto che altri. Forse l'aspetto sul quale si è puntato maggiormente è stata la qualità dell'immagine ma non ne sono stati tralasciati altri quali la sicurezza della tecnologia, la semplicità di installazione e la manutenzione, la riduzione dei costi e la durata delle registrazioni video.

Abbiamo assistito ad un'evoluzione totale della videosorveglianza perché se in principio i sistemi erano sviluppati per essere completamente analogici oggi sono sviluppati per essere completamente digitali. Questo è il frutto di una serie di innovazioni introdotte negli ultimi venti anni ma non vuol dire assolutamente che tutte le televisioni a circuito chiuso presenti nel mondo oggi siano digitali.

Il primo modello di sistema di videosorveglianza, quello completamente analogico ed esemplificato nella figura 3, era composto da telecamere che avevano la necessità di essere collegate direttamente, tramite una serie di cavi, a dei videoregistratori che registravano le immagini. Questi ultimi, a loro volta, avevano bisogno di supporti quali le videocassette, identiche a quelle vendute e utilizzate per l'uso domestico, per mantenere memoria delle immagini riprese. Non era presente alcuna compressione del video e la durata massima di registrazione, senza perdita di qualità dei filmati, era pari ad otto ore.

Ma vi era comunque la possibilità di aumentare la durata delle videocassette inserendo nel videoregistratore una modalità ad intervallo di tempo per cui veniva ridotto il numero di immagini registrate al secondo. Altro metodo utilizzato per guadagnare in termini di durata della registrazione era di utilizzare un “quad” ovvero una componente aggiuntiva del sistema che doveva essere collegata alle telecamere, al videoregistratore e al monitor.

Attraverso il quad da quattro inputs derivanti da altrettante telecamere veniva generato un unico segnale di output. Ancora più potente era il multiplexer che poteva collegare fino a sedici telecamere.

(10)

Figura 2: Schema di uno dei primi sistemi di video sorveglianza

Fu solo attorno alla metà degli anni '90 che avvenne il primo passaggio verso il digitale, illustrato nella figura 2. I videoregistratori analogici con le loro videocassette vennero sostituiti con dei videoregistratori digitali che avevano al loro interno degli hard disk e questo consentiva di comprimere le immagini e mantenere in memoria le registrazioni relative a più giorni. Inoltre, la maggior parte di questi videoregistratori digitali aveva più ingressi video, in genere 4, 16 o 32, eliminando così la necessità di avere un quad o un multiplexer. Già allora, dato il formato digitale del video, era possibile inviare i filmati in remoto ad un monitor ma un grande problema era la banda disponibile per l'invio che non superava, in genere, i 50kbps e questo era un limite non da poco. Per questo, se si intendeva trasmettere i video tramite rete, occorreva diminuire la risoluzione e le immagini al secondo aumentando, al tempo stesso, la compressione video. Tutto questo si traduceva in immagini dalla qualità molto ridotta e dunque, quasi sempre, inutilizzabili.

(11)

Qualche anno più tardi arrivarono sul mercato dei videoregistratori digitali dotati di porte ethernet per la connessione in rete. Fu così possibile eseguire il monitoraggio dei video tramite PC, come si nota dallo schema in figura 3, ed effettuare delle operazioni direttamente dal sistema operativo. I vantaggi del passaggio dall'analogico al digitale erano evidenti soprattutto per la qualità e la gestione delle immagini video ma al tempo stesso erano presenti alcuni svantaggi. Tra questi, il fatto che i sistemi funzionavano con hardware e software proprietari comportava costi più elevati per gli utenti perché erano costretti a rivolgersi sempre al produttore sia per la manutenzione che per gli aggiornamenti. Altro evidente problema riguardava gli ingressi disponibili dei videoregistratori, 16 o 32, che rendeva impossibile per tutti i sistemi composti da un numero di telecamere non multiplo di 16 sfruttare in modo efficace e redditizio gli apparecchi.

Figura 4: Introduzione della rete Internet nei sistemi di video sorveglianza

Altro importante passo verso il digitale avvenne con l'introduzione dei video encoder, detti anche video server e ancora oggi utilizzati, che servono per ricevere il segnale dalle telecamere analogiche, comprimerlo e trasformarlo in digitale. Attraverso una

Figura 3: Introduzione dei videoregistratori digitali

(12)

rete IP i video vengono inviati ad un PC sul quale è presente un software che consente di monitorare e registrare su appositi supporti le immagini ricevute così come illustrato nella figura 4. I vantaggi di questo sistema sono dovuti all'utilizzo di un comune PC come server e riguardano soprattutto la facilità di utilizzo e di espansione. Simili, come concezione del sistema, sono i NVR (Network Video Recorder) ovvero degli apparecchi completi di programmi per la gestione video che consentono una più semplice installazione del sistema ma peccano dal punto di vista della flessibilità rispetto ad una piattaforma sviluppata tramite PC server.

Figura 5: Evoluzione dei sistemi di video sorveglianza

Ultima evoluzione è quella dei sistemi interamente digitali, senza alcun componente analogico, come illustra la figura 5. Per realizzarli vengono utilizzate telecamere dotate di una connessione Internet attraverso la quale si collegano ad un dispositivo di rete che a sua volta trasmette il segnale ad un server che si occupa della gestione dei video tramite un software. Le telecamere utilizzate sono digitali e il segnale nasce digitale e questo, per la qualità del video, è molto importante perché, ogni volta che si ha un passaggio da analogico a digitale o viceversa, c'è una perdita di qualità.

(13)

Dunque, rispetto ad una rete analogica, un sistema di videosorveglianza basato su telecamere connesse tramite la rete Internet offre i seguenti vantaggi:

• possibilità di usare telecamere ad alta risoluzione (megapixel);

• qualità dell'immagine costante, indipendentemente dalla distanza;

• possibilità di usare funzionalità Power over Ethernet e wireless per ridurre i problemi e i costi di cablaggio;

• accesso remoto alle funzionalità delle camere come pan, tilt e zoom;

• piena flessibilità e scalabilità. [18]

I sistemi di ultima generazione, basati su telecamere in rete, offrono la possibilità di sviluppare una videosorveglianza intelligente grazie alla potenza di computazione propria degli strumenti utilizzati.

Figura 6: sistema di video sorveglianza interamente digitale

(14)

4 Standard tecnologici delle telecamere di videosorveglianza

Nella progettazione di un sistema di video sorveglianza assume un ruolo fondamentale la scelta delle telecamere da installare. Oggi il mercato propone una vasta gamma di prodotti con diverse caratteristiche e fasce di prezzo. Si parte da telecamere da qualche centinaio di euro adatte alla videosorveglianza domestica per arrivare a prodotti di fascia alta indicati per situazioni particolari.

La scelta del dispositivo dipende in larga misura dal contesto applicativo e dai risultati attesi.

Nel seguito vengono descritte alcune delle caratteristiche principali di cui bisogna tenere conto nella scelta della telecamera.

4.1 Telecamere fisse e mobili

Una prima categorizzazione si può effettuare in base alla mobilità che la telecamera avrà una volta installata. Si considerano, in genere, due categorie:

Telecamere fisse: queste vengono installate su di un supporto fisso e inquadrano sempre la stessa scena. I parametri di zoom e angolazione, una volta impostati, non cambiano nel tempo.

Telecamere mobili: si installano utilizzando supporti mobili che hanno la possibilità di cambiare la loro angolazione. Il supporto mobile permette di poter variare l’angolo verticale (TILT) o quello orizzontale (PAN). Solitamente il supporto è motorizzato e controllabile in remoto. In questo modo l’operatore è in grado di modificare l’inquadratura in base alle esigenze. In genere oltre all’angolazione è possibile modificare lo zoom in modo da permette di concentrare l’attenzione su alcuni dettagli. Questo genere di telecamere sono chiamate PTZ (Pan Tilt e Zoom).

La scelta del tipo di telecamera varia in base all’applicazione. Le telecamere PTZ, anche se più versatili, aggiungono complessità al sistema di analisi che, in fase di elaborazione, deve tenere conto del variare dei parametri di angolazione e zoom.

(15)

4.2 Tipologia di obiettivi

Il tipo di obiettivo scelto influisce sulla porzione di area che le telecamere riesce a inquadrare. Tra le varie caratteristiche di un obiettivo assume notevole importanza l’angolo di visuale che indica la porzione di spazio che viene inquadrata.

Nella figura 7 sono viene visualizzata la stessa scena acquisita con obiettivi diversi per mostrare quali sono le differenze tra le varie acquisizioni.

Figura 7: La stessa scena acquisita da un supergrandangolare (90°), da un grandangolare (45°), da un teleobiettivo con angolo di 21° e da teleobiettivo con angolo di 15°

4.2.1 Obiettivo emisferico o supergrandangolare

Questo tipo di obiettivo consente di inquadrare una ampia porzione di spazio riducendo le zone morte che sarebbero escluse dal controllo. L’angolo di visuale con questi obiettivi arriva fino ad 180°.

Figura 8: Esempio di acquisizione con obiettivo emisferico

(16)

4.2.2 Obiettivo ultragrandangolare (fisheye)

Si tratta di un particolare obiettivo grandangolare estremo che abbraccia un angolo di campo non minore di 180 gradi, esistono infatti obiettivi fisheye che abbracciano angoli di campo superiori a 180 gradi. Questi tipi di obiettivi vengono chiamati fisheye (occhio di pesce) perché simulano la visione di alcuni tipi di pesci. Hanno la capacità di registrare l’intero emisfero di 180 gradi che si trova davanti alla camera, proiettandolo come immagine circolare sul sensore.

A differenza degli obiettivi grandangolari a prospettiva rettilinea, i fisheye forniscono un'immagine distorta, la distorsione aumenta quanto più ci si allontana dal centro dell’immagine. Questo tipo di obiettivi ha il vantaggio di poter riprendere tutto quello che accade in una scena. Anche se le immagini risultano distorte esistono metodologie di compensazione della distorsione.

Figura 9: Immagine di una strada ripresa con un obiettivo fisheye

4.2.3 Teleobiettivo

Consente di inquadrare una porzione di spazio relativamente piccola ma con grande accuratezza. L’angolo di visuale in questo caso è minore di 45°. Questo tipo di obiettivo viene utilizzato nel caso si vogliano cogliere dettagli specifici di una scena, come ad

(17)

esempio il numero di targa di un’auto.

4.3 Tipo di connessione

Nella progettazione di un sistema di videosorveglianza bisogna tenere conto del fatto che ogni telecamera ha bisogno di una connessione per trasmettere le immagini e un cavo di alimentazione.

Negli ultimi anni si sono diffuse le telecamere con connessione Ethernet. Questo tipo di interfaccia consente di cablare le telecamere con una rete dati standard senza dover utilizzare connessioni particolari, inoltre consente di associare ad ogni dispositivo un indirizzo IP e di sfruttare la rete Internet per potervi accedere da remoto. Questo consente non solo di ricevere i dati ma anche di comunicare con la telecamera per impostare i vari parametri.

Un altro vantaggio di questo tipo di connessione è che permette di alimentate direttamente il dispositivo attraverso il cavo Ethernet utilizzando la tecnologia Power over Ethernet (PoE) riducendo il numero di cavi e semplificando il cablaggio.

Esistono anche telecamere con interfaccia wifi e che quindi non richiedono cavi per a trasmissione dati, ovviamente bisogna comunque collegare la telecamera ad una fonte di alimentazione.

Gli standard di velocità più diffusi sono Ethernet 10/100 Mbit/s ma è possibile raggiungere, tramite standard più recenti quali PoE+ velocità di 10 Gbit/s. La velocità di connessione influisce ovviamente sul numero e sulla qualità delle immagini trasferibili per unità di tempo.

4.4 Risoluzione e velocità di acquisizione

Si definisce risoluzione di un'immagine digitale, il numero di pixel che compongono l'immagine espresso in base per altezza. Più è alta la risoluzione maggiori sono i dettagli della scena che si riescono a cogliere.

(18)

Le telecamere di rete IP forniscono un segnale video digitale la cui risoluzione viene espressa in pixel x pixel, ugualmente alla risoluzione del sensore. Le telecamere IP di prima generazione fornivano la risoluzione VGA di 640x480 pixel mentre oggi sono in grado di fornire risoluzioni molto superiori.

Tra gli standard più diffusi ci sono i seguenti:

Figura 10: Esempi di risoluzioni di immagini utilizzati nella videosorveglianza

Più alta è la risoluzione maggiore sarà la quantità di memoria necessaria a memorizzare le immagini, quindi sarà necessaria una più alta velocità di trasmissione.

Per quanto riguarda l’acquisizione e la trasmissione di filmati esistono, anche in questo caso, diversi standard. La velocità di acquisizione si misura in Frame per Second (fps), cioè fotogrammi al secondo. A parità di banda disponibile la velocità è inversamente proporzionale alla dimensione del frame. Di seguito alcuni esempi di velocità di trasmissione e relativa risoluzione ricavati dalle specifiche di una telecamera di videosorveglianza standard:

• 30 fps in risoluzione VGA (640x480 pixel)

• 30 fps in risoluzione CIF (352x388 pixel)

• 20 fps in risoluzione MEGA (1280x960 pixel)

(19)

Come ci si poteva aspettare all’aumentare della risoluzione diminuisce il frame rate.

4.5 Visone a infrarossi

Le telecamere a infrarossi sono utilizzate in impianti di videosorveglianza nei quali esiste la necessità di una visione nitida anche in condizioni di scarsa luminosità. Queste telecamere sono dotate di speciali Led che emettono luce infrarossa non visibile ad occhio umano, ma visibile dal CCD montato sul dispositivo. Questo tipo di telecamere acquisiscono a colori per la visione diurna, mentre in quella notturna commutano in automatico in bianco e nero. Solitamente la velocità e l’accuratezza dell’acquisizione degradano nella visione notturna.

Figura 11: esempio di scena acquisita nel visibile e a infrarossi

(20)

5 Lo stato dell’arte delle tecniche di videosorveglianza

Negli ultimi anni uno dei campi di ricerca in continua evoluzione nell’ambito della visione artificiale è sicuramente quello della video sorveglianza. L’obiettivo di questo tipo di ricerca è realizzare sistemi che siano in grado sorvegliare scene che si evolvono dinamicamente e cercare di seguire gli spostamenti e descrivere il comportamento degli elementi presenti nella scena. Lo scopo è sviluppare una video sorveglianza intelligente e attiva che sia in grado di sostituire la video sorveglianza passiva tradizionale che è risultata, in molti contesti, inadeguata. Per comprendere meglio cosa significhi sorveglianza attiva e passiva basti pensare al gran numero di telecamere di sorveglianza installate in vari punti di una città. Queste forniscono migliaia immagini di quello che accade in tempo reale in zone di interesse. Ma per tenere sotto controllo quello che visualizzano decine, se non centinaia, di telecamere servirebbe un gran numero di operatori. In questo caso si parla di sorveglianza passiva, il sistema si limita a fornire immagini, ma non cerca di interpretare quello che succede. (Per un approfondimento del tema si veda il capitolo 6 di questo documento)

L'obiettivo di un sistema di video sorveglianza attiva è non solo di mettere telecamere al posto degli occhi umani, ma anche di compiere una vera e propria operazione di sorveglianza, rilevando in modo automatico quello che accade nella scena e segnalando il verificarsi di situazioni particolari.

La video sorveglianza ha una vasta gamma di potenziali applicazioni, ad esempio controllo di aree urbane, controllo di zone sottoposte a particolari restrizioni come porti e aeroporti, controllo di strade e autostrade e così via. In particolare, si può focalizzare l’attenzione su situazioni che coinvolgono persone e veicoli in particolari contesti. Tra i più diffusi contesti applicativi si trovano:

1. Controllo di accesso a zone con speciali restrizioni come basi militari, zone aeroportuali o zone industriali particolarmente pericolose. In questi casi oltre a rilevare la presenza di persone è necessario anche utilizzare sistemi biometrici per cercare di identificarle per capire se sono autorizzata ad accedere all’area oppure no.

(21)

2. Identificazione di persone presenti nella scena. Questo tipo di applicazioni possono essere di fondamentale importanza per le forze di polizia nei casi in cui si renda necessario individuare una particolare persona, come ad esempio un ricercato.

Telecamere di sorveglianza con questo specifico obiettivo possono essere installate in stazioni ferroviarie, aeroporti, sottopassaggi e altri posti di transito. Il sistema non si limita a rilevare la presenza di persone ma attraverso dati biometrici come i tratti del volto o il modo di camminare cercano di riconoscerne l’identità.

3. Statistiche sul flusso della folla di persone e analisi della congestione del traffico. Usando tecniche per la rilevazione automatica di persone si possono monitorare i movimenti della folla in determinate aree pubbliche. Simili procedure si possono anche applicare nel caso si debba monitorare il traffico di veicoli in grandi incroci, autostrade o superstrade. Questi sistemi forniscono importanti informazioni a chi si occupa di gestire il traffico automobilistico.

4. Rilevazioni di situazioni di allarme o di anomalie. In alcune circostanze è necessario analizzare i comportamenti delle persone e dei veicoli e determinare se questi comportamenti siano normali o anomali. Ad esempio, si può rilevare se un veicolo sta percorrendo un tratto di strada contromano o se sta compiendo un’infrazione. Un altro scenario è quello della sorveglianza dei parcheggi in cui il comportamento di certe persone potrebbe far pensare che stiano commettendo un furto o stiano danneggiando delle auto.

5.1 Schema di un sistema di videosorveglianza

Un generico sistema di video sorveglianza può essere schematizzato secondo il diagramma riportato in figura 12 [7]. Come si può notare si tratta di un sistema a cascata in cui ogni elemento riceve in ingresso l’uscita dell’elemento precedente. Gli eventuali errori commessi ad un certo livello si propagano a quello successivo e, in alcuni casi, possono comprometterne il corretto funzionamento.

(22)

Figura 12: Schema di un generico sistema di video sorveglianza (tratto da [7])

Segue una breve descrizione dei vari elementi dello schema che saranno approfonditi nel seguito del documento.

Creazione di un modello descrittivo dell’ambiente di utilizzo. La creazione del modello è fondamentale per poter distinguere tra gli elementi che fanno parte dello sfondo (background) e quelli che nella scena si muovono (foreground). Il modello deve essere in grado di adattarsi all’evolversi temporale della scena.

Segmentazione del moto. Una volta creato il modello lo si utilizza per estrarre gli oggetti in movimento.

Classificazione degli oggetti. Gli elementi individuati vengono classificati in base alle loro caratteristiche di forma, dimensione o di moto. Di solito

(23)

si considerano due classi di oggetti: persone e veicoli.

Tracking. L’obiettivo di questo modulo è di seguire gli spostamenti degli oggetti precedentemente classificati all’interno della scena.

Descrizione del comportamento. Una volta individuata una persona nella scena si può cercare di capire cosa sta facendo. Questo tipo di analisi si rivela utile quando si vogliono rilevare comportamenti dolosi o pericolosi, come aggressioni, furti o si vuole individuare chi lascia un pacco o una borsa incustoditi in un luogo pubblico.

Identificazione di persone. Un processo parallelo al precedente consiste nell’identificare le persone presenti nella scena utilizzando le loro caratteristiche fisiche, come la forma del volto, o comportamentali, come il modo di camminare.

Fusione di flussi multi telecamera. L'utilizzo di più telecamere che riprendono una scena consente di avere diversi vantaggi. Uno è quello di affrontare problemi come occlusioni o sovrapposizioni grazie la fatto che un soggetto viene ripreso da più angolazioni. Un altro vantaggio è quello di poter seguire un soggetto in un area più ampia di quella inquadrata da una sola telecamera. L'utilizzo di più telecamere introduce comunque un notevole livello di complessità al sistema in quanto si dovranno fondere i dati provenienti dalle varie postazioni.

5.2 Descrizione delle condizioni di utilizzo

Come evidenziato nei paragrafi precedenti uno degli elementi fondamentali di un sistema di video sorveglianza è la capacità individuare gli oggetti in movimento nella scena distinguendoli dallo sfondo. Le scelte progettuali e metodologiche da effettuare a questo scopo dipendono fortemente dagli strumenti che si intende utilizzare e dall’ambiente in cui si utilizzerà il sistema.

Per quanto riguarda gli strumenti utilizzabili nel capitolo 4 del documento sono stati

(24)

descritte le caratteristiche dei sistemi che impiegano telecamere fisse o mobili (PTZ).

Le telecamere di tipo PTZ o quelle installate su veicoli in movimento rendono più complessa l’analisi perché introducono ulteriori parametri di cui tenere conto. Ad esempio, lo sfondo non si può considerare fisso perché può variare l’inquadratura o lo zoom applicato. In questi casi diventa più complesso distinguere tra gli oggetti in movimento che fanno parte dello sfondo e quelli che sono di interesse in quanto anche lo sfondo può avere un movimento apparente. Per ovviare al problema vengono adottate tecniche di compensazione del movimento [19].

Per quanto riguarda l’ambiente di utilizzo se ne distinguono due in particolare:

Utilizzo all’aperto. Le problematiche relative ad un utilizzo all’aperto sono molteplici:

• Cambiamenti di illuminazione. Si deve tenere conto dei cambiamenti di illuminazione dovuti al sorgere e tramontare del sole o dell’accendersi o spegnersi di lampioni o fari che modificano localmente o diffusamente l’illuminazione della scena.

• Eventi atmosferici. Eventi di questo tipo possono creare notevole difficoltà nell’analisi delle immagini, ad esempio neve, pioggia o grandine introducono nella scena elementi di disturbo. Le gocce d’acqua o i fiocchi di neve sono oggetti in movimento che però sono parte dello sfondo. Anche la nebbia crea notevoli problemi riducendo la visibilità e rendendo difficile, se non impossibile, distinguere certi dettagli.

• Elementi di disturbo. In una scena all’aperto ci potrebbero essere elementi in movimento che però non sono di interesse come ad esempio un albero che si muove mosso dal vento o un uccello che vola.

Utilizzo in ambienti chiusi. In questi ambienti si può presumere che l’illuminazione sia costante o al limite controllata. Inoltre, non sarà necessario tenere conto delle variazioni meteorologiche.

(25)

5.3 Localizzazione degli oggetti in movimento

Lo scopo di questo stadio è quello di individuare quali sono le parti in movimento nella scena. Significa in pratica cercare di capire quali oggetti sono statici o non sono di interesse e quindi fanno parte dello sfondo (background) e quali sono in movimento (foreground). Questo è uno stadio fondamentale in un sistema di video sorveglianza in quanto la qualità e la robustezza del metodo utilizzato influenzeranno notevolmente la qualità del risultato finale.

In letteratura esistono molteplici tecniche che si sono rivelate più o meno robuste e adatte a diversi ambienti di utilizzo. Di seguito vengono descritte le più interessanti.

5.3.1 Sottrazione dello sfondo

Questo tipo di approccio prevede il confronto tra l'immagine corrente che si vuole analizzare e un modello della scena che rappresenta il background. L'immagine di riferimento viene definita come modello del background. Il modello viene generato partendo dall'osservazione della scena per un tempo sufficiente a stabilire, in modo automatico, cosa sia statico cosa no al suo interno. [8] Per individuare il foreground è sufficiente calcolare la differenza tra il modello e l’immagine corrente. Le differenze rappresentano gli elementi estranei allo sfondo e che quindi sono in movimento.

Nella realtà non è sempre semplice stabilire una netta differenza tra background e foreground. Ad esempio, le foglie di un albero mosse dal vento sono oggetti in movimento ma non sono elementi di interesse e di solito non devono essere considerati.

In questo tipo di approccio si prendono in esame tre diversi aspetti:

1. Quale è il tipo di usato modello e quale è il suo comportamento. In letteratura sono stati proposti diversi approcci, che verranno descritti nel seguito, che propongono modelli con diverse caratteristiche.

2. Come si inizializza il modello. Solitamente vengono utilizzate tecniche

(26)

statistiche che si basano sull'analisi di una serie di immagini.

L'inizializzazione è una fase importante perché ha un effetto profondo sul comportamento e sull'efficienza del modello.

3. Come il modello si adatta nel tempo. Questo è particolarmente importante perché descrive come i parametri del modello si modificano nel tempo adattandosi all'evoluzione dinamica della scena. Per esempio se un auto entra nella scena e viene parcheggiata dopo un certo tempo il modello si deve adattare in modo che venga considerata come parte dello sfondo e non più come oggetto nuovo.

Questo tipo di tecnica è particolarmente sensibile sia ai cambi di illuminazione che ai cambiamenti localizzati dello sfondo. Le variazioni nella scena sono a volte repentine e il modello deve essere abbastanza versatile per adattarsi rapidamente alla nuova situazione.

In figura 13 viene mostrato un esempi di applicazione di questa tecnica.

Figura 13: Esempio di sottrazione dello sfondo: a) Immagine corrente. b) Modello dello sfondo. c) Elementi evidenziati.

In [8] Piccardi presenta un compendio delle tecniche più diffuse che vengono di seguito elencate in ordine di complessità:

• Media di Gaussiane. La densità di probabilità di ogni pixel viene descritta da una curva gaussiana e quindi parametrizzata solo da media e varianza. I

(27)

parametri si modificano nel tempo per adattare il modello all'evoluzione temporale della scena.

• Filtri mediani temporali. Il modello viene realizzato utilizzando la media degli ultimi n frame. Un problema di questa tecnica consiste nel fatto che bisogna tenere in memoria il valore degli ultimi n frame.

• Misture di Gaussiana [9]. L’idea è quella di realizzare un modello statistico dello sfondo utilizzando delle misture di gaussiane che descrivono statisticamente l'evolversi temporale di ogni pixel dell'immagine. I parametri utilizzati vengono aggiornati dinamicamente al variare delle caratteristiche della scena.

• Metodi basati sul Kernel. Spesso la densità di probabilità associata ad ogni pixel viene approssimata con l'istogramma dei valori del pixel. In alcuni casi non sono disponibili sufficienti dati per poter stimare la densità di probabilità in modo accurato. Per ovviare a questo problema è stata introdotta una tecnica di stima della densità di probabilità basata su funzioni non parametriche.

• Co occorrenze di variazioni di immagini. Invece di considerare un singolo pixel vengono considerati blocchi di NxN pixel come un unico vettore di N^2 elementi. Nella fase iniziale vengono acquisisti diversi campioni che permettono di calcolare le matrici di covarianza e gli autovalori che consentono di ridurre la dimesionalità dello spazio.

• Eigenbackgrounds. Questa tecnica prevede una fase di addestramento in cui si calcolano gli auto vettori di una matrice ottenuta da una serie di immagini usate per inizializzare il sistema. In fase di classificazione ogni nuova immagine viene proiettata nello spazio degli auto-vettori e poi riproiettata nello spazio immagine successivamente si sottrae l’immagine originale da quella riproiettatata e applicando una soglia si ottiene il foreground. Questa tecnica sfrutta la capacità degli auto-vettori di descrivere la parte statica

(28)

dell’immagine.

Recentemente è stato proposto un metodo denominato ViBe (Universal Background sutraction algoritm) [10]. L'idea di base risiede nel fatto che la statistica utilizzata per descrivere lo sfondo non prevede che ogni pixel venga analizzato separatamente, ma che si tenga conto anche dei pixel che sono intorno. Questo rende il sistema più robusto ed efficiente. In figura 14 sono messi a confronto i risultati ottenuti utilizzando diverse tecniche note in letteratura Per i dettagli di questa tecnica si rimanda a [10].

Figura 14: Esempi di applicazione di varie tecniche di background subtraction

5.3.2 Differenze temporali

Questa metodologia prevede di calcolare la differenza pixel a pixel tra due o tre immagini consecutive in modo da evidenziare ciò che sta cambiando nella scena. Il metodo risulta robusto ai cambiamenti di dinamici nella scena, ma non riesce a evidenziare tutti punti rilevanti. Ad esempio, i punti all’interno di un oggetto non vengono evidenziati in

(29)

quanto rimangono costanti da un’immagine a quella successiva. Utilizzando particolari accorgimenti si possono comunque ottenere risultati interessanti. Un esempio di applicazione di questo metodo si può trovare nel lavoro di Lipton [11].

Figura 15: Esempio di utilizzo di differenze temporali

5.3.3 Flusso ottico

Il flusso ottico è un vettore che descrive il movimento di un oggetto in una sequenza.

Si veda ad esempio la figura 16 in cui è mostrata un’immagine e il relativo flusso ottico.

Nell’immagine di destra si possono notare che i vettori sono più lunghi in corrispondenza dei veicoli in movimento. Il verso dei vettori indica, inoltre, la direzione del moto. Si tratta di una tecnica computazionalmente molto pesante e particolarmente sensibile al rumore.

Questo approccio trova però particolare applicazione nel caso di telecamere mobili, in quanto permette di distinguere tra il moto dello sfondo e quello degli oggetti di interesse.

Approfondimenti di questa tecnica si possono trovare nel lavoro di Barron [12].

Figura 16: Esempio di immagine e relativo flusso ottico

(30)

5.4 Classificazione degli oggetti

In un sistema di video sorveglianza attivo non è sufficiente individuare un elemento nuovo che è entrato nella scena, si muove al suo interno o ne è uscito. Per avere una corretta comprensione di quello che realmente sta accadendo diventa fondamentale cercare di capire la natura dell’oggetto. Questo permette di avere un valido aiuto nel monitorare quello che accade. Ad esempio, si può essere avvertiti se una persona entra in una zona riservata alle merci o se un veicolo transita in una zona non consentita al traffico o in un orario particolare.

In generale, in un sistema di video sorveglianza, si cerca di distinguere tra due grandi categorie: Persone o gruppi di persone e veicoli.

Questo tipo di classificazione sembra piuttosto semplice in apparenza, ma in realtà vi sono molti fattori che la rendono, in molti casi, piuttosto complessa. Le difficoltà risiedono nel fatto che gli elementi da classificare possono essere ripresi in diverse pose e da diverse angolazioni che dipendono da quale angolazione e da quale distanza la telecamera inquadra la scena e dalla posa dell’oggetto. Questo comporta, ad esempio, che si possono avere immagini di auto con diverse prospettive che mostrano caratteristiche diverse. Oppure, a scale diverse, quella che sembra un'auto mentre in realtà è una persona.

Per ovviare a questi problemi è necessario individuare metodologie che non siano troppo sensibili alle differenze prospettiche.

In figura 17, ad esempio, si vedono delle riprese di automobili da angolazioni differenti. Come si nota le auto inquadrate di fianco presentano proporzioni e caratteristiche generali diverse da quelle inquadrate di fronte. Questo esempio ben illustra le difficoltà che ci possono essere nel generalizzare le caratteristiche che permettono di riconoscere gli autoveicoli.

(31)

Figura 17: Esempio di riprese di automobili da angolazioni diverse

Di seguito vengono descritte due fra le più diffuse tecniche di classificazione.

5.4.1 Classificazione basata sulla forma.

Al fine di poter classificare gli oggetti si possono usare informazioni descrittive dell’oggetto come forma, perimetro, contorno o proporzioni. Collins [13] propone un approccio basato su: area, dispersedness (rapporto tra area e perimetro), proporzioni e altro. Utilizzando questi parametri per addestrare una rete neurale si riesce a suddividere gli elementi in movimento in 4 categorie: persone singole, veicoli, gruppi di persone e gruppi di oggetti. Lipton [14], invece, utilizza sia la dispersedness che un vincolo temporale per distinguere tra persone e veicoli. In figura 18 si può vedere un esempio di valori di dispersedness relativi ad una persona e ad un veicolo.

Figura 18: Esempi di valori di dispersedness relativi a persone e veicoli

(32)

5.4.2 Classificazione basata sul tipo di moto.

Un diverso approccio alla classificazione è basato sul tipo di moto dell’elemento individuato. Ad esempio, persone e veicoli si muovono in modo diverso. Un veicolo ha un movimento rigido mentre una persona che cammina muove ritmicamente braccia e gambe.

Estraendo il flusso ottico limitatamente alla regione di interesse si possono avere informazioni sul moto dell’oggetto. Si può trovare una descrizione di questo tipo di approccio in un altro lavoro di Lipton [15]. In figura 19 si può vedere un esempio di come il flusso ottico ad una persona che cammina risulti più variegato di quello relativo ad un veicolo in movimento.

Figura 19: Esempi di flusso ottico relativo a elementi con moto differente

5.5 Tracking

Dopo aver individuato un oggetto in movimento il passo successivo consiste nell’inseguimento dei suoi spostamenti attraverso la scena (tracking). Non è sempre semplice seguire i movimenti di un oggetto perché, durante i suoi spostamenti, potrebbe sovrapporsi ad altri oggetti in movimento (grouping) oppure essere parzialmente nascosto

(33)

da altri elementi della scena (occlusion). [16]

Alcuni degli strumenti matematici più utilizzati nel tracking sono: il filtro di Kalman, il metodo condensation e le reti di Bayes. Fondamentalmente le metodologie di tracking si possono suddividere in quattro categorie principali:

• Tracking basato su regioni

• Tracking basato sui contorni

• Tracking basato su particolari caratteristiche (features)

• Tracking basato su modelli

5.5.1 Tracking basato su regioni

Per ogni oggetto in movimento nella scena viene presa in esame la regione che lo contiene (blob). Grazie ad una descrizione della regione si può ottenere una descrizione semplificata dell’oggetto. L’idea di base di questo approccio è quella di tenere conto delle variazioni di forma delle regioni da un frame al successivo in modo da poter seguire il suo movimento e di conseguenza quello dell’oggetto che racchiude.

Una tecnica interessante applicata al tracking di persone utilizza diversi blob, con caratteristiche morfologiche diverse, per modellare le varie parti del corpo umano. In pratica viene creato un blob che descrive il capo, uno per il torso e quattro per gli arti.

Grazie a questa semplificazione si riescono a seguire gli spostamenti di una persona in ambiente chiuso. Questa tecnica è stata utilizzata anche nel caso di tracking di veicoli.

Il problema principale di questo approccio è l’incapacità di gestire le occlusioni. Se un oggetto è parzialmente nascosto o sovrapposto ad un altro il metodo non è sufficientemente accurato per seguirlo con precisione. Un esempio dell’applicazione al di questo tipo di tecnica tracking di persone lo si può trovare nel lavoro di McKenna [16].

(34)

5.5.2 Tracking basato sui contorni

Questa metodologia prevede che ogni oggetto venga descritto da una linea che ne segue il contorno e che si adatta dinamicamente all’oggetto stesso mentre si muove nella scena. L’oggetto viene descritto dai parametri della curva del contorno. Questo è un grande vantaggio perché l’oggetto può essere descritto con relativamente pochi parametri e questo riduce i tempi di elaborazione. In figura 20 vengono riportati i vari passi che conducono a questo tipo di descrizione:

a) Immagine originale.

b) Prima approssimazione dell’oggetto.

c) Raffinamento della descrizione dell’oggetto.

d) Individuazione del poligono che racchiude l’oggetto.

e) Contorno finale descritto da una curva cubica che approssima il poligono.

Figura 20: Tracking basato su contorni

Rispetto al tracking basato su regioni questo tipo di approccio risulta più efficace in quanto la descrizione dell’oggetto è più precisa e robusta. Il sistema è in grado di seguire un oggetto anche nel caso ci siano parziali occlusioni o rumore. Come si può vedere in figura 21 l’immagine di destra presenta un’occlusione artificiale che copre una parte del veicolo.

(35)

Nonostante questo, grazie alle informazioni precedentemente acquisite, si può generare l’intera curva. Nella parte sinistra si vede l’approssimazione sovrapposta all’immagine e si può notare che l’oggetto viene rappresentato correttamente.

Figura 21: Simulazione di una occlusione e generazione del contorno corrispondete

Questo tipo di approccio è stato applicato da Malik [16] nel caso di tracking di veicoli. Uno dei principali difetti di questo metodo è la scarsa precisione nella localizzazione. Un altro problema deriva dal fatto che la bontà del sistema dipende grandemente dall’inizializzazione. Questo rende difficile far partire in modo automatico il tracking.

5.5.3 Tracking basato su features

In questo tipo di approccio per ogni oggetto di interesse vengono estratte delle caratteristiche (features) che ne siano caratterizzanti. Sfruttando queste informazioni si può inseguire l’oggetto attraverso le immagini della sequenza. Fondamentalmente esistono tre categorie di features:

• Features globali. Queste includono il centro di massa dell’oggetto, la sua area o il perimetro.

• Features locali. Rappresentano punti specifici dell’oggetto, come angoli, linee o curve. In figura 11 si possono vedere esempi di questa tecnica tratta dal lavoro di Malik [21] in cui vengono localizzati gli angoli degli oggetti.

(36)

Figura 22: Estrazione di features locali (a sinistra) e raggruppamento di features (a destra)

• Features geometriche. Queste rappresentano non tanto singoli punti, ma distanze e relazioni tra vari punti significativi dell’oggetto.

Le tecniche basate su feautures globali e locali sono adatte anche in caso di algoritmi real-time mentre le features geometriche richiedono un tempo di calcolo superiore. Questo tipo di approccio da buoni risultati anche nel caso si debbano seguire gli spostamenti di più oggetti contemporaneamente come nel caso dei veicoli che transitano in un’autostrada. Le tecniche che usano features locali e geometriche possono gestire anche situazioni in cui vi siano parziali occlusioni dell’oggetto sfruttando le informazioni sul moto delle features o le relazioni che esistono tra di loro. Anche in questo tipo di approccio presenta alcuni problemi:

a) Scarsa capacità di riconoscimento di oggetti 2D a causa delle distorsioni prospettiche non lineari dovute al moto dell’oggetto.

b) Scarsa capacità di ricostruire la posa in 3D dell’oggetto.

c) Scarsa stabilità nel caso di grandi occlusioni, sovrapposizioni e interferenze.

5.5.4 Tracking basato su modelli

Il tracking avviene tramite il confronto tra gli oggetti presenti nell’immagine e modelli costruiti a mano off line utilizzando, ad esempio, programmi CAD. Questo prevede una conoscenza a priori degli oggetti di interesse. Gli oggetti di interesse possono essere di due tipi: rigidi come ad esempio un veicolo, e non rigidi come una persona. In base al tipo di

(37)

oggetto vengono impiegate tecniche e metodologie diverse.

Questo tipo di tecnica ha dei notevoli vantaggi rispetto alle precedenti:

• Utilizzando i contorni 3D dell’oggetto il sistema è intrinsecamente robusto. Si ottengono ottimi risultati anche nel caso di occlusioni o sovrapposizioni di oggetti.

• Possono essere sfruttate le conoscenze che si hanno a priori dell’oggetto da inseguire.

• Questa tecnica può esser utilizzata anche nel caso che l’oggetto cambi notevolmente la sua posa durante il moto.

Ci sono anche degli svantaggi in quanto bisogna costruire un modello per ogni oggetto di interesse inoltre il carico computazionale è notevole.

L’approccio basato su modelli può essere efficacemente applicato anche nel caso ci si voglia concentrare solo sulle persone Una volta individuato il soggetto in movimento nel frame corrente, si cerca di predire la posa che avrà il soggetto in quello successivo.

Una volta generato il modello questo viene proiettato sul piano immagine e confrontato con l’immagine del soggetto. Per poter effettuare il confronto è necessario stabilire una misura di similarità tra il modello e l’immagine. Una volta individuata la posa corretta questa viene utilizzata per adattare il modello. Particolarmente delicata e importante è la stima della posa nel primo frame in quanto non si ha conoscenza del moto.

Da questa stima dipenderanno quelle future. Si può trovare una descrizione del metodo nel lavoro di Karaulova [22] da cui è tratta la figura 23.

In definitiva nel caso di tracking di persone basato su modelli i principali elementi sono:

1. Costruzione del modello

2. Rappresentazione della conoscenza del moto e dei suoi vincoli 3. Predizione della posa

(38)

Figura 23: Esempio di modelli di persone [22]

Nel caso dei veicoli, che hanno una struttura rigida in confronto a quella delle persone, una delle tecniche usate è quella di estrarre i contorni dall’oggetto in esame e utilizzarli come punti di riferimento per poter allineare il modello precedentemente costruito. In figura 24 è si può vedere un esempio di questa tecnica tratta dal lavoro di Yang [23].

Oltre ai contorni possono essere utilizzate informazioni relative alle caratteristiche geometriche come distanze fra punti particolari, in questo modo si ha anche un’approssimazione della scala a cui portare il modello da utilizzare.

Figura 24: Esempio di tracking di un’auto basato su un modello

(39)

5.6 Fusione di flussi multi telecamera

In alcuni contesti la vista di una sola telecamera risulta piuttosto limitativa. Al fine di poter monitorare aree più ampie e poter gestire più informazioni acquisite dal mondo reale sono stati recentemente sviluppate metodologie per elaborare filmati provenienti da più telecamere. Questo tipo di approccio coinvolge competenze di vari settori come la computer vision, pattern recognition, analisi di segnali e sensoristica. [24, 25, 26]

Per poter fondere i dati provenienti dalle varie sorgenti video in modo da trarre informazioni utili all'analisi, sono stati sviluppati diversi approcci che verranno brevemente descritti nel seguito.

5.6.1 Calibrazione multitelecamera

Lo scopo è quello di ricondurre le varie viste ad un unico sistema di coordinate nel quale si possono individuare oggetti in movimento e seguirne gli spostamenti. Per alcuni sistemi multitelecamera questo è il primo passo [27].

Il problema della calibrazione di una telecamera rispetto alle coordinate 3D reali è stato affrontato in molti lavori scientifici e sono state proposte al riguardo diverse tecniche che prevedono la stima dei parametri intrinseci (come la distanza focale e il coefficiente di distorsione) e estrinseci (come la posizione e l'orientamento della telecamera).

Le telecamere possono essere calibrate utilizzando un oggetto 3D con geometria nota o un template piano. Alcuni approcci prevedono di usare i cosiddetti vanishing points cioè i punti immaginari in cui convergono le linee parallele a causa della prospettiva.

Vengono anche usate le ombre che proiettano gli oggetti presenti nella scena. Altri approcci prevedono di individuare punti comuni alle varie viste utilizzando estrattori di fetaures locali come SIFT, SURF o altri.

(40)

Figura 25: a) vista da quattro telecamere. b) Le quattro viste riportate allo stesso sistema di coordinate [27]

5.6.2 Descrizione della topologia del sistema multi telecamera

La topologia del sistema descrive come sono dislocate le telecamere e come le loro viste sono spazialmente collegate.

Le viste possono essere:

• Sovrapposte: cioè esistono porzioni di spazio inquadrate da due o più telecamere

• Adiacenti: questo significa che le viste sono disgiunte, cioè non ci sono sovrapposizioni, e non ci sono altre telecamere che inquadrano la zona che rimane in mezzo. Le due viste risultano comunque spazialmente vicine. Le zone non inquadrate si chiamano zone cieche.

Conoscendo la topologia del sistema e i possibili percorsi percorribili dagli oggetti è possibile stimare, con una certa probabilità, in quale vista un oggetto riapparirà dopo che è uscito dalla vista di una camera. La topologia può essere descritta come una rete in cui i nodi sono i punti di ingresso o uscita dalle varie viste e gli archi sono i possibili percorsi.

In figura 26 viene mostrato un esempio di topologia di un sistema multi telecamera.

(41)

Nella figura si possono vedere tre sezioni:

a) Visualizzazione delle viste delle tre telecamere che compongono il sistema. In rosso sono segnati i possibili percorsi che permettono di unire i vari punti di ingresso o uscita dalle viste (numerati e segnati in giallo).

b) Sviluppo delle viste nello spazio.

c) Esempio di rete che modella le possibili connessioni fra i vari punti dell'area sorvegliata. Le linee continue segnano le connessioni all'interno di una vista mentre quelle tratteggiate le connessioni tra viste diverse.

Figura 26: esempio di topologia di un sistema multitelecamera

La topologia può essere creata a mano, ma esistono tecniche complesse che permettono di crearla in modo automatico partendo da una serie di sequenze acquisiste.

5.6.3 Re-identificazione degli oggetti

Questo approccio si propone di ritrovare in una vista lo stesso oggetto individuato in un’altra vista. Non vengono, in questo caso, utilizzate informazioni spazio temporali.

(42)

In alcuni contesti applicativi non è possibile creare una topologia delle telecamere perché queste sono troppo distanti tra loro e quindi diventa difficile ipotizzare possibili percorsi. In questi casi si tenta di re-identificare l'oggetto attraverso le viste delle telecamere. L'obiettivo non è semplice da raggiungere perché un oggetto può cambiare notevolmente a causa di diversa illuminazione, prospettiva o scala da una vista ad un'altra.

Un oggetto di solito si può caratterizzare grazie al colore, alla forma o alla sua tessitura. In generale una singola caratteristica non è sufficiente per la re-identificazione, per questo motivo si usano combinazioni di più caratteristiche. Tra le features utilizzate per la descrizione degli oggetto ci sono SIFT, SURF e LBP.

Figura 27: Esempio di re-identificazione: a) posizione delle telecamere e relative viste; b) esempi di pedoni individuati dalle telecamere; c-f) esempi di filtraggi ed elaborazioni delle immagini; g) esempio del risultato

finale della re-identificazione

(43)

5.6.4 Tracking multi camera

Permette di seguire un oggetto attraverso le varie viste delle telecamere. In questo caso è prevista la calibrazione delle telecamere per ricondursi ad uno spazio comune.

In un sistema multi telecamera il problema del tracking si divide in due sotto problemi:

• Tracking intra-camera: affronta i problemi relativi all'inseguimento di un oggetto all'interno di una vista.

• Tracking inter-camera: prevede di seguire un oggetto attraverso varie viste viste acquisite da diverse telecamere.

Per quanto riguarda il tracking intra-camera si sono già discusse le possibili metodologie applicabili ed esiste una notevole bibliografia la riguardo.

Il tracking inter-camera presenta molte più sfide. Ad esempio, non si possono formulare le predizioni o le ipotesi spazio temporali che si possono fare quando si segue un oggetto all'interno di una sola vista. Inoltre, l'oggetto può cambiare notevolmente per dimensioni, illuminazione e punto di vista tra una vista ed un'altra e questo rende più complesso il tracking.

Per affrontare queste problematiche di non facile soluzione sono stati proposti diversi approcci.

• Tracking inter-camera basato sulla calibrazione multitelecamera. Si tratta di uno degli approcci più diffusi che prevede di riportare tutte le viste in un unico spazio attraverso la calibrazione delle telecamere. In questo spazio risulta più agevole seguire gli spostamenti degli oggetti. Questo approccio permette anche di ovviare a problemi di occlusioni e sovrapposizioni in quanto ogni oggetto viene ripreso da più viste.

• Tracking inter-camera basato sull'aspetto. In molti casi le viste delle telecamere non sono sovrapposte per cui non è possibile applicare le tecniche di calibrazione. In questi casi sono stati proposti approcci basti

(44)

sull'aspetto dell'oggetto integrati da ipotesi statistiche sul informazioni spazio temporali attraverso le varie viste.

5.7 Le reti neurali nella videosorveglianza

Negli ultimi anni nel campo dell’elaborazione e comprensione delle immagini sono state efficacemente impiegati anche approcci basati su reti neurali artificiali. Grazie alla loro capacità di apprendere possono essere impiegate con successo in diverse fasi della videosorveglianza come la modellazione del background e la classificazione di oggetti o situazioni.

Nonostante i buoni risultati ottenuti lo svantaggio di questo approccio risiede nella fase di addestramento che richiede una notevole quantità di dati e di tempo di calcolo.

Alcuni esempi di utilizzo di reti neurali nella videosorveglianza si trovano in [37, 38, 39]

(45)

6 Progetti sviluppati

L’intensa attività di ricerca degli ultimi anni ha dato origine a diversi progetti più o meno complessi e ambiziosi. Nel seguito ne vengono descritti alcuni tra i più rilevanti:

6.1 VSAM

Il progetto VSAM [28] (Video Surveillance and Monitoring) è stato sponsorizzato dalla Advanced Research Projection Agency (DARPA). Il progetto è durato 3 anni (dal 1997 al 1999) ed è stato sviluppato come collaborazione tra il Robotics Institute della Carnegie Mellon University (CMU) e la Sarnoff Corporation. Lo scopo del progetto era quello di sviluppare un sistema di video sorveglianza automatico che permettesse ad un singolo operatore di monitorare quello che avviene contemporaneamente in diverse scene complesse, sia militari che civili, utilizzando una rete di telecamere. Il sistema è in grado di rilevare e seguire oggetti in movimento e di classificarli in 4 categorie: persone, gruppo di persone, auto e camion. A tal fine sono state utilizzate tecniche di analisi della forma e del colore. Inoltre, il sistema è in grado di distinguere se una persona sta camminando o correndo. Alla fine del progetto è stato realizzato un prototipo che utilizza una rete di telecamere che permettono non solo di seguire gli spostamenti di un veicolo o di una persona all’interno di una generica scena, ma anche di localizzarlo con precisione all’interno di un contesto più ampio.

Figura 28: VSAM. Esempio di inseguimento di oggetti in movimento

(46)

6.2 W4

W4 [29] (What, Where, When, Who). Per lo sviluppo del progetto hanno collaborato la IBM e il Computer Vision Laboratory della University of Maryland. Si tratta di un sistema in tempo reale per la video sorveglianza in ambienti aperti. L’obiettivo è di individuare, seguire e osservare il movimento di una persona o di un gruppo di persone. Per ogni persona nella scena si vuole conoscere cosa sta facendo (What), dove e quando lo sta facendo (Where e When) e chi lo sta facendo (Who). Le principali caratteristiche del sistema sono:

• Creazione di un modello dinamico dello sfondo che permetta di localizzare gli oggetti in movimento senza tenere conto di piccole variazioni dello sfondo come le foglie di un albero mosse dal vento.

• Capacità di distinguere le persone da altri oggetti in movimento come, ad esempio, le auto.

• Capacità di seguire gli spostamenti di più persone contemporaneamente anche quando si muovono insieme o interagiscono le une con le altre.

• Costruzione di una rappresentazione diversa per ogni persona così da poterne seguire gli spostamenti anche dopo eventuali occlusioni.

• Modellazione del corpo umano utilizzando sei componenti principali (testa, mani, piedi, torso). Il sistema non solo è in grado di individuare elementi ma anche di farne il tracking.

• Il sistema è anche in grado di determinare se una persona sta portando un oggetto, se lo sta scambiando con un’altra o se lo sta depositando o prendendo.

Per l’acquisizione delle immagini viene utilizzata una singola telecamera a livelli di grigio. Il sistema è stato testato utilizzando immagini ad una risoluzione di 320x240 pixel le immagini vengono elaborate alla frequenza di 25Hz.

Riferimenti

Documenti correlati

Ad ogni modo, il Giudice adito, maggiormente preoccupato di circoscrivere il recinto delle prerogative della Commissione in materia d’iniziative popolari, in chiusura di

A relevant assumption for the correct use of the SCM is that the non euro area group is unaffected by the adoption of the euro. This assumption can be troublesome since, given

The mechanism of influence is as follows: Protest events results in media coverage of those events which leads to increased mass media attention to the underlying

ne potenziano la diffusione sul territorio; Italia Lavoro, nell’ambito dell’Azione di sistema Welfare to work per le politiche di reimpiego, fornisce strumenti e

In relazione a tale finalità il conferimento è obbligatorio e i dati potranno essere utilizzati per comunicazioni relative alla procedura per i quali sono stati

N.B.: Il sopralluogo dovrà essere effettuato dal legale rappresentante o direttore tecnico dell’impresa munito di valido documento

N.B.: Il sopralluogo dovrà essere effettuato dal legale rappresentante o direttore tecnico dell’impresa munito di valido documento