• Non ci sono risultati.

CAPITOLO II ACTIVITY RECOGNITION

N/A
N/A
Protected

Academic year: 2021

Condividi "CAPITOLO II ACTIVITY RECOGNITION"

Copied!
28
0
0

Testo completo

(1)

CAPITOLO II

ACTIVITY RECOGNITION

Il riconoscimento di attività è una procedura che ha lo scopo di riconoscere le azioni umane nella vita reale basandosi su un set di osservazioni e condizioni ambientali.

Per comprendere meglio a cosa si riferisce il riconoscimento di attività, si pensi ad uno scenario del genere: una persona anziana a cui sono somministrati dei medicinali, vive sola in un appartamento nel quale è strutturata una rete di sensori per monitorare il naturale svolgersi della vita quotidiana. La persona fin dal risveglio compie movimenti come alzarsi dal letto, riscaldare il tè e accendere il tostapane per fare colazione, prendere i medicinali, lavarsi, preparare il pranzo la cena, leggere o guardare la televisione. Tutte queste attività sono di conseguenza monitorate e magari rese disponibili su un sito sicuro, nel quale i parenti della persona anziana possono controllare il sano svolgersi della giornata.

Nel seguente capitolo, sono descritte le principali tecniche utilizzate nel riconoscimento di attività, con particolare attenzione ai metodi basati sulla visione artificiale e sui sensori inerziali. Si passa

(2)

poi a parlare delle fasi di lavoro che contraddistinguono un processo generale di riconoscimento di attività, ed infine sono descritte le principali sfide da affrontare con un riferimento al caso in esame.

II 1. CAMPI DI RICERCA E

SETTORI INTERESSATI

Fin dagli anni ’80 il riconoscimento di attività [1] ha attirato l’attenzione di molte comunità di scienze informatiche, vista la sua efficacia in diverse applicazioni e settori di studio. Può essere utilizzato infatti in vari campi come il settore industriale [2], l’assistenza anziani (eldercare) [3], l’assistenza sanitaria (healthcare) [4], lo studio del comportamento sociale degli individui [5], oltre che in ambito sportivo ed in ambito ludico per attività di intrattenimento. Inizialmente, le attività di ricerca in questo ambito si sono basate prevalentemente sulla visione artificiale (“Computer Vision”) [6], attraverso l’analisi di immagini e video in ambienti controllati [7] [8], facendo sì che questa branca diventasse il primo settore ottimizzato per il riconoscimento di attività, sfruttando appunto degli strumenti già abbastanza evoluti come le telecamere.

Con il progredire della tecnologia, sono stati sempre più introdotti nel mercato sensori wireless

(3)

a basso costo, dotati di batterie con vita sempre più lunga e la possibilità di operare al di fuori di zone pensate ad hoc.

Nel resto della sezione presentiamo più nel dettaglio queste due aree di ricerca che sono alla base del riconoscimento di attività.

II 1.1. COMPUTER VISION

Scopo di questa branca è sviluppare algoritmi e metodologie per la riproduzione automatica o semi-automatica di meccanismi tipici dei sistemi di visione biologici, come ad esempio il sistema visivo umano. Questi algoritmi comprendono il riconoscimento di forme e di colori, l'estrazione di informazioni spaziali e geometriche, o la capacità di segmentare e seguire oggetti in movimento.

Per poter analizzare in modo digitale l’immagine analogica ottenuta dalla telecamera, l’immagine deve per prima cosa essere digitalizzata facendo corrispondere ad ogni punto della matrice (pixel) un valore numerico riferito al livello di luminosità letto.

In senso ampio riconoscere un'immagine in maniera automatica significa utilizzare algoritmi in grado di estrarre varie informazioni un’immagine digitale in input. Queste informazioni possono collocarsi su più livelli: basso livello (come le statistiche sulla presenza dei vari toni di grigio o colori, sui bruschi

(4)

cambiamenti di luminosità' ecc.); livello intermedio (caratteristiche relative a regioni dell'immagine e a relazioni tra regioni) o alto livello (determinazione di oggetti con valenza semantica). Per esempio, esistono sistemi in grado di individuare due immagini simili che basandosi unicamente sulla estrazione di caratteristiche di basso livello, mentre sono tuttora oggetto di ricerca algoritmi che siano in grado di dare un'interpretazione semantica del contenuto di un' immagine, pur restringendosi a domini limitati. Uno dei processi principali che possiamo citare, con il quale si indica il confronto fra le varie caratteristiche delle immagini è il “Matching”. Con questo termine intendiamo la ricerca di “feature

points”, punti caratteristici che danno come

risultato una corrispondenza opportuna fra coppie di immagini. I feature point si possono usare per svolgere certe funzioni come:

 ricostruzione 3D

 rivelazione di movimento  riconoscimento si oggetti  navigazione robotica

Alcuni algoritmi di Matching ricercano affinità negli angoli. Questi ultimi infatti sono degli ottimi punti caratteristici proprio per la loro natura. Altre caratteristiche spesso considerate sono:

 punti e chiazze  contorni

(5)

Molte applicazioni di visione artificiale richiedono invece di localizzare nell’immagine analizzata una o più istanze di una particolare sotto-immagine di riferimento, che viene detta “template” o “pattern”. Questa problematica, che è una delle più studiate nell’ambito della visione artificiale, viene detta

“Template Matching” o “Pattern Matching”.

L’algoritmo classico consiste nel far scorrere il template sull’immagine da analizzare al fine di stimare in ogni posizione la similarità fra questo e la sotto-immagine corrente. Se non si conoscono grandezza e orientamento dell’oggetto, si può ruotare o scalare la finestra di ricerca (corrispondente al template) per tenerne conto (aumentando però i tempi di computazione). I metodi più semplici di Template matching prevedono una semplice correlazione a livello di pixel tra un’immagine campione e la finestra di ricerca; in genere i risultati possono essere buoni in casi molto specifici (condizioni di illuminazione costanti, stessa prospettiva sotto cui l’oggetto è inquadrato. . . ), ma in casi più generali è opportuno usare dei classificatori addestrati con un buon numero di esempi.

Il matching descritto fino ad ora, con le sue varianti più o meno complesse, può essere considerato uno dei metodi cardine utilizzati in sistemi di ultima generazione per il riconoscimento di azioni. Qui si apre infatti il mondo del “motion tracking” dove vengono

(6)

sfruttati sistemi di visione artificiale in combinazione con altri strumenti per inseguire i movimenti. Come nella sottobranca del “motion

capture” [9], nella quale si applicano dei marker

(Fig.2.1), passivi (riflettono la luce della telecamera) o attivi (misurano quantità come l’inerzia o si illuminano ad intermittenza), sul corpo del soggetto da monitorare in prossimità delle articolazioni del corpo umano (joint1).

Così facendo:

1. La telecamera tiene traccia degli spostamenti dei marker nel tempo

2. Vengono calcolati gli angoli formati tra coppie di marker

3. Viene riconosciuto il movimento

Altre variazioni di metodi utilizzati si possono individuare ad esempio nel “match moving” [10] o nel “video tracking” [11].

Il match moving è una tecnica molto usata in cinematografia dove:

1. Un software analizza una ripresa effettuata da una telecamera

2. Viene tenuta traccia degli spostamenti di opportuni punti caratteristici

3. Vengono di conseguenza calcolati gli spostamenti effettuati nella ripresa e calcolate le prospettive e scalature corrette

1

(7)

4. Ulteriori elementi nella ripresa vengono così aggiunti con le giuste proporzioni

Il video traking invece sfrutta un algoritmo avanzato per analizzare i frame di una telecamera, tenendo traccia dei movimenti nel tempo di uno o più oggetti bersaglio.

Fig.2.1 marker utilizzati nel motion capture

Infine, tra gli strumenti che sfruttano algoritmi di visione artificiale, possiamo citarne uno sviluppato per scopi ludici e di intrattenimento: il Kinect, Fig.2.2 [12], un accessorio della console Microsoft XBox360, utilizzato per rendere più piacevole ed interattivo all’utente il gioco proposto. Il Kinect è un buon esempio di combinazione di diversi strumenti. Infatti non si limita alla sola visione artificiale componendosi dei seguenti strumenti:

(8)

 Un doppio sensore di profondità a raggi infrarossi composto da uno scanner laser a infrarossi e da una telecamera sensibile alla stessa banda

 Un array di microfoni utilizzato dal sistema per la calibrazione dell'ambiente in cui ci si trova, mediante l'analisi della riflessione del suono sulle pareti e sull'arredamento. In tal modo il rumore di fondo e i suoni del gioco vengono eliminati ed è possibile riconoscere correttamente i comandi vocali.

 Meccanismo di motorizzazione lungo l'asse verticale per seguire i movimenti dei giocatori, orientandosi nella posizione

migliore per il riconoscimento dei

movimenti.

(9)

II 1.2. SENSORI INERZIALI

A partire dalla fine degli anni ’90 i sensori

inerziali hanno avuto un grande impatto sul

riconoscimento di attività, ampliando il campo di ricerca a scenari non ancora considerati. Scenari ad esempio, in cui viene richiesta un’implementazione diretta del sensore sul corpo della persona, per fini applicativi di riabilitazione o supporto allo sport come nel caso della Nike [13] che ha persino predisposto un paio di scarpe con integrati dei sensori di movimento.

Esistono diverse tipologie di sensori inerziali con caratteristiche funzionali e meccaniche molto diverse tra loro: ad esempio i MEMS [14] ( micro electro mechanical system), che misurano solo pochi mm quadrati, oppure i giroscopi2 ad anello

laser che possono misurare fino a 50 cm. Il funzionamento di tutti questi sensori si basa comunque sullo stesso concetto base: l'inerzia3.

Volendo descrivere un accelerometro inerziale possiamo prenderne come esempio uno di tipo MEMS, il quale consiste in un sistema

2 Il giroscopio è un dispositivo fisico rotante che, per effetto della legge di

conservazione del momento angolare, tende a mantenere il suo asse di rotazione orientato in una direzione fissa

3

L'inerzia di un corpo è la proprietà che determina la resistenza alle variazioni

dello stato di moto, ed è quantificata dalla sua massa inerziale. L'inerzia è descritta dal primo principio della dinamica, il principio di inerzia (o prima legge di Newton), che afferma che un corpo permane nel suo stato di quiete o di moto rettilineo uniforme a meno che non intervenga una forza esterna a modificare tale stato. Il concetto di inerzia è correlato a diverse grandezze fisiche, come il momento di inerzia, che quantifica la resistenza alle accelerazioni angolari

(10)

molla posizionato nel vuoto. Se si esercita un'accelerazione sull'accelerometro, il risultato è uno spostamento della massa nel sistema molla. Lo spostamento della massa dipende dal sistema massa-molla, pertanto è necessaria una taratura. La lettura può avvenire tramite un sistema capacitivo. Gli accelerometri MEMS inoltre, come la maggior parte dei sensori inerziali, sono disponibili nelle versioni monoassiali, biassiali, triassiali

Per quanto riguarda invece i giroscopi inerziali ne esistono di diverse classi. I giroscopi MEMS per esempio presentano una piccola massa vibrante che oscilla, sospesa in un sistema a molla. Quando il giroscopio viene ruotato, la rotazione esercita una forza di Coriolis4 perpendicolare sulla

massa, che risulta tanto maggiore quanto la massa è lontana dal centro della rotazione. La massa oscillante fornisce quindi una lettura diversa su ciascun lato dell'oscillazione, riferita alla velocità di rotazione. Oltre a questo esempio citato ne esistono di più evoluti ed innovativi come i giroscopi ad anello laser (Ring Laser Gyroscopes - RLG) e quelli a fibre ottiche (Fiber Optic Gyros - FOG), i quali sono molto affidabili ma anche molto costosi.

4

In fisica, la forza di Coriolis è una forza apparente, a cui risulta soggetto un corpo quando si osserva il suo moto da un sistema di riferimento che sia in moto circolare rispetto a un sistema di riferimento inerziale

(11)

La maggior parte dei sensori inerziali sono accessibili a basso costo e hanno una buona precisione nelle misure. Hanno inoltre come punto di forza le loro piccole dimensioni che, insieme all’avanzamento della tecnologia nei sistemi microelettromeccanici (MEMS), il miglioramento delle comunicazioni wireless ed il progresso dell'elettronica digitale, ha permesso una grande integrabilità in tecnologie moderne e di comune utilizzo come tablet e cellulari [15], nonché la possibilità di organizzare vere e proprie reti di

sensori (WSN, wireless sensor network) [16]. Le WSN in particolare sono composte da un

insieme di nodi (detti sensori) disposti in prossimità oppure all'interno del fenomeno da osservare. I sensori hanno generalmente dimensioni e peso molto ridotti e, se prodotti e distribuiti in massa, possono raggiungere costi di produzione trascurabili. Ogni sensore ha una riserva d'energia limitata e non rinnovabile e, una volta messo in opera, deve lavorare autonomamente; per questo motivo tali dispositivi devono mantenere costantemente i consumi molto bassi, in modo da avere un maggior ciclo di vita. Ogni sensore è composto di un sottosistema processore/memoria tramite il quale può elaborare i dati rilevati dai trasduttori prima di trasmetterli, di un numero variabile di trasduttori, e di un sottosistema radio per le comunicazioni. . Proprio la comunicazione, realizzata tramite

(12)

tecnologia wireless a corto raggio (ordine del centinaio di metri), è solitamente di tipo asimmetrico in quanto i sensori inviano le informazioni raccolte ad uno o più nodi speciali della rete, detti nodi sink, i quali hanno lo scopo di raccogliere i dati e trasmetterli tipicamente ad un server. Una comunicazione può avvenire autonomamente da parte del nodo quando si verifica un dato evento, o può venire indotta dal nodo sink tramite l'invio di una query verso i nodi interessati.

Per concludere la descrizione delle reti di sensori, si aggiunge che ogni nodo che ne fa parte può includere microfoni, trasduttori di temperatura, trasduttori di umidità, trasduttori di pressione, trasduttori di luce, trasduttori elettromagnetici, giroscopi ed accelerometri. Tutti insieme offrono una grande varietà di usi, a partire dal campo militare a quello scientifico, industriale, medico e domestico.

Infine, come applicazioni tecnologiche di ultima generazione riguardanti i sensori inerziali possiamo citare il Wiimote (Fig.2.3), un accessorio usato con la console Nintendo Wii [17], dotato al suo interno di un accelerometro triassiale che reagisce così alle forze vettrici ed all’orientamento rispetto allo spazio. Oppure molte varianti di tecnologie indossabili dagli utenti come Xsens MVN Inertial Motion Capture (Fig.2.4) [18], o MVN BIOMECH 3D human kinematics (Fig.2.5) [19],

(13)

utilizzate per applicazioni sportive e persino nel mondo cinematografico.

Fig.2.3 Wiimote

Fig.2.4 Xsens MVN Inertial Motion Capture

Fig.2.5 MVN BIOMECH 3D human Kinematics

(14)

II 2. ELABORAZIONE DATI

Nel riconoscimento di attività, per elaborare i dati estratti dagli strumenti precedentemente descritti, si possono considerare tutti i metodi conosciuti in campi come la visione artificiale o il riconoscimento di linguaggio, visto che ne condividono molti modi di operare e obiettivi. Nonostante alcune similitudini nei metodi di elaborazione tuttavia, nel riconoscimento di attività si ha bisogno di dedicare un set di metodi di calcolo più specifici per soddisfare gli obiettivi richiesti dal caso. Campi di ricerca come la visione artificiale o il riconoscimento di linguaggio infatti, richiedono la soluzione di problemi definiti in maniera più chiara come riconoscere un oggetto in un’immagine o riconoscere una parola in una frase, focalizzandosi sul numero e il tipo di telecamere o microfoni da usare. Diversamente nel riconoscimento di attività si deve considerare più variabili per poter implementare un sistema di misura adatto ed un metodo di calcolo efficiente. Queste variabili derivano da due questioni principali. Per prima cosa non si ha una definizione chiara di attività umana, che risolva questioni come quale attività si deve riconoscere o come è caratterizzata una specifica attività; per seconda, le attività umane sono molto diverse l’una dall’altra e richiedono molto spesso l’uso

(15)

combinato di più sensori con diverse capacità e caratteristiche.

La catena di passaggi necessari per il riconoscimento di attività, detta anche Activity

Recognition Chain (ARC) [1], è composta da:

 acquisizione e pre-processamento dati  segmentazione segnali

 estrazione caratteristiche dai segnali  classificazione attività

II 2.1 ACQUISIZIONE E

PRE-PROCESSAMENTO DATI

Nella prima fase di acquisizione si fa tipicamente riferimento a serie di dati derivanti da sensori indossati dall’utente monitorato e da sensori disposti nell’ambiente di rivelazione. Le misure comprendono singoli vettori temporali per ogni singolo trasduttore oppure più vettori per ogni sensore traduttore (ad esempio, nel caso di un accelerometro triassiale, si producono tre vettori, uno per ogni asse). In alcuni casi, più trasduttori possono essere campionati congiuntamente, e le grandezze fisiche misurate possono variare da sensore a sensore.

Quest’ultima caratteristica incide anche sulla frequenza di campionamento (fc) dei vari trasduttori (per esempio si considerino i 5 Hz caratteristici dei segnali GPS ed il limite minimo di 25 Hz tipico dei segnali di accelerazione). Inoltre le

(16)

differenti fc possono derivare anche da richieste del sistema operativo.

Una volta acquisite, le serie di dati devono essere pre-processate in modo da eliminare eventuali artefatti sulle misure e prepararle alla estrazione di dati. Questi artefatti possono essere dovuti a diversi fattori come l’attività fisica in se stessa o il malfunzionamento del sensore; fra i più comuni troviamo l’interferenza della tensione di alimentazione con gli strumenti elettrici per misurare segnali fisiologici come l’EEG, EMG, EOG.

Ricapitolando, questa seconda fase ha quindi il compito di rendere robusto il seguito dell’algoritmo per l’estrazione delle caratteristiche, eliminare il rumore e gli artefatti dei segnali mantenendo allo stesso tempo le informazioni rilevanti ai fini del riconoscimento delle attività. In sensori inerziali per esempio possono essere utili fasi di calibrazione, conversione di unità,

normalizzazione, ricampionamento

sincronizzazione mentre in segnali fisiologi solitamente servono algoritmi di pulizia dal rumore ed eliminazione delle basse frequenze (dovute a movimenti del paziente, respiro del paziente, interazioni tra elettrodi e pelle).

(17)

II 2.2 SEGMENTAZIONE

Nella fase di segmentazione si deve cercare di identificare quali segmenti contengono informazioni utili per il riconoscimento di attività. Questa fase non è finalizzata esclusivamente ad una buona classificazione, ma anche al risparmio di “potenza” di calcolo durante lo svolgersi dell’algoritmo risolutivo.

Naturalmente, come si può intuire, dividere un segnale continuo relativo ad un’attività umana, in più segmenti contenenti potenziali attività non è un compito semplice; solitamente infatti le attività sono svolte in modo continuo e fluente e non separate nettamente da delle pause; inoltre non è sempre chiaro in che istante inizia un’attività e in che istante finisce. Si pensi ad un semplice gesto come bere un bicchiere d’acqua: il movimento deve iniziare quando muoviamo il braccio per afferrare il bicchiere, o quando lo afferriamo direttamente? Deve finire quando smettiamo di bere, o quando poggiamo il bicchiere sul tavolo? Queste sono esempi di domande che in letteratura si è provato a risolvere con differenti metodi:

1. Sfruttando una finestra scorrevole lungo le serie di dati per dividere in sottosequenze da processare successivamente. La lunghezza della finestra influenza direttamente il tempo di calcolo e l’efficienza dei successivi algoritmi di classificazione

(18)

visto che in teoria dovrebbe separare le potenziali attività.

2. Basandosi sull’energia del segnale,

sfruttando il fatto che in molti casi differenti attività sono contraddistinte da diverse intensità. Queste differenze di intensità si traducono direttamente in diversi livelli di energia registrati dai sensori. L’energia nell’intervallo t1 : t2 è calcolata come

l’integrale del modulo quadro del segnale compreso tra t1 e t2 : E =

2 1 t t |s(t) |^2 dt,

dove s(t) rappresenta il segnale nel tempo. 3. Sfruttando un ulteriore sensore, per esempio

nel caso di un accelerometro interno ad un cellulare, può essere sfruttata la posizione globale registrata dal segnale GPS [20].

4. Sfruttando un contesto esterno come, ad esempio, il giorno sul calendario per dividere la serie di dati in segmenti analizzabili

(19)

II 2.3 ESTRAZIONE CARATTERISTICHE La fase di selezione ed estrazione delle caratteristiche riduce i segmenti analizzati in caratteristiche discriminative per le diverse attività. In questo modo si viene a creare un vero e proprio spazio delle caratteristiche nel quale idealmente, quelle che si riferiscono alle stesse attività fanno parte dello stesso cluster (sottoinsieme dello spazio considerato), mentre le altre fanno parte di cluster differenti.

Il tipo di caratteristica varia a seconda dei trasduttori usati e delle azioni svolte: ci si può basare sui pattern presenti nella forma d’onda, o su grandezze come frequenza, varianza, o nel caso di sistemi visivi come il Kinect sullo skeleton5.

Come ultima osservazione, in questa fase si può dire che un elevato numero di caratteristiche influenza la complessità computazionale e quindi deve essere proporzionato all’efficienza dell’algoritmo scelto.

Selezionare manualmente le caratteristiche da analizzare è un compito complesso e per questa ragione sono già stati implementati algoritmi automatici come lo SVM6 (Support vector

machine) nel caso di approcci di machine learning7 moderni.

5

Scheletro stilizzato di una persona, con riferimento ai vari joint che lo compongono

6 Le macchine a vettore di supporto sono un insieme di metodi di apprendimento

supervisionato per la regressione e la classificazione di pattern [21]

7

Una branca dell’intelligenza artificiale, riguarda la costruzione e lo studio di sistemi in grado di imparare dai dati [22]

(20)

II 2.4 CLASSIFICAZIONE

Si devono distinguere due tipi di approcci in questa fase: la classificazione supervisionata e non supervisionata. Nella prima è necessario il supporto di una procedura di allenamento (training) per i sensori, i quali imparano ad interpretare i dati in ingresso per poi poter classificare correttamente nella fase di test. Naturalmente la fase di training per i sensori diventa fondamentale per una buona classificazione, dovendo andare a cambiare l’impostazione dei parametri per minimizzare l’errore. Nell’approccio non supervisionato invece i sensori non si sottopongono alla procedura di allenamento e riceveranno direttamente i dati di test (dataset).

Per avere una visione dei principali algoritmi usati [1] [27] si può fare un breve elenco a partire dalle tecniche di template mathcing come la semplice Correlazione Incrociata e il Derivate Time Warping (DTW), o le tecniche di clustering di cui il metodo più conosciuto e usato è il K-means [23]. Per quanto riguarda le tecniche probabilistiche si può citare il classificatore Bayesiano [24], o il modello Hidden Markov Model (HMM) [25] usato per sequenze di dati più complesse a livello di dipendenze temporali. In fine si può considerare le reti neurali artificiali che rappresentano il riferimento nel campo machine learning, il già citato SVM in caso di difficoltà nella selezione

(21)

delle caratteristiche o gli alberi di decisione [26]. Oltre a questi ne esistono molti altri e continuamente ne vengono implementati di nuovi sempre più performanti, magari sfruttando i punti di forza di algoritmi già conosciuti attraverso combinazioni di essi; questo fa sì che per ogni applicazione sia difficile dire quale sia la tecnica più opportuna da usare: alle volte può bastare un algoritmo meno performante ed un insieme delle caratteristiche più grande, altre volte si ha bisogno di un algoritmo ottimizzato in maniera particolare. Il motivo fondamentale che guiderà la scelta sarà perciò il compromesso tra la complessità computazionale, occupazione di memoria (come nel caso di sistemi embedded8) e

la capacità di riconoscimento dell’azione.

8

Un dispositivo incapsulato all'interno del sistema da controllare progettato per una determinata applicazione supportato da una piattaforma hardware su misura

(22)

II 3. ERRORI COMUNI E

PROBLEMATICHE

RISCONTRABILI

Come si può comprendere, qualsiasi tecnologia e metodo si va a sfruttare può condurre a delle difficoltà non banali.

I primi errori ai quali si può andare incontro riguardano i trasduttori e il trattamento dei loro dati, più specificamente:

 Sensibilità e risoluzione dei sensori  Trattamento scorretto dei segnali in

fase di pre-processamento

 Posizionamento scorretto dei sensori nell’ambiente

 Posizionamento differente dei sensori tra le fasi di addestramento e test. Proprio quest’ultimo errore è molto frequente dato che il monitoraggio delle attività, come in telemonitoraggio e teleriabilitazione [27], deve essere reso meno invadente possibile per il paziente, permettendogli un posizionamento del sensore molto libero. Per esempio si pensi ad un cellulare dotato di opportuni sensori che l’individuo può portare con se in una qualsiasi tasca, in un qualsiasi orientamento spaziale.

Oltre a questi errori dovuti all’uso della strumentazione, si deve affrontare delle difficoltà più o meno specifiche del riconoscimento di

(23)

attività. Alcune di queste difficoltà infatti, sono in comune con il più ampio campo del riconoscimento di modelli (pattern recognition) e vengono classificate come più generali. Tra queste abbiamo:

La variabilità intra-classe. Una stessa attività può essere eseguita da individui diversi o più volte dallo stesso individuo, presentando ugualmente delle variazioni. I fattori che possono incidere sono stress, affaticamento, emozione o situazione ambientale. Quindi si può identificare il caso in cui si prelevano segnali dallo stesso individuo (allenamento persona dipendente), o il caso in cui si registri da più individui (allenamento persona indipendente). In entrambi, per poter aumentare la robustezza dell’algoritmo, si deve prendere un alto numero di registrazioni, chiaramente a seconda del caso in esame, o tutte dalla stessa persona, o da molte persone differenti.

La similarità inter-classe. Si possono riscontrare classi sostanzialmente diverse che però, a livello di dati registrati dai trasduttori, presentano caratteristiche molto simili e pertanto difficili da distinguere. Si consideri ad

(24)

esempio il confronto tra l’attività di bere una tazza di caffè e l’attività di bere un bicchiere d’acqua: il movimento del corpo umano, in entrambe le attività è molto simile, ma da un punto di vista nutrizionale (importante in alcuni casi) non possono essere considerate come appartenenti alla stessa classe.

Il problema della classe nulla. Si presenta quando parti di segnale, idealmente senza contenuto informativo utile, presentano invece caratteristiche molto simili a modelli conosciuti, portando ad errori di classificazione.

Vista la complessità di un’attività umana, definire con chiarezza cosa ne contraddistingue una dall’altra può essere molto difficile, visto che la stessa attività può essere svolta in maniere diverse, in contesti diversi e per molte ragioni differenti. Questo dà vita a problematiche più specifiche come:

Definizione caratteristiche di diverse

attività. Cosa contraddistingue un’attività dall’altra.

Riconoscimento attività simultanee (es.

(25)

Riconoscimento attività intervallate con altre (es. cucinare – rispondere al

telefono - cucinare)

Molteplicità dei personaggi (più soggetti, presenti nell’ambiente da monitorare)

Inoltre allo stato attuale sono stati fatti molti studi per capire quando un’attività viene svolta a livello temporale, ma solo poche ricerche si stanno spingendo a capire la qualità dell’attività svolta. Questo può essere utile in casi di studio come ad esempio il lavaggio dei denti o in applicazioni sportive [27].

Infine si può concludere osservando che il riconoscimento di attività complesse rimane un ampio settore di ricerca e che la maggior parte degli studi già consolidati fanno riferimento ad azioni semplici più facilmente riconoscibili.

(26)

III 4. CASO IN ESAME

Come si è visto, esistono molti strumenti e metodi di analisi dati nel campo del riconoscimento di attività. Per poter scegliere quelli più opportuni a questo lavoro di tesi, si ha bisogno di focalizzare l’attenzione su alcuni punti fondamentali. Innanzi tutto bisogna tenere conto del contesto in cui si ha interesse a riconoscere i movimenti, ovvero lo sport del Calcio. In questo ambito, i movimenti funzionali da riconoscere riguardano la coordinazione di tutto il corpo dello sportivo.

Inoltre, la varietà di movimenti è molto ampia, alcuni basilari come camminare, correre e saltare, che possiamo definire di mobilità generale, mentre altri movimenti più complessi riguardano la pratica sportiva più nello specifico: il salto di testa (Fig.2.6), il calcio in acrobazia (Fig.2.7), il calcio con il collo del piede (Fig.2.8), il calcio con il piatto del piede, il calcio con l’esterno del piede, i vari modi di stoppare e controllare il pallone e tutte le loro varianti che si possono verificare in una normale competizione calcistica. Inoltre tutti questi gesti, definiti più specifici dello sport Calcio, hanno la particolarità di poter essere svolti sia di destro che di sinistro, invertendo così tutta l’impostazione del corpo e il movimento degli arti.

(27)

Fig.2.6 Colpo di testa

(28)

a)

b) c)

d)

Fig.2.8 a) Calcio di collo con tutto il corpo, b) zona di impatto collo pieno, c) zona di impatto interno collo, d) zona di impatto interno piede, calcio di piatto”

Riferimenti

Documenti correlati

Ogni lavoratore presente in azienda, indipendentemente dalla tipologia contrattuale, deve effettuare la formazione spe- cifica sui rischi stabiliti all’interno del DVR..

Il learning agreement è il documento che descrive le attività che verranno svolte dal tirocinante, il nome del tutor estero e del Delegato Erasmus del proprio corso di studi,

Per quanto riguarda le prime, nel primo anno ho seguito i corsi di Logica, Filosofia Politica, Filosofia Teoretica e Storia della filosofia, mentre nel secondo anno ho seguito i

Il bambino a ritmo di due tempi alla volta pas- sa da un mattone a un altro muovendo, prima in avanti e indietro e poi lateralmente, una gamba e il braccio con-

Quando occorre procedere a un atto d’indagine per cui è necessaria l’assistenza di un difensore (è il caso dell’interrogatorio o della perquisizione, ad esempio), la Procura deve

2) di incaricare conseguentemente, ai fini dell’attuazione del suddetto corso di formazione che si terrà presso la sala di Viale Kennedy 54 di Diano Marina (IM),

Sei dei nostri collaboratori sono membri della Society of Trust and Estate Practitioners (www.step.org).. fiduciariamega SA is a well established

16. Il contenuto del dovere decisorio del giudice: il giudizio 67 18. La correlazione con la domanda e i confini del dovere decisorio del giudice. Il principio della