WP3: Produzione e ordinamento dell’immagine

1.2 Workflow e WorkPackages progettuali

1.2.2 WP3: Produzione e ordinamento dell’immagine

Il WP è dedicato alla generazione di scene indicizzate per l’archiviazione elettro- nica, corrispondenti a casi esemplari della variazione predicato, e all’elaborazio- ne di una tassonomia visiva di ordinamento che consenta all’utente dell’ontologia la selezione delle azioni anche indipendentemente dalla lingua, in un contesto il più possibile user friendly.

La produzione delle scene segue, nel workflow, il mapping inter-/intra- lingui- stico del WP2; è operata a partire dagli script prodotti dagli annatotori, di cui rappresenta la traduzione visiva.

Il database IMAGACT (v. 1.0) contiene 1010 scene12_{, così distribuite}13_:

Tipologia Descrizione #

“3D and PROTO” Scene che, conformemente al progetto originario, hanno una doppia realizzazione: prototipale e in animation graphics (3D). Solo quest’ultima versione viene visualizzata all’utente finale nell’interfaccia di query.

347

“PROTO ONLY” Irrealizzabili in 3D per vincoli tecnici (in particolare la resa visiva della flessibilità e della fluidità degli oggetti).

216 “3D ONLY” Scene presenti nel DB solo nella forma 3D,

per ragioni tecniche. 18

“PROTO no 3D” Non ancora realizzate in 3D. 429

TOTALE 1010

Tabella 1.5: Elementi [scena] DB IMAGACT 1.0

I video, privi di traccia audio, vengono caricati nell’infrastruttura in formato MP4, codec h.264, frame-size 1024 ⇤ 576.

1.2.2.1 Produzione dei video prototipali

La produzione dei video “prototipali” è avvenuta presso un set allestito nell’ex- Dipartimento di Italianistica dell’Università di Firenze, oppure in esterna. I video, realizzati filmando azioni recitate dal vivo da attori non professionisti14

utilizzando una videocamera amatoriale, devono soddisfare i seguenti requisiti: • uso di oggetti reali, e non di forme astratte o generiche (es. non cubi o sfe-

re, ma scatoloni o palloni);

• informazione di background ridotta al minimo indispensabile;

12_{Non tutti gli elementi [scena] (tab.1.4) contengono un video (prototipale o 3D). Ciò è}

dettato dalla natura essenzialmente “non azionale” di alcuni tipi (e quindi dalla scarsa rappre- sentabilità dell’evento per immagini) oppure da ragioni inerenti all’architettura dell’ontologia. Le scene “vuote” sono individuate nel file di monitoring riportato in Appendice B dalla sigla “NOT ALLOWED”. Si rinvia al paragrafo 3.1.4.3 per la discussione di questi aspetti.

13_{La tabella riporta la dicitura originale del DB. La medesima nomenclatura è utilizzata}

anche nei capitoli successivi e nell’Appendice B, a cui si rinvia per le liste complete.

Figura 1.4: [scena] be893c09, “to pin”: il set (in alto), e la thumbnail del video prodotto (in basso)

• tecnica di inquadratura “long-take” (quindi assenza di “montaggio”, salvo in casi particolari15_);

• azione realizzata dagli attori a velocità naturale (quindi non in “slow- motion”).

Tali indicazioni hanno lo scopo di ridurre l’ambiguità, per quanto possibile, e di eli- citare nell’osservatore la corretta interpretazione.

In 18 casi per ragioni tecniche16 _{non è stato possibile creare un prototipo}

naturale: le scene sono dunque state realizzate nella sola versione 3D.

15_{Per alcuni tipi azionali sarebbe stato impossibile ottenere una rappresentazione soddisfa-}

cente dell’evento senza ricorrere al montaggio. Ad esempio la scena b2df8d1d, prototipo del lemma italiano trasferirsi (e associata con relazione di tipo “istanza” al tipo con ID 2411 di to move), oppure la b08b3bc8, connessa ai lemmi to farm e coltivare.

16_{Come ad esempio la [scena] 5d8f5f7f, con script “La lama [del pugnale] attraversa la spalla}

1.2.2.2 Produzione dei video 3D

I video prototipali realizzati vengono tradotti, in questa fase, in scene “ste- reotipali”, ovvero scene in animation graphics. L’astrazione consentita dal 3D determina infatti la riduzione del “rumore” e dell’ambiguità inerente alla rappresentazione, agevolando la concentrazione dell’attenzione dell’utente sui tratti essenziali e pertinenti dell’evento.

L’équipe di Siena ha ideato, a tale scopo, un protocollo di analisi semiotica delle condizioni di significazione; la trasformazione del “verbale” in “visivo” è stata operata a partire dalla disamina dei parametri di tale protocollo (schema corpo- reo e topologia dell’azione, sintassi narrativa, enunciazione, durata dell’azione e sintagmi tensivi, messa in discorso visivo)17_{e dalla selezione dei tratti figurativi}

necessari e suﬃcienti alla resa dell’evento, ovvero la riduzione dei tratti super- flui degli avatar e l’eliminazione dei tratti circostanziali ed ambientali, oltre che dei riferimenti allo spazio circostante se non strettamente indispensabili o non desumibili dal contesto.

Data la sua importanza per la costruzione del punto di vista, particolare cura è stata posta alla questione della focalizzazione e alla sua attuazione attraverso la scelta del piano, del campo e dell’inquadratura. Tali operazioni, tipiche del linguaggio audiovisivo, consentono infatti di stabilire la collocazione spaziale del soggetto osservatore nei confronti della scena e la relazione con l’azione osservata.

Dal punto di vista realizzativo, la sintesi digitale è stata realizzata dall’azienda In.fact srl attraverso il software IClone5, distribuito da Reallusion.

Figura 1.5: [scena] 00f7de3e: traduzione del video prototipale in 3D

1.2.2.3 Criteri per l’ordinamento dell’immagine

Una delle particolarità di IMAGACT è la sua interrogabilità, potenzialmente indipendente dall’identificazione linguistica dei concetti. Questa caratteristica è 17_{Si rinvia, a tale proposito, alle “Specifiche di realizzazione e annotazione dell’immagine}

standard”, scaricabili all’URL http://lablita.dit.unifi.it/projects/IMAGACT/folder.2010-11- 25.7365875310/imagact_milestones/index_html.

stata ottenuta mediante l’attribuzione di un metadato di alto livello, corrispon- dente ad una classe generale ad alta rilevanza per la categorizzazione dello spazio azionale. Le nove classi, a cui sono state attribuite le 1010 scene nell’interfaccia <‌<scene metadata>‌> (par. 1.2.3.2), sono le seguenti:

• Facial expression;

• Actions referring to the body; • Movement;

• Modification of the object; • Deterioration of an object; • Force on an object; • Change of location;

• Setting relation among objects; • Actions in the intersubjective space.

L’altissimo tasso di astrazione dei metadati ha reso estremamente complessa la loro traduzione visiva come interfaccia utente. La soluzione adottata prevede la presenza di nove icone animate in loop e organizzate in una galleria (par. 1.3.1.1). Gli avatar sono privi di caratteri somatici riconoscitivi, ed agiscono su oggetti geometrici in uno spazio sottodeterminato.

Figura 1.6: Icone delle classi “facial expression” e “setting relation among objects”

Nel documento Validazione dell’ontologia dell’azione IMAGACT per lo studio e la diagnosi del Mild Cognitive Impairment (MCI) (pagine 37-41)