1.2 Workflow e WorkPackages progettuali
1.2.2 WP3: Produzione e ordinamento dell’immagine
Il WP è dedicato alla generazione di scene indicizzate per l’archiviazione elettro- nica, corrispondenti a casi esemplari della variazione predicato, e all’elaborazio- ne di una tassonomia visiva di ordinamento che consenta all’utente dell’ontologia la selezione delle azioni anche indipendentemente dalla lingua, in un contesto il più possibile user friendly.
La produzione delle scene segue, nel workflow, il mapping inter-/intra- lingui- stico del WP2; è operata a partire dagli script prodotti dagli annatotori, di cui rappresenta la traduzione visiva.
Il database IMAGACT (v. 1.0) contiene 1010 scene12, così distribuite13:
Tipologia Descrizione #
“3D and PROTO” Scene che, conformemente al progetto originario, hanno una doppia realizzazione: prototipale e in animation graphics (3D). Solo quest’ultima versione viene visualizzata all’utente finale nell’interfaccia di query.
347
“PROTO ONLY” Irrealizzabili in 3D per vincoli tecnici (in particolare la resa visiva della flessibilità e della fluidità degli oggetti).
216 “3D ONLY” Scene presenti nel DB solo nella forma 3D,
per ragioni tecniche. 18
“PROTO no 3D” Non ancora realizzate in 3D. 429
TOTALE 1010
Tabella 1.5: Elementi [scena] DB IMAGACT 1.0
I video, privi di traccia audio, vengono caricati nell’infrastruttura in formato MP4, codec h.264, frame-size 1024 ⇤ 576.
1.2.2.1 Produzione dei video prototipali
La produzione dei video “prototipali” è avvenuta presso un set allestito nell’ex- Dipartimento di Italianistica dell’Università di Firenze, oppure in esterna. I video, realizzati filmando azioni recitate dal vivo da attori non professionisti14
utilizzando una videocamera amatoriale, devono soddisfare i seguenti requisiti: • uso di oggetti reali, e non di forme astratte o generiche (es. non cubi o sfe-
re, ma scatoloni o palloni);
• informazione di background ridotta al minimo indispensabile;
12Non tutti gli elementi [scena] (tab.1.4) contengono un video (prototipale o 3D). Ciò è
dettato dalla natura essenzialmente “non azionale” di alcuni tipi (e quindi dalla scarsa rappre- sentabilità dell’evento per immagini) oppure da ragioni inerenti all’architettura dell’ontologia. Le scene “vuote” sono individuate nel file di monitoring riportato in Appendice B dalla sigla “NOT ALLOWED”. Si rinvia al paragrafo 3.1.4.3 per la discussione di questi aspetti.
13La tabella riporta la dicitura originale del DB. La medesima nomenclatura è utilizzata
anche nei capitoli successivi e nell’Appendice B, a cui si rinvia per le liste complete.
Figura 1.4: [scena] be893c09, “to pin”: il set (in alto), e la thumbnail del video prodotto (in basso)
• tecnica di inquadratura “long-take” (quindi assenza di “montaggio”, salvo in casi particolari15);
• azione realizzata dagli attori a velocità naturale (quindi non in “slow- motion”).
Tali indicazioni hanno lo scopo di ridurre l’ambiguità, per quanto possibile, e di eli- citare nell’osservatore la corretta interpretazione.
In 18 casi per ragioni tecniche16 non è stato possibile creare un prototipo
naturale: le scene sono dunque state realizzate nella sola versione 3D.
15Per alcuni tipi azionali sarebbe stato impossibile ottenere una rappresentazione soddisfa-
cente dell’evento senza ricorrere al montaggio. Ad esempio la scena b2df8d1d, prototipo del lemma italiano trasferirsi (e associata con relazione di tipo “istanza” al tipo con ID 2411 di to move), oppure la b08b3bc8, connessa ai lemmi to farm e coltivare.
16Come ad esempio la [scena] 5d8f5f7f, con script “La lama [del pugnale] attraversa la spalla
1.2.2.2 Produzione dei video 3D
I video prototipali realizzati vengono tradotti, in questa fase, in scene “ste- reotipali”, ovvero scene in animation graphics. L’astrazione consentita dal 3D determina infatti la riduzione del “rumore” e dell’ambiguità inerente alla rap- presentazione, agevolando la concentrazione dell’attenzione dell’utente sui tratti essenziali e pertinenti dell’evento.
L’équipe di Siena ha ideato, a tale scopo, un protocollo di analisi semiotica delle condizioni di significazione; la trasformazione del “verbale” in “visivo” è stata operata a partire dalla disamina dei parametri di tale protocollo (schema corpo- reo e topologia dell’azione, sintassi narrativa, enunciazione, durata dell’azione e sintagmi tensivi, messa in discorso visivo)17e dalla selezione dei tratti figurativi
necessari e sufficienti alla resa dell’evento, ovvero la riduzione dei tratti super- flui degli avatar e l’eliminazione dei tratti circostanziali ed ambientali, oltre che dei riferimenti allo spazio circostante se non strettamente indispensabili o non desumibili dal contesto.
Data la sua importanza per la costruzione del punto di vista, particolare cura è stata posta alla questione della focalizzazione e alla sua attuazione attraverso la scelta del piano, del campo e dell’inquadratura. Tali operazioni, tipiche del linguaggio audiovisivo, consentono infatti di stabilire la collocazione spaziale del soggetto osservatore nei confronti della scena e la relazione con l’azione osservata.
Dal punto di vista realizzativo, la sintesi digitale è stata realizzata dall’azienda In.fact srl attraverso il software IClone5, distribuito da Reallusion.
Figura 1.5: [scena] 00f7de3e: traduzione del video prototipale in 3D
1.2.2.3 Criteri per l’ordinamento dell’immagine
Una delle particolarità di IMAGACT è la sua interrogabilità, potenzialmente indipendente dall’identificazione linguistica dei concetti. Questa caratteristica è 17Si rinvia, a tale proposito, alle “Specifiche di realizzazione e annotazione dell’immagine
standard”, scaricabili all’URL http://lablita.dit.unifi.it/projects/IMAGACT/folder.2010-11- 25.7365875310/imagact_milestones/index_html.
stata ottenuta mediante l’attribuzione di un metadato di alto livello, corrispon- dente ad una classe generale ad alta rilevanza per la categorizzazione dello spazio azionale. Le nove classi, a cui sono state attribuite le 1010 scene nell’interfaccia <<scene metadata>> (par. 1.2.3.2), sono le seguenti:
• Facial expression;
• Actions referring to the body; • Movement;
• Modification of the object; • Deterioration of an object; • Force on an object; • Change of location;
• Setting relation among objects; • Actions in the intersubjective space.
L’altissimo tasso di astrazione dei metadati ha reso estremamente complessa la loro traduzione visiva come interfaccia utente. La soluzione adottata prevede la presenza di nove icone animate in loop e organizzate in una galleria (par. 1.3.1.1). Gli avatar sono privi di caratteri somatici riconoscitivi, ed agiscono su oggetti geometrici in uno spazio sottodeterminato.
Figura 1.6: Icone delle classi “facial expression” e “setting relation among objects”