• Non ci sono risultati.

ASPETTI DELLA CONSERVAZIONE ATTIVA DEI DOCUMENTI SONOR

INDIVIDUAZIONE DELLE CURVE DI EQUALIZZAZIONE

2. ASPETTI DELLA CONSERVAZIONE ATTIVA DEI DOCUMENTI SONOR

2.1 Filologia digitale applicata ai documenti sonori

 

Nella prospettiva che aumenti il numero di casi in cui non vi sia più un supporto fisico a sostegno della relativa copia conservativa digitale, risulta ancora più urgente la necessità che quest’ultima risponda ai requisiti di autorevolezza, autenticità e completezza. Per sopperire a tali esigenze, nasce la filologia digitale quale combinazione di due discipline: la filologia e l’informatica [2]. Quest’ultima contribuisce sia con la sua tecnologia, sia con l’apporto di un metodo e di principi tipici delle scienze. D’altra parte, la filologia offre l’opportunità di assorbire questi elementi e

accettare la trasformazione che dall’incontro

conseguiranno le sue tipiche attività d’analisi. Tra tutte, si pone in evidenza la comparazione che ha come principale obiettivo la ricostruzione di un documento originale a partire dal confronto tra le varianti copie

dello stesso [8]. Nel momento in cui si crei inoltre un dialogo tra

l’operatore e il curatore scientifico dell’archivio, può rivelarsi utile un approccio comparativo tra documenti quale quello definito in filologia. Nel caso delle audio bobine sono indispensabili per il riversamento indicazioni quali la velocità di riproduzione, la larghezza

del nastro rispetto alla dimensione delle testine, l’eventuale presenza di uno o più sistemi di noise

reduction e l’equalizzazione applicata in fase di

registrazione. In mancanza di alcuni di questi dati, l’intervento del curatore scientifico dell’archivio può esser d’aiuto nel reperirli, specialmente confrontando documenti sonori appartenenti a una stessa collezione e quindi con peculiarità affini quali ad esempio l’esser stati prodotti con la stessa macchina di registrazione. A partire dalla raccolta sotto forma di metadati delle suddette informazioni secondarie, la loro correlazione potrebbe condurre, qualora ve ne fossero i presupposti, alla deduzione di informazioni anche per quei documenti ove queste non siano rintracciabili.

2.2 Le curve di equalizzazione

Come conseguenza alle peculiarità fisiche e meccaniche del processo stesso di registrazione magnetica del suono, il flusso magnetico impresso sul supporto sotto forma di segnale audio non è lineare. Per tali motivi, in registrazione è applicata al segnale un’equalizzazione affinché la densità di flusso impressa sul supporto decresca in maniera controllata all’incrementare della frequenza [16]. La velocità di scorrimento del nastro è una delle principali variabili che influiscono sulla risposta in frequenza del segnale audio. Per questo furono designate una serie di equalizzazioni standard, ciascuna per ogni velocità prescelta. Di seguito, affinché il segnale in uscita risulti lineare, in riproduzione è necessario intervenire in maniera complementare alla fase di registrazione facendo sì che la risposta del

segnale audio incrementi proporzionalmente

all’aumentare della frequenza [3]. È per tali motivi che un’errata applicazione delle curve di equalizzazione in riproduzione comporta un’alterazione del segnale riversato incompatibile filologicamente con le linee guida della conservazione attiva. È da notare inoltre che gli standard di equalizzazione hanno subìto modifiche nel corso degli anni. Per questo, durante la fase di riversamento, è necessario individuare sia il nome assegnato alla curva di equalizzazione sia l’anno cui si riferisce. In [9] sono riportati gli standard di equalizzazione più comuni per la riproduzione di nastri magnetici analogici ed i relativi anni di adozione.

Al fine di frazionare il problema di ricerca, si è scelto di testare i due standard di equalizzazione principalmente usati allo scorrimento di 15 ips, velocità di maggior uso comune insieme ai 7,5 ips [9]. Per tal motivo, è stata utilizzata la macchina ad impiego professionale Studer A810, le cui frequenze di transizione sono riportate in Tabella 1.

L’azione delle curve sul flusso magnetico è rappresentata dall’equazione

     𝐿! 𝑓 =  10 log!!(

!!"# ! )!

ove ogni curva è caratterizzata dalle relative frequenze di transizione o, trasformando il tempo in frequenza, dalle relative costanti temporali.

L’intervento applicato in registrazione è dunque similare al comportamento di un filtro passa-basso, presentando inoltre a volte un incremento sulle basse frequenze. Anche in questo caso, verrà applicata un’azione complementare in fase di riproduzione. Alle alte frequenze, i due standard presi in considerazione

presentano frequenza di taglio 𝐹!! a 4500 Hz per la

curva IEC del 1968 e a 3150 Hz per la NAB del 1965. Quest’ultima presenta inoltre un’amplificazione dei

bassi in corrispondenza della frequenza di taglio 𝐹!"# a

50 Hz. Per l’esperimento, si è reputato idoneo rinominare la curva IEC con la denominazione dell’originale tipo di equalizzazione (CCIR) a cui sostituì il nome all’inizio degli anni ’70. Ad oggi, le curve CCIR e NAB sono conosciute con i rispettivi nomi di IEC1 e IEC2 [16].

3. L’ESPERIMENTO

3.1 Motivazioni

Per evitare eventuali perdite di dati, per necessità di fedeltà filologica e per il continuo evolversi delle tecnologie stesse di trasferimento, è innanzitutto essenziale che l’intera procedura sia documentata e riproducibile. Da questo discende l’imperativo di evitare alterazioni soggettive, limitandole alle sole copie d’accesso [20]. È essenziale altresì che durante il trasferimento non si verifichino perdite in dinamica e in risposta in frequenza, riportando tutti i parametri e le procedure utilizzati. Nel caso specifico delle audio bobine, come discusso in Sezione 2.1, vi sono molteplici caratteristiche legate al supporto e alla macchina utilizzata in fase di registrazione di cui l’operatore deve

disporre, per poi stabilire i corretti parametri di riversamento. Qualora non siano reperibili, IASA richiede all’operatore di prendere autonomamente tali decisioni [9]. Casi come la scelta della corretta curva di equalizzazione o dell’applicazione o meno di un eventuale sistema di riduzione del rumore implicano una valutazione di tipo uditivo; decisione in cui può subentrare la soggettività dell’operatore se non ulteriormente disciplinata.

Al fine di evitare in futuro un simile approccio così arbitrario, all’interno del CSC di Padova è stato progettato e realizzato un esperimento pilota di percezione uditiva su campioni d’ascolto registrati e riversati con i due standard proposti in Sezione 2.2, cercando di introdurre alcuni principi di filologia digitale all’interno della metodologia tracciata in letteratura.

Come passo iniziale, si è cercato di creare diverse versioni di un ipotetico documento sonoro riversandolo prima con l’uso della corretta curva di equalizzazione applicata in fase di registrazione e poi con l’altra a disposizione. La distinta percezione tra riversamenti corretti ed errati e una successiva analisi dei risultati ottenuti potrebbero così essere il fondamento di una metodologia comparativa deduttiva da delinearsi in futuro per la determinazione delle corrette curve di equalizzazione. Tutte le versioni create sono state correlate tra loro, sottoponendole all’ascolto di un pubblico di uditori esperti e casuali al fine di osservare la percezione o meno di differenze statisticamente rilevanti anche da parte di un pubblico non abituato a un ascolto critico, quali possano essere gli addetti alla catalogazione e valorizzazione dei documenti. In tal senso, l’esperimento potrebbe addurre maggiore

consapevolezza nel recupero delle tecnicità

caratterizzanti la copia conservativa, contribuendo in parte alla definizione dell’espressione “documento sonoro”.

3.2 Setup sperimentale

Per l’esperimento si è fatto affidamento a uno dei metodi di valutazione soggettiva raccomandati dall’International Telecommunication Union (ITU) e dall’Audio Engineering Society (AES) [4]: l’ITU-R BS.1534, conosciuto anche come Multi Stimulus test with Hidden

Reference and Anchors (d’ora in poi, MUSHRA)

reputato, per le sue peculiarità, idoneo alle esigenze di questo tipo di esperimento [13]. Presupponendo l’eventualità che tra i vari sistemi di equalizzazione in esame vi siano piccole disuguaglianze, queste, secondo il metodo MUSHRA, verranno valutate quali medie e/o grandi disparità in rapporto tra di loro e con il riferimento dato, potendo così allenare in futuro l’orecchio dell’operatore a distinguerle con più facilità. Secondo la metodologia [13], ai soggetti di test è stato chiesto di giudicare la somiglianza qualitativa dei campioni proposti rispetto a un riferimento dato e di

Tabella 1. Frequenze di transizione per le varie curve e

velocità dello Studer A810 [23].

riportare i loro giudizi su una scala di valutazione denominata Continuous Quality Scale, CQS [12].

Trattandosi di un test multi-stimolo, il partecipante ha potuto scegliere a suo piacimento di alternare l’ascolto tra il segnale di riferimento e ognuno degli altri frammenti proposti nel test.

Ogni test ha avuto una durata media di circa 40 minuti, complessiva anche di una fase di pre-test, durata circa 20 minuti, in cui i partecipanti hanno potuto ascoltare i campioni di tutte le sessioni proposte come prescritto dal MUSHRA [12]. L’ascoltatore è stato guidato in un vero e proprio training, senza conoscere le peculiarità di ogni singolo campione. I frammenti sono stati presentati all’ascoltatore come versioni più o meno processate del riferimento dato, se non identiche. In ogni sessione, ripetendo l’ascolto per non più di due volte, il partecipante è stato invitato a confrontare il riferimento con il set proposto, cercando di aiutare l’apprendimento tramite confronti di difficoltà crescente.

Conclusa questa parte, dopo un opportuno momento di pausa, all’ascoltatore sono stati lasciati altri 20 minuti per lo svolgimento in autonomia del test vero e proprio.

I dati dell’esperimento sono stati raccolti ed elaborati utilizzando il software MatLab, per individuare i dati statistici di interesse e realizzare i grafici.

3.3 Partecipanti

Il testo [13] raccomanda la scelta di soggetti abituati a un ascolto critico, quali possano essere ad esempio degli studenti di musica o di ingegneria del suono. E’ interessante notare come esso dia nota di risultati attendibili tratti da ascoltatori inesperti a fronte di un buon training.

Trattandosi di un’applicazione desueta per gli ambiti d’intervento entro cui il metodo MUSHRA fu concepito, il test è da considerarsi quale esperimento pilota con due separati e conseguenti obiettivi. Da un lato vi è la necessità di verificare l’effettiva e distinta percezione dei frammenti ad equalizzazione corretta ed errata e dall’altro il poter dimostrare l’ipotesi che chiunque, anche un ascoltatore non esperto o un musicologo abituato più a uno studio delle partiture musicali, possa essere in grado di riuscirci dopo un buon training. Per questo si è scelto di invitare all’esperimento sia 15 ascoltatori esperti, sia 15 partecipanti casuali e di non scartare nessuno nella fase di pre-screening (vedi sezione 3.2 di [12]). In qualità di esperti, per le caratteristiche del percorso di studi, sono stati invitati gli studenti del Dipartimento di Nuove Tecnologie e Linguaggi Musicali del Conservatorio “Cesare Pollini” di Padova.

3.4 Materiale

Per quanto riguarda la scelta del materiale per il test, ci si è attenuti a quanto riportato ai punti 5, 5.1 e 7 della

specifica raccomandazione [12]. La metodologia prevede che tali oggetti provengano da registrazioni di puro parlato, di un misto di musica e voce e di sola musica.

Di seguito si è provveduto alla registrazione dei suddetti frammenti su nastro magnetico RMGi SM-911 da 1/4" utilizzando le curve di equalizzazione riportate in Tabella 1 come IEC e NAB per la velocità di 15 Ips. Ogni frammento è stato nuovamente riversato prima con la corretta curva applicata precedentemente in registrazione e di seguito con l’altro standard in esame. In tal modo sono state ottenute 4 versioni dello stesso

campione: CCIR_on_CCIR, CCIR_on_NAB,

NAB_on_NAB e NAB_on_CCIR. I set per il test sono stati completati da una copia nascosta del riferimento e da una versione chiamata anchor, realizzata come prescritto dalla procedura [12].

I frammenti prescelti provengono da registrazioni effettuate nel biennio 2014-2015 su DAW, salvate in file WAVE stereo interleaved, con risoluzione 24 bit 48 kHz e normalizzate su un RMS medio intorno ai -18 dB rispettando così le linee guida metodologiche proposte dal documento [12]. Poiché secondo [12] il numero di campioni estratti deve essere maggiore o uguale a 5 e almeno pari a 1,5 volte il numero di sistemi sotto test (in questo caso, le due curve CCIR e NAB), si è scelto di selezionare due frammenti da circa 10 secondi ciascuno per ognuna delle tre tipologie di registrazione proposte. Per aiutare l’ascoltatore nel training durante la fase di

pre-test, i frammenti proposti sono stati scelti per le

seguenti peculiarità: presenza di note d’insieme tenute nei frammenti musicali, punti di enfasi recitativa nei campioni di musica e voce e presenza di sibilanti nei frammenti vocali.

La preparazione dei campioni del test è stata

Figura 1. Signal flow della postazione utilizzata per la

strumentazione riportata in Figura 1. Per la taratura, prendendo a riferimento [1] e [5], è stato utilizzato per ogni curva un nastro MRL con ugual velocità di scorrimento e livello di flusso pari a 355 nWb/m. L’insieme dei valori esadecimali tratti dalla calibrazione è riportato in Tabella 2.

È stato reputato idoneo svolgere l’esperimento in una cabina silente, modello PRO 45, utilizzando cuffie audiometriche Sennheiser HDA 200 che hanno la peculiarità di essere equalizzate per una risposta in frequenza su campo diffuso come richiesto al punto 7.3 della raccomandazione [11]. Il livello del sistema di amplificazione è infatti stato controllato per restituire a -18 dB un livello di pressione sonora pari a circa 82 dBA come indicato in [11], controllando il livello di volume in uscita sia del computer, sia della scheda audio EDIROL UA-101 utilizzati.

L’interfaccia di test (Figura 2) è stata realizzata mediante una versione modificata dell’applicazione BeaqleJS [14] per i test EBU Mushra, a cui è stata aggiunta una sezione per la realizzazione dei pre-test di training. Come

riportato alla Sezione 8 di [12], è permesso

all’ascoltatore di poter aggiustare il livello di volume in un range di ±4 dB rispetto a un livello di riferimento definito al punto 8.4 di [10]. L’operazione è però concessa solo nel passaggio da una sessione all’altra, poiché non è invece consentito modificare il volume d’ascolto tra un item e un altro all’interno di una stessa sessione.

3.5 Risultati

Si riportano di seguito le analisi dei dati effettuate su un numero totale di 30 test. Al fine di valutare la diversa percezione dei due tipi di equalizzazione proposti e delle relative combinazioni, in un primo momento è stato analizzato l’insieme dei dati raccolti dai test di tutti i partecipanti. Per quanto riguarda invece la valutazione della capacità di soggetti casuali di poter dare dei risultati attendibili a seguito di un opportuno pre-test, i dati sono stati rielaborati dividendo le due categorie di partecipanti tra 15 unskilled (‘non esperti’) e 15 skilled (‘esperti’) [12].

Il primo passo dell’analisi dei risultati è stato calcolare

il punteggio medio 𝑢!". I dati sono stati analizzati con il

metodo boxplot di MatLab (vedere ad esempio Figura 3), in modo tale da evidenziare la posizione dei quartili, della mediana e degli outlier nelle valutazioni dei campioni di ascolto. A questi, con asterisco, è stata aggiunta la media. Sono stati così ottenuti 6 grafici, corrispondenti alle 6 sessioni del test per i due frammenti musicali, i due frammenti di musica con voce recitante e i due frammenti vocali.

Per ogni grafico, in ascisse sono riportate le sei tipologie di campione, mentre sulle ordinate è riprodotta la scala di valori da 0 a 100. Le valutazioni sono state confrontate tra di loro al fine di constatare eventuali differenze statisticamente rilevanti. I confronti sono stati realizzati mediante t-test per due distribuzioni indipendenti, con differenza statisticamente significativa tra le distribuzioni per p < 0,05: laddove p < 0,05, la distanza tra le distribuzioni è stata misurata mediante il calcolo del d di Cohen, nella variante del g di Hegde, interpretato in modo che per g ≈ ± 0,2 si parla di “distanza piccola”, per g ≈ ± 0,5 di “distanza media”, di “distanza grande” per g < −0.8 o g > 0.8.

A prima vista, osservando i valori medi per tutti e 6 i grafici, è stato osservato un andamento omogeneo in tutte e 6 le sessioni di test, con medie che tendono ai medesimi valori per gli utenti skilled, unskilled e indistinti in tutte le casistiche proposte per ogni set. Al fine di riscontrare un ascolto effettivamente critico da parte dei partecipanti, si sono osservate le medie relative alle valutazioni delle anchor e degli hidden reference per tutti i set proposti: ad esclusione dei frammenti puramente musicali, tutti i possibili raggruppamenti di utenti hanno posizionato le valutazioni rispettivamente alle estremità bassa e alta della CQS.

Tabella 2. Valori esadecimali di taratura delle testine di

riproduzione, di registrazione e del Bias.

Figura 2. Presentazione esempio dell’interfaccia

Confrontando i rating delle 4 varianti delle curve di equalizzazione tramite t-test sono stati verificati i seguenti fatti: i campioni CCIR_on_CCIR e NAB_on_NAB hanno valutazioni simili in tutti i casi per tutti i raggruppamenti di utenti (p > 0,05); gli utenti

unskilled hanno evidenziato meno differenze tra le 4

combinazioni di EQ; osservando tutti gli utenti, le valutazioni sono migliori rispetto al caso unskilled, seppur in un caso (batt_6-11) 3 volte su 4 non si è rilevata distinzione significativa rispetto alla valutazione dell’anchor (Tabella 3).

Tabella 3. Valori incrociati di p per la sessione “batt_6-11”

relativa all’analisi di tutti gli utenti, ove sono evidenziate in grassetto le differenze statisticamente significative.

L’ultimo confronto realizzato è stato tra le valutazioni dei medesimi frammenti tra le due categorie di ascoltatori. Il t-test produce un p < 0,05 solo nel caso della valutazione del frammento CCIR_on_NAB della sessione “Voce spagnolo” (con un Hedge’s g di 0,83).

3.6 Discussione

Dopo aver constatato nei risultati una tendenza all’omogeneità nella distribuzione delle medie delle valutazioni, create per ciascuna “classe” di ascoltatori, si pone una riflessione su eventuali relazioni con il posizionamento in frequenza dei rispettivi campioni. Osservando l’analisi spettrale, è lecito attendersi un’uguaglianza tra i campioni registrati e riversati con le

stesse curve di equalizzazione. Per le versioni spaiate è invece attesa una maggior presenza in bassa frequenza per il frammento NAB_on_CCIR, non essendo de- enfatizzato in riversamento il boost sulle basse frequenze, e una situazione inversa per CCIR_on_NAB: questo giustificherebbe alcune particolari risposte degli utenti, che hanno tendenzialmente premiato la seconda (anche rispetto ai casi di equalizzazione corretta), spesso giudicata come “più brillante”, e penalizzato la prima, reputata “più scura”. Tramite l’uso del software Audition (FFT a 16384 campioni con finestra Blackmann-Harris), si è ancora presa ad esempio la sessione “Voce spagnolo” e la si è analizzata in frequenza come riportato in Figura 4.

Si osserva subito la sovrapposizione dei campioni CCIR_on_CCIR e NAB_on_NAB, come quelli di HIDDEN_REFERENCE con ANCHOR, finché per quest’ultimo non sopraggiunge il punto d’azione del filtro passa-basso [12]. È interessante osservare l’andamento nella zona tra i 20 e i 200 Hz e tra i 3 e i 10 kHz dei campioni NAB_on_CCIR e CCIR_on_NAB, a giustificazione delle valutazioni espresse dagli utenti, e

come quest’ultimo si avvicini

all’HIDDEN_REFERENCE sulle alte frequenze. Il dislivello creatosi nei grafici tra questi ultimi due campioni rispetto al riferimento è stato allora giustificato dall’azione predominante del campione CCIR_on_NAB in una zona di frequenze che non solo si sovrappone a quelle del riferimento, ma comprende anche l’area di maggior sensibilità uditiva [18]. Questa analisi permette di rileggere i fatti emersi nella sezione precedente. La similitudine tra gli spettri dei campioni equalizzati in registrazione e riproduzione con la corretta curva è confermata dalla non significativa distanza delle distribuzioni statistiche delle rispettive valutazioni.

battuta_6-­‐11 CCIR_on_CCIR CCIR_on_NAB NAB_on_NAB NAB_on_CCIR Anchor CCIR_on_CCIR 1 0,0493 0,7816 0,1330 0,0703 CCIR_on_NAB 0,0493 1 0,0273 0,0013 0,0030

NAB_on_NAB 0,7816 0,0273 1 0,2158 0,1012 NAB_on_CCIR 0,1330 0,0013 0,2158 1 0,4136

Anchor 0,0703 0,0030 0,1012 0,4136 1

Figura 3. Grafici risultanti per la sessione “Voce spagnolo” divisi tra skilled e unskilled.

Per quanto riguarda le differenze riscontrate tra gli altri casi, gli utenti hanno rilevato differenze più nette nelle

sessioni vocali rispetto a quelle strumentali,

specialmente nella sessione in spagnolo, come visibile in Figura 3, e come dimostrato dagli andamenti dei valori di p del t-test (tendenzialmente oltre la soglia di 0,05 nei casi musicali).

Ciò è stato motivato dall’abbondanza di sibilanti presenti nel frammento che hanno permesso di distinguere con più facilità l’alterazione riportata dall’azione delle curve sul segnale originale nel range di frequenze tra i 3 e i 5 kHz, comprendente inoltre la zona di maggior sensibilità uditiva [18]. Infine, non si è riscontrata una differenza statisticamente significativa (ad eccezione di un caso) tra le valutazioni date dagli utenti skilled e unskilled ai vari frammenti: allo stato attuale, l’unica osservazione che si può fare è una differenza nell’affidabilità del dato, essendo le varianze delle valutazioni date dagli unskilled maggiori di quelle date dagli utenti skilled. Questo dato può essere indice di un’effettiva possibilità di poter ottenere buoni risultati di corretta classificazione anche da pare di utenti unskilled previo consono addestramento: questa ipotesi è tuttavia da confermare cercando di coinvolgere nel test un campione maggiore di utenti di entrambi le classi, al fine