Manuale Utente QueryGenerator
2. Requisiti di Sistema 2
3. Installazione 2
4. Utilizzo 3
5. Logica d’ interrogazione 6
Introduzione
Contenuto della documentazione.
n questo manuale sono fornite informazioni riguardanti l’utilizzo e l’installazione del programma QueryGenerator.
Nel paragrafo 1 è presentato il programma.
Nel paragrafo 2 sono descritti i requisiti di sistema necessari per l’utilizzo. Nel paragrafo 3 è descritto il processo di installazione.
Nel paragrafo 4 è descritto l’utilizzo del programma. Nel paragrafo 5 sono descritti i messaggi di errore.
Si assume che gli utenti del Software QueryGenerator e quindi del presente manuale siano a conoscenza delle norme, delle convenzioni e delle specifiche del progetto API.
1. Presentazione.
Il programma QueryGenerator è parte del sistema Software di Gestione del Corpus linguistico API progettato e realizzato presso il CIRASS.
Il sistema Software di Gestione del Corpus linguistico API comprende tre componenti:
• Parser • Data Base • QueryGenerator
Il componente QueryGenerator è uno strumento di interrogazione che consente
1
/ 1
I
DBMS OLEDB Microsoft Access e Microsoft SQL Server.
2. Requisiti di Sistema
Requisiti Software: Sistema Operativo Windows 9x.
In caso di utilizzo in ambiente Windows 95 o 98 prima edizione il programma di installazione potrebbe aggiornare in automatico alcuni files di sistema. Nella versione distribuita a partire dal dicembre 2001 è necessario aggiornare o installare ex-novo il prodotto Microsoft Data Access Components 2.6 che viene allegato all’interno dell’area ftp di prelievo del software.
Requisiti Hardware: L’esecuzione del Query Generator non
richiede particolari requisiti di sistema. Consigliato comunque l’utilizzo con sistemi Pentium2/3, Celeron o equivalente e con 64 Mb di memoria Ram minimo.
3. Installazione.
Per eseguire l’installazione posizionare il puntatore sull’icona del file setup.exe ed eseguire doppio click con il pulante sinistro del mouse.
Seguire le istruzioni presenti nell’interfaccia grafica d’installazione.
Nota
Per l’utilizzo de QueryGenerator è necessario il file di database API.mdb disponibile nella cartella DBase.
4. Utilizzo
Per eseguire il programma fare doppio click sull’icona corrispondente al file QueryGenerator.exe oppure attivare il collegamento al QueryGenerator attraverso il gruppo di programmi API definito all’atto dell’installazione nel menu Start (Avvio) di Windows. La schermata iniziale di QueryGenerator è la seguente:
Figura 1 - Interfaccia iniziale QueryGenerator
Selezionare ApriDataBase (v. fig). Il sistema visualizza la finestra standard Apri Inserire il Path ed il Nome del Data Base API.mdb e quindi selezionare Apri
Una volta connessi al Data Base è possibile selezionare i dialoghi che si vuole interrogare. Selezionare il pulsante Seleziona Dialoghi.
Figura 2 - Interfaccia QueryGenerator
Viene visualizzata la seguente finestra. Selezionare “Categoria di Informatori” se si vuole interrogare un gruppo di dialoghi del Corpus, in alternativa si può selezionare ”Singolo dialogo”.
Figura 3 Selezione Dialoghi : Scheda Categoria Informatori
Se si decide di selezionare i dialoghi da interrogare per Categoria Informatori allora è necessario selezionare almeno una opzione relativa alla Varietà (Napoli, Bari, Pisa, Firenze) ed una opzione relativa alla categoria degli informatori (Uomini, Donne, Bambini Normoudenti, Bambini Ipoacusici). Se invece si decide di selezionare i dialoghi da interrogare per Singolo Dialogo allora inserire i dati Mappa, Varietà, Sessione e Ruolo.
Figura 4 - Selezione dialoghi : Scheda Singolo dialogo
Al termine della selezione fare click su OK.
E’ possibile, dopo essersi connessi al Data Base ed aver selezionato i dialoghi, eseguire le interrogazioni sui livelli di etichettatura.
Inserire le etichette, secondo la sintassi definita nel paragrafo 6 nelle caselle di testo dei livelli d’interesse e selezionare il pulsante interroga livelli di etichettatura (v. fig. 5).
Figura 5 Interfaccia QueryGenerator
Se la ricerca avrà esito positivo il QueryGenerator visualizzerà una tabella contenete le istanze dei dati del corpus trovate (fig 6).
Figura 6 - Interfaccia QueryGenerator
5. Logica d’interrogazione.
Il QueryGenerator consente di interrogare il Data Base API esprimendo, con una opportuna sintassi (v §6), condizioni di ricerca su uno o più livelli di etichettatura contemporaneamente. Quando le interrogazioni sono espresse tra più livelli di etichettatura contemporaneamente, le condizioni di livello sono in AND logico tra loro per default. Non tutti i turni sono stati etichettati a livello TON e quindi è stato necessario suddividere le classi di interrogazioni che il Query Generator realizza nelle seguenti:
• Interrogazione che riguardano uno o più livelli escluso il TON
• Interrogazioni su uno o più livelli con almeno una condizione riguardante il livello TON.
In pratica le richieste che includono condizioni al livello TON limitano la ricerca ai soli turni che presentano tale etichettatura.
La gerarchia definita tra i livelli di etichettatura nel progetto AVIP-API determina la seguente “logica” che è necessario prendere in considerazione quando si formulano richieste di interrogazione.
Data una richiesta su più livelli di etichettatura, il livello di selezione delle etichette è espresso dal livello gerarchicamente inferiore tra quelli in cui sono state poste condizioni.
Ad esempio un richiesta a livello WRD di ricerca della parola ^partenza^ determina che le istanze trovate sono visualizzate come segue:
L’etichetta al livello WRD ^partenza^ è visualizzata insieme alle etichette ad essa relazionata degli altri livelli .
Questo perché l’assenza di condizioni agli altri livelli viene intesa e tradotta dal QueryGenerator per ciascun livello come “seleziona qualunque elemento”.
Se invece oltre alla condizione sul livello WRD ^partenza^ viene posta anche la condizione a livello PHB ^a^ la ricerca è ristretta alle due istanze del fono ^a^ incluse nella parola “partenza”.
Tale logica deve essere applicata in ogni interrogazione per sfruttare al meglio le potenzialità “espressive” del QueryGenerator.
Infine, l’interfaccia grafica, come mostrato nelle figure precedenti, presenta, oltre alle cinque caselle di testo dedicate ai livelli di etichettatura API anche altre due caselle (la WRDsucc e la PHMsucc) che consentono di esprimere richieste di ricerca di sequenze di etichettatura ai livelli di parola.
Quindi è possibile ricercare “parole” seguite da altre ‘parole’ semplicemente ponendo condizioni di ricerca nelle caselle WRDsucc e/o PHMsucc.
ricerca (o criteri di ricerca) nei livelli di etichettatura. Nota
Le istanze di etichettatura da ricercare vanno sempre racchiuse da una coppia di caratteri ^.
La descrizione della sintassi parte innanzitutto con la definizione dei caratteri speciali (caratteri jolly) che consentono di esprimere le cosiddette stringhe con
varianti. Nella tabella seguente sono riportati i caratteri “jolly” che si possono
utilizzare e il numero di cifre o stringhe a cui corrispondono.
Caratteri in criterio di ricerca Corrispondenze in espressione
_ (carattere di sottolineatura) Qualsiasi carattere singolo (come ? in dos)
% Zero o più caratteri (come * in dos)
# Qualsiasi cifra singola (0 – 9)
[elencocar] Qualsiasi carattere singolo incluso nell’intervallo elencocar
[!elencocar] Qualsiasi carattere singolo non incluso in elencocar
Illustriamo l’utilizzo dei caratteri jolly con alcuni esempi: • Per ricercare zero o più caratteri utilizzare “%”
^p%^ Tutte le etichette che iniziano per p ^%a^ Tutte le etichette che finiscono per a
^a%e^ Tutte le etichette che iniziano per a e finiscono per e.
• Per ricercare un carattere utilizzare “_”
^_a%^ Tutte le etichette che hanno un qualunque carattere iniziale seguito da ‘a’ e da una qualunque sequenza.
• Per esprimere “qualsiasi” singolo carattere compreso in un insieme utilizzate [elencocar]. Tra le parentesi si può comprendere quasi tutti i caratteri del set di caratteri ANSI comprese le cifre.
^[aeiou]%^ Tutte le etichette che iniziano con una vocale. ^p[ai]lato^ Trova le etichette ‘palato’ e ‘pilato’.
• Per ricercare caratteri speciali come la parentesi quadra di apertura ([ ), il carattere di sottolineatura (_), il cancelletto (#) e il carattere di percentuale (%), racchiuderli tra parentesi quadre.
La parentesi quadra di chiusura ( ]) non può essere utilizzata all'interno di un gruppo per la corrispondenza con il carattere ], ma può essere utilizzata fuori da un gruppo come carattere singolo.
^[%]a^ Trova tutte le etichette che contengono specificamente il carattere %
• Per specificare un intervallo di caratteri utilizzare un trattino (-) per separare il limite minimo e quello massimo dell'intervallo. Utilizzando, ad esempio, [A-Z] in criterio di ricerca si ottiene come risultato una corrispondenza se la posizione del carattere corrispondente in espressione contiene una delle lettere comprese tra A e Z.
Nota
Quando si specifica un intervallo di caratteri, essi devono essere visualizzati in ordine crescente, cioè da A a Z o da 0 a100. [A-Z] è un criterio di ricerca valido mentre [Z-A] non lo è.
Nell’attuale versione non c’è una distinzione tra maiuscole e minuscole, il sistema di interrogazione per ora non è case sensitive
• Per esprimere la ricerca dei caratteri non appartenenti ad un insieme utilizzare un punto esclamativo (!) all'inizio di [!elencocar]. Quando il (!) viene utilizzato fuori dalle parentesi quadre, il punto esclamativo diventa oggetto del confronto.
^[!aeiou]% ^ Trova tutte le etichette che iniziano per una consonante
CASI PARTICOLARI
• Per rendere oggetto di ricerca il segno meno all’interno di un elencocar, il segno meno deve essere posto all'inizio o alla fine di elencocar.
• Se all'inizio dell'elencocar viene utilizzato un punto esclamativo, il segno meno deve essere posizionato dopo di esso. In qualsiasi altra posizione il segno meno viene utilizzato per identificare un intervallo di caratteri ANSI.
Il QueryGenerator consente inoltre di utilizzare gli operatori booleani AND, OR, NOT, XOR, ecc. per comporre espressioni da utilizzare come criteri di ricerca.
Esempi di espressioni
^p%^ or ^a%^ Tutte le etichette che iniziano per ‘p’ oppure per ‘a’
(^p%^ or ^c%^) and not ^_e%^
Tutte le etichette che iniziano per ‘p’ oppure per ‘a’ Ma che non abbiano in seconda posizione ‘e’
Nota
La potenza espressiva del Query Generator consente di esprimere medesime richieste con sintassi diversa
Ad esempio la precedente espressione era anche esprimibile con ^p[!e]%^ or ^c[!e]%^
Comunque, a volte, l’utilizzo di operatori migliora la leggibilità .
L’utilizzo degli operatori Booleani segue le norme e la logica dell’algebra di Boole e quindi una descrizione dettagliata della potenza espressiva raggiungibile da tale strumento esula dagli scopi di questo manuale.
7. Visualizzazione degli intervalli temporali in
millisecondi
La freccia rossa in figura indica il selettore per la visualizzazione in formato tempo degli intervalli temporali relativi agli eventi selezionati nel database. Queste informazioni vengono calcolate all’atto della richiesta della visualizzazione e non fanno effettivamente parte dei dati contenuti nel database.
8. Esportazione dei dati relativi alle istanze sui
livelli phn, phb, phb, wrd, ton
Nel menu “Modifica” sono disponibili le voci “Salva Etichettature con nome…” e “Salva Etichettature (append)” inizialmente
Dopo avere interrogato una base dati selezionare con il mouse le righe contigue di interesse, scegliere “Salva Etichettature con nome…”nel menu.
In conseguenza a questa scelta apparirà la finestra riportata qui a fianco che consentirà di definire la posizione sul disco e il nome del file che contiene i dati estratti dal programma di interrogazione. Dopo avere scelto path e nome file cliccare su “salva parametri” per salvare le righe della tabella precedentemente selezionate. Il file risultante è in formato ASCII (con estensione .txt) e contiene tutti i dati selezionati ognuno separato dagli altri con una virgola).
Se sulla stessa istanza ottenuta attraverso l’interrogazione si vogliono salvare altre tabelle dati accodando i valori al file precedentemente generato, si selezionino altre righe e si scelga la voce “Modifica->Salva etichette (append)” scegliere invece “Modifica->Salva etichette con nome…” ogni volta che si vuole generare un nuovo file di dati. Nella modalità append ogni nuova selezione viene separata dalle precedenti con una sequenza di quattro asterischi.. In questo file le informazioni temporali saranno indicate in campioni, se si desidera una selezione in secondi bisognerà generare in Excel nuove colonne nelle quali si potrà calcolare il dato dividendo il valore di ogni cella in campioni per 22050. In appendice A viene illustrato il procedimento per importare le tabelle prodotte da Query Gen in formato Excel.
9. Salvataggio dei parametri acustici
Dopo avere interrogato una base dati selezionando con il mouse le righe contigue di interesse, è possibile salvare in un file di testo i parametri acustici, definiti ogni 5 millisecondi per ogni evento appartenente alla selezione. Per procedere in questo senso cliccare sul pulsante SQL-parametri di analisi presente sulla barra menu e riportato qui a fianco.
La pressione di questo tasto consente la generazione di una nuova finestra in cui tutti i parametri sono riportati in una tabella. La figura che segue ne fornisce un esempio:
anche in questo caso è possibile salvare i dati in una tabella o accodare nuovi dati ad una tabella precedentemente creata (in tal caso sarà abilitato il pulsante “aggiungi in- con l’indicazione del nome del file già creato). Il formato della tabella ASCII verrà salvato in questo caso viene illustrato nel seguente esempio:
Come nel caso precedente, quattro asterischi separano ogni selezione dagli accoramenti successivi, per ogni selezione vengono ripetuti i nomi dei campi corrispondenti ai parametri acustici.
"****"
MAPPA,SESSIONE,ORDINE,VARIETA',STRINGAPHN,INIZIOPHN,FINEPHN,TEMPO,PITCH,VOIC/UN VO,ENERGIA,1A FORM,2A FORM,3A FORM,
A,01,18,N,4,17378,17824,790,182,1,81,172,1335,2497, A,01,18,N,4,17378,17824,795,180,1,81,172,1421,2497, A,01,18,N,4,17378,17824,800,182,1,81,215,1464,2325, "****"
MAPPA,SESSIONE,ORDINE,VARIETA',STRINGAPHN,INIZIOPHN,FINEPHN,TEMPO,PITCH,VOIC/UN VO,ENERGIA,1A FORM,2A FORM,3A FORM,
A,01,24,N,!O,14396,15685,655,315,1,83,301,732,1119, A,01,24,N,!O,14396,15685,660,315,1,86,301,732,1119, A,01,24,N,!O,14396,15685,665,315,1,88,301,732,1162, A,01,24,N,!O,14396,15685,670,315,1,89,301,689,1162, A,01,24,N,!O,14396,15685,675,319,1,90,301,732,1205, A,01,24,N,!O,14396,15685,680,319,1,91,301,732,1248, A,01,24,N,!O,14396,15685,685,319,1,91,301,732,1248, A,01,24,N,!O,14396,15685,690,107,1,91,301,732,1248, A,01,24,N,!O,14396,15685,695,324,1,90,301,732,1248, A,01,24,N,!O,14396,15685,700,324,1,88,258,732,1248, A,01,24,N,!O,14396,15685,705,324,1,84,258,689,1248,
• Figura rappresentante il messaggio di errore • Possibile causa:
• Soluzione:
Messaggio 1
Figura 7 Messaggio di Errore
• Possibile causa: Nella selezione dei dialoghi non è stato selezionata almeno una varietà
• Soluzione. Bisogna selezionare almeno una varietà per la selezione dei dialoghi da interrogare ed almeno una categoria di informatori .
Messaggio 2
Figura 9 Messaggio di Errore
• Possibile causa: Nella selezione dei dialoghi non è stato selezionata almeno una categoria di informatori
• Soluzione. Bisogna selezionare almeno una varietà ed una categoria di informatori per la selezione dei dialoghi da interrogare.
Figura 11 Messaggio di errore
• Possibile causa: Manca almeno un simbolo ^ nella richiesta di ricerca..
• Soluzione: Verificare la sintassi ed aggiungere i delimitatori di etichetta ^ mancanti.
Messaggio 4
Figura 12 Messaggio di Errore
• Possibile causa: La sintassi della richiesta di interrogazione sui livelli di etichettatura non è corretta.
Messaggio 5
• Possibile causa: La sintassi della richiesta di interrogazione sui livelli di etichettatura non è corretta.
• Soluzione: Verificare la sintassi (v §6)
Appendice A – Importare le tabelle ASCII
generate dal Query Generator in Excel
Sia le tabelle dati che le tabelle parametri generate durante l’impiego del programma Query Generator possono essere semplicemente importate in vari programmi per la successiva elaborazione. In questa appendice forniamo l’elenco dei passi necessari per l’importazione nel programma Excel della Microsoft.
• Lanciare Excel;
• Selezionare la voce di menù “file ->apri…”, all’apertura della relativa finestra scegliere “file di testo” nella casella “tipo testo”;
• nella prima pagina del menù guidato cliccare sull’opzione “Delimitati” e poi sul pulsante “avanti”;
• nella seconda pagina del menù guidato cliccare sull’opzione “virgola” nell’elenco dei “delimitatori”, togliere la selezione alla casella “tabulazione”, e selezionare “nessuno” nel campo “qualificatore di testo” e poi sul pulsante avanti;
• nell’ultima pagina del menù guidato è possibile selezionare le singole colonne di dati, assegnare il tipo di dato ad ognuna e decidere se importarla o meno. Nello specifico si consiglia di evitare accidentalmente l’assegnazione del tipo “data” alle colonne. Lasciare l’assegnazione di tipo “generale” a tutte le colonne è la cosa più conveniente. In tal caso questa pagina può essere ignorata: cliccando su “fine” la tabella Excel sarà quindi disponibile per le successive elaborazioni. Ricordiamo che i valori dei marker temporali sono espressi in campioni e ogni cella può essere trasformata in secondi dividendone il contenuto per 22050.