• Non ci sono risultati.

4. IL MOTORE DI RICERCA

N/A
N/A
Protected

Academic year: 2021

Condividi "4. IL MOTORE DI RICERCA "

Copied!
9
0
0

Testo completo

(1)

74

4. IL MOTORE DI RICERCA

4.1. Introduzione

Come illustrato nei precedenti capitoli, al fine di avere a disposizione un corpus di analisi interrogabile con strumenti computazionali, si è proceduto prima alla trascrizione, poi all’identificazione e alla codifica in XML dei fenomeni paralinguistici.

La parte fin qui svolta è poi servita come preparazione all’interrogazione finale tramite il motore di ricerca XCDE (Xml Compressed Document Engine), sviluppato presso il Dipartimento di Informatica dell'Università di Pisa dal prof. Paolo Ferragina.

Il motore di ricerca è disponibile on-line nel sito “RicercaLinguistica”

1

dell’Università di Pisa, dove sono presenti corpora che comprendono testi letterari, fonti storiche e corpora lingustici che possono essere interrogati e consultati per la lettura, tra i quali anche il corpus relativo alle due puntate di “Porta a porta” codificate nel presente lavoro.

Tramite questo motore di ricerca è possibile ricercare sia contenuti testuali del documento sia singoli tag con i relativi attributi e valori.

Nei paragrafi seguenti verrà illustrato il funzionamento del motore di ricerca attraverso un esempio pratico di interrogazione.

1

Il sito “RicercaLinguistica” è consultabile all’indirizzo internet http://dante.di.unipi.it

(2)

4.2. Interrogazione del motore di ricerca

Per accedere ai corpora raccolti nel sito “RicercaLinguistica” è necessario effettuare il login con un nome utente e una password abilitati all’interrogazione corpora, per esempio “user” e “user”

(Figura 1).

Figura 1

Dopo il login si procede selezionando dal menu di destra

“Interrogazione corpora”: apparirà la finestra con la lista dei corpora da interrogare (Figura 2).

Figura 2

(3)

76

A questo punto dal menu a tendina in cima alla pagina si può scegliere se cercare in tutti i documenti o nei documenti o collezioni selezionati e poi se effettuare una ricerca semplice, utilizzando il bottone

“Avanti”, o una ricerca avanzata, utilizzando il bottone “Avanti (avanzato)”.

Nel nostro caso, si selezionano i due testi compresi nel corpus chiamato “Parlato televisivo: porta a porta” e si sceglie di effettuare una ricerca avanzata (Figura 3).

Figura 3

Dopo aver selezionato il corpus è possibile cominciare la ricerca.

Si possono indicare come criteri di ricerca fino a tre elementi (oppure

elementi accompagnati da attributi oppure elementi accompagnati da

attributi e valori); i tre possibili criteri da indicare sono collegati con

operatore AND, ovvero se viene selezionato più di un criterio la

(4)

ricerca verrà eseguita solo sulle sezioni di testo che rientrano in tutti i criteri indicati.

E’ possibile anche fare una ricerca indicando una o più stringhe nelle caselle “Stringa”, anche in questo caso le tre caselle sono collegate con operatore AND, quindi se si inserisce più di una stringa la ricerca restituirà solo i contesti in cui si trovano tutte le parole indicate separate tra di loro da un massimo di 300 caratteri: questo intervallo può essere modificato inserendo il numero di caratteri prescelto nella casella “Distanza massima tra le parole da cercare”.

Attraverso i menu a tendina (Figura 4) si può scegliere se ricercare, per ogni stringa, una parola intera o una parte di parola, distinguendo tra una stringa qualunque, una stringa iniziale (prefisso) o una stringa finale (suffisso).

Inoltre, sempre attraverso il menu a tendina, è possibile eseguire la ricerca per espressioni regolari, ovvero combinando le stringhe di caratteri tra loro per mezzo di operatori preceduti dal carattere di controllo \: una stringa di caratteri può essere separata da un’altra attraverso le parentesi tonde \( e )\. Il carattere \| può essere utilizzato per l’operatore OR, ad esempio, la sequenza \(and)\(are\|ate\) ricerca sia “andare” che “andate”.

Figura 4

(5)

78

Per rendere più chiaro il procedimento illustriamo un esempio di interrogazione.

Ricerchiamo l’elemento retracing con attributo type e valore nocorr:

per attivare la ricerca è sufficiente riempire le relative caselle e selezionare “Cerca” (Figura 5).

Figura 5

4.3. Risultati dell’interrogazione

Al termine della ricerca viene visualizzata una finestra con il numero di occorrenze trovate e il numero dei documenti, tra quelli selezionati, al cui interno è stata trovata almeno un’occorrenza.

Nel nostro caso sono state trovate cinquecentouno occorrenze in due

documenti (Figura 6).

(6)

Figura 6

Si può scegliere di vedere le occorrenze all’interno di un contesto abbreviato e quindi selezionare “Tutte le occorrenze”, in questo caso si apre una finestra in cui le occorrenze sono a gruppi di dieci ed evidenziate in rosso. Il contesto che le circonda può essere allargato o ristretto utilizzando i bottoni “riduci” o “estendi” (Figura 7).

Figura 7

(7)

80

Per visualizzare le occorrenze all’interno di un testo è necessario invece selezionare il titolo del testo: in questo caso si apre un’altra finestra che riporta in un frame superiore la lista delle occorrenze in un contesto abbreviato e in un frame inferiore il testo completo.

Selezionando una occorrenza il testo completo si posizionerà nel punto in cui si trova l’occorrenza (Figura 8).

Figura 8

4.4. Tabella di corrispondenza tra i tag XML e i risultati del motore di ricerca

Riportiamo di seguito una tabella di corrispondenza tra i tag XML

usati per la codifica del corpus e i simboli che identificano i tratti nei

risultati del motore di ricerca.

(8)

Fenomeni XML Motore di ricerca

Enunciato <u who="VES"> ... </u> VES ...

Segmento interrogativo

<seg subtype="terminal-interr">

... </seg>

segmento interrogativo

Segmento esclamativo

<seg subtype="terminal-excl"> ...

</seg>

segmento esclamativo

Sovrapposizione <anchor> *

Discorso riportato

<q> ... </q> - … -

Battuta silenziosa

<kinesic desc="silent" />

silent

[=! ]

Pausa <pause/> #

Focalizzazione <emph> ... </emph>

focalizzazione

Frammenti <vocal type="fragment"

desc="descrizione"/>

descrizione ^^

Interiezioni <vocal type="semi-lexical"

desc="descrizione" />

descrizione ^

Suoni non linguistici

<vocal type="non-lexical"

desc="descrizione" />

descrizione [=!

]

Materiale omesso

<gap/> xxx

Incertezza <unclear> ... </unclear> [nessun contrassegno]

Lingua straniera <foreign

lang="en">inglese</language>

inglese

Dialetto <distinct type="dialect"

space="lazio">dialetto</distinct>

^ dialetto

dialect

Tecnicismi <term type="giuridico"> ...

</term>

[nessun contrassegno]

Eventi <event desc="applauso" />

%act: Applauso

(9)

82

Allungamento <long type="support"> ... </long> ::: …

Retracing without correction

<retracing type="nocorr"> ...

</retracing>

[/] ...

Retracing with correction

<retracing type="corr"> ...

</retracing>

[//] ...

Retracing with reformulation

<retracing type="reform"> ...

</retracing>

[///] ...

False start

without retracing

<retracing type="fstart"> ...

</retracing>

[/-] ...

Sospensione con ripresa

<interruption type="suspended"

id="a1" next="b1" />

[nessun contrassegno]

Ripresa <seg id="a1" prev="b1"> ...

</seg>

+

Interruzione senza ripresa

<interruption type=“self” />

<interruption type=“others” />

+/.

Interruzione da parte di altri con ripresa

<interruption type="others"

id="a1" next="b1" />

+ …

Utilizzando questo strumento è stato possibile compiere ricerche sistematiche all’interno del nostro corpus di analisi per quanto riguarda i fenomeni paralinguistici e in parte per i fenomeni morfosintattici.

I risultati di tali ricerche e le nostre considerazione in proposito

saranno oggetto dei prossimi capitoli.

Riferimenti

Documenti correlati

I punteggi per ciascun quesito sono dichiarati sul testo, nel seguente formato {E,NE,A} dove E `e il punteggio assegnato in caso di risposta Esatta, NE quello in caso di risposta

I punteggi per ciascun quesito sono dichiarati sul testo, nel seguente formato {E,NE,A} dove E `e il punteggio assegnato in caso di risposta Esatta, NE quello in caso di risposta

I punteggi per ciascun quesito sono dichiarati sul testo, nel seguente formato {E,NE,A} dove E `e il punteggio assegnato in caso di risposta Esatta, NE quello in caso di risposta

In un piano verticale, un filo omogeneo AB di peso per unit`a di lunghezza p ha l’arco AC appoggiato senza attrito su un quadrante di raggio 2R ed il tratto DB appoggiato ad un

I punteggi per ciascun quesito sono dichiarati sul testo, nel seguente formato {E,NE,A} dove E `e il punteggio assegnato in caso di risposta Esatta, NE quello in caso di risposta

I punteggi per ciascun quesito sono dichiarati sul testo, nel seguente formato {E,NE,A} dove E `e il punteggio assegnato in caso di risposta Esatta, NE quello in caso di risposta

Il/la sottoscritto/a si impegna a segnalare tempestivamente le variazioni di domicilio che dovessero intervenire successivamente alla presentazione della

1 contratto di lavoro a tempo determinato per il profilo di Ricercatore III livello professionale – professionalità con laurea in Medicina e chirurgia, specializzazione in