• Non ci sono risultati.

3. L’estrazione delle stringhe da EPIC

3.2 Le espressioni di ricerca

Il sottocorpus org -en del corpus EPIC è stato inter rogato usando tre espressioni di ricerca in linguaggio CQP inserite una alla volta nella maschera di ricerca av anzata ( Advance d Query ). Per tut te e tre le espressioni sono stati impostati i seguenti parametri di ricerca (Search parame ters ):

- trova al massimo ( Find at max) 10.000 risultati , il numero più alto tra le opzioni da selezionare ;

- modalità di visualizzazione dei risultati ( Res ults se t) impostata su Random se t, che nel la maschera di r icerca di EPI C corrisponde alla visualizzazio ne di tutti i risultati corrispondenti all’espressione di ricerca s enza r estrizioni . Questo parametro ha due opzioni: Random set e Firs t 1000 results. Nel caso in cui i risultati siano molto numerosi, è possibile scegliere di visualizzarne solo una parte ; - risultati per pagina ( Re sults per pag e ) senza restrizioni ( no limit). Si è poi proceduto ad inserire le espressioni di ricerca. Sono state elaborate tre diverse espressioni per includere tutte le possibili varianti di sintagmi nominali con premodificatori. Le espressioni utilizzate sono:

71

Espressione A, p er richiamare le stringhe del tipo human health dimension (1967 risultati) : [pos="JJ"|pos="JJR"|pos="JJS"|pos="CD"|pos="NN"|pos="NNS"|pos="NP"| pos="NPS"| pos="VVN"|pos="VVG"|pos="PP$"|p os="RB"|pos="RBR"|pos="RBS"][pos=" JJ"|pos="JJR"|pos="JJS"|pos="CD"|pos="NN"|pos="NNS"|p os="NP"|pos=" NPS"| pos="VVN"|pos="VVG"|pos="PP$"|p os="RB"|pos="RBR"|pos="RBS"][pos=" NN"|pos="NNS"|pos="NP"|pos="NPS"]

Espressione B, per richiamare le stringhe del tipo Food and Veterinary Office (302 risultati) : [pos="JJ"|pos="JJR"|pos="JJS"|pos="CD"|pos= "NN"|pos="NNS"|pos="NP"| pos="NPS"| pos="VVN"|pos="VVG"|pos="PP$"|p os="RB"|pos="RBR"|pos="RBS"] [pos="CC"][pos="JJ"|pos="JJR"|pos="JJS"|pos="CD"|pos="NN"|pos="NNS"| pos="NP"|pos="NPS"| pos="VVN"|pos="VVG"|pos="PP$"|p os="RB"|pos="RBR"|pos="RBS"] [pos="NN "|pos ="NNS"|pos="NP"|pos="NPS"]

Espressione C, p er richiamare le stringhe del tipo Member States' lead (146 risultati) :

[pos="POS"]

L’espressione A ricerca un sostantivo preceduto da almeno due modificatori . Per cercare ciascuno dei modificatori sono state inserite tutte le etichet te di quelli presi in considerazione (cfr. 3.1), in modo da recuperar e tutte le possibili combinazioni. L o scopo dell’espressione A è trov are le str inghe di modificatori della testa nominale della lunghezz a minima per poter essere cons iderate tali, ma e sistono anche stringhe con un numero superiore di modificatori. Nel momento della scrematura d ei risultat i è stato possibile identificare anche le stringhe con tre o più modificatori grazie alla visualizzazione key word in c o ntex t (KWIC) , che per mett e di visualizzare i risultati all’interno di un contesto, cioè con le parole che li precedono e li seguono. Per questa ricerca è stato impostato un con testo di 25 ca ratt eri, s ia prima ch e dopo il risultato, che ha permesso di verificare se la s tringa identificata fosse pre ceduta da un numero

72

maggiore di modificatori corrispondenti a qu elli oggetto di indagine (cfr . capitolo 1).

L’espressione B ricerca un sostantivo preceduto da due modificatori collegati tra loro da una congiunzione coordinante (and, or e bu t). C ome per l’espressione A, anche per l’espressione B sono state cer cat e tu tte le e tichett e dei modificatori presi in considerazione (cfr. 3.1), in modo da recuperare tutte le possibili combinazioni.

L’espressione C , la più breve, ricer c a tu tti e solo i genitivi . È stata crea ta un’espressione a par te dal momen to che esiste un’e tichetta specifica per i genitivi, [pos="POS"], quindi i sostantivi che hanno questa costruzione hanno solo questa etichet ta e non vengono inclusi tra i risultati se si ricercano le va rie e tiche tte dei nomi. Visto il basso numero di occorrenze dell’etichetta per i genitivi (146) si è preferito non aggiungere ulteriori r estrizioni a questa espressione e screma re i risultati manualmente: i genitivi sassoni sono stati presi in considerazione solo se premodificatori di sintagmi nominali con almeno un altro modificatore in posizione prenominale.

L’utilizzo di un sistema automatico di raccolta dei risultati è stato scelto in primo luogo perché permet te di analizzare in modo più veloce un numero elevato di parole, come n el caso de l sottocorpus org -en, che consta di circa 42 mila parole (cfr. 3.3.2). In secondo lungo la ricerca au to matica è quantitativamente affidabile : se al ricercato re ch e ricer ca manu almente una cer ta struttura nei testi del corpus possono sfuggire dei risultati rilevanti, un algoritmo informatico richiamerà tutti i risultati che corrispondono all’esp ressione di ricerca utilizzata.

L’approccio automatico tuttavia non basta : i sistemi informatici non hanno la capacità critica di valutare la qual ità dei risultati ottenuti, di capire cioè se una cert a sequenza di pa role ha senso o ppure no, una valutazione che è evi dente p er la mente umana. D a qui la ne cessità di far seguire ad una prima fase di ricerca automatic a dei risultati una seconda fase di analisi qualitativa manuale degli stessi.

Questo studio vuole essere il più obiettivo e scientificament e valido possibile. Con questo intento, si è cerca to di operare scelte o culate e adeguatamente motivat e utilizzando una m etodologia rigorosa, nel rispetto d el

73

principio di replicabilità. Nei paragrafi successivi saranno esposti i criteri di inclusione e di esclu sione dei risultati automa tici. Alcuni criteri sono stat i decisi a monte, mentre altri sono stati definiti in corso d’opera sulla base della tipologia dei risultati estra tti dal corpus .

Le strin ghe raccolt e sono state suddivise in tre tabel le inserite nell’Appendice I. La prima t abella, STRINGHE SCELTE , riporta le stringhe selezionate suddivise per espressione di ricer c a e nell’ordine in cui sono state estratte d alla maschera di ric erca, c ioè dal testo o rg -en 1 al testo org -e n 81. Ad ogni stringa è affiancata la traduzione corrispondete, identificata m an ualmente sulla base della mia conoscenza linguistica tramite il con fronto del testo originale con la rispettiva traduzione (Appendice II). Le stringhe in inglese e le trad uzioni in italiano sono state evidenziate in grassetto. I testi tradotti del sottocorpu s int -en- it hanno lo stesso numero identificativo (ID) dei rispet tivi originali del sottocorpus org-en. L’interfaccia di EPIC non per mett e di fare ricer che solo con l’ID d el testo e le traduzioni italiane sono state quindi richiamate dal sottocorpus int -en-it ipotizzando la possibile traduzione di parole dei risultati i nglesi o del contesto circostante e digitando qu esta ipot e si nella maschera di ricer ca semplic e ( Simple Query ). Nel caso in cui l’ID del testo italiano cont enent e l’ipotesi traduttiv a formulata corrispondesse a quello dell’originale inglese, il testo itali ano è stato copiato e incollato su Microsoft Wor d.

Per giustificare l’esclusione dei r isultati e mantener e un approcci o coerente duran te la rice rca , sono stat e ca talogat e anche le stringhe e scluse. In Appendice III è ripor tat a la tab ella STRINGHE ESCLUSE , che contien e le stringhe non pertinenti suddivise per criterio di esclusione e per espressione di ricerca con cui sono state estra tte dal corpus. Sempre nell’Appendice III è stat a inserita la tabella STRINGHE ESCLUSE ATIPICHE, contenente i casi particolari di esclusione suddivisi per espressione di ricerc a.

74