• Non ci sono risultati.

I corpora da me scelti fanno parte del progetto del National Corpus Ceco (CNC), istituito nel 1994 per creare e rendere disponibili ampi dati linguistici per l'insegnamento e la ricerca sotto forma di corpus elettronici. Attualmente fornisce accesso a oltre tre miliardi di parole in corpora sincroni e diacronici , sia per il parlato che per lo scritto, in modalità sia parallela che monolingue, oltre a fornire strumenti specifici per interfacciarsi con essi.

Il progetto CNC è gestito principalmente da due istituti della Charles University: l'Institute of the National Corpus Ceco e l' Institute of Theoretical and Computational

Linguistics. Inoltre, oltre duecento esterni provenienti da tutta la Repubblica Ceca partecipano alla raccolta di materiali e al coordinamento di attività di ricerca.

Il National Corpus Ceco dispone della specifica applicazione KonText,

ossia un'interfaccia di query di base per lavorare con corpora. Questa consente la valutazione di query semplici e complesse e di visualizzare i risultati come linee di concordanza,

distribuzione della frequenza di calcolo, calcolo delle misure di associazione per le collocazioni e ulteriore lavoro con i dati del linguaggio.

Esiste una grande quantità di corpora consultabili e reperibili online, che siano essi di testi scritti, di testi orali trascritti, di video o registrazioni audio, ecc...

Per i corpora monolingue tedeschi i più conosciuti sono Wortschatz Universität Leipzig http://wortschatz.uni-leipzig.de/de, Institut für Deutsche Sprache http://www1.ids- mannheim.de/, Cosmas II http://www.ids-mannheim.de/cosmas2/, mentre per quelli bilingue ci sono tra gli altri il leo https://dict.leo.org/italienisch-deutsch/?side=left, il bab.la

http://it.bab.la/dizionario/tedesco-italianoo, ancora, Linguee https://www.linguee.it/a cui mi sono rifatta per varie consultazioni di traduzioni italiane non facilmente reperibili.

Indubbiamente degni di nota sono inoltre i corpora all’interno del digitales

Wörterbuch der deutschen Sprache, tra cui troviamo Referenzkorpora -Deutsches Textarchiv (1600–1900), DWDS-Kernkorpus (1900–1999), DWDS-Kernkorpus 21 (2000–2010)-; Zeitungskorpora -Berliner Zeitung (1946–1993), Berliner Zeitung (1994–2005), neues deutschland (1946–1990), Der Tagesspiegel (1996–2005), Die ZEIT (1946–2016) e, infine, Spezialkorpora -Blogs, Webkorpus, Filmuntertitel, Polytechnisches Journal, DDR, Korpus Gesprochene Sprache (https://www.dwds.de/d/korpora).

Non possiamo non menzionare la famiglia dei corpora Wacky, disponibili in inglese, francese, tedesco e italiano; nella pubblicazione “The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora. Language Resources and

Evaluation 43(3): 209-226” del 2009, M. Baroni, S. Bernardini, A. Ferraresi ed E. Zanchetta introducono i tre corpora inglese, italiano e tedesco e danno una panoramica generale sugli strumenti e le metodologie utilizzate nella loro creazione, sottolineando che, contenendo ognuno di essi un patrimonio di più di un miliardo di parole, essi rappresentano tre dei più vasti strumenti di ricerca esistenti per ciascuna rispettiva lingua

(http://wacky.sslmit.unibo.it/lib/exe/fetch.php?media=papers:wacky_2008.pdf).

Parlando di corpora italiani disponibili, invece, abbiamo esempi dell’italiano scritto (http://corpora.dslo.unibo.it/coris_ita.html, http://linguistica.sns.it/CoLFIS/Home.htm), altri che si basano su testi giornalistici

(http://dev.sslmit.unibo.it/corpora/corpus.php?path=&name=Repubblica), e altri ancora che si basano sull’italiano parlato (http://www.parlaritaliano.it/index.php/it/dati/40-api-archivio-del- parlato-italiano, http://www.parlaritaliano.it/index.php/it/corpora-di-parlato/673-corpus-avip- api).

È dunque evidente che, paragonati ai corpora più tradizionali che solitamente si focalizzano su un unico settore (medico-scientifico, giornalistico, dello scritto o del parlato), il tratto distintivo dei corpora ConText di cui mi sono servita è il grande vantaggio di inglobare tutte queste dimensioni e di considerare contemporaneamente e in modo accurato e preciso ogni ambito, sia della lingua parlata, che di quella scritta, sia del linguaggio più formale e sostenuto che di quello quotidiano, informale e “da blog”, tenendo conto di chat, forum, conversazioni informali, ma anche di conferenze, spot pubblicitari, libri e pubblicazioni. Inoltre, ConText contiene corpora di oltre 30 lingue diverse, il che gli conferisce sicuramente un buon livello di attendibilità e rappresentatività.

L’insieme di tutti questi aspetti mi ha spinto ad affidarmi a questo portale, considerando che questa fosse la scelta migliore ai fini della mia ricerca, che vuole soffermarsi non soltanto sul linguaggio sostenuto, formale e professionale, ma anche sull’impatto sociale e culturale che ogni entità ha all’interno della società, per ognuno dei due popoli, e quindi, anche sul linguaggio meno controllato, più spontaneo e non per forza formale ed estremamente curato.

Infine, nonostante, come abbiamo visto insieme, i corpora Wacky godano di fama indiscussa e svolgano altresì un lavoro di ricerca encomiabile, ho comunque optato per il portale

ceco ConText poiché sono presenti meno duplicati di documenti e la manutenzione e l’aggiornamento sono più costanti e frequenti.

Vladimír Benko ha pubblicato nel 2014 Aranea: Yet Another Family of

(Comparable) Web Corpora, in cui illustra le caratteristiche proprie dei corpora Aranea, sottolineando che questi offrono, oltre a tutte le funzioni di ricerca e visualizzazione tradizionali di concordanze e liste di parole (Wordlist), anche funzioni con query basate su formazioni di parole, lemmi o analisi grammaticali. Gli utenti che dispongono di un account sul sito avranno accesso alle versioni dei corpora di Aranea con grammatiche compatibili e alle funzionalità complete del sistema. Le varie versioni dei corpora sono disponibili e possono essere scaricate a fini didattici e di ricerca. Il progetto Aranea ha mostrato che, usando le fonti e gli strumenti accessibili online, si possono creare corpora da miliardi di token.

Sulla base dei feedback degli utenti, inoltre, i gestori del portale si prefissano l’obiettivo di procedere ad una migliore copertura dei dati (filtraggio, deduplicazione,

lemmatizzazione e tagging morfologica) di corpora esistenti e, ove possibile, di adottare altri tipi di annotazione. In secondo luogo essi hanno intenzione di ampliare le lingue a

disposizione all’interno del corpus e, infine, di mettere a confronto corpora Aranea con altri corpora disponibili online per paragonare le diverse lingue sulla base di varie metodologie, al fine di stabilire il grado della loro reciproca comparabilità.