• Non ci sono risultati.

Linguistica dei corpora

N/A
N/A
Protected

Academic year: 2021

Condividi "Linguistica dei corpora"

Copied!
15
0
0

Testo completo

(1)

22 July 2021

AperTO - Archivio Istituzionale Open Access dell'Università di Torino

Original Citation:

Linguistica dei corpora

Publisher:

Terms of use:

Open Access

(Article begins on next page)

Anyone can freely access the full text of works made available as "Open Access". Works made available under a

Creative Commons license can be used according to the terms and conditions of said license. Use of all other works

requires consent of the right holder (author or publisher) if not exempted from copyright protection by the applicable law.

Availability:

Bulzoni

This is the author's manuscript

(2)

SLI58**

(3)

)

PUBBLICAZIONI DELLA

SOCIET A Dr LTNGUISTICA IT ALIANA 58**

SLI

SOCIETA Dr LTNGUISTICA IT ALIANA

LA LINGUISTICA ITAL

I

ANA

A

L

L

'

ALBA DEL TERZO MILLENNIO

(

1997-2010

)

a c

ur

a

di

GABRIELE~ACCARO

Torn

o

sec

o

n

d

o

(4)

©2013 by Bulzoni Editore S.r.l. 00185 Roma, via dei Libumi, 14

http://www.bulzoni.it e-mail: bulzoni@bulzoni.it

\

/

TUTII I DIRlTTI RISERVATI

E

vietata latraduzione, lamemorizzazione elettronica, la riproduzione totale 0parziale, con qualsiasi mezzo, compresa lafotocopia, anche ad uso intemo 0didattico. L'illecito sara penalmente perseguibile anorma dell'art. 171

della Legge n. 633 del 22/04/1941 ISBN 978-88-7870-908-9

INDICE

9

Torno primo Presentazione, di GABRIELEIANNAcCARO

PARTEPRIMA

STORIA E SITUAZIONE ATTUALEDELLE LINGUE IN ITALIA 17 PAOLOD'ACHILLE, Storia della lingua italiana

51 TuLLIO TELMON, Dialettologia italiana 91 MASSIMO CERRUTI, Varieta dell'italiano

129 FEDERICO ALBANO LEONI,11parlato

149 ANNA GIACALONE RAMAT, MARINA CHINI, CECILIA ANDORNO, Italiano corneL2

207 SILVANA FERRERI, Educazione linguistica: Ll 243 PAOLAPOLSELLI, Educazione linguistica: L2

303 SILVIADAL NEGRO, ANTONIETTA MARRA, Minoranze territoriali e polit i-che linguistiche

ALESSANDRO VIETTI, Minoranze non territoriali 341

369 CHIARA BRANCHINI, CARLO CECCHETTO, ISABELLA CHIARI, La lingua dei segni italiana

Torno secondo

PARTESECONDA

LIVELLI DIANALISI E MOMENTIDIRICERCA 407

445

GIOVANNA MAROTTA, Fonologia,fonetica e prosodia CLAUDIO IACOBINI, DAVIDERICCA, Morfologia

(5)

485

521

557

581

)

599

635

675

691

727

795

831

861

885

917

941

PAOLA BENINCA, DIEGO PESCARlNI, Sintassi MARIo SQUARTINI, Semantica

CARLA MARELLO, Lessico

MANuEL BARBERA, Linguistica dei corpora ANGELA FERRARI, Linguistica del testa

FEDERICA VENIER, Retorica eteoria dell'argomentazione CATERINA MAURI, ANDREA SANSQ, Tipologialinguistica PIERLUIGI CUZZOLIN, Linguistica storica

MARI D'AGOSTINO, GIUSEPPE PATERNOSTRO, VINCENZO PINELLO, Soc

io-linguistica

EMILIA CALARESU, Pragmatica linguistica PIERA MARGUTTI, Analisi della conversazione MARIA TERESA GUASTI, Psicolinguistica

RITA FRANCESCHINI, GERDA VlDESOTT, Neurolinguistica

ALESSANDRO LENCI, Linguistica computazionale e formalizzazione del linguaggio

LUCIA DI PACE, CRISTINA VALLlNI, Storia del pensiero linguistico

P

ARTESECONDA

(6)

/

MANUEL BARBERA

(Universita di Torino)

Linguistica dei corpora1

1.lNTRODUZIONE

La novita pili cospicua di questa decennio

e

resa palese dall'esistenza medesima di questa capitolo: I'avvenuto sdoganamento della linguistica dei corpora (od all'inglese

Corpus Linguistics) dalla pili generale linguistica computazionale edallesue molteplici anime, chespaziano dal trattamento automatico delle lingue naturali (TAL0NLP, N

a-tural Language Processing) all'intelligenza artificiale (IA), qui difatti oggetto di un dif-ferente capitolo. La maturazione di questa disciplina, posta ad un crocevia tra Iete cno-logie di TAL e Ie pratiche filologiche, lessicografiche e di storia della lingua (cfr. Bar-bera,2011: 27), gia ben nota e da tempo strutturata in ambito linguistico anglofono, an-che nella tradizione linguistica italiana

e

avvenuta non senza differenze teoriche signi

-ficative (come si illustrera nel § 2.1),radicate nelle diverse tradizioni. Se le applicazioni sono orrnai svariate e vanno dal pili tradizionale campo della lessicografia (cfr. qui il contributo di Carla Marello) a quelli della linguistica contrastiva 0apprendologica, dalla morfologia, alla semantica ed alla linguistica testuale (un buon campionario

e

offerto dalla silloge di Barbera, Corino, Onesti, 2007), va pero detto che i corpora dipubblico

accesso non sono poi moltissimi (forse anche perle ragioni legali affrontate nel § 2.4). Nella presente rassegna privilegeremo, da un lato, le riflessioni teoriche e st orio-grafiche sulla disciplina tutta (intendendosi che le applicazioni di tale disciplina a specifici

domini linguistici dovrebbero comunque risultare coperte da altre sezioni di questa volume), e dall'altro i corpora di lingua italiana effettivamente prodotti. Non ci pref ig-giamo certo la completezza (comunque impossibile in questi spazi),ma piuttosto l' esem

-plarita, limitandoci a delineare i filoni e leopereche ci paionostoriograficamentecentrali.

I limiti (naturalmente applicati con la dovuta elasticita) saranno dettati dalla effettiva pertinenza dei prodotti ad una definizione stretta di corpus (che sara introdotta e discussa

nel § 2.2) e dalla loro reale e libera messa a disposizione pubblica(stantela centralitadella

questione legale discussa nel § 2.4), ad esclusione, quindi, di quanta sia eclusivamente

proprietario 0 commerciale. Questa scelta implica necessariamente anche il ridimesionamento della sezione suisoftware, dovel' opensource e ladistribuzione libera

costituiscono ancora una percentualeminoritaria,anchese non insignificante:cfr. §4.

Porsi una limitazione alla produzione italiana

e

quasi inutile, dato checorpora i

ta-liani non commerciali prodotti all'estero praticamente non vene sono, e quindi la cosa

(7)

582 MANUEL BARBERA

va praticamente da se:oltre al materiale italiano mantenuto all'IMS Stu.tt?~rt edalle spe -rimentazioni con TactWEB di corpora giornalistici diElisabeth Burr,inizialrnentepub -bliche ma ormaida annicornrnercializzate (cfr.Burr, 2004 epertanto comunque fuori da questa rassegna) vanno ricordate forse solo la componente italiana di CHILDES (cfr.§ 3.4) ed il corpus di italiano ticinese diPandolfi, 2006 (cfr.§3.5). ..

Un'ultirna avvertenza, che va anche a confermare quanta sopraSldiceva a propo -sitodelradicamento nella tradizione grarnrnaticografica italiana edeliaintrinseca mat u-razione delia disciplina, concerne iltrattamento dei numerosi anglicisrni tecnici che vi sono invalsi, che sono stati ripetutamente oggetto distudio enormalizzazione, primada Carla Marello e da chi scrive (Barbera, Marello, 2000) in un importante convegno dell' Accadernia delia crusca, e poi da parte del sottoscritto (Barbera, 2007; Barbera, 2009, pp. 7-13, § 1.4); ed

e

alia proposta globale diBarbera, 2009, cit.con ~tte le con -seguenze pratiche che implica (<<Tondo(invariabile) 0 corsivo(con plurale I~ -.s)? Pr e-stito non adattato (macomunque accettato, fosse anchefaute de rnieux) 0 fastidioso ter -mine straniero se non dapuristicamente evitare almeno da porre nella quarantena del corsivo?», Barbera,Marello, 2009,n.3),che ci atteniamo nel presente contributo.

2.TEORIA E STORlOGRAFIA

2.1. Procedirnenlo "corpus based" edempirismo all'italiana

La linguistica deicorpora anglosassone (anzi, corpus linguistics) si

e

disolitovo -luta presentare comeuna radicale novita,accentuando gliaspetti.quantitativi sui qualit a-tivi, econtrapponendosi, avolte inmodo esasperato, algenerattvismo c~meroccafort~ empiristica, perlopiu inmodo assai generico (cfr.ilc1assico edernblematico manuale di McEnery, Wilson, 2001, § 1)e pili raramente inmodo meditato ~ filo~ofi~amente con~ sapevole (Sampson, 2001); cosi I'enfasi

e

vertita sui ~co~o esclu.s~v~aid~tt presenti ner corpora, spesso ipostatizzati come soli oggetti linguistici possibili (II cosiddetto pr oce-dimento corpus driven: cfr. Sinclair, 1991) in palese ostilita all'introspezione (cfr. m -vece Renzi, 2008) propugnata dal paradigma generativo. In Barbera, 1909 e 2011 (ed ora2012, instampa), si

e

invecetracciata una storiadi sostanziale continuita con latra -dizione delia linguistica filologica otto-novecentesca, riconnettendosi al filone, meno integralista, cosiddetto corpus based, teoricamente defi~to .(ma noninven~~to) apartire daun fondamentale contributo diFillmore, 1992:daifattidiparole raccolti m uncorpus si puo risalire ai loro correlati stati di langue (contro i generativisti piu ortodossi, Chomky lui meme compreso: cfr.daultimo:wdor, 2004), anches~ ce~amen~enon tutti gli elementi di unalangue saranno contenuti in ';In corpus (c.ontro.Ipm accesianttgene. -rativistisostenitori deliapratica corpus driven). El'uso (testimoniato dai corpora), anzi, che fonda lalangue, anche seicorpora essendo per definizione finiti (cfr. infra, §2.2) ne rappresenteranno solo un sottoinsieme, significa~ivo qu~nto pili ilcorpus sara stato costruito in modo accorto (gioco nel quale nonpuo non nentrare la famosa mtrospe -zione): cia, natural mente, all'insegna delia rnig.li~retradizi?ne wittge~s~eini~na (cfr. Barbera, Marello, 2009).

n

dialogo con i generativisti meno mtransigenti eCOSI aperto,

LINGUISTICA DEICORPORA 583

come dimostrano i rapporti traIe dueimprese delCorpus Taurinense (Barbera, 2009) e

di ltalAnt (Renzi, Salvi, 2010) e I'importante mossa di apertura diRenzi, 2008. Questa minore conflittualita ed apertura al dialogo (in cui probabilmente Renzi e chi scrive hanno avuto una discreta parte)

e

precipua caratteristica della situazione italiana e

sa-rebbe impensabile nelle aree anglofone. '

Ma non solo. Francesco Sabatini haripetutamente argomentato (a partire da Saba -tini, 2006) che ilprocedimento corpus based, l'idea chela norma siricavi dall'uso sta alla base della storia linguistica italiana stessa, visto cheilDizionario della Crusca 'che di quella tradizione rappresenta un momenta fondante,

e

proprio stato costruito su testi",

Ed

e

proprio la ritrovatadimensione testuale (perlopiu persa nellacorpus linguistics

di lingua inglese' a favoredeliapuramentelessicografica, 0al pili variazionale) che

e

uno deifenomeni nuoviepiu vistosidelia linguisticadeicorpora italianadegliultirnianni,da Barbera, Conno, Onesti, 2007a Ferrari, Lala,2010, certo complicelapiena fruizione dei contesti,resapossibiledallasoluzionedei problerni legalidicopyright (cfr.infra, §2.4).

Una riflessione sull'ambito, pili tradizionale per la linguistica dei corpora della statistica

e

invece stata utilmente portata avanti, in ingleseed in sede internazionale, da uno dei protagonisti principali della scenaitaliana, Marco Baroni (Baroni, Evert,2009).

2.2.La definizione specialistica di "corpus"

. .Abbiamopili :o~te fa~o riferimento ad unadefmizione tecnica e stretta dell'oggetto pnncipe delialinguisticadel corpora, che

e

un meditato risultato dell'ampia rassegna del 2007:

Raccolta di testi (scritti, orali 0 multimediali) 0 parti di essi in numero finito in formato elettronico trattati inmodo uniforrne (ossia tokenizzati ed addizionati di markup adeguato) cosi da essere gestibili ed interrogabili informaticamente; se (come spesso) le finalitasono linguistiche (descrizione dilingue naturali0loro va-rieta), itesti sono perlopiu scelti in modo da essere autentici e rappresentativi. (Barbera, Corino, Onesti,2007 a,p.70)

2E lapaternita delIa modema prattica va ascritta proprio ad un italiano, il padre Roberto Busa S.1.,con la suapionieristica opera su Tommaso d'Aquino, come gia argomentava Marello 1996,pp. 167-8. Edanzi, seilsuo primoSaggio eranientemeno chedel 1951,irisultatifinalidi pili dimezzo secolodialacre lavoro, cioeil fondamentale Index Thomisticus (http:// www.corpu-sthornisticum.org/it/), sono stati pubblicati e messi liberamente a disposizione online nel 2005 rientrando quindi (anche se non veramente di corpus nei sensi del § 2.2 si tratta) nei limit; cronologici diquestarassegna.

3AIle importanti aperture di Douglas Biber su"generi testuali" e variazione testuale (cfr.

al-meno Biber, Finegan 1991e Biber 1992)non ha infattifatto seguitounarobusta tradizione se non spostandosi suIversante strettamentre variazionale: irisultati "testuali" pili rilevanti (efr. ad es. Ramsay, 2003) riguardano piuttosto la linguistica computazionale che non quella dei corpora in sensoproprioqui tematizzata.

(8)

4 Visono taluni che hanno invecepreferito usarelacoppia terminologica"occorrenzavs forma" rinunciandoai benefici dell'intemazionalismoe dellamultidisciplinarita,rnasoprattutto rischiandodicreare quell'illusionecheitype siano solola rnera c1assedei lorotoken contro cui

584 MANUEL BARBERA

Cuiaggiungerei la seguentepostilla:

Linguisticamente, inoltre, uncorpus

e

una raccolta diattidi parole, edaifatti di

parole raccolti in uncorpus si puo risalire ai lorocorrelati stati di langue, anche se certamente non tutti glielementi di una langue saranno contenuti in un corpus:

e

l'uso testimoniato dai corpora, anzi, che fonda la langue, anche se i corpora es-sendo per defmizione fmiti ne rappresenteranno solo un sottoinsieme. (adatt. da Barbera 2012,

a

paraitre, e cfr.supra).

Una defmizione tale, come evidenziato nella rassegna medesima, non si ritrova in generenellaletteratura internazionale, ed

e

unulteriore segno del rigore della tradizione italiana.

2.3.Le caratteristiche "tecniche": token,markup,tagging

La definizione citata fa esplicito riferimento ad a\cuni concetti irriducibili quanto spesso trascurati nella trattatistica: tokene type, la cui definizione risalenientemeno che aPeirce (peirce, 1933[1906],p.537):

Acommon mode ofestimating theamount ofmatter ina MS. or printed bookisto count thenumber of words.There will ordinarily beabout twenty the's on a page,

andof course they count astwenty words. In another sense of theword "word",

however, there isbutone word "the" in theEnglish language; and it is impossible that this word should lie visibly onapage or be heard in anyvoice, forthe reason that it is not a Single thing or Singleevent. It does not exist; it only determines things that do exist.Suchadefinitely significant Form,I propose totermaType.A Single event which happens once and whose identity is limited to that one hap

-pening ora Single object or thing which is in some single place atanyone instant of time, such event or thing being significant only as occurring just when and where itdoes,such asthisor thatword onasingleline ofasingle page of a single copy ofabook, Iwillventure to calla Token. An indefmite significant character such as atone ofvoice can neither becalled a Type nor a Token. I propose to call

such aSignaTone. Inorder thataType may beused, it hastobe embodied ina Token which shallbe a signof theType, and thereby of theobject the Type signi-fies. I proposetocallsuchaToken of aType an Instance of the Type.

II mantenimento ditaledistinzione, terminologica4e concettuale, come essenziale

caratteristica di un corpus consente diancorare la disciplina non solo alla statistica in

LlNGUlSTlCA DEICORPORA 585

rale (dovelapercentuale ditoken e type

e

uno dei ca\Colidibase) ma anche alla

~~~iore tradiz.ione.s~miotic~,logica e.fi.losofica, all'insegna diquellasintesi dielementi O1ate01aticielingUiStICIche e carattenstica precipua delia linguistica dei corpora (nona

caso si

e

spessoparlatodi"informatica umanistica" come suo iperonimo).

La noz~one di markup, ~hesegna il difficile confine tra testo emetadata, e quindi l'orgamzzazlOnedelcorpus, e altro concetto essenziale, non a caso centrale anche nella

codificazione delia .internazionale Text Encoding Initiative (cfr. Ie TEl Guidelines, giunteormaiallaqumta versione:Burnard, Bauman, 2007), dove

e

stata elaborata daun illuminato logicoestorico della filosofia italiano, Dino Buzzetti (cfr.Buzzetti, 1999).

Distinto da mar~~ va con~lderato anche il tagging, che pure di esso

e

propria -mente~na form~,cioeI associazione adogmtoken dispecifici attributi informativi; il c,aso'plUnpico e quello d,ellaannotazione morfosintattica 0PoS-Tagging, su cui, per I italiano ed III Italia, SIe molto lavorato. Gia nel decennio precedente si era avuto I'importante precedente di~onach.ini: 1996 atracciare Ielinee della questione, che

e

stata, vaname~te ed III modi diversi, npresa edelaborata da chiscrive (Barbera 2007a

eb) e da Mano Barom (Baroni, Zanchetta 2005), appoggiandosi al medesimo soft

-ware (il TreeTagger sviluppato dall'IMS Stuttgart: http://www.ims.uni-stutt

-gart.de/~r~Jekte/corpleX/TreeTaggerlDecisionTreeTagger.html) oltre che da Fabio Tambunm (Tambunm, 2007), con strumentazione propria. Itre progetti muovono in diverse direzioni: Barbera ha curato piuttosto I'architetura logica delle strutture tipate (cfr. Carpenter, 1992) e laprospettiva linguistica storico-teorica (Barbera, 2009) lad

-dove Iitag~~t dl,Barom (http://sslmit.unibo.itl~baroni/collocazionilitwac.tagset.txt)

e

onentato PI~all efficacia computazionale che alia granularita linguistica equello di ~ambunm e ncavato III modo computazionalmente assai interessante dai dati mede-sirm(Bernardi et alii,2006).

2.4.1/ "problema" legale

Puosembrare stranoche aspetti legalioccupino unaposizione di rilievo inquesta

r~ssegna,ma~ottrarreIcorpora dal limbo giuridico (software 0opere a stampa?) in cui S1trova~ano eeqUlval~oa sdoganarli dall'incubo del copyright, riallineando la

lingui-=

d~1 corpora al plUvasto movimento dell'open source, cosi facilitando la circola-ZIOnedi nsultati erisorse. II problema (defmito inAllora, Barbera, 2007 e Zanni, 2007)

era,peraltro, assar sentito anche dalla comunita internazionale (cfr. le discussioni, nei pnrru anni del Duemila anche moltoaccesee sconfortate, apparse sullamailing list Cor

-avevacosiefficacernenternes~oinguardiaQuine,1987,pp.216-9:leclassi,infatti,devono essere ~ggettlcornpletamente~strattl,rne~trele :'c1assiditoken"non10sarebberoabbastanzaperitype, ontutteIeaponeche1usoimprono dell msiemevuoto notoriamentecomporta.Inoltre«It is se l-~om appreciatedthatoccurence isathird thing:not token,butsomethingbetween.The wordder astwooccurrencesin thesentenceEs1Stder Geistdersich den Korper baut;andI speak now of

types,not tokens.Tokens occurrm tokens,typesin types» (Quine,1987,p. 218; e cfr.soprail con -cettopeirceianodllnstance ofthe Type).

(9)

586 MANUEL BARBERA

pora: http://www.hit.uib.no/corporal). mane mancava una appropriata soluzione giuri

-dicache

e

stata datasolo in Ciurcina, Ricolfi, 2007, che presenta anche dei pratici mo

-delli contrattuali. Basata su Creative Commons (http://creativecommons.org/ 0 in

ver-sione localizzata http://www.creativecommons.itl). eprecisamente sulle licenze Share Alike (0 Condividi allo stesso modo), si tratta di una soluzione italiana ma facilmente

esportabile anche all' estero in quanta fondatasu schemi intemazionali.

Non

e

un caso chetanto il corpus PAIsA.(cfr. infra §3.2) diretto daMarco Baroni

quanta tutti i corpora diretti da Manuel Barbera (cfr. infra §3.3) siano legati, sia pure

variamente, a Creative Commons. Che

e

una riprova di come la presenza di corpora di

completa disponibilita pubblica nelpanorama italiano sia strettamente connessa aduna

soluzione del problema legale: la democratizzazione della linguistica dei corpora deve

necessariamente passare attraverso una rinuncia della logica proprietaria, spesso

acca-demica, che attraverso un'interpretazione tradizionale della legge sui diritti d'autore

portasolo a secretare i risultati della ricerca.

L'altra ricaduta

e

stata la consistente appropriazione della linguistica dei corpora

da parte di quella testuale (come si diceva supra al fondo di§2.1), fenomeno che per

ora

e

solo italiano, propagato soprattutto dai gruppi di ricerca di Torino e di Basilea

(svizzeri ma italofoni ed italianisti). La illimitata e piena fruibilita dei contesti (fino ai testi interi)

e

stata senz'altro un elemento determinante in cia:la difettosa acquisizione

dei diritti ha in passato (ed a volte anche nel presente come nel caso del CORIS, cfr.

infra, §3.1) portato a cautelative (ma legalmente spesso ingiustificate) restrizioni dei

contesti ottenibili in pubblico (quando non a complete secretazioni dei dati).

3. LAPRATICA

3.1 Tipologie edisseminazione

I corpora di italiano prodotti nell 'ultimo decennio coprono ormai tutte Ie principali varieta diamesiche ed alcune delle diacroniche della lingua: si va,per un como, dallo scritto, al parlato ed allepiu diverse forme dei media (italiano degli SMS, dei blog, di Usenet, trasmesso, ecc.), eper I'altro, dalla lingua contemporanea all'italiano del

Due-cento. Non tutti i corpora pero sono facilmente e gratuitamente accessibili. IIche

giusti-fica che la presente rassegna (che dell'accessibilita ha fatto un requisito deterrninante

per I'inclusione) sia in larga misura per centri di produzione (fondamentalmente due,

quelloimpemiato suMarco Baroni, §3.2, e quello su Manuel Barbera, §3.3;cui si ag-giungeranno, raccolti in un terzo paragrafo, i residui, §3.4) piuttosto che per tipologia di corpora. Questo per i corpora, siapure in differenti declinazioni, di lingua scritta; per quelli di lingua orale ildiscorso

e

in parte diverso e pili sfrangiato e richiedera un ulte-riore paragrafo (§3.5) a sestante.

Un ulteriore discorso aparte va inoltre fatto per il bolognese CORIS (CORpus di Italiano Serino: http://corpora.dslo.unibo.itITCORISI),cuigia abbiamo accennato, e per

Ie altre analoghe iniziative del gruppo bolognese, come il BoLC (Bononia Legal

Cor-pus: http://corpora.dslo.unibo.itlbolc_eng.htrnl). II CORIS

e

spesso citato come il pili

LINGUISTlCA DEICORPORA 587

importante strumento di riferimento per 10 scritto italiano contemporaneo, ilche non

e

propriamente vero:pur essendo eccellentemente costruito",il minimo che si possa dire,

infatti,

e

che

e

scarsamente fruibile, datoche il suoaccesso online, oraliberalizzato ma

fino a poco tempo fa subordinato ad una complessa e scoraggiante anche se gratuita

procedura di registrazione,

e

limitate a 300 risultati e restituisce indici KWICK (cfr.

Manning, Schutze, 1999,§1.4.5, pp. 31-34) con soli 30 caratteri di contesto per parte;e

10stesso vale anche per il BoLC. Maperfortunacisonoanchealtrerisorse.

3.2.Da ForliaTrento:l'officina diMarco Baroni

Marco Baroni (http://clic.cimec.unitn.it/marcolresearch.htrnl) ed il suo gruppo di

ricercaancoraaForli aveva prodotto ereso liberamente consultabile onlineilcorpus La

Repubblica, costruito a partire da 16 annate dell'omonimo quotidiano. Indicizzato

accu-ratamente col CWB (cfr.infra,§ 4),di cui la maschera di interrogazione ben conserva la

duttilita,con i suoi 326.363.463 token (dati daBaroni etalii, 2009)

e

gia di dimensioni

assai notevoli: piu di 3 volte del BNC, British National Corpus, che, con i suoi

96.868.603, gia costituiva un vero traguardo intemazionale.

II progetto WaCky (Web-as-Corpus Kool Ynitiative: http://wacky.sslmit.uni

-bo.it/doku.php; cfr. Baroni, Bernardini, 2006 e Baroni et alii, 2009) e mirato alla

costruzione di ancora pili grandi corpora (di italiano, inglese e tedesco) a partire dal

Web, seguendo una tendenza particolarmente attuale nella linguistica dei corpora

(almeno a partire da Kilgarriff, Grefenstette, 2003), ma evitando la problematica

infrazione alla regola della fmitezza del corpus (cfr. Barbera, Corino, Onesti, 2007, pp.

44-45, § 1.5). Un gigantesco (1.585.620.279 token!) corpus italiano cosi allestito,

itWaC,

e

(sia pure con qualche problema di copyright) gia liberamente ottenibile, anche

se non ne

e

ancora pronta un'interfaccia web(eIe risorse server necessarie a gestire una

simile mole di dati certo vi avranno parte).

Anche PAISA.(Piattaforma per I'Apprendimento dell'Italiano Su corpora A

nno-tati: http://www.corpusitaliano.it/itl).

e

costituito da testi tratti dal web (raccolti nel set

-tembre/ottobre del 2010; per i criteri cfr. Borghetti, Castagnoli, Brunello, 2011), ma

questa volta completamente cautelandosi dal punto di vistalegale,in quanta sono accolti

solo testi licenziati sotto Creative Commons Share Alike: libero pertanto da diritti di

sorta, conformemente a quanta teorizzato in Ciurcina, Ricolfi, 2997 (cfr. qui §2.2s

u-pra), il corpus e tanto scaricabile quanta agevolmente consultabile online.Di ampia ma

non "esagerata" dimensione come itWac (si tratta pur sempre di circa 250 milioni di

token) e completamente annotato, trascende ampiamente Ie finalita glottodidattiche per

cuienato.

Tecnicamente e pur sempre un prodotto delia eccellente mana di Fabio Tamburini

(http://dslo.unibo.itiPeoplefTamburinil), uno dei migliori linguisti computazionali presenti attual

(10)

588 MANUEL BARBERA

3.3. Torino: I'officina di bmanuel.org

Capitanato, invece, da Manuel Barbera (http://www.bmanuel.orglpersonal/barbe -ralbarbera.html), centrato su bmanuel.org (http://www.bmanuel.org/), appoggiato all'ormai fu Dottorato in ingegneria linguistica ed alsito didistribuzione dell'Universita di Torino (http://www.corpora.unito.it). e forte dell'originaria iniziativa di Carla Marello,

e

questa il gruppo che in Italia ha sperimentato col CWB (efr. infra,§ 4)da pili

lunga data (almeno dal 1998), producendo e mettendo in libera distribuzione (requisito che abbiamo sempre posto come determinante: tutte Ie risorse sottoelencate sono

consultabili online usando la regolare sintassi di interrogazione del CWB, cfr. infra§ 4)

un certo numero dirisorse, emuovendosi su diverse tipologie di corpora.

II CT (Corpus Taurinense: http://www.bmanuel.orgiprojects/ct-HOME.html)

e

un

corpus storico (la categoria

e

spesso, meno accuratamente, riferita come "corpora dia

-cronici") di italiano antico", ormai giunto alia sua seconda ampliata release (CT+ 0neo

-CT: disponibile alia medesima homepage). Di modeste dimensioni (attualmente 270.872

token nel CT+) ma accuratamente e riccamente annotato oltre che ampiamente docu

-mentato (CT: Barbera, 2008; CT+: Barbera, 2012), rappresenta la punta di diamante

delia sperimentazione di Manuel Barbera che, con la collaborazione determinante di

Marco Tomatis (http://www.bmanuel.orgipersonaVtomatis/tomatis.html), nonche di

molti altri,

e

il responsabile del progetto.

I NUNC (Newsgroups UseNet Corpora: http://www.bmanuel.orglprojects/ng

-HOME.html) sono una innovativa suite di corpora multilingui (ma I'italiano vi ha avuto

sviluppo privilegiato: cfr. Barbera, Marello, 2011) basati sui testi delle gerarchie naz

io-nali di Usenet (cfr. Barbera, 2011), dal 2003 ad oggi; ilprogetto, di cui sono gia stati

pubblicati cospicui risultati,

e

tutt'ora incorso.

L'Athenaeum Corpus (http://www.bmanuel.orgiprojects/at-HOME.htrnI)

e

un pic

-colo corpus di prosa accademica prodotta nell'Universita di Torino.

Attualmente in corso vi sono ancora Jus Jurium (http://www.bmanuel.orglpro

-jects/ju-HOME.htrnI), un corpus che vorrebbe documentare il discorso giuridico

esistente in Italia in tutti i suoi generi, con speciale attenzione agli aspetti testuali e

diplomatici (cfr. Onesti 2011), ed il Corpus Segusinum (http://www.bmanuel.orgl

pro-jects/vs-HOME.html), di cui

e

gia disponibile una beta online, che

e

ilprimo di una suite

di corpora tesi ad esplorare Ietestate delia stampa regionale (efr. Barbera, Onesti, 2010). In corso, ma gia interrogabili, segnalo anche gli SMS Monitor Studies (http://www.e-allora.netiSMS/ms_index.php). un corpus di SMS al momento di soli

1.394 messaggi, ma in crescita, mantenuto da Adriano Allora (http://www.e-allora.netl). Un discorso a parte va fatto per il corpus di italiano L2ILS VALICO (Varieta di

Apprendimento della Lingua Italiana Corpus Online)eper ilsuo corpus di controllo Ll

VINCA tVarieta diItaliano di Nativi Corpus Appaiato) recentemente migrati su un do

-minio indipendente (httpv/www.valico.org/) ed ora ad esc1usiva cura di Carla Marello

6Nelsenso, affatto renziano,di fiorentino delsecondoDuecento.

LlNGUISTICA DEICORPORA 589

ed Elisa Corino (efr. Corino, Marello, 2009). Di interesse apprendologico e didattico esc1usivo ma spiccato, presentano una grande cura ed abbondanza soprattutto nel tratta

-menta dei metadata sociolinguistici (cfr. Allora, Colombo, Marello, 2011).

3.4.Altri centrietipologie

Se Ie fila principali delia linguistica dei corpora italiana, almeno nella sua acce

-zione "free", si dipanano tra questi centri, non mancano altre voci, spesso devolute a tipologie speciali.

Un centro di eccellenza molto importante ma di solito legato a logiche proprietarie

e

I'EURAC (EURopean ACademy of bozenlbolzano). Tuttavia, il suo corpus LexAlp,

costruito e gestito col CWB (efr. infra, § 4), che mira ad un «raffronto contrastivo tra i

linguaggi giuridici utilizzati dagli stati dell'arco alpino, con la successiva armonizza

-zione dei termini principali per la comunicazione sovranazionale», secondo recita la

homepage,

e

invece liberamente consultabile online; Ie lingue coperte sono francese,

italiano, tedesco e sloveno.

Oltre ai corpora multilingue, un'altra tipologia speciale e quella dei cosiddetti

"corpora diacronici" (recte"storici"), di cui abbiamo gia parlato a proposito del Corpus

Taurinense (efr. supra, § 3.3), e di cui vantiamo ormai una ricca tradizione, ma pur

-troppo solo per la fase antica delia lingua italiana. Innanzitutto va menzionata la banca

dati dell'OVI (Opera del Vocabolario Italiano; cfr. anche infra, § 4), un grandioso e

fondamentale database testuale di italiano antico (http://tlioweb.ov.i.cnr.it); liberamente consultabile, mantenuto dall'OVI (http://www.vocabolario.orgl) e diretto da Pietro Bel

-trami, propriamente non rientrebbe nella stretta definizione data nel §2.2, ma lasua

im-portanza ed indispensabilita

e

tale da far passar in second'ordine ogni questione

defini-toria. Un'altra risorsa, accessibile ed assai curata,

e

il DanteSearch (http://dan

-te.di.unipi.it:8080IDanteWeb/; cfr. Tavoni, 2011) diretto da Mirko Tavoni a Pisa:

comprende tutte Ie opere di Dante, annotate (Commedia, Convivio e Rime) anche sintatticamente. La principale eccezione alia "medioevalita" pressoche esc1usiva in que-sto tipo di corpora

e,

infme, costituita dall'ottocentesco CEOD (CorpusEpistolare Otto-centescoDigitale: http://ceod.unistrasi.itl), un corpus, coordinato da Massimo Palermo all'Universita di Siena (cfr. Antonelli, Chiummo, Palermo, 2004), che raccoglie (se

-condo gli ultimi dati del sito) 1292 lettere, spesso inedite, di 73 scriventi, diversi per

provenienza ed estrazione sociale. Interessante anche per Ie problematiche filologiche spesso affrontate,

e

completamente accessibile online.

E I'annotazione sintattica ci conduce ad un altra tipologia: il TUT (Turin Univer

-sity Treebank: http.z/www.di.unito.it/e-tutreeb/)

e

un treebank, cioe un corpus sintattica

-mente annotato seguendo uno schema arborescente a dipendenza, costituito" da 2.860

frasi italiane e200 inglesi" in allestimento da anni da parte di un altro gruppo torinese,

7Secondo gliultimidatidelsite (19.04.2012).

8Delle cui fontinon eperaltrodettomolto, anche se se ne puoindurrechele partiitaliane piu cospicue sianotratte dalCodice civile e da generici "giornali".

(11)

590 MANUEL BARBERA

centrato intorno a Leonardo Lesmo e Cristina Bosco, che hanno pubblicato diffusamente

sull'argomento (cfr. ad esempio Lesmo et alii, 2002).

n

TUT

e

dichiaratamente lice

n-ziato secondo Creative Commons Share Alike, ed

e

al momento largamente anche se

non completamente scaricabile.

Un'ulteriore tipologia, di interesse crescente,

e

quella dei corpora traduzionali 0 interpretariaJi. Tra Ie varie iniziative attivate, quella gia disponibile

e

legata alIa SSLMIT di ForIi ed

e

EPIC (European Parliament Interpreting Corpus: http://dev.sslmit.unibo.itl

corpora/corporaproject.php?path=E.P.I.C.), un corpus trilingue (italiano, inglese e

spa-gnolo) ditesti del Parlamento europeo, allineati e POS-taggati; il DIRSI-C (DIRectionality in Simultaneous Interpreting Corpus) di Claudio Bertazzoli (cfr. Bendazzoli, 2010), di analoga provenienza (e quindi appoggiato al medesimo staff forlivese da cuiha spiccato il

volo Marco Baroni) non sembra al momento ancora disponibile.

Un altro settore in notevole espansione, un po' come I'apprendologia tutta,

e

quello

dei corpora di apprendenti (learner corpora): Ie iniziative veramente pubbliche (come

quella del citato VALICO) sono relativamente poche, ma sono la punta dell'iceberg di

una pratica che

e

assai vasta, anche a condizioni minimali. Da ricordare, in questa

ge-nere,

e

senz'altro LAICO (Lessico per Apprendere I'Italiano. Corpus di Occorrenze:

https://sites.google.com/site/corpuslaico/), coordinato a Siena da Andrea Villarini (cfr.

Villarini, 2011); il corpus non

e

al momento interrogabile online, ma 10si puo co

mun-que fare scrivendo direttamente all'autore.

Una piccola eccezione alIa italianita di origine delle risorse, come dicevamo, va

fatta per I'internazionale ed assai importante (pure se parte da interessi pili psicologici

che linguistici) progetto CHILDES (CHIld Language Data Exchange System:

http://childes.psy.cmu.edu/) fondato da Brian MacWhinney per studiare il linguaggio

infantile, cfr. MacWhinney, 2000: tra Iemolte lingue in cui si articolano Ie sue risorse

(che, peraltro, a rigore non rientrerebbero strettamente nella nostra defmizione di

cor-pus) tutte preparate in CLAN (http://childes.psy.cmu.edu/clan/) ed agevolmente scaric

a-bili, vi

e

anche I'italiano (http://childes.psy.cmu.edu/data!Romance/Italian/).

IICiT (Corpus di Italiano Televisivo; cfr. Spina, 2005) di Stefania Spina, infine, fino a non molto tempo fa era consultabile online (http://www.sspina.itlcitl) ma e

at-tualmente scomparso dal Web; il che

e

un peccato, perche, anche sepiccolo, era a

nno-tato fmemente ed in modo accurato. Per fortuna ve ri'e un valido successore, il LIT

(Lessico di Italiano Televisivo: http://deckard.micc.unifi.it:8080IIitsearch/), diretto da Nicoletta Maraschio ed interrogabile online. Raccoglie un campione rappresentativo dell'italiano televisivo del 2006, consistente in 168 ore di parlato tratti dalle reti RAI e Mediaset. IIDia-LIT (http://193.205.158.203/dialitl), infme, vorrebbe estendere la cam

-pionatura del LIT aII'intera storia dell'italiano televisivo, nella sua diacronia dal 1954 ad

oggi. In fase di implementamento, una parte ne e gia disponibile alIa consultazione. 3.5. IIparlato traFirenze eNapoli

L'attenzione al parlato ha una lunga tradizione in Italia, rimontando nel decennio

precedente aII'impresa lessicografica (Iessicografia fondata su corpora nella migliore

LlNGUISTICA DEICORPORA 591

tradizione britannica) di Tullio de Mauro del 1993. II corpus del LIP (Lessico di fre -quenza dell'Italiano Parlato), 0LIP tout court, che ne

e

derivato

e

attualmente consul

-tabile suI sito BADIP di Graz (BAnca Dati dell'Italiano Parlato: http://badip.uni

-graz.atl).

II Corpus CLIPS (Corpora e Lessici dell'Italiano Parlato e Scritto: http://

www.cIips.unina.itlitl). creato a Napoli da Federico Albano Leoni ed interamente

scaricabile previa una semplice registrazione,

e

basato su materiali raccolti (suddivisi tra radiotelevisivi, dialogici, letti, telefonici ed ortofonici) in 15 localita italiane, oltre che "nazionali", tra il1999 ed il2004, presentati investe sia audio sia testuale.

Se ilCLIPS costituisce la pill sicura risorsa liberamente disponibile per I'italiano parlato all'inizio delmillennio, non bisogna dimenticare che anche alLABLITA (LABo -ratorioLinguistico deldipartimento di ITAlianistica: http://lablita.dit.unifi.itl) di Firenze si

e

lavorato lungamente sulparlato molto e bene. Il C-ORAL ROM (http://lablita. dit.unifi.itlcoralrom/intro.htrnl), che di queste ricerche

e

il risultato pill notevole, non

e

tuttavia una risorsa libera (anzi

e

commercializzato a migliaia di euro da ELDA:

http://www.elda.org/catalogue/en/speech/SOI72.htrn); qui la menzioniamo, oltre che per il suo intrinseco valore, perche se non pubblica

e

almeno "pubblicata" in quanta anche tradizionalmente edita (Cresti, Moneglia, 2005, con DVD).

Un'ultima eccezione delle eccezioni (si tratta di prodotto svizzero e "pubblicato" su CD-ROM in veste editoriale consueta) va fatta, giusta il suo intrinseco interesse, per ilcorpus di italiano parlato ticinese di Pandolfi, 2007. .

4.lLsOITWARE

Tra i software per la complessiva gestione e creazione di corpora scritti la posi

-zione dominante

e

tenuta dal tedesco e (da a1cunianni) open source CWB (Corpus Work Bench: http://cwb.sourceforge.netl), inizialrnente sviluppato daII'IMS Stuttgart (http://www.ims.uni-stuttgart.de): la sua eccezionale duttilita e potenza ne fanno uno strumento difficilmente sostituibile. La produzione italiana di strumenti pill specifici 0

localizzati

e

tuttavia abbondante ed in genere di ottima qualita, ma prevalentemente commerciale 0 proprietaria: anzi, ilsoftware proprietario vanta una tradizione eccellente che va da Eugenio Picchi, autore del famoso DBT (http://www.i1c.cnr.itlpisystem/; pro -priamente un gestore di banche dati testuali, cfr. la defmizione di corpus, supra) a Fabio Tamburini, autore del CORlSTagger (cfr. Tamburini, 2007 e Bernardi et alii,2006).

Con una eccezione importante, ifree softwares pill notevoli sono tutti legati ai gruppi di lavoro che gia avevamo evidenziato.

AI gruppo torinese di b.manueI.org sono da ricondurre, per citare solo i risultati principali, lasuite distrumenti (prevalentemente AWK) approntati da Marco Tomatis e e Manuel Barbera per il Corpus Taurinense (http://www.bmanueI.org/tool s/C-Ttools/CTtools.htrnl), l'analizzatore morfologico SMORFIA (Stuttgart MORphology Finite states Italian Analyzer: http://www.bmanueI.org/tools/SMorFWSMorFIA.htrnl) ed il gestore di cIitici ClitRec, entrambi di Marco Tomatis (http://www.bmanueI.

(12)

592 MANUEL BARBERA

9La situazione pero, starapidamente cambiando: gia all'inizio dell'estate 2013 euscito un

manuale "tree": Barbera, 2013.

10

n

titolopiurecente in bibliografia e del2000, eduna dozzinad'anni in questosettoreren -dona "fossile" qualsiasi cosa.

TExtual Researches: http://www.corpora.unito.itlcgi-binllingue/enter/enter index.

pl?corpus=V ALICO), diAdriano AlIora.

n

gruppo diMarco Baroni, poi,

e

una vera fucina di applicazioni libere: sono almeno da ricordare il lessico di forme flesse Morph-it (http://dev.ssIrnit.unibo.itlIin

-guistics/morph-it.php; cfr, Baroni, Zanchetta, 2005), validamente utilizzabile come ausilio per iltagging (cfr. supra,§ 2.3) dei corpora, e gli strumenti prodotti nel progetto WaCky

(cfr, supra, §3.2), tra cui vamenzionato soprattutto il BootCat (BOOTstrap Corpora And

Terms from the web: http://bootcat.sslmit.unibo.itl; cfr. Baroni, Bernardini, 2004) per dragare corpora dal Web.

A questi va doverosamente aggiunto il sistema GATIO di Domenico Iorio-Fili

(http://www.ovi.cnr.itlindex.php?page=scaricare_gatto), che

e

alIa base delIa banca dati

testuale di italiano antico deIl'OVI (cfr. supra, §3.4).

5.LA MANUALISTICA

E

certo questa il campo in cui la tradizione italiana

e

pili scarsa, non avendo ancora sviluppato trattazioni localizzate del IivelIo e delIa qualita, ad esempio, di Lemnitzer,

Zinsmeister, 2006 per il tedesco".

Una volta scartata, come fuori dai limiti di questa rassegna, la manuaIistica pubbli-cata in Italia da italiani ma in lingua inglese (ad es. DamascelIi, MartelIi, 2002, che si limitano peraltro ariprodurre gli schemi britannici divulgati da McEnery, Wilson, 2001; o Facchinetti, 2007, pili originale) 0 comunque di orizzonti inglesi (ad es. Calabrese, 2004: inglese come lingua straniera; Marroni, VerzelIa, 200S: inglese per odontoiatri; ecc.), i saggi dedicati ad argomenti relati ma altrimenti specifici (ad es. Rovere, 2005:

linguistica giuridica), 0 lamaggior parte delIa dozzina di volumi miscellanei (come ad

es. MonegIia, Panunzi, 2019; macfr, infra), non resta che Spina, 2002, senz'altro il m

a-nuale italiano pili diffuso anche perche praticamente I'unico, di buon livello divulgativo

ma ampiamente sorpassato 10, tanto pili che ilvolume gia

e

un rifacimento di una prec

e-dente versione del 1997. Tra I'altro non da ancora molto conto delIa specifica decIina

-zione italiana delIa disciplina, anche se gia non era privo di spunti in questa direzione, come ad esempio I'attenzione "storica" agIi albori delIa nostra disciplina, elamenzione

deIl'importanza fondante del padre Busa, di solito taciuta nei manuali britannici. Di veri man~ali pili recenti ci sono solo, entrambi assai utili ma per noi un poco fuori obiettivo, Lenci et alii, 2005, che

e

aIIargato alIa linguistica computazionale in genere, e quindi ricevera la giusta attenzione in altra sezione di questa volume, e Bendazzoli 2010, che

e

invece ristretto ai corpora di interpretazione ed ai Corpus-based interpreting studies in

genere. A parte

c

i

a

,

per supplire all'assente manualistica, si possono consigliare solo

LlNGUISTICA DEICORPORA 593

alcune raccolte di saggi di ampio respiro come Barbera, Corino, Onesti, 2007 e Hediard,

2007,0 al piu Andomo, RastelIi, 2009, che pero

e

limitate al solo cote apprendologico.

Scarso

e

anche ilpanorama delle guide web aIle risorse online, di cui praticamente vi sono solo da segnalare la pagina di Isabella Chiari (http://www.alphabit.netiCorsii

IUlinks/CorporaList.htm), invero non sempre aggiomata, e quella anche piu stringata delpavese LARL (Laboratorio di Analisi di Risorse Linguistiche: http://192.167.7?.4!1

Mambo/index.php?option=com _ weblinks&Itemid=23), entrambe comunque mentone

anche se assai scame. Di ben altra dimensione e copertura era la CLR Guide

(http://www.bmanueI.org/cIr/index.htrnl) ch~ ho m~tenuto dal 2~00 fmo al.2004, ~a che onnai ha solo val ore di documento stonco, ed in quanta tale e stata lasciata onlme anche se isuoi links sono gia quasi tutti inutilizzabili.

Un ultimo cenno va fatto alIa recente voce di encicIopedia, necessariamente molto stringata, maefficace, di Baroni, 2010.

6.R1FERIMENTI BIBLIOGRAFICI

Allora Adriano, Barbera Manuel, II problema legale dei corpora. Prime approssimazioni, in

Barbera, Corino, Onesti (a cura di),2007a, pp. 109-1IS.

Allora Adriano, Colombo Simona, Marello Carla, Icorpora VALlCO e VINCA: stranieri e

italiani alleprese con le stesse attivita scritte, in Maraschio Nicoletta, De Martino Do

-menico, Stanchina Giulia (a cura di), L'italiano degli altri. Atti (Firenze, 27-31 magglO 2010), Firenze, Accademia delia Crusca, 2011, "LaPiazza delle Iingue" 2,pp.49-6 I.

Andor J6zsef, The Master and his Performance: An Interview with Noam Chomsky, in «In -tercultural Pragmatics», a.I, n. I, 2004, pp.93-111.

Andomo Cecilia, Rastelli Stefano (a cura di), Corpora di Italiano L2: Tecnologie, metodi,

spunti teorici, Perugia, Guerra Edizioni, 2009.

Antonelli Giuseppe, Chiummo Carla, Palermo Massimo (a cura di), La cultura epistolare nefl'Ottocento. Sondaggi sulle lettere del CEOD, Roma, Bulzoni, 2004.

Barbera Manuel, Linguistica dei corpora italiana. Un'introduzione, Milano, Qu.A.S.A.R., 2013; scaricabili in PDF dahttp://www.manuel.org/man/e-HOME.htm.

Barbera Manuel, Per una soluzione teorica e storica dei rapporti tra grammatica generativa elinguistica dei corpora, comunicazione proposta alle 7e Giornate svizzere dellalinf5U.i: stica. L'empiria inlinguistica: varieta e complessita degli approcci. Lugano, Universita

delia Svizzera italiana, 13-14settembre 2012.

Barbera Manuel, Il neo-Corpus Taurinense el'arte delia query, comunicazione alS~minario.:

Sintassi dell'italiano antico esintassi di Dante. Pisa 14-15 ottobre 2011, ora illTavom

Mirco, Sintassidell'italiano antico e sintassi diDante, Pisa,Felici Editore, 2012, pp. 61-79. Barbera Manuel, Une introduction auNUNC: histoire de lacreation d'un corpus, inFerrari,

Lala, 20 11,pp.9-36.

Barbera Manuel, Intorno a "Schema e storia del Corpus Taurinense", comunicazione al III

Incontro difilologia digitale, Verona, 3-5 marzo 2010, poi in Cotticelli Kurras Pa?l~ (a cura di), Linguistica e filologia digitale: aspetti e progetti, Alessandria, Edizioni

(13)

-594 MANuELBARBERA

Barbera Manuel, "Partes Orationis ", "Parts of Speech", "Tagset" edintorni. Un prospetto storico-linguistico, in Borghi Guido, Rizza Alfredo (a cura di), Anato/istica Indoeuropei

-stica eO/tre - nelle Memorie dei Seminari offerti da Onofrio Carruba (Anni 1997-2002), al Medesimo presentate, Milano, Qu.A.S.A.R., 2011 "Antiqui Aevi grammaticae artis studiorurn consensus. Series maior" I, tomo I,pp. 113-145.

Barbera Manuel, Schema e storia del "Corpus Taurinense". Linguistica dei corpora

dell'italiano antico, A1essandria, Dell'Orso, 2009.

Manuel Barbera, La resa deiforestierismi in italiano. Breve nota ortografica, in Barbera,

Corino, Onesti (a cura di),2007 a,pp.xv-xvj.

Barbera Manuel, Un tagset per if Corpus Taurinense. Ita/iano antico elinguistica dei co r-pora, inBarbera, Corino, Onesti (acura di), 2007a, pp. 135-168.

Barbera Manuel, Mapping dei tagset in bmanuel.org / corpora.unito.it.Tra guidelines e pro -/egomeni, inBarbera, Corino, Onesti (a cura di),2007a, pp. 373-388.

Barbera Manuel, Corino Elisa, Onesti Cristina (acura di), Corpora e linguistica inrete, Pe

-rugia, Guerra Edizioni, 2007 "L'officina delia lingua. Strumenti" I.

Barbera Manuel, Corino Elisa, Onesti Cristina, Cosa

e

un corpus? Per una definizione piu

rigorosa di corpus,token,markup, in Barbera, Corino, Onesti (acuradi), 2007a,pp.25-88. Barbera Manuel, Marello Carla,Tra scritto-parlato, Umgangssprache ecomunicazione inrete:i

corporaNUNC, in«StudidiGrammatica Italiana», a.

xxvn,

2008 (recte2011) =Antonini Anna, Stefanelli Stefania (a cura di), Per Giovanni Nencioni. Convegno Internazionale di StudioPisa-Firenze, 4-5 Maggio 2009, Firenze, Le Lettere, 20/1, pp. 157-185.

Barbera Manuel, Onesti Cristina, Dalla Valsusa in avanti: icorpora di stampa periodica locale, in «Rivista Internazionale di Tecnica delia Traduzione

I

International Journal of Translation», a. XII, 20I0, Special issue Traduzioni nella stampa periodica, a cura di

Ondelli Stefano, pp. 103-116.

Baroni Marco, Corpora di lingua italiana, in Simone Raffaele (a cura di), Enciclopedia dell'italiano, Roma, Istituto dell'Enciclopedia italiana (fondata da Giovanni Treccani),

vol. I,2010, "Vocabolario Treccani", sub vocem (pp.300b-303a).

Baroni Marco, Bernardini Silvia (a cura di), WaCky! Working Papers onthe WebasCorpus,

Bologna, GEDIT edizioni, 2006, disponibile online alia pagina http:// wackybook.ssl

-rnit.unibo.it/

Baroni Marco, Bernardini Silvia, Ferraresi Adriano, Zanchetta Eros, The WaCky Wide Web: A Collection of VeryLarge Linguistically Processed Web-crawled Corpora, in«Journal of Language Resources and Evaluation», a. XLill, n. 3,2009, pp. 209-226.

Baroni Marco, Bernardini Silvia, Comastri Federica, Piccioni Lorenzo, Volpi A1essandra,

Aston Guy, Mazzoleni Marco, Introducing the La Repubblica Corpus: A Large, An no-tated, TEI(XML)-Compliant Corpus ofNewspaper Italian, inProceedings of theIVth I n-ternational Conference on Language Resources and Evaluation (LREC 2004), Lisbon,

ELDA, 2004, pp. 1771-1774, online alia pagina http://www.form.unitn.it/-baronil pu-blications/lrec2004/rep Jrec _ 2004.pdf

Baroni Marco, Evert Stefan, Statistical Methods for Corpus Exploitation, in Liideiing Anke, Kyto Merja (a cura di), Corpus Linguistics, AnInternational Handbook Volume 2 Be

r-lin,Mouton de Gruyter, 2009, pp. 777-802. "

~

..

~.

LINGUISTICA DEICORPORA 595

Baroni Marco, Zanchetta Eros, Morph-it! A free corpus-based morphological resource for the Italian language, in Proceedings of Corpus Linguistics 2005, Birmingham, Univer

-sity of Birmingham, 2005; online alia pagina http://home.sslmlt.umbo.lt/eros/down

-loads/Morph-it.pdf

Bendazzoli Claudio, Corpora einterpretazione simultanea, Bologna, Asterisco, 2010. Bernardi Raffaelia, Bolognesi Andrea, Seidenari Corrado, Tamburini Fabio, POS Tagset

Design for Italian, in Proceedings of the 5th International Conference onLanguage Re

-sources and Evaluation-LREC 2006, Genova, 2006, pp. 1396-1401.

Biber Douglas, Using Computer-based Text Corpora to Analize theReferential Strategies of

Spoken and Written Texts, inSvartvik (a cura di), 1992,pp.213-252.

Biber Douglas, Finegan Edward, OntheExploitation of Computerized Corp~ra in ~ariation Studies, inAijmer Karin, A1tenberg Bengt (acura di), English Corpus Linguistics. Stud -ies in Honor of Jan Svartvik, London-New York, Longman, 1991, pp. 204-220.

Borghetti Claudia, Castagnoii Sara, Brun,ello Marco, Itesti del web:. una pro posta di class

ifi-cazione sulla base del corpus PAISA, in Cerruti Massimo, Conno Elisa, Onesti Cristina

(a cura di), Formale e informale. La variazione diregistro nella comunicazione elet

tro-nica,Roma, Carocci Editore, 2011, "Biblioteca di testi estudI"683, pp. 147-170.

Bumard Lou, Bauman Syd (a cura di), TEl P5:Guidelines for Electronic T~t Encoding and Interchange, Charlottesville (Virginia), Text Encoding Initiative.Consortium, 2011; onlme aliapagina http://www.tei-,c.org/release/dodtei-p5-doc/enlhtml/TitlePage Verso.htrnl. . Burr Elisabeth, Das Korpus romanischer Zeitungssprachen in Forschung und Lehre, m

Dahmen Wolfgang, Holtus Giinter, Kramer Johannes, Metzeltin Michael, Schwel.ckard

Wolfgang, Winkelmann Otto (acura di), Romanistik und neue Medien. Romanistisches Kolloquim XVI, Tiibingen, Giinther Narr, 2004 "TEL" 4555, pp. 133-62.

Buzzetti Dino, Rappresentazione digitale e modello del testo, in

n

ruolo ~el modello .nella scienza enel sapere. Roma, 27-28 ottobre 1998, Roma, Accadernia Nazionale del Lincei,

1999 "Contributi delCentro Linceo Interdisciplinare 'Beniarnino Segre'" 100,pp. 127-161.

Calabrese Rita, La linguistica dei corpora el'inglese come lingua straniera, Napoli, Massa,

2004.

Carpenter Bob, The Logic of Typed Feature Structures. With Application to Unification

Grammars, Logic Programs, and Constraint Resolution, Carnbndge (UK), Cambndge

University Press, 1992"Cambridge Tracts inTheoretical Computer Science" 32. Ciurcina Marco Ricolfi Marco Le Creative Commons Public Licences per icorpora. Una

suite di modelli per la lin;;Uistica dei corpora, in Barbera, Corino, Onesti (a cura di),

2007a, pp. 127-132.

Corino Elisa, Marello Carla (a cura di), VALICo. Studi di linguistica edidattica, Perugia,

Guerra, 2009.

Cresti Emanuela, Monegiia Massimo (a cura di), C-ORAL-ROM Integrated Reference Cor -pora for Spoken Romance Languages, Amsterdam-Philadelphia, John Benjamins Pub

-lishing Company, 2005, "Studies inCorpus Linguistics" 15.

Damascelli Adriana Teresa, Martelli Aurelia, Corpus Linguistics and Computational Lin

(14)

596 MANuEL BARBERA

Facchinetti Roberta, Theoretical Description and Practical Applications of Linguistic Cor

-pora, Verona, QuiEdit, 2007.

Ferrari Angela, Lala Letizia (a cura di), Varietes syntaxiques dans la variete des textes online

en italien: aspects micro- et macrostructuraux, Nancy, Universite de Nancy II, 20II= «Verbum», a. XIII, nn. 1-2,2011.

Fillmore Charles J., "Corpus Linguistics" or "Computer-aided Armchair Linguistics ", in

Svartvik (a cura di), 1992, pp.35-60.

Hediard Marie (a cura di), Linguistica dei Corpora. Strumenti e applicazioni; Cassino, Edi

-zioni dell'Universitit degli studi di Cassino, 2007, "Collana Scientifica" 20.

Kilgarriff Adam, Grefenstette Gregory, Introduction to the Special Issue on the Web as

Cor-pus, in«Computational Linguistics», a. XXIX, n.3, 2003,pp. 333-347, disponibile anche online alla pagina http://www.kilgarriffco.uklpublications.htrn.

Lenci Alessandro, Montemagni Simonetta, Pirrelli Vito, Testo e computer. Elementi di li

n-guistica computazionale, Roma, Carocci, 2005, "Universitit" 664.

Lernnitzer Lothar, Zinsmeister Heike, Korpuslinguistik: eine Einfohrung, Tiibingen, Gunter

Narr Verlag, 2006 ''Narr Studienbiicher".

Lesmo Leonardo, Lombardo Vincenzo, Bosco Cristina, Treebank Development: the TUT

Approach, in Proceedings of the International Conference on Natural Language

Pro-cessing (ICON 2002), Mumbay, India, 2002; online a http://WWW.di.unito.itl-tutreeb/.

MacWhinney Brian, The CHILDES Project: Toolsfor Analyzing Talk. Volume 1:Transcrip

-tion format and programs. Volume 2: The Database, Mahwah (NJ), Lawrence Erlbaum Associates, 2000.

Manning Christopher D., Schutze Hinrich, Foundations of Statistical Natural Language Pro

-cessing, Cambridge (Massachusetts)-London (England), The MIT Press, 20003 [199913.

Marello Carla, Le parole dell'italiano. Lessico e dizionari, Bologna, Zanichelli, 1996.

Marroni Michela, Verzella Massimo, Linguistica dei corpora. Inglese specialistico e odon:

toiatria, Roma, Aracne, 2008, "Studi di anglistica".

McEnery Tony, Wilson Andrew, Corpus Linguistics. An Introduction, Edinburgh, Edinburgh

University Press, 20012 [1996j, 20051 "Edinburgh Textbooks in Empirical Linguistics".

Monachini Monica, ELM-IT: EAGLES Specifications for Italian Morphosyntax-Le.xicon

Specifications and Classification Guidelines, Pisa, EAGLES Document

EAG-CLWG-ELM-ITIF, May 1996.

Moneglia Massimo, Panunzi Alessandro (a cura di), Bootstrapping Information from Cor

-pora in a Cross-Linguistic Perspective, Firenze, Firenze University Press, 2010.

Onesti Cristina, Methodology for Building a Text-Structure Oriented Legal Corpus, in

«Comparative Legilinguistics» a.VIII, 2011, pp.37-50.

Pandolfi Elena Maria, Misurare laresionaiu« Uno studio quantitativo su regionalismi e f

o-restierismi nell'italiano parlato nel Canton Ticino, Locarno, Osservatorio linguistico dellaSvizzera italiana-Arrnando Dado, 2006.

Peirce Charles Sanders, Prolegomena to an Apology for Pragmaticism, 1906, in Hartshorne

Charles, Weiss Paul (acura di), Collected Papers of Charles Sanders Peirce, vol.III Ex

-act Logic (Published Papers) and vol. IV The Simplest Mathematics, Cambridge (Mass.), Harvard University Press, 1933,p.537.

LINGUISTlCA DEICORPORA 597

.. Orman Quiddities: an Intermittently Philosophical Dictionary, Cam

-Quine Willard van , fHarvard University Press, 1987.

bridge (Mass.), the Belknap Press 0 di) The OxcfiordHandbook ofComputa

-. . Mitkov Ruslan (a cura 1,1'

Ramsay A11~n,~Iscourse, md_~ew York, Oxford University Press, 2003, pp. 112-135.

tional Linguistics, Oxfor . d.I s'' in Lingue romanze nel

1. IA I "grammatica e corpu , ..

Renzi Lorenzo, II progetto ta nt e

r

a b 22-23 marzo 2002, Domokos Gyorgyi, SalVI

Medioevo. Atti del ~onvegno'bPllsAncsala'taNeOlatina» a. IV, n.2,2002, pp. 271-94.

. I ( dl)=«Ver urn. aec, .

Giampao 0 a cura . ,/: li .tica in generaIe, equella dell'autore in particolare,

Renzi Lorenzo, L'autobiografia Inf!UIS.I. M . R zis Riccardo (acura di), Che cosa ne

. 'It" in Cini oruca egi

con un sal5.gio~I quest u Im~'Percorsi di dia/~ttologia percezionale all'alba del nuovo

pensa oggl Chiaffredo Roux. . . l (Bardonecchia, 25-27 maggw 2000), A1es

-millennio. Atti del C07vegno Internazw3n;9~339 poi in Renzi Lorenzo, Lepiccole strut

-sandria, EdlZlOOIDell Orso, 2002, pp. ura di Andreose A1vise, Barbien Alvaro, Ce

-ture. Linguistica,. poetica, le:te;~~~;~ e~i~ce il Mulino, 2008, pp.3-16.

praga Dan Octavian, Bologn , di) G mmatica dell'italiano antico, 2 voll.,

Bo-Renzi Lorenzo, Salvi Giampaolo (a cura I, ra

logna, il Mulino, 2010. ... 'di Ricerche sucorpora elettronici,

A1essan-Rovere Giovanni, Capitoli di lingulstlc~ gtun IC~. ."9

' 2005 "Gli strumentt umam .

dria, Edizioni Dell Orso: ',.. 0 nella rospettiva delia corpus linguistics, in

~o-Sabatini Francesco, La storia dell zt~lza~. (p ra di) Atti del XII Congresso Intemazio

-rino Elisa, Marello Carla, Onestt Cnstmaba cU2006I'Proceedings of the XII EURALEX

. ,/: T.. 6-9 settem re . Ed.

nale di Lessicografia, on~o,

r

6th-9th September 2006, 2voll., A1essandria,

1-International Congress. Tonno, Itaia,

zioni Dell'Orso, 2006, pp. 31-37. N Y k Continuum 2001.

.. I L· guistics London- ew or, ,

Sampson Geoffrey, Empirica In , CII ti n Oxford Oxford University

Sinclair John [McHardy], Corpus, Concordance, 0 oca 10 , ,

Press, 1991. I 1. d 'one alia linguistica dei corpora, Perugia,

Spina Stefania, Fare i conti con le paro e. ntro UZI

Guerra Edizioni, 2001. ... .. CiT .struttura eannotazione, in Burr Elisa-.

Spina Stefania, II c:.0rpusdi ~talzano televl~;i~~~.

X

arlato: teoria-corpora-linguistica

=

beth (a cura dl), Tradizione &~~;./(G rhard ;ercator Universitiit Duisburg 28

gtu-corpora. Atti del VI ~onvegnoanco Cesatf Editore, 2005, pp.413-426.

gno-2luglio 2000), Firenze, Fr ... P ceedings OftheNobel Sy

mpo-. . . . Corpus Linguistics. ro 'j ..

Svartvik Jan (a cura di), Directions In B li M ton de Gruyter 1992, "Trends in

Lin-. 82 Stockholm, 4-8August 1991, er in, ou ,

slum.. h"65 .

guistics. Studies and Monograp s ....£ P STagger for Italian, in

«Intelli-Tamburini Fabio, CORlSTagger: a High Ple4')1,05rmance0

·fi . I IV n 2 2007 pp. - .

genza arti cia e», a. ,." I . I ti edi Dante lemmatizzate con

. h: ·1 us delle opere vo gart e a In .

Tavoni Mirko, DanteSearc .1 corp. . C b Anna di Fiore Ciro (a cura di), Lectura

marcatura grammaticale eslnltattllcla'Nm elrlLOI·guori'2011 pp.567-591.

di zoP ace a apo, , ,

Dantis inonore I tncen '.. lib .di testo eparlato del docente,

I . le: un vtaggto tra I rt

Villarini Andrea, Lacompetenza esstca .. L' ... e del lessico nell 'apprendimento

. EI· betta (a cura di) acqutstzion

in Jafracesco isa ,

(15)

598 MANUEL BARBERA

dell'italiano L2. Atti del XIX convegno nazionale ILSA, Firenze, 27novembre 2010, Fi -renze, Le Monnier, 2011, "Italiano per stranieri", pp.53-80.

Zanni Samantha, Corpora elettronici e copyright. Lo stato legale della questione, inBarbera,

Carino, Onesti (a cura di),2007a, pp. 119-126.

,

)

Riferimenti

Documenti correlati

We try to do our part by informing, raising awareness, and, most importantly, encouraging students to get involved in global health and research and overcome major challenges

1 La drammaturgia femminile contemporanea

A nonlinear circuit simulation model for III-V Heterojunction Bipolar Transistors based on a new complete simple but accurate large-signal model is implemented using C code in

Among all judgments derivable with an infinite tree built with the rules as shown above, the only one that is valid according to the corules is out Ω2 ⇒ (∞, [ ]); in this case it

Residual dizziness after successful repositioning treatment in patients with benign paroxysmal positional vertigo. Faralli M, Ricci G, Ibba MC, Crognoletti M, Longari F,

Individuality and age of animals have been found to have significant effects on fundamen- tal frequency (F0), peak frequency (PF) and sound length (SL) of roaring, but

More speci¯cally, as long as an increase in uncertainty leads to an increase in the bene¯t from reopening, and hence in the ¯rm's market value, the overall result implies a weakening