Capitolo 2 La raccolta degli stimoli e l’impostazione dei due esperimenti psicolinguistic
2.5 Pro e contro del crowdsourcing
Il termine crowdsourcing è stato utilizzato per la prima volta da Jeff Howe nel 2006 in un articolo scritto per la rivista Wired. Il termine (formato crowd “folla” e outsourcing “esternalizzazione di una attività) indica la collaborazione fra un ente o un’azienda e una comunità: l’ente o l’azienda condividono il proprio progetto con una comunità attraverso le risorse che Internet mette a disposizione.
Oggi come oggi il crowdsourcing viene utilizzato ampiamente per svolgere anche task linguistici, perché è uno strumento economico e permette di avere un vasto numero di partecipanti. Diversi studi hanno mostrato come il crowdsourcing possa essere una valida alternativa agli esperimenti realizzati in laboratorio. Ad esempio Sprouse (2011), ha utilizzato Amazon Mechanical Turk (AMT) per indagare le rappresentazioni sintattiche raccogliendo giudizi di accettabilità. AMT è un online marketplace dove coloro che condividono un task sono chiamatati Requesters, i task sono definiti Human Intelligence Tasks e i contributori sono indicati come Turkers o Workers. Sprouse presenta il suo esperimento sulle rappresentazioni sintattiche prima realizzato in laboratorio e poi attraverso AMT, comparando quindi le due diverse
modalità. In entrambi gli esperimenti hanno partecipato 176 soggetti, i quali dovevano esprimere un giudizio di accettabilità su 24 frasi. E’ stato utilizzato come metodo la Magnitude Estimation of Acceptability: ai soggetti viene chiesto di esprimere un giudizio di accettabilità assegnando un valore a item sperimentali, tenendo conto di un item di riferimento (standard) a cui è assegnato un valore numero (modulo). I partecipanti assegnano un punteggio in base al modulo dell’item standard e possono usare qualsiasi numero positivo.
Nell’esperimento condotto in laboratorio, erano presentati 10 item per pagina e lo standard era all’inizio di ogni pagina. I primi 9 erano item pratici (3 di bassa, 3 di media e 3 di alta accettabilità), senza che i parlanti ne fossero a conoscenza. Invece il task caricato su AMT presentava tutti gli item in un’unica pagina Web e ogni 7 item venivano riproposti lo standard e il modulo.
Una delle differenze principali che è emersa è la durata degli esperimenti: i tempi dell’esperimento condotto in laboratorio sono stati lunghi, ma notevolmente più brevi nel caso del task realizzato con AMT. Osservando i risultati, Sprouse dimostra che AMT è una valida alternativa al laboratorio: in entrambi i casi la percentuale dei soggetti scartati è stata minima ed è stata dimostrata la validità statistica dei risultati. D’altra parte Sprouse riconosce i limiti di AMT e in generale del crowdsourcing. Prima di tutto AMT richiede fondi di ricerca perché è un online marketplace. Poi un limite, non trascurabile, è che non è possibile avere l’assoluta certezza che i partecipanti rispondano ai requisiti richiesti per svolgere il task; le piattaforme di crowdsourcing offrono la possibilità di inserire un questionario prima dell’esperimento che può verificare che i partecipanti abbiano le caratteristiche richieste, ma non è così discriminante. Ciò può portare anche a un aumento della percentuale dei soggetti scartati. Inoltre non è possibile assicurarsi dopo o durante l’esperimento se i soggetti abbiano riscontrato problemi con il task e un altro limite è che non è possibile osservare i tempi di reazione. Un ultimo aspetto negativo è che AMT, a differenza di CrowdFlower, non permette
di randomizzare automaticamente l’ordine di presentazione degli item e quindi i ricercatori devono creare manualmente diverse versioni randomizzate del task.
In un altro progetto, Sprugnoli & Lenci (2014) hanno utilizzato il crowdsourcing per analizzare il riconoscimento di eventi nominali in frasi italiane. I due studiosi si sono serviti di CrowdFlower per la realizzazione del task, che è stato poi caricato su AMT. Per assicurare la qualità dei dati raccolti hanno sfruttato un’importante opzione che offre CrowdFlower; questa piattaforma ha un sistema di controllo della qualità basato su gold units, che permettono di registrare la risposta corretta per ogni item. In questo modo è più facile decidere quali soggetti possano essere eventualmente scartati.
Essendo questo tipo di task complesso per la presenza di ambiguità semantiche, è stato dimostrato che l’uso del crowdsourcing non è sempre ottimale per task linguistici complessi. Ma l’uso di soggetti non esperti ha permesso di capire quali siano le classi polisemiche più ambigue.
Nell’esperimento erano presentate frasi italiane, in cui era evidenziato un nome; i soggetti dovevano affermare se il nome evidenziato denotasse un evento o no. In alcune frasi sono stati inseriti indizi sintagmatici per determinare l’interpretazione eventiva del nome, ad esempio avverbi o preposizioni di tempo. Inoltre sono state inserite frasi in cui la lettura eventiva del nome poteva essere inferita solo dal contesto.
I soggetti dovevano giudicare 5 frasi; il task è stato realizzato in 16 giorni e hanno partecipato 9 soggetti, ma solo 4 hanno passato il minimo livello di affidabilità richiesto da CrowdFlower.
E’ risultato che le alternanze EVENT/ABSTRACT OBJECT e EVENT/FOOD hanno registrato un’accuratezza 58% quindi sono risultate essere le classi polisemiche più difficile da capire, invece EVENT/HUMAN GROUP ha registrato un’accuratezza del 92%. Inoltre è stato dimostrato che gli indizi sintagmatici sono stati decisamente utili nel riconoscimento del significato eventivo del nome. E’ stato poi
applicato il chi-square test per verificare se la differenza nei valori di accuratezza fosse significativa e infatti è risultata essere valida statisticamente.
Per capire se il basso grado di accuratezza fosse dovuto all’inesperienza dei contributori, il task è stato eseguito anche da due annotatori esperti italiani con esperienza nel campo dell’annotazione semantica. L’accuratezza è risultata essere del 93%, mentre nel caso della classe EVENT/ABSTRACT OBJECT era del 75%, risultando essere la più complessa da capire anche per i due annotatori esperti.
L’esperimento ha analizzato la possibilità di indentificare nomi polisemici che mostrano un’alternanza fra senso eventivo e senso non eventivo con il crowdsourcing. E’ stato dimostrato che l’accuratezza ottenuta con il crowdsourcing (74%) non è comparabile con quella ottenuta dal task eseguito dai due annotatori esperti (93%). Questo sottolinea che il task non era intuitivo e che l’uso del crowdsourcing dipende anche dalla complessità del task utilizzato.
Sprugnoli et al. (2013) hanno testato due metodi che usano il crowdsourcing per la trascrizione del linguaggio parlato. Il primo è il metodo Dual Pathway: le trascrizioni di un audio sono controllate e rifinite iterativamente da due gruppi di contributori diversi. La trascrizione dell’audio è ritenuta corretta quando le trascrizioni dei due gruppi convergono. Il secondo è il metodo Gold Standard: si basa sul sistema di controllo della qualità di CrowdFlower; sono incluse trascrizioni di un esperto come gold units che permettono di distinguere fra contributori che hanno eseguito il task correttamente e contributori che non l’hanno eseguito correttamente. In questo metodo i contributori dovevano ascoltare l’audio e poi giudicare se la trascrizione era corretta o no. Metà delle trascrizioni erano corrette e metà erano scorrette. Inoltre è stato chiesto ai contributori di trascrivere diversi audio in un processo parallelo non iterativo. Le trascrizioni sono state raccolte per due lingue: italiano e tedesco.
Una volta raccolti dati è stato controllato il word error rate (WER) ed è risultato che il metodo Gold Standard ha prodotto la migliore qualità di trascrizione con un basso WER: 3,8% per il tedesco e 2,99% per l’italiano. Invece le trascrizioni ottenute con il metodo Dual Pathway presentavano un WER < 5% per il tedesco e < 3,5% per l’italiano. Per le trascrizioni convergenti il WER era < 2.0%.
La differenza fra questi due metodi riguarda il controllo della qualità dei dati e il processo alla base di queste due strategie.
Questa ricerca ha dimostrato come il crowdsourcing possa essere una valida alternativa nella trascrizione del linguaggio parlato: le trascrizioni realizzate con i metodi crowdsourcing producono un WER più basse rispetto alle trascrizioni automatiche.
Infine il crowdsourcing è ampiamente utilizzato per svolgere task linguistici: oltre ai campi di lavori descritti sopra, è usato anche in task di annotazione (Callison-Burch & Drezde, 2010, Hsueh et al., 2009), per raffinare tecniche di normalizzazione (Denkowski & Lavie, 2010) e per raccogliere giudizi di accettabilità. Sebbene in alcuni casi sia stato dimostrato che il crowdsourcing è una valida alternativa, questo è un metodo che ha anche dei limiti soprattutto nel controllo della qualità dei dati. Non dà la certezza assoluta che i soggetti possiedano le caratteristiche richieste per il task, non permette di registrare i tempi di reazione e di controllare dopo o durante l’esperimento se i soggetti abbiano avuto problemi.
D’altra parte CrowdFlower può risolvere alcuni di questi limiti; possiede il sistema di controllo della qualità basato sulle gold units e questa opzione è utile per decidere quali soggetti scartare, inoltre permette di caricare il task su una piattaforma interna e di condividerlo con un gruppo selezionato di soggetti (in questo modo è possibile assicurarsi che i partecipanti rispondano ai requisiti rischiesti dal tak). Un’alternativa utile è quella di convocare personalmente i soggetti; sicuramente in questo modo non si sfrutta uno dei vantaggi più gradi del crowdsourcing, ovvero la rapidità dei tempi di realizzazione del task, ma
è possibile avere un controllo diretto maggiore sui partecipanti, osservare altre variabili (ad esempio il tempo che ogni soggetto impiega a svolgere il task) e risolvere eventuali dubbi e problemi dei partecipanti sulle modalità dell’esperimento.
Bibliografia
Abel, B. (2003). English idioms in the first language and second language lexicon: A dual representation approach. Second Language Research, 19 (4), pp. 329-358.
Arnon, I., & Snider, N. (2010). More than words: Frequency effects for multi- word phrases. Journal of Memory and Language, 62, pp. 67-82.
Arnon, I., & U. Cohen Priva. (2013). More than words: The effect of multi- word frequency and constituency on phonetic duration. Special issue: Parsimony and Redudancy in Usage-Based Models of Linguistic Knowledge. Language and Speech, 56 (3), pp. 257-264.
Bobrow, S., & Bell, S. (1973). On catching on to idiomatic expressions. Memory & Cognition, 1, pp. 343-346.
Bratankova, L. Le collocazioni verbo+nome in apprendenti di italiano L2. Tesi di dottorato. Università per Stranieri di Perugia.
Cacciari, C. (2011). Psicologia del linguaggio. 2 ed. Bologna, Il Mulino.
Cacciari, C., & Tabossi, P. (1988). The comprehension of idioms. Journal of Memory and Language, 27, pp. 668-683.
Callison-Burch, C. & Drezde, M. (2010). Creating speech and language data with amazon’s mechanical turk. Procedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon’s Mechanical Turk, pp. 1-12. Association for Computational Linguistics.
Cieslicka, A. (2006). Literal salience in on-line processing of idiomatic expressions by second language learners. Second Language Research, 22 (2), pp. 115-144.
Conklin, K., & Schmitt, N. (2008). Formulaic Sequences: Are they processed more quickly the nonformulaic language by native and nonnative speakers? Applied Linguistics, 29 (1), pp. 72-89.
Cowie, A.P. (1998). Phraseology: Theory, analysis, and applications. Oxford, Oxford University Press.
Denkowsi, M., & Lavie, A. (2010). Exploring normalization techniques for human judgments of machine translation adequacy collected using Amazon Mechanical Turk. Procedings of the NAACL HTL 2010 Workshop on Creating Speech and Language Data With Amazon’s Mechanical Turk, pp. 57-61. Association for Computational Linguistics. Diessel, H. (2007). Frequency effects in language acquisition, language use,
and diacronic change. New Ideas in Psychology, pp. 108-127.
Durrant, P., & Doherty, A. (2010). Are high-frequency collocations psychologically real? Investigating the thesis of collocational priming. Corpus Linguistics and Linguistic Theory, 6 (2), pp. 125-155.
Durrant, P., & Schmitt, N. (2009). To what extent do native and non-native writers make use of collocations? International Review of Applied Linguistics, 47 (2), pp. 157-177.
Ellis, N. C. (1996). Sequencing in SLA: Phonological Memory, Chunking, and points of order. Studies in Second Language Acquisition, 18, pp. 91-126.
Ellis, N. C. (2002). Frequency effects in language processing: A review with implications for theories of implicit and explicit language acquisition. Studies in Second Language Acquisition, 24, pp. 143-188.
Ellis, N. C. (2012). Formulaic language and second language acquisition: Zipf and the Phrasal Teddy Bear. Annual Review of Applied Linguistics, 32, pp. 17-44.
Ellis, N. C., Simpson-Vlach, R., & Maynard C. (2008). Formulaic language in native and second language speakers: Psycholinguistics, Corpus Linguistics, and TESOL. TESOL QUARTERLY, 42, pp. 375-396.
Ellis, R. (1994). The study of Second Language Acquisition. Oxford, Oxford University Press.
Evert, S. (2009). Corpora and collocations, in Lüdeling, A., Kytö, M. (eds.), Corpus Linguistics: An International Handbook, Volume 2, Berlin, New York, de Gruyter, pp. 1212-1248.
Field, A. (2009). Discovering statistics using SPSS: (and sex and drugs and rock ‘n’roll). 3 ed. SAGE Publications Ltd.
Firth, J.R. (1957). A synopsis of liguistic theory, 1930-55. Studies in Linguistic Analysis. Philological Society, Oxford, pp. 1-32.
Gibbs, R. W., Nayak, N.P., & Cutting, C. (1989). How to kick the bucket and not decompose: Analyzability and idiom processing. Journal of Memory and Language, 28, pp. 576-593.
Granger, S. (2002). A Bird’s-eye view of learner corpus research. Granger, S., Hung, J., Petch-Tyson, S. (eds.), Computer learner corpora, second language acquisition and foreign language teaching, Amsterdam, John Benjamins, pp. 3-33.
Granger, S. (2004). Computer Learner Corpus Research: current status and future prospects. Connor, Ulla/Upton, Thomas (eds.) Applied Corpus Linguistics: a multidimensional Perspective, Amsterdam - Atlanta, Rodopi, 123-145.
Granger, S. (2008). Learner corpora. Lüdeling, A., Kytö M. (eds.), Corpus Linguistics. An International Handbook Vol.1, Berlin - New York, Walter de Gruyter, pp. 259-275.
Gries, S. Th. (2013). Statistics for Linguistics with R: A Practical Introduction. 2 ed. Berlin & New York, De Gruyter Mouton.
Hsueh, P., Melville, P. & Sindhwani, V. (2009). Data quality from Crowdsourcing: A study of Annotation Selection Criteria. Procedings of the NAACL HTL 2009 Workshop on Creating Speech and Language Data Amazon’s Mechanical Turk, pp. 27-35. Association for Computational Linguistics.
Jegerski, J., & VanPatten, B. (2014). Research Methods: In Second Language Psycholinguistics. New York & London. Routledge.
Ježek, E. (2005). Lessico. Classi di parole, strutture, combinazioni. Bologna, Il Mulino.
Lenci, A., Montemagni, S., & Pirrelli V. (2005). Testo e computer. Elementi di linguistica computazionale. Roma, Carocci.
Masini, F. (2009). Combinazioni di parole e parole sintagmatiche. Lombardi Vallauri, E., Mereu, L. (eds.), Spazi linguistici. Studi in onore di Raffaele Simone. Roma, Bulzoni, pp. 191-209.
McNamara, T.P. (2005). Semantic Priming: Perspectives from memory and word recognition. New York and Hove, Psychology Press.
Nunberg, G., Sag, I., & Wasow, T. (1994). Idioms. Language, 70, pp. 491– 534.
Roberts, L., & Siyanova-Chanturia, A. (2013). Using eye-tracking to investigate topics in L2 acquisition and L2 processing. Studies in Second Language Acquisition, 35, pp. 213-235.
Simone, R. (2006). Classi di costruzioni. Grandi, Nicola & Gabriele Iannàccaro (a cura di), Zhì. Scritti in onore di Emanuele Banfi in occasione del suo 60° compleanno. Cesena/Roma, Caissa Italia, pp. 383-409.
Simone, R. (2007). Constructions and categories in Verbal and Signed Languages. Pizzuto, Elena, Paola Pietrandrea & Raffaele Simone (a cura di), Verbal and Signed Languages. Comparing Structures, Constructs and methodologies. Berlino/New York, Mouton De Gruyter, pp. 198-252. Sinclair, J. (1991). Corpus, Concordance, Collocation. Oxford, Oxford
University Press.
Siyanova-Chanturia, A. (2015). Collocation in beginner learner writing: A longitudinal Study. System, 53, pp. 148-160.
Siyanova-Chanturia, A. (2015). On the “holistic” nature of formulaic language. Corpus Linguistics and Linguistics Theory, pp. 1-18.
Siyanova-Chanturia, A., & Martinez, R. (2014). The Idiom Principle revisited. Applied Linguistics, pp. 1-22.
Siyanova-Chanturia, A., & Schmitt, N. (2008). L2 Learner Production and Processing of Collocation: A multy-study perspective. The Canadian Modern Language Review, 64 (3), pp. 429-458.
Siyanova-Chanturia, A., & Spina, S. (2015). Investigation of native speaker and second language intuition of collocation frequency. Language Learning, 65 (3), pp. 533-562.
Siyanova-Chanturia, A., Conklin, K., & Schmitt N. (2011). Adding more fuel to the fire: An eye-tracking study of idiom-processing by native and non-native speakers. Second Language Research, pp. 1-22.
Siyanova-Chanturia, A., Conklin, K, & Van Heuven, W. (2011). Seeing a phrase “time and again” matters: The role of phrasal frequency in the processing of multi-word sequences. Journal of Experimental Psychology: Language, Memory, and Cognition, 37, pp. 776-784.
Sprenger, S., Levelt, W. J. M., & Kempen, G. (2006). Lexical access during the production of idiomatic phrases. Journal of Memory and Language, 54, pp. 161–184.
Sprugnoli, R. & Lenci, A. (2014). Crowdsourcing for the identification of event nominals: an experiment. Ninth International Conference on Language Resources and Evaluation (LREC’14), pp. 1949-1955.
Sprugnoli, R., Moretti, G., Fuoli, M., Giuliani, D. Bentivogli, L., Pianta, E., Gretter, R. & Brugnara, F. (2013). Comparing two methods for crowdsourcing speech transcription. Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pp. 8116- 8120. IEEE.
Sprouse, J. (2011). A validation of Amazon Mechanical Turk for the collection of acceptability judgments in linguistic theory. Behave Res, 43, pp. 155- 167.
Swinney, D. A., & Cutler, A. (1979). The access and processing of idiomatic expressions. Journal of Verbal Learning and Verbal Behavior, 18, pp. 522–534.
Tabossi, P., Fanari R., & Wolf K. (2009). Why are idioms recognized fast? Memory & Cognition, 37 (4), pp. 529-540.
Tabossi, P., Arduino L., & Fanari, R. (2011). Descriptive norms for 245 Italian idiomatic expressions. Behave Res, 43, pp. 110-123.
Titone, D. A., & Connine, C. M. (1999). On the compositional and noncompositional nature of idiomatic expressions. Journal of Pragmatics, 31, pp. 1655-1674.
Tomasello, M., (2000). First steps toward a usage-based theory of language acquisition. Cognitive Linguistics, 11, pp. 61-82.
Underwood, G., Schmitt N., & Galpin, A. (2004). The eyes have it: An eye- movement study into processing of formulaic sequences. N. Schmitt (ed.): Formulaic sequences. John Benjamins, pp. 153-172.
Vanlancker-Sidtis, D. (2003). Auditory recognition of idioms by native and nonnative speakers of English: It takes one to know one. Applied Psycholinguistics, 24, pp. 45-57.
Wray, A. (2002). Formulaic language and the lexicon. Cambridge University Press.