• Non ci sono risultati.

Il sistema di tipi semantici in T-PAS

Nel documento CLUB Working Papers in Linguistics Volume 2 (pagine 121-124)

Classi di nomi tra semantica e ontologia Elisabetta Jezek

3. Il sistema di tipi semantici in T-PAS

L’attuale ontologia in T-PAS contiene 180 tipi semantici, tutti utilizzati almeno una volta nella annotazione. Vi è una notevole variazione nella frequenza d’uso: si va dalle 2613 occorrenze a 1 singola occorrenza. Nella Figura 2 (pagina seguente) sono riportati i 20 tipi semantici con più alta frequenza d’uso nella prima versione della risorsa pubblicata nel 2014 (Jezek et al. 2014). Una osservazione immediata è il carattere antropico della lista, che vede nei primi 4 tipi, HUMAN, HUMAN GROUP, INSTITUTION e ACTIVITY (quest’ultimo inteso come processo intenzionale, espresso per es. dai nomi

lettura, corsa, camminata), riflesso il ruolo centrale dell’essere umano. I tipi maggiormente selezionati dai verbi denotano ciò di cui gli umani parlano spesso e sono quindi rilevanti nella cognizione e nel linguaggio.

All’inizio del lavoro, è stata adottata la lista di tipi presente nella risorsa inglese PDEV (cfr. paragrafo 1). Questo elenco prevedeva 225 tipi e derivava originalmente da una lista gerarchicamente organizzata di circa 80 tipi (cfr. Pustejovsky et al. 2004). L’elenco iniziale era stato esteso sulla base della analisi dei verbi e l’estrazione delle strutture. L’attuale elenco dei 180 tipi semantici è frutto dell’applicazione di tale elenco all’analisi di 1200 verbi dell’italiano per un totale di circa 5000 T-pas.6

Sono presenti tipi semantici con singole occorrenze. Ad esempio allo stato attuale

ALCOHOLIC DRINK è presente esclusivamente nella T-pas#3 del verbo affogare,

corrispondente al senso di ‘alleviare’, in relazione al terzo argomento (ad es. “affogare i problemi nell’alcol”). Inoltre, in tale circostanza è in alternanza con due altri due tipi semantici, FOOD e ACTIVITY.

Semantic Type Frequenza in T-PAS v. 1 1. Human 2613 2. Human Group 452 3. Institution 400 4. Activity 393 5. Anything 345 6. Inanimate 294 7. Concept 282 8. Location 269 9. Eventuality 242 10. Event 232 11. Animate 180 12. Abstract Entity 170 13. Artifact 149 14. Part of Body 141 15. Physical Object 134 16. Document 111 17. Property 109 18. Emotion 85 19. Information 85 20. Rule 83

Figura 2. I 20 tipi semantici con più alta frequenza in T-PAS versione 1

In alcuni casi si è rivelato impossibile effettuare una generalizzazione dagli elementi lessicali nel corpus a un tipo semantico. In questo caso, nella risorsa sono registrate le parole che riempiono con maggiore frequenza tale posizione argomentale. Tale insieme è chiamato set lessicale, e costituisce il set di parole che riempiono una posizione argomentale in un determinato senso di un verbo. È annotato tra parentesi graffe nella risorsa. Ad esempio, nel caso della T-pas#12 del verbo alzare, nella variante alzarsi, nel senso di ‘sorgere nel cielo’, il soggetto è specificato come {sole | luna}.

(3) T-pas#12 alzare: {sole | luna} si alza.

La lista dei tipi identificati attraverso l’analisi illustrata nel paragrafo 2 è organizzata in una gerarchia al fine di identificare il livello di specificità delle proprietà di selezione dei singoli verbi. Ogni nodo della gerarchia rappresenta un tipo semantico usato in una delle T-pas. Non ci sono nodi vuoti. Poiché la selezione dei verbi avviene a diversi livelli di specificità, confrontando gli insiemi lessicali osservati nei corpora per i diversi tipi è possibile indurre la loro relazione gerarchica. Ad esempio, poiché il lemma cane è presente nel set lessicale del tipo ANIMAL, possiamo assumere che il tipo semantico DOG, contenente il lemma cane e richiesto dalla selezione sul soggetto del verbo

abbaiare, sia posizionato sotto ANIMAL. Allo stato attuale le relazioni gerarchiche sono

stabilite a partire da osservazioni di questa natura, e in base all’intuito del lessicografo. La struttura tassonomica si basa principalmente su decisioni che riflettono il giudizio umano sul significato attribuito ai termini usati e confrontando gli insiemi lessicali delle diverse classi.

Nel sistema di tipi in T-PAS vi è allo stato attuale una sola relazione, la relazione “IS_A” o “IS_A_TYPE_OF” (subsumption), come nel caso FLYING VEHICLE è un tipo

di VEHICLE è un tipo di ARTIFACT. Questa relazione genera la tassonomia. La relazione

“IS_A_PART_OF” non è rappresentata. Nella figura che segue è fornito lo “scheletro” della tassonomia rilevante per la presente discussione.

Figura 3. Top-level del sistema di tipi semantici in T-PAS

Come si vede dalla Figura 3, il punto di partenza della gerarchia è il nodo ANYTHING.

Questo nodo ha ENTITY, EVENTUALITY e PROPERTY come nodi children, che

costituiscono il top level; sono dunque distinte le EVENTUALITIES (nella terminologia di

Emmond Bach, includendo dunque anche gli stati) dalle ENTITIES e dalle PROPERTIES

delle entità stesse.

La distinzione principale nel dominio delle ENTITY è tra PHYSICAL OBJECT e ABSTRACT ENTITY. I nodi children di PHYSICAL OBJECT sono INANIMATE, ANIMATE, BODY, PART OF BODY, PLANT e LOCATION. BODY e PART OF BODY costituiscono nodi

children di PHYSICAL OBJECT: si ritiene che la loro natura rispetto all’animatezza sia

ambigua, e che non consentano una classificazione univoca rispetto alla distinzione tra animato e inanimato (si veda tuttavia il paragrafo 5). ARTIFACT forma un ampio e

articolato nodo child di INANIMATE (34 nodi in totale), assieme al nodo sister STUFF (17

nodi). Non sono presenti il tipo NATURAL KIND (in opposizione a ARTIFACT) né il tipo INDIVIDUATED (in opposizione a STUFF); la distinzione prevalente nel dominio ENTITY è

quella tra ANIMATE e INANIMATE: essa trova motivazione nel ruolo che tale distinzione

mostra di avere nel linguaggio, in particolare nel definire le restrizioni semantiche che i verbi impongono ai propri argomenti. Il dominio delle EVENTUALITY ha EVENT e STATE

come sottotipi. Per gli scopi attuali, non discutiamo questo ramo e concentriamo l’attenzione sul ramo delle entità.

Una delle proprietà chiave della tassonomia è che non mostra la stessa granularità per l’intero spazio semantico-concettuale. Al contrario, risulta asimmetrica e irregolare; emergono i tipi semantici che codificano attività in cui partecipano esseri umani rispetto a tipi semantici che codificano concetti scientifici. Nella classificazione

del mondo animale, ad esempio, sono presenti classi come HORSE e DOG motivati da

verbi come galoppare e abbaiare;7 non è presente il tipo semantico MAMMIFERO, in

quanto allo stato attuale non è presente nella risorsa un verbo che lo motivi. In altre parole, il carattere antropico è una proprietà primaria della tassonomia dei tipi semantici in T-PAS.

Nel documento CLUB Working Papers in Linguistics Volume 2 (pagine 121-124)