• Non ci sono risultati.

L’indice TFIDF

• TF: che sta per term frequency e rappresenta la frequenza della generica forma grafica kj all’interno del documento di;

• IDF: che sta per inverse document frequency ed `e dato dall’inverso della frazione di documenti che contengono kj rispetto al totale di documenti

che compongono il corpus.

La formula di calcolo dell’indice rispetto alla forma grafica (o segmento) i perci`o diventa: T F IDFi = fi× lg Nn dove fi `e la frequenza totale della parola

i, N `e il numero totale di documenti nel corpus (articoli nel nostro caso) e n `e il numero di articoli che contengono la parola i.

La parte lg N

n vale 0 quando la parola per la quale si sta calcolando l’in-

dice `e utilizzata in tutti gli articoli del corpus, mentre ha valore massimo (lg N , che nel nostro corpus equivarrebbe a circa 6)se la parola `e utilizzata solamente in un documento. Il concetto di dispersione alla base dell’indice T F IDF ha interpretazione opposta a quello comunemente utilizzato nella fase di analisi delle specificit`a. Nel calcolo dell’indice T F IDF , tanto pi`u la parola `e concentrata in un articolo, tanto pi`u questo articolo tratta dell’argo- mento di cui fa parte la parola. Insomma, se per l’analisi delle specificit`a la concentrazione di una parola in un solo articolo `e indice di pessima caratte- rizzazione del subtesto da parte di quella parola, nel caso dell’indice T F IDF la concentrazione della forma grafica aiuta nell’estrazione di informazione.

L’indice cos`ı calcolato pu`o essere utilizzato sia per pesare le frequenze delle parole in base alla loro dispersione nel testo, sia per calcolare per ogni sub-testo un indice che consenta di ordinare i sub-testi in base all’utilizzo di determinate unit`a di discorso. La possibilit`a di calcolare l’indice T F IDF su parole appartenenti ad aree semanticamente delimitate consente poi di disporre di (nel nostro caso) articoli all’interno dei quali tutte le parole (o quasi tutte) appartenenti all’area semantica scelta saranno indicizzate gra- zie al T F IDF . Sommando gli indici ottenuti si otterr`a il valore relativo all’articolo. TalTac, per ovviare problemi di stima dovuti all’eccessiva lun- ghezza di alcuni sub-testi, normalizza l’indice-somma cos`ı ottenuto in base alla lunghezza dell’articolo.

Diritti e Fondi Ricerca Tecnico Doveri

corporative approfondimento comunit`a scientifica applicazione della riforma

diritti aumento delle tasse coscienza attivit`a formative

docenti battaglia cultura attuazione della riforma

efficienza economia culturale autonomia

formazione economica culturali autonomia degli atenei

formazione di base economico dottorato autonomia didattica

formazione professionale euro dottorato di ricerca autonomia universitaria

formazione superiore finanziamenti enti di ricerca avvio della riforma

formazione universitaria finanziamento formazione biennio specialistico

imprese finanziamento ordinario formazione di base classi di laurea

innovative finanziare formazione superiore concorrenza

innovativi Finanziaria formazione universitaria contro la riforma

innovativo finanziaria fuga dei cervelli corsi di laurea

innovazione finanziario intellettuale corsi di laurea specialistica

innovazioni fondi intellettuali corsi di laurea triennali

investimenti fondo di finanziamento preparazione corsi triennali

investimento investimenti ricerca corso di laurea

qualit`a investimento ricerca di base crediti

reclutamento legge finanziaria ricerca scientifica crediti formativi

ricerca lire ricercatore didattica

ricerca di base miliardi ricercatori didattica universitaria

ricerca scientifica miliardi di lire ricerche didattiche

ricercatore milione sapere didattici

ricercatori milioni scientifica didattico

societ`a milioni di euro scientifiche dopo la riforma

studenti ministro dell’economia scientifici formativi

trasparenza risorsa scientifico formazione

valutazione risorse scienza formazione di base

risorse finanziarie scienziati formazione superiore

soldi formazione universitaria

stanziamenti laurea breve

stanziamento laurea di primo livello

tagli laurea specialistica

tagliare laurea triennale

taglio laurearsi

tassa laureati

tassa sul fumo laureati specialisti

tasse laureati triennali

tasso lauree specialistiche

lauree triennali numero di laureati nuovi corsi di laurea nuovo ordinamento offerta didattica offerta formativa ordinamenti ordinamenti didattici ordinamenti professionali percorsi formativi percorso formativo piani di studio post-laurea regolamenti didattici riforma Berlinguer

riforma degli ordinamenti didattici riforma dei cicli

riforma dei cicli scolastici riforma del 3+2 riforma dell’autonomia riforma dell’autonomia didattica riforma dell’universit`a riforma della scuola riforma Moratti riforma universitaria scienze della formazione sistema dei crediti specialistica specialistiche specialistici triennale triennali triennio vecchia laurea vecchio ordinamento

Appendice B

Analisi delle corrispondenze,

cenni di base

B.1

Le tabelle di contingenza

L’inerzia

La qualit`a delle soluzioni fattoriali1 ottenute viene valutata tramite l’inerzia

spiegata dai fattori utilizzati. L’inerzia dipende direttamente dalla statistica χ2, che, in termini piuttosto semplici, viene calcolata a partire da una tabella

di contingenza come segue:

χ2 =X(valori osservati − valori attesi)2

valori attesi

La quantit`a χn2, dove n `e la somma totale delle frequenze della tabella di partenza prende il nome di inerzia.

L’interpretazione geometrica dell’inerzia considera questa quantit`a come la media pesata delle distanze χ2 tra i profili di riga (perci`o i profili per ogni

elemento del vocabolario) e il loro profilo medio. Perci`o, tanto pi`u “dispersi” sono i profili di riga, tanto maggiore sar`a l’inerzia totale della tabella.

L’inerzia viene utilizzata anche per valutare la qualit`a della soluzione

1

Per i dettagli consultare M.Greenacre, Correspondence analysis in practice, volume da quale `e principalmente tratto questo paragrafo

fattoriale prescelta: operativamente ogni fattore riassume in se’ una parte dell’inerzia, e pertanto l’inerzia colta dai fattori pu`o essere interpretata esat- tamente come la percentuale di varianza spiegata dei modelli di regressione.

Documenti correlati