• TF: che sta per term frequency e rappresenta la frequenza della generica forma grafica kj all’interno del documento di;
• IDF: che sta per inverse document frequency ed `e dato dall’inverso della frazione di documenti che contengono kj rispetto al totale di documenti
che compongono il corpus.
La formula di calcolo dell’indice rispetto alla forma grafica (o segmento) i perci`o diventa: T F IDFi = fi× lg Nn dove fi `e la frequenza totale della parola
i, N `e il numero totale di documenti nel corpus (articoli nel nostro caso) e n `e il numero di articoli che contengono la parola i.
La parte lg N
n vale 0 quando la parola per la quale si sta calcolando l’in-
dice `e utilizzata in tutti gli articoli del corpus, mentre ha valore massimo (lg N , che nel nostro corpus equivarrebbe a circa 6)se la parola `e utilizzata solamente in un documento. Il concetto di dispersione alla base dell’indice T F IDF ha interpretazione opposta a quello comunemente utilizzato nella fase di analisi delle specificit`a. Nel calcolo dell’indice T F IDF , tanto pi`u la parola `e concentrata in un articolo, tanto pi`u questo articolo tratta dell’argo- mento di cui fa parte la parola. Insomma, se per l’analisi delle specificit`a la concentrazione di una parola in un solo articolo `e indice di pessima caratte- rizzazione del subtesto da parte di quella parola, nel caso dell’indice T F IDF la concentrazione della forma grafica aiuta nell’estrazione di informazione.
L’indice cos`ı calcolato pu`o essere utilizzato sia per pesare le frequenze delle parole in base alla loro dispersione nel testo, sia per calcolare per ogni sub-testo un indice che consenta di ordinare i sub-testi in base all’utilizzo di determinate unit`a di discorso. La possibilit`a di calcolare l’indice T F IDF su parole appartenenti ad aree semanticamente delimitate consente poi di disporre di (nel nostro caso) articoli all’interno dei quali tutte le parole (o quasi tutte) appartenenti all’area semantica scelta saranno indicizzate gra- zie al T F IDF . Sommando gli indici ottenuti si otterr`a il valore relativo all’articolo. TalTac, per ovviare problemi di stima dovuti all’eccessiva lun- ghezza di alcuni sub-testi, normalizza l’indice-somma cos`ı ottenuto in base alla lunghezza dell’articolo.
Diritti e Fondi Ricerca Tecnico Doveri
corporative approfondimento comunit`a scientifica applicazione della riforma
diritti aumento delle tasse coscienza attivit`a formative
docenti battaglia cultura attuazione della riforma
efficienza economia culturale autonomia
formazione economica culturali autonomia degli atenei
formazione di base economico dottorato autonomia didattica
formazione professionale euro dottorato di ricerca autonomia universitaria
formazione superiore finanziamenti enti di ricerca avvio della riforma
formazione universitaria finanziamento formazione biennio specialistico
imprese finanziamento ordinario formazione di base classi di laurea
innovative finanziare formazione superiore concorrenza
innovativi Finanziaria formazione universitaria contro la riforma
innovativo finanziaria fuga dei cervelli corsi di laurea
innovazione finanziario intellettuale corsi di laurea specialistica
innovazioni fondi intellettuali corsi di laurea triennali
investimenti fondo di finanziamento preparazione corsi triennali
investimento investimenti ricerca corso di laurea
qualit`a investimento ricerca di base crediti
reclutamento legge finanziaria ricerca scientifica crediti formativi
ricerca lire ricercatore didattica
ricerca di base miliardi ricercatori didattica universitaria
ricerca scientifica miliardi di lire ricerche didattiche
ricercatore milione sapere didattici
ricercatori milioni scientifica didattico
societ`a milioni di euro scientifiche dopo la riforma
studenti ministro dell’economia scientifici formativi
trasparenza risorsa scientifico formazione
valutazione risorse scienza formazione di base
risorse finanziarie scienziati formazione superiore
soldi formazione universitaria
stanziamenti laurea breve
stanziamento laurea di primo livello
tagli laurea specialistica
tagliare laurea triennale
taglio laurearsi
tassa laureati
tassa sul fumo laureati specialisti
tasse laureati triennali
tasso lauree specialistiche
lauree triennali numero di laureati nuovi corsi di laurea nuovo ordinamento offerta didattica offerta formativa ordinamenti ordinamenti didattici ordinamenti professionali percorsi formativi percorso formativo piani di studio post-laurea regolamenti didattici riforma Berlinguer
riforma degli ordinamenti didattici riforma dei cicli
riforma dei cicli scolastici riforma del 3+2 riforma dell’autonomia riforma dell’autonomia didattica riforma dell’universit`a riforma della scuola riforma Moratti riforma universitaria scienze della formazione sistema dei crediti specialistica specialistiche specialistici triennale triennali triennio vecchia laurea vecchio ordinamento
Appendice B
Analisi delle corrispondenze,
cenni di base
B.1
Le tabelle di contingenza
L’inerzia
La qualit`a delle soluzioni fattoriali1 ottenute viene valutata tramite l’inerzia
spiegata dai fattori utilizzati. L’inerzia dipende direttamente dalla statistica χ2, che, in termini piuttosto semplici, viene calcolata a partire da una tabella
di contingenza come segue:
χ2 =X(valori osservati − valori attesi)2
valori attesi
La quantit`a χn2, dove n `e la somma totale delle frequenze della tabella di partenza prende il nome di inerzia.
L’interpretazione geometrica dell’inerzia considera questa quantit`a come la media pesata delle distanze χ2 tra i profili di riga (perci`o i profili per ogni
elemento del vocabolario) e il loro profilo medio. Perci`o, tanto pi`u “dispersi” sono i profili di riga, tanto maggiore sar`a l’inerzia totale della tabella.
L’inerzia viene utilizzata anche per valutare la qualit`a della soluzione
1
Per i dettagli consultare M.Greenacre, Correspondence analysis in practice, volume da quale `e principalmente tratto questo paragrafo
fattoriale prescelta: operativamente ogni fattore riassume in se’ una parte dell’inerzia, e pertanto l’inerzia colta dai fattori pu`o essere interpretata esat- tamente come la percentuale di varianza spiegata dei modelli di regressione.