4.4 Dati e descrizione delle variabili
4.4.1 Database Descrittive Studenti
Il primo DB ad essere stato elaborato e strutturato è quello relativo alle variabili descrittive degli studenti, partendo dal primo file originale fornito dall’Area IT del Politecnico di Torino denominato “fond_agnelli_variabili_descrittive”. Tale file conta un DB iniziale di 240394 record iniziali, nel quale ogni riga indica uno studente in un determinato A.A. (con la possibilità quindi che nel DB compaia ripetute volte lo stesso studente, che manterrà le medesime variabili descrittive, mentre avrà una variazione nelle variabili di performance relative all’A.A.) ed ogni colonna invece individua le variabili descrittive individuate nella Figura 4.5 (eccezion fatta per la variabile “Ateneo Laurea Triennale” che risulta essere attualmente assente).
Appurata quindi la struttura del DB originale, si è proceduto ad effettuare le seguenti operazioni, necessarie al fine di sviluppare una struttura del DB con variabili conformi alle analisi che si sarebbero effettuate in seguito:
• La variabile iscritti 1_MATRICOLA è stata rinominata in “matricola”;
• Il contenuto delle celle appartenenti alla colonna della variabile “Anno accademico”
è stato modificato eliminando il carattere “/” e trasformando il valore della variabile da stringa a numerico (es. dalla codifica 2015/2016 alla codifica 20152016);
• Ricodifica della variabile “genere” con il valore 0 per identificare la categoria Maschio e 1 per identificare la categoria Femmina;
• La variabile anno prima iscrizione (ossia la coorte) è stata rinominata in “coorte”;
73
• È stata calcolata la variabile descrittiva “Età" che individua l’età dello studente nell’A.A. individuato nella riga del DB;
• È stata introdotta la variabile descrittiva booleana “fuori sede” con ricodifica:
- “0” → in sede, studenti con “regione di residenza” coincidente con Piemonte;
- “1” → fuori sede, studenti con “regione di residenza” diverso dal Piemonte;
- “2” → estero, studenti con “regione di residenza” vuota.
• È stata introdotta la variabile descrittiva booleana “straniero” con ricodifica:
- “Italiano” → 0 per studenti con “stato di residenza” coincidente con Italia;
- “Straniero” → 1 per studenti con “stato di residenza” diverso da Italia.
• È stata introdotta la variabile descrittiva booleana “tipo corso” con ricodifica:
- Aggregazione delle variabili “Corso di laurea di 1º livello” e “Corso di laurea di 1ºlivello (TTPU)” che individua gli studenti che hanno frequentato il Corso di laurea di 1º livello in Uzbekistan → 0;
- Corso di laurea magistrale → 1.
• È stata rinominata la variabile “corso” con la denominazione “NOME_CDS” che indica il nome del Corso di Studi;
• È stata introdotta la variabile “cds_EN”.
Dal momento che non era un’informazione presente nel database, si è cercato di estrapolare il dato osservando le etichette presenti nella variabile “nome CdS” con l’intento di derivarne la lingua di erogazione. Nonostante il riconoscimento dei corsi fosse piuttosto intuitivo e facile, è stato necessario ragionare sull’offerta formativa. Infatti, il Politecnico di Torino eroga corsi in lingua attraverso tre modalità differenti: corsi tenuti interamente in inglese, parzialmente in inglese (tipicamente il terzo anno o il secondo, a seconda che sia della laurea di Primo livello o Magistrale) o corsi che erogano il primo anno in inglese (tipicamente nella laurea di Primo livello).
Per non incorrere ad ambigue considerazioni nelle successive analisi, è stato deciso di identificare come corsi in lingua esclusivamente quelli erogati
74 interamente in inglese. Se fossero state selezionate anche le altre due modalità, sarebbe stato impossibile riuscire a monitorare con esattezza le performance dello studente e quindi, ad esempio, quando la sua media esami annuale derivasse da esiti di esami erogati in lingua o no.
Seguendo questo criterio, si è certi che lo studente abbia effettivamente tenuto esami di insegnamenti erogati completamente in lingua straniera.
Inoltre, osservando i dati contenuti nella variabile “nome CdS” è emerso come il Politecnico abbia cambiato la sua offerta formativa nel corso degli anni. Per questo, è stato necessario effettuare ulteriori ricerche su quei corsi appartenenti ad anni accademici passati e di cui non si conosceva automaticamente la modalità di erogazione.
Relativamente ai corsi di studio della laurea di primo livello erogati in lingua sono stati identificati i corsi presenti nella figura 4.6. In particolare, oltre ai corsi attualmente presenti nell’offerta formativa del Politecnico di Torino, ci sono quelli appartenenti ad anni accademici passati (e quindi non più presenti) o erogati nel TTPU (Turin Polytechnic University in Tashkent), campus universitario uzbeko nato nel 2009 dalla collaborazione tra il Politecnico di Torino, UZAVTOSANOAT (il gruppo automobilistico statale uzbeko), General Motors (GM) e il Ministero dell'Università Uzbeko.
Figura 4.6: Corsi di studio laurea Magistrale erogati interamente in inglese
Architecture
Automotive Engineering
Electronic & Communications Engineering Mechanical Engineering
Computer Engineering
Offerta formativa a.a. 2021/2022
Offerta formativa a.a. precedenti o erogati nel TTPU Biomedical engineering
Industrial and civil engineering and architecture
Information technology and automation systems in industry (ict) Telecommunications engineering
Electronic engineering
Mechanical and energy engineering
75 A differenza della laurea di primo livello, i corsi di studio della laurea Magistrale erogati in lingua rappresentano una percentuale maggiore. Anche per questo motivo la ricerca dei corsi e l’elaborazione delle codifiche è stata più dispendiosa.
Osservando l’offerta formativa attuale si è riscontrata la mancata suddivisione tra corsi EN e IT relativa ai vari corsi di architettura, ingegneria civile, ingegneria edile, ingegneria energetica e nucleare, ingegneria elettronica e ingegneria informatica.
Non potendo attribuire in maniera casuale il tipo di corso si è deciso di mantenere questi corsi come se fossero erogati in lingua italiana.
I corsi individuati in figura 4.7 rappresentano invece quelli a cui si è riusciti ad attribuire la modalità di erogazione.
Per le operazioni sopra descritte è stata quindi creata la variabile dummy cds_EN con la seguente codifica:
- Corso di studio erogato prevalentemente in lingua italiana → 0;
- Corso di studio erogato interamente in inglese → 1.
• Introduzione della variabile booleana “ing-archi” con ricodifica:
- Ingegneria → 0;
- Architettura → 1.
Figura 4.7: corsi di studio laurea Magistrale erogati interamente in inglese
Automotive engineering
Communications and computer networks engineering Data science and engineering
Digital skills for sustainable societal transitions Ict for smart societies
Engineering and management Mechanical engineering Mechatronic engineering Nanotechnologies for icts Petroleum and mining engineering Physics of complex systems
Petroleum engineering
Telecommunications engineering Textile engineering
Offerta formativa a.a. 2021/2022 Offerta formativa a.a. precedenti
76
• La variabile “ASP” corrispondente all’appartenenza o meno al percorso dell’Alta Scuola Politecnica è stata ricodificata con 1 in caso di uno studente che ne fa parte e 0 altrimenti;
• La variabile “mobilità” corrispondente all’aver effettuate dei p.d. in Erasmus è stata ricodificata con 1 in caso di uno studente che l’ha svolta e 0 altrimenti;
• La variabile “challenge” corrispondente all’aver effettuate delle Challenge durante il percorso di laurea è stata ricodificata con 1 in caso di uno studente che l’ha svolta e 0 altrimenti;
• Sono state eliminate tutte le celle vuote della colonna che individua la variabile
“media esami” arrivando ad avere un totale di 169507 record;
• È stata introdotta la variabile “Conta anni” allo scopo di contare quante volte una matricola di uno studente è ripetuta nella colonna della variabile “matricola”;
• Introduzione di due vincoli, un Upper Bound e un Lower Bound, sul numero di CFU superati in un A.A.:
- Upper Bound = 80 CFU;
- Lower Bound = 6 CFU.
• Il numero di record finale alla luce di tutte le operazioni effettuate risulta essere di 168068.
77
Figura 4.8: Mappa concettuale del DB variabili descrittive Studente pre e post elaborazione
Per quanto concerne le variabili non citate precedentemente, si segnalano tra le più importanti le seguenti:
• Variabili geografiche: regione di residenza, stato di residenza e stato di cittadinanza che possono permettere di effettuare analisi di correlazione con le performance didattiche dello studente;
• Variabili di reddito: ISPE, ISEE e ISEEU che per quanto non siano variabili perfette, possono permettere di effettuare analisi di correlazione sempre con le performance didattiche dello studente;
DB Finale matricola
anno accademico coorte
CONTA ANNI genere
data di nascita età
regione residenza stato residenza stato cittadinanza fuori sede
straniero tipo corso NOME_CDS cds_EN ing-archi anni di carriera ISPE
ISEE ISEEU ASP
tipo mobilità challenge media esami cred superati
indicatore performance DB Originale
matricola
anno accademico genere
data nascita regione residenza stato residenza stato cittadinanza tipo corso
corso Ing-Arc
anni di carriera ISPE
ISEE ISEEU ASP
TIPO_MOBI Challenge media esami cred superati
indicatore performance
78
• Variabili di performance didattica:
o Media esami: individua la media dei voti degli esami superati dallo studente nell’A.A. corrispondente alla riga del DB;
o Cred superati: individua il numero totale di CFU conseguiti dallo studente nell’A.A.;
o Indicatore di performance: individua il numero di CFU conseguiti dallo studente nell’A.A. moltiplicato la media esami dello stesso A.A. tutto diviso per il numero di anni di carriera dello studente fino a quel momento.