Analisi esplorativa e descrittiva dei dati
Seconda esercitazione di statistica descrittiva
Primo approccio con i dati
● Analisi esplorativa
– Identificare possibili errori grossolani (es. codifica “99” per dati mancanti)
– Inquadramento della scala di misura delle variabili (molto rilevante per il software di analisi)
● Analisi descrittiva
– Sintetizzare l’informazione contenuta nei dati (indici di posizione, dispersione…)
● Buona pratica: resistere alla tentazione di partire «lancia in resta» e buttarsi ad analizzare qualsiasi insieme di dati...
Perchè descrivere i dati?
● Raramente i dati possono essere condivisi, specialmente nell’ambito medico (regole per il trattamento dei dati sensibili)
→
necessità di descriverli a chi non può vederli● Potremmo essere interessati a confrontare i dati del nostro campione con quelli di un altro campione
→
per il motivo sopra, il dataset esterno non sarà a nostra disposizione e dovremo limitarci a confrontare informazioni riassuntive● I grafici sono un ottimo punto di partenza, ma un confronto rigoroso deve essere basato su quantità numeriche → indici di posizione e dispersione
Terapia riabilitativa motoria
Il dataset arm contiene dati raccolti per uno studio sulla riabilitazione motoria a seguito di un infarto. Un gruppo di pazienti è stato sottoposto ad una terapia
riabilitativa innovativa basata su una tecnologia di realtà virtuale, l’altro gruppo invece ha seguito una terapia convenzionale.
La principale variabile di interesse è la Functional Independence Measure (FIM), uno standard internazionale di misura della disabilità (è una scala da 0 a 126 punti che si calcola in base alla risposta di un questionario di 18 domande).
Terapia riabilitativa motoria
1) Esplorare i dati e descrivere il campione
2) Confrontare a livello descrittivo i due gruppi di pazienti 3) Sintetizzare i risultati in una tabella
Terapia riabilitativa motoria
Individui N (%)
Donne N (%)
Età
Media (dev.st.)
FIM pre Mediana (IQR)
FIM post Mediana (IQR) Trattati 27 (57.4) 10 (37.0) 58.8 (8.3) 116.0 (11.0) 120.0 (7.0) Controlli 20 (42.5) 10 (50.0) 61.6 (10.2) 107.5 (18.5) 110.0 (15.0)
Coorte 47 (100) 20 (42.5) 60.0 (9.2) 113.0 (14.0) 117.0 (13.5)
Abbiamo visto
● Utilizzare le rappresentazioni grafiche per visualizzare la forma della distribuzione (simmetrica o asimmetrica)
● Scegliere gli indici di posizione e dispersione
● Come ottenere grafici separatamente per gruppi
● Ottenere ed interpretare un box-plot
Promemoria comandi
●Ottenere un grafico a barre separatamente per gruppi
●Grafici > Grafici a barre > Tracciare per gruppi
●Ottenere un box-plot
●Grafici > Grafico a scatola e baffi
●Calcolare la differenza tra due variabili
●Dati > Gestione delle variabili > Calcola una nuova variabile
●Calcolare la correlazione tra due variabili
●Statistiche > Informazioni riassuntive > Test di correlazione
ESERCIZI
Ottenere una tabella descrittiva per le variabili elencate.
Effettuare i calcoli in Rcmdr, e poi riportare i risultati ottenuti all’interno di una tabella.
Cosa si può notare rispetto alla variabile BNP ? Il BNP è un peptide natriuretico cerebrale (o peptide natriuretico di tipo B), ossia è una sostanza prodotta dai ventricoli del cuore in risposta agli sbalzi di pressione che si verificano in caso di scompenso cardiaco. Dal punto di vista della statistica descrittiva, la sua distribuzione ha delle caratteristiche particolari. Come mai c’è tanta differenza tra la media e la mediana ? Che tipo di
distribuzione presenta ? Che tipo di trasformazione della scala potrebbe essere opportuna ?
Riportare la tabella in un file power point con dei vostri commenti.
Il dataset “Visite_pz_SCC” contiente i valori di numerosi parametri clinici rilevanti per lo stato di salute di un gruppo di pazienti cardiologici.
SESSO MASCHILE (N, %) Età (media ± dev.std) CMP_PERICARDIO (N, %) CPT_IPERTENSIVA (N, %) CPT_ISCHEMIA (N, %) DM_D (N, %) [diabete]
EMBOLIA_POLMONARE (N, %) FIBRILLAZIONE_ATRIALE (N, %) IPERTENSIONE_ARTERIOSA (N, %) PAS (media ± dev.std)
PAD (media ± dev.std) PAS (mediana e IQR) PAD (mediana e IQR) BNP (media ± dev.std) BNP (mediana e IQR)
Creare una tabella descrittiva del dataset “Visite_pz_SCC” dove si riportano i seguenti dati
confrontando gli uomini e le donne. Effettuare i calcoli in Rcmdr, e poi riportare i risultati ottenuti all’interno di una tabella. Commentare quali variabili sembrano distribuite in modo diverso tra uomini e donne. Riportare la tabella in un file power point con dei vostri commenti.
UOMINI DONNE
Età (media ± dev.std) CMP_PERICARDIO (N, %) CPT_IPERTENSIVA (N, %) CPT_ISCHEMIA (N, %) DM_D (N, %) [diabete]
EMBOLIA_POLMONARE (N, %) FIBRILLAZIONE_ATRIALE (N, %) IPERTENSIONE_ARTERIOSA (N, %) PAS (media ± dev.std)
PAD (media ± dev.std) PAS (mediana e IQR) PAD (mediana e IQR) BNP (media ± dev.std) BNP (mediana e IQR