• Non ci sono risultati.

Seconda esercitazione di statistica descrittiva. Analisi esplorativa e descrittiva dei dati

N/A
N/A
Protected

Academic year: 2022

Condividi "Seconda esercitazione di statistica descrittiva. Analisi esplorativa e descrittiva dei dati"

Copied!
11
0
0

Testo completo

(1)

Analisi esplorativa e descrittiva dei dati

Seconda esercitazione di statistica descrittiva

(2)

Primo approccio con i dati

Analisi esplorativa

Identificare possibili errori grossolani (es. codifica “99” per dati mancanti)

Inquadramento della scala di misura delle variabili (molto rilevante per il software di analisi)

Analisi descrittiva

Sintetizzare l’informazione contenuta nei dati (indici di posizione, dispersione…)

Buona pratica: resistere alla tentazione di partire «lancia in resta» e buttarsi ad analizzare qualsiasi insieme di dati...

(3)

Perchè descrivere i dati?

Raramente i dati possono essere condivisi, specialmente nell’ambito medico (regole per il trattamento dei dati sensibili)

necessità di descriverli a chi non può vederli

Potremmo essere interessati a confrontare i dati del nostro campione con quelli di un altro campione

per il motivo sopra, il dataset esterno non sarà a nostra disposizione e dovremo limitarci a confrontare informazioni riassuntive

I grafici sono un ottimo punto di partenza, ma un confronto rigoroso deve essere basato su quantità numeriche → indici di posizione e dispersione

(4)

Terapia riabilitativa motoria

Il dataset arm contiene dati raccolti per uno studio sulla riabilitazione motoria a seguito di un infarto. Un gruppo di pazienti è stato sottoposto ad una terapia

riabilitativa innovativa basata su una tecnologia di realtà virtuale, l’altro gruppo invece ha seguito una terapia convenzionale.

La principale variabile di interesse è la Functional Independence Measure (FIM), uno standard internazionale di misura della disabilità (è una scala da 0 a 126 punti che si calcola in base alla risposta di un questionario di 18 domande).

(5)

Terapia riabilitativa motoria

1) Esplorare i dati e descrivere il campione

2) Confrontare a livello descrittivo i due gruppi di pazienti 3) Sintetizzare i risultati in una tabella

(6)

Terapia riabilitativa motoria

Individui N (%)

Donne N (%)

Età

Media (dev.st.)

FIM pre Mediana (IQR)

FIM post Mediana (IQR) Trattati 27 (57.4) 10 (37.0) 58.8 (8.3) 116.0 (11.0) 120.0 (7.0) Controlli 20 (42.5) 10 (50.0) 61.6 (10.2) 107.5 (18.5) 110.0 (15.0)

Coorte 47 (100) 20 (42.5) 60.0 (9.2) 113.0 (14.0) 117.0 (13.5)

(7)

Abbiamo visto

Utilizzare le rappresentazioni grafiche per visualizzare la forma della distribuzione (simmetrica o asimmetrica)

Scegliere gli indici di posizione e dispersione

Come ottenere grafici separatamente per gruppi

Ottenere ed interpretare un box-plot

(8)

Promemoria comandi

Ottenere un grafico a barre separatamente per gruppi

Grafici > Grafici a barre > Tracciare per gruppi

Ottenere un box-plot

Grafici > Grafico a scatola e baffi

Calcolare la differenza tra due variabili

Dati > Gestione delle variabili > Calcola una nuova variabile

Calcolare la correlazione tra due variabili

Statistiche > Informazioni riassuntive > Test di correlazione

(9)

ESERCIZI

Ottenere una tabella descrittiva per le variabili elencate.

Effettuare i calcoli in Rcmdr, e poi riportare i risultati ottenuti all’interno di una tabella.

Cosa si può notare rispetto alla variabile BNP ? Il BNP è un peptide natriuretico cerebrale (o peptide natriuretico di tipo B), ossia è una sostanza prodotta dai ventricoli del cuore in risposta agli sbalzi di pressione che si verificano in caso di scompenso cardiaco. Dal punto di vista della statistica descrittiva, la sua distribuzione ha delle caratteristiche particolari. Come mai c’è tanta differenza tra la media e la mediana ? Che tipo di

distribuzione presenta ? Che tipo di trasformazione della scala potrebbe essere opportuna ?

Riportare la tabella in un file power point con dei vostri commenti.

Il dataset “Visite_pz_SCC” contiente i valori di numerosi parametri clinici rilevanti per lo stato di salute di un gruppo di pazienti cardiologici.

SESSO MASCHILE (N, %) Età (media ± dev.std) CMP_PERICARDIO (N, %) CPT_IPERTENSIVA (N, %) CPT_ISCHEMIA (N, %) DM_D (N, %) [diabete]

EMBOLIA_POLMONARE (N, %) FIBRILLAZIONE_ATRIALE (N, %) IPERTENSIONE_ARTERIOSA (N, %) PAS (media ± dev.std)

PAD (media ± dev.std) PAS (mediana e IQR) PAD (mediana e IQR) BNP (media ± dev.std) BNP (mediana e IQR)

(10)

Creare una tabella descrittiva del dataset “Visite_pz_SCC” dove si riportano i seguenti dati

confrontando gli uomini e le donne. Effettuare i calcoli in Rcmdr, e poi riportare i risultati ottenuti all’interno di una tabella. Commentare quali variabili sembrano distribuite in modo diverso tra uomini e donne. Riportare la tabella in un file power point con dei vostri commenti.

UOMINI DONNE

Età (media ± dev.std) CMP_PERICARDIO (N, %) CPT_IPERTENSIVA (N, %) CPT_ISCHEMIA (N, %) DM_D (N, %) [diabete]

EMBOLIA_POLMONARE (N, %) FIBRILLAZIONE_ATRIALE (N, %) IPERTENSIONE_ARTERIOSA (N, %) PAS (media ± dev.std)

PAD (media ± dev.std) PAS (mediana e IQR) PAD (mediana e IQR) BNP (media ± dev.std) BNP (mediana e IQR

(11)

Rappresentare graficamente le variabili riportate nella tabella

precedente, sempre confrontando le loro distribuzioni negli

uomini e nelle donne. Utilizzare i grafici opportuni in Rcmdr, in

base alla scala di misura della variabile considerata. Riportare i

grafici in un file power point con dei vostri commenti.

Riferimenti

Documenti correlati

Per ogni singola classe (intervallo di valori di X) è possibile determinare la probabilità teorica per il modello proposto (distribuzione normale in questo

MISURE DI TENDENZA CENTRALE.. Il Monte dei Paschi di Siena vuole fare una propaganda mirata per emettere più carte di credito ricaricabili. Se la banca dispone delle

Costruttore prende  un argomento, 

Portogallo Spagna Regno Unito Paesi Bassi Grecia Italia Danimarca Irlanda Germania Belgio Francia... Peso dei neonati

La carta semilogaritmica o grafico semilogaritmico indica un grafico con un asse con scala lineare e un asse con scala. logaritmica (tipicamente in base 10). Usi dei

Calcolare media e varianza delle due variabili prima con i dati della tabella di partenza e poi con quella della tabella con quattro

Si calcolino i percentili di ordine 25 e 75 di una variabile quantitativa a scelta rispetto ai livelli di una variabile qualitativa che si ritiene possa influenzare i valori di

I dati da esaminare (contenuti nel file cereal.txt) sono tratti dalla libreria on-line su http://lib.stat.cmu.edu/datasets/ e riguardano la