• Non ci sono risultati.

Emergency Department - Wait Time Prediction

N/A
N/A
Protected

Academic year: 2021

Condividi "Emergency Department - Wait Time Prediction"

Copied!
82
0
0

Testo completo

(1)

Studente/i

Adriatik Dushica

Relatore

Andrea Emilio Rizzoli

Correlatore

Luca Maria Gambardella

Committente

Ente Ospedaliero Cantonale

Corso di laurea

Ingegneria informatica PAP

Modulo

M00002P Progetto di diploma

Anno

2017/2018

(2)
(3)

Indice

Abstract 1

1 Introduzione agli scopi e obiettivi 3

1.1 Obiettivi . . . 3

1.2 Target . . . 4

1.3 Motivazioni che hanno spinto a sviluppare il progetto . . . 4

1.4 Presentazione dell’azienda . . . 4

1.5 Ufficio in cui ha avuto luogo l’esperienza . . . 5

2 Descrizione del problema 7 2.1 Il pronto soccorso . . . 7

2.2 Stato dell’arte . . . 10

2.2.1 Ospedale Universitario di Ginevra . . . 11

2.2.2 Regione Autonoma Friuli Venezia Giulia . . . 12

2.2.3 San Mateo Medical Center . . . 12

3 Analisi dei dati 15 3.1 Analisi univariata . . . 17 3.2 Analisi bivariata . . . 27 4 Modelli predittivi 43 4.1 Moving Average . . . 43 4.1.1 Dataset . . . 43 4.2 Lasso . . . 44 4.2.1 Dataset . . . 44

4.3 Neural Network Regression . . . 45

4.3.1 Dataset . . . 46

5 Data cleaning 49 5.1 Outliers globali . . . 49

(4)

ii INDICE

6 Risultati delle performance dei modelli studiati 53

6.1 Metriche . . . 53

6.1.1 Errore Quadratico Medio . . . 54

6.1.2 Coefficiente di determinazione . . . 54

6.2 Performance dei vari modelli predittivi . . . 54

7 Implementazione del modello predittivo 59 7.1 Accessibilità dall’esterno della rete EOC . . . 62

7.2 Strumenti e ambienti di sviluppo . . . 63

8 Conclusione 65 8.1 Risultati ottenuti . . . 65

8.2 Prossimi passi per la messa in produzione effettiva . . . 67

(5)

Elenco delle figure

2.1 Processo di cura di un paziente in pronto soccorso. . . 8 2.2 Processo di cura per pazienti di medicina e chirurgia . . . 9 3.1 Distribuzione del tempo d’attesa per pazienti non urgenti (triage 3, 4). . . 18 3.2 Distribuzione del tempo di permanenza nel box per pazienti non urgenti

(tria-ge 3, 4). . . 20 3.3 Distribuzione del tempo di permanenza nel box per pazienti urgenti (triage 1,

2). . . 22 3.4 Percentuale di pazienti raggruppati per livello di triage (feriali, weekend, festivi). 24 3.5 Media degli arrivi in pronto soccorso per ora (feriali, weekend, festivi). . . 28 3.6 Tempo d’attesa medio in funzione della fascia oraria per pazienti non urgenti

(feriali, weekend, festivi). . . 30 3.7 Numero di pazienti di medicina e chirurgia in funzione del giorno della

setti-mana. . . 32 3.8 Numero di pazienti di medicina e chirurgia in funzione del mese. . . 32 3.9 Matrice di correlazione tra le variabili attraverso una mappa di calore (medicina). 35 3.10 Matrice di correlazione tra le variabili attraverso una mappa di calore (chirurgia). 36 3.11 Box plot del tempo d’attesa in funzione della fascia oraria e del numero di

pazienti presenti in pronto soccorso (solo per pazienti non urgenti, triage 3 e 4) 38 3.12 Box plot del tempo di permanenza in un box in funzione del codice motivo del

paziente (medicina). . . 40 3.13 Box plot del tempo di permanenza in un box in funzione del codice motivo del

paziente (chirurgia). . . 41 4.1 Rappresentazione grafica dell’implementazione della Neural Network

Regres-sion. . . 46 6.1 Confronto tra la media del tempo d’attesa effettivo di pazienti non urgenti,

stima del tempo d’attesa con Lasso e Neural Network Regression. . . 56 6.2 Percentuale di successo in funzione della tolleranza in minuti (per pazienti

(6)

iv ELENCO DELLE FIGURE

7.1 Architettura del progetto . . . 60 7.2 Sequence diagram riassuntivo che mostra le interazioni tra i vari componenti. 61 7.3 Architettura dell’applicativo a livello di rete . . . 63 8.1 Risultato dell’applicativo visible in sala d’attesa. . . 66 8.2 Risultato dell’applicativo visibile per i pazienti da casa. . . 67

(7)

Elenco delle tabelle

2.1 Errore quadratico medio (ed errore standard) di diversi modelli predittivi del tempo d’attesa per 4 diversi ospedali. Gli errori sono in minuti. [1] . . . 13 6.1 Tabella di confronto tra i vari modelli predittivi. L’errore viene espresso

at-traverso l’Errore Quadratico Medio (MSE). Gli errori sono rappresentati in minuti. . . 54 6.2 Coefficiente di determinazione (R2) per tutti i dataset con e senza data cleaning. 55

(8)
(9)

Abstract

Oggigiorno sempre più enti (pubblici / privati) come ospedali, uffici postali o call center of-frono ai propri pazienti / clienti una previsione del tempo d’attesa.

L’Ente Ospedaliero Cantonale (EOC), più precisamente il pronto soccorso (PS) dell’Ospe-dale Civico di Lugano (OCL) richiede la realizzazione di un modello predittivo in grado di fornire ai propri pazienti il tempo d’attesa.

Attualmente questa informazione viene fornita dall’infermiere che effettua il triage, il quale attraverso anni d’esperienza, è in grado di fornire indicativamente una stima del tempo d’at-tesa. Stima che a seconda delle urgenze, può variare nel tempo.

Complessivamente sono stati analizzati 3 modelli in grado di prevedere il tempo d’attesa. Il primo modello analizzato è Moving Average, ampiamente utilizzato per l’analisi e lo studio di serie storiche. Il secondo modello prevede l’impiego di Lasso, una regressione lineare in grado di effettuare automaticamente la regolarizzazione e la selezione delle features rile-vanti. Il terzo e ultimo modello, ovvero quello che ha prodotto i migliori risultati è una Neural Network Regression (NNR), una regressione con rete neurale in grado di apprendere mo-delli matematico-statistici attraverso il training.

La rete neurale è stata utilizzata in due diverse applicazioni: la prima viene mostrata at-traverso un monitor in pronto soccorso e permette di visualizzare in tempo reale l’attesa prevista per ogni paziente, la seconda è un’applicazione web, che permette ai singoli pa-zienti di visualizzare in maniera pratica e funzionale il tempo d’attesa stimato.

Il risultato è un prototipo che nei prossimi mesi subirà una validazione da parte del personale del pronto soccorso, dopo la quale avverrà l’effettiva messa in produzione.

(10)
(11)

Capitolo 1

Introduzione agli scopi e obiettivi

1.1

Obiettivi

Il problema oggetto del lavoro di diploma è relativo alla stima del tempo d’attesa in pronto soccorso. In modo particolare si vogliono studiare, implementare e valutare algoritmi in gra-do di produrre una stima del tempo d’attesa in pronto soccorso.

Gli obiettivi didattici sono centrati sull’apprendere il processo di modellazione e di sviluppo di un modello predittivo:

• Analisi dello stato dell’arte

– Ricercare nella letteratura casi studio simili – Identificare come problemi simili sono stati risolti • Raccolta e preparazione dei dati

– Estrazione dei dati dai diversi sistemi informatici – Data cleaning

– Creazione di un dataset • Scelta del modello

– Implementare più modelli in grado di stimare il tempo d’attesa in pronto soccorso – Identificare attraverso metriche ed indicatori di performance il modello più idoneo • Implementazione del modello

– Integrare il modello predittivo con i vari sistemi informatici già presenti – Implementare in modalità real-time il modello predittivo selezionato

(12)

4 Introduzione agli scopi e obiettivi

1.2

Target

Il progetto è rivolto a due categorie d’utenza:

• A pazienti che si trovano in sala d’attesa in pronto soccorso e che vorrebbero avere un’idea del proprio tempo d’attesa.

• A pazienti che da casa vorrebbero indicazioni riguardo il tempo d’attesa previsto in pronto soccorso.

1.3

Motivazioni che hanno spinto a sviluppare il progetto

Sempre più istituti forniscono al paziente, in modo pratico e funzionale, una previsione del tempo d’attesa. Questo servizio consentirebbe al paziente di valutare in quale PS dirigersi, evitando così lunghe code e al contempo, indirettamente, garantirebbe un buon bilanciamento tra i PS più vicini tra loro.

1.4

Presentazione dell’azienda

L’Ente Ospedaliero Cantonale1 (EOC) è un ospedale multisito composto da sette ospedali e altre strutture organizzative:

• Ospedale Regionale di Lugano con le sedi Civico (OCL) e Italiano (OIL)

• Ospedale Regionale di Bellinzona e Valli con la sede San Giovanni a Bellinzona e le sedi di Faido e Acquarossa (ORBV)

• Ospedale Regionale di Mendrisio, Beata Vergine (OBV) • Ospedale Regionale di Locarno, La Carità (ODL) • Clinica di Riabilitazione EOC (CREOC)

• Istituto Oncologico della Svizzera Italiana (IOSI)

• Istituto di Neuroscienze cliniche della Svizzera Italiana (Neurocentro)

La presenza delle strutture sull’intero territorio cantonale consente di garantire ai pazien-ti un’offerta ospedaliera globale e di prossimità, indipendentemente dal luogo in cui sono richiesti i servizi.

1

(13)

1.5

Ufficio in cui ha avuto luogo l’esperienza

Il lavoro di tesi è stato sviluppato presso l’Area Informatica e Tecnologia della Comunica-zione (ICT) dell’Ente Ospedaliero Cantonale (EOC). L’Area ICT ha come obiettivo quello di proporre e mettere in opera, scegliendo le opportune tecnologie, i processi inter-funzionali di base dell’EOC, considerando l’ottica di servizio all’utenza, ivi compreso gli aspetti di co-municazione e connettività di dati.

Lo spettro di attività in questi anni si è ampliato dagli aspetti d’informatica “classica” al sup-porto di nuovi servizi e ambiti, specialmente nell’Area sanitaria e del personale e da ultimo verso le condizioni quadro per la ricerca.

Il compito base consiste nel gestire e implementare le soluzioni informatiche adeguate e atte a soddisfare i bisogni degli utenti, nei limiti fissati dalla pianificazione finanziaria e del personale2.

2

(14)
(15)

Capitolo 2

Descrizione del problema

Il pronto soccorso (PS) è una struttura organizzativa complessa, dove l’eccezione è all’ordi-ne del giorno. Non esiste uno standard che definisce la struttura logistica di un PS, in quanto internamente si potrebbero effettuare delle procedure leggermente diverse da quello che è considerato lo standard de facto. Un esempio è la collaborazione tra il PS OCL (Ospedale Civico di Lugano) ed il PS OIL (Ospedale Italiano di Lugano), dove, al fine di bilanciare il carico di lavoro, pazienti non urgenti vengono trasferiti da una struttura all’altra.

Un altro esempio potrebbe essere la specializzazione dei medici presenti in pronto soccor-so: in alcuni PS i medici sono specializzati in medicina d’urgenza, mentre in altri, dispon-gono di una specializzazione specifica (medicina / chirurgia / ecc.). Questo significa che un paziente chirurgico nel primo caso potrà essere curato da un qualsiasi medico specializzato in medicina d’urgenza, mentre nel secondo caso sarà curato da un medico specializzato in chirurgia.

Per i motivi sopracitati ogni PS va studiato in maniera indipendente.

2.1

Il pronto soccorso

Focalizzando l’attenzione sul PS OCL si scopre che in realtà i processi di cura del paziente sono diversi per specialità medica:

• Medicina • Chirurgia • Ginecologia • Pediatria • Ostetricia

(16)

8 Descrizione del problema

Per comprendere maggiormente quali sono le varie attività in cui il paziente è coinvolto, è stato realizzato uno schema riassuntivo:

Identificazione categoria medica

Creazione etichetta 

Processo di cura ostetricia

Processo di cura ginecologia

Processo di cura pediatria

Processo di cura medicina e chirurgia [paziente di ostetricia] [paziente di ginecologia] [paziente di pediatria] [paziente di medicina o chirurgia] Il paziente si annuncia in PS

Il paziente viene dimesso dall'ospedale o trasferito a degente

Figura 2.1: Processo di cura di un paziente in pronto soccorso.

In Figura 2.1 vengono rappresentate, in maniera semplificata, le varie attività in cui il pa-ziente è coinvolto durate il processo di cura in PS.

L’inizio del percorso avviene con l’annunciarsi del paziente, viene quindi effettuata la regi-strazione delle informazioni anagrafiche e delle coperture assicurative. Inoltre, viene identifi-cata la specialità medica alla quale il paziente appartiene (medicina / chirurgia / ginecologia / pediatria / ostetricia). A questo punto, qualora il paziente fosse di ginecologia, pediatria o ostetricia verrebbe reindirizzato nel PS di competenza specialistica.

Da questo momento in poi, quando si parla di PS, implicitamente s’intende il PS delle spe-cialità mediche di medicina e chirurgia dell’Ospedale Civico di Lugano (OCL).

Siccome questo progetto vuole concentrarsi solo su pazienti di medicina e chirurgia è stato sviluppato uno schema di dettaglio per il sottoprocesso "Processo di cura per pazienti di medicina e chirurgia" (Figura 2.2 a pag. 9), mettendo in evidenza tutte le peculiarità del PS in questione. Lo schema riportato di seguito è quindi specifico al PS di medicina e chirurgia,

(17)

altri PS di altri istituti ospedalieri potrebbero lavorare diversamente. Paziente dimesso o trasferito a degente in reparto Sala d'attesa Attesa medicina Attesa chirurgia Box 1 Box 2 ... Box 1 Box 2 ... Tempo d'attesa totale

Triage

Tempo d'attesa dopo il triage

Figura 2.2: Processo di cura per pazienti di medicina e chirurgia

In seguito alla creazione dell’etichetta, il paziente viene accompagnato in sala d’attesa. Spesso, quasi a tempo zero, viene invitato ad effettuare il triage1. In una situazione ideale, a compilare la scheda del triage è un infermiere dedicato, che si occupa esclusivamente di svolgere questo compito.

Il paziente viene quindi nuovamente accompagnato in sala, in attesa del suo turno, dettato dalla sua priorità e da quella dei pazienti già presenti. Sebbene la sala d’attesa sia una sola, le code sono due: una per la medicina ed una per la chirurgia. Il paziente viene indirizzato in cura in un box2non appena ne viene liberato uno.

Quando un medico è disponibile e quindi può prendere in carico un paziente, inizia il trat-tamento. A detta del personale, è possibile assumere che un paziente una volta entrato in un box, da lì a breve, verrà preso in carico da un medico. Questa assunzione è necessaria in quanto l’unico orario disponibile nei sistemi informatici è quello dell’entrata nel box e non

1

Il triage ha come scopo principale quello di identificare il livello d’urgenza di un paziente. Nel caso specifico, i codici di priorità variano da 1 a 4, dove 1 sta per massima urgenza e 4 per paziente non urgente.

2

(18)

10 Descrizione del problema

quella dell’inizio effettivo del trattamento.

Un trattamento di PS può terminare con la dimissione del paziente perché in buone condi-zioni di salute, oppure con il trasferimento in reparto per una degenza.

In Figura 2.2 sono mostrati due tempi d’attesa: • Tempo d’attesa totale

– Consiste nel tempo d’attesa stimato per pazienti di cui non si conosce ancora il

livello d’urgenza e la categoria medica alla quale appartengono. • Tempo d’attesa dopo il triage

– Consiste nel tempo d’attesa stimato per pazienti che hanno già effettuato il triage

dei quali si conosce: livello d’urgenza e categoria medica alla quale appartengo-no.

Sebbene non venga precisato nello schema, un paziente può accedere al PS non solo an-nunciandosi all’accettazione, ma anche per mezzo dell’ambulanza o della Rega. In entrambi i casi, non viene effettuato un triage perché già durante il tragitto, viene identificato il pun-teggio NACA3. Questi pazienti entrano direttamente (entrata diretta) in un box per iniziare il trattamento il prima possibile.

L’entrata diretta non avviene solo per pazienti che arrivano tramite la Rega o l’ambulanza, ma anche per pazienti gravi che si annunciano in PS. Infatti per questi pazienti non ha nes-sun senso effettuare il triage, che ha come scopo principale identificare il livello d’urgenza e quindi la priorità rispetto ad altri pazienti. Per questa tipologia di pazienti il triage viene comunque effettuato a posteriori per questioni statistiche.

Il PS OCL e PS OIL collaborano affinché ci sia un buon bilanciamento del carico di lavoro, questo significa che pazienti non urgenti potrebbero essere mandati da un PS all’altro.

Un altro caso non descritto nello schema, che però bisogna considerare, è quello in cui il paziente, per qualsiasi motivo, decide di abbandonare il PS senza essere visitato.

2.2

Stato dell’arte

Sebbene sempre più ospedali stiano offrendo ai propri pazienti una stima del tempo d’atte-sa, non è facile reperire documentazione su come questi metodi siano stati implementati.

3

Il NACA score è un sistema di punteggio della gravità usato in caso di emergenze mediche. Si va da un valore di NACA 0, che significa nessuna lesione o malattia (paziente non grave) ad un valore di NACA 7 che indica un paziente deceduto

(19)

Qualora lo fosse, l’implementazione potrebbe non essere garantita viste le possibili differen-ze strutturali e organizzative tra i vari PS (come spiegato a pagina 7).

Fornire il tempo d’attesa al paziente può influenzare il comportamento dello stesso. Per esempio, in un call center, fornire il tempo d’attesa e la possibilità di essere richiamati, ridu-ce i casi in cui un cliente debba aspettare inutilmente [2].

Si può assumere che fornire il tempo d’attesa ai pazienti aumenterebbe il rischio di ab-bandono immediato e che vengano scoraggiati ad essere visitati nelle situazioni in cui il PS risulta congestionato [3, 4]. D’altra parte, fornire un’informazione semplice (bassa, me-dia o di alta attesa) riduce il numero di persone che abbandonano immeme-diatamente il PS [4].

Lunghe attese previste potrebbero scoraggiare il paziente a recarsi in pronto soccorso, per-tanto, pubblicare il tempo d’attesa potrebbe ridurre il benessere sociale [5].

Alcune ricerche ipotizzano che la previsione del tempo d’attesa in PS possa ridurre il tasso di pazienti che partono senza essere visitati [6]. Empiricamente, in un PS che non fornisce una previsione del del tempo d’attesa, si osserva che quando il PS è affollato, i pazienti sono più propensi a lasciare l’ospedale senza essere visitati [6]. I pazienti dunque, potrebbero dedurre erroneamente che l’attesa è lunga concentrandosi unicamente sulla dimensione della coda e non sulla velocità d’elaborazione (personale dedicato) [7].

Fornire una previsione del tempo d’attesa potrebbe abbreviare l’attesa percepita ed aumen-tarne la tolleranza. La previsione di quest’ultimo può migliorare l’esperienza d’attesa dei pazienti, scoraggiando la partenza di coloro che non sono ancora stati sottoposti ad una visita medica [8].

Studi recenti dimostrano che esiste una relazione diretta tra il tempo d’attesa di un paziente e la sua soddisfazione [9]. Infatti, secondo questi studi, l’insoddisfazione può essere azze-rata fornendo al paziente una previsione del tempo d’attesa. Così facendo, il paziente può sapere in anticipo se è il caso di recarsi in un altro PS meno carico.

2.2.1

Ospedale Universitario di Ginevra

L’Ospedale Universitario di Ginevra mette a disposizione ai propri pazienti il tempo d’attesa delle varie cliniche4presenti sul territorio, fornendo un range in minuti. Non viene effettuata una differenziazione tra le varie specialità (medicina / chirurgia / ginecologia / pediatria /

4

(20)

12 Descrizione del problema

ostetricia).

Fornire il tempo d’attesa previsto sotto forma di intervallo (es. 20-30 min.) potrebbe essere un’alternativa ad un singolo valore (25 min.).

L’implementazione del modello predittivo non è resa pubblica.

2.2.2

Regione Autonoma Friuli Venezia Giulia

La Regione Autonoma Friuli Venezia Giulia pubblica5, per ogni clinica presente sul territorio, il numero totale di pazienti presenti, il numero di pazienti per ogni livello di gravità6 ed il tempo d’attesa per ogni livello di gravità.

Pubblicare il tempo d’attesa per livello d’urgenza potrebbe essere controproducente, in quanto l’infermiere che effettua il triage dovrebbe giustificare perché un paziente non è stato considerato urgente.

L’implementazione del modello predittivo non è resa pubblica.

2.2.3

San Mateo Medical Center

San Mateo Medical Center (SMMC) è un ospedale situato in California, per il quale è stato pubblicato uno studio sui diversi modelli predittivi e sui relativi risultati [1].

L’obiettivo dello studio è stato quello di individuare empiricamente il modello predittivo più efficace. È importante sapere che l’efficacia non dipende solo dal modello, ma anche dalla qualità dei dati e dalle features utilizzate. I modelli esplorati da questo studio sono:

• Best Rolling Average, una tecnica utilizzata in statistica ed economia per prevedere il tred del valore di una variabile in una serie storica

• Fluid Models è un modello approssimativo che tiene in considerazione il numero to-tale di pazienti, numero di personale dedicato, e un coefficiente che determina a che velocità alla quale un paziente non urgente viene curato.

• Q-Lasso, un’implementazione di Lasso, ovvero una regressione lineare.

5https://servizionline.sanita.fvg.it/psonline 6

In Italia viene usata un’altra variante del triage che prevede una scala d’urgenza a quattro livelli: rosso, giallo, verde e bianco. Dove rosso sta per massima urgenza ed entrata immediata in sala. Il codice bianco coincide con accesso improprio.

(21)

Tabella 2.1: Errore quadratico medio (ed errore standard) di diversi modelli predittivi del tempo d’attesa per 4 diversi ospedali. Gli errori sono in minuti. [1]

Modello predittivo SMMC Ospedale 1 Ospedale 2 Ospedale 3 Best Rolling Average 2517.2 (73.7) 2725.6 (33.0) 970.1 (22.0) 551.1 (18.2)

Fluid (variante 1) 2658.9 (79.6) 2779.8 (39.7) 1004.9 (22.2) 602.1 (19.5)

Fluid (variante 2) 2491.1 (79.1) 2428.2 (33.7) 961.3 (21.6) 567.5 (19.2)

Q-Lasso 1693.4 (56.2) 2056.2 (26.4) 864.8 (20.8) 480.4 (17.1)

La tabella 2.1 mette a confronto diversi modelli predittivi. Per ogni modello, è stata effettuata un’implementazione in 4 diversi ospedali, di cui 3 anonimi. Per il test è stato utilizzato l’80% del dataset per il training, ed il restante 20% per la validazione dell’accuratezza del modello predittivo.

Dal test emerge che ad offrire migliori prestazioni è il modello Q-Lasso, un modello sviluppa-to da ricercasviluppa-tori della Stanford University [1]. Q-Lasso consiste in un’analisi di regressione, sviluppata appositamente per la previsione del tempo d’attesa in PS.

Secondo lo studio, fornire il tempo d’attesa separato per livello di triage diminuirebbe l’accu-ratezza del risultato [1]. Stime separate aumentano l’MSE7 per pazienti di livello 4 e 5 del 4.8% e 1.2%, rispettivamente ridurrebbe del 5% la stima per i pazienti di livello 3 [1].

Lo studio ipotizza che partizionando i dati per livello di triage, quest’ultimi risultino troppo pochi per il training [1].

7

In statistica, l’errore quadratico medio (in inglese Mean Squared Error, MSE) indica

la discrepanza quadratica media fra i valori dei dati osservati ed i valori dei dati stimati.

(22)
(23)

Capitolo 3

Analisi dei dati

La qualità dei dati è fondamentale per riuscire a costruire un buon modello predittivo. In PS, avere un’ottima qualità dei dati non è scontato, questo perché le urgenze, evidentemente all’ordine del giorno, pongono l’attenzione del personale completamente sulla corretta ed efficace cura del paziente, con il rischio di tralasciare gli aspetti burocratici. Tuttavia, stando a quanto affermato dal personale, la qualità dei dati è abbastanza buona: il margine d’erro-re è inferiod’erro-re ai 5 minuti. Quest’affermazione può essed’erro-re validata ed accertata solamente attraverso l’analisi dei dati.

Questo capitolo ha come obiettivo quello di rappresentare i dati in forma grafica, permetten-do un’interpretazione semplificata, riuscenpermetten-do così a costruire un modello predittivo fondato su presupposti validi. Il materiale presentato sarà dunque di fondamentale importanza per supportare e giustificare le scelte progettuali.

Nelle pagine seguenti verranno presentati 6 grafici per pagina, che si attengono al seguente schema: nella colonna di sinistra vi sono i grafici di medicina, mentre nella colonna di destra quelli di chirurgia. La prima riga mostra i dati relativi ai giorni feriali (lunedì-venerdì), la seconda il weekend (sabato e domenica) e la terza i giorni festivi legalmente riconosciuti.

(24)
(25)

3.1

Analisi univariata

In statistica descrittiva, un’analisi univariata consiste nell’analisi di una singola variabile [10].

Questo genere d’analisi è utile per l’introduzione del contesto e per capire quale sia l’ordine di grandezza dei dati [10]. L’approccio classico consiste nel sviluppare distribuzioni di fre-quenza della singola variabile sotto osservazione [10].

Nelle prossime pagine dunque, verranno presentati grafici che mostrano individualmente le variabili del tempo d’attesa, della permanenza nei box e del livello d’urgenza dei pazienti.

(26)

18 Analisi dei dati

0

100

200

300

Tempo di attesa

0.0000

0.0025

0.0050

0.0075

0.0100

0.0125

0.0150

0.0175

0.0200

Feriali - Probabilità

Medicina

0

100

200

300

Tempo di attesa

0.0000

0.0025

0.0050

0.0075

0.0100

0.0125

0.0150

0.0175

0.0200

Feriali - Probabilità

Chirurgia

0

100

200

300

Tempo di attesa

0.0000

0.0025

0.0050

0.0075

0.0100

0.0125

0.0150

0.0175

0.0200

Weekend - Probabilità

Medicina

0

100

200

300

Tempo di attesa

0.0000

0.0025

0.0050

0.0075

0.0100

0.0125

0.0150

0.0175

0.0200

Weekend - Probabilità

Chirurgia

0

100

200

300

Tempo di attesa

0.0000

0.0025

0.0050

0.0075

0.0100

0.0125

0.0150

0.0175

0.0200

Festivi - Probabilità

Medicina

0

100

200

300

Tempo di attesa

0.0000

0.0025

0.0050

0.0075

0.0100

0.0125

0.0150

0.0175

0.0200

Festivi - Probabilità

Chirurgia

(27)

In Figura 3.1 viene mostrata la distribuzione del tempo d’attesa per pazienti non urgenti.

Si può osservare come per la medicina nei giorni festivi aumenta la probabilità di aspettare maggiormente. Dallo stesso grafico si possono però osservare delle irregolarità, probabil-mente dovute ad una scarsa quantità di dati.

(28)

20 Analisi dei dati

0

200

400

600

Tempo permanenza box

0.000

0.001

0.002

0.003

0.004

0.005

0.006

0.007

0.008

0.009

Feriali - Probabilità

Medicina

0

200

400

600

Tempo permanenza box

0.000

0.001

0.002

0.003

0.004

0.005

0.006

0.007

0.008

0.009

Feriali - Probabilità

Chirurgia

0

200

400

600

Tempo permanenza box

0.000

0.001

0.002

0.003

0.004

0.005

0.006

0.007

0.008

0.009

Weekend - Probabilità

Medicina

0

200

400

600

Tempo permanenza box

0.000

0.001

0.002

0.003

0.004

0.005

0.006

0.007

0.008

0.009

Weekend - Probabilità

Chirurgia

0

200

400

600

Tempo permanenza box

0.000

0.001

0.002

0.003

0.004

0.005

0.006

0.007

0.008

0.009

Festivi - Probabilità

Medicina

0

200

400

600

Tempo permanenza box

0.000

0.001

0.002

0.003

0.004

0.005

0.006

0.007

0.008

0.009

Festivi - Probabilità

Chirurgia

Figura 3.2: Distribuzione del tempo di permanenza nel box per pazienti non urgenti (triage 3, 4).

(29)

In Figura 3.2 viene mostrata la distribuzione del tempo di permanenza in un box per pazienti non urgenti (triage 3 e 4).

Una caratteristica che è possibile notare solo nei grafici di medicina è il doppio picco. È difficile spiegare la motivazione per la quale ciò si manifesta, ma un’ipotesi è che un paziente di medicina considerato non urgente, nel momento in cui viene preso in cura, potrebbe presentare le seguenti casistiche:

• Il paziente presenta problematiche di lieve importanza, addirittura risolvibili tramite una ricetta medica

• Il paziente, pur non essendo urgente, presenta delle problematiche che necessi-tano approfondimenti. Ad esempio potrebbero essere necessarie delle analisi di laboratorio, una radiografia, ecc.

Queste due opzioni possono essere confermate dal fatto che il doppio picco non si verifica con la chirurgia. Infatti difficilmente un paziente chirurgico necessita solamente di un beve consulto.

(30)

22 Analisi dei dati

0

200

400

600

Tempo permanenza box

0.000

0.001

0.002

0.003

0.004

0.005

0.006

Feriali - Probabilità

Medicina

0

200

400

600

Tempo permanenza box

0.000

0.001

0.002

0.003

0.004

0.005

0.006

Feriali - Probabilità

Chirurgia

0

200

400

600

Tempo permanenza box

0.000

0.001

0.002

0.003

0.004

0.005

0.006

Weekend - Probabilità

Medicina

0

200

400

600

Tempo permanenza box

0.000

0.001

0.002

0.003

0.004

0.005

0.006

Weekend - Probabilità

Chirurgia

0

200

400

Tempo permanenza box

0.000

0.001

0.002

0.003

0.004

0.005

0.006

Festivi - Probabilità

Medicina

0

200

400

600

Tempo permanenza box

0.000

0.001

0.002

0.003

0.004

0.005

0.006

Festivi - Probabilità

Chirurgia

(31)

In Figura 3.3 viene mostrata la distribuzione del tempo di permanenza in un box di pazienti urgenti (triage 1 e 2).

Una caratteristica interessante è la forma a campana del grafico, molto vicina ad una distri-buzione normale (o campana gussiana). In nero è rappresentata la distridistri-buzione normale che più si avvicina alla rappresentazione dei dati reali.

(32)

24 Analisi dei dati

1

2

3

4

Livello d'urgenza

0

10

20

30

40

50

Feriali - Percentuale con livello triage

Medicina

1

2

3

4

Livello d'urgenza

0

10

20

30

40

50

60

70

Feriali - Percentuale con livello triage

Chirurgia

1

2

3

4

Livello d'urgenza

0

10

20

30

40

50

Weekend - Percentuale con livello triage

Medicina

1

2

3

4

Livello d'urgenza

0

10

20

30

40

50

60

70

Weekend - Percentuale con livello triage

Chirurgia

1

2

3

4

Livello d'urgenza

0

10

20

30

40

50

60

Festivi - Percentuale con livello triage

Medicina

1

2

3

4

Livello d'urgenza

0

20

40

60

80

Festivi - Percentuale con livello triage

Chirurgia

(33)

In Figura 3.4 si può notare che non vi è un’importante variazione tra i giorni feriali, weekend e festivi.

Dai grafici è interessante osservare la grande differenza di pazienti con un triage di livello 1 e 2 tra la medicina e la chirurgia. Mentre la medicina sfiora un totale del 40% di pazienti con un triage di livello 1 e 2, la chirurgia non raggiunge nemmeno il 20%.

Una quantità così ridotta di casi con un triage di livello 1 per la chirurgia, potrebbe risultare problematico per il training del modello predittivo.

(34)
(35)

3.2

Analisi bivariata

In statistica descrittiva, un’analisi bivariata ha come obiettivo identificare una correlazione tra due variabili [10]. Questo genere d’analisi permette di identificare quelle che potrebbero essere le features in un modello predittivo [10].

(36)

28 Analisi dei dati

00:00

05:45

11:30

17:15

23:00

Fascia oraria

0.0

0.5

1.0

1.5

2.0

Feriali - Numero di pazienti in attesa

Medicina

Tutti

Triage 2,3,4

Triage 1

00:00

05:45

11:30

17:15

23:00

Fascia oraria

0.0

0.5

1.0

1.5

2.0

Feriali - Numero di pazienti in attesa

Chirurgia

Tutti

Triage 2,3,4

Triage 1

00:00

05:45

11:30

17:15

23:00

Fascia oraria

0.0

0.5

1.0

1.5

2.0

Weekend - Numero di pazienti in attesa

Medicina

Tutti

Triage 2,3,4

Triage 1

00:00

05:45

11:30

17:15

23:00

Fascia oraria

0.0

0.5

1.0

1.5

2.0

Weekend - Numero di pazienti in attesa

Chirurgia

Tutti

Triage 2,3,4

Triage 1

00:00

05:45

11:30

17:15

23:00

Fascia oraria

0.0

0.5

1.0

1.5

2.0

Festivi - Numero di pazienti in attesa

Medicina

Tutti

Triage 2,3,4

Triage 1

00:00

05:45

11:30

17:15

23:00

Fascia oraria

0.0

0.5

1.0

1.5

2.0

Festivi - Numero di pazienti in attesa

Chirurgia

Tutti

Triage 2,3,4

Triage 1

(37)

In Figura 3.5 è interessante notare che il numero di pazienti con un livello di triage 2, 3 e 4 varia in funzione della fascia oraria, mentre per quanto riguarda i pazienti con un livello di triage 1 sembrerebbe che non esista una forte correlazione con la fascia oraria. Probabil-mente è dovuto al fatto che un paziente molto grave difficilProbabil-mente rimanderà la sua necessità di andare in PS in un orario più comodo.

I pazienti non gravi (seppur dovessero sentirsi male durante la notte), sono disposti ad aspettare la mattina successiva per recarsi in PS. Quest’ipotesi può essere confermata con la forte crescita tra le 08:00 e le 11:00 del mattino, dove i pazienti non gravi decidono di andare in PS non appena si fa giorno.

In entrambe le categorie mediche, il picco d’affluenza di pazienti lo si percepisce verso le 10:00 del mattino, dove si presentano circa 3 pazienti all’ora. Dopodiché inizia una costante discesa che si protrae fino alle 06:00 del mattino, dove vi è all’incirca 1 paziente ogni ora.

La seconda riga mostra come nel weekend ci sia una leggera variazione nell’affluenza di pazienti rispetto alla media. In particolare si può notare che il picco per la medicina alle 10:00 sale da ca. 1.5 pazienti/h a 1.75 pazienti/h, mentre la chirurgia rimane simile ai giorni feriali.

La terza riga mostra come nei giorni festivi il numero di pazienti, rispetto ai giorni feriali, sia maggiore per la medicina e minore per la chirurgia.

In conclusione è possibile affermare che l’affluenza di pazienti varia in funzione della fascia oraria e dalla tipologia di giorno (feriale / weekend / festivo).

(38)

30 Analisi dei dati

0

5

10

15

20

Fascia oraria

0

20

40

60

80

100

Feriali - Attesa in minuti

Medicina

Triage 3,4

Triage 1,2

0

5

10

15

20

Fascia oraria

0

20

40

60

80

100

Feriali - Attesa in minuti

Chirurgia

Triage 3,4

Triage 1,2

0

5

10

15

20

Fascia oraria

0

20

40

60

80

100

Weekend - Attesa in minuti

Medicina

Triage 3,4

Triage 1,2

0

5

10

15

20

Fascia oraria

0

20

40

60

80

100

Weekend - Attesa in minuti

Chirurgia

Triage 3,4

Triage 1,2

0

5

10

15

20

Fascia oraria

0

20

40

60

80

100

Festivi - Attesa in minuti

Medicina

Triage 3,4

Triage 1,2

0

5

10

15

20

Fascia oraria

0

20

40

60

80

100

Festivi - Attesa in minuti

Chirurgia

Triage 3,4

Triage 1,2

Figura 3.6: Tempo d’attesa medio in funzione della fascia oraria per pazienti non urgenti (feriali, weekend, festivi).

(39)

In Figura 3.6 viene mostrata la variazione del tempo d’attesa medio in funzione della fascia oraria e della categoria medica. Come prevedibile, i tempi d’attesa aumentano tra le 05:00 e le 11:30, dopodiché si verifica una discesa costante.

Dai grafici è possibile notare che i tempi d’attesa per i pazienti urgenti sono abbastanza costanti. Infatti i pazienti con triage 1 per regolamento non hanno attesa e vengono presi in cura direttamente. Mentre per i pazienti con un triage di livello 2, l’attesa massima è di 20 minuti.

Per quanto riguarda i pazienti non urgenti (triage 3 e 4) l’attesa è abbastanza altalenante. Da regolamento un paziente con un triage di livello 3 dev’essere preso in cura entro 120 minuti, mentre per i pazienti di livello 4 non vi è un limite.

Sebbene in Figura 3.5 a pag. 28 la fascia oraria con una maggiore affluenza di pazienti sia attorno alle 10:00, il picco in cui l’attesa media è massima vi è alle 12:00. Questo ritardo probabilmente è dovuto da una leggera congestione creatasi tra le 10:00 e le 12:00.

(40)

32 Analisi dei dati

Lun Mar Mer Gio Ven Sab

Giorno della settimana

0

5

10

15

20

25

30

Numero di pazienti

Medicina

Tutti

Triage 2,3,4

Triage 1

Lun Mar Mer Gio Ven Sab

Giorno della settimana

0

5

10

15

20

25

30

Numero di pazienti

Chirurgia

Tutti

Triage 2,3,4

Triage 1

Figura 3.7: Numero di pazienti di medicina e chirurgia in funzione del giorno della settimana.

In Figura 3.7 viene mostrata e conferma in maniera evidente come la variazione d’affluenza di pazienti sia correlata anche dal giorno della settimana. Per la medicina, tra il martedì e il giovedì, è possibile notare un leggero calo di circa il 20%. Al fine di ottenere una stima più accurata, il modello predittivo scelto dovrebbe tenere in considerazione del giorno della settimana.

1 2 3 4 5 6 7 8 9 10 11 12

Mese

0

100

200

300

400

500

600

700

800

Numero di pazienti

Medicina

Tutti

Triage 2,3,4

Triage 1

1 2 3 4 5 6 7 8 9 10 11 12

Mese

0

100

200

300

400

500

600

700

800

Numero di pazienti

Chirurgia

Tutti

Triage 2,3,4

Triage 1

Figura 3.8: Numero di pazienti di medicina e chirurgia in funzione del mese.

In Figura 3.8 viene mostrato il numero di pazienti in funzione del mese.

Per la medicina non è possibile notare particolarità se non un picco durante il periodo di giugno-settembre, infatti nel mese di luglio si ha il numero massimo di pazienti.

(41)

Per quanto riguarda la chirurgia, è possibile notare un picco nel mese di luglio e nel mese di dicembre. Probabilmente in questo caso le condizioni meteorologiche giocano un ruolo chiave, ovvero: nel mese di dicembre, la neve ed il ghiaccio potrebbero portare ad un au-mento d’incidenti e quindi ad un auau-mento di pazienti chirurgici.

Più in generale è possibile affermare che per la medicina il numero di pazienti aumenta nel periodo estivo, mentre per la chirurgia, il numero di pazienti aumenta nel periodo primaverile e invernale.

(42)
(43)

tempo di attesa

tempo permanenza box

livello urgenza

codice motivo

ora

giorno

mese

festivo

totale pazienti medicina

totale pazienti chirurgia

tempo di attesa

tempo permanenza box

livello urgenza

codice motivo

ora

giorno

mese

festivo

totale pazienti medicina

totale pazienti chirurgia

1

-0.26

0.55

0.28 0.08 -0.01 -0.02 0.01 0.24 0.14

-0.26

1

-0.32 -0.33 -0.03 -0.1 -0.03 -0.04 -0.03 -0.02

0.55

-0.32

1 0.49

0.06 0.05 -0.01 0.02 0.1 0.07

0.28 -0.33

0.49 1

0.03 0.04 0.01 0.02 0.04 0.03

0.08 -0.03 0.06 0.03

1

-0.03 0 -0.01 0.22 0.31

-0.01 -0.1 0.05 0.04 -0.03

1

0.01 -0.16 -0.02 -0.04

-0.02 -0.03 -0.01 0.01 0 0.01

1

0 -0.06 0.02

0.01 -0.04 0.02 0.02 -0.01 -0.16 0

1

0 -0.01

0.24 -0.03 0.1 0.04 0.22 -0.02 -0.06 0

1

0.23

0.14 -0.02 0.07 0.03 0.31 -0.04 0.02 -0.01 0.23

1

Medicina

0.2

0.0

0.2

0.4

0.6

(44)

36 Analisi dei dati

tempo di attesa

tempo permanenza box

livello urgenza

codice motivo

ora

giorno

mese

festivo

totale pazienti medicina

totale pazienti chirurgia

tempo di attesa

tempo permanenza box

livello urgenza

codice motivo

ora

giorno

mese

festivo

totale pazienti medicina

totale pazienti chirurgia

1

-0.21 0.37 0.09 0.11 -0 -0.01 -0.01 0.11 0.33

-0.21

1

-0.35 0 -0.11 -0 -0.02 0.01 -0.02 -0.06

0.37 -0.35

1

0.24 0.04 -0.01 -0.02 -0.01 0.02 0.07

0.09 0 0.24

1

-0.06 -0 -0.01 -0 0.01 -0.02

0.11 -0.11 0.04 -0.06

1

-0.03 0.01 -0.01 0.16 0.26

-0

-0 -0.01 -0 -0.03

1

-0 -0.14 -0.05 -0.06

-0.01 -0.02 -0.02 -0.01 0.01 -0

1

-0.03 -0.07 0.01

-0.01 0.01 -0.01 -0 -0.01 -0.14 -0.03

1

0.01 -0.03

0.11 -0.02 0.02 0.01 0.16 -0.05 -0.07 0.01

1

0.19

0.33 -0.06 0.07 -0.02 0.26 -0.06 0.01 -0.03 0.19

1

Chirurgia

0.2

0.0

0.2

0.4

0.6

(45)

In statistica, il coefficiente di correlazione permette di mettere in relazione due variabili. Più è alto il valore di correlazione e più una variabile "descrive" l’altra.

Le matrici di correlazione nelle pagine precedenti, una per la medicina e una per la chirur-gia, hanno come scopo l’identificazione di possibili features per i modelli predittivi.

Più precisamente si vuole mettere in evidenza gli attributi con una correlazione con il tempo d’attesa.

La massima correlazione la si ottiene agli estremi 1 (correlazione positiva) e -1 (correlazione negativa).

Le variabili con la maggiore correlazione con il tempo d’attesa sono: • Livello d’urgenza

• Numero totale di pazienti in medicina • Numero totale di pazienti in chirurgia

È interessante notare la correlazione negativa tra il livello d’urgenza ed il tempo di perma-nenza nel box. Questo significa che con l’aumentare del livello d’urgenza (e quindi per pazienti meno urgenti), diminuisce il tempo di permanenza nel box.

Dalle matrici di correlazione sembrerebbe che non ci sia nessuna correlazione tra il tempo d’attesa e la fascia oraria. In realtà non è così, ed è anche dimostrato nella Figura 3.11 a pagina 38. La correlazione risulta bassa perché il tempo d’attesa aumenta nella prima parte della giornata e diminuisce nella seconda metà, questo significa che non è presente una correlazione lineare tra il tempo d’attesa e la fascia oraria, ma una correlazione non lineare.

(46)

38 Analisi dei dati

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

fascia oraria

0

100

200

300

tempo di attesa

Medicina

0

1

2

3

4

5

6

7

8

9

10

11

12

Numero di pazienti in medicina

0

100

200

300

tempo di attesa

Medicina

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

fascia oraria

0

100

200

300

tempo di attesa

Chirurgia

0

1

2

3

4

5

6

7

8

9

10

11

Numero di pazienti in chirurgia

0

100

200

300

tempo di attesa

Chirurgia

Figura 3.11: Box plot del tempo d’attesa in funzione della fascia oraria e del numero di pazienti presenti in pronto soccorso (solo per pazienti non urgenti, triage 3 e 4)

(47)

Attraverso la Figura 3.11 è possibile confermare le supposizioni sulla correlazione tra il tem-po d’attesa e la fascia oraria, e sulla correlazione tra il temtem-po d’attesa e il numero di pazienti in PS.

In Figura 3.11, nel grafico di medicina, è possibile notare un’anomalia. Infatti, sembrerebbe che con 11 pazienti in PS si aspetti mediamente meno che con 10. Ovviamente questo non è corretto, la quantità di casi in qui erano presenti 11 pazienti di medicina in PS è troppo bassa per essere statisticamente rilevante. Infatti, con un’analisi più approfondita si è potuto constatare che i casi in cui vi erano più di 11 pazienti in coda sono meno dell’1% del dataset.

(48)

40 Analisi dei dati

1214

1917

1313

1901

1915

1910

1404

1906

1115

1602

1702

1216

1904

1919

1703

1914

1603

1306

1903

1001

1402

1701

1308

1110

1502

1113

1213

1209

1310

1009

1801

1401

1802

1007

1005

1305

1920

1301

1304

1307

1004

1309

1908

1101

1109

1003

1111

1105

1102

1201

1601

1907

1002

1108

1107

1302

1010

1501

1303

1008

1406

1913

1104

1503

1114

1106

1207

1112

1006

1204

1210

1911

1909

1905

1208

1103

1403

1205

1918

1405

1912

1215

1211

Codice motivo

0

100

200

Tempo permanenza box

300

400

500

600

Figura 3.12: Box plot del tempo di permanenza in un box in funzione del codice motivo del paziente (medicina).

(49)

1316

1603

1901

1213

1214

1216

1910

1903

1914

1919

1602

1917

1502

1313

1309

1202

1210

1904

1702

1703

1211

1920

1802

1110

1701

1006

1204

1009

1405

1205

1106

1310

1208

1206

1001

1212

1908

1407

1007

1403

1101

1404

1801

1402

1601

1209

1406

1302

1306

1912

1104

1107

1105

1102

1003

1907

1201

1401

1909

1304

1008

1501

1305

1215

1303

1207

1112

1005

1301

1915

1307

1911

1203

1108

1109

1002

1115

1111

1103

1916

Codice motivo

0

100

200

Tempo permanenza box

300

400

500

600

Figura 3.13: Box plot del tempo di permanenza in un box in funzione del codice motivo del paziente (chirurgia).

(50)

42 Analisi dei dati

Le Figure 3.12 e 3.13 mostrano un’informazione molto interessante: esiste una correlazione tra il codice motivo ed il tempo di permanenza in un box.

Il codice motivo, identificato in fase di triage, rappresenta la motivazione principale per la quale un paziente si trova in PS. Ad esempio, il codice motivo 1001 rappresenta un arresto cardiaco.

Questa correlazione potrebbe essere sfruttata nel modello predittivo, infatti, attraverso l’ora-rio di entrata nel box, sarebbe possibile stimare quale sia la probabilità che un paziente stia per terminare le cure.

(51)

Capitolo 4

Modelli predittivi

4.1

Moving Average

In statistica, la media mobile è un modello utilizzato per analizzare le serie storiche [11]. Una serie storica consiste in una registrazione cronologica campionata a frequenza, non necessariamente costante, di osservazioni di una variabile [11]. Nel problema specifico, la frequenza degli arrivi dei pazienti non è costante e quindi si tratta di una serie storica con un campionamento non uniforme.

Nel problema specifico la variabile sotto osservazione è il tempo d’attesa. La serie storica è quindi composta dall’attesa di ogni paziente in ordine per data di arrivo. Attraverso una media mobile è quindi possibile fare delle previsioni su quello che potrebbe essere il tempo d’attesa futuro.

4.1.1

Dataset

Il dataset consiste in una serie storica così composta:

Yt= {Y1, Y2, Y3, . . . , YT} (4.1)

dove Yt rappresenta il tempo d’attesa di un paziente non urgente al tempo t. Nel caso

specifico, la media mobile è così definita:

mt= 1 k 0 X i=−w yt+i (4.2)

Dove w rappresenta la dimensione della finestra e k il numero di pazienti racchiusi nella finestra.

(52)

44 Modelli predittivi

L’unico parametro flessibile del modello è la dimensione della finestraw. Per scegliere il valore più appropriato della dimensione della finestra sono stati effettuati diversi tentativi, con l’obiettivo di minimizzare l’MSE. Infatti, tramite cross-validation è stato identificato come valore ottimale della finestra 90 minuti.

Questo approccio presenta però un difetto, ovvero quello di avere una risposta tardiva pari alla dimensione della finestra. Queste situazioni emergono quando sono presenti forti cre-scite o cali (ad es. il picco della mattina, figura 3.6 a pag. 30). Infatti il modello, non appena si verifica una discesa a seguito di un picco massimo, continuerà a sovrastimare per 90 minuti. Mentre quando avviene una salita a seguito di una discesa, il modello tenderà a sottostimare per 90 minuti.

I risultati sono disponibili nel capitolo 6, pag. 53.

4.2

Lasso

In statistica e machine learning, Lasso è un modello di regressione capace di effettuare la selezione delle features rilevanti e di effettuare la regolarizzazione, evitando situazioni di overfitting1 [13].

In forma matriciale viene definito nel seguente modo:

f ( ~S) = ~BTS~ (4.3)

doveB~ viene definito attraverso la seguente funzione obiettivo:

min β∈Rp  1 n y − S ~B 2 2+ λk ~Bk1  (4.4) Il termine di penalitàλ, utilizzato da Lasso per evitare situazioni di overfitting, è un parametro flessibile che può variare da 0 ad 1. Il miglior valore diλè stato identificato tramite cross-validation [14], è stato quindi generato un vettore di possibili λ, per ognuno di questi è stato calcolato il corrispettivo MSE generato dal modello. A questo punto, il valore di λ corrisponde al valore che si ha nel momento in cui l’MSE converge.

4.2.1

Dataset

Il dataset utilizzato per il training è così composto:

1

L’overfitting (adattamendo eccessivo) è quella situazione che si verifica quando il modello non è più in grado di generalizzare e quindi non più in grado di predire nuove situazioni [12].

(53)

dataset = {(a1, ~S1), (a2, ~S2)...(an, ~Sn)} (4.5)

dovenè il numero totale di pazienti che sono stati in PS,anil tempo effettivamente atteso

per l’ennesimo paziente eS~nil vettore che rappresenta lo stato del PS nel momento in cui

l’ennesimo paziente ha effettuato il triage.

Nel caso specifico, il vettoreS~nè così composto:

~ Sn=                      livello_urgenzan giorno_della_settimanan

f ascia_orarian f estivon

numero_pazienti_non_urgenti_in_attesan numero_pazienti_non_urgenti_in_curan

numero_pazienti_urgenti_in_attesan numero_pazienti_urgenti_in_curan numero_pazienti_senza_triage_in_attesan

numero_pazienti_in_cura_senza_triagen                      (4.6)

Il livello d’urgenza, come dimostrato nelle figure 3.9 a pag. 35 e 3.10 a pag. 36 ha una buo-na correlazione con il tempo d’attesa (più è urgente un paziente, meno aspetta). Il giorno della settimana e la fascia oraria permettono di identificare il carico di lavoro e di conse-guenza il personale dedicato (Figura 3.5 a pag. 28). Identificare i giorni festivi permette di individuare le situazioni in cui il carico di lavoro ed il tempo d’attesa medio aumenta (Figure 3.5 a pag. 28, 3.6 a pag. 30). Infine, il numero di pazienti urgenti, non urgenti, nel box o in attesa permettono di descrivere ed identificare lo stato attuale del PS (Figura 3.11 a pag. 38).

I risultati sono disponibili nel capitolo 6, pag. 53.

4.3

Neural Network Regression

Le Neural Network (NN) sono una tecnologia ispirata dal funzionamento dei sistemi ner-vosi biologici [15]. Con le giuste condizioni, le NN sono in grado di apprendere modelli matematico-statistici attraverso il training. Le NN sono un modello a black box2, questo significa che non sempre si riesce a dare una spiegazione logica di come sia riuscita a rag-giungere un determinato risultato.

2

Un modello black box è un sistema che è descrivibile nel suo comportamento esterno ovvero solo per come reagisce in uscita a una determinata sollecitazione in ingresso. [12]

(54)

46 Modelli predittivi

Ne esistono diverse varianti, tra le quali troviamo la Neural Network Regression (NNR), ossia una NN con apprendimento supervisionato3. A differenza delle regressioni lineari, con le giuste impostazioni, le NNR sono in grado di riprodurre comportamenti di funzioni non lineari. X1 X2 ... Xn ...

Neuroni in entrata Strati nascosti Strati nascosti

y (x * w) + b

ReLU

Figura 4.1: Rappresentazione grafica dell’implementazione della Neural Network Regression.

In Figura 4.1 viene mostra la struttura della NNR implementata. I neuroni sono completa-mente interconnessi4, sono presenti 3 strati nascosti composti da 150 neuroni per strato. In partenza, pesi sinaptici e bias vengono impostati con valori casuali, per poi essere adattati nella fase di training tramite l’ottimizzatore "Adam". Come funzione d’attivazione è stato utilizzato "ReLU". La NN necessita di una funzione errore da minimizzare, in questo caso è stato utilizzato l’errore quadratico medio (MSE).

4.3.1

Dataset

Il dataset utilizzato per il training, simile a quanto fatto per Lasso (Figura 4.5 a pag. 45), è così composto:

dataset = {(a1, ~S1), (a2, ~S2)...(an, ~Sn)} (4.7)

dovenè il numero totale di pazienti che sono stati in PS,anil tempo effettivamente atteso

per l’ennesimo paziente, S~nil vettore che rappresenta lo stato del PS nel momento in cui

3Paradigma che prevede l’utilizzo di algoritmi con il fine di minimizzare l’errore della rete [12]. 4

(55)

l’ennesimo paziente ha effettuato il triage.

Nel caso specifico, anche il vettoreS~nè simile alla definizione utilizzata per Lasso (Figura

4.6 a pag. 45), ovvero: ~ Sn=                           livello_urgenzan sin(2πgiorno_della_settimanan 7 ) cos(2πgiorno_della_settimanan 7 ) sin(2πf ascia_orarian 24 ) cos(2πf ascia_orarian 24 ) f estivon

numero_pazienti_non_urgenti_in_attesan numero_pazienti_non_urgenti_in_curan

numero_pazienti_urgenti_in_attesan numero_pazienti_urgenti_in_curan numero_pazienti_senza_triage_in_attesan

numero_pazienti_in_cura_senza_triagen                           (4.8)

A differenza dell’implementazione di Lasso, il giorno della settimana e la fascia oraria ven-gono codificate come variabili periodiche [16].

(56)
(57)

Capitolo 5

Data cleaning

Non sempre i dati che si hanno a disposizione sono di ottima qualità, a volte è necessario rimuovere dati anomali o ridondanti.

Secondo il personale la qualità dei dati è considerata buona, ovvero con un margine d’errore inferiore ai 5 minuti. In un’analisi più approfondita si è confermata la loro bontà.

Analizzando il 5% dei casi peggiori, ovvero i casi in cui il modello commetteva grossi errori, si possono riscontrare delle anomalie, la maggior parte consiste in pazienti non urgenti che hanno aspettato solamente un paio di minuti nonostante il PS fosse sovraffollato, situazio-ni evidentemente impossibili dato che in pochi minuti si riesce ad effettuare al massimo il triage. Fortunatamente questi casi rappresentano una netta minoranza rispetto ai dati at-tendibili.

In statistica esiste il concetto di outliers, ovvero quei valori anomali appartenenti ad un in-sieme di osservazioni [17]. Nel caso specifico gli outliers possono essere causati da errori nel data entry (outlier globali), oppure da situazioni imprevedibili (outlier contestuali).

5.1

Outliers globali

Alcuni outliers globali sono facilmente rimovibili senza l’ausilio di un modello matematico statistico. Ad esempio, tempi d’attesa negativi (pazienti che sono entrati nel box prima di essere arrivate in PS) possono essere rimossi con un semplice filtro sui dati.

Non sempre rimuovere gli outliers globali è semplice come nell’esempio sopracitato. Per questo motivo sono presenti diverse tecniche, tra queste vi è l’utilizzo di z-score.

(58)

50 Data cleaning

L’indice z-score è così definito:

z = x − µ

σ (5.1)

doveµrappresenta la media delle osservazioni eσ la deviazione standard.

La tecnica per rimuovere gli outliers globali consiste nel calcolare il valore z-score di ogni osservazione e scartare tutte le osservazioni in cui|z| > 3.

5.2

Outliers contestuali

Gli errori più grandi commessi dai modelli predittivi studiati in precedenza, sono generati da situazioni imprevedibili, come ad esempio la seguente sequenza di situazioni:

1. Il PS è scarico

2. Si annuncia un paziente che a seguito del triage risulta non urgente 3. Il tempo d’attesa stimato è di 20 minuti

4. Improvvisamente arrivano diversi casi urgenti

5. Il tempo d’attesa effettivo slitta dai 20 minuti preventivati a 140 minuti. Errore com-messo: 120 minuti, ovvero 2 ore.

Chiameremo queste situazioni "eventi eccezionali".

Gli "eventi eccezionali" possono essere problematici per il training: l’imprevedibilità (vedi Fi-gura 3.5 a pag. 28) e il loro impatto sull’errore commesso nella stima, possono portare ad un peggioramento del risultato finale.

La situazione descritta (eventi eccezionali), possono essere identificati come degli outliers contestuali, ovvero dei valori, che dato il loro contesto risultano anomali (PS vuoto -> lunga attesa).

Riflettendo se rimuovere gli outliers contestuali dal dataset di training risulta che: • Lasciando il dataset integro

– il modello tenderà a sovrastimare il tempo d’attesa, con il risultato che negli

eventi eccezionali sbaglierà comunque di tanto (tende a sovrastimare ma l’errore è comunque alto) ed allo stesso tempo sbaglierà sovrastimando anche in tutte le situazioni "normali"

(59)

• Rimuovendo gli outliers

– si ottiene che nel caso in cui si manifestano eventi eccezionali vi sarà un

er-rore maggiore, ma per tutte le situazioni "normali" si eviterà di sovrastimare inutilmente.

Ne risulta che, rimuovere gli outliers contestuali può portare ad un miglioramento generale nel risultato finale.

Questo progetto vuole portare un valore aggiunto analizzando come l’algoritmo reagisce con la rimozione degli outliers contestuali.

Fortunatamente gli outliers contestuali sono un fenomeno molto studiato ed esistono tecni-che per poterli identificare e rimuovere.

La tecnica utilizzata in Lasso e nella NNR consiste nell’effettuare il training del modello con il dataset completo, dopodiché, per ogni osservazione, calcolare lo scarto [17]. Lo scarto viene quindi utilizzato come score ed indicatore di probabile outliers contestuale [17]. A questo punto basta rimuovere il 5% delle stime peggiori [17]. Il processo viene ripetuto più volte fino a quando il miglioramento (in questo caso riconducibile ad una diminuzione del MSE) converge e si stabilizza.

(60)
(61)

Capitolo 6

Risultati delle performance dei

modelli studiati

In questo capitolo si vuole confrontare i diversi modelli predittivi secondo la metrica MSE.

È doveroso specificare che ogni modello predittivo implementa features differenti e codifica-te in maniera differencodifica-te.

6.1

Metriche

Per valutare l’efficacia dei modelli è stato utilizzato l’errore quadratico medio (MSE) ed il coefficiente di determinazione (R2). Il dataset comprende dati a partire dal 01.01.2015 fino al 01.06.2018.

Nella scelta e nella validazione del modello predittivo, è stato utilizzato il seguente approccio:

• Il dataset principale è stato frazionato in 4 parti:

– 01.01.2015 - 31.12.2015 (DS1) – 01.01.2016 - 31.12.2016 (DS2) – 01.01.2017 - 31.12.2017 (DS3) – 01.06.2017 - 31.05.2018 (DS4)

• Per ogni parte del dataset è stato utilizzato il 70% dei dati per il training ed il restante 30% per la validazione del modello

(62)

54 Risultati delle performance dei modelli studiati

6.1.1

Errore Quadratico Medio

In statistica, l’Errore Quadratico Medio (Mean Squared Error, MSE) indica la discrepanza quadratica media fra i valori dei dati osservati ed i valori dei dati stimati1.

L’MSE è così definito:

M SE = Pn

i=1(xi−bxi) 2

n (6.1)

Dovenrappresenta il numero di valori osservati, xi la singola osservazione e bxi il valore stimato.

L’errore quadratico medio quindi ci dà una misura per giudicare la qualità di uno stimatore.

6.1.2

Coefficiente di determinazione

In statistica, il coefficiente di determinazione, (più comunementeR2), è una proporzione tra la variabilità dei dati e la correttezza del modello statistico utilizzato. Esso misura la frazione della varianza della variabile dipendente espressa dalla regressione2:

R2 ≡ 1 − Pn i=1(yi− ˆyi)2 Pn i=1(yi− y)2 (6.2) doveyi sono i valori osservati,yè la loro media eyˆsono i lavori stimati.

6.2

Performance dei vari modelli predittivi

Di seguito una tabella comparativa di tutti i modelli predittivi analizzati:

Tabella 6.1: Tabella di confronto tra i vari modelli predittivi. L’errore viene espresso attraverso l’Errore Quadratico Medio (MSE). Gli errori sono rappresentati in minuti.

DS1 / DS1 SO DS2 / DS2 SO DS3 / DS3 SO DS4 / DS4 SO

Moving Average 3512 / - 3420 / - 3490 / - 3410 /

-Lasso 1951 / 620 1894 / 605 1923 / 615 1930 / 618

NNR 1712 / 541 1812 / 740 1750 / 693 1770 / 704

Il modello ad offrire la migliore prestazione è la NNR, con un MSE pari a 1761 si avvicina all’implementazione effettuata dai ricercatori della Stanford University al SMMC [1].

1Fonte: https://it.wikipedia.org/wiki/Errore_quadratico_medio 2

(63)

Come ben visibile nella tabella, effettuato il data cleaning, i risultati subiscono un netto mi-glioramento. Infatti, nel dataset originale erano presenti poche situazioni che generavano grandi problemi nel risultato finale.

Di seguito una tabella riassuntiva che mostra il coefficiente di determinazione in funzione del dataset e del modello:

Tabella 6.2: Coefficiente di determinazione (R2) per tutti i dataset con e senza data cleaning.

DS1 / DS1 SO DS2 / DS2 SO DS3 / DS3 SO DS4 / DS4 SO Lasso 0.388 / 0.643 0.363 / 0.625 0.394 / 0.589 0.386 / 0.578

NNR 0.416 / 0.714 0.403 / 0.697 0.425 / 0.715 0.414 / 0.696

Come ben visibile, a dare migliori performance è la NNR, in grado di raggiungere un coeffi-ciente di determinazione pari a 0.4145 (senza il data cleaning). Effettuando un data cleaning (rimozione di eventi eccezionali, come spiegato a pagina 50 nella sezione 5.2) il coefficiente di determinazione aumenta fino ad una media di 0.7055.

(64)

56 Risultati delle performance dei modelli studiati

Di seguito una figura che mostra la media del tempo d’attesa effettivo a confronto con Lasso ed una Neural Network Regression.

0

5

10

15

20

Fascia oraria

30

40

50

60

70

80

90

Tempo d'attesa in minuti

Tempo d'attesa medio

Tempo d'attesa stimato (NNR)

0

5

10

15

20

Fascia oraria

30

40

50

60

70

80

90

Tempo d'attesa in minuti

Tempo d'attesa medio

Tempo d'attesa stimato (Lasso)

Figura 6.1: Confronto tra la media del tempo d’attesa effettivo di pazienti non urgenti, stima del tempo d’attesa con Lasso e Neural Network Regression.

Come visibile nella tabella di confronto 6.1 a pagina 54, il modello che offre performance migliori è la NNR. Sebbene i due modelli diano performance molto simili, la NNR è in grado di seguire meglio la curva al mattino quando il PS è scarico e durante il picco di mezzogior-no.

Riferimenti

Documenti correlati

Anche in questo caso, come per gli or- ganismi dannosi in agricoltura, il cambiamento globale agisce a due livelli: da una parte, il riscaldamento del clima rende le regioni

264 Abbiamo già trattato questi fiumi nel paragrafo 3.1 L'Analogia poiché Erodoto li utilizza come termine di paragone per dimostrare l'origine alluvionale della Valle del Nilo:

IN ALCUNI L’UOMO NON E’ INTERVENUTO (ES.: MARE, FORESTA …), PERCIO’ SI TRATTA DI ECOSISTEMI NATURALI; ALTRI INVECE (ES.: CITTA’, CAMPI COLTIVATI …) SONO STATI COSTRUITI

In particolare, Nino Cartabellotta (Fondazione GIMBE) ha posto l’enfasi sulla necessità di migliorare ed integrare produzione, sintesi e trasferimento delle evidenze alle

However, patients with a very high pre-test likelihood of coronary artery disease as a source of their chest pain (e.g., known CHD, ST eleva- tion, positive cardiac markers)

29 performed a subgroup analysis of the Emergency Room Assessment of Ses- tamibi for the Evaluation of Chest Pain (ERASE Chest Pain) trial 30 (described below), and showed that

Activation of Service After the patient is seen by the ED physician, they will call the hub (Richard Young Psychiatric Hospital) and speak with a mental health practitioner

General hospital consultation skills are helpful in an emergency department, but when assuming responsibility for cases, good inpatient treatment skills can become critical..