• Non ci sono risultati.

Ricerca di mercato nel settore dei disponibile elettromedicali: il caso Santec e l'introduzione di riparazione di sonde ecografiche

N/A
N/A
Protected

Academic year: 2021

Condividi "Ricerca di mercato nel settore dei disponibile elettromedicali: il caso Santec e l'introduzione di riparazione di sonde ecografiche"

Copied!
70
0
0

Testo completo

(1)

UNIVERSITA’ DEGLI STUDI DI PISA

DIPARTIMENTO DI ECONOMIA E MANAGEMENT

CORSO DI LAUREA IN MARKETING E RICERCHE DI MERCATO

TESI DI LAUREA

Ricerca di mercato nel settore dei dispositivi elettromedicali:

il caso Santec e l'introduzione di un servizio di riparazione di sonde ecografiche

CANDIDATO RELATORE

Alberto Campatelli Lucio Masserini

(2)

SOMMARIO

1) INTRODUZIONE ... 3

1.1) L’azienda ... 3

1.2) Obiettivi della tesi ... 5

2) FONDAMENTI TEORICI ... 6

2.1) Analisi delle componenti principali ... 6

2.1.1) Come determinare le componenti principali ... 7

2.1.2) Cosa sono le componenti principali... 10

2.1.3) Scelta del numero delle componenti principali ... 11

2.2) Analisi dei gruppi ... 14

2.2.1) Scelta della distanza o dell’indice di similarità ... 16

2.2.2) Metodi di formazione dei gruppi ... 17

2.2.3) Metodi gerarchici agglomerativi ... 18

2.2.4) Metodo del legame singolo ... 20

2.2.5) Metodo del legame completo ... 21

2.2.6) Metodo del legame medio ... 22

2.2.7) Metodo di Ward ... 23

2.2.8) Valutazione delle partizioni e scelta numero di gruppi ... 23

2.2.9) Metodi non gerarchici ... 25

2.2.10) Metodo delle k-medie ... 26

3) ANALISI DEI DATI ... 28

3.1) Raccolta dati ... 28

3.1.1 Il questionario ... 28

3.2) Database utilizzato ... 30

4.3) Analisi descrittive ... 33

3.4) Analisi delle componenti principali ... 41

3.5) Analisi dei gruppi ... 46

4) CONCLUSIONI ... 61

5) BIBLIOGRAFIA ... 63

(3)

1) INTRODUZIONE

Questo studio tratta una indagine di mercato effettuata per conto di Santec, una piccola azienda nel settore dei dispositivi elettromedicali che opera a livello nazionale e con sede a Livorno. Nel panorama attuale Santec ha individuato una grande opportunità di mercato, ossia quella di un servizio di riparazione di sonde ecografiche. Al momento ci sono solo alcune aziende piccole e poco conosciute nel settore di dispositivi elettromedicali, infatti l’azienda spera nel prossimo futuro di entrare con grande successo in questo mercato grazie anche alla partnership con PRS, un’impresa multinazionale francese specializzata nella riparazione di sonde ecografiche. Per raggiungere le unità statistiche, rappresentate dai medici, sono stati sfruttati i congressi in cui Santec ha partecipato nel periodo che va da settembre 2016 a novembre 2016. Le tecniche statistiche utilizzate per questa indagine sono l’analisi delle componenti principali e l’analisi dei gruppi o analisi cluster, che verranno spiegate dettagliatamente di seguito.

1.1) L’azienda

Santec è un’azienda nata nel 1999 che opera nel settore della commercializzazione e assistenza tecnica di apparecchiature elettromedicali e medical devices con contratto di agenzia e rivendita per aziende appartenenti al settore health care. L’azienda controlla MED2000, un’azienda che opera nel settore veterinario dal 1999. La sede legale è a Reggio Emilia, mentre la sede operativa si trova a Livorno.

Santec possiede per la regione Toscana l’esclusiva di unico distributore per i seguenti brand:

 Hitachi Aloka, di cui Santec commercializza dispositivi ad ultrasuoni (es. ecografi) e grandi macchine (es. TAC, risonanze magnetiche);

 Andra SpA, che ha dato a Santec l’esclusiva per la distribuzione degli ortopantomografi Instrumentarium, della radiologia digitale Samsung, delle cassette radiologiche wi-fi Konica Minolta e delle pacs Sectra.

(4)

Santec possiede anche il diritto esclusivo di commercializzare in tutta Italia due prodotti altamente innovativi:

 Amity International, per quanto riguarda le Salviette Virusolve+;

 Fotona Laser, per quanto riguarda il Santec Laser SmoothTM (Fotona). Inoltre Santec rappresenta anche le seguenti aziende:

 Centrel in Toscana per sistemi di colposcopia;

 Totoku in Toscana per schermi di radiologia;

 I.M.S. in Emilia-Romagna per apparecchiature per mammografia, biopsia al seno e tomosintesi;

 Tecnodent nel territorio nazionale per poltrone medicali che servono ad aumentare il comfort di medico e paziente durante i trattamenti.

Santec oltre ad essere un semplice distributore è anche in grado di offrire la possibilità di stipulare contratti di assistenza tecnica per apparecchiature elettromedicali, studiati in base alle più diverse esigenze economico-gestionali del cliente:

 assistenza su chiamata;

 supporto applicativo, per la risoluzione di eventuali problemi di utilizzo e per permettere una sempre maggiore conoscenza delle funzioni delle apparecchiature;

 verifica di sicurezza elettrica, per la tutela dei pazienti e degli operatori;

 contratto di manutenzione, che consiste in forme di assistenza con manutenzioni programmate ed interventi correttivi;

Nel 2017 si prevede di aggiungere un servizio di riparazione di sonde ecografiche in collaborazione con la PRS (Probe Repair System), azienda francese leader nel settore.

(5)

1.2) Obiettivi della tesi

L’intenzione di Santec nel 2017 è quella di lanciare sul mercato italiano dei dispositivi medicali un servizio di riparazione di sonde ecografiche, quindi l’obiettivo della ricerca è quello di sondare l’eventuale profittabilità dell’introduzione del nuovo servizio. L’oggetto di questa indagine è quindi quello di verificare se ci sono i presupposti per Santec per introdurre sul mercato questo nuovo servizio e di valutare in modo più analitico la reale opportunità di mercato individuata dall’azienda. Attraverso l’analisi dei dati identificheremo e analizzeremo la clientela potenziale, poi segmenteremo il mercato per capire quale o quali segmenti target saranno più in linea con le strategie dell’azienda. Utilizzeremo una segmentazione a posteriori in cui i segmenti, o gruppi, sono determinati in seguito all’applicazione di opportune tecniche di analisi quantitativa e non sono noti nella fase precedente l’elaborazione dell’informazione.

(6)

2) FONDAMENTI TEORICI

2.1) Analisi delle componenti principali

Con l’analisi delle componenti principali possiamo ridurre le dimensioni di una matrice n x p costituita da un collettivo di unità osservate (n) rispetto a un insieme numeroso di variabili quantitative (p) correlate fra loro. Lo scopo primario di questa metodologia statistica è la sostituzione delle p variabili quantitative di partenza, correlate, con un nuovo insieme di k (k

< p) variabili dette componenti principali, che sono sempre tra loro incorrelate, quindi

ortogonali, sono elencate in ordine decrescente della loro varianza e sono costruite come combinazione lineare delle variabili originali o di quelle standardizzate.

La correlazione fra le variabili originarie gioca un ruolo importante nella capacità dell’analisi di ridurre il numero di variabili, più precisamente:

Se le p variabili sono fortemente correlate, sia positivamente che negativamente, un numero k (k<<p) di componenti principali spiega una quota elevata della varianza totale delle p variabili e possiamo facilmente trascurare le restanti (p – k) variabili sintetizzando molto efficacemente le variabili di partenza. In questo caso nella rappresentazione delle osservazioni sul piano cartesiano la direzione principale dei punti è molto evidente, così come la rotazione ortogonale in grado di ottenere il miglior accostamento alla nube dei punti, quindi la riduzione di dimensionalità può avvenire perdendo poche informazioni rilevanti. Così facendo dalla matrice iniziale dei dati n x p si effettua una sensibile riduzione delle dimensioni passando a una matrice di dati n x k, semplificando notevolmente i termini del problema.

Se le p variabili sono poco correlate si potrà comunque trovare un numero k di componenti principali, ma sarà una sintesi decisamente meno efficace rispetto al caso precedente poiché la eventuale riduzione di dimensionalità può avvenire soltanto perdendo informazioni rilevanti. Sul piano cartesiano non ci sarà una direzione principale prevalente, anche se sarà comunque possibile trovare una rotazione ortogonale in grado di ottenere il migliore accostamento alla nube dei punti.

(7)

 Quando le variabili non sono correlate non è possibile trovare una soluzione ortogonale in grado di ottenere il migliore accostamento alla nube dei punti poiché non esiste una direzione principale.

2.1.1) Come determinare le componenti principali

Per determinare le componenti principali dobbiamo come prima cosa scegliere la matrice di partenza per l’analisi, le possibilità sono la matrice di covarianza oppure la matrice di correlazione. Le componenti principali ottenute partendo dalla matrice di covarianza sono una combinazione lineare degli scostamenti dalla media delle variabili originarie. Possiamo però confrontare tali variabili solo se sono espresse nella stessa unità di misura e presentano ordini di grandezza non troppo diversi. E’ necessario prestare molta attenzione a quanto appena detto perché le varianze delle variabili originarie possono influenzare molto l’efficacia dell’analisi e se si utilizzano variabili misurate con diverse unità di misura o con ordini di grandezza decisamente diversi, le variabili con varianze più elevate assumeranno maggior peso e quindi maggiore importanza nel calcolo delle componenti principali. Quando sono presenti variabili con varianza molto diversa, deve essere valutata l’opportunità di omogeneizzare la scala attraverso la standardizzazione, se non vogliamo che le variabili con varianza più elevata rivestano maggior peso delle altre. In questo caso il punto di partenza dell’analisi sarà la matrice di correlazione e non quella di covarianza. Comunque è necessario precisare che si ottengono risultati diversi utilizzando la matrice di correlazione piuttosto che quello di covarianza e viceversa, perciò la scelta in merito alla standardizzazione e di conseguenza alla matrice di partenza deve essere ben motivata.

Passiamo quindi al calcolo per ottenere le componenti principali, avendo a disposizione p variabili e n > p unità, possono essere ricavate al massimo p componenti principali. In particolare, la generica componente principale CPv è così definita:

𝑪𝑷𝒗 = 𝒂𝒗𝟏∗ 𝒙𝟏 + 𝒂𝒗𝟐∗ 𝒙𝟐+ … + 𝒂𝒗𝒔 ∗ 𝒙𝒔 + … + 𝒂𝒗𝒑∗ 𝒙𝒑 = ∑ 𝒂𝒗𝒋∗ 𝒙𝒋

𝒑 𝒋=𝟏

(8)

Dove avs è il coefficiente che lega la componente lineare v alla variabile s e xs indica la

s-esima variabile della matrice dei dati iniziali. Questi coefficienti, come già accennato in precedenza, sono scelti in modo che la CP1 sia la combinazione lineare avente massima

varianza, la CP2 sia la combinazione lineare di massima varianza dopo la prima e ortogonale a

questa e le seguenti con il medesimo metodo, cioè la generica CPv sarà la combinazione

lineare avente massima varianza dopo le prime v – 1 e ortogonale alle stesse precedenti v – 1 combinazioni.

Sostituendo ad ogni xj della formula per determinare la generica componente principale CPv il

valore xij osservato per la j-esima variabile sull’unità i-esima della matrice dei dati iniziali,

possiamo ricavare il punteggio o score CPiv dell’unità i-esima sulla componente principale

v-esima.

𝑪𝑷𝒊𝒗 = ∑ 𝒂𝒗𝒋∗ 𝒙𝒊𝒋

𝒑 𝒋=𝟏

Questi punteggi acquisteranno notevole rilevanza nella nostra analisi perché verranno estratti per ciascuna componente e per ciascuna osservazione, così da essere trattati come nuove variabili da utilizzare nell’ambito dell’analisi per gruppi.

Se però il punto di partenza scelto per l’analisi delle componenti principali è la matrice di correlazione, supponendo di utilizzare come matrice dei dati quella delle variabili standardizzate, la generica componente principale CPv sarà ottenuta come combinazione

lineare degli scostamenti standardizzati, quindi così definita:

𝑪𝑷𝒗 = 𝒂𝒗𝟏∗ 𝒛𝟏 + 𝒂𝒗𝟐∗ 𝒛𝟐 + … + 𝒂𝒗𝒔∗ 𝒛𝒔 + … + 𝒂𝒗𝒑∗ 𝒛𝒑 = ∑ 𝒂𝒗𝒋∗ 𝒛𝒋

𝒑 𝒋=𝟏

A questo punto è importante osservare con attenzione la matrice di correlazione, che serve a verificare che sussista una correlazione significativa tra le variabili, dato che, come è già stato accennato in precedenza, se le variabili non fossero correlate non sarebbe utile procedere con l’analisi. Si noterà che la varianza complessiva contenuta nella matrice di correlazione è sempre pari al numero di variabili, questo perché le variabili sono standardizzate e ciascuna variabile ha varianza 1.

Per avanzare nell’analisi è necessario effettuare la scomposizione algebrica della matrice di correlazione ricavando gli autovalori e gli autovettori della matrice che, nel caso specifico della matrice di correlazione, rappresentano rispettivamente la varianza delle componenti

(9)

principali e sono indicati con λ e i coefficienti delle componenti principali e sono indicati con

avs.

Le grandezze ottenute a partire dalla matrice di correlazione, ossia gli autovalori e gli

autovettori, sono tali che le componenti principali presentano una serie di importanti

proprietà:

1) Sono fra loro non correlate, indipendenti o ortogonali; 𝛒(𝑪𝑷𝒊, 𝑪𝑷𝒋) = 𝟎

2) Sono ordinate gerarchicamente rispetto alla varianza, cioè ciascuna componente principale contiene una quota di varianza decrescente:

𝛔𝟐(𝑪𝑷

𝟏) ≥ 𝛔𝟐(𝑪𝑷𝟐) ≥ … ≥ 𝛔𝟐(𝑪𝑷𝒑)

3) La varianza di ogni componente principale è uguale a una grandezza definita autovalore (λ):

𝛔𝟐(𝑪𝑷

𝒗) = 𝛌𝒗

Le componenti sono tali per cui gli autovalori associati sono estratti in ordine decrescente:

𝛌𝟏 > 𝛌𝟐 > … > 𝛌𝒗 > … > 𝛌𝒑

La somma degli autovalori è uguale alla varianza totale delle variabili:

∑ 𝛌𝒗 𝒑 𝒗=𝟏 = ∑ 𝛔𝟐 𝒑 𝒊=𝟏 (𝒛𝒊) = 𝐩

Cioè la somma delle varianze delle p variabili originarie è uguale alla somma delle varianze delle p componenti principali.

4) Il coefficiente di correlazione tra la componente principale v e la variabile s è uguale a: 𝛒(𝑪𝑷𝒗, 𝒛𝒔) = 𝒂𝒗𝒔∗ √𝛌𝒗

Attraverso questa formula è possibile calcolare le component loadings, cioè le correlazioni tra le variabili e le componenti appunto, che possono servire ad interpretare il significato delle varie componenti principali.

(10)

2.1.2) Cosa sono le componenti principali

Come abbiamo già spiegato in parte in precedenza da un punto di vista algebrico le componenti principali sono le combinazioni lineari delle variabili originali (x1, x2, … , xp)

oppure di quelle standardizzate (z, z2, … , zp).

Mentre, da un punto di vista geometrico le componenti principali sono un nuovo sistema di coordinate, ottenuto ruotando gli assi definiti dalle variabili originali o standardizzate; tra le infinite rotazioni ortogonali degli assi si cerca quella che permette di ottenere il migliore accostamento alla nube dei punti.

Per ottenere questo risultato si deve ricercare quella particolare rotazione ortogonale del sistema cartesiano di partenza per cui le proiezioni dei punti lungo gli assi del nuovo sistema risultano caratterizzate dalla massima variabilità possibile.

Il cambiamento di sistema non comporta uno spostamento dei punti, che restano fissi, ma soltanto un cambiamento delle loro coordinate.

Lo spazio generato dalla combinazione lineare è individuato nel grafico dal vettore che si muove nella direzione principale, l’altro è ortogonale al primo.

Figura 1. Rappresentazione componenti principali su assi cartesiani.

Le combinazioni lineari CP1 e CP2 definiscono le nuove dimensioni rispetto alle quali sono

(11)

rappresentano le nuove dimensioni si ottengono proiettando ortogonalmente i punti lungo le due direzioni principali che massimizzano la varianza delle proiezioni.

Figura 2. Rappresentazione componenti principali su assi cartesiani ruotati.

Il significato che assumono le varie componenti principali ottenute dipenderà dalle variabili scelte per l’analisi e dai valori delle suddette variabili registrati in prossimità dei nuovi assi cartesiani rappresentati dalle componenti principali. Vicino a ogni asse si possono osservare valori più alti in alcune variabili e valori più bassi per altre, questo darà il vero significato ad ogni componente sintetizzando la descrizione di più variabili in un’unica descrizione della componente principale. Più precisamente, attraverso la matrice dei coefficienti di correlazione tra le variabili e le componenti possiamo osservare quali variabili e con quale peso contribuiscono alla definizione di ciascuna componente principale, riuscendo magari a darle anche un nome.

2.1.3) Scelta del numero delle componenti principali

Una volta determinate le componenti principali nella loro totalità, si pone il problema di scegliere un numero ottimo che contenga gran parte della variabilità totale e ci permetta di proseguire con l’analisi. Infatti se consideriamo un numero di componenti principali pari al numero di variabili, allora si riproduce esattamente la variabilità complessiva contenuta nei dati, mentre se le p variabili sono fortemente correlate possiamo scegliere un numero k

(k<<p) di componenti principali che riesce comunque a spiegare una quota elevata della

(12)

La riduzione di dimensionalità si ottiene quindi trascurando le componenti principali meno importanti e ci sono vari criteri per determinare il numero esatto di componenti da prendere:

1) E’ consigliabile scegliere un numero k di componenti principali la cui percentuale di varianza spiegata sia uguale al 70-80% della varianza totale; questa soglia minima può abbassarsi nel caso in cui il numero di variabili sia molto elevato.

2) In ogni caso non si consiglia di trascurare le componenti con autovalore maggiore di 1, poiché contengono una quota considerevole di varianza che non sarebbe saggio lasciare fuori dall’analisi.

3) Per avere una migliore visione della percentuale di varianza spiegata dalle varie componenti si può analizzare la forma dello scree plot, in cui gli autovalori sono rappresentati in funzione del numero v delle componenti.

Otterremo un grafico che rappresenta gli autovalori sull’asse delle ordinate in ordine decrescente tramite una linea spezzata sempre discendente, mentre il numero delle componenti è sull’asse delle ascisse. Se il grafico presenta una brusca variazione di pendenza, allora la quantità di informazione associata alle prime componenti principali è molto elevata rispetto alle successive e ciò può significare che si possano scegliere solo le prime componenti trascurando le successive.

(13)

Se invece lo scree plot è rappresentato da una linea spezzata che decresce gradualmente, senza salti evidenti, significa che per ogni dimensione ci sono consistenti perdite di informazione.

Figura 4. Esempio di scree plot con graduale variazione di pendenza.

4) Si può pensare di estrarre una ulteriore componente anche nel caso in cui le componenti già estratte non abbiano una correlazione elevata con nessuna componente, in modo tale da poter interpretare in modo migliore il significato delle componenti e dare maggiore utilità all’analisi.

Tenuto conto di quanto appena affermato sarà possibile selezionare le componenti principali più importanti e cioè le k componenti principali con varianza maggiore, trascurando le altre p

– k componenti. Le k componenti principali scelte realizzeranno la riduzione dei dati cercata.

La riduzione delle dimensioni originali può avvenire con una perdita limitata di informazioni quando le prime componenti principali sono in grado di spiegare buona parte della varianza totale contenuta nei dati.

Una volta effettuata la scelta del numero delle componenti principali ci poniamo il problema di valutare la qualità della soluzione, per fare questa valutazione possiamo rifarci di nuovo alla percentuale di varianza totale spiegata dalle componenti scelte, oppure alla percentuale di varianza di ogni variabile spiegata dalle componenti principali considerate, che viene chiamata comunalità, e consente di stabilire se le variabili originali sono ben rappresentate anche considerando un numero ridotto di dimensioni.

(14)

Se si eleva al quadrato il coefficiente di correlazione tra una variabile e una componente principale si ottiene il coefficiente di determinazione, indicato con ρ2(CP

v,zs), che rappresenta

la varianza di una variabile spiegata da quella componente. Di conseguenza la varianza di una variabile spiegata dalle prime s componenti è uguale alla somma dei quadrati dei corrispondenti coefficienti di correlazione. La comunalità si ottiene considerando un ipotetico modello di regressione in cui la variabile dipendente è la variabile originale standardizzata e le indipendenti sono le componenti principali. La somma dei quadrati dei coefficienti di correlazione tra le variabili e le componenti principali per una stessa componente è uguale all’autovalore, prendendo come esempio CP1 si ottiene:

∑ 𝛒1𝑠2

𝑝 𝑠=1

(𝐶𝑃1, 𝑧𝑠) = 𝛌1

2.2) Analisi dei gruppi

Parliamo di un metodo esplorativo che consiste nella ricerca di unità tra loro simili all’interno dell’insieme delle n osservazioni, non sapendo se a priori siano presenti o meno tali gruppi omogenei. Utilizzeremo questa analisi per l’individuazione di eventuali segmenti di mercato che costituiranno le categorie di medici da riconoscere e differenziare all’interno del mercato in esame.

Partendo dall’insieme delle n osservazioni questo insieme di tecniche statistiche ricerca e identifica, se esiste, un numero g di gruppi (g << n) di unità raggruppate in base al loro grado di somiglianza, in modo tale che questi raggruppamenti abbiano la massima omogeneità possibile all’interno dei gruppi (coesione interna) e che ci sia la massima diversità possibile tra i gruppi (separazione esterna). In definitiva anche l’analisi dei gruppi realizza una riduzione della dimensionalità, in quanto da n unità otteniamo g gruppi, e come abbiamo già detto in precedenza g << n.

Per effettuare questo tipo di analisi la matrice iniziale dei dati può essere una qualunque n x p, in cui n unità sono descritte da un insieme di p variabili, che possono essere quantitative, qualitative o miste. La scelta delle variabili è molto importante dato che potrebbe condizionare fortemente i risultati, per questo motivo è sconsigliabile utilizzare variabili con

(15)

scarso potere discriminante poiché potrebbe non solo rendere meno chiara la classificazione, ma addirittura comprometterla. Infatti le variabili da considerare sono quelle che fanno emergere le differenze tra le unità oggetto della classificazione e, inoltre, è sempre opportuno valutare la sensibilità della classificazione ottenuta rispetto a piccoli cambiamenti (aggiunta o sottrazione) delle variabili utilizzate. In ogni caso la scelta delle variabili non deve fondarsi su metodologie statistiche, perché in questo caso sarebbero di scarsa utilità, ma su criteri che derivano da considerazioni soggettive del ricercatore riguardo la coerenza delle variabili al problema che si dovrà analizzare. Per quanto riguarda le sole variabili quantitative, un metodo per facilitare la scelta delle variabili da considerare può essere proprio quello di effettuare un’analisi delle componenti principali in via preliminare che, nel caso risultasse significativa in termini di variabilità spiegata, può ridurre le variabili da utilizzare nell’analisi dei gruppi riducendo quelle inserite nell’analisi delle componenti principali alle variabili legate alle coordinate delle componenti scelte, come verrà fatto in questa ricerca.

Però prima di procedere con l’analisi le variabili scelte dovranno essere sottoposte, a seconda del loro tipo, a dei particolari trattamenti preventivi, più precisamente:

 Per quanto riguarda le variabili quantitative espresse con unità di misura diverse o caratterizzate da ordini di grandezza diversi si dovrà procedere alla standardizzazione, per evitare che alcune di queste influiscano pesantemente sull’esito della classificazione.

 Mentre, più semplicemente, le variabili qualitative con più di due modalità dovranno essere trasformate in variabili binarie, frazionando la variabile categorica in tante variabili binarie per quante sono le sue modalità.

(16)

2.2.1) Scelta della distanza o dell’indice di similarità

Come abbiamo già detto, l’obiettivo di questa analisi è che i gruppi siano ben caratterizzati, per ottenere questo risultato è necessario che la massima distanza interna ai gruppi sia inferiore della minima distanza tra i gruppi. Si pone quindi il problema di scegliere l’opportuna misura di prossimità tra distanze, indici di distanze e indici di similarità. Anche questa scelta influisce fortemente sui risultati della classificazione, dato che variando il tipo di distanza cambia anche l’ordinamento delle coppie di unità e di conseguenza differiscono anche i vari gruppi di unità. Visto che stiamo effettuando una indagine di mercato e che utilizzeremo nell’analisi dei gruppi variabili miste, cioè sia variabili quantitative sia variabili qualitative, siamo portati a escludere immediatamente dalla scelta le distanze, gli indici di distanze e gli indici di similarità che si riferiscono esclusivamente a variabili di tipo quantitativo o esclusivamente a variabili di tipo qualitativo.

Per variabili miste l’indice di similarità più indicato è l’indice di Gower, infatti è quello che utilizzeremo in questo studio. Esso viene calcolato come la media aritmetica ponderata degli indici di similarità riferiti alle p variabili osservate, dunque si dice indice di similarità di Gower tra le unità ui e uj la seguente espressione:

𝑆𝑖𝑗 =∑ 𝑠𝑖𝑗,𝑠

𝑝

𝑠=1 ∗ 𝑤𝑖𝑗,𝑠

∑𝑝𝑠=1𝑤𝑖𝑗,𝑠

Dove sij,s rappresenta l’indice di similarità tra le unità i e j rispetto alla variabile s, che

cambierà in relazione al tipo della suddetta variabile, invece il parametro wij,s serve per dare

valore ai confronti che hanno un significato statistico e congiuntamente per togliere valore ai confronti che non ne hanno. Infatti avrà valore 1 nel caso in cui il confronto sia possibile tra le unità ui e uj per il fenomeno s-esimo, mentre avrà valore 0, annullando quindi la misura di

prossimità sij,s, nel caso il confronto non sia possibile. In particolare il confronto non è

possibile se il dato del carattere s-esimo è mancante in almeno una delle due unità, oppure quando il fenomeno s-esimo è di tipo dicotomico e si manifesta co-assenza, ovvero la coppia 0-0.

Anche il significato di sij,s presenta delle particolarità, poiché per caratteri binari assumerà

valore 1 se le unità ui e uj possiedono entrambe il carattere s-esimo, in caso contrario assumerà

(17)

presentano la stessa modalità per il carattere s-esimo, in caso contrario assumerà valore 0. Infine, per i caratteri quantitativi il valore di sij,s sarà determinato dalla seguente formula:

𝒔𝒊𝒋,𝒔 = 𝟏 −|𝒙𝒊𝒔− 𝒙𝒋𝒔| 𝑲𝒔

Ossia il suo valore sarà il complemento a 1 del rapporto tra la differenza del valore del carattere s-esimo nell’unità i e il valore del carattere s-esimo nell’unità j e il campo di variazione della variabile s-esima.

Detto ciò possiamo affermare che l’indice di Gower può assumere valori compresi tra 0 e 1 e, più precisamente, sarà pari a 1 se le unità i e j presenteranno valori identici per tutte le variabili quantitative e modalità uguali per ogni variabile qualitativa; sarà invece pari a 0 nel caso opposto, cioè quando le due unità presenteranno sempre modalità diverse tra loro nelle variabili qualitative e per ogni variabile quantitativa una unità assumerà sempre il valore massimo e l’altra il valore minimo.

2.2.2) Metodi di formazione dei gruppi

Dopo aver deciso quali variabili includere nell’analisi e scelto la misura di prossimità opportuna è necessario decidere quale o quali algoritmi utilizzare per formare i vari gruppi. L’obiettivo di ogni analisi cluster è quello di classificare le n osservazioni di partenza in gruppi caratterizzati da coesione interna e e separazione esterna, cioè i gruppi dovranno essere il più simili possibile al loro interno e più diversi possibile tra di loro. Esistono vari metodi per la formazione dei gruppi e si distinguono principalmente in gerarchici e non gerarchici. La scelta del metodo di formazione dei gruppi dipende principalmente da due fattori:

 dal numero di unità che si vogliono raggruppare, dato che i metodi gerarchici sono molto impegnativi dal punto di vista computazionale, all’aumentare del numero delle osservazioni la lentezza e le complicazioni di calcolo aumentano esponenzialmente. Pertanto, quando la matrice iniziale dei dati è di elevate dimensioni è preferibile scegliere un metodo non gerarchico;

(18)

dalla conoscenza o non conoscenza a priori del numero dei gruppi g, nel primo caso sarà preferibile un metodo non gerarchico in quanto sarebbe più rapido e accurato, invece nel secondo caso si preferirà utilizzare un metodo gerarchico per individuare con maggiore precisione il numero g di gruppi.

2.2.3) Metodi gerarchici agglomerativi

I metodi gerarchici agglomerativi procedono per agglomerazioni successive delle n osservazioni seguendo una procedura iterativa. La situazione iniziale è quella in cui abbiamo

n gruppi formati da ogni singola unità, per poi riunire man mano in gruppi sempre più grandi

in base alla prossimità fino ad arrivare ad un unico gruppo costituito dalle n osservazioni che formano il collettivo di partenza. Noi però non siamo interessati ad avere un unico raggruppamento delle n unità osservate, ma starà al ricercatore decidere per quale numero g di gruppi si dovrà fermare il processo di aggregazione in base alla necessità di ottenere un numero piuttosto basso di gruppi, ma allo stesso tempo cercando di mantenere i gruppi il più omogenei possibile.

Più precisamente la procedura di aggregazione si articola nelle seguenti fasi:

a) inizia con le n osservazioni divise in n gruppi, ciascuno formato da una sola unità; b) si definisce la matrice di prossimità iniziale, a seconda della misura di prossimità

scelta, tra tutte le coppie di unità, indicata con P(n x n);

c) dalla matrice P si individuano le due unità più simili (minore distanza o maggiore indice di similarità) e si uniscono a formare il primo gruppo. La prima aggregazione genera una partizione con n – 1 gruppi, di cui uno formato da due elementi e n – 2 formati da un solo elemento;

d) si calcola una nuova matrice di prossimità P’ formata da n – 1 unità ed ottenuta considerando le due unità unite in precedenza come un gruppo. Per calcolare le distanze tra gruppi si possono utilizzare vari metodi ed è a questo punto che si differenziano i vari metodi gerarchici agglomerativi;

(19)

Le partizioni individuate ad ogni passo della procedura sono nidificate perché i raggruppamenti che si ottengono ad ogni passo della procedura di aggregazione comprendono i gruppi ottenuti ai livelli della misura di prossimità utilizzata inferiori, inoltre le assegnazioni delle unità ai gruppi sono irreversibili poiché le unità costitutive di un gruppo ad un dato passo della procedura di aggregazione devono rimanere sempre nel solito raggruppamento e non possono essere quindi assegnate ad un altro gruppo in un passo successivo.

Le sequenze di unioni di unità generate dagli algoritmi gerarchici agglomerativi possono essere visualizzate su di un diagramma ad albero, denominato dendrogramma, dove sull’asse delle ordinate è riportato il livello di distanza a cui avviene la fusione tra i diversi gruppi che si vengono formando per agglomerazioni successive, mentre sull’asse delle ascisse sono riportate le singole osservazioni che partecipano al processo di aggregazione.

Figura 5. Esempio di dendrogramma.

Ogni ramo o linea verticale del diagramma corrisponde ad un determinato gruppo, mentre le linee di congiunzioni orizzontali di due o più rami individuano il livello di prossimità al quale si uniscono due gruppi. Ciò significa che più i raggruppamenti si otterranno nella parte alta del grafico, più sarà alta la probabilità che il gruppo non sia omogeneo al proprio interno visto che la fusione è avvenuta a un livello di distanza elevato.

Per questo motivo il dendrogramma suggerisce un criterio per la scelta della partizione più opportuna, nell’ambito della successione di partizioni fornite da un metodo gerarchico; osservando la forma del dendrogramma si può decidere un punto di taglio lungo l’albero, in

(20)

corrispondenza di un dato livello di prossimità, superato il quale è opportuno considerare i gruppi come entità separate perché troppo distanti. E’ consigliabile effettuare il taglio per decidere il numero dei gruppi in corrispondenza di bruschi salti di prossimità per la formazione dell’agglomerazione successiva.

Come già accennato in precedenza alla fase d) della procedura di aggregazione si possono utilizzare più criteri per calcolare la distanza tra due gruppi ad ogni iterazione dopo la prima, più precisamente i vari criteri possono essere:

Metodo del legame singolo (single linkage o nearest neighbour);

Metodo del legame completo (complete linkage o furthest neighbour);

Metodo del legame medio (average linkage);

Metodo di Ward.

I diversi metodi impiegati per misurare la distanza tra due gruppi possono dare luogo a raggruppamenti differenti al termine della procedura.

2.2.4) Metodo del legame singolo

Il metodo del legame singolo calcola la distanza tra due gruppi G1 e G2 come la distanza

minima tra ciascuna delle unità di un gruppo e ciascuna delle unità dell’altro gruppo, dalla nuova matrice di prossimità, costituita da n – 1 unità, si cerca il nuovo minimo e si procede con un’ulteriore aggregazione; quindi si calcola una nuova matrice di prossimità costituita da n – 2 unità, si cerca il nuovo minimo e si passa all’aggregazione successiva. Si ripetono questi passaggi fino a che si unisce anche l’ultima unità rimasta in modo che tutte le unità siano riunite in un gruppo.

Il metodo del legame singolo può essere soggetto al cosiddetto “effetto catena”, cioè può unire in un unico gruppo elementi anche molto distanti in Rp quando tra essi esiste una successione di punti intermedi, creando quindi un gruppo caratterizzato da scarsa coesione interna; questa caratteristica però può andare a vantaggio del metodo in questione quando si devono individuare gruppi dalla forma allungata anziché ipersferica. E’ comunque un metodo caratterizzato dalla elevata semplicità di calcolo ed ha il vantaggio di essere molto efficace nei

(21)

confronti dei valori anomali, riuscendo a isolarli in gruppi di una sola o di pochissime unità. Solitamente si ottiene un dendrogramma con i rami molto corti e compatto proprio perché vengono considerate le distanze tra le unità più vicine in ciascun gruppo.

Figura 6. Esempio di dendrogramma ottenuto con il metodo del legame singolo.

2.2.5) Metodo del legame completo

Il metodo del legame completo o del vicino più lontano calcola la distanza tra due gruppi G1 e G2 come il massimo delle distanze tra tutte le unità dei due gruppi, come nel caso precedente dalla nuova matrice di prossimità si cerca il nuovo minimo e si procede con un’ulteriore aggregazione fino a che tutte le unità sono riunite in un unico gruppo.

A differenza del metodo del legame singolo, il metodo del legame completo è più adatto ad individuare gruppi compatti al loro interno di forma approssimativamente circolare in R2 o

ipersferica in Rp. Però questo metodo viene influenzato molto dalla presenza di valori

anomali, infatti è consigliabile effettuare dei controlli preventivi all’analisi finalizzati all’individuazione dei valori anomali. Un altro problema legato a questo metodo è che le unità tendono a fondersi in nuovi gruppi piuttosto che unirsi a gruppi già formati; ciò porta ad avere

(22)

un dendrogramma con rami molto più lunghi dato che i gruppi si formano a distanze maggiori.

Figura 7. Esempio di dendrogramma ottenuto con il metodo del legame completo.

2.2.6) Metodo del legame medio

Il metodo del legame medio calcola la distanza tra due gruppi G1 e G2 come la media

aritmetica delle distanze tra ciascuna delle unità di un gruppo e ciascuna delle unità dell’altro gruppo, come nei metodi precedenti dalla nuova matrice di prossimità si cerca il nuovo minimo e si procede con un’ulteriore aggregazione fino a che tutte le unità sono riunite in un unico gruppo. Questo metodo, come si può intuire anche dalle modalità di calcolo delle distanze, si colloca in una posizione intermedia tra il metodo del legame singolo e il metodo del legame completo relativamente a vantaggi e svantaggi nel suo utilizzo. La sua particolarità è che tende a unire gruppi con bassa varianza interna e a produrre raggruppamenti con varianze interne simili, ciò significa che spesso i risultati di questo metodo sono più attendibili rispetto ad altri perché sono maggiormente caratterizzati da gruppi più omogenei e ben differenziati tra loro.

(23)

2.2.7) Metodo di Ward

Il metodo di Ward differisce in parte dai precedenti in quanto suggerisce di riunire, ad ogni tappa del processo, i due gruppi dalla cui fusione deriva il minimo incremento possibile della devianza all’interno dei gruppi (Within). La tecnica è iterativa e ad ogni passo vengono fusi i gruppi che presentano la minima variazione della varianza entro i gruppi. Il metodo è quello della minimizzazione di una funzione obiettivo che vuole realizzare la massima coesione interna a ciascun gruppo e la massima separazione esterna tra gruppi diversi. La devianza totale delle p variabili viene scomposta in devianza nei gruppi e devianza fra i gruppi, e ad ogni passo della procedura gerarchica si aggregano tra loro i gruppi che comportano il minore incremento della devianza nei gruppi e il maggiore incremento della devianza tra gruppi in modo da ottenere la maggiore coesione interna possibile e la maggiore separazione esterna tra gruppi. Nel passare da k + 1 a k gruppi, ovvero nel processo di aggregazione, la devianza all’interno dei gruppi aumenta, mentre la devianza tra gruppi diminuisce. Attraverso questo metodo ad ogni passo si aggregano tra loro quei gruppi per cui si ha il minor incremento di devianza all’interno dei gruppi o, alternativamente, il maggior decremento della devianza tra gruppi. Il metodo di Ward è per sua natura particolarmente adatto per individuare cluster di forma ellittica e permette di generare dei gruppi composti da un numero di elementi comparabile. Come il metodo del legame completo è un metodo molto sensibile ai valori anomali, per questo è consigliabile individuare i valori anomali in fasi preliminari all’analisi.

2.2.8) Valutazione delle partizioni e scelta numero di gruppi

Una volta ottenute le partizioni attraverso il metodo o i metodi che abbiamo ritenuto più opportuni si dovrà valutare la bontà delle partizioni ottenute, affinchè siano in grado di fornire una rappresentazione soddisfacente della realtà. Come abbiamo ripetuto più volte siamo alla ricerca di raggruppamenti caratterizzati da coesione interna e separazione esterna, per questo motivo un valido criterio di valutazione delle partizioni può essere basato sulla scomposizione della devianza totale delle p variabili in devianza tra gruppi (between) e devianza all’interno

(24)

dei gruppi (within). La devianza totale delle p variabili è data dalla somma delle devianze delle singole variabili xs, calcolate rispetto alla corrispondente media generale ms:

𝑫𝒆𝒗 (𝑻) = ∑ ∑(𝒙𝒊𝒔− 𝒎𝒔)𝟐 𝒏

𝒊=𝟏 𝒑 𝒔=𝟏

La devianza tra gruppi è data dalla somma, calcolata per tutte le p variabili, delle devianze delle medie dei K gruppi, indicati con k, rispetto alla corrispondente media generale ms:

𝑫𝒆𝒗 (𝑩) = ∑ ∑ 𝒏𝒌(𝒎𝒔,𝒌− 𝒎𝒔) 𝟐 𝑲 𝒌=𝟏 𝒑 𝒔=𝟏

A partire da questa scomposizione si può ottenere l’indice R2, che misura la quota di

variabilità totale nella matrice dei dati, rispetto alle p variabili, spiegata dalla partizione considerata: 𝑹𝟐= 𝑫𝒆𝒗 (𝑩) 𝑫𝒆𝒗 (𝑻) = 𝟏 − 𝑫𝒆𝒗 (𝑾) 𝑫𝒆𝒗 (𝑻) 0 ≤ R2 ≤ 1

Dove Dev(B) è la quota di devianza tra i gruppi, Dev(W) è la quota di devianza entro i gruppi e Dev(T) è la devianza totale delle p variabili.

Per considerare la classificazione ottenuta come buona è necessario che ci sia una bassa quota di devianza entro i gruppi rispetto alla devianza tra gruppi, infatti così avremo anche un alto valore dell’indice R2.

Così attraverso l’R2 è possibile confrontare partizioni caratterizzate da un numero diverso di

gruppi, oppure partizioni ottenute mediante algoritmi diversi. Questo indice assume valori non decrescenti all’aumentare del numero dei gruppi g, dunque la ricerca del numero “ottimo” di gruppi non può fondarsi esclusivamente sulla massimizzazione di R2, dato che questo porterebbe a privilegiare la partizione “banale” formata da n gruppi composti da una sola unità (per questa soluzione infatti R2 = 1).

Generalmente però, il ricercatore dovrà decidere se privilegiare maggiormente l’omogeneità delle unità all’interno dei gruppi oppure una sintesi efficace ottenuta con un basso numero di raggruppamenti, poiché con un numero inferiore di gruppi si ottiene una classificazione più sintetica ma si deve pagare un prezzo in termini di maggiore variabilità dei gruppi; se invece

(25)

si decide di aumentare il numero di gruppi la classificazione è meno sintetica ma caratterizzata da una minore variabilità nei gruppi e quindi una maggiore coesione interna. Per questo motivo, oltre al calcolo dell’R2 per ciascuna variabile utilizzata nell’analisi, è

sempre consigliabile valutare la sensibilità della classificazione ottenuta confrontando soluzioni ottenute:

 con diverse matrici di prossimità, ottenute con diverse misure di distanza o indici di similarità, applicando però lo stesso algoritmo;

 applicando due o più algoritmi (metodo del legame singolo, metodo del legame completo, metodo del legame medio, metodo di Ward), per poi confrontarli ispezionando i relativi dendrogrammi;

 escludendo di volta in volta una o più unità, o anche una o più variabili delle quali siamo interessati a valutarne l’influenza, confrontando le partizioni così ottenute con la partizione di riferimento (calcolata su tutte le n unità e tutte le p variabili).

Solo attraverso il confronto tra più partizioni possiamo capire la stabilità e la robustezza della classificazione che abbiamo ottenuto.

2.2.9) Metodi non gerarchici

Dopo aver esposto dettagliatamente le caratteristiche e il funzionamento dei metodi gerarchici, possiamo parlare della loro alternativa tra i metodi di formazione dei gruppi, ossia i metodi non gerarchici. Gli algoritmi di tipo non gerarchico mirano a classificare in un numero di gruppi prefissato a priori le n unità statistiche ottenendo come risultato una unica partizione, senza il processo iterativo delle agglomerazioni successive tipico dei metodi gerarchici. Però anche questi metodi sono di tipo iterativo, perché vengono formati raggruppamenti provvisori con lo scopo di migliorarli ottimizzando una funzione obiettivo. Il processo iterativo termina quando non sono più possibili altri miglioramenti. Ciò significa che le assegnazioni delle unità ai gruppi non sono irreversibili come nei metodi gerarchici e

(26)

questo permette di superare eventuali problemi legati all’unione di unità eterogenee nei passi iniziale di un’aggregazione di tipo gerarchico.

Più precisamente la procedura iterativa degli algoritmi non gerarchici si compone delle seguenti fasi:

a) scelta di una classificazione iniziale delle n unità con un numero g di gruppi prefissato;

b) calcolo della variazione nella funzione obiettivo causata dallo spostamento di ciascun elemento dal gruppo di appartenenza ad un altro ed allocazione di ogni unità al cluster che garantisce il miglioramento più elevato nella coesione interna dei gruppi;

c) iterazione del passo precedente finchè non viene soddisfatta la regola di arresto.

Il fatto che la procedura iterativa venga svolta per un solo valore di g rende i metodi non gerarchici più rapidi nel calcolo e rende la matrice delle distanze tra le unità non necessaria, per questo motivo queste tipologie di formazione dei gruppi sono più adatte quando il numero delle osservazioni n è molto elevato. Il principale svantaggio invece è che l’impostazione di partenza è strettamente influenzata dalla soggettività del ricercatore che decide il numero g di raggruppamenti e di conseguenza determina la configurazione di partenza dei gruppi necessaria per iniziare l’algoritmo iterativo di classificazione. Infine è necessario precisare che i metodi non gerarchici possono essere utilizzati solo nel caso in cui la matrice dei dati sia formata da sole variabili quantitative.

2.2.10) Metodo delle k-medie

Il metodo più rappresentativo e il più utilizzato tra i metodi non gerarchici è il metodo delle k-medie. La procedura iterativa di questo algoritmo si articola nelle seguenti fasi:

a) si stabilisce il numero g di gruppi e si scelgono in maniera g “poli” iniziali, cioè g punti che andranno a costituire i centroidi dei raggruppamenti della partizione iniziale. Si possono utilizzare più criteri per scegliere i g poli di partenza, in ogni caso è importante che essi siano sufficientemente distanziati tra loro. Viene così costruita la

(27)

partizione iniziale con g gruppi allocando ciascuna unità osservata al gruppo il cui polo risulta il più vicino;

b) per ogni unità viene calcolata la distanza dai centroidi dei g gruppi e se la distanza minima non è ottenuta in corrispondenza del polo a cui appartiene l’unità in questione, allora l’unità verrà riassegnata al raggruppamento con il polo più vicino. Quando si effettua una riallocazione si ricalcola sempre il centroide sia del nuovo che del vecchio gruppo di appartenenza;

c) si ripete la fase b) fino a che non si raggiunge una configurazione stabile, cioè fino a che tutte le unità vengono riassegnate allo stesso gruppo della fase precedente.

E’ importante sottolineare che in alcuni casi potrebbe essere opportuno standardizzare le variabili, dato che le variabili con varianza maggiore tendono ad incidere di più nella formazione dei gruppi rispetto alle variabili che hanno varianze minori.

E’ inoltre consigliabile, quando si utilizza questo metodo, ripetere l’analisi cambiando i punti iniziali al fine di verificare la stabilità della soluzione finale, che dovrà essere caratterizzata da gruppi ben definiti e sufficientemente omogenei al loro interno confermando la correttezza della scelta del numero g di gruppi. In particolar modo è probabile ottenere risultati instabili quando n è molto piccolo e quando nei dati non esiste una chiara struttura di gruppo con raggruppamenti ben separati. Infine, i risultati ottenuti con il metodo delle k-medie possono essere soggetti a notevoli distorsioni se nei dati sono presenti più valori anomali.

(28)

3) ANALISI DEI DATI

3.1) Raccolta dati

Arriviamo quindi alla parte pratica della ricerca, qui possiamo specificare che i dati necessari per effettuare le varie analisi sono stati ottenuti dalla popolazione obiettivo formata in questa indagine dai ginecologi italiani, che sono stati raggiunti in parte tramite questionari cartacei (60) e in parte tramite questionari online sulla piattaforma limesurvey (28). Santec partecipa regolarmente a congressi con uno stand per farsi conoscere ai medici e quindi promuovere i loro prodotti. E’ stato deciso quindi di sfruttare queste occasioni per raccogliere dati sui medici, infatti allo stand era presente il questionario cartaceo da compilare e inoltre c’era un intervistatore che si occupava di somministrare i questionari ai medici per ottenere maggiore visibilità e più risposte. Nonostante ci siano stati diversi congressi nel periodo in cui è stata effettuata l’indagine il tasso di risposta dei medici è stato piuttosto basso, infatti come già detto le risposte totali sono state solo 60. Al termine della raccolta dei questionari cartacei è stata avviata una indagine online sfruttando la piattaforma Limesurvey per rendere il questionario cartaceo raggiungibile anche online. Così utilizzando gli indirizzi mail dei medici conosciuti dall’azienda Santec ha inviato, tramite il suo account Mailchimp, il link del questionario online per cercare di ottenere un maggior numero di risposte rispetto alle sole 60 cartacee, ottenendo altre 28 risposte che portano a definire il campione di 88 medici.

3.1.1 Il questionario

Il questionario utilizzato per la raccolta dei dati è suddiviso in tre sezioni ed è formato da 18 domande, tra cui ci sono scale attitudinali alle quali sono stati assegnati punteggi da 1 a 5, domande a risposta chiusa, domande a risposta aperta e domande a risposta multipla. Nella prima sezione, denominata informazioni generali sulle sonde ecografiche, è presente come prima domanda una domanda filtro per capire se il medico che compila il questionario utilizza un ecografo e quindi possiede i requisiti per essere potenzialmente interessato al servizio. Poi

(29)

c’è una scala non comparativa ancorata complessa dove il medico deve esprimere il grado di utilizzo (dove 1 sta per poco utilizzato e 5 sta per molto utilizzato) per ciascun tipo di sonda. Attraverso questa scala è possibile capire se ci sono tipi di sonda più utilizzati e quindi anche più soggetti a rottura. Sono presenti in questa sezione anche una domanda a risposta multipla per sapere quali marche possiede il medico, una domanda per sapere se il rispondente si occupa dei nuovi acquisti di macchinari nella sua struttura e tre affermazioni riguardo l’utilizzo di sonde non perfettamente funzionanti in cui il medico deve esprimere il suo accordo o disaccordo su una scala che va da 1 a 5, dove 1 rappresenta per niente d’accordo e 5 rappresenta completamente d’accordo. Nella seconda sezione, denominata riparazione di sonde ecografiche, sono presenti domande più strettamente collegate al servizio che vuole lanciare l’azienda. La prima domanda valuta il potenziale interessamento al servizio di riparazione di sonde ecografiche, la seconda è una domanda aperta dove il medico può spiegare perché non è interessato, se nella prima domanda non ha espresso il suo interessamento. Attraverso questa domanda aperta si è cercato di ottenere maggiori informazioni sui medici non interessati per poter eventualmente migliorare il servizio negli aspetti carenti, o per capire se ci sono alternative valide al servizio. Successivamente troviamo una scala non comparativa ancorata complessa dove il rispondente deve dare un giudizio di importanza che va da 1 a 5, dove 1 rappresenta per niente importante e 5 sta per molto importante, alle varie caratteristiche scelte come critiche per il servizio in questione. Infine ci sono una domanda a scelta a multipla per capire se il medico ha avuto problemi con tipi particolari di sonda e una domanda dove il rispondente può dire quanto ha speso negli ultimi 5 anni per riparare un determinato tipo di sonda. Quest’ultima domanda è stata posta per farsi un’idea sul livello di prezzo in cui l’azienda può proporre il servizio a livelli competitivi. Nella terza sezione, denominata attività professionale del medico e dati anagrafici, sono presenti una domanda per sapere se il medico lavora nel pubblico, nel privato o in entrambi gli ambiti. Nell’ultimo caso dovrà indicare quale percentuale di tempo lavorativo trascorrerà nel privato. Infine dovrà indicare la specializzazione medica, la regione in cui esercita la sua attività, il sesso e l’età in una domanda a risposta multipla dove ci sono sei fasce d’età. Le domande di questa ultima sezione forniranno soprattutto dati anagrafici per descrivere i segmenti alla fine dell’indagine. Il questionario completo si può trovare nella sezione allegati.

(30)

3.2) Database utilizzato

Una volta raccolti i dati si può procedere con la loro analisi, come prima cosa precisiamo che il programma statistico utilizzato per l’elaborazione dei dati derivanti dai questionari è StataSE. Su questo software statistico è stato quindi generato un database costituito da 40 variabili che scaturiscono dalla semplice immissione delle risposte del questionario nel database. Il database è quindi la nostra matrice di partenza per l’analisi 88 x 40, visto che abbiamo 88 osservazioni e 40 variabili. Come vedremo più dettagliatamente tra poco ci sono variabili di diversa natura, cioè sia quantitative, sia qualitative, sia binarie. Le variabili in questione sono:

numero, è una variabile quantitativa che indica il numero del questionario e serve a codificare le osservazioni;

A1 è una variabile binaria che indica il possedimento di un ecografo (A1 = 1), nel caso in cui il medico non lo possegga (A1 = 0);

A2a, A2b, A2c, A2d, A2e, A2f, A2g, A2h e A2i sono variabili quantitative che indicano

il grado di utilizzo dei vari tipi di sonda su una scala di punteggi che va da 1 a 5, dove

1 significa …. e 5 … ; Ogni variabile corrisponde al grado di utilizzo di un determinato tipo di sonda, cioè rispettivamente Convex (A2a), Lineari (A2b), Endocavitarie (A2c), Phased Array (A2d), 4D Convex (A2e), 4D Altro (A2f), Transesofagee (A2g) , per Laparoscopia (A2h) e per Biopsia interventistica (A2i);

A3a, A3b, A3c e A3d sono le variabili qualitative le cui modalità rappresentano le marche di sonde ecografiche possedute dai medici. In particolare, queste sono costituite da 4 variabili perché il rispondente poteva scegliere più di una risposta e il numero massimo di marche possedute contemporaneamente è stato appunto di 4;

(31)

A4 è una variabile binaria che indica se il medico effettua gli acquisti o influenza la decisione di nuovi acquisti nella struttura in cui opera (A4 = 1) oppure no (A4 = 0);

A5, A6 e A7 sono variabili quantitative che indicano il giudizio di valutazione sul perfetto funzionamento delle sonde ecografiche, espresso su una scala va da 1 a 5, in cui il valore 1 significa … e 5 …;

B8 è una variabile binaria che ci mostra se il medico è interessato al nuovo servizio di riparazione di sonde ecografiche (B8 = 1), o se non è interessato (B8 = 0);

B9 è una variabile qualitativa, derivata da una risposta aperta del questionario, in cui il rispondente poteva spiegare liberamente il motivo per cui non è interessato al servizio;

B10a, B10b, B10c, B10d, B10e, B10f e B10g sono variabili quantitative il cui valore va da 1 a 5, perché sono le varie caratteristiche del servizio, ossia prezzo (B10a), garanzia post vendita (B10b), brand del fornitore (B10c), disponibilità di sonda sostitutiva (B10d), rapidità del servizio (B10e), tracciabilità della sonda (B10f) e sicurezza nel trasporto (B10g) per cui il rispondente doveva dare un giudizio d’importanza su una scala che va da 1 a 5;

B11a e B11b sono variabili qualitative le cui modalità sono le stesse elencate nella domanda A2 e indicano il tipo di sonda che secondo il rispondente è stato più soggetto a malfunzionamenti e rotture. Le variabili sono due perché la domanda B11 prevedeva la possibilità di scegliere più di una risposta e due è stato il numero massimo di risposte;

B12a, B12b, B12c e B12d sono variabili quantitative che indicano la spesa in euro eventualmente sostenuta dal rispondente rispettivamente per sonde convex, sonde lineari, sonde endocavitarie e altri tipi di sonde da specificare sul questionario;

(32)

C13 è una variabile qualitativa che indica l’ambito in cui il medico esercita la sua attività. Ha tre modalità che sono rispettivamente solo attività pubblica, solo attività privata e attività sia pubblica che privata;

C14 è una variabile qualitativa in cui viene chiesto al medico quanto tempo investe nell’attività privata rispetto all’attività lavorativa totale in termini percentuali, considerando che dovevano rispondere a questa domanda solo i medici che esercitavano sia nel pubblico che nel privato. Le modalità di queste variabili sono fasce di percentuali di tempo trascorse nell’attività privata rispetto al tempo lavorativo totale, più precisamente le fasce sono: meno del 20%, dal 20% al 49%, 50% e dal 51% al 99%;

C15 è una variabile qualitativa che deriva da una domanda a risposta aperta in cui il medico indica la sua specializzazione. Questa domanda serviva a controllare che i medici fossero effettivamente ginecologi come ricercato dal campione e per vedere se potevano essere interessati eventualmente altri tipi di dottori;

C16 è una variabile qualitativa che indica la regione in cui il medico esercita la sua attività;

C17 è una variabile qualitativa che ci è servita per ottenere informazioni sull’età del medico. Le modalità di questa variabile sono 6 fasce d’età, cioè: meno di 35 anni, da 35 a 40 anni, da 41 a 45 anni, da 46 a 50 anni, da 51 a 60 anni e più di 60 anni;

C18 è una variabile binaria che indica il sesso del rispondente, se si trattava di un dottore (C18 = 1), se invece si trattava di una dottoressa (C18 = 0).

(33)

4.3) Analisi descrittive

Prima di effettuare l’analisi è essere effettuare alcune analisi descrittive preliminari per caratterizzare il campione della ricerca, formato da 88 medici rispondenti (ma non erano 90? Spiegare perché ne mancano 2). Partiamo quindi dalle variabili anagrafiche e come prima cosa notiamo che il campione è distribuito piuttosto equamente in base al sesso.

Figura 8. Distribuzione dei medici in base al sesso su un grafico a torta.

Infatti dal grafico possiamo affermare che il 51,9 % delle unità osservate è formato da dottori di sesso maschile e il 48,1 % da dottoresse di sesso femminile.

(34)

Invece, per quanto riguarda la distribuzione in classi d’età, abbiamo:

Figura 9. Distribuzione delle classi d'età su un istogramma.

Dal grafico si nota immediatamente che i medici che hanno risposto al questionario fanno parte soprattutto delle fasce più avanzate di età, mentre nelle fasce con età minori ci sono poche osservazioni. Ciò era prevedibile visto che la nostra popolazione obiettivo è formata da medici già specializzati, che necessitano di tempo per ottenere la specializzazione. Decidiamo quindi di raggruppare le prime fasce di età (meno di 35 anni, da 35 a 40 anni, da 41 a 45 anni e da 46 a 50 anni) in un’unica fascia in modo tale che tutte le fasce abbiano numerosità più simili. Per questo motivo abbiamo pensato di trasformare le modalità della variabile che rappresenta le classi d’età nel modo seguente:

 Meno di 51 anni;

 51 – 60 anni;

(35)

Così otteniamo una distribuzione più omogenea della popolazione e soprattutto un numero minore di modalità per la variabile legata all’età, questo ci sarà molto utile più avanti. La nuova distribuzione delle fasce d’età è quindi questa:

Figura 10. Nuova distribuzione di classi d'età dopo riclassificazione su istogramma.

Più precisamente esprimendo i dati in termini percentuali abbiamo che il 30 % dei medici ha meno di 51 anni, il 41 % è compreso nella fascia d’età che va da 51 a 60 anni e il 29 % ha più di 60 anni.

(36)

Attraverso i dati reperiti tramite il questionario è possibile osservare anche la regione in cui esercitano i medici che hanno partecipato all’indagine, ottenendo questa distribuzione:

Figura 12. Distribuzione delle regioni di attività dei medici su grafico a barre.

Notiamo subito che nel campione sono presenti soprattutto medici che esercitano in Toscana e nel Lazio, questo dato probabilmente è molto influenzato dal fatto che la maggior parte dei questionari sono stati raccolti in congressi tenutosi in Toscana e in un congresso molto importante tenutosi nel Lazio. Per questo motivo questo dato non dovrà essere particolarmente rilevante nell’analisi perché molto probabilmente non sarà rappresentativo della popolazione di riferimento. Però a partire da questi dati possiamo comunque fare una semplificazione, come abbiamo fatto per le fasce d’età, cioè ridurre il numero di modalità di questa variabile a 3: Toscana, Lazio e un’ultima variabile che comprende tutte le altre regioni. Anche questa semplificazione ci renderà più comodo il lavoro in fasi successive della ricerca.

(37)

Questa quindi è la distribuzione percentuale del campione in base alla regione di attività:

Figura 13. Distribuzione percentuale delle regioni di attività riclassificate su grafico a torta.

Dopo aver suddiviso i medici per regione di attività, adesso ci interessiamo all’ambito in cui lavorano, cioè se lavorano nel pubblico, nel privato oppure in entrambi gli ambiti lavorativi:

Figura 14. Distribuzione percentuale dei medici per ambito lavorativo su grafico a torta.

Da questo grafico si può osservare che la maggioranza dei medici che hanno partecipato all’indagine lavora nel privato in modo esclusivo (44 %) o contemporaneamente anche nel pubblico (42 %), mentre una monoranza (14 %) lavora solo nel pubblico.

Toscana 43% Lazio 22% Altre regioni 35%

Regioni di attività

(38)

A partire dai dati del questionario possiamo provare a riprodurre su piccola scala le quote di mercato delle marche di sonde ecografiche in base alle preferenze espresse dai rispondenti al questionario, ottenendo questo grafico:

Figura 15. Distribuzione delle marche di sonde ecografiche possedute dai medici su grafico a barre.

Anche in questo caso notiamo che Esaote e General Electric sono le marche possedute in misura maggiore, però ci sono anche altre marche che meritano di essere considerate come Philips, Samsung, Toshiba, Aloka e Hitachi. Anche per questa variabile effettueremo un raggruppamento e uniremo nelle altre marche quelle che non abbiamo citato.

Sempre relativamente alle sonde possiamo costruire una tabella con tutti i tipi di sonda e la media dei gradi di utilizzo per ciascun tipo di sonda di ogni marca posseduta dai medici, ottenendo questo:

Aloka Esaote GE Hitachi Philips Samsung Toshiba Media

Convex 3,63 4,00 4,17 4,00 4,40 3,87 4,00 4,01

Lineare 3,83 3,21 3,11 2,86 3,86 3,56 3,75 3,45

Endocavitaria 4,14 4,63 4,55 4,92 4,70 4,64 4,35 4,56

4DConvex 3,25 3,00 4,00 2,00 4,00 2,64 3,86 3,25

Media 3,71 3,71 3,96 3,44 4,24 3,68 3,99 3,82

Tabella 1. Grado medio di utilizzo per marca e tipo di sonda ecografica

Osservando le medie totali rispetto al tipo possiamo affermare che i tipi di sonda più utilizzati sono le convex e le endocavitarie. Mentre per le endocavitarie ci sono valori alti per tutte le marche, nelle sonde convex risaltano le medie di GE e Philips che risultano essere le marche più utilizzate per questo tipo di sonda. Per le sonde lineari i punteggi sono più bassi e le

(39)

marche più utilizzate sembrano essere Toshiba e Aloka, per le sonde 4D convex invece le marche con gradi di utilizzo più alti sono GE e Philips, come per le sonde convex.

Infine, prima di passare alle analisi multidimensionali, volevamo approfondire la natura del rapporto tra l’interessamento del medico al servizio e alcune sue caratteristiche analizzando alcune distribuzioni doppie di frequenza e calcolando l’associazione tra le variabili qualitative che utilizzeremo.

La prima distribuzione di frequenza che analizziamo riporta il sesso del medico e l’interessamento al servizio.

Femmina Maschio Totale

No 6 4 10

Si 30 36 66

Totale 36 40 76

Tabella 2. Distribuzione doppia di frequenza con sesso e interessamento al servizio.

Per vedere se c’è una associazione tra le due variabili di tipo qualitativo, dai dati di partenza ricavati dal database si devono calcolare le frequenze teoriche in caso d’indipendenza. Per calcolarle è necessario per ogni osservazione moltiplicare il suo corrispettivo totale di riga o frequenza marginale di riga (nr.) per il suo corrispettivo totale di colonna o frequenza

marginale di colonna (n.c) e poi dividere per il totale delle osservazioni della tabella. Ovvero,

in modo più chiaro, riferendoci alla sempre generica unità nij:

𝑛𝑖𝑗∗ = 𝑛.𝑗∗ 𝑛𝑖. 𝑛

Quindi calcolando tutte le frequenze teoriche in caso di indipendenza otteniamo la seguente tabella:

Femmina Maschio Totale

No 4,74 5,26 10

Si 31,26 34,74 66

Totale 36 40 76

Tabella 3. Frequenze teoriche in caso di indipendenza tra sesso e interessamento al servizio.

Adesso per calcolare l’associazione tra le due variabili procederemo calcolando l’indice Chi-quadrato di Pearson, che è così definito:

𝜒2 = ∑ ∑(𝑛𝑖𝑗− 𝑛𝑖𝑗 ∗ )2 𝑛𝑖𝑗∗ 𝑐 𝑗=1 𝑟 𝑖=1

Riferimenti

Documenti correlati

The results of this study clearly support need theories, however we must be cautious because our analysis does not say anything about the cognitive component of SWB, life

souvent décrit par les journalistes comme une réécriture de Madame Bovary (alors que l’auteur s’en défend), Éric Reinhardt va encore plus loin dans l’inclusion de

Mauro La Barbera INSIEMI ESERCIZI

- nmemb indica il numero di elementi nell'array mentre size specifica la lunghezza in byte di ciascun

Fondamentale in Raboni, e lo vedremo anche in seguito, il fatto di scoprire (o meglio riscoprire) la città - quindi Milano - come metafora della vita, come metafora di un

L’essenza del concetto di imputabilità e di malattia mentale nel mondo anglosassone è rappresentata dalle Mc’Naghten Rules (risalenti alla fine del

In previous studies, we used a US device which consists of a 5-13 MHz linear probe connected by wireless technology (8 GHz ultra wide band) to a keyboard-less display. We had

I sistemi più in difficoltà nel Centro sono quelli umbri (85,7 per cento del totale), mentre nel Mezzogiorno sono in forte crisi più del 90 per cento di quelli della Sicilia,