Enasarco e Agenti di Commercio: Indagine sulla soddisfazione percepita e sui servizi erogati

(1)

UNIVERSITÀ DI PISA

DIPARTIMENTO DI ECONOMIA E MANAGEMENT

Corso di Laurea Magistrale in Marketing e Ricerche

di Mercato

TESI DI LAUREA:

Enasarco e Agenti di Commercio: Indagine sulla

soddisfazione percepita e sui servizi erogati

Relatore: Candidato:

Prof. Salvati Nicola Giulio Ciarini

(2)

(3)

SOMMARIO

1 INTRODUZIONE ... 1

1.1 Enasarco, Agenti e Rappresentanti di commercio ... 2

2 CENNI TEORICI ... 5

2.1 Errori campionari e non-campionari ... 8

2.2 Le indagini campionarie nel corso del tempo ... 11

2.3 Il campionamento casuale ... 13

2.3.1 Il campionamento casuale semplice ... 14

2.3.2 Il campionamento casuale stratificato ... 14

2.3.3 Il campionamento casuale a grappoli ... 19

2.4 Il campionamento non-probabilistico ... 21

2.5 Il modello di regressione lineare ... 22

2.6 I modelli lineari generalizzati (GLM) ... 24

2.6.1 Regressione logistica ... 25

3 METODO ... 28

3.1 Obiettivi della ricerca ... 28

3.2 Identificare i dati ... 30

3.3 Strategia di raccolta dati ... 32

3.3.1 Definizione della popolazione obiettivo ... 32

3.3.2 La strategia di interazione con i rispondenti ... 35

3.3.3 Modalità di intervista/somministrazione del questionario ... 36

3.4 Analisi e interpretazione dei dati ... 40

3.5 Limiti della ricerca ... 43

4 RISULTATI E SUGGERIMENTI ... 46

4.1 Analisi dei risultati ... 47

4.1.1 Prima metodologia utilizzata ... 47

4.1.2 Seconda metodologia utilizzata ... 66

4.1.3 Sintesi dei risultati ... 73

4.2 Suggerimenti manageriali ... 75

5 CONCLUSIONI ... 82

6 FONTI BIBLIOGRAFICHE E SITOGRAFIA ... 86

(4)

(5)

1

1 INTRODUZIONE

Prima di entrare nel merito di come si è svolta la ricerca e delle conclusioni che ne sono scaturite cercheremo di introdurre il contesto di riferimento in cui essa si andrà ad inserire. Descriveremo quindi in primis l’ambiente e il ruolo dei protagonisti che agiscono al suo interno per due finalità: fornire informazioni chiave sulle quali è strutturato il lavoro svolto e mettere il lettore nelle condizioni di comprendere appieno la realtà che si andrà ad esaminare.

La mia è un’indagine campionaria volta a misurare la soddisfazione degli agenti o rappresentanti di commercio residenti in Toscana nell’utilizzo dei servizi online messi a disposizione dalla Fondazione Enasarco e che quindi tenta di indagare su quelli che sono i principali punti di forza o di debolezza percepiti dagli utenti nella loro fruizione. È stata scelta proprio la regione Toscana per motivi prettamente pratici in quanto, considerare una popolazione così estesa come può essere quella degli agenti di commercio presenti all’interno dell’intero territorio nazionale sarebbe stato impossibile al netto delle nostre risorse.

Per lo svolgimento di tale ricerca ci siamo serviti dell’estrazione di un campione da una lista da noi costruita che ci ha permesso di raggiungere e intervistare una più piccola fetta di popolazione pur mantenendone le sue caratteristiche principali. Dopo un’attenta fase di pianificazione necessaria a guidare l’intera indagine e dopo un complicato lavoro effettuato sul campo, siamo riusciti ad interrogare per mezzo di interviste telefoniche e questionari online 200 individui (dimensione del nostro campione). Successivamente, sulla base dei dati raccolti, siamo stati in grado di poter estrapolare risultati e quindi suggerimenti qualitativi, che speriamo possano servire ad evidenziare e migliorare quelli che rappresentano i punti di forza e di debolezza dei servizi che Enasarco fornisce ai propri contribuenti.

Dopo questa breve introduzione e prima di andare a vedere dettagliatamente l’intero lavoro svolto è necessario però spendere poche righe nella descrizione di

(6)

2

ciò che rappresenta la Fondazione Enasarco, spiegando a grandi linee, struttura e funzioni svolte.

1.1 E

NASARCO

,

A

GENTI E

R

APPRESENTANTI DI COMMERCIO

La Fondazione Enasarco fu costituita nel 1938 ed è l’acronimo di “Ente

Nazionale di Assistenza per gli Agenti e Rappresentanti di Commercio”. La

funzione principale di tale ente è quella di gestire forme di pensione integrative obbligatorie a favore appunto di Agenti e Rappresentanti di Commercio, unendo a ciò compiti assistenziali, formativi e di qualificazione sempre a favore dei propri iscritti.

L’agente di commercio viene definito come:

“colui che è incaricato stabilmente da una (agente monomandatario) o più ditte (agente plurimandatario) di promuovere la conclusione di determinati contratti in una specifica zona. L'agente di commercio ha diritto ad una provvigione per i contratti conclusi per conto dell'azienda preponente1”.

Quella appena enunciata è la definizione data dall’ordinamento italiano agli agenti di commercio, che deve essere tuttavia affinata aggiungendo e descrivendo il concetto di rappresentanza. Per capire appieno la differenza che risiede tra agenti e rappresentanti di commercio è infatti necessario descrivere brevemente due figure negoziali tipiche di tale professione come la procura e il mandato. La prima trasferisce il potere di spendere il nome altrui nella conclusione di un contratto, mentre la seconda consente di compiere una determinata attività per conto dell’impresa rappresentata. Per cui la rappresentanza si caratterizza per il potere di procura e di delega che si conferisce all’agente (con mandato di rappresentanza) o al rappresentante di commercio e cioè non solo di promuovere un determinato affare, ma anche di concluderlo in nome della ditta mandante. Alla base di questa sottile differenza risiede infatti la facoltà o meno di poter concludere contratti per conto ed in nome dell’azienda mandataria. Quindi, esiste

(7)

3

una differenza importante tra agenti e rappresentanti di commercio che abbiamo descritto per rendere più chiaro il quadro di riferimento, ciò che invece è importante per la nostra ricerca e che accomuna le due categorie sta nel fatto che entrambe sono tenute al versamento di un contributo alla fondazione Enasarco. Per spiegare in parole povere il funzionamento di Enasarco possiamo dire che tutti gli agenti o rappresentanti possessori di una partita IVA iscritta al registro delle imprese, che siano organizzati sotto forma di attività individuale o di società nello svolgimento della propria professione, sono tenuti al pagamento di un primo pilastro previdenziale all’INPS e di un altro contributo obbligatorio ad un ente privato, ovvero Enasarco. Le prestazioni che vengono fornite sono integrative rispetto a quelle erogate dal primo pilastro INPS e il contributo viene calcolato su tutte le somme dovute all’agente o al rappresentante a qualsiasi titolo nell’ambito dello svolgimento della propria attività, quali ad esempio: provvigioni, ricavo caratteristico dell’attività di un agente o rappresentante, rimborsi spese, premi di produzione, indennità di mancato preavviso. I contributi vengono determinati, come detto, su tutte le somme ottenute in relazione al rapporto di agenzia e sarà la ditta mandante a farsi carico del versamento, sia della parte ad essa spettante sia di quella in capo all’agente. I contributi vengono determinati applicando un’aliquota contributiva e tenendo conto che vi sono dei limiti minimi di contributi e massimi di reddito entro i quali può essere applicata. Gli agenti iscritti sono oltre 250'000 e le ditte mandanti 100'000 e la contribuzione è subordinata alla tipologia di attività costituita dagli agenti (attività individuale, società di persone, società di capitali) e al tipo di mandato che essi esercitano (monomandatario nel caso di un’azienda, plurimandatario nel caso di più aziende per cui l’agente opera). La funzione di Enasarco non si limita soltanto a quella prettamente previdenziale e assistenziale in quanto è ad esso imputato il compito di vigilanza ispettiva, sia per l’accertamento della natura del rapporto di agenzia, che per l’osservanza degli obblighi contributivi da parte delle ditte preponenti. Funzione che quindi si dirama in due distinti settori: l’accertamento e il recupero di eventuali contributi evasi ed un servizio di

(8)

4

consulenza e supporto alle aziende attraverso una collaborazione che garantisca comportamenti virtuosi ad ogni livello. Sia le ditte che gli agenti possono infatti denunciare e segnalare mancati versamenti e la mancata osservanza degli obblighi contributivi da parte delle ditte mandatarie direttamente ad Enasarco attraverso i servizi online messi a disposizione.

Data la sua non recente costituzione la fondazione Enasarco nel corso degli anni ha compiuto alcuni importanti processi di modernizzazione come la ristrutturazione del proprio capitale, trasferendolo da un comparto immobiliare ad un portafoglio finanziario e con un ammodernamento della governance e struttura della fondazione stessa, in modo da garantire una migliore stabilità e sicurezza ad agenti ed aziende.

Il processo di modernizzazione non si è basato soltanto sulla struttura del capitale e delle risorse umane e aziendali, ma anche sui servizi da fornire ai propri utenti. Si è cercato infatti di limare la distanza esistente tra la fondazione e i propri iscritti introducendo servizi online interattivi con i quali rispondere in modo più soddisfacente alla sempre nuove esigenze dei propri iscritti2_.

Potrei continuare a descrivere e riportare regolamenti e concetti che meglio delineano la natura di Enasarco sia dal punto di vista strutturale che legale, tuttavia per comprendere ciò che è stato l’obbiettivo della mia ricerca è sufficiente conoscerne i tratti generali, ovvero l’obbligatorietà nella contribuzione da parte degli agenti di commercio e la fornitura di servizi previdenziali ed assistenziali agli stessi, senza il bisogno di addentrarsi su concetti e specifiche di natura prettamente giuridica o contabile.

(9)

5

2 CENNI

TEORICI

Ogni indagine o ricerca di mercato nasce dall’esigenza di dare delle risposte a quesiti più o meno complessi che ci proponiamo di risolvere. Difatti, approcciando a tale problema sulla base delle sole conoscenze soggettive e delle esperienze personali che ciascuno di noi possiede si può incappare in risposte viziate dall’assenza di un’analisi compiuta da un punto di vista oggettivo e condivisibile. Ciò avviene soprattutto quando ci dobbiamo confrontare con temi riguardanti realtà piuttosto complesse, per le quali è necessaria una pianificazione ed una metodologia basata su un metodo di natura scientifica. Soltanto la rilevazione di dati concreti può infatti garantire una soddisfacente risoluzione di specifici casi, tutelando il ricercatore da un’errata interpretazione della realtà. La disciplina scientifica che più di tutte si occupa della rilevazione e analisi di dati oggettivi è la statistica:

• “la statistica è la disciplina che ci consente di interpretare, attraverso

alcune operazioni fondamentali, i dati che abbiamo a disposizione dandoci una visione non distorta del contesto di riferimento”. (Fabrizi, N.

Salvati, Dispense di Indagini Campionarie, 2016)

L’analisi dei dati nel nostro caso è subordinata allo svolgimento di un’indagine o ricerca, possiamo perciò andare a confrontare il contenuto di quest’ultima definizione con quella di statistica precedentemente riportata. Sul sito Wikipedia il risultato che si ottiene dalla ricerca dell’espressione “Ricerca di Mercato” è la seguente: “La ricerca di mercato è la sistematica raccolta, conservazione ed

analisi dei dati relativi a problemi connessi al marketing dei beni e/o dei servizi.”

Come possiamo notare chiaramente, in entrambe le definizioni il tema centrale è costituito dalla raccolta e analisi di dati a disposizione relativi al fenomeno di interesse, dimostrando l’esistenza di una stretta correlazione tra i due concetti. Ogni indagine è infatti subordinata alla corretta applicazione di nozioni

(10)

6

statistiche che ci permettono di rilevare e analizzare i dati di nostro interesse in modo da estrapolare risultati utili alla nostra causa.

Alla precedente considerazione dobbiamo tuttavia introdurre un importante elemento aggiuntivo per quanto riguarda le ricerche di mercato. Non bisogna infatti minimizzare l’intero processo ad una statica interpretazione di cifre e numeri per quanto, i dati che ci vengono forniti, possono essere frutto di valutazioni o impressioni di esseri umani pensanti, probabilmente caratterizzate da variabili non direttamente misurabili e che richiedono dunque una certa flessibilità e un’elevata capacità di comprensione sia in fase di intervista che in quella di analisi. Per cui nell’affrontare una ricerca come quella esposta in questa tesi è opportuno saper affiancare un’analisi basata su applicazioni di natura statistica all’attenta interpretazione di concetti in fase di raccolta ed elaborazione dati.

Come abbiamo visto l’indagine è lo strumento attraverso il quale si acquisiscono le informazioni su uno o più fenomeni che riguardano una determinata popolazione. A questo punto dobbiamo però porci l’interrogativo sul concetto di popolazione e su come ottenere le informazioni necessarie alla nostra indagine da essa. In ogni indagine i dati che ci interessano possono essere estrapolati dalla popolazione di riferimento in ogni sua singola unità o selezionando soltanto una parte di essa. Per spiegare con un esempio questo concetto, se un’azienda dovesse compiere una ricerca di mercato in cui si indaga sulla soddisfazione dei propri clienti riguardo ad una determinata promozione messa in atto, sarà molto difficile e costoso andare a raggiungere ogni singolo cliente e cercare di intervistarlo, in quanto vuoi per i tempi, vuoi per i costi che una tale indagine richiede, si rischierebbe di fallire nel cercare di perseguire il proprio obbiettivo. Se invece dalla nostra popolazione obiettivo riuscissimo ad estrarre un campione, di numero molto più ridotto, ma che riesca ad essere rappresentativo della popolazione totale, allora saremo in grado di raggiungere con maggiore semplicità i nostri individui target, riuscendo ad ottenere

(11)

7

informazioni più dettagliate ed impiegando una minore quantità di tempo e risorse.

Nel caso in cui una ricerca si basi su tutte le unità presenti all’interno della popolazione avremo a che fare con un’indagine detta completa, mentre se si utilizza soltanto una porzione della stessa allora si tratterà di un’indagine parziale o campionaria.

Come già esposto nell’esempio precedentemente riportato, un’indagine completa nella teoria risulterebbe senza dubbio più accurata, tuttavia la discrepanza tra: numerosità della popolazione, risorse economiche, risorse temporali e personali, necessarie ed a disposizione del ricercatore, minano l’effettiva capacità di realizzazione della stessa. Dall’altro lato un’indagine parziale o campionaria è vero, non è basata sulla totalità della popolazione e quindi può essere meno accurata, ma può allo stesso tempo mettere a disposizione una serie di notevoli vantaggi:

• contenere i costi per la realizzazione dell’indagine; • ridurre i tempi per la realizzazione della stessa;

• raccogliere per ogni unità compresa nell’indagine una maggiore e migliore quantità di dati;

• raccogliere le informazioni con maggiore accuratezza grazie all’utilizzo di personale qualificato e migliori tecniche di rilevazione.

Per cui l’utilizzo di una parte invece che del totale della popolazione, può risolvere molti problemi di natura pratica nello svolgimento di un’indagine, ma allo stesso tempo, richiede anche di una più complessa pianificazione: come scegliere il campione? Come estendere i risultati ottenuti alla totalità della popolazione? A questi quesiti cercheremo di dare una risposta più avanti nel corso del capitolo descrivendo quelli che sono i diversi tipi di campionamento che principalmente vengono utilizzati a seconda dei dati che abbiamo a disposizione e del tipo di ricerca che vogliamo effettuare. Per il momento cercheremo di analizzare quelli che sono invece i problemi generali che

(12)

8

scaturiscono da ogni ricerca di mercato e che quindi ogni persona incaricata alla realizzazione della stessa deve prendere in considerazione.

2.1 E

RRORI CAMPIONARI E NON

-

CAMPIONARI

Attuando una qualunque strategia di campionamento, dobbiamo essere consapevoli di andare incontro a delle imperfezioni o delle divergenze tra quello che volevamo misurare e quello che è stato effettivamente misurato, cioè a degli errori. Tali errori possono condizionare, in proporzione alla propria entità, l’esito della ricerca e in via generale possono essere raggruppati in 2 categorie ovvero gli errori campionari e gli errori non campionari. Assieme questi due tipi di errori costituiscono quello che viene definito come l’errore totale, all’interno di un’indagine effettuata attraverso una qualunque strategia di campionamento. La prima tipologia di errore è parte integrante di una qualunque ricerca svolta per mezzo di un campione di popolazione, in quanto, è ovvio che compiere un’indagine campionaria già di per sé rappresenta alcuni limiti. Infatti, per quanto il nostro campione possa essere accurato e rappresentativo della realtà, non potrà mai riflettere appieno i valori della popolazione nella sua interezza. Potremmo elidere questa distorsione solamente indagando sulla popolazione totale, ma vista la difficoltà (che potremmo definire anche come impossibilità) pratica nell’intraprendere un’opzione di questo tipo, non resta che essere consapevoli della presenza di un errore di questo tipo limitandone gli effetti. Per quanto riguarda invece gli errori di tipo non campionario sono tutti quelli in cui ogni ricercatore può incappare nello svolgimento di una ricerca. Tale errore è scomponibile come segue:

a) Errore di misurazione, provocato dalla differenza tra ciò che viene misurato e il valore reale di una determinata variabile. La presenza di questa distorsione può essere riconducibile al ricercatore che in sede di intervista o di analisi non riesce a cogliere quello che è il vero significato delle risposte ottenute, o all’intervistato nel caso in cui fornisse delle risposte imprecise o addirittura false;

(13)

9

b) Errore dovuto alla mancata risposta, causato dalla mancata risposta all’indagine nella sua interezza o ad alcune domande della stessa;

c) Errore dovuto alla imperfetta copertura della lista, causato dalla non corrispondenza tra la lista a disposizione del ricercatore e la popolazione target. E’ proprio per questo motivo che è preferibile, nell’utilizzo di un frame di popolazione, attingere a database ufficiali aggiornati, in modo da ridurre al minimo la distorsione provocata da questo tipo di errore3_.

L’errore totale può essere scomposto come segue:

Figura 2.1 - Errore Totale (Fonte: Fabrizi, N. Salvati - Dispense di Indagini Campionarie, 2016)

Dove:

𝜃̂ : è il valore calcolato della stima;

𝜃̂_{𝑉𝐸𝑅𝑂}: è il valore della stima che avremmo ottenuto se la variabile fosse stata misurata senza errore;

𝜃̂_𝑠 : è il valore della stima che avremmo ottenuto se ogni unità selezionata nel campione avesse partecipato all’indagine (e la variabile misurata senza errore); 𝜃𝐹𝑅𝐴𝑀𝐸 : è il valore del parametro relativo alla sotto-popolazione presente nella

lista.

Arrivati a questo punto è necessario introdurre un elemento che, per quanto sia presente nella realtà di tutti i giorni, difficilmente risulta essere osservabile o ancor peggio misurabile. Infatti, per ogni realtà o contesto a cui vogliamo rivolgerci e dal quale estrapolare delle risposte esiste un risultato esatto che dobbiamo perseguire attraverso gli strumenti a disposizione. Questo è

D. Marasini, G. Nicolini, G.E. Montanari, M.Pratesi, M.G. Ranalli, E. Rocco - Metodi di stima in presenza di errori non campionari, 2013

(14)

10

rappresentato dal valore reale di quella determinata variabile che è lì, presente ed esiste nella realtà, ma in ogni lavoro nel quale cerchiamo di descriverlo nel modo più fedele possibile possiamo soltanto avvicinarci ad esso. Un modello, al quale dobbiamo e possiamo avvicinarci, ma che non potremo mai raggiungere appieno. Sono proprio gli errori che abbiamo riportato in precedenza che ci ostacolano nel raggiungimento dell’obiettivo anche se non tutti risultano essere della stessa tipologia.

Ognuno di tali errori può infatti influenzare il risultato di ogni ricerca, ma soltanto uno è caratteristico di ogni indagine e sebbene possa variare la propria entità non è eliminabile, ma soltanto misurabile. Ad esempio, considerando un’ipotetica ricerca nella quale siano esclusi errori di misurazione, problemi dovuti alla non-risposta e alla mancata copertura e scongiurando quindi tutti quegli errori definiti come non-campionari (caso molto improbabile, ma comunque possibile), soltanto l’errore scaturito dalla differenza inevitabile tra campione e popolazione obbiettivo rimarrebbe presente. Per ovviare a tale problema, l’unica soluzione possibile risulta essere quella di tenere l’errore campionario sotto controllo tramite una serie di opportune operazioni, rendendolo misurabile e riuscendo ad ottenere un valore che sia più vicino possibile a quello reale. In un’indagine campionaria, infatti, se si suppone di riuscire ad ottenere un risultato privo di errori di tipo non campionario si è in presenza, come già detto, del solo errore campionario che viene espresso dall’errore quadratico medio (Mean Square Error – MSE), il quale a sua volta è pari alla somma della varianza dello stimatore e della distorsione al quadrato. Al contrario, nella realtà, il campione osservato possiede sempre degli errori di natura non campionaria che esulano dal metodo di stima adottato e che salvo i rari casi in cui si compensano, generalmente tendono ad alimentare la distorsione della stima. Ne consegue dunque che per il campione di valori osservati l’errore scaturisce dalla somma di due diverse componenti: la prima legata alla variabilità dello stimatore e ad una sua eventuale distorsione (errore campionario) e l’altra all’insieme degli errori attribuibili alla realizzazione dell’indagine stessa (errori

(15)

11

non campionari)4_{. E’ proprio per riuscire a limitare l’influenza dell’errore}

campionario che si cerca di limare le differenze tra campione e popolazione obbiettivo grazie alle diverse modalità di campionamento introdotte nel corso del tempo.

2.2 L

E INDAGINI CAMPIONARIE NEL CORSO DEL TEMPO

Per descrivere la storia delle indagini per campione non è necessario andare molto indietro nel tempo. La nascita di questa tipologia di ricerca è da collocare infatti soltanto tra la fine dell’800 e gli inizi del ‘900 con i più importanti sviluppi avvenuti nel corso degli ultimi 50 anni. Prima dell’introduzione delle indagini campionarie si riteneva che l’unica metodologia che permettesse una corretta rilevazione e interpretazione dei dati fosse quella che considerasse ogni unità all’interno della popolazione totale, nonostante già nel ‘700 si fossero notati alcuni dei vantaggi prodotti dal valutare un sotto-insieme della stessa.

• La difficoltà maggiore nel riconoscere scientificamente la validità dell’applicazione di questa tecnica era incentrata principalmente sulla difficoltà nell’estendere i risultati ottenuti per il campione alla totalità della popolazione. Esistono prove dell’introduzione del concetto di indagini campionarie antecedenti alla fine dell’800 soprattutto con Weber nell’opera “L’etica protestante e lo spirito del capitalismo”, che tuttavia non fanno menzione al concetto di rappresentatività del campione. Il primo individuo a districarsi con tale problema fu A.N. Kiaer direttore del “Norwegian Bureau of Statistics”, che espose alle riunioni dell’Istituto Internazionale di Statistica i risultati e le metodologie campionarie utilizzate in degli studi effettuati sulla popolazione norvegese. Kiaer introdusse un concetto tanto semplice quanto fondamentale assumendo che il campione deve essere “una miniatura” della popolazione (Fabrizi, N. Salvati - Dispense di Indagini Campionarie, 2016), e quindi conservare tutte le caratteristiche demografiche che abbiamo a disposizione,

(16)

12

spostando il focus dalla numerosità del campione alla somiglianza con la popolazione. Grazie al lavoro di Kiaer e dei suoi collaboratori nel 1925 il campionamento venne riconosciuto dall’Istituto Internazionale di Statistica come metodo scientifico. Tuttavia la teoria introdotta da Kiaer conteneva comunque alcuni limiti, rappresentati dall’inevitabile introduzione di una componente soggettiva nell’estrazione di un campione e dalle caratteristiche demografiche sulla base delle quali effettuare l’estrazione, ovvero quali considerare? Come è possibile prenderle in considerazione tutte?

Nel 1926 Bowley cerca di superare i limiti contenuti nella teoria introdotta da Kiaer sviluppando il concetto di casualità nell’estrazione del campione rappresentativo della popolazione. Con casualità Bowley intendeva che ogni unità presente all’interno della popolazione dovesse avere la stessa probabilità di estrazione per entrare a far parte del campione. L’unico modo infatti per proteggersi dalla soggettività nella selezione delle varie unità è quella di farlo affidandosi alla casualità della stessa, pur rispettando quote e controlli. Questa teoria non era quindi estendibile a quella precedente di Kiaer per la quale la rappresentatività del campione veniva realizzata con metodi tutt’altro che casuali. Per vedere sviluppati i lavori dello studioso norvegese dovremo aspettare il 1934 quando Neyman con il proprio lavoro intitolato: “On the Two Different

Aspects of the Representative Method: the Method of Stratified Sampling and the Method of Purposive Selection”, getta le basi dell’attuale teoria campionaria

nella quale il carattere della rappresentatività sopravvive riferito non al singolo campione ma al complesso dei campioni selezionabili con determinate procedure, alla base delle quali sta generalmente il concetto di casualità (Giommi, Indagini campionarie, 2006).

Dopo la fondamentale opera di Neyman verranno proposti fino ai giorni nostri numerosi lavori incentrati principalmente sulla metodologia da utilizzare, tralasciando altri importanti aspetti dell’indagine (che tuttavia acquisteranno progressivamente importanza grazie alla crescente applicazione pratica delle

(17)

13

indagini campionarie nel corso del tempo), andando a focalizzarsi su aspetti che riguardano soprattutto la selezione del campione e la stima dei parametri della popolazione.

2.3 I

L CAMPIONAMENTO CASUALE

Come esposto precedentemente, questo tipo di campionamento è stato il primo ad essere introdotto e considerato come metodo scientifico all’interno della disciplina statistica. La vera peculiarità dell’applicare questo tipo di campionamento consiste nel riuscire a proteggere il campione dalla soggettività del ricercatore quando compie le scelte di inclusione nel campione stesso, attraverso una selezione degli individui di tipo casuale. In questo modo le differenze tra popolazione e campione sono solamente casuali e non dipendono in altro modo dalle scelte consce o inconsce del ricercatore. Per spiegarlo in parole spicciole se un ricercatore dovesse costruire un campione di una popolazione finita scegliendo in prima persona chi effettivamente dovesse essere presente al suo interno, anche se tale selezione fosse basata su variabili obiettivo, inevitabilmente l’impronta soggettiva di chi ha effettuato la selezione si rispecchierebbe sul risultato della ricerca, cosa che invece non accadrebbe se il campione venisse estratto attraverso una selezione casuale.

Esistono diverse tipologie di campionamento di tipo casuale che andremo ad esaminare nei paragrafi seguenti rimanendo abbastanza in superficie. Questo poiché la nostra indagine è focalizzata principalmente sull’analisi di variabili qualitative più che quantitative e che quindi necessita di un’interpretazione più in chiave psicologica che matematico-statistica. La scelta di un metodo di campionamento nella nostra indagine infatti, si rispecchierà in primis nel rendere il campione più simile per caratteristiche alla popolazione target, in modo da: scremare l’ingente numero di individui che altrimenti avremmo dovuto intervistare pur mantenendone le caratteristiche principali e allo stesso tempo estrapolare informazioni più dettagliate.

(18)

14 2.3.1 Il campionamento casuale semplice

Il campionamento casuale semplice rappresenta il punto di partenza per lo studio di tutti gli altri disegni campionari. Per definizione questo metodo di campionamento è la tecnica che attribuisce la stessa probabilità di selezione ad

ogni insieme di n unità distinte della popolazione e conseguentemente, ogni

singola unità ha la stessa probabilità di essere inclusa all’interno del campione (Giommi, Indagini Campionarie, 2006). E’ grazie a questa particolare proprietà che tale metodo viene anche detto equi-probabilistico. Quindi le due condizioni fondamentali alla base del campionamento casuale semplice sono:

a) Ogni unità della lista ha la stessa probabilità di essere selezionata all’interno del campione;

b) Ogni campione composto da n unità che può essere estratto dalla lista ha la stessa probabilità di essere estratto (Fabrizi, N. Salvati - Dispense di

Indagini Campionarie, 2016)

Le due tipologie principali di campionamento casuale semplice sono con e senza reintroduzione, differendo nella scelta del ricercatore se ogni unità possa entrare a far parte del campione più di una volta, tuttavia la differenza esistente tra queste due tipologie tende ad avere meno importanza al crescere del numero della popolazione di rilevazione. Infatti, essendo la selezione delle singole unità della popolazione del tutto casuale, può avvenire che una possa essere estratta più di una volta. Tale fenomeno sarà tanto più probabile quando la popolazione da cui il campione viene estratto non è molto numerosa, viceversa sarà molto più difficile che avvenga qualora la popolazione sia di notevoli dimensioni e quindi anche la scelta sulla tipologia di campionamento casuale semplice da applicare (con o senza reintroduzione) perde di importanza. Ad ogni modo a seconda dei casi specifici spetta a chi effettua l’indagine decidere in sede di pianificazione quale delle due tipologie risulta essere più consona alla natura della ricerca.

2.3.2 Il campionamento casuale stratificato

Nel campionamento casuale stratificato la popolazione viene suddivisa in sub-popolazioni non sovrapponibili tra loro che vengono appunto definite strati. Le

(19)

15

unità all’interno di ciascuno strato vengono selezionate con un’estrazione di tipo casuale e ognuna di esse deve essere indipendente e riconducibile soltanto ad un sottogruppo, sulla base di una precisa variabile a disposizione del ricercatore prima di effettuare il campionamento. In parole povere se ad esempio dobbiamo compiere una ricerca riguardante le varie regioni italiane è logico avere a disposizione informazioni aggiuntive come la popolazione, le attività economiche principali, le provincie presenti al loro interno, insomma tutta una serie di variabili che possono tornare utili nella strutturazione del disegno di campionamento. Nel campionamento stratificato ci serviremo proprio di una di queste variabili per scomporre la popolazione in vari sotto-gruppi. Ad esempio, la popolazione italiana può essere anche definita come la somma degli individui residenti nelle varie regioni. In ogni strato quindi, potranno essere selezionate soltanto le unità che posseggano come prerequisito la residenza in una e una sola regione. Un’unità residente in Toscana non potrà essere inserita anche all’interno dello strato degli individui residenti in Calabria. Questo metodo di campionamento consente di ottenere numerosi vantaggi nello svolgimento dell’indagine rispetto al campionamento casuale semplice, tra i quali: l’opportunità di poter trattare ogni singolo strato come un campione a sé stante, permettendoci di utilizzare metodi di rilevazione differenti per ciascun sottogruppo; come abbiamo visto nell’esempio precedente molto spesso possiamo avere a disposizione liste ufficiali di popolazioni già divise in strati sulla base di variabili geografiche o demografiche; possiamo ottenere una maggiore rappresentatività del campione e quindi una maggiore accuratezza. La definizione enuncia che:

“la stratificazione è una metodologia che permette di utilizzare informazioni a disposizione di tipo ausiliarie per migliorare il disegno di campionamento” (Fabrizi, N. Salvati - Dispense di Indagini Campionarie, 2016)

Le condizioni necessarie all’effettiva praticabilità di questo piano di campionamento sono quella di conoscere a priori una variabile sulla base della

(20)

16

quale poter effettuare una stratificazione e che ogni unità di popolazione sulla base della variabile possa essere riconducibile ad un solo strato.

Lo step successivo al funzionamento generale di questo piano di campionamento riguarda le modalità con cui costruire il campione, ovvero con quale frequenza inserire le unità degli strati della popolazione all’interno degli strati del campione. Per risolvere questo problema abbiamo a disposizione più opzioni:

a) Allocazione costante, ovvero tutti gli strati sono formati da campioni delle stesse dimensioni;

b) Allocazione proporzionale, sulla base di una precisa variabile, si creano nel campione le stesse proporzioni che esistono all’interno della popolazione totale, in questo modo è possibile ottenere dei campioni formati applicando in tutti gli strati la stessa frazione di campionamento, risultando così ognuno di dimensione proporzionale a quella dello strato di provenienza;

c) Allocazione ottimale, basata su criteri di ottimalità di tipo statistico; d) Altri criteri legati a considerazioni di tipo diverso.

2.3.2.1 Pesi campionari

La peculiarità della stratificazione riguarda il fatto che ogni strato possiede la propria autonomia grazie alla quale sarà possibile attribuire per ognuno di essi risultati e considerazioni. Tuttavia sarà necessario ottenere un risultato che possa rispecchiare l’andamento del campione nella sua interezza grazie all’utilizzo di uno stimatore che racchiuda i valori medi di ciascun sotto-insieme. A questo punto dobbiamo precisare che non tutti i tipi di allocazione consentano un procedimento univoco, in quanto a seconda della composizione degli strati all’interno del campione la rappresentatività con la popolazione sarà più o meno rispettata. Fondamentale è infatti assegnare alle unità di ciascuno strato il peso che meritano, in quanto esso sarà costante all’interno di ciascuno strato, ma potrà differire tra uno strato e l’altro.

(21)

17

Ad esempio: all’interno di una popolazione U di 10000 unità, dobbiamo indagare sulla soddisfazione (soddisfatto o non soddisfatto) nella fornitura di un determinato servizio. Quindi andiamo a formare sulla base della variabile sesso due strati: uno di 8000 (maschi) e uno di 2000 unità (femmine). Procediamo con l’estrazione di un campione C di 500 unità, allocando questo campione in maniera costante e suddividendo dunque quest’ultimo in due strati da 250 unità ciascuno, per la precisione 250 unità di sesso maschile e 250 di sesso femminile. La probabilità di inclusione di ciascuna unità all’interno del campione sarà a questo punto di 1/8000 per la variabile maschi e di 1/2000 per la variabile femmine. Assumiamo che nello strato degli individui di sesso maschile le risposte positive riguardo alla soddisfazione siano 200 mentre in quello di sesso femminile 150. In totale avremo 350 risposte affermative su 500. Tuttavia, dobbiamo fare a questo punto una considerazione importante. Essendo presente nella popolazione per l’80% individui di sesso maschile e per il 20% quelli di sesso femminile non potremo dare lo stesso peso alle risposte date all’interno del campione. Infatti calcolando i pesi campionari ovvero il reale peso che una risposta data da un’unità all’interno del campione dovrebbe avere, avremo che:

𝑤_𝐴𝑖 =( 𝑤𝐴𝑈 𝑁𝑈) (𝑁𝐴𝐶_𝑁𝐶)= 1,6; [1] 𝑤_𝐵𝑖 =( 𝑤𝐵𝑈 𝑁𝑈) (𝑁𝐵𝐶 𝑁𝐶) = 0,8; [2] dove:

𝑤𝐴𝑖: è il peso che ogni risposta di un individuo di sesso maschile dovrebbe avere all’interno del

campione;

𝑤𝐴𝑈: è il peso che ogni unità di sesso maschile ha all’interno della popolazione, pari all’inverso

della probabilità di inclusione, in questo caso 8000; 𝑁_𝑈: è il numero delle unità all’interno della popolazione;

𝑁_𝐴𝐶: è il numero degli individui di sesso maschile all’interno del campione; 𝑁𝐶: è il numero delle unità all’interno del campione.

Dal risultato possiamo notare che ogni risposta data da un individuo di sesso maschile all’interno del campione ha un peso di 1,6 mentre, la risposta data da

(22)

18

uno di sesso femminile di 0,8. In un certo senso vista la mancata rappresentatività esistente tra campione e popolazione si dà maggiore peso alle risposte degli uomini (un uomo è come se rispondesse per 1,6 individui anziché per 1) e si toglie a quelle delle donne (una risposta vale come 0,8 risposte). A questo punto moltiplicando il valore ottenuto con le risposte positive di ciascun sesso abbiamo: (200*1,6 = 320) e (150*0,8 = 120). Come possiamo notare ponderando le risposte abbiamo ottenuto 320 risposte positive tra gli uomini e 120 tra le donne che sommate fanno 440 consensi a differenza dei 350 precedenti5_{. Quindi come}

possiamo vedere una volta conferiti i pesi campionari alle unità dei diversi strati il risultato è sensibilmente cambiato, ma anche più preciso, rispettando quelle che sono le proporzioni all’interno della popolazione.

L’esempio che abbiamo riportato riguarda un’allocazione di tipo costante, ma può essere estesa a tutti quei casi in cui la numerosità degli strati all’interno della popolazione non è rispettata all’interno del campione. Nel caso di una allocazione di tipo proporzionale invece, non è necessario effettuare una ponderazione dei vari pesi in quanto, quelli delle unità della popolazione saranno gli stessi di quelli all’interno del campione per via della proporzionalità rispettata tra i due elementi (piano di campionamento autoponderante).

2.3.2.2 Post-stratificazione o stratificazione a posteriori

Prima abbiamo descritto come condizione fondamentale per l’applicazione di una stratificazione, di conoscere a priori una variabile che possa essere alla base del processo. Tuttavia esiste una procedura che consente di sopperire a questa condizione chiamata post-stratificazione o stratificazione a posteriori.

Tale metodo ci consente appunto di stratificare direttamente gli elementi presenti all’interno del campione sulla base di una variabile venuta alla luce soltanto dopo la selezione del campione stesso, permettendoci dunque di ignorare le modalità con cui tale selezione sia stata effettuata. Unico prerequisito è quello di conoscere la numerosità dei vari strati all’interno della popolazione, grazie alla

(23)

19

quale poter ponderare i pesi delle unità all’interno del campione come descritto nell’esempio precedente.

2.3.3 Il campionamento casuale a grappoli

Una cospicua parte delle popolazioni che sono oggetto di studio sono formate da sotto-insiemi di sub-popolazione. L’esempio più chiaro in questo senso può essere fornito dalla popolazione italiana. Essa infatti può essere considerata sia nel suo complesso, sia come la somma delle popolazioni che risiedono nelle varie regioni, nelle varie province e così via. Un altro esempio utile alla comprensione del concetto è anche quello delle varie famiglie all’interno del territorio nazionale, le quali, è vero che possono essere considerate come unità, ma al loro interno è anche vero che possono contenere più o meno membri, quindi ogni famiglia può essere considerata come un gruppo di unità statistiche o come l’insieme delle unità presenti al loro interno. Ciò che interessa dal nostro punto di vista è che tali raggruppamenti possono essere utilizzati come strati (campionamento casuale stratificato), ma anche come vere e proprie unità selezionate nel campione ed in questo caso si parlerà di grappoli o clusters. L’insieme di tutti i grappoli che vengono estratti formano il campione di riferimento e a questo punto si dovrà decidere quante unità selezionare all’interno di ciascun grappolo. Se si sceglie di selezionare tutte le unità all’interno dei vari clusters allora avremo effettuato un campionamento a grappoli, se invece decidessimo di prendere in considerazione soltanto alcune delle unità al loro interno, allora avremo effettuato un campionamento a due stadi. Reiterando ancora tale processo di selezione si avrà un campionamento a tre stadi e così via. Anche in questo caso si cercherà di descrivere al meglio tali operazioni per mezzo di un esempio pratico. Se dovessimo effettuare una ricerca su un determinato aspetto che riguardi appunto la popolazione in Italia si potrebbe scegliere un metodo di campionamento come quello casuale a cluster in quanto, nell’indagine, potrebbero essere selezionate per praticità invece dell’intera popolazione italiana, quella residente nelle varie regioni. A questo punto potremmo decidere se intervistare tutti o soltanto alcuni degli individui presenti

(24)

20

all’interno dei grappoli selezionati e cioè delle regioni. Se decidessimo di comprendere nella nostra indagine tutte le unità presenti all’interno dei vari grappoli allora avremo effettuato un semplice campionamento a grappoli, se invece, così non fosse, potremmo scegliere di andare più in profondità selezionando soltanto alcuni sotto-insiemi, andando ad estrarre all’interno delle regioni scelte precedentemente soltanto alcune province. In questo caso avremmo effettuato un campionamento a due stadi. Se volessimo procedere ulteriormente con un campionamento a tre stadi allora dovremmo estrarre dalle precedenti province vari comuni e così via. Ogni selezione (Regioni, Province, Comuni) dovrà essere effettuata ovviamente in modo del tutto casuale.

L’elemento più importante che differenzia questa tipologia di campionamento alla stratificazione riguarda l’eterogeneità all’interno dei vari strati o grappoli, in quanto nel caso della stratificazione si ha l’interesse affinché ogni strato debba essere il più omogeneo possibile poiché ognuno di essi è rappresentato nel campione, mentre nel caso dei clusters si persegue l’obiettivo opposto ovvero che ognuno di essi debba essere il più eterogeneo possibile al loro interno. Infatti, se tutti i grappoli presentassero le stesse caratteristiche non sarebbe necessario andare a prendere in considerazione un numero n di grappoli, in quanto ne basterebbe uno. Più i grappoli invece tendono ad essere eterogenei tra di loro e più riusciremo ad ottenere una maggiore precisione nelle stime, al contrario di quanto accade per il processo di stratificazione.

Da tale metodo di campionamento possiamo ottenere vantaggi nel caso in cui la nostra lista di riferimento sia redatta in termini aggregati, oppure ottenere vantaggi di tipo economico dettati dalla possibilità di selezionare campioni di dimensione assai superiore di quella che avrebbe avuto, per la stessa indagine, un campione casuale semplice. E’ molto complesso riuscire ad utilizzare delle liste di popolazione nelle quali al loro interno siano presenti le singole unità di popolazione, molto più semplice è invece trovarne altre nelle quali siano presenti dei gruppi di popolazione.

(25)

21

2.4 I

L CAMPIONAMENTO NON

-

PROBABILISTICO

Nella pianificazione di una ricerca, soprattutto nel caso in cui ci si trovi di fronte popolazioni difficilmente registrabili, risulta molto complesso trovare le condizioni favorevoli sulla base delle quali poter applicare un campionamento di tipo probabilistico come quelli che sono stati descritti nei precedenti capitoli. Prendiamo ad esempio di voler svolgere un’indagine che riguardi l’uso di una particolare sostanza stupefacente. E’ molto chiaro che reperire una lista di popolazione che contenga i nominativi di tutti coloro che rispondano alla caratteristica “consumatore abituale della droga x” è praticamente impossibile. Abbiamo preso come esempio quello dei consumatori abituali di droga, ma può accadere molto di frequente di confrontarsi con realtà per le quali non esiste nessun dato pre-registrato.

A questo punto le alternative sono due: o si procede alla costruzione di un frame di popolazione che possa risultare sufficientemente attendibile per l’applicazione di un campionamento probabilistico6_{, oppure si cerca di procedere con un}

campionamento di tipo non-probabilistico accettando anche i limiti che ne conseguono.

Una metodologia che rientra nella categoria del campionamento di tipo non probabilistico è quella di estrarre un campione auto-selezionato, ovvero affidandosi alla volontaria decisione individuale di partecipare all’indagine. Ovviamente l’autoselezione causa una distorsione nella ricerca dovuta alla scarsa rappresentatività del campione rispetto alla reale popolazione.

Un altro metodo è quello di scegliere il campione a scelta ragionata, ovvero accantonando la selezione casuale delle unità e quindi scegliendole sulla base di determinate caratteristiche o di determinati vantaggi per il ricercatore.

6_{Nella nostra indagine si è presentato un caso simile a questo, in quanto nonostante esista una lista} contenente i nominativi di tutti gli agenti di commercio residenti nella Regione Toscana, è vietato da rigide normative il rilascio per qualunque tipo di motivazione. Quindi è stato costruito un frame da parte nostra sulla base di alcuni database presenti online (Capitolo 3 – Metodo).

(26)

22

Il campionamento per quote invece ha un funzionamento simile a quello della stratificazione casuale, privo però di questo fondamentale secondo elemento. Infatti, la stratificazione avviene per convenienza selezionando quelli che sono per motivi economici o per la natura stessa dell’indagine, più vantaggiosi, i soggetti da intervistare. Un caso parallelo al campionamento per quote è quello in cui si escluda una parte di popolazione dall’essere intervistata perché non possiede determinate caratteristiche. Ad esempio, se si deve compiere una ricerca sulla propensione all’investimento dei vari individui su un determinato bene, è probabile che il ricercatore cerchi di escludere dalla lista di soggetti da intervistare coloro i quali, avendo un reddito particolarmente basso, non investiranno di frequente in strumenti finanziari e di conseguenza non potranno avere un’opinione in merito agli obiettivi prefissati dalla ricerca. E’ inevitabile però che questo porti ad una scarsa rappresentatività del campione e dunque ad un campionamento di tipo non-probabilistico.

L’elemento che accomuna tutti gli esempi esposti di campionamento di tipo non-probabilistico riguarda la mancanza di una scientificità nell’estrazione del campione e dunque, i metodi utilizzati per la stesura dei risultati dell’indagine, potranno essere accettati, ma anche contestati da coloro che li esamineranno.

2.5 I

L MODELLO DI REGRESSIONE LINEARE

Il modello di regressione lineare consente di analizzare la relazione causale tra una variabile dipendente quantitativa con una o più variabili indipendenti quantitative. Dal momento che non è possibile indagare nella popolazione la presunta relazione tra le variabili considerate, per la verifica delle ipotesi si procede estraendo un campione rappresentativo della popolazione e descrivendo su questo la relazione tra le variabili considerate. Successivamente, mediante la statistica inferenziale, si verifica se la relazione descritta al livello campionario può essere generalizzata alla popolazione di riferimento.

Esistono due tipologie di regressione lineare: semplice e multipla. La regressione semplice ci consente di verificare innanzitutto se due variabili sono

(27)

23

legate da una relazione lineare e in caso lo fossero di misurarne l’entità. La relazione lineare tra due variabili può essere scritta come:

Y= α +βX; [3]

dove Y è la variabile che deve essere prevista e che viene detta variabile risposta o dipendente, X è la variabile che viene utilizzata per prevedere il valore di Y detta anche variabile esplicativa o indipendente, mentre α e β sono i parametri che devono essere stimati e che ci indicano il tipo di relazione che esiste tra la variabile X e la variabile Y. Più nel dettaglio α rappresenta il valore dell’intercetta e ci indica cioè il valore che la variabile Y assume quando X coincide col valore 0. Il parametro β invece detto anche coefficiente di regressione rappresenta il cambiamento in Y per ogni variazione unitaria di X e come è evidente dall’equazione generale della retta rappresenta il coefficiente angolare di quest’ultima dandoci un’importante informazione sull’andamento positivo o negativo della relazione.

La regressione multipla invece è caratterizzata dalla presenza di ancora una variabile risposta Y, un parametro α e k parametri β e variabili indipendenti X: Y= α + β₁𝑋₁+β₂𝑋₂+… + β_𝑘𝑋_𝑘; [4]

dove i vari parametri β rappresentano i coefficienti di regressione parziali, poiché indicano come ognuno dei predittori X fornisca una spiegazione appunto parziale della variabile di risposta.

La precisazione che bisogna però includere riguarda l’introduzione per entrambe le equazioni di un termine di errore εche sarà presente nella previsione della variabile risposta Y.

Quindi ogni qualvolta ci dovessimo trovare nella situazione di dover misurare la presenza e /o l’entità della relazione che lega due variabili quantitative, dovremo stimare i parametri α e β che possono essere dedotti sia attraverso formule matematiche oppure attraverso l’ausilio di un qualunque software che può essere Excel, R, Stata etc…

(28)

24

Tuttavia la lettura dei parametri non è sufficiente a darci delle risposte che possano essere considerate totalmente attendibili.

Dovremo infatti prima assicurarci che il modello di regressione lineare che abbiamo utilizzato sia effettivamente in grado di stimare correttamente i parametri e quindi di riflettere ciò che i dati osservati dicono realmente. A tale scopo esistono varie tipologie di test che aiutano a capire la bontà di adattamento del modello, vale a dire la capacità del modello di migliorare la previsione della variabile Y considerando come valore di riferimento il valore stimato mediante il modello di regressione (ipotesi alternativa H1) piuttosto che il valore medio di Y ipotesi nulla H0). L’errore standard della stima e l’𝑅2 sono le due tecniche statistiche principalmente utilizzate per misurare la bontà di adattamento al grafico. Il primo corrisponde all’errore standard dei residui e rappresenta un indice che esprime l’ampiezza dell’errore di misura del modello considerato, mentre il secondo esprime la parte di varianza della variabile dipendente spiegata attraverso il modello7_{. Entrambi possono essere calcolati per mezzo di formule}

matematiche o ottenuti sempre grazie all’ausilio di specifici software. L’𝑅2_più

in particolare è un valore che oscilla tra 0 e 1 e più si avvicina a quest’ultimo valore e più il modello sarà attendibile nello stimare i dati osservati che abbiamo a disposizione.

2.6 I

MODELLI LINEARI GENERALIZZATI

(GLM)

I modelli lineari generalizzati rappresentano un’estensione del più classico modello lineare nell’ambito della regressione lineare. Essi possono essere applicati nel caso in cui la distribuzione della variabile di risposta sia differente da quella normale e quindi sia distribuita come una qualsiasi variabile casuale della famiglia esponenziale. Dunque, mentre un modello di regressione lineare viene utilizzato per misurare la relazione esistente tra una variabile di risposta Y ed una o più variabili esplicative X, caratterizzate da distribuzione di tipo normale, in un GLM si va sempre a misurare la relazione esistente tra una

(29)

25

variabile dipendente ed una o più variabili indipendenti, ma in questo caso Y può essere caratterizzata da una qualsiasi distribuzione che sia però diversa da quella normale (gamma, poisson, binomiale, gaussiana inversa). Questo comporta che nella costruzione del nostro modello dovremo essere consapevoli del tipo di variabile con la quale ci stiamo confrontando poiché in base alla sua distribuzione si avranno caratteristiche differenti.

I modelli lineari generalizzati vennero formulati come un modo per uniformare all'interno di un unico modello diversi altri modelli statistici, come il modello lineare, la regressione logistica e la regressione poissoniana. In base alla distribuzione si utilizza una determinata funzione chiamata “link canonico”. La funzione link infatti esplicita la relazione esistente tra il predittore lineare e il valore atteso8_{della distribuzione e ci permette di trattare le diverse tipologie di}

regressione (quella logistica nel caso in cui la variabile di risposta sia dicotomica, quella di Poisson nel caso in cui la risposta sia una variabile di conteggio con distribuzione poissoniana e così via a seconda dei singoli casi di studio).

In questo paragrafo ci limiteremo a descrivere le caratteristiche della regressione logistica e quindi della funzione link logit, essendo quella utilizzata nel nostro specifico caso.

2.6.1 Regressione logistica

Quando la variabile di risposta che si intende studiare è di tipo dicotomico o binomiale (cioè possa assumere soltanto due diversi valori: 0 e 1) si parla di regressione logistica. Questo è un caso che si presenta normalmente quando la variabile Y è di tipo qualitativo e può assumere soltanto due diversi valori: 1 e 0, dove 1 assume il significato del manifestarsi di un determinato evento e il valore 0 invece l’esatto contrario (vero o falso, maschio o femmina, sano o malato) e

8_{E(Y)= μ = 𝑔}−1_{(Xβ); dove E(Y) è il valore atteso di Y; μ rappresenta la media della distribuzione; Xβ è il} predittore lineare, ovvero una combinazione lineare di parametri ignoti β; g invece è la funzione link. I parametri ignoti β vengono stimati solitamente con il metodo della massima veromiglianza, della massima quasi verosomiglianza o con tecniche bayesiane (V. Ricci, Principali tecniche di regressione con R, 2006).

(30)

26

quindi si intende incrociare l’esito della precedente classificazione con una o più variabili indipendenti.

La regressione logistica è riconducibile ai GLM con distribuzione di 𝑌_𝑖~bin(n,𝜋𝑖) e funzione link di tipo logistico log(_1−𝜋𝜋𝑖

𝑖) e si ha il seguente modello di regressione9_: log( 𝜋𝑖 1−𝜋𝑖) = 𝛽0+ ∑ 𝛽𝑗 𝑝 𝑗=1 𝑋𝑗; [5]

Dove i termini β rappresentano come per i modelli di regressione lineare i parametri che individuano la relazione tra Y e le variabili esplicative.

A differenza di un modello di regressione lineare nel quale i valori della variabile dipendente potranno andare da -∞ a +∞, nella regressione logistica saranno compresi tra 0 e 1 andando a modificare anche l’andamento della linea di tendenza che assumerà un andamento appunto logistico (Grafico 2.1).

Grafico 2.1 - Andamento linea di tendenza in un modello di regressione logistica. (Fonte: V. P. Senese, Regressione Multipla e Regressione Logistica: concetti introduttivi ed esempi, 2014)

Come possiamo vedere anche dal Grafico 2.1, nell’asse delle ascisse abbiamo i “Valori osservati di X”, mentre in quello delle ordinate i “valori previsti di Y” che potrebbero sembrare avere lo stesso significato di quello che assumono in una regressione lineare. Tuttavia esiste una differenza sostanziale tra le due interpretazioni in quanto nella regressione logistica la variabile dipendente definisce l’appartenenza a un gruppo (0 e 1). I valori che vengono assegnati ai livelli sono attribuiti in maniera arbitraria. Ciò che interessa, dunque, non è il

(31)

27

valore atteso (o predetto), come nella regressione lineare, ma la probabilità che un dato soggetto appartenga o meno a uno dei due gruppi.

Anche in questo caso, comunque non è sufficiente costruire il modello limitandosi alla sola interpretazione dei risultati ottenuti, in quanto anche in questo caso lo dovremo sottoporre a dei test specifici che ci mostrino quanto gli stimatori riescano a descrivere i dati in nostro possesso. Uno di questi è lo pseudo 𝑅2_{che, analogamente a quanto avviene nella regressione, può essere considerato}

come la porzione di riduzione dell’errore dovuta al modello e il cui valore compreso tra 0 e 1 ci dirà quanto sono attendibili i parametri stimati.

Come per la regressione lineare anche per i modelli lineari generalizzati è possibile ottenere tutti i parametri attraverso l’utilizzo di specifici software statistici. Nel nostro caso ci serviremo di R, le cui funzioni utilizzate saranno elencate tra gli allegati.

(32)

28

3 METODO

Il metodo utilizzato per concretizzare la ricerca è stato caratterizzato da quelli che sono i punti chiave di ogni indagine campionaria:

1. Definire gli obbiettivi della ricerca;

2. Identificare i dati di cui abbiamo bisogno; 3. Identificare le fonti di dati;

4. Disegnare la strategia di raccolta dei dati; 5. Analizzare e interpretare i dati;

6. Presentare i risultati della ricerca.

In questo capitolo cercherò di descrivere quelli che sono i primi 5 punti elencati sopra, esaminandoli uno alla volta in modo da ottenere una chiara descrizione della fase di impostazione e svolgimento dell’indagine.

3.1 O

BIETTIVI DELLA RICERCA

Precedentemente è stato accennato di come, nel processo di modernizzazione della propria struttura aziendale, Enasarco abbia introdotto la possibilità di utilizzo di alcuni servizi online allo scopo di aiutare i propri contribuenti in ogni aspetto del rapporto che li lega alla fondazione. Non solo, abbiamo anche parlato dell’erogazione sì di pensioni, ma anche di servizi assistenziali, formativi ecc… La nostra indagine si è concentrata proprio su questi due aspetti, combinando ad essi il concreto impatto che il mio contributo possa dare all’interno di un istituto come Enasarco. Ovvero, è chiaro che il funzionamento di un ente di così grande importanza sia sottoposto a rigide normative statali che non dipendono né da decisioni prese al suo interno, né da ricerche esterne che possano condizionarne o meno la struttura. È proprio per questo motivo che non abbiamo optato per un’indagine il cui obiettivo principale fosse stato quello di misurare la soddisfazione nella contribuzione o il pensiero che ogni agente di commercio riserba nei confronti delle aliquote contributive applicate. Sarebbe stata onestamente piuttosto fine a stessa in quanto, è evidente, come tali meccanismi

(33)

29

siano legati a tematiche politiche difficilmente influenzabili ed è inoltre chiaro come sia l’opinione di ognuno di noi (negativa) quando si va a toccare tasti “dolenti” come quelli che rappresentano tasse e imposte. Insomma per spiegarlo in parole povere, per quanto ci riguarda, sarebbe stato inutile andare ad interrogare gli agenti di commercio sulla soddisfazione nella contribuzione ad Enasarco in quanto, ogni individuo che percepisce uno stipendio, conosce quanto sia fastidioso egoisticamente parlando, dover versare parte dei propri guadagni nelle tasche di “qualcun’altro”. Seppur ogni istituzione si nutra principalmente per il suo funzionamento dei proventi derivanti dai redditi dei lavoratori. Con questo concetto non si vuole fare una “guerra contro i mulini a vento” ridiscutendo il funzionamento dei sistemi previdenziali e assistenziali, ma vogliamo bensì far capire come l’obiettivo della nostra ricerca sia quello di poter essere concretamente utili ad un istituto sorretto da una rigida disciplina come Enasarco, che forse può essere migliorato sotto un altro punto di vista e cioè quello della qualità nella fornitura di servizi supplementari e della qualità del rapporto maturato e percepito da ogni singolo contribuente.

Alla luce di ciò, abbiamo ritenuto opportuno concentrare la ricerca su quei servizi che è vero sono stati introdotti e che di sicuro hanno facilitato la vita di tanti agenti di commercio, ma che forse con qualche piccola accortezza potrebbero migliorare ancor di più la soddisfazione degli stessi. Per questo il problema verrà approcciato come se dovessimo indagare su un rapporto tra un’azienda e i propri clienti cercando di estrapolare ogni informazione utile alla nostra causa.

Per fare chiarezza ed esporli in modo schematico tre sono gli obbiettivi principali che la nostra indagine si prefissa:

1. Misurare la soddisfazione degli utenti cercando di capire se i servizi online messi a disposizione sono realmente utili e funzionanti per gli utenti che ne usufruiscono;

2. Misurare la soddisfazione di coloro che effettivamente hanno fruito di prestazione integrative messe a disposizione da Enasarco;

(34)

30

3. Indagare su come il rapporto tra la fondazione e i contribuenti è realmente percepito dal punto di vista dei contribuenti.

Come si può notare andremo a toccare argomenti basati sulla fornitura di servizi ausiliari ai contribuenti, in modo da individuare eventuali problematiche che deteriorano la percezione da parte degli stessi su Enasarco e rendere la gestione del rapporto funzionale da tutti i punti di vista.

Da questi tre target cercheremo quindi di ottenere, tramite interviste, degli

insights che ci permettano di fornire preziosi suggerimenti alla Fondazione

Enasarco su argomenti concretamente migliorabili.

3.2 I

DENTIFICARE I DATI

Questo passaggio presuppone di riuscire a trasformare ciò che effettivamente stiamo cercando in dati di modo che, interpretandoli, possano darci le giuste risposte. Nella pratica possiamo dire che una volta assorbiti i concetti espressi dagli intervistati, questi devono essere codificati in dati misurabili10_.

Ad esempio, nel caso della nostra ricerca possiamo vedere come la soddisfazione nell’utilizzo di un determinato servizio non sia facilmente misurabile. Difatti, possono esistere più interrogativi alla base della nostra ricerca, ma la differenza sostanziale sta nel riuscire a tradurre in domanda e conseguentemente in una risposta il quesito iniziale e ciò cambia in base anche al tipo di variabile che vogliamo misurare. Ad esempio, un conto è dover indagare sulla quantità di automobili che ogni famiglia possiede in Toscana, in quanto il problema in questo caso è incentrato su un dato concreto, facilmente misurabile. Altra cosa è invece dover indagare su un concetto come quello di soddisfazione visto che siamo di fronte ad una variabile che non può essere misurata direttamente, ma alla quale corrispondono precisi comportamenti e valutazioni che si possono cogliere e interpretare soltanto attraverso un preciso strumento di indagine (un questionario ad esempio) e una volta ottenuta la risposta occorre

(35)

31

decifrarne il contenuto in modo da formulare un’interpretazione valida. Vista la natura della nostra indagine, è stato proprio questo il procedimento utilizzato: costruire un questionario attraverso il quale estrapolare quelle che sono le impressioni maturate dagli agenti di commercio residenti in Toscana riguardo al rapporto descritto in precedenza con Enasarco.

Oltre a codificare i concetti è importante anche riuscire a capire chi andare ad intervistare, ovvero, è importante riuscire a trasformare ciò che vogliamo conoscere in dati misurabili, ma lo è ancor di più identificare con esattezza chi può fornire informazioni e indicazioni utili allo scopo della ricerca. Nel preciso caso della nostra indagine il target su cui dovevamo puntare il dito era piuttosto evidente poiché implicito nell’obiettivo della stessa cioè quello degli agenti e rappresentanti di commercio. Il punto di partenza è stato infatti proprio quello di andare a cercare una lista di contatti di agenti di commercio che fosse già fisicamente disponibile così da poter risparmiare tempo, risorse e allo stesso tempo basarsi su dati aggiornati e attendibili. Tuttavia l’impossibilità di reperire una lista di questo tipo ci ha portato alla scelta di selezionare il solo territorio regionale. Se infatti fossimo stati già in possesso del frame senza l’esigenza di costruirlo, avremmo potuto comprendere l’intero territorio nazionale senza grossi problemi effettuando un campionamento ad hoc, ma considerato l’esito negativo della richiesta e quindi l’assenza di una lista pre-esistente, ci è sembrato più opportuno rimpicciolire il campo limitando la ricerca alla regione Toscana consapevoli anche della complessità nel riuscire a rintracciare un numero così elevato di contatti a livello nazionale11_.

Quindi riassumendo, agli interrogativi che ci eravamo posti dovevamo dare risposte attraverso un’indagine basata su questionari da somministrare agli agenti di commercio residenti nella regione Toscana.

11_{Nella fase iniziale della ricerca abbiamo provato a reperire una lista di contatti direttamente da} Enasarco o dai sindacati della categoria in questione, ma per motivi di privacy non siamo potuti entrarne in possesso.