"Disegno di indagine CAWI per "Sport.Outdoor.Network": il caso dell'attivita outdoor"

(1)

a

D

IPARTIMENTO

D

I

E

CONOMIA E

M

ANAGEMENT

Corso di Laurea Magistrale in Marketing e Ricerche di Mercato

Disegno di indagine CAWI per “Sport.Outdoor.Network”:

il caso dell’attività outdoor.

Candidato: Relatore: Gianni Salvetti Prof. Monica Pratesi

Anno Accademico 2015/2016

(2)

(3)

(4)

(5)

Indice

1.INTRODUZIONE ______________________________________________________ 7

1.1 PREMESSA __________________________________________________________ 7

1.2 FASI DELLA RICERCA __________________________________________________ 7

1.3 OBIETTIVI DELLA RICERCA ________________________________________________ 8

1.4 ELABORAZIONE DEL QUESTIONARIO E PROGRAMMA UTILIZZATO PER LA SUA

CREAZIONE_______________________________________________________________ 9

1.5 NUMERI DELL’INDAGINE ________________________________________________ 13

2. SCELTA METODOLOGICA PER L’ANALISI DEI DATI __________________________ 18

2.1 L’INDAGINE COMPLETA E CAMPIONARIA __________________________________ 18

2.2 LE INDAGINI ON-LINE __________________________________________________ 21

2.3 COPERTURA, SOTTO-COPERTURA E AUTO-SELEZIONE ________________________ 24

2.3.1 LA SOTTO-COPERTURA ______________________________________________________ 25

2.3.2 L’AUTO-SELEZIONE _________________________________________________________ 31

2.3.3 LA POST-STRATIFICAZIONE ___________________________________________________ 36

2.4 CONNESSIONE TRA TEORIA E PRATICA_____________________________________ 41

3.ANALISI DEI DATI ____________________________________________________ 47

3.1 INTRODUZIONE AI DATI RACCOLTI E ALLE METODOLOGIE UTILIZZATE ___________ 47

3.2 DISTRIBUZIONE DELLA POPOLAZIONE CAMPIONARIA E OBIETTIVO _____________ 49

3.3 PROFILO SOCIO-DEMOGRAFICO DEL CAMPIONE _____________________________ 56

(6)

3.5 CALCOLO DELLE MEDIE E DELLA VARIANZA DELLE RISPOSTE ___________________ 64

3.6 GLI INTERVALLI DI CONFIDENZA __________________________________________ 70

3.7 RISULTATI OTTENUTI DALL’ANALISI DELLE RISPOSTE DEL CAMPIONE ____________ 73

3.8 RAPPRESENTAZIONE GRAFICA DEI VALORI OTTENUTI E LORO INTERPRETAZIONE __ 78

4 ANALISI DELLE CORRISPONDENZE _______________________________________ 94

4.1 INTERPRETAZIONE DEI RISULTATI ________________________________________ 99

5 CONCLUSIONI E PROFILAZIONE DEL CLIENTE _____________________________ 108

ALLEGATI ______________________________________________________________ 114

APPENDICE _____________________________________________________________ 126

(7)

1.INTRODUZIONE

1.1 PREMESSA

Il presente lavoro vuole raccontare, analizzare e interpretare i risultati di un’indagine on-line, condotta da e per la concessionaria pubblicitaria Sport.Outdoor.Network sui praticanti delle attività sportive outdoor in Italia.

Sport.Outdoor.Network è la concessionaria di pubblicità1 di 14 siti web2 legati al mondo delle attività sportive outdoor e ha chiesto all’Università di Pisa di svolgere un’indagine volta ad approfondire la conoscenza degli utilizzatori dei siti gestiti e capire la loro propensione alle pratiche outdoor in Italia.

La concessionaria, con la gestione dei 14 siti in questione genera un traffico di oltre 450.000 utenti unici al mese e, proprio per questo traffico, Sport.Outdoor.Network è considerata la prima concessionaria nel settore outdoor in Italia.

I primi contatti tra la concessionaria e l’Università hanno avuto luogo all’’inizio del mese di Aprile 2015 e stanno proseguendo tutt’ora.

1.2 FASI DELLA RICERCA

I principali stadi della ricerca possono essere schematizzati cosi:  definizione degli obiettivi;

 definizione delle domande questionario;

 pianificazione del questionario e impostazione dello stesso su una piattaforma per la ricerca dei dati;

 distribuzione dei questionari su Internet e Social Media e definizione dei tempi di apertura e chiusura dell’indagine su detti canali di comunicazione;

 raccolta e analisi dei dati  divulgazione dei risultati.

1_{Agenzia di pubblicità che si occupa della vendita di spazi pubblicitari}

2_{Gulliver.it, Vieferrate.it, Vienormali.it, Pisteciclabili.com, Falesia.it, Actionmagazine.it,}

(8)

1.3 OBIETTIVI DELLA RICERCA

Compatibilmente con i limiti delle ricerche on-line3, lo scopo dell’indagine è quello di analizzare i principali comportamenti dei visitatori dei siti della concessionaria in relazione agli sport outdoor praticati.

Le aree di maggior interesse trattate nel questionario sono:

 profilo demografico dei soggetti rispondenti (età, sesso, regione di provenienza..);  attività praticate ( trekking, boulder, sci di fondo, ecc,,,);

 frequenza della pratica;

 turismo legato alla pratica delle attività outdoor;

 comportamenti di acquisto per l’attrezzatura/abbigliamento outdoor;

 modalità e frequenza con cui i rispondenti si aggiornano sulle attività praticate( siti web, tv, carta stampata).

3_{Con il termine “Indagini via Internet” o “ricerche on-line” ci si riferisce ad un insieme di indagini per le}

quali la rete è sia strumento di contatto con il possibile rispondente, sia strumento di raccolta dati. La principale distinzione da operare per orientarsi nell’insieme delle indagini via web è tra indagini per le quali è nota l’identità dei possibili rispondenti al momento della pianificazione dell’indagine e indagini per le quali questa identità non è nota.

Nella prima categoria possono essere considerate le indagini basate su una lista di soggetti (individui o imprese) che possono essere raggiunte per essere invitate all’indagine o tramite posta elettronica o posta ordinaria.

Nella seconda categoria, invece, per la popolazione oggetto di indagine non è disponibile una lista di indirizzi di posta elettronica tramite la quale raggiungerla per invitarla a partecipare. In questi casi non c’è altra soluzione che posizionare il questionario per l’auto-intervista in rete su di un portale o un sito e renderlo disponibile per l’auto compilazione da parte di chiunque, navigando, passi per il portale in questione e si imbatta nel questionario.

Le indagini via web possono essere vantaggiose per alcuni aspetti:  Facile accesso a molti rispondenti;

 Sono economiche: nessun intervistatore, stampe o mailing;  Veloci: l’indagine si lancia velocemente;

 Alla portata di tutti.

Hanno, però, anche alcune controindicazioni, soprattutto se l’indagine è fatta su una popolazione molto grande:

 Problemi di sotto-copertura;

 Auto-selezione invece di campioni probabilistici;  Errori di misura;

(9)

1.4 ELABORAZIONE DEL QUESTIONARIO E PROGRAMMA

UTILIZZATO PER LA SUA CREAZIONE

Il questionario4, costituito da domande che indagano su variabili statistiche qualitative5 sconnesse6 o ordinali7 e da alcune quantitative8 discrete9, può essere suddiviso per le seguenti tematiche oggetto di indagine:

 quali sono le attività outdoor praticate, da quanto tempo, con chi (domanda da 1 a 3);

 numero di notti passate fuori casa per pratiche sportive, tipo di struttura per il pernottamento;

 previsioni per i prossimi 12 mesi sul tempo dedicato alle attività sportive outdoor e notti passate fuori casa;

 mezzi utilizzati per essere aggiornati sulle notizie del mondo outdoor;

 processo conoscitivo per l’acquisto, variabili discriminanti nella decisione d’acquisto, luoghi dove si compra;

 informazioni anagrafiche (sesso, età, regione di provenienza, titolo di studio);  brand awareness e destinazioni turistiche più conosciute.

Il questionario è stato realizzato utilizzando la piattaforma SurveyMonkey10_.

Per la sua stesura definitiva e per renderlo il più chiaro possibile ai possibili rispondenti è stato necessario dedicarci quasi un mese, arrivando quindi alla fine del mese di Maggio 2015.

4_{Negli allegati è possibile prenderne visione nella sua interezza.}

5_{Esempi possono essere il titolo di studio, con chi si pratica attività sportiva, come si rimane aggiornati}

sulle attività outdoor che si praticano, ecc… Le modalità di queste variabili sono rappresentate da sostantivi o aggettivi (scuola dell’obbligo, Facebook, Twitter…).

6_{Quando le modalità non possono essere poste in un sistema di ordinamento (per esempio le modalità}

“maschio, femmina” per la variabile “sesso”).

7_{E’ possibile ordinare le modalità secondo un ordine crescente o decrescente (“Per nulla d’accordo, poco}

d’accordo, né in accordo né in disaccordo, abbastanza d’accordo, molto d’accordo” rispetto al carattere “Il prezzo è importante nelle mie scelte” della domanda che riguarda gli acquisti di attrezzature e abbigliamento).

8_{“Da quanto tempo pratichi attività sportiva”, “quante notti ha soggiornato fuori dalla città dove abiti per}

la pratica di attività outdoor”, sono esempi di variabili le cui modalità sono rappresentate da numeri.

9_{Se le modalità numeriche appartengono all’insieme dei numeri naturali}

10_{SurveyMonkey è il primo provider gratuito (fonte: sito ufficiale di SM) al mondo (fondato nel 1999 da}

(10)

Prima della effettiva diffusione on-line del questionario è stato opportuno promuoverlo scrivendo un comunicato stampa11_{, durante il mese di Giugno, che ha toccato i seguenti} punti:

 quali sono i siti del network;

 gli obiettivi di conoscenza sul pubblico oggetto di indagine;  le aree di approfondimento;

 collaborazione con l’Università di Pisa;

 la collaborazione con il negozio on-line “Sportler”.

Oltre al comunicato stampa sono stati creati e posti sui siti della concessionaria, innescando una campagna di auto-promozione, dei banner pubblicitari12_{e soprattutto} delle skin13_{. Di seguito si ripropongono 3 di queste ultime:}

 skin su www.falesia.it

Figura 1: Immagine della skin per il sito www.falesia.it

Fonte 1: Home del sito www.falesia.it

11_{E’ possibile prenderne visione tra gli allegati.}

12_{Nel web, un banner è una forma di pubblicità che consiste in un’immagine a striscia, spesso posta}

all’inizio della pagina web. Il banner è una delle forme pubblicitarie più diffuse su Internet ed è una strategia di marketing definita “online marketing promotion”. Questa forma di messaggio promozionale consiste nell’inserire un annuncio su una pagina web. Un banner può essere statico (quando va fruito così com’è) o interattivo (quando consente, una volta cliccato, di raggiungere un’altra pagina web).

Il banner web viene mostrato quando la pagina che lo contiene viene aperta da un browser. Questo evento viene definito in gergo tecnico "impression". Sempre in linguaggio tecnico il numero di click dell'utente sul banner per arrivare al sito dell’inserzionista, viene definito "click through".

Molti banner si basano su sistemi a pagamento basati sul click-through rate (percentuale dei click sul totale impressions erogate). Quando l'azienda pubblicizzata rileva il numero di click effettuati sul banner, invia una somma di denaro all'ospitante. Questo è quindi il metodo col quale la maggior parte dei siti web si autofinanzia. Ci sono diversi modelli di pricing delle campagne (es: CPM. CPC e CPA) in base ai quali un inserzionista (o advertiser) paga il sito o la concessionaria.

La funzione dei banner web è la medesima dei sistemi classici di promozione: informare gli utenti dell'esistenza di un prodotto o di un servizio e proporre le motivazioni per le quali l'utente dovrebbe acquistare il prodotto, ma i banner si differenziano per il fatto che i risultati della campagna pubblicitaria sono consultabili in tempo reale e possono essere rivolti ad un pubblico realmente interessato.

13_{Altro formato pubblicitario utilizzato nel mondo del web. Questo formato consiste nell’utilizzo dello}

(11)

 skin su www.runningpassion.it

Figura 2: Immagine della skin per il sito www.runningpassion.it

Fonte 2: Home del sito www.runningpassion.it

 skin su www.vieferrate.it

Figura 3: Immagine della skin per il sito www.vieferrate.it

Fonte 3: Home del sito www.vieferrate.it

Una volta terminato è stato messo a disposizione degli utenti sui seguenti siti della concessionaria: www.Gulliver.it, www.Falesia.it, www.Vieferrate.it,

www.Vienormali.it, www.Actionmagazine.it, www.Runningpassion.it,

www.Snowpassion.it, www.Outdoorpassion.it e www.Mtbpassion.it.

(12)

Per altri siti è stato necessario che i vari gestori tornassero dalle rispettive vacanze. Per aumentare la probabilità di partecipazione al questionario è stato trovato un accordo con “Sportler.com” (negozio on-line specializzato sulle attività outdoor) che ha dato la disponibilità ad offrire ai rispondenti al questionario un buono sconto di 10 euro con una spesa minima di 100 euro14, dopo aver lasciato il proprio indirizzo di posta elettronica15. Ecco un’immagine del buono sconto:

Figura 4: Immagine del buono sconto di Sportler.com

Fonte 4: Questionario

I mesi in cui il questionario ha ottenuto il maggior numero di risposte sono stati Agosto e Settembre, calando nel mese di Ottobre e aumentando di nuovo nel mese di Novembre, per poi ridursi quasi a 0 nel mese di Dicembre. Il questionario, quindi, è rimasto on-line fino al 27 Dicembre 2015. Il 31 Dicembre scadeva il tempo utile per poter utilizzare il buono sconto.

Visto che più del 60% delle risposte, però, sono avvenute nel mese di Agosto e Settembre e che era necessario trovare la metodologia migliore per affrontare l’analisi delle risposte,

14_{Nell’ultima pagina del questionario è possibile vedere il buono sconto.}

15_{Nella pagina iniziale del questionario si ricorda i dati saranno trattati secondo quanto richiesto dalla}

legge sulla Privacy, D. lgs. n. 196 del 30 Giugno 2003 (“Codice in materia di protezione dei dati personali”)

(13)

è stato deciso, di comune accordo con la committenza di analizzare le risposte di questi mesi.

Sono stati quindi esportati su una tabella Excel i risultati di tutte le risposte per tutti i raccoglitori16 presenti sui siti della concessionaria. Di seguito è possibile osservare un estratto del documento Excel:

Figura 5: Sheet parziale del foglio Excel con i dati che verranno analizzati

Fonte 5: SurveyMonkey

1.5 NUMERI DELL’INDAGINE

In questo paragrafo vengono richiamati brevemente alcuni numeri dell’indagine per un suo migliore inquadramento dal punto di vista quantitativo.

Nel periodo in cui il questionario è stato disponibile on-line, dagli ultimi giorni di Luglio ai primi di Gennaio (a fine Luglio solo su 2 siti della concessionaria per poi, nella seconda metà di Agosto entrare a pieno regime sulla maggior parte dei siti della concessionaria) è stato compilato da 1573 persone. Nel periodo designato per lo studio dei dati, dal 26 luglio al 4 Ottobre, il questionario è stato compilato da 1013 persone.

16_{I raccoglitori controllano se l’indagine è aperta o chiusa ai rispondenti. Se è aperta il raccoglitore}

registra le risposte ottenute. Se l’indagine è chiusa non si può accedere al questionario. La chiusura di un raccoglitore, invece, interrompe la raccolta delle risposte. Oltre che a raccogliere i dati il raccoglitore serve anche a distribuire il questionario. Il raccoglitore crea un link al web (modo più veloce e versatile per distribuire l’indagine e raccogliere le risposte) cosi da far nascere un collegamento tra il mondo del web e l’indagine. Ogni raccoglitore ha le proprie opzioni da impostare per renderlo il più possibile adatto

(14)

Non è stata condotta alcuna indagine pilota prima dell’indagine vera e propria per verificare l’efficacia del questionario o per eventualmente apportare qualche modifica alle varie domande. Questo può essere considerato un limite dell’elaborato.

Dei rispondenti, 70 (6,91%) non hanno risposto alla domanda “In quale regione risiedi?”, utilizzata per post-stratificare la popolazione per capire meglio la composizione di quest’ultima (l’argomento della post- stratificazione sarà affrontato nel prosieguo del lavoro). A causa di ciò i 70 rispondenti non sono potuti essere presi in considerazione per lo studio. Quindi il numero reale della popolazione obiettivo, su cui è possibile condurre lo studio è di 943.

E’ stato ritenuto opportuno da tutti i soggetti che hanno condotto la ricerca di concentrarsi solo sui rispondenti provenienti da 3 raccoglitori (corrispondenti a 3 siti della concessionaria:

 Falesia (72 rispondenti);

 Gulliver (559 rispondenti, di cui 46 non hanno risposto alla domanda “In quale regione risiedi?”);

 Vieferrate (198 rispondenti, di cui 8 non hanno risposto alla domanda “In quale regione risiedi?”).

La popolazione obiettivo effettiva su cui è stata condotta l’indagine è stata di 775 individui (82,18% di coloro che hanno risposto tra le altre domande del questionario anche a quella della provenienza geografica).

A livello generale l’autopromozione del questionario sui siti della concessionaria (dal 13 Luglio al 27 Dicembre 2015) con tutti i mezzi pubblicitari utilizzati ha portato ai seguenti dati17_:

 Totale delle impressions18_{della campagna: 3.441.658;}

17_{Dati provenienti dall’Adserver di Sport.Outdor.Network.}

18_{Rappresenta il numero di volte che una pagina Web o un banner viene visualizzato dagli utenti Internet.}

Ogni volta che l’annuncio viene visualizzato su Google o sulla rete Google, viene conteggiata un’impression.

La maggior parte delle campagne pubblicitarie sul web vengono pagate in base alle impressions avute dai banner o dalle pagine dei siti, cioè in base a quante volte quel banner o quella pagina è stata visualizzata

(15)

 Totale dei Clicks19_{: 25.236;}

 CTR20_{(click through rate o tasso di click)): 0,73%.}

A livello di skins, che rappresenta il formato più utilizzato nella campagna del questionario, i dati sono stati:

 Totale impressions: 2.753.417;  Totale Click: 21.458;

 CTR: 0,78%.

Nei mesi di Agosto e Settembre, invece, i dati si possono riassumere nella sottostante tabella:

Tabella 1: Dati della campagna promozionale nei mesi di Agosto e Settembre

MESE IMPRESSIONS CLICK CTR

Agosto 943417 8617 0,91%

Settembre 1143823 7678 0,67%

TOTALE 2106416 16526 0,78%

Fonte 6: Adserver di Sport.Outdoor.Network

Il CTR ottenuto è abbastanza buono considerando il fatto che per pubblicizzare il questionario e per farlo compilare sono stati utilizzati le skin ( e in seconda battuta i banner) che sono strumenti legati per lo più alla brand awareness, quindi per far vedere una creatività all’utente, senza costringerlo a fare qualcosa ( in questo caso a compilare il questionario). Ovviamente l’obiettivo è quello di far compilare il questionario e non solo di farlo vedere, però, come ben si immagina, non c’è una domanda di compilazione questionari che bisogna soddisfare come può succedere per un bene materiale. Quindi ecco perché il tasso di conversione ha questo valore. Dipende dal tipo di mezzo utilizzato per pubblicizzarlo e dal fatto che non c’è una precisa domanda da soddisfare che spinga il rispondente a iniziare il questionario (e quindi non c’è una conversione con un valore molto più alto di quello trovato).

19_{Conteggia i click andati a buon fine (si crea effettivamente il collegamento al sito o alla pagina}

dell’inserzionista) cliccando su un annuncio o un banner pubblicitario. Il conteggio esclude le pagine selezionate ma non visualizzate..

20_{Rappresenta il tasso percentuale di click sul totale delle visualizzazioni di un banner su uno o più siti e}

costituisce pertanto un parametro importante per la misurazione dell’efficacia di una campagna pubblicitaria. E’ una misura in base alla quale le aziende inserzioniste possono decidere le politiche di acquisto di banner e annunci sul web (fonte: Glossario dei termini pubblicitari on-line;

(16)

Una volta arrivati al questionario non è detto assolutamente che poi sia stato compilato. Molto più probabile che sia stato abbandonato dopo averlo visto o dopo aver risposto a poche domande. Concentriamo l’attenzione, quindi, sul tasso di risposta e tasso di abbandono del questionario.

L’adserver traccia i click generati dai siti del network verso il questionario, però ciò non corrisponde al numero di utenti che hanno effettivamente visualizzato il questionario (per questo non è possibile utilizzare il numero di click totali del periodo per calcolare i tassi che interessano) per vari motivi: interruzione della navigazione, più click da parte dello stesso utente, ecc… Dato che l’adserver non fornisce il dato di click unici per il solo periodo preso in considerazione (Agosto/Settembre) è sorta la necessità di individuare una attendibile approssimazione del numero di utenti che hanno iniziato il questionario. Si considera questo numero pari al numero di utenti che hanno risposto alla prima domanda. Questo valore sarà il denominatore dei tassi desiderati ed è pari a 1013. Poiché voglio per prima cosa calcolare il tasso di risposta considero come numero di rispondenti che hanno finito di compilare il questionario coloro che hanno risposto fino alla domanda 18 del questionario (“I tuoi amici e conoscenti ti considerano un riferimento per le attività outdoor che pratichi?”) che è l’ultima alla quale si doveva rispondere “obbligatoriamente”. Il valore in questione è pari a 947.

Alla luce di quanto appena detto il tasso di risposta è pari a:

𝑇𝑎𝑠𝑠𝑜 𝑑𝑖 𝑟𝑖𝑠𝑝𝑜𝑠𝑡𝑎 = 947

1013= 93,48% Invece il tasso di abbandono sarà pari a:

𝑇𝑎𝑠𝑠𝑜 𝑑𝑖 𝑎𝑏𝑏𝑎𝑛𝑑𝑜𝑛𝑜 = 100% − 93,48% = 6,52%

I motivi per cui ci può essere il tasso di abbandono sono, in genere, riconducibili al questionario o alle domande che potevano risultare troppo lunghe (richiesto troppo tempo per rispondere), o troppo specifiche, non chiare, troppo dispersive (con la stessa indagine si vogliono studiare troppi temi diversi anche se connessi in qualche modo tra loro), gli incentivi promessi (il buono sconto) possono non essere stati sufficientemente incentivanti, oppure perché le possibili risposte mal comprendevano tutte le possibilità di risposta, quindi scelte multiple restrittive. L’argomento verrà nuovamente trattato nei prossimi paragrafi.

(17)

Per completare il paragrafo si provano a stimare i costi dell’auto-promozione del questionario. Si trattano di calcoli meramente teorici fatti per inquadrare quanto fatto da ogni angolazione visto che, nel nostro caso, si è trattato di pubblicità gratuita.

Si ipotizza una tariffa di 7 CPM21 per la skin. Il CPM è utilizzato nel marketing come parametro al fine di calcolare il costo relativo di una campagna pubblicitaria o un messaggio pubblicitario veicolato da un media. Piuttosto che un costo assoluto, il CPM è la stima del costo di 1000 visualizzazioni delle skin che pubblicizzavano il questionario. Quindi, nel caso delle skin si pagano 7 euro22 ogni 1000 visualizzazioni.

In tutto il periodo in cui il questionario è stato on-line, il suo banner/skin (che hanno tariffe molto differenti tra loro) è stato visto (impressions) da 3.441.658 persone, quindi il costo della campagna è stato di circa:

3.441.658

1.000 ∗ 7 ≅ 24.000 𝑒𝑢𝑟𝑜

Si conclude così la parte dell’elaborato riguardante la nascita del questionario, la sua pubblicità e gli obiettivi della ricerca.

21_{Cost per mille (CPM). E’ un indicatore comunemente usato nel settore pubblicitario. La pubblicità}

on-line può essere acquistata sulla base di quanto costa mostrare la pubblicità per 1000 visualizzazioni/letture della stessa.

(18)

2. SCELTA METODOLOGICA PER L’ANALISI DEI

DATI

2.1 L’INDAGINE COMPLETA E CAMPIONARIA

L’indagine è uno strumento statistico mediante il quale si acquisiscono informazioni su uno o più fenomeni attinenti ad una popolazione.

L’informazione può essere acquisita osservando tutte le unità componenti la popolazione o soltanto parte di esse. Nel primo caso l’indagine è detta completa, nel secondo, parziale o campionaria.

L’indagine completa è teoricamente semplice ma all’atto pratico presenta molti lati negativi. Se la popolazione che si desidera studiare è molto numerosa, le risorse economiche e personali necessarie al suo corretto svolgimento possono essere superiori a quelle disponibili. Anche i tempi di esecuzione possono spesso superare limiti accettabili o comunque limitarne notevolmente la cadenza. Inoltre, le indagini complete non possono essere svolte: su popolazioni non finite (popolazioni che hanno origine da un processo produttivo di tipo industriale); su popolazioni per le quali l'osservazione del fenomeno di studio comporti la distruzione dell'unità che si osserva (durata di accensione di una lampadina).

Per contro l'indagine campionaria offre, all'atto pratico, una serie di vantaggi. In primo luogo, non vi sono limitazioni legate alla dimensione della popolazione o alla natura delle unità componenti. In secondo luogo, la possibilità di limitare la rilevazione ad un insieme di unità di dimensione ben inferiore a quella della popolazione consente di: contenere i costi dell'indagine entro limiti accettabili; svolgere l'indagine in tempi relativamente brevi; raccogliere, per ogni unità inclusa nell'indagine, un maggior numero di informazioni; raccogliere le informazioni con maggior accuratezza grazie all'utilizzazione di personale qualificato e/o di tecniche specialistiche.

Sul piano pratico, tuttavia, l’indagine campionaria presenta 2 notevoli problemi:  il modo in cui deve essere scelto il campione;

 procedimenti da adottare per estendere l’evidenza campionaria alla popolazione. Nella fase in cui si definiscono gli obiettivi della ricerca viene anche definita la popolazione obiettivo (insieme finito, come nel caso in questione, o infinito di unità che

(19)

non interessano prese singolarmente, ma per il contributo che danno alle proprietà statistiche dell’insieme di appartenenza). La definizione di quest’ultima significa individuare con esattezza la natura dei suoi elementi componenti, cioè delle unità oggetto di studio, la sua estensione spaziale e temporale.

Si definisce campione un qualsiasi sottoinsieme di n unità (con n ≤ N) della popolazione. L’indagine completa si ha nel caso in cui n = N (può essere vista come un caso particolare della popolazione campionaria).

Vi sono numerosi metodi per selezionare un campione e diverse possibilità di classificarli. Una distinzione importante e fondamentale è quella tra:

 campioni probabilistici;  campioni non probabilistici.

Si parla di campionamento probabilistico quando ad ogni unità della popolazione è associata una probabilità nota di essere selezionata. Da questa definizione derivano le seguenti proprietà dei campioni probabilistici:

1. è possibile definire l’insieme di tutti i campioni distinti estraibili dalla popolazione;

2. a ciascun membro (campione) di tale insieme è assegnabile a priori una probabilità di selezione;

3. stabilito un procedimento di stima vi è una corrispondenza univoca tra campione estratto e valore della stima che da esso si ricava.

Tutti i campioni probabilistici vengono riformati ricorrendo ad un meccanismo di selezione casuale.

Sono campionamenti non probabilistici ( è questo il caso dello studio in esame) tutti quelli che non hanno i requisiti suddetti.

Definita la popolazione obiettivo, è necessario verificare la disponibilità di una base di campionamento (in inglese frame) che le corrisponda perfettamente. In altri termini occorre disporre di una lista completa delle sue unità. Per lista si intende un insieme ordinato di contrassegni delle unità della popolazione, registrati su un supporto che ne consenta la consultazione.

(20)

esiste perfetta coincidenza tra popolazione di selezione e popolazione obiettivo perché, spesso, gran parte delle liste disponibili presentano difetti. Uno su tutti è quello dell’incompletezza, dovuta per lo più alla lentezza con la quale esse vengono aggiornate. I difetti sono tanto maggiori all’aumentare della mobilità delle componenti la popolazione obiettivo.

Oltre a popolazione obiettivo e popolazione di selezione è necessario parlare anche di popolazione di indagine. Selezionato il campione, accade in genere di non poter osservare tutte le sue unità per impossibilità di contattarle o per un loro rifiuto di partecipazione all’indagine.

Il fenomeno della mancata osservazione di un'unità che fa parte della popolazione di selezione prende il nome di non risposta o mancata risposta. In presenza di questo fenomeno il campione fornisce evidenze soltanto sull'insieme di coloro che sarebbe stato possibile osservare se l'indagine fosse stata completa. Questo insieme costituisce la popolazione di indagine (survey population).

Riassumendo: la popolazione obiettivo, alla quale è direttamente interessato chi svolge l’indagine, differisce da quella di selezione a causa dell’incompletezza della lista. La popolazione di selezione differisce a sua volta da quella di indagine a causa della non risposta.

La selezione del campione e la stima dei parametri della popolazione rappresentano senz'altro i due momenti di maggiore interesse teorico dell'indagine campionaria. Le fasi relative alla selezione del campione e alla stima dei parametri della popolazione costituiscono il così detto piano o disegno di campionamento (sampling design). In dettaglio il piano di campionamento comprende le operazioni relative a:

1) l'identificazione delle unità campionarie e/o di aggregati di unità per una eventuale selezione a più stadi o per la costruzione di strati;

2) la scelta della metodologia per l'estrazione delle unità e per la stima dei parametri di interesse.

Scopo principale dell'indagine campionaria è la stima di una o più costanti caratteristiche (o parametri) della popolazione. La stima è il procedimento statistico mediante il quale un valore ricavato come funzione delle osservazioni campionarie viene assunto a rappresentare il valore incognito della corrispondente funzione (parametro caratteristico) nella popolazione. I parametri di maggior interesse sono rappresentati da medie, totali e differenze o rapporti tra queste grandezze, per i caratteri (o variabili) quantitativi e da proporzioni, o percentuali, per i caratteri qualitativi.

(21)

Nella pratica la maggior parte delle indagini è utilizzata sia a scopi descrittivi sia a scopi esplicativi. I dati raccolti mediante le tecniche campionarie che descriviamo in questo capitolo sono dati osservazionali (non sperimentali).

Alla luce di quanto è stato appena detto si classifica la ricerca come un’indagine on-line con un campionamento non probabilistico. Nei seguenti paragrafi le caratteristiche dell’indagine verranno accuratamente spiegate e analizzate.

2.2 LE INDAGINI ON-LINE

Come già è stato ricordato nella primo capitolo dell’elaborato, l’indagine è stata condotta attraverso i siti della concessionaria pubblicitaria, quindi stiamo parlando di un’indagine on-line, o CAWI (Computer-Assisted Web Interview).

Questo tipo di indagine ha le proprie peculiarità.

Riprendendo quanto detto nella nota 3, si distinguono le indagini basate su liste di indirizzi di posta elettronica da quelle rivolte ad un insieme non identificato di utenti Internet. La ricerca condotta si colloca nel secondo gruppo. In tal caso il contatto tra navigante e questionario è raggiunto quando l’utente Internet si imbatte casualmente nel questionario durante la navigazione.

La diffusione della cultura tecnologica e la penetrazione di Internet nella popolazione dei possibili rispondenti (famiglie o imprese) ha conseguenze su diverse dimensioni della qualità del disegno di indagine, cioè sulla qualità del processo di produzione dell’indagine. Fra queste, la tempestività della raccolta dei dati è considerata uno dei vantaggi più competitivi di Internet nei confronti degli altri strumenti di indagine. La tempestività è una caratteristica sia del prodotto finale (ha a che vedere con la frequenza o periodicità dei dati), sia del processo di produzione (è connessa alle procedure d’indagine, in particolare è collegata alla lunghezza del periodo di rilevazione, alla velocità degli strumenti di raccolta e memorizzazione dei dati). Attenzione però, un’eccessiva velocità nel processo di raccolta e memorizzazione può aumentare il rischio di errori di imprecisioni.

Se usato con attenzione Internet, quindi, apre ampi margini per l’aumento della velocità dell’indagine. La memorizzazione dei dati raccolti è infatti contestuale alla compilazione del questionario Web. Inoltre, controlli pre-impostati della sequenza logica della compilazione del questionario e del contenuto dei campi di risposta evitano in tempo reale il rischio di errori ed imprecisione. In altre parole, consentono di ridurre l’errore umano

(22)

nella fase di raccolta dei dati e garantiscono il controllo di qualità in itinere. In definitiva, la tempestività di Internet potrebbe consentire la comprensione della durata del periodo di rilevazione tenendo sotto controllo, al tempo stesso, alcune fonti di possibili incoerenze ed incompatibilità dei dati raccolti.

Un aspetto fondamentale, sia dal punto di vista teorico che pratico, è lo studio dei comportamenti dei soggetti coinvolti in un indagine via Internet.

Per inquadrare ulteriormente quanto scritto nel paragrafo 1.5 un aspetto dal quale non si può prescindere in questo tipo di indagine è il tasso di redemption e tasso di abbandono. Il primo tasso rappresenta quanti questionari sono stati effettivamente compilati ed è uno degli indici che dicono se l’indagine ha avuto successo almeno dal punto di vista quantitativo, cioè ha avuto molti rispondenti. Ci sono molti modi per far aumentare questo tasso, anche se nel caso trattato non sono state prese in considerazione:

 Pre-reclutamento telefonico o via mail (reclutamento off-line che comporta costi e personale aggiuntivo);

 Il broadcast (invio randomizzato di inviti ad indirizzi e-mail già posseduti dall’azienda o acquisiti da canali predisposti, che però inficia sulla rappresentatività del campione);

 Pop-up (la navigazione dell’utente sul sito viene interrotta da un avviso che lo invita a partecipare ad un’indagine on-line);

 Panel (esistenza di un database dal quale è possibile ricavare gli indirizzi e-mail di utenti profilati, che hanno espressamente dato la loro disponibilità a partecipare a questo tipo di ricerche).

Per il secondo, invece, si intende la percentuale di rispondenti che ha deciso di abbandonare l’intervista prima che questa fosse conclusa. I principali motivi che possono spingere il rispondente ad abbandonare sono:

 Eccessiva lunghezza dell’intervista: sottoporre l’intervistato ad un numero eccessivo di schermate può scoraggiarlo e indurlo a chiudere l’intervista (probabilmente inserire più domande nella stessa schermata potrebbe essere una soluzione);

 La durata complessiva del questionario: a prescindere da quante siano le domande, è importante cercare di non pretendere troppo tempo dal proprio rispondente ( è importante fare un ottimo uso dei filtri per ricevere più informazioni possibili in un tempo ridotto);

(23)

 Il valore dell’incentivo: dare sempre un buon motivo al rispondente per terminare il questionario e assicurarsi di mettere ben in chiaro il premio e che sia il più appetibile possibile;

 Il questionario non è scorrevole: i testi sono troppo lunghi, le griglie sono formate da troppe colonne che non permettono una visualizzazione ottimale (la cosa migliore è utilizzare un layout pulito e semplice, inserire immagini e scrivere testi e domande semplici);

 Le domande sono ridondanti: cercare di raccogliere troppi dettagli sottoponendo al rispondente una serie di domande molto simili tra loro, spesso significa perdere la sua attenzione (limitare il questionario alle sole domande necessarie e renderle il più possibile complete ed efficaci)

Prima di addentrarsi nel vivo dell’elaborato è opportuno aggiungere i pregi e i difetti di questo tipo di indagine, che, visto il tipo di committente, non poteva che essere condotta on-line.

Tra i principali vantaggi, in termini di costi e tempistiche, possono essere classificati:  Il numero di persone connesse a Internet cresce esponenzialmente, quindi

un’indagine on-line, in teoria, può raggiungere un vasto gruppo di possibili rispondenti;

 I questionari possono essere distribuiti a costi molto bassi. Non si ha la necessità di avere degli intervistatori, non ci sono costi per stampare i questionari e inviarli ai potenziali rispondenti;

 Le indagini possono essere mandate on-line molto velocemente. Un po’ di tempo può essere perso tra il momento in cui il questionario è pronto e l’effettivo inizio dei lavori di indagine.

Dal punto di vista quantitativo (tempi, costi, visibilità, possibilità di raggiungere un vasto numero di rispondenti) è indubbio che le indagini on-line diano una grande mano ai ricercatori.

Gli svantaggi sono collegati alla possibilità che questa metodologia abbia dei limiti dal punto di vista qualitativo. Ci sono problemi metodologici. Questi problemi sono causati dall’uso di Internet come strumento di selezioni dei rispondenti. Le indagini on-line soffrono di problemi connessi al ruolo che Internet ha in questo caso. A causa di ciò diventa difficile, ma non impossibile, fare inferenza statistica rispetto alla popolazione target dell’indagine.

(24)

I fondamentali problemi che si incontrano sono 2:

 La sotto-copertura (under-coverage) del campione rispetto alla popolazione oggetto d’analisi;

 L’auto-selezione (self-selection) dei rispondenti; è il rispondente che decide autonomamente se partecipare o meno al questionario.

Se i vantaggi che questo tipo di indagine sono di facile comprensione, lo stesso non si può dire degli svantaggi. Questi ultimi verranno, quindi, analizzati nel prossimo paragrafo per meglio comprendere le scelte metodologiche nell’analisi dei dati ottenuti.

2.3 COPERTURA, SOTTO-COPERTURA E AUTO-SELEZIONE

L’obiettivo di un’indagine è quello di dare informazioni corrette su una ben definita e determinata popolazione. Per questo motivo un campione è selezionato da questa popolazione. L’indagine campionaria è basata sul principio fondamentale del campionamento probabilistico. Selezionare un campionamento casuale rende possibile l’applicazione della teoria della probabilità. Conseguentemente, l’accuratezza degli stimatori può essere quantificata e controllata (e proprio per questi motivi il campionamento casuale è spesso utilizzato nelle ricerche di mercato).

A prima vista, le indagini Web hanno molto in comune con altri tipi di indagini, solo che le domande non sono fatte face-to-face o per telefono, ma tramite Internet. La differenza è che i principi del campionamento probabilistico non possono essere applicati. I campioni non sono costruiti mediante un campionamento probabilistico23 creato appositamente dal ricercatore, ma non probabilistico, e fanno affidamento sull’auto-selezione dei rispondenti. E ciò ha delle conseguenze sui risultati della ricerca.

L’altro problema metodologico che si incontra con le indagini Web e che si contrappone all’utilizzo dei principi del campionamento probabilistico è la sotto-copertura.

23_{In questo tipo di campionamento, di cui il campionamento casuale semplice ne è l’estrinsecazione più}

chiara e semplice, ogni soggetto della popolazione studiata ha una probabilità diversa da 0 di essere inclusa nel campione e proprio per questo permette di asserire con sicurezza che il campione è rappresentativo della popolazione. Nella selezione di un campione casule è possibile scegliere se ogni unità della popolazione possa entrare più di una volta nel campione. Se questa possibilità non è ammessa il campionamento è detto senza ripetizione, altrimenti con ripetizione. Nessun elemento della popolazione ha la possibilità di avere una posizione preferenziale rispetto agli altri. Proprio per questo il campione è rappresentativo della popolazione, a maggior ragione se si creeranno più campioni della stessa numerosità

(25)

2.3.1 LA SOTTO-COPERTURA

Questo problema si ha quando gli elementi caratterizzanti della popolazione oggetto di studio non appaiono nel campione che si è venuto a creare e questo rappresenta un ostacolo importante alla veridicità sia dei dati raccolti che dei risultati trovati. Se la popolazione studiata fosse formata da tutte le persone che hanno una connessione ad Internet, non ci sarebbero problemi. Tuttavia, le popolazioni oggetto di studio sono più ampie di cosi. La sotto-copertura si ha ancora perché molte persone non hanno l’accesso a Internet. Di loro, con un’indagine on-line non si avrà nessuna notizia. Se la popolazione che ha accesso a Internet fosse sostanzialmente identica a quella senza accesso, il problema della sotto-copertura non si presenterebbe e si potrebbero trarre informazioni veritiere e valide per tutta la popolazione dalle indagini via Web. La domanda è se la popolazione di Internet differisce dall’intera popolazione obiettivo. Tendenzialmente si dà una risposta positiva a questa domanda, anche se la penetrazione di Internet è sempre in rapida e costante ascesa. Nonostante questo, ci saranno dei gruppi di persone che saranno sostanzialmente sotto-rappresentati o non rappresentati affatto, come ad esempio gli anziani, quelli con una bassa educazione e coloro che non hanno un abbonamento a Internet (la rete Wi-Fi non ha ancora raggiunto una completa copertura del territorio). Oltre, ovviamente, a quelle persone che potrebbero rispondere al questionario ma che decidono di non farlo. Le diversità, rappresentata dalla sotto-copertura, tra popolazione reale e quella che è possibile studiare porta all’errore (bias) dello stimatore della media 𝑌̅ della popolazione per una variabile Y.

Da un punto di vista teorico si ha che la popolazione obiettivo U dell’indagine, è costituita da N elementi identificabili che possono essere etichettati con 1,2,….,N. Quindi la popolazione obiettivo può essere cosi indicata:

U={1,2, … 𝑁}

Y

rappresenta la variabile oggetto di studio, e ogni elemento

k

della popolazione ha il proprio valore riguardo alla variabile obiettivo, pari a

𝑌

_𝑘

.

Se si assume che l’obiettivo di un’indagine Web sia la stima della media campionaria della variabile obiettivo

Y

, essa sarà:

(26)

𝑌̅ =

1 𝑁

∑ 𝑌

𝑘

𝑁

𝑘=1

La popolazione U è divisa in 2 sub-popolazioni. C’è una sub-popolazione UI (popolazione

con Internet) che indica gli individui che hanno accesso a Internet. L’altra sub-popolazione è denominata con UNI (popolazione senza Internet) e rappresenta coloro che non hanno accesso a Internet. Associato con ogni elemento k si ha un indicatore Ik, dove Ik=1 se l’elemento k ha accesso a Internet, Ik=0 altrimenti.

Il numero dei componenti della popolazione con Internet UI è uguale a:

𝑁

_𝐼

=

1 𝑁

∑ 𝐼

𝑘

𝑁

𝑘=1

Allo stesso modo,

𝑁

_𝑁𝐼

= ∑(1 − 𝐼

_𝑘

𝑁

𝑘=1

)

denota la dimensione della popolazione senza l’accesso a Internet UNI, con NI + NNI=N. Seguendo questa divisione nelle 2 sub-popolazioni le medie relative alla variabile oggetto di studio sarà, rispettivamente:

𝑌̅

_𝐼

=

1 𝑁

_𝐼

∑ 𝐼

𝑘

𝑌

𝑘

𝑁

𝑘=1

per la popolazione con Internet, e

𝑌

_𝑁𝐼

̅̅̅̅ = ∑(1 − 𝐼

_𝑘

)𝑌

_𝑘

𝑁

𝑘=1

per la popolazione senza l’accesso a Internet.

In un caso ideale, dove non c’è nessuna differenza sostanziale tra le 2 sub-popolazioni, è possibile, per studiare l’andamento della variabile Y nella popolazione, selezionare un campione casuale senza sostituzione dalla popolazione N, di numerosità conosciuta, che ha accesso a Internet, per avere una completa copertura dell’intera popolazione. Tutti i componenti del campione (a1, a2,…aN, che andranno a costituire nI) saranno selezionati

(27)

da una popolazione che ha accesso al Web e avranno una probabilità positiva e conosciuta di essere selezionati.

Sotto queste condizioni potrà essere ottenuto uno stimatore di Horvitz e Thompson non soggetto a errore della media della popolazione:

𝑦

̅̅̅̅̅=

_𝐻𝑇 1 𝑁_𝐼

∑

𝑎

𝑘 𝑁 𝑘=1

𝐼

𝑘 𝑌_𝑘 𝛱_𝑘 Con:

 ak sono gli individui selezionati nel campione (valore 1 se selezionati, 0 se non selezionati);

 Ik sono tutti gli individui che fanno parte della popolazione che ha accesso a Internet;

 𝑌𝑘

𝛱𝑘 sono i rapporti tra la variabile della quale si calcola la media e la probabilità di

inclusione del primo ordine. Nel caso ci fossero elementi che non appartengono alla popolazione che accesso a Internet, il rapporto è uguale a 0.

Πk è determinato dal disegno di campionamento e, nel caso trattato, si è optato per un campionamento casuale semplice. Per questo motivo assume un valore pari a 𝑛

𝑁; ancora più precisamente 𝑛

𝑁𝐼 visto che si sta indagando solo sulla popolazione che ha accesso al

Web.

Dopo queste precisazioni e alcune semplificazioni, l’equazione dello stimatore può essere scritta come segue:

𝑦

̅ =

_𝐼

1 𝑛

∑ 𝑎

𝑘

𝐼

𝑘

𝑌

𝑘

𝑁

𝑘=1

Questo è uno stimatore senza errore della media 𝑌̅ per la popolazione Internet che, per 𝐼 ipotesi, era uguale a quella senza Internet. Ma, uscendo dalle condizioni del caso ideale, siamo di fronte ad uno stimatore non necessariamente corretto della media 𝑌̅ per l’intera popolazione (annullando la differenziazione tra NI e NNI). Lo stimatore potrà quindi non essere più senza errore, ma avere un bias più o meno grande.

Il bias (B) può essere considerato uguale a:

𝐵(𝑦

̅̅̅̅=E(𝑦

_𝐼

)

̅̅̅̅̅- 𝑌

_𝐼

)

̅ = 𝑌

̅ - 𝑌̅=

_𝐼 𝑁𝑁𝐼

(28)

La dimensione dell’errore in questione dipende da 2 fattori. Il primo è 𝑁𝑁𝐼

𝑁 cioè il

rapporto tra la popolazione senza Internet rispetto al totale della popolazione. L’errore sarà minore se la popolazione senza accesso a Internet diminuirà.

Il secondo fattore è rappresentato dal contrasto (

𝑌

̅ − 𝑌

_𝐼

̅̅̅̅)

_𝑁𝐼 tra la media della popolazione Internet e quella che non ha Internet. Più queste 2 medie delle sub-popolazioni differiscono tra di loro, più l’errore sarà ampio. La conclusione è che in genere un campionamento casuale proveniente dalla popolazione di Internet porterà a stime distorte per i parametri della popolazione studiata. L’aumento della copertura di Internet permette di diminuire 𝑁_𝑁𝐼 e di conseguenza il rapporto 𝑁𝑁𝐼

𝑁

.

Cosi facendo il

bias sarà più piccolo. A ogni modo, non è chiaro se il contrasto tra le medie diminuisca all’aumentare della copertura di Internet. E’ possibile comunque che la parte che rimane senza Internet sia completamente differente dalla popolazione di utenti Internet. Questa differenza potrebbe far aumentare considerevolmente il contrasto tra le medie. Quindi non è detto che l’aumento della copertura di Internet risolva completamente il problema della sotto-copertura.

E’ importante notare che l’errore non dipende dalla dimensione del campione. Aumentando la dimensione del campione non verrà ridotto l’errore, quindi il problema della sotto-copertura nelle indagini Web non diminuirà aumentando il numero delle osservazioni.

Alla luce di quanto detto la popolazione 𝑌𝐼 nell’elaborato è rappresentata dagli utenti unici24 che hanno visitato i siti della concessionaria nel periodo in cui è stata condotta l’indagine. Che non rappresentano assolutamente l’intera popolazione che ha avuto accesso a Internet e ha navigato nel periodo oggetto di studio. Quindi gli utenti unici di interesse sono un sottoinsieme di 𝑌𝐼 . Per di più non è detto che la copertura, quella possibile, sia omogenea in ogni area oggetto di studio: alcune zone possono essere più

24_{Si definisce utente unico un individuo che ha visitato un sito web, ricevuto newsletter o email. Nel caso}

specifico di visite alle pagine di un sito web, l’utente unico è un visitatore che è entrato per la prima volta nel sito e ha visitato una o più pagine dello stesso. Se visita più di una pagina dello stesso sito, il

navigante viene sempre considerato come unico. Il server che ospita il sito rileva l’indirizzo IP (e anche altre informazioni) del navigante e lo aggiunge al numero degli utenti unici. Solitamente questo controllo viene effettuato utilizzando un cookie persistente (non soggetto a scadenza). Esso non viene cancellato quando la persona chiude il browser di navigazione. In questo modo quando il navigante tornerà sul sito, il programma di Web Analytics riconoscerà quel navigatore e saprà che è già venuto una volta e non lo conterà nuovamente. Quindi, se l’utente con le stesse caratteristiche effettua visite multiple, queste non vengono considerate nel conteggio degli utenti avuti nell’intervallo di tempo di interesse. Le informazioni

(29)

rappresentate nel campione e altre meno (i motivi possono essere vari, sicuramente la conoscibilità del sito è un elemento determinante. Un sito può essere più conosciuto in certe aree d’Italia piuttosto che in altre), alcune età più di altre, alcune persone con caratteristiche socio-demografiche in maggior numero rispetto a altre.

La numerosità degli utenti unici sarà ampiamente presa in discussione nel prosieguo dell’elaborato. Al momento basti sapere che il loro totale nel periodo di riferimento, in tutta Italia è pari a 445.94525. Questa popolazione, che è quella dalla quale viene auto-selezionato il campione, è una parte molto piccola della popolazione effettiva degli utenti Internet.

Per dare un’idea delle diverse numerosità delle popolazioni, quella degli utenti Internet, rappresentata dalla total digital audience26, in età compresa tra 11 e 74 anni (questa è la fascia messa a disposizione da Audiweb) nei mesi di Agosto e Settembre è uguale a, rispettivamente, a 26.625.000 e 26.994.00027. A livello percentuale si tratta circa del 51% della popolazione italiana.

A scopo puramente informativo, l’Italia non è certo all’avanguardia per l’utilizzo di Internet. Infatti, secondo un’indagine dell’Istat sull’utilizzo di Internet in Italia28 nel 2013 il nostro Paese occupa gli ultimi posti per uso quotidiano di Internet. In riferimento a ciò, per la fascia di età 16-74, la media europea è pari a 72%, ovvero il 72% della popolazione europea usa regolarmente Internet. L’Italia ha un valore pari al 56% che la colloca al terz’ultimo posto. Specularmente, nel 2013 la popolazione UE-27 di età tra i 16 e i 74 anni che non ha mai usato Internet è, in media, il 20%; in Italia lo stesso valore risulta essere pari al 34%. Alla luce di questa ulteriore notizia si sa che la popolazione degli utenti Internet non rappresenta l’interezza della popolazione dei residenti sul territorio italiano. Infatti la popolazione italiana nella fascia 11-74 anni è pari a 47.731.77329. Ricapitolando, il problema della sotto-copertura non riguarda solamente il rapporto tra la popolazione campionaria e quella degli utenti unici dei siti della concessionaria presi in considerazione nell’analisi (che però è l’unica che è stata affrontata e, nel limite delle possibilità, risolta), ma anche il rapporto tra quest’ultima e l’intera popolazione degli

25_{Fonte: Ad-server di Sport.Outdoor.Network.}

26_{Stima totale dell’attività effettuata dagli utenti on-line attraverso computer e device service}

(smartphone e tablet), al netto delle sovrapposizioni tra i diversi device rilevati.

27_{Fonte: Audiweb powered by Nielsen}

28_{Fonte: www.istat.it/it/files/2014/11/Internet@Italia 2013-def.pdf utenti internet} 29_{Fonte: www. Istat.it, Popolazione residente al 01/01/2015}

(30)

utenti Internet e, infine, il rapporto tra la popolazione di Internet e l’intera popolazione italiana (che conta anche i non utenti Internet).

Nella seguente tabella vengono riproposti i rapporti tra le popolazioni per scoprire a quanto corrisponde il reciproco della frazione di campionamento.

Chiamiamo con:

 n la popolazione campionaria;

 NUU la popolazione degli Utenti Unici dei siti studiati nel periodo di riferimento;  NI la popolazione degli utenti Internet italiani nel periodo di riferimento

 N la popolazione italiana, che comprende anche i non utenti Internet. Quindi:

Tabella 2: Rapporti tra le popolazioni possibili

Popolazioni Rapporto NUU/n 575,412 NI/NUU 59,70 N/ NI 1,94 N/NUU 107,027 NI /n 34354,84 N/n 61589,384

Fonte 7: Istat, Audiweb powered by Nielsen, AD-server e questionario

Da notare soprattutto il rapporto tra la numerosità campionaria e le 3 popolazioni prese in considerazione per dimostrare quanti individui sono rappresentati da una singola unità del campione.

Terminato questo piccolo excursus sulla numerosità delle popolazioni di cui quella da cui il campione selezionato ne è un sottoinsieme è necessario capire come affrontare, quindi, il problema della sotto-copertura e ridurne i suoi effetti. Per ottenere ciò ci sono vari metodi.

Un primo approccio può essere quello di dare un accesso a Internet alle persone che fanno parte del campione, ma non ce l’hanno a disposizione. Nonostante questa possibilità, però, potrebbe comunque rimanere un gruppo che rifiuta l’utilizzo di Internet (gli anziani) e auto-eliminarsi quindi dal campione.

Un secondo approccio potrebbe essere quello di un’indagine fatta unendo varie metodologie di raccolta dei dati (come per esempio collegare indagini CAPI, CATI e Web). Queste ultime possono essere applicate contemporaneamente (il campione viene diviso in diversi sottoinsiemi e a ogni sottoinsieme viene “praticata” un metodologia differente), oppure in maniera sequenziale (tutte le persone del campione sono approcciate con la stessa modalità e coloro che non rispondono vengono successivamente

(31)

intervistati con una modalità differente dalla prima). L’inconveniente è che i tempi e i costi aumentano e quindi si ha una perdita in termini di “speditezza” dell’indagine. Un terzo approccio è quello che utilizza dei pesi per sistemare i risultati. L’idea è quella di ridurre i bias delle stime delle indagini assegnando dei pesi a coloro che hanno risposto al questionario. Questi pesi correggeranno la sotto (o sovra) copertura di specifici gruppi. Questo approccio si chiama post-stratificazione, ed è su questo metodo che è ricaduta la scelta per affrontare i problemi incontrati nell’elaborazione.

L’altro problema, affrontato nel paragrafo successivo, che caratterizza le indagini Web è l’auto-selezione del campione.

2.3.2 L’AUTO-SELEZIONE

In un loro articolo Horvitz e Thompson (1952) ricordano che possono essere compiute delle stime senza errori delle caratteristiche della popolazione solo se si può costruire un campione di una popolazione dove ogni soggetto di quest’ultima ha una probabilità non nulla di essere selezionato nel campione, e tutte queste probabilità sono conosciute dal ricercatore. Quindi solo sotto queste condizioni si possono avere delle stime accurate e corrette.

Purtroppo molte Web surveys non sono basate su un campionamento probabilistico (a meno che per esempio non si voglia mandare un’indagine via e-mail ad una popolazione dove ogni elemento ha sicuramente un indirizzo di posta elettronica. Cosi la web survey potrebbe essere condotta con un campionamento probabilistico). Il questionario è semplicemente messo sul Web. Ed è qui che entra in gioco l’auto-selezione: i rispondenti al questionario solo coloro che hanno Internet, che visitano il sito Web dove si trova l’indagine e decidono di parteciparvi. Il ricercatore non ha nessun potere nell’ambito della selezione degli individui che andranno a comporre il campione.

Il ricercatore deve sperare, per avere il questionario compilato, che nella popolazione ci siano molti individui che: abbiano Internet, si imbattano nel questionario posto sui siti, decidano di compilarlo interamente (senza abbandonarlo durante la compilazione). Perciò non si possono avere né stime senza errore né possono essere condotte delle stime accurate.

(32)

La probabilità di selezione è sconosciuta e, inoltre, questo tipo di probabilità di auto-selezione (e quindi di far parte dell’indagine), è considerevolmente più piccola della probabilità tradizionale di inclusione. Siamo di fronte ad una possibile mancanza di rappresentatività del campione che si è creato rispetto alla popolazione di riferimento. Non si possono, considerando queste ipotesi, fare delle stime senza errore, né può essere determinata l’accuratezza della stima, né stimatori senza errori riprendendo l’idea di Horvitz e Thompson.

L’auto-selezione porta con se un altro problema: la non-risposta. Ciò vuol dire non avere nessuna informazione su tutti gli individui che fanno parte della popolazione obiettivo ma che o non hanno Internet, o non incontrano sul Web il questionario o semplicemente decidono di non compilarlo. Questo fenomeno ha degli effetti sostanziali sulla dimensione campionaria: sarà molto più piccola di quella attesa. La ridotta dimensione inficia sull’accuratezza dell’analisi, ma comunque offre valide stime sulla popolazione. Questo, però, è un problema che può essere risolto prendendo la dimensione iniziale campionaria più grande.

Un altro effetto della non-risposta, ben peggiore del precedente, è che le stime delle caratteristiche della popolazione possono essere accompagnate da un errore se nel campione alcuni gruppi della popolazione obiettivo sono sotto o sovra rappresentati e che essi si comportino diversamente dalla popolazione campionaria rispetto alle variabili investigate. La conseguenza, assolutamente da evitare, è trarre conclusioni sbagliate dai dati ottenuti dall’indagine.

Far parte del campione dipende dalla decisione umana se compilare o meno il questionario. Se fosse possibile comprendere chiaramente come questo meccanismo di scelta lavora, questa conoscenza potrebbe essere usata per correggere le stime. Sfortunatamente questa conoscenza non è disponibile.

Vediamo da un punto di vista teorico il concetto dell’auto-selezione e di come si crea un campione auto-selezionato.

Si definisce con:

 U, la popolazione oggetto di indagine;

 N, il numero indefinito degli elementi che compongono la popolazione;  k, un elemento qualsiasi della popolazione;

 Yk, un valore qualsiasi della variabile oggetto di studio;  ak, gli elementi che sono compresi (selezionati) nel campione;

(33)

 ph, la probabilità di risposta.

Si ha la popolazione dell’indagine U costituita da N elementi identificati, che sono numerati 1,2,…,N. Ad ogni elemento k è associato un valore sconosciuto Yk della variabile che si sta studiando. Il vettore di tutti i valori della variabile target è cosi indicato:

Y= (Y

1

, Y

2

, …, Y

N

)

’

.

Obiettivo dell’indagine campionaria è stimare una media della popolazione:

𝑌̅ =

1 𝑁

∑ 𝑌

𝐾

𝑁

𝑘=1

Per stimare il parametro di questa popolazione, viene selezionato un campione casuale semplice senza re-immissione. Il campione può essere rappresentato dal vettore

a=(a

1,

a

2, …,

a

N

)’.

Il valore ak assume valore 1 se l’elemento è selezionato nel campione e valore 0 qualora

non ci rientri.

Nel caso di un campionamento casuale semplice senza ripetizione la media del campione:

𝑦̅ =

1 𝑛

∑ 𝑎

𝑘

𝑁

𝑘=1

𝑌

_𝑘

è uno stimatore senza errore della media della popolazione.

Come, però, è stato più volte ricordato si ha il problema della non-riposta nell’indagine. Per questo di assume che ogni elemento k della popolazione ha una certa e indefinita probabilità di risposta pk. Se l’elemento k è selezionato nel campione, viene attivato un

meccanismo casuale tale per cui si ha una probabilità di risposta pari a pk e una probabilità

di non risposta pari a (1-pk).

Sotto queste condizioni, possono essere introdotti degli indicatori di risposta:

R

1

, R

2, ...,

R

N

con:

 Rk=1 se l’elemento k corrispondente risponde;  Rk=0 negli altri casi.

Quindi se l’individuo risponde al questionario avremo una probabilità pari a:  P(Rk=1)= ph.

(34)

Se, invece, l’individuo non risponde, la probabilità sarà:  P(Rk=0)= 1- pk.

Alla luce di quanto appena scritto, i rispondenti al questionario saranno gli elementi k che avranno:

 ak= 1;  Rk= 1.

Quindi, il numero degli elementi disponibili all’indagine sarà pari a:

𝑛

_𝑅

= ∑ 𝑎

_𝑘

𝑁

𝑘=1

𝑅

_𝑘

.

Invece, il i numero dei non-rispondenti sarà pari a:

𝑛

_𝑁𝑅

= ∑ 𝑎

_𝑘

𝑁

𝑘=1

(1 − 𝑅

_𝑘

),

dove n= nR + nNR.

I valori della variabile target, però, diverranno disponibili solo per gli elementi rispondenti nR.

La media di questi valori sarà uguale a:

𝑦

_𝑅

̅̅̅ =

1 𝑛

_𝑅

∑ 𝑎

𝑘 𝑁 𝑘=1

𝑅

_𝑘

𝑌

_𝑘

.

La media cosi trovata, quasi sicuramente, non potrà essere uguale alla media che si potrebbe trovare per l’intera popolazione obiettivo perché nei calcoli non possono essere presi in considerazione tutti quegli elementi che avrebbero potuto rispondere al questionario, ma, per qualche motivo, non l’hanno fatto. Più nR sarà più piccolo di n,

maggiore sarà l’errore che accompagna la stima della media.

Per quantificare l’errore è necessario considerare prima il valore atteso, per la popolazione dei rispondenti, della media della variabile target. Quest’ultimo sarà uguale a:

E(𝑦

̅̅̅̅̅ ≈ 𝑌̃

_𝑅

)

dove

𝑌̃ =

1 𝑁

∑

𝑝

_𝑘

𝑝̅

𝑁 𝑘=1

𝑌

_𝑘

(35)

e

𝑝̅ =

1 𝑁

∑ 𝑝

𝑘

𝑁

𝑘=1

rappresenta la media di tutte le probabilità di risposta della popolazione che appartiene a Internet. Come si può osservare dall’equazione, il valore atteso della media di coloro che hanno risposto non è la stessa di quella stimata per la popolazione obiettivo. Il motivo della differenza è rappresentato dal peso della propensione a rispondere. Quindi lo stimatore della media è accompagnato dal seguente bias:

𝐵(𝑦

̅̅̅) = 𝑌̃ − 𝑌̅ =

_𝑅

𝐶

𝑝𝑌

𝑝̅

=

𝑅

_𝑝𝑌

𝑆

_𝑝

𝑆

_𝑌

𝑝̅

Dove

𝐶

_𝑝𝑌

=

1 𝑁

∑(𝑝

𝑘 𝑁 𝑘=1

− 𝑝̅)(𝑌

_𝑘

− 𝑌̅)

è la covarianza tra la probabilità di risposta e i valori della variabile obiettivo; 𝑅_𝑝𝑌 è il relativo coefficiente di correlazione, SY è la deviazione standard della variabile Y e Sp è la deviazione standard della probabilità di risposta.

L’approccio appena descritto, prende in considerazione come elemento conseguente dell’auto-selezione la probabilità di risposta, cioè essa è l’elemento che fa variare i valori ottenuti da quelli attesi. Quindi per abbassare il più possibile il bias è necessario lavorare su questa probabilità. Si assume che ogni rispondente abbia una certa probabilità conosciuta di rispondere al questionario, qualora gli venisse chiesto di farlo. Ovviamente questa probabilità è sconosciuta. L’idea è quella di stimare la probabilità di risposta usando i dati disponibili. Se è possibile ottenere buone stime della probabilità di risposta, esse possono essere utilizzate per migliorare gli stimatori delle caratteristiche della popolazione. Stimare la probabilità di risposta dipende principalmente dal modello usato. Un modello che viene spesso usato è un modello logistico (logit model) che tenta di predire la probabilità di risposta usando variabili ausiliarie. Tuttavia questo approccio richiede che siano disponibili i valori di queste variabili sia per i partecipanti che per i non-partecipanti all’indagine.

Nel caso studiato, sfortunatamente, non si ha modo di stimare le probabilità di risposta dei singoli rispondenti. Per questo motivo si ipotizza una probabilità di risposta costante

(36)

all’interno di ogni strato (nel paragrafo successivo si parlerà della stratificazione) in cui è divisa la popolazione campionaria e obiettivo. La probabilità sarà uguale al rapporto tra il numero dei rispondenti e i rispondenti possibili. Quindi la probabilità di risposta sarà presa in considerazione, non per singolo individuo ma per strato.

La probabilità, intesa come rapporto tra numero dei rispondenti e i rispondenti possibili per singolo strato, può essere vista come un peso utilizzato per correggere le stime. Quindi la distorsione dell’auto-selezione, cosi come quella della sotto-copertura, verrà affrontata attraverso il metodo della post-stratificazione.

2.3.3 LA POST-STRATIFICAZIONE

La post-stratificazione è una tecnica comune utilizzata per ottenere stime più precise nei campioni statistici nelle indagini. Questa tecnica se usata correttamente, aumenta la rappresentatività del campione avendo così una fiducia maggiore nell’inferenza fatta sulla popolazione oggetto di studio.

I vantaggi della stratificazione sono sostanzialmente 2: avere un campione più rappresentativo della popolazione e aumentare la precisione degli stimatori riducendo la loro varianza.

La post-stratificazione comporta che la popolazione obiettivo dello studio sia suddivisa in alcuni gruppi denominati strati. Un campione viene selezionato da ogni gruppo, cosi le stime possono essere calcolate per ogni gruppo separatamente. Il passo successivo sarà quello di combinare le stime dei vari gruppi per avere una stima dell’intera popolazione. Per essere applicata, la post-stratificazione, richiede l’uso di alcune variabili ausiliarie, cioè variabili che sono misurate nell’indagine e per le quali è disponibile sia la distribuzione della popolazione campionaria che della popolazione obiettivo.

Tipiche variabili ausiliarie possono essere il genere, l’età, lo stato civile, la regione di provenienza.

Le variabili ausiliare per la post-stratificazione devono soddisfare 3 condizioni:  Devono essere misurate sia nel campione che nella popolazione;

 La distribuzione della loro popolazione (N1, N2, …, NL) deve essere conosciuta;  Devono essere strettamente collegate con tutte le variabili oggetto di studio. Si può valutare se le risposte dell’indagine siano rappresentative per la popolazione (rispetto alla variabile ausiliare scelta) comparando la distribuzione delle risposte nel