Questionario e dataset - Altri strumenti di marketing

Capitolo 5. Altri strumenti di marketing

6.1 Materiali

6.1.1 Questionario e dataset

Al fine di ricavare delle informazioni sul grado di orientamento al mercato e sulle strategie di marketing delle aziende vitivinicole italiane, è stato predisposto un questionario di 71 domande somministrato poi durante gli anni 2007/2009 tramite intervista personale a un campione di 419 imprese (123 della regione Veneto, 120 dell’Emilia Romagna, 91 della Toscana e 85 suddivise tra Marche e Abruzzo).

Il questionario risulta in particolare organizzato in sei sezioni (allegato A): nella prima viene indagata la dimensione aziendale attraverso domande non strutturate atte a chiarire l’ampiezza dell’attività svolta dall’impresa; nella seconda si richiedono informazioni sulle tecniche di posticipazione che l’azienda sta o ha intenzione di adottare; nella terza si identificano i canali e i mercati di sbocco attraverso indicazioni percentuali sulle vendite realizzate; nella quarta si analizzano la struttura organizzativa e il personale adibito a eseguire le principali funzioni aziendali; nella quinta si studia l’orientamento strategico, con domande sulle risorse investite nel marketing, nelle sue leve e nelle diverse aree gestionali; l’ultima parte è invece dedicata alle prestazioni gestionali, alla rilevazione cioè dell’andamento dell’impresa per aree di interesse.

Dall’indagine è stato così possibile ottenere un database costituito da 419 unità statistiche e da 71 variabili di tipo sia quantitativo che qualitativo dicotomico1_{e ordinale}2_.

Poiché però i dati in esso contenuti presentavano delle incongruenze e delle disomogeneità in termini di unità di misura e poiché molti record erano affetti da valori mancanti in corrispondenza di diversi attributi rendendo il dataset fortemente incompleto, si è proceduto innanzitutto a una validazione dei dati per rimuovere anomalie e inconsistenze e per ottenere una migliore accuratezza, in secondo luogo a una riduzione della dimensione del database a livello di record e a una stima di eventuali valori assenti (Vercellis, 2006).

Il primo processo ha visto in particolare la trasformazione e l’omogeneizzazione di alcuni dati espressi in percentuale (variabili n. 8.1-8.4, 20-26; 27-34), il completamento di certi attributi con degli 0 in situazioni di mancata risposta3, la generazione di nuove variabili particolarmente interessanti a partire da quelle originarie4_{e la correzione di alcuni valori sulla base di ragionamenti}

logici e implicazioni5_.

Relativamente alla seconda procedura, dopo aver deciso di escludere per intero la regione Toscana in quanto fortemente lacunosa6_{soprattutto in relazione a variabili concernenti giudizi}

soggettivi e quindi non stimabili, si sono eliminate prima quelle imprese caratterizzate da profili piuttosto incompleti, poi quelle aziende per cui, sebbene una minor incompiutezza, non era possibile stimare in alcun modo i valori mancanti dal momento che eventuali legami logici o rapporti di dipendenza intercorrevano proprio tra le variabili lacunose. Il dataset è stato così ridimensionato a 309 unità statistiche.

Per ovviare ai dati mancanti comunque rimasti, in alcuni casi si è utilizzata la media dei valori dell’attributo corrispondenti alle altre osservazioni; ecco che per il numero di conducenti aziendali (variabile n. 2) il valore medio dei 301 disponibili è risultato essere 2, mentre per l’età media del gruppo dirigente (variabile n. 3) si è giunti alla cifra di 47 anni dai 295 adoperabili.

1_{Si parla di variabili qualitative dicotomiche quando le p misurazioni effettuate sugli n individui mirano a} valutare la presenza (1) o l’assenza (0) di un attributo.

2_{Si tratta di variabili i cui valori sono generalmente espressi da “parole”, ma che possono essere ordinati su} una scala unidimensionale (è cioè sempre possibile stabilire quale tra due qualsiasi valori venga prima dell’altro nell’ordinamento). Da notare come possano essere trasformate in variabili numeriche assegnando un valore convenzionale ai differenti valori assunti.

3_{È il caso delle variabili sulla struttura organizzativa (n. 38-43) e dell’attributo n. 4 “superficie a vigneto in} proprietà”, ipotizzando per quest’ultimo, in caso anche di nessun ettaro in affitto (variabile n. 5), di essere di fronte ad aziende di sola trasformazione o di solo imbottigliamento.

4_{Ad esempio, facendo la somma della superficie a vigneto in proprietà e di quella a vigneto in affitto si è} ottenuta la variabile “superficie a vigneto totale”.

5_{Relativamente alla domanda n. 36 del questionario sull’uso di diversi packaging/etichette in sede di} esportazione, nella circostanza di imprese operanti solo in ambito nazionale si è aggiustato con una risposta negativa. Per la variabile n. 15 “possesso di marchi multipli”, invece, si è corretto con una risposta affermativa nel caso in cui l’azienda si fosse espressa positivamente riguardo sia la produzione con private label (domanda n. 16) che quella con marchi co-etichettati (domanda n. 17).

6_{Le mancate risposte da parte delle aziende andavano da un minimo di 8 a un massimo di 44; analizzando} invece i valori non registrati per variabile, si arrivava addirittura a un massimo di 91.

In altri casi si è ricorso a un modello di regressione lineare7. L’analisi della regressione è impiegata per spiegare la relazione esistente tra una variabile Y, detta variabile dipendente, risposta o output, e una o più variabili X1, X2, …, Xk, chiamate indipendenti, covariate, esplicative, regressori, predittori o variabili di input; essa quindi formalizza e risolve il problema concernente il rapporto tra variabili misurate sulla base di dati campionari estratti da un’ipotetica popolazione infinita. In termini funzionali si ha:

Y = f (X1, X2,... Xk) + ε

dove f (X1, X2,... Xk) è detta componente sistematica, mentre ε è un fattore accidentale, casuale, erroneo; mentre la prima rappresenta la parte della variabile dipendente spiegata dai predittori, il secondo descrive quella parte di variabilità della risposta che non può essere ricondotta a elementi sistematici o agevolmente individuabili, ma è dovuta al caso o a ragioni differenti non considerate dal modello regressivo. Teoricamente il legame funzionale può essere di qualunque tipo, ma solitamente si utilizza una funzione lineare; proprio per questo si parla in genere di regressione lineare multipla o di modello lineare, che assume la seguente formulazione:

Y = β0 + β1X1 + ... + βkXk + ε

ove β0 è detto termine noto o intercetta, mentre β1, ..., βk coefficienti di regressione. Questi ultimi elementi, insieme alla varianza dell’errore, sono i parametri del modello che bisogna stimare sulla base delle osservazioni campionarie. Il metodo utilizzato a tale scopo è quello dei minimi quadrati (OLS, Ordinary Least Squares), che si fonda sulla minimizzazione della somma dei quadrati degli errori, per i quali si fanno generalmente delle ipotesi (omoschedasticità: la distribuzione degli errori è di tipo normale multivariata; assenza di correlazione tra gli errori; assenza di correlazione tra i disturbi casuali e i regressori) (Ricci, 2006).

Una volta individuati i vari parametri e definito il modello, per verificare la bontà dell’adattamento (goodness of fit) della regressione lineare stimata ai dati osservati si fa riferimento al cosiddetto coefficiente di determinazione R2_{, dato dal rapporto tra la variabilità spiegata dal} modello e quella totale propria dei dati. Da notare come esso corrisponda al quadrato del coefficiente di correlazione e come possa variare tra 0 (il modello utilizzato non è assolutamente in grado di spiegare i dati) e 1 (il modello interpreta perfettamente i dati).

Per stabilire poi se il modello possa essere utilizzato in prospettiva inferenziale e sia quindi statisticamente significativo al di là di possibili errori campionari, è utile effettuare una verifica di ipotesi calcolando la statistica t – o test t di Student – per l’intercetta e per ogni coefficiente di

regressione trovato; il valore della statistica t, dato dal rapporto tra il parametro considerato e il relativo errore standard stimato, va confrontato con il valore critico della distribuzione T-Student individuato con n-2 gradi di libertà e un livello α di significatività e, nel caso in cui risulti maggiore, si può parlare di validità del modello.

Volendo definire gli ettolitri prodotti (variabile n. 6) in funzione della superficie a vigneto totale espressa in ettari, si è ottenuta la seguente equazione con il relativo coefficiente di determinazione:

hl = 17.856,268 + 115,114 * ha R2 = 0,266203 .

Nonostante il modello spieghi solo il 26,62% della variabilità dei dati, si è deciso comunque di utilizzarlo dal momento che si trattava di stimare soltanto un dato mancante per la variabile in questione e visto che il test di significatività era stato superato con successo (test t β1=10,54 e test t β2=2,59, entrambi maggiori del valore critico 1,96 della distribuzione T-Student stabilito con ∞ gradi di libertà e α=0,05).

Per il fatturato in euro (variabile n. 7) in funzione del numero di dipendenti e degli ettolitri prodotti si è ricavata invece l’espressione:

euro = – 3.240.581,455 + 448.182,521 * n. dipendenti + 49,318 * hl R2_{= 0,848127 .}

Come si può notare dal coefficiente di determinazione, il modello spiega abbastanza bene i dati con una quota sulla variabilità totale dell’84,81% e risulta statisticamente significativo (test t β1=16,75, test t β2=9,98 e test t β0=-6,08, tutti esterni all’intervallo critico -1,96 e +1,96).

Dall’espressione del fatturato è stato poi possibile ricavare quella per il numero di dipendenti:

n. dipendenti = 7,23049 + 0,000002231 * euro – 0,000110039 * hl .

Da notare come non si sia risaliti allo stesso modo all’equazione inversa per gli ettolitri prodotti effettuando invece la prima analisi di regressione, e ciò per il fatto che qualche azienda non aveva specificato né il valore degli ettolitri né quello del fatturato.

Di fronte al singolo caso di un’impresa senza numero di dipendenti e fatturato, si è stimato il valore del primo attributo facendo la media del numero di addetti delle aziende a essa simili per ettolitri prodotti.

sono ottenuti dei valori negativi, fatto non plausibile; si trattava in particolare di aziende con pochi dipendenti e scarsa produzione in termini di ettolitri. Si è rimediato allora facendo la media del fatturato delle imprese a esse affini per ettolitri prodotti, ritenendo quest’ultima variabile più significativa rispetto al numero di dipendenti.

Si è provato a costruire altri modelli di regressione, ma dal momento che si sono ottenuti coefficienti di determinazioni molto bassi si è dovuto procedere con le stime tramite delle ipotesi e delle considerazioni logiche.

Riguardo la domanda n. 13 sulla previsione che un numero superiore di imprese adotterà nel futuro metodi di postponement, dal momento che la maggior parte del campione riteneva di sì, si è pensato che le imprese che non avevano dato risposta potessero appoggiare questa tesi. Analoga riflessione vale per la domanda n. 19 sulla previsione che i concorrenti avranno nel futuro un maggior numero di marchi privati o co-etichettati e per quella sul trend delle esportazioni (domanda n. 37). Similmente si è ragionato per la domanda n. 36 sull’uso di diversi packaging ed etichette per le esportazioni.

Poiché le imprese che non avevano risposto al quesito n. 14 sull’intenzione di ricorrere al postponement nel futuro già lo praticavano, si è supposta una continuazione nel farlo. Lo stesso vale per l’analoga domanda n. 18 sulle private label e i marchi co-etichettati.

L’unica azienda senza specificazione della variabile “possesso di marchi multipli” (n. 15) praticava il postponement, di conseguenza si è pensato che a maggior ragione dovesse avere più marchi.

Per la domanda n. 44 sull’importanza della strategia di marketing in termini di risorse investite si è calcolata la media dei giudizi assegnati alle altre leve; per la domanda n. 45 sul peso del prodotto/packaging si è fatto un confronto con gli altri pilastri del marketing.

Per le variabili sulla rilevanza delle aree gestionali (n. 50-57) e quelle sulle prestazioni aziendali (n. 58-64) si è optato invece per il valore neutro della scala da 1 a 5 proposta, ossia 3, corrispondente rispettivamente a importanza media e andamento stabile.

Infine, per alcune variabili, cioè quelle relative al numero di etichette di vino da tavola, IGT, DOC e DOCG, non è stato possibile in alcun modo fare delle stime, e di conseguenza sono state eliminate dal database.

Di seguito si procede con l’analisi del dataset, costituito quindi da 309 unità statistiche e 68 variabili.

Nel documento Orientamento al mercato e strategie di marketing nel settore vitivinicolo: una cluster analysis su un campione di imprese italiane (pagine 175-180)