PREFAZIONE ... 3 INTRODUZIONE ... 4 CAPITOLO I: LA PSICOMETRIA... 8
1.1 D
EFINIZIONE E SGUARDO STORICO... 81.2 P
ROCEDURE E STRUMENTI... 11 1.2.1 La misurazione... 11 1.2.2 Attendibilità ... 12 1.2.3 Validità ... 20 1.2.4 Il test... 22 1.2.5 I test di intelligenza ... 25 1.2.6 I test attitudinali e i test della personalità... 28 CAPITOLO II: LE SCALE DI SVILUPPO PER BAMBINI IN ETÀ SCOLARE E PRESCOLARE ... 35P
REMESSA... 352.1 B
ATTELLED
EVELOPMENTALI
NVENTORY, 2
NDE
DITION... 362.2 B
AYLEYS
CALES OFI
NFANT ANDT
ODDLERD
EVELOPMENT T
HIRDE
DITION... 382.3 BRIGANCE® I
NFANT& T
ODDLERS
CREEN... 422.4 C
HILD DEVELOPMENT INVENTORY, T
EACHER’
SO
BSERVATIONG
UIDE,
I
NFANTD
EVELOPMENTI
NVENTORY, C
HILDD
EVELOPMENTR
EVIEWP
ARENTQ
UESTIONNAIRE(CDRPQ)
... 442.5 D
EVELOPMENTALO
BSERVATIONC
HECKLISTS
YSTEM... 482.6 E
ARLYS
CREENINGP
ROFILE... 502.7 G
ESELLD
EVELOPMENTALO
BSERVATION(T
HE)
... 53CAPITOLO III: LA COSTRUZIONE DEGLI INDICATORI COMPOSITI ... 55
3.1 L
A NORMALIZZAZIONE... 553.2 L’
ATTRIBUZIONE DEI PESI... 613.3. L’
AGGREGAZIONE DELLE COMPONENTI... 653.4 L’
ANALISI DELL’
INDICATORE... 71 CAPITOLO IV: L’OMEOPATIA... 754.1 C
ENNI STORICI... 754.2 I
PRINCIPI OMEOPATICI... 774.3 L’
EFFICACIA E LA RICERCA IN OMEOPATIA... 79 CAPITOLO V: LA COSTRUZIONE DEGLI INDICATORI DI BENESSERE .. 84 CAPITOLO VI: I QUESTIONARI UTILIZZATI NELL’INDAGINE ... 886.1 I
L QUESTIONARIO PER I GENITORI... 896.2 I
L QUESTIONARIO PER I PEDIATRI... 986.3 I
L QUESTIONARIO PER LE MAESTRE... 100CAPITOLO VII: LE FASI DI COSTRUZIONE DEGLI INDICATORI
COMPOSITI DI BENESSERE ... 101
7.1 I
NDICATORI COMPOSITI DI SALUTE... 1027.2 I
NDICATORE COMPOSITO DI RETE SOCIALE... 1067.3 I
NDICATORE COMPOSITO DI ADATTAMENTO... 107CAPITOLO VIII: I RISULTATI DELL’INDAGINE ... 109
8.1 I
NTRODUZIONE AI RISULTATI... 1098.2 A
NALISI DEI RISULTATI ... 110 8.2.1 Analisi dei risultati per gli indicatori compositi di salute ... 110 8.2.2 Analisi dei risultati per l’indicatore composito di rete sociale ... 116 8.2.3 Analisi dei risultati per l’indicatore composito di adattamento... 1198.3 C
ONFRONTO TRA GLI INDICATORI... 120 8.3.1 Correlazione tra gli indicatori ... 123 8.3.2 Confronto tra gli indicatori e una variabile esterna ... 132 8.3.3 Confronto dei risultati con i dati regionali ... 136 CONCLUSIONI ... 140 BIBLIOGRAFIA ... 142 SITOGRAFIA ... 145 APPENDICI ... 146A
PPENDICE1 I
L QUESTIONARIO... 146A
PPENDICE2 – I
QUESTIONARI DELL’
INDAGINE... 1542.1 Questionario per i genitori... 154
2.2 Questionario per i pediatri... 159
2.3 Questionario per le maestre ... 163
Pr efazione
L’argomento di questa tesi è il risultato dell’incontro tra un mio interesse verso i temi della ricerca empirica e l’occasione di poter partecipare ad un gruppo di ricerca della Scuola Superiore Sant’Anna, diretto dalla Prof. Maria Francesca Romano.
Tra gli studi di cui si occupa il gruppo di ricerca, mi ha particolarmente interessato l’indagine “Gestione informativa e valutazione delle attività di medicina omeopatica dell’Usl 5”. Tale progetto, iniziato alla fine del 2006, ha come obiettivo principale la valutazione dell’efficacia e dell’efficienza del Servizio di medicina omeopatica.
La metodologia individuata dal gruppo di ricerca include alcuni studi longitudinali da eseguire sui pazienti che si rivolgono agli ambulatori di medicina omeopatica. Personalmente ho concentrato l’attenzione sui dati relativi ai soggetti di età prescolare, nonostante l’indagine sia ovviamente più ampia ed ancora in corso.
Per il mio lavoro di tesi ho quindi anticipato lo sviluppo di alcuni argomenti, utilizzando solo una parte dei dati disponibili. L’elaborato costituisce quindi una traccia, chiaramente meno ambiziosa e rigorosa, da approfondire e perfezionare, dei risultati prefigurati per l’indagine.
L’occasione per me si è senza dubbio rivelata preziosa, non solo perché mi ha consentito di affrontare un tema che personalmente reputo molto interessante, ma soprattutto perché mi ha permesso di dare un’impronta al lavoro meno teorica, consentendomi di avvicinarmi e sperimentare un vero e proprio contesto di ricerca. Ho avuto inoltre l’opportunità di documentarmi su aspetti da me poco conosciuti, come l’approccio omeopatico alla salute: ringrazio la Dott. Maria Marchitiello, responsabile dell’Ambulatorio di Medicina Omeopatica della USL 5 di Pisa e del Centro Omeopatico MaternoInfantile di Pontedera, nonché appartenente al gruppo di ricerca della Scuola Superiore Sant’Anna, per il tempo dedicatomi e per gli utili ed apprezzati suggerimenti.
Intr oduzione
Il presente lavoro si focalizza nella definizione di uno strumento per la valutazione del benessere in soggetti di età prescolare e si inserisce all’interno di un progetto di ricerca “Gestione informativa e valutazione delle attività di medicina omeopatica dell’USL 5” finanziato dalla Regione Toscana all’azienda USL 5 di Pisa e coordinato dalla Prof. Maria Francesca Romano della Scuola Superiore Sant’Anna di Pisa.
La ricerca è stata progettata con l’obiettivo di valutare l’efficacia e l’efficienza del Servizio di Medicina Omeopatica, da realizzarsi presso l’Ambulatorio di Medicina Omeopatica di Pisa e il Centro Omeopatico MaternoInfantile con sede a Pontedera. All’interno dell’indagine per ciascuna di queste sedi si prevedono numerose attività specifiche di monitoraggio, rilevazione e valutazione.
In particolare questo elaborato descrive le fasi di sperimentazione di uno strumento adeguato alla misurazione dello stato di benessere dei bambini tra 1 e 5 anni, in cura presso il Centro Omeopatico MaternoInfantile.
Lo strumento costruito ambisce a mostrare validità ed attendibilità per tutti i campioni di bambini compresi all’interno di questo intervallo di età e quindi potenzialmente condivisibile anche nel contesto di altri approcci terapeutici, come ad esempio la pediatria territoriale.
La scelta di focalizzare l’attenzione sulle classi d’età suddette è maturata tenendo conto che in questa fase lo sviluppo è particolarmente accelerato e determinante; cosicché lo studio in età prescolare consente sia una valutazione del processo evolutivo, sia una valutazione complessiva del dato di benessere.
Nonostante i numerosi strumenti presenti in letteratura, si è deciso di sperimentarne uno ex novo, che potesse risultare più aderente all’obiettivo della ricerca in oggetto. Infatti le scale, i profili e gli indicatori per l’infanzia già utilizzati non risultavano appropriati rispetto alle fasce d’età selezionate, in quanto generalmente costruiti attorno ad un obiettivo di valutazione delle fasi evolutive nel soggetto, piuttosto che di una misurazione globale del benessere.
A tale scopo nel voler delineare un quadro di benessere del campione, l’indagine effettua una stima dello stato di salute, e parallelamente del contesto sociale e delle capacità di adattamento dei singoli soggetti.
La raccolta dei dati viene effettuata su tre distinti interlocutori: genitori, pediatri e insegnanti, ciascuno dei quali per il suo ruolo apporta il proprio punto di vista rispetto alla relazione col bambino, che può integrarsi a quello degli altri nel definire più completamente il profilo.
Allo stato attuale della ricerca è stato raggiunto un obiettivo intermedio. Tale risultato rappresenta l’oggetto di questo elaborato e consiste nello specifico nella creazione di cinque indicatori compositi: tre di salute (soggettiva, oggettiva e derivata dal giudizio medico), uno di rete sociale e uno di adattamento, ottenuti mediante aggregazione di singole scale e testati su dati raccolti mediante la collaborazione dei genitori e del medico omeopata.
La lettura unificata degli indicatori fornisce un profilo dettagliato del benessere dei soggetti facenti parte del campione.
Il presente lavoro si è quindi occupato di descrivere il processo di creazione degli indicatori compositi di benessere: la selezione di strumenti simili da cui trarre spunti e elementi distintivi, la descrizione dei questionari utilizzati per il reperimento dei dati, la presentazione degli indicatori creati e l’analisi dei dati pertinenti agli indicatori.
La trattazione si è quindi articolata in due parti, una teorica e una sperimentale.
La prima, teorica, consiste in un’analisi preliminare basata sull’individuazione di tutti i suggerimenti letterari pertinenti, individuando la disciplina psicometrica come fonte primaria di informazioni per la creazione di strumenti di valutazione del benessere. Le indicazioni ricavate hanno permesso la ricognizione di una rassegna di scale, profili ed indicatori già realizzati per le classi d’età sotto studio e considerati coerenti con l’obiettivo del lavoro. Tale rassegna ha fornito importanti suggerimenti sugli aspetti da conservare nella costruzione del nuovo strumento e quelli invece su cui differenziarlo. Successivamente sono stati richiamati i riferimenti teorici riguardanti la costruzione degli indicatori compositi e il sistema terapeutico omeopatico: di quest’ultimo sono stati evidenziati i principi, non solo per spiegare l’ambito nel quale si muove quest’indagine, ma anche e soprattutto per sottolineare l’importanza di un approccio olistico alla salute nella valutazione del benessere.
La parte sperimentale della tesi descrive invece l’indagine e i risultati prodotti. Dopo una descrizione dei questionari utilizzati per la rilevazione dei dati, con illustrazione dettagliata di quello già somministrato, sono presentati gli indicatori compositi costruiti, per i quali si spiegano la pertinenza col tema e le modalità di realizzazione. Sono anche discussi i risultati ottenuti sulla base dei controlli di funzionalità e validità degli indicatori realizzati, cercando una validazione non solo interna, ma anche attraverso dati esterni ed in particolare con i dati campionari toscani dell’indagine Multiscopo ISTAT. Nelle conclusioni sono stati quindi discussi gli aspetti distintivi ed innovativi degli strumenti adottati rispetto all’obiettivo di valutazione del benessere secondo l’accezione ormai classica definita dall’Organizzazione Mondiale della Sanità.
Sono stati collocate in appendice le parti teoriche sottese all’elaborazione del questionario: questo non per sminuire l’importanza di questo tema ma per non creare soluzioni di continuità rispetto agli altri argomenti, considerati più innovativi. Inoltre in appendice, sempre per rendere più agevole la lettura del testo, sono stati riportati i questionari utilizzati nell’indagine e le analisi statistiche descrittive delle variabili esaminate.
Capitolo I: La psicometr ia
1.1 Definizione e sguar do stor ico
La psicometria è quel settore della psicologia che si occupa della misurazione. Nel dettaglio si interessa delle tecniche e degli strumenti della misura, avanzando parallelamente verso due obiettivi:
1. la costruzione di nuovi strumenti e metodi
2. lo sviluppo e il raffinamento dei metodi teorici esistenti
Il campo di indagine prediletto riguarda: comportamenti, abilità e competenze, conoscenze, atteggiamenti e caratteristiche della personalità degli individui.
È un settore complesso, con natura applicativa (ambiti clinicoterapeutico e pedagogico), nel quale si materializza l’incontro tra istanze teoriche (psicofisiologiche, psicosociologiche, psicopedagogiche) e istanze metodologiche (matematica e logica).
Nella ricostruzione storica è doveroso precisare che la psicometria rappresenta attualmente un ramo a sé stante della psicologia. Tale posizione è stata guadagnata con la capacità di specializzarsi ed imporsi all’interno della psicologia differenziale 1 . Da quest’ultima si è distinta come l’insieme delle tecniche di rilevazione, elaborazione ed interpretazione dei dati psicofisiologici, psicoattitudinali e caratteriologici.
Il suo sviluppo, avvenuto inizialmente in Inghilterra e Usa nella seconda metà del XIX secolo, non meno delle sue origini, si delinea in stretta connessione con molteplici ed eterogenei indirizzi di psicologia.
In primo luogo il perfezionamento delle tecniche fu reso possibile dalla stretta vicinanza con la psicologia sperimentale, con la quale ha avviato uno scambio di tecniche statistiche e principi metodologici.
1
La psicologia differenziale è quel settore della psicologia che studia e indaga le differenze tra gli individui.
In secondo luogo il nesso con la psicologia dei processi cognitivi, con il quale si è palesata la necessità di distinguere i processi di percezione, memoria, apprendimento e linguaggio.
In terzo luogo, la relazione con la psicodinamica, dalla quale ha tratto sistemi di classificazione della personalità e schemi differenziali di interpretazione di processi quali la motivazione al successo e l’aggressività.
L’occasione che ha consentito alla psicometria di sperimentare una forte crescita, in particolar modo nelle dimensioni teorica ed applicativa, è rappresentata dalla volontà degli psicologi di perseguire un particolare interesse: misurare l’intelligenza.
Quest’ultimo si sostanziò con la propensione a definire le caratteristiche intellettive di base degli individui, l’intelligenza generale, supponendo che sottendessero le differenti abilità e capacità.
Questa ipotesi era stata elaborata da C. Spearman, il quale, attraverso appropriati procedimenti statistici, riuscì a calcolare una correlazione tra le votazioni scolastiche di alunni delle scuole elementari londinesi e i punteggi dei test. Più nel dettaglio Spearman notò che queste correlazioni, votazionipunteggi, determinavano un sistema di interrelazioni gerarchiche, spiegabili col fatto che ciascuna capacità esaminata fosse il risultato della combinazione tra due fattori: H, comune a tutte le capacità inserite nel sistema di osservazione e S, proprio di ogni capacità singolarmente considerata. L’ipotesi era quella che i differenti punteggi ottenuti nelle prove specifiche, tendessero ad annullarsi a vicenda laddove i test si componessero di un alto numero di prove, e soprattutto la media di questi punteggi fornisse il valore dell’intelligenza generale. Elaborata nel 1904, fino al 1930 circa 2 , questa ipotesi costituì la base degli studi di Spearman e dei suoi allievi
Importante oppositore di questa teoria fu L.L. Thurstone. Ideatore della tecnica dell’analisi fattoriale, attraverso essa consentì una semplificazione della descrizione dei dati. L’analisi fattoriale permetteva infatti la sostituzione dell’ampio numero di
2 “The nature of Intelligence and the Principles of Cognition” e “Abilities of Man” sono infatti,
variabili (con cui erano state effettuate le misurazioni) con un numero ristretto di fattori 3 .
Una posizione intermedia tra Sperman e Thurstone fu proposta da due psicologi inglesi, C. Burt e T.E. Vernon. I due avanzarono uno schema alternativo e gerarchico di organizzazione dei fattori. Al vertice della gerarchia vi era il fattore G di Spearman, al grado successivo due “fattori di gruppo”, o principali, ulteriormente suddivisibili in fattori secondari di gruppo, ulteriormente suddivisibili a loro volta in altri gruppi di fattori, fino ad arrivare alla base, costituita dai veri fattori specifici.
Intanto in Francia, indipendentemente da Spearman e quasi contemporaneamente, su commissione del Ministero della Pubblica Istruzione, A. Binet e T. Simon, avviarono i lavori per la costruzione di un test normalizzato di intelligenza, con diverse prove a seconda dei differenti livelli di età. Il risultato fu la famosa scala di intelligenza Binet Simon 4 .
Quegli anni, specialmente con l’ingresso in guerra degli Usa, diedero forte impulso all’impiego delle scale di intelligenza, in quella occasione con lo scopo di reclutare in forma rapida il personale militare, successivamente invece, in altre ricerche e situazioni di selezione del personale (per esempio nella pubblica amministrazione o in grandi industrie).
Altri test, come quelli per la misurazione degli atteggiamenti (tipo le scale di atteggiamento sociale di Thurstone del 1930), o quelli per la valutazione della personalità in termini socioadattivi (come gli inventari autografici del Minnesota Multiphasic Personality Inventory (MMPI) del 1940), pur essendo differenti dai reattivi di intelligenza, si basavano sugli stessi fondamenti statistico matematici. Lo sviluppo della psicometria però, non si orientò esclusivamente alla forma strettamente quantitativa. Frequenti sono gli strumenti psicometrici basati su altri
3 Tale tecnica è stata descritta nei libri The Measurement of Intelligence (1925) e Multiple Factor
Analysis (1947).
4
Negli anni dal 1910 al 1916 Terman intraprese dei lavori di revisione della scala pubblicando le correzioni e i dati nel 1916 in The Measurement of Intelligence.
fondamenti. Essi sono essenzialmente i test proiettivi, costruiti prevalentemente su scale di tipo ordinale e nominale.
A partire dal 1939, grazie a L.K.Frank, fu introdotto il termine "tecnica proiettiva". Con essa si soleva indicare diversi tipi di test, già noti ed utilizzati da tempo come metodo globale di valutazione della personalità, che solo allora venivano riuniti e descritti sotto un comune denominatore: i concetti di derivazione psicoanalitica, e in primo luogo la proiezione. Tale denominatore raccoglieva differenti tecniche: i test di associazione verbale, l’interpretazione delle macchie di inchiostro di Rorschach, i test di completamento di frasi, i metodi espressivi cartamatita.
Il primo test proiettivo venne messo a punto da C.G. Jung, nel 1910, il test di associazione verbale, il quale diede il via ad un filone di tecniche proiettive, basate sulle teorie di Jung e soprattutto di Freud. Tra questi il test di Rorschach, del 1921, come analisi dei soggetti di fronte a stimoli visivi indefiniti, o quello pubblicato da H.A. Murray, nel 1943, il Thematic Apperception Test (TAT), test di percezione tematica.
Le principali tecniche proiettive sono state ripetutamente adattate in vista della somministrazione a particolari popolazioni dal punto di vista psichiatrico.
1.2 Pr ocedur e e str umenti
1.2.1 La misur azione La misurazione è il processo alla base della psicometria. Spiegare precisamente in cosa essa consista rimanda inevitabilmente alla definizione più utilizzata in materia, quella di Stanley Smith Stevens. Negli anni ’40 Stevens avanzò una classificazione delle scale di misura, quella attuale, in scala nominale, scala ordinale, scala ad intervalli e scala a rapporti. Tale ripartizione era stata preceduta dalla concettualizzazione della misurazione come “l’assegnazione di numeri ad oggetti o eventi secondo delle regole”. La definizione venne successivamente raffinata e meglio precisata a seconda della materia alla quale doveva
applicarsi. In psicometria, come in altre scienze, consiste in una serie di regole per l’assegnazione di numeri ad oggetti, in maniera tale da rappresentare quantità di loro attributi.
Gli elementi chiave di questo enunciato sono tre: regole, attributi e quantità. L’enfasi posta su essi rimanda ad alcune precisazioni sul processo.
In primo luogo la standardizzazione. Essa accredita tanto lo strumento quanto il processo di misurazione, poiché garantisce il medesimo risultato in tempi e in luoghi diversi.
Regole di misurazione standardizzate si rivelano indispensabili in un contesto avanzato di progresso delle scienze, assicurando numerosi vantaggi quali l’oggettività dei risultati e la facilità di comunicazione di essi, l’economia, in termini di risparmio di tempo e denaro, e finalmente la generalizzazione scientifica.
La modalità con la quale si arriva a stabilire queste regole, dipende dal rispetto di alcuni principi di base: non devono essere ambigue, devono derivare da un elaborato modello deduttivo, devono basarsi su ampia esperienza precedente e soprattutto devono servire a spiegare un importante fenomeno.
In secondo luogo nella definizione emerge l’attributo. Misurare significa riferirsi a particolari caratteristiche degli oggetti e non ad essi. La misurazione prevede quindi innanzitutto un processo di astrazione, secondariamente un’attenta considerazione sulla natura dell’attributo, indispensabile per un corretto procedimento.
Terzo elemento chiave è la quantità. Dalla definizione “…l’assegnazione di numeri ad oggetti allo scopo di esprimere la quantità di determinati attributi”, i numeri vengono usati per comunicare quanto un attributo sia presente in un oggetto, quantificare è esprimere l’ammontare nell’oggetto di quell’ attributo.
1.2.2 Attendibilità
Comprendere che cosa esattamente essa sia, significa inoltrarsi contemporaneamente in due concetti: da una parte la coerenza di punteggi, dall’altra il calcolo dell’errore della misurazione. Quest’ultimo, se considerato dalla prospettiva opposta, potrebbe essere definito anche come la proporzione di varianza realmente attribuibile al fenomeno che si intende misurare, la variabile latente.
Rispettivamente, si parla di attendibilità laddove esiste la possibilità concreta per un soggetto di riportare i medesimi risultati se sottoposto ad uno stesso test in tempi diversi, o a misure equivalenti o ancora a condizioni differenti di somministrazione. Uno strumento viene considerato attendibile se consente simultaneamente di avere, da un lato la misura delle differenze nei punteggi imputabili ad errori casuali di misurazione, dall’altro una misura del fatto che tali differenze dipendano invece dalla reale diversità delle caratteristiche considerate. L’attendibilità fornisce la chiave con la quale comprendere quale porzione di varianza sia dovuta ad errore.
La varianza dovuta ad errore rappresenta un concetto piuttosto variabile a seconda dei fini dello strumento e della variabile che si sta misurando, la si può brevemente definire come quella porzione di varianza causata da qualsiasi evento estraneo ai fini del test. Questa consapevolezza obbliga ad una estrema attenzione nel tentativo di neutralizzare questi eventi, tentativo che, per quanto più accurato possibile, non consentirà mai di elaborare uno strumento attendibile in assoluto.
La presentazione di uno strumento deve pertanto essere sempre accompagnata da una precisazione sulla sua attendibilità, definita attraverso specificazioni sia delle condizioni standard (cioè quelle che hanno permesso una sua quantificazione), sia del campione. L’attendibilità di un test si manterrà costante per qualsiasi impiego di esso, solo se la somministrazione avverrà in condizioni simili a quelle standard e con soggetti vicini per caratteristiche a quelle del campione normativo.
Anche se relativa ad un singolo strumento, rispetto ad esso può essere di natura molteplice, poiché molteplici sono le condizioni che la influenzano. Viene valutata matematicamente, e poiché qualsiasi tipo di essa riguarda il livello di fedeltà di due gruppi di punteggi ottenuti in maniera separata ed indipendente l’uno dall’altro, la sua misurazione avviene attraverso il coefficiente di correlazione.
Il coefficiente di correlazione esprime la relazione, o il grado di corrispondenza, tra due gruppi di punteggi ottenuti rispetto a delle variabili. La natura dei dati influenza la modalità di calcolo dei coefficienti di correlazione, tra questi il più comune è il coefficiente di correlazione di Pearson: y x xy s s s r = Dove: s xy = covarianza tra la variabile X e la variabile Y = x s deviazione standard per la variabile X = y s deviazione standard per la variabile Y
Le procedure con le quali si avanza nel calcolo dell’attendibilità sono essenzialmente quattro:
· Attendibilità testretest
· Attendibilità delle forme parallele
· Attendibilità splithalf (o coerenza interna) · Attendibilità di KuderRichardson
Il metodo testretest rappresenta il metodo più semplice di valutazione di affidabilità. Tale semplicità si traduce nella pratica di applicazione di un test in un dato momento e nella sua riapplicazione, il retest, in un momento successivo. In questo caso la correlazione evidenziata è quella tra due gruppi di risultati, ottenuti per il medesimo campione di soggetti, nell’applicazione di uno stesso test, in occasioni diverse.
Attraverso questa procedura si otterrà una varianza dovuta ad errore attribuibile ad oscillazioni, sia delle condizioni di somministrazione (ovviamente non controllabili), sia delle modifiche avvenute nello stato individuale del soggetto. Ad un alto valore di attendibilità ottenuto, corrisponderà un basso grado di influenza esercitato sul test da
condizioni a lui esterne. La fedeltà espressa attraverso la fase del retest, fornisce la possibilità di generalizzare i risultati del medesimo in occasioni di somministrazione diverse.
Il ricorso a questa procedura implica il dovere di specificare quale sia l’intervallo intercorso tra le due fasi e l’elenco delle esperienze pertinenti del soggetto. Nel primo caso, poiché per ciascuno strumento esistono molteplici valori di attendibilità, questa tendenzialmente decresce al crescere dell’arco temporale considerato, motivo per il quale le riapplicazioni vengono effettuate non oltre i 6 mesi 5 . In questi mesi si possono considerare le oscillazioni accidentali come già contemplate nella varianza dovuta ad errore di misurazione, oltre, tali oscillazioni, acquistano una natura progressiva e cumulativa non esprimibile in tal senso.
Nonostante questo metodo possa per certi versi presentarsi come il più semplice ed ovvio, il suo impiego non esula da difficoltà. In alcuni casi un’alta correlazione dei risultati potrebbe non essere effettiva ma spuria. Ciò si verifica soprattutto in intervalli brevi, nei quali esiste un’elevata possibilità che i soggetti sottoposti a somministrazione ricordino le risposte date nell’occasione precedente, e siano naturalmente portati a ripeterle. Tale meccanismo della ripetizione potrebbe in alcuni casi essere anche motivo di alterazione della natura del test stesso (si considerino soprattutto i test di ragionamento). In questi casi il soggetto potrebbe giungere al risultato per effetto della memoria e della ripetizione piuttosto che per fasi di ragionamento. Questo limite rappresenta la ragione per la quale il metodo test retest ben si applica ad alcune tipologie di strumenti e molto poco ad altre, come il caso della maggioranza dei test psicologici.
Il metodo delle forme parallele è una procedura elaborata allo scopo di allontanarsi dall’ostacolo appena descritto, la ripetizione. L’attendibilità ottenuta con le forme parallele, rappresenta il valore della correlazione tra i risultati della somministrazione di un test in un dato momento, e la somministrazione di un test equivalente, o parallelo, in un momento successivo. Questo sistema consente di rapportarsi a due differenti facce dell’attendibilità: la stabilità nel tempo, la coerenza delle risposte a
5
Esistono tuttavia situazioni in cui la riapplicazione di un test a seguito di un intervallo più ampio può comunque considerarsi utile.
forme variegate di test. Quest’ultimo è denominato concetto di campionatura delle prove, o campionatura del contenuto.
Come nel caso del testretest diventa necessaria la precisazione sull’arco temporale trascorso e sulle esperienze pertinenti dei soggetti avvenute all’interno di esso. Qualora le due applicazioni dovessero essere immediatamente successive è evidente che l’attendibilità valutata è solo quella relativa alle prove. Conseguentemente la varianza dovuta all’errore è attribuibile solo alle oscillazioni di prestazione. Perché questa sia reale è intuitivo che i due test debbano realmente essere paralleli, nella forma, nel contenuto, nel grado di difficoltà e nel numero di prove, così come debbano essere rese comparabili anche altre specificazioni quali i limiti di tempo, le istruzioni o ancora gli esempi illustrativi.
Per quanto le forme parallele siano applicabili ad un più ampio spettro di casi rispetto al metodo del test retest, anch’esse risentono di alcuni limiti. In primo luogo è necessario annoverare il caso in cui le prove valutino caratteristiche in grado di modificarsi con l’esercizio. L’esercizio aumenta la capacità di risposta e l’effetto che ne deriva rappresenta una riduzione della correlazione tra le due forme (un’ulteriore varianza). In secondo luogo l’effetto da ripetizione.
Anche per questo metodo è importante capire in quale misura esso possa interferire sulla natura del test, soprattutto in quelle prove che richiedono un certo ingegno, e per le quali spesso è notevole la difficoltà di approntare una forma parallela. Tali difetti sono sufficienti a motivare l’esigenza di ricorrere per alcuni tipi di prove ad altre tecniche di valutazione di attendibilità.
Il metodo dello splithalf, o metodo della coerenza interna. consiste nel valutare l’attendibilità dello strumento confrontando i risultati ottenuti per metà della prova con quelli dell’altra metà.. Conseguentemente per ogni soggetto si otterranno due serie di risultati comparabili.
Da questa procedura la tipologia di attendibilità che si ottiene è relativa alla campionatura della prova e non alla stabilità dei risultati nel tempo, poiché l’applicazione è unica .
Il passo essenziale è la divisione del test in due metà che siano realmente comparabili. I modi attraverso i quali procedere sono molteplici. Difficilmente il test viene
suddiviso in maniera cronologica, la prima metà e la seconda, tale presupposto eliminerebbe il criterio irrinunciabile di comparabilità, soprattutto se si tiene ben presente che al progredire delle prove di un test cresce anche il grado di difficoltà, senza trascurare inoltre una serie di effetti cumulativi di vari fattori quali la stanchezza o la noia.
Un procedimento, adeguato per quasi tutti gli scopi, è suddividere le parti raccogliendo in una le prove pari e nell’altra quelle dispari. Se esse sono presentate in ordine crescente di difficoltà, una ripartizione in pari e dispari consente di ottenere due metà pressappoco equivalenti. In questo meccanismo non si può prescindere dalla precauzione di mantenere tutti i quesiti relativi ad un medesimo argomento dalla stessa parte. In caso contrario, ipotizzando un errore di comprensione rispetto al suddetto argomento, si rischia di ottenere un risultato falsato (ovvero risultati simili per le due metà).
Una volta in possesso dei due risultati per ciascun soggetto si prosegue con il calcolo della correlazione secondo il metodo abituale. Ovviamente la misura di attendibilità ottenuta non è relativa all’intero test, ma alla metà di esso.
La lunghezza del test sicuramente fornisce una maggiore garanzia di attendibilità, quanto più il test è lungo tanto maggiore è il campione di comportamento da valutare. Il metodo di KuderRichardson, come quello appena descritto, si basa su un’unica applicazione del test e riguarda la coerenza tra le risposte alle varie prove di cui si compone (interitim constitency). Questa coerenza fornisce anche una misura della varianza causata dalla campionatura del test (come nei casi delle forme parallele e dello splithalf) e della omogeneità del comportamento indagato. Se lo strumento somministrato indaga una sfera di comportamento omogenea, l’attendibilità che ci si aspetta è sicuramente più elevata che in presenza di un test eterogeneo, dove la capacità di risposta manifestata dai soggetti è sottoposta a variazione a seconda dei quesiti.
Il procedimento più accurato per stabilire la coerenza tra le prove è quello di Kuder Richardson (1937) basato sull’analisi della prestazione a ciascuna prova.
Tra le formule proposte dagli autori, quella che ha trovato un più largo utilizzo è la “formula 20 di KuderRichardson”:
r = 2 2 1 1 t pq n n s s -
å
÷ ø ö ç è æ - dove: r = coefficiente di attendibilità dell’intero test n= numero di prove contenute nel test t s = la deviazione standard dei punteggi totali al testå
pq = sommatoria dei prodotti tra la porzione dei soggetti che superano (p) e non superano (q) ciascuna prova del test.
Matematicamente è stato provato che tale coefficiente di attendibilità corrisponde alla media aritmetica dei coefficienti di attendibilità ottenibili attraverso il metodo dello splithalf. Quest’ultimo, basato su due metà equivalenti dello stesso test, nella maggioranza dei casi, riporta valori di attendibilità maggiori rispetto a quelli ottenuta dal metodo KuderRichardson, che difficilmente sono valutati su test fortemente omogenei.
Qualsiasi metodo si scelga tra quelli appena illustrati è necessario tenere in considerazione il fatto che ciascun coefficiente di attendibilità risente: dell’influenza esercitata dalla natura del gruppo, cioè lo spettro di differenze individuali presenti all’interno e del grado di abilità media riscontrata in esso.
Tale consapevolezza ha prodotto un rimedio col quale ovviare al problema. Una pratica oramai diffusa è la suddivisione del gruppo in categorie e il calcolo del coefficiente di attendibilità per ognuna di esse. In tal modo si può ricorrere al giusto coefficiente e applicarlo appropriatamente ai differenti campioni su cui il test verrà somministrato nella realtà.
Come precisato all’inizio, il discorso sull’attendibilità può essere meglio compreso se indagato da due prospettive differenti, da una parte la coerenza dei punteggi, dall’altra il calcolo dell’errore di misurazione, o la misura della varianza reale attribuibile alla variabile latente.
Quest’ultima può essere rilevata secondo un metodo residuale. Le procedure sopra presentate chiariscono il fatto che ciascuna di esse determina una certa tipologia di attendibilità (stabilità temporale, attendibilità del contenuto, omogeneità del
comportamento indagato), e conseguentemente un certo tipo di varianza dovuta all’errore che da esse deriva. Attraverso semplici operazioni si quantifica la varianza reale. Per mezzo di sottrazione si ottiene il valore della varianza derivabile da ciascuna forma di attendibilità (rispettivamente varianza relativa alla scelta del campione temporale, varianza relativa alla scelta del contenuto), tali valori sommati conferiscono una misura della varianza totale dovuta ad errore per uno specifico test. 6 1 valore dell’attendibilità = varianza dovuta ad errore ∑ varianze dovute ad errore Una volta posseduta la varianza dovuta ad errore, per effetto di un’altra sottrazione, si arriva facilmente alla misura della varianza reale: 1 ∑ varianze dovute ad errore = varianza reale Dall’altra parte, si è detto, l’attendibilità può essere espressa mediante errore standard di misurazione o errore standard di un punteggio. Questo, a seconda dello scopo, è da preferirsi al coefficiente di attendibilità, soprattutto nei casi in cui è utile l’interpretazione dei punteggi del singolo. Anche in questo caso il calcolo avviene ricorrendo comunque al coefficiente di attendibilità:
I mis =s 1 1 - r1 s
dove: s mis = errore standard di misurazione
1
s = deviazione dei punteggi
I
r1 =coefficiente di attendibilità
7
A differenza del coefficiente di attendibilità l’errore standard di misurazione non risente del fattore eterogeneità del gruppo, poiché esso, come detto prima, si esprime in termini di punteggi individuali. 6 Si propone di seguito lo schema di Anastasi in I test psicologici (si rimanda alla bibliografia.). 7 Sia il coefficiente di attendibilità che la deviazione standard dei punteggi che precedono sono calcolati sul medesimo gruppo di persone.
1.2.3 Validità
La validità riguarda la precisione con la quale lo strumento riesce a misurare la variabile che si è prefissato. La qualificazione di validità non può evidentemente prescindere dall’utilizzo particolare al quale il test si indirizza. Le dimensioni rispetto alle quali essa può essere valutata sono tre:
ü validità di contenuto
ü validità rispetto ad un criterio ü validità del costrutto
La validità di contenuto, dalla sua denominazione, rappresenta un esame attento del contenuto del test, volto ad accertare che esso sia adeguatamente rappresentativo del comportamento che si intende misurare.
Il lavoro da compiersi non è semplice. In primo luogo è necessario prestare attenzione alla campionatura del contenuto. Il contenuto del test deve essere vagliato in tutta la sua ampiezza, nessuna area ad esso pertinente può essere tralasciata. In secondo luogo spesso l’opportunità del test dipende più dalle risposte che dalle domande; le prime infatti potrebbero mostrarsi maggiormente in grado di avvicinarsi all’obiettivo del test (in base al procedimento logico seguito dal soggetto nella reazione alle prove), più di quanto non risulti da una esame sulle domande. In terzo luogo è opportuno discostarsi da errate generalizzazioni. In tal senso è doveroso precisare che in alcuni casi un test è strutturato in maniera da misurare solo un ambito di un comportamento, la validità di contenuto sarà alta per quel test, qualora esso non abbia la pretesa di misurare quel comportamento, ma precisi di valutarne solo un aspetto.
Valutare la validità di contenuto è una prassi che avviene sin dal principio. Nel momento in cui uno strumento viene costruito si seguono infatti precisi criteri di pertinenza. Questi implicano l’individuazione degli obiettivi e degli argomenti e soprattutto la misura con cui verranno trattati. Ciononostante, per quanto in fase di realizzazione del test queste raccomandazioni siano seguite diligentemente, la validità di contenuto deve essere verificata empiricamente anche in un momento successivo.
Essa infine non va confusa con quella che si definisce la validità esteriore, cioè la pertinenza e la plausibilità dello strumento rispetto al campo in cui esso verrà applicato.
La validità rispetto ad un criterio è la validità dello strumento rispetto ad un parametro esterno ad esso. L’efficacia che il test manifesta è quella di predire un comportamento di una persona nell’ambito di situazioni predefinite, in cui la prestazione verrà valutata in rapporto ad un criterio indipendente ed esterno. Questo criterio, e la sua misura, può essere ottenuto, o contemporaneamente ai punteggi stessi, o dopo un certo arco temporale. La distinzione temporale rimanda a due concetti distinti: la validità predittiva e la validità concomitante.
La validità predittiva, come rilevabile in maniera intuitiva, è una previsione in un certo intervallo di tempo, o meglio la capacità di predire, mediante il dato ottenuto attraverso lo strumento, l’evoluzione futura del fenomeno. La sua importanza è notevole in contesti di selezione del personale in ambiti differenti, siano essi lavorativi o scolastici. La validità concomitante, invece, consiste nel confronto tra i dati forniti dallo strumento e quelli forniti da uno strumento alternativo, valido e applicato allo stesso fenomeno. Il secondo viene assunto come criterio, cosicché la serie di osservazioni eseguite per mezzo del primo sono intese come previsioni delle osservazioni ottenute col secondo.
In realtà la distinzione logica tra le due risiede più che nella diversità temporale di riferimento, negli obiettivi perseguiti dai test psicologici, la validità concomitante assume rilievo come diagnosi del presente, quella predittiva invece in previsione di risultati futuri.
La validità del costrutto è relativa alla capacità di corrispondenza tra i punteggi rilevati dal test e la struttura teorica, o tratto, dai quali esso deriva. Lo scopo è verificare l’aderenza tra la valutazione effettuata, intesa come spiegazione statistica di un dato fenomeno, e le ipotesi teoriche formulate.
Le modalità con le quali procedere sono varie. La prima è un confronto tra due strumenti, quello per il quale si sta valutando la validità, e uno il cui uso è consolidato, e la cui validità è assodata. Qualora tra essi via sia un’alta correlazione, cioè il primo riesca a valutare la stessa area di comportamento del secondo esso si può ritenere
valido. La correlazione tra i due però, non deve essere troppo elevata, in tal caso si potrebbe manifestare un caso di sovrapposizione e il nuovo strumento risulterebbe inutile.
Altro procedimento è quello dell’analisi fattoriale. Attraverso di esso si possono individuare le variabili latenti che si intendono misurare, con il fine di verificare la corrispondenza del modello teorico ipotizzato e la struttura latente. Questo procedimento si sostanzia nella riduzione delle variabili ad un numero ridotto di fattori. Da una molteplicità iniziale di variabili si passa ad un numero più contenuto di tratti che consente di semplificare la descrizione del comportamento misurato. Individuati i fattori, attraverso di essi si può procedere nello spiegare la composizione fattoriale del test.
La validità di costrutto rappresenta la procedura di validazione più ampia, per mezzo di essa si è focalizzata l’attenzione attorno alla teoria psicologica e alla sua rilevanza imprescindibile nella costruzione dei test. Il principio è formulare ipotesi teoriche che attraverso il processo di validazione potranno essere confermate o, al contrario, invalidate.
Descritti i tre tipi di validità, scegliere a quale di essi ricorrere nella validazione dello strumento dipende dall’obiettivo che lo stesso strumento persegue, ciascuna di esse si adatta meglio ad uno scopo piuttosto che ad un altro. Inoltre la distinzione non implica che esse debbano essere considerate in compartimenti stagni, al contrario spesso le operazioni eseguite per una vengono comprese anche all’interno delle altre. Ciò è particolarmente vero nel caso della validità di costrutto, la più complessa tra le tre.
1.2.4 Il test
Il test costituisce lo strumento primo della psicometria, il principio chiave attraverso cui la disciplina raccoglie le informazioni. La funzione prioritaria del test è misurare le differenze tra gli individui, o ancora le reazioni di uno stesso individuo sottoposto a condizioni diverse.
Il forte sviluppo dei test avvenne nel XIX secolo in seguito ad una maggiore attenzione rivolta verso i ritardati mentali. Il trattamento umanitario a loro riservato costituiva una novità rispetto ai periodi precedenti, novità da cui scaturì la necessità di accertare coloro che erano colpiti da una forma di deficienza mentale. La tendenza fino ad allora espressa, era quella di ricorrere ai test allo scopo non di ritrovare le diversità, al contrario trovare un’uniformità diffusa che consentisse l’applicazione di leggi universali.
Lo sviluppo della psicologia differenziale consentì l’avvio di una controtendenza. In tal senso decisivo fu il contributo di Galton. I suoi lavori contribuirono e fornirono un enorme impulso alla diffusione dei test. Nello specifico gli studi sull’ereditarietà, condotti attraverso le informazioni rilevate mediante test somministrati nelle scuole, i test di discriminazione sensoriale, il cui successivo sviluppo pose le basi per la realizzazione di reattivi dell’intelligenza e, finalmente, l’elaborazione delle tecniche delle libere associazioni, i cosiddetti reattivi proiettivi.
Sulle orme di Galton proseguì Cattell che manifestò un forte interesse per la misura delle differenze individuali. Egli è da considerarsi il coniatore della denominazione test, fu in effetti in un suo articolo del 1890 che tale termine apparve per la prima volta nella letteratura psicologica.
Il passo verso l’elaborazione di test dell’intelligenza e della loro ampia diffusione avvenne in seguito 8 . L’avvio passò attraverso la creazione della famosa scala Binet Simon, il cui apprezzamento elevato portò alla traduzione e all’impiego in numerosi altri Paesi. Di essa non mancarono varianti riadattate o revisioni come quella tra le più note di L.M. Terman presso la Stanford University e appunto denominata “Stanford Binet”, nella quale per la prima volta si parlava diQuoziente di intelligenza (Q.I.), Le scale sopra menzionate sono scale di tipo individuale, differiscono dai test collettivi per una struttura particolare applicabile all’individuo singolo e per mezzo generalmente di un esaminatore altamente qualificato. I secondi, i test collettivi 9 ,
8 Il pretesto fu di carattere pratico: nel 1904, a Parigi, il Ministero della Pubblica Istruzione nominò una commissione per lo studio dei metodi per l’educazione dei bambini subnormali delle scuole parigine. 9 Anche in questo caso l’impulso alla creazione avvenne per ragioni di carattere pratico. Nel 1917 gli Stati Uniti intervennero nella prima guerra mondiale e le American Psichological Association nominarono una commissione che potesse contribuire ad individuare la via attraverso la quale la psicologia potesse essere di aiuto nella guerra. Il risultato fu la realizzazione di test relativi al livello intellettuale generale, con i
invece, possono essere somministrati facilmente e contemporaneamente a grandi gruppi. I primi tra essi sono noti come “Army Alpha” per i casi normali e “Army Beta”, una scala non verbale, adatta ai casi di analfabetismo e reclute straniere non capaci di comprendere la lingua inglese. Dal contesto militare questi test passarono al contesto civile. Con gli opportuni adattamenti vennero successivamente utilizzati nelle scuole e in differenti altri contesti pubblici.
La facilità di applicazione favorì intensamente l’utilizzo spesso indiscriminato dei test collettivi di intelligenza, ragione che determinò simultaneamente un ritardo ed una accelerazione nel loro progresso.
Gli anni ’20 furono caratterizzati quindi da una grossa diffusione di test il cui scopo era misurare l’intelligenza generale, fossero essi individuali o collettivi. Col raffinarsi degli strumenti divenne sempre più evidente che in gran parte dei casi i presunti test di intelligenza ad una più attenta analisi erano test volti a valutare specifiche attitudini. Da questa maturata consapevolezza il rapido propagarsi dei test attitudinali successivamente distinti in test di attitudini specifiche da una parte, utilizzati principalmente per l’orientamento professionale, e in batterie attitudinali multiple 10 dall’altra, la cui nascita si deve ai progressi compiuti nella metodologia e nello specifico alla tecnica dell’analisi fattoriale ideata da L.L. Thurstone.
Accanto ai reattivi di intelligenza e quelli attitudinali acquisirono importanza anche le misure della personalità, relative agli aspetti più emotivi, o non intellettivi del comportamento.
Eseguita una ricostruzione storica, prima di procedere in una rassegna delle classi di test sopra enunciate, diventa doveroso definire il test quale strumento.
Il test psicologico rappresenta una misurazione obiettiva e standardizzata di un campione di comportamento. La sua composizione è fatta di una serie di stimoli, o quesiti, standardizzati per tipologia, durata, sequenza, ordine e istruzioni. Questi stimoli sono ricavati dal concetto teorico alla base dello strumento e mirano a rappresentare una certa funzione intellettiva, attitudinale o ancora della personalità.
quali reclutare un milione e mezzo di soldati e sbrigare rapidamente una serie di esigenza di carattere amministrativo quali esoneri, congedi e assegnazioni di servizi.
10
Queste, così come le altre tipologie di test menzionate in seguito, verranno trattate in maniera più dettagliata nei paragrafi successivi.
Le risposte ai quesiti sono a loro volta trattate in maniera standardizzata, secondo le indicazioni teoriche relative al test. Alle risposte dei soggetti vengono attribuiti dei punteggi mediante i quali è possibile effettuare confronti in due direzioni: tra le sotto aree che compongono il test, con i punteggi del campione normativo. Quest’ultimo costituisce il campione per mezzo del quale il test viene tarato e attraverso esso si ottengono punteggi di riferimento. A scopo schematico si può riassumere brevemente che le tipologie di test attualmente presenti ed utilizzate in ambito psicologico sono numerose, tra esse, però, è possibile individuare una ripartizione funzionale basata sulle finalità per le quali essi sono stati costruiti. Le classi principali così desunte sono tre: Ø I test di intelligenza Ø I test attitudinali Ø I test della personalità. 1.2.5 I test di intelligenza In questo paragrafo la materia verrà discussa attraverso la descrizione di alcuni tra gli esempi ritenuti più rappresentativi del tema, prescindendo dalla ricostruzione storica, rinvenibile in forma breve nei paragrafi precedenti.
I test di intelligenza nascono e si sviluppano con l’obiettivo di misurare l’intelligenza generale degli individui, ciò che nel tempo è stato definito come il Quoziente di intelligenza (Q.I.), cioè il rapporto tra l’età mentale e l’età cronologica.
Pioniere in tal senso fu Binet, la cui collaborazione con Simon diede origine in Francia alla prima scala di intelligenza, la Binet Simon (1905).
Tutti i reattivi di intelligenza successivi sono i discendenti diretti delle scale di intelligenza di Binet. Questi test vengono impiegati in vari contesti e generalmente determinano un punteggio, il valore del Q.I., volto ad indicare il livello di intelligenza generale del soggetto esaminato.
La scala Stanford Binet 11 costituisce una revisione della scala Binet Simon. La versione più recente, tra quelle effettuate per mano di Terman, risale al 1960, successiva alle due del 1916 e del 1937 12 . L’ultima versione è in grado di conciliare, da una parte i concetti essenziali già presenti nella base (la scala Binet Simon), cioè la misurazione dell’intelligenza basata sull’età cronologica, dall’altra i progressi avvenuti in campo psicometrico nei 50 anni intercorsi tra le due. Essa conserva inoltre le scoperte utili compiute con le precedenti revisioni.
La scala Stanford Binet, mira a rilevare il Quoziente di intelligenza come rapporto tra l’età mentale (E.M.) e l’età cronologica (E.C.). Una importante innovazione di questa versione fu la sostituzione del Q.I. rapporto (tra E.M. e E.C.) in Q.I. deviazione. I Q.I. deviazione consistono in punteggi standard con media = 100 e deviazione standard = 16, introdotti per ragioni di raffrontabilità dei punteggi lungo tutti i livelli d’età.
Nel complesso la scala Stanford Binet si reputa notevolmente attendibile. Per ciò che riguarda la validità, invece, si distingue tra quella di contenuto, quella rispetto ad un criterio e finalmente quella di costrutto.
La prima può considerarsi assicurata in maniera soddisfacente, in considerazione dei compiti conferiti a ciascun livello d’età.
La seconda, espressa attraverso la validità predittiva anche a lunga scadenza, è stata allo stesso modo assicurata, soprattutto in caso di campioni molto ampi.
La validità di costrutto, al contrario, è stata fortemente oppugnata in seguito alla preponderanza attribuita ai fattori di tipo verbale nella determinazione dell’intelligenza generale. Questo aspetto costituisce anche il motivo per il quale la scala Stanford Binet è reputata poco adatta all’applicazione agli adulti.
Considerato il limite suddetto e altri problemi applicativi, D. Wechsler mise a punto una scala di punteggio, pubblicata nel 1939 e denominata Wechsler Bellevue Intelligence Scale, allo scopo di ovviare alle lacune della precedente e soprattutto di creare una scala per gli adulti che potesse valutare l’intelligenza non più legata a fasce 11
In questa trattazione verrà utilizzata a scopi descrittivi dell’argomento.
12
Di seguito verrà riportata l’ultima versione della scala Stanford Binet, revisionata da Terman, nel 1960. A questa è succeduta un’altra revisione, avvenuta per mano di altri autori nel 1987. Questa è la versione utilizzata attualmente. In essa sono rinvenibili alcune modifiche volte a recuperare lacune delle precedenti versioni. Tra esse la scelta di un campione più ampio su cui testare la scala, allo scopo di ridurre effetti da selezione razziale, per i quali le precedenti erano state criticate.
d’età, e quindi colta nei suoi aspetti evolutivi, ma indagata nella sua composizione e stabilità tipica dello stadio adulto.
Revisioni più recenti diedero luogo nel 1955 alla pubblicazione della W.A.I.S (Wechsler Adult Intelligence Scale) e parallelamente alla W.I.S.C. (Wechsler Intelligence Scale for Children).
Le differenze principali tra le scale Wechsler e le Stanford Binet sono essenzialmente due. Da una parte il fatto che nelle prime tutte le prove di un certo tipo siano riunite in subreattivi e disposte secondo un ordine crescente di difficoltà, dall’altra il fatto che in esse siano incluse subreattivi verbali e di performance e per entrambi vengano calcolati Q.I.diversi (rispettivamente Q.I.verbale e Q.I. di performance).
Per quanto concerne attendibilità, questa ha registrato valori molto elevati. La validità invece, in tutte le sue tre dimensioni, riporta valori non troppo lontani dalla scala Stanford Binet.
La W.I.S.C. è stato proposta come test autonomo nel 1949. È composta da 12 subreattivi, due dei quali supplementari, suddivisi in due scale:
A. Scala verbale: 1) cultura generale, 2) comprensione generale, 3) ragionamento aritmetico, 4) somiglianze, 5) vocabolario, 6) memoria di cifre;
B. Scala di performance: 7) completamento di figure, 8) riordinamento di storie figurate, 9) disegni con cubi, 10) ricostruzione di figure, 11) cifrario, 12) labirinti. L’attendibilità della scala registra valori elevati, al contrario della validità per la quale i dati a disposizione sono scarsi, determinando in tal modo la più grossa lacuna dello strumento.
Accanto a questi due reattivi di intelligenza generale, esistono numerosi altri test. Per esempio quelli applicabili ai primissimi mesi di età, i cosiddetti Baby test, derivanti nella quasi totalità dal modello delle Gesell Development Schedules, perfezionati presso l’università di Yale a partire dal 1927, e volti a valutare il livello di sviluppo del bambino relativo al comportamento motorio, all’adattamento, al linguaggio e alle relazioni sociali.
Altri invece sono orientati all’individuazione della debilità mentale, concepita come deficienza differenziale delle varie funzioni cognitive, in particolar modo tra esse la
memoria, la percezione spaziale e l’astrazione. Per ciascuna di queste funzioni sono stati approntati appositi test, di seguito alcuni esempi. Il Babcock Levy Test e l’Hunt – Minnesota Test per il decadimento della memoria, il Benton Visual Retention Test per accertare turbe della memoria e per la percezione spaziale o ancora il Bender Visual Motor Gestalt Test come il più noto dei reattivi di percezione spaziale.
Finalmente, i test collettivi di intelligenza, generalmente raggruppati secondo i livelli d’età per i quali sono stati costruiti. Di tipo verbale o non verbale, riportano valori di attendibilità piuttosto bassi, dovuti a caratteristiche intrinseche dell’ambiente di somministrazione, aspetto che contribuisce a minarne la credibilità.
1.2.6 I test attitudinali e i test della per sonalità
Il test di attitudine, tradizionalmente, misura settori omogenei della capacità di un individuo, singole attitudini, differenziandosi dai test di intelligenza, generalmente più eterogenei, che mirano ad ottenere un unico punteggio, indicativo del livello intellettivo dell’individuo (Q.I.).
Nonostante la differente natura, i test attitudinali derivano dai test di intelligenza in due distinte forme. Da una parte in uno sconfinamento dei reattivi dell’intelligenza verso campi non a loro pertinenti, quelli delle attitudini specifiche (motivo sufficiente a fornire l’impulso alla creazione di test che fossero a loro direttamente indirizzati), dall’altra invece, la mancanza di copertura dei reattivi di intelligenza verso determinate abilità considerate come “accessorie” rispetto all’intelligenza generale, e per questo non indagate.
Attraverso l’introduzione della tecnica dell’analisi fattoriale fu possibile rilevare empiricamente l’autonomia di alcune attitudini come la comprensione verbale o ancora il calcolo aritmetico. Tale scoperta condusse alla prassi di rilevazione della attitudini sia mediante reattivi di intelligenza sia per mezzo di quelli attitudinali.
Ulteriore innovazione conseguente all’analisi fattoriale è lo sviluppo delle batterie attitudinali multiple. Queste batterie sono elaborate allo scopo di fornire la posizione di un soggetto rispetto a molteplici tratti, tutti singolarmente considerati. Piuttosto che un
unico punteggio, se ne rilevano diversi, ciascuno corrispondente ad un determinato tratto. Questi valori consentono di costruire la diagnosi differenziale dell’individuo, meta perseguita nei periodi precedenti, erroneamente, attraverso i reattivi di intelligenza. Mediante queste batterie si costruisce quindi un profilo dell’individuo espresso sotto forma di punteggi, che consente comunque di mantenere separate le singole attitudini. Questi reattivi dimostrano di aver raggiunto uno scopo che nel passato veniva perseguito con eccessivi dispendi di tempo, cioè attraverso il riscorso a molteplici test di attitudini specifiche.
In più occasioni è stato ribadito quanto un test non possa prescindere dai requisiti di attendibilità e validità. Nel caso di quest’ultima, che si presenta in tre forme distinte, un reattivo può manifestare valori distinti per distinte validità. In considerazione di ciò si è andato col tempo distinguendosi un filone di test che ha mostrato tendenzialmente elevati valori di validità concorrente: i test di profitto. Questo tipo di reattivi possiede natura e personalità propria al punto da non poter essere trattati al di sotto della categoria di quelli attitudinali, tuttavia di seguito verranno riportate alcune tra le più evidenti distinzioni tra le due classi, questo anche a complemento di descrizione di questi ultimi 13 :
1. I test attitudinali controllano i risultati dell’apprendimento 14 in situazioni non controllate, che raccolgono effetti cumulativi derivanti da molteplici esperienze di vita quotidiane, al contrario i test di profitto valutano l’apprendimento in condizioni ben conosciute e controllate.
2. I test attitudinali hanno natura predittiva, sono cioè orientati alla previsione del rendimento futuro in seguito ad un progresso conseguente ad un addestramento, i test di profitto, invece, esprimono una valutazione terminale dell’apprendimento nel momento in cui l’addestramento è concluso.
13
È doveroso precisare a questo punto che, sebbene i test attitudinali siano volti a misurare determinate “capacità innate”, distinguendosi dai reattivi di profitto rivolti invece ai risultati dell’apprendimento, essi si rivolgono al comportamento presente dell’individuo che inevitabilmente è stato plasmato da un trascorso di vita nel quale non manca anche l’apprendimento, aspetto che non rende poi così lontani i due tipi di reattivi.
14