14 25
51.38.1 Commercio all'ingrosso non specializzato di prodotti surgelati 1 8
51.38.2 Commercio all'ingrosso non specializzato di prodotti alimentari,
bevande e tabacco
4 17
51.39.1 Commercio all'ingrosso di prodotti della pesca freschi 1 8
51.39.2 Commercio all'ingrosso di prodotti della pesca surgelati 4 10
51.39.3 Commercio all'ingrosso di conserve alimentari e prodotti affini 1 5
51.39.4 Commercio all'ingrosso di altri prodotti alimentari 1 29
51.54.3 Commercio all'ingrosso di coltelleria e posateria 3 4
51.42.4 Commercio al dettaglio di merceria, cucirini, filati, ricami 22 11
55.40.2 Gelaterie 1 5
60.24.0 Altri trasporti terrestri di passeggeri 2 10
60.25.0 Trasporto di merci su strada 9 83
61.11.0 Trasporti marittimi 3 5
61.12.0 Trasporti costieri 5 10
Totale testi da esaminare 156 387
TOTALE TESTI DEL DIZIONARIO 7711 24934
Tuttavia il lavoro non potrà ridursi all’esame di questi testi, in quanto dovrà essere verificata la coerenza di tutto l’ambiente di codifica, sia rispetto alla gestione del parsing che alle logiche di codifica adottate.
Tuttavia il lavoro non potrà ridursi all’esame di questi testi, in quanto dovrà essere verificata la coerenza di tutto l’ambiente di codifica, sia rispetto alla gestione del parsing che alle logiche di codifica adottate.
Inoltre, il riesame della quinta cifra ATECO, che costituisce il dettaglio nazionale, comporterà l’impatto più pesante sull’applicazione di codifica. Si teme infatti che tali variazioni potranno soltanto parzialmente essere automatizzate (nei casi in cui il contenuto informativo relativo ad un codice a cinque cifre transiti completamente su un altro codice), mentre ogni qual volta siano state modificate le dizioni associate al codice a cinque digit, dovranno essere singolarmente analizzati tutti i testi corrispondenti a quel codice e presenti nel dizionario, per verificare quali di questi debbano permanere nella stessa categoria e quali transitare in altre.
Relativamente ai prossimi censimenti, come è noto, i dati saranno codificati sulla base della vecchia classificazione, ma dovranno successivamente essere riportati a quella nuova.
Questa operazione viene tradizionalmente realizzata tramite una transcodifica, quasi sempre effettuata a livello di aggregati.
L’aggiornamento dell’ambiente di codifica rispetto alla classificazione revisionata, pur essendo un lavoro indubbiamente gravoso, comporterebbe senz’altro una innovazione nel processo di transcodifica che potrebbe essere effettuato direttamente sui dati elementari.
Si dovrebbe infatti ritornare alle dizioni fornite dai rispondenti e sottoporle nuovamente al sistema di codifica automatica, aggiornato secondo la nuova classificazione; soltanto la percentuale di casi non risolti automaticamente dovrebbe essere analizzata manualmente, oppure transcodificata tramite le tradizionali procedure che lavorano sugli aggregati.
E’ superfluo infine osservare che l’aggiornamento dell’applicazione di codifica la renderebbe disponibile da ora in poi per qualsiasi altra indagine dell’Istituto che rilevi l’attività economica tramite quesito a testo libero.
7 Variabile ‘Natura giuridica delle imprese’
Relativamente a questa variabile, non erano state effettuate sperimentazioni antecedenti alle attività del gruppo di lavoro, tuttavia la sua minore complessità ha consentito il raggiungimento di buoni risultati in un periodo abbastanza breve.
L’ambiente applicativo è stato predisposto tramite la rielalaborazione della classificazione ufficiale disponibile all’epoca della Long-Form ed arricchito a seguito dell’analisi dei risultati delle applicazioni di codifica automatica sulle prime tranche di dati dell’indagine stessa.
In dettaglio, è stato raggiunto un tasso di codifica del 94% ed un livello di correttezza assoluto, con un dizionario di 105 testi, a fronte di una classificazione ufficiale che prevede 28 modalità.
Tabella 33 -- Risultati dell’applicazione di codifica automatica Testi del dizionario
N.
Sinonimi
N.
Efficacia del sistema
% di testi codificati automaticamente
105 255 94
Bibliografia
Appel M. and Hellerman E. (1983). “Census Bureau experience with Automated Industry and Occupation Coding”. In American Statistical Association, Proceedings of Section on Survey Research Methods, pages 32-40.
Chen B., Creecy R. and Appel M. (1993). “Error control of automated industry and occupation
coding”, Journal of Official Statistics, vol. 9: 729-745.
Cochran W. G. (1977). Sampling Techniques, 3
rded.. Wiley, New York.
De Angelis R., Macchia S. and Mazza L. (2000), “Applicazioni sperimentali della codifica
automatica: analisi di qualità e confronto con la codifica manuale”, sta in (a cura di Istat)
Quaderni di ricerca – Rivista di statistica Ufficiale, n. 1, 29-54
Istat, (1991), “Classificazione delle attività economiche”, Metodi e norme. Serie C – n.11
Lyberg L. and Dean P. (1992). “Automated Coding of Survey Responses: an international review.”
In Conference of European Statisticians, Work session on Statistical Data Editing, Washington
DC.
Istat, (1991), “Classificazione delle attività economiche”, Metodi e norme. Serie C – n.11
Lyberg L. and Dean P. (1992). “Automated Coding of Survey Responses: an international review.”
In Conference of European Statisticians, Work session on Statistical Data Editing, Washington
DC.
Kalpic D. (1994). “Automated coding of census data”, Journal of Official Statistics, vol. 10:
449-463.
Knaus R. (1987). “Methods and problems in coding natural language survey data”, Journal of Official Statistics, vol. 1, 45-67.
Macchia S. (2001). “ Integration of sources to build a dictionary for Automated Coding of
Industry.” In CLADAG Conference, Palermo, 5-6 luglio 2001
Macchia S. and D’Orazio (2000), “Analysis of Textual data for integrating an automated coding
environment system and building a system to monitor the quality of its results”, 5
thJournées
Internationales d’Analyse Statistique des Données Textuelles, Lausanne, Switzerland, 9-11 Mars
2000, 407-414
Massingham R. (1997). “Data capture and Coding for the 2001 Great Britain Census”. In XIV Annual International Symposium on Methodology Issues, 5-7 November, Hull, Canada.
Tourigny J.Y. and Moloney J. (1995). The 1991 Canadian Census of Population experience with automated coding. In United Nations Statistical Commission, Statistical Data Editing, 2.
Wenzowski M.J. (1988). ACTR – A Generalised Automated Coding System. Survey Methodology,
vol. 14: 299-308.
ALLEGATO 1
NOMEPROGRAMMA GLA
.
EXE DATA: 2001
LINGUAGGIO VBASIC
+
PROMPTDOS(
ACTR)
DESCRIZIONE
PERMETTE DI INSERIRE IN ALCUNI RECORDS DI UN FILE DI INPUT PER ACTR
(
ATECO_
T1_
T8.
TXT)
UNDETERMINATO FILTRO
(
VEDIALLEGATO)
ED UNFILTRO FITTIZIO
(“00”)
PERLE ECCEZIONI(
CHE NELL’
ULTIMOPASSAGGIODELLAPRIMAFASESARÀPORTATOA
“ ”)
ALFINEDICONTROLLAREEDAVERELACERTEZZACHEGLIUNICICODIFICATI
,
DAACTR,
SIANOCODIFICATICONILGIUSTOCODICESPECIFICA
CREADBFILTRORIDOTTO
CREAREILCONTESTO
(
RIDOTTO)
DEISOLI FILTRIESEGUIREILFILECREADB
_
FILTRO.
BATBCODEFILTRO
SFRUTTALACODIFICAACTRPERASSEGNARE
ILCODICE
,
CHEINREALTÀSARÀILNOSTRO FILTRO.
ESEGUEBCODE
_
FILTRO.
BATASSEGNAFILTRO
TRASFORMAILFILEDIINPUTORIGINALEINUN
FILECONILFILTROOCON
“ “
NEIPRIMIDUE BYTES.
SEILFILTROÈUGUALEA“00””
VIENE INSERITO“ “.
SINTASSI ANNOTAZIONI
CREAREUN
’
ICONASULDESKTOPDIWINDOWSEFAREDOPPIOCLICKCONILMOUSE
TRACCIATOCHENONPUÒESSEREVARIATO
NOMEDELFILEDIINPUTFISSO
PERESSEREESEGUITOHABISOGNODELLELIBRERIE
DIRUNTIMEDIVISUALBASIC