• Non ci sono risultati.

14 25

51.38.1 Commercio all'ingrosso non specializzato di prodotti surgelati 1 8

51.38.2 Commercio all'ingrosso non specializzato di prodotti alimentari,

bevande e tabacco

4 17

51.39.1 Commercio all'ingrosso di prodotti della pesca freschi 1 8

51.39.2 Commercio all'ingrosso di prodotti della pesca surgelati 4 10

51.39.3 Commercio all'ingrosso di conserve alimentari e prodotti affini 1 5

51.39.4 Commercio all'ingrosso di altri prodotti alimentari 1 29

51.54.3 Commercio all'ingrosso di coltelleria e posateria 3 4

51.42.4 Commercio al dettaglio di merceria, cucirini, filati, ricami 22 11

55.40.2 Gelaterie 1 5

60.24.0 Altri trasporti terrestri di passeggeri 2 10

60.25.0 Trasporto di merci su strada 9 83

61.11.0 Trasporti marittimi 3 5

61.12.0 Trasporti costieri 5 10

Totale testi da esaminare 156 387

TOTALE TESTI DEL DIZIONARIO 7711 24934

Tuttavia il lavoro non potrà ridursi all’esame di questi testi, in quanto dovrà essere verificata la coerenza di tutto l’ambiente di codifica, sia rispetto alla gestione del parsing che alle logiche di codifica adottate.

Tuttavia il lavoro non potrà ridursi all’esame di questi testi, in quanto dovrà essere verificata la coerenza di tutto l’ambiente di codifica, sia rispetto alla gestione del parsing che alle logiche di codifica adottate.

Inoltre, il riesame della quinta cifra ATECO, che costituisce il dettaglio nazionale, comporterà l’impatto più pesante sull’applicazione di codifica. Si teme infatti che tali variazioni potranno soltanto parzialmente essere automatizzate (nei casi in cui il contenuto informativo relativo ad un codice a cinque cifre transiti completamente su un altro codice), mentre ogni qual volta siano state modificate le dizioni associate al codice a cinque digit, dovranno essere singolarmente analizzati tutti i testi corrispondenti a quel codice e presenti nel dizionario, per verificare quali di questi debbano permanere nella stessa categoria e quali transitare in altre.

Relativamente ai prossimi censimenti, come è noto, i dati saranno codificati sulla base della vecchia classificazione, ma dovranno successivamente essere riportati a quella nuova.

Questa operazione viene tradizionalmente realizzata tramite una transcodifica, quasi sempre effettuata a livello di aggregati.

L’aggiornamento dell’ambiente di codifica rispetto alla classificazione revisionata, pur essendo un lavoro indubbiamente gravoso, comporterebbe senz’altro una innovazione nel processo di transcodifica che potrebbe essere effettuato direttamente sui dati elementari.

Si dovrebbe infatti ritornare alle dizioni fornite dai rispondenti e sottoporle nuovamente al sistema di codifica automatica, aggiornato secondo la nuova classificazione; soltanto la percentuale di casi non risolti automaticamente dovrebbe essere analizzata manualmente, oppure transcodificata tramite le tradizionali procedure che lavorano sugli aggregati.

E’ superfluo infine osservare che l’aggiornamento dell’applicazione di codifica la renderebbe disponibile da ora in poi per qualsiasi altra indagine dell’Istituto che rilevi l’attività economica tramite quesito a testo libero.

7 Variabile ‘Natura giuridica delle imprese’

Relativamente a questa variabile, non erano state effettuate sperimentazioni antecedenti alle attività del gruppo di lavoro, tuttavia la sua minore complessità ha consentito il raggiungimento di buoni risultati in un periodo abbastanza breve.

L’ambiente applicativo è stato predisposto tramite la rielalaborazione della classificazione ufficiale disponibile all’epoca della Long-Form ed arricchito a seguito dell’analisi dei risultati delle applicazioni di codifica automatica sulle prime tranche di dati dell’indagine stessa.

In dettaglio, è stato raggiunto un tasso di codifica del 94% ed un livello di correttezza assoluto, con un dizionario di 105 testi, a fronte di una classificazione ufficiale che prevede 28 modalità.

Tabella 33 -- Risultati dell’applicazione di codifica automatica Testi del dizionario

N.

Sinonimi

N.

Efficacia del sistema

% di testi codificati automaticamente

105 255 94

​Bibliografia

Appel M. and Hellerman E. (1983). “Census Bureau experience with Automated Industry and Occupation Coding”. In American Statistical Association, Proceedings of Section on Survey Research Methods, pages 32-40.

Chen B., Creecy R. and Appel M. (1993). “Error control of automated industry and occupation

coding”, Journal of Official Statistics, vol. 9: 729-745.

Cochran W. G. (1977). Sampling Techniques, 3

rd

ed.. Wiley, New York.

De Angelis R., Macchia S. and Mazza L. (2000), “Applicazioni sperimentali della codifica

automatica: analisi di qualità e confronto con la codifica manuale”, sta in (a cura di Istat)

Quaderni di ricerca – Rivista di statistica Ufficiale, n. 1, 29-54

Istat, (1991), “Classificazione delle attività economiche”, Metodi e norme. Serie C – n.11

Lyberg L. and Dean P. (1992). “Automated Coding of Survey Responses: an international review.”

In Conference of European Statisticians, Work session on Statistical Data Editing, Washington

DC.

Istat, (1991), “Classificazione delle attività economiche”, Metodi e norme. Serie C – n.11

Lyberg L. and Dean P. (1992). “Automated Coding of Survey Responses: an international review.”

In Conference of European Statisticians, Work session on Statistical Data Editing, Washington

DC.

Kalpic D. (1994). “Automated coding of census data”, Journal of Official Statistics, vol. 10:

449-463.

Knaus R. (1987). “Methods and problems in coding natural language survey data”, Journal of Official Statistics, vol. 1, 45-67.

Macchia S. (2001). “ Integration of sources to build a dictionary for Automated Coding of

Industry.” In CLADAG Conference, Palermo, 5-6 luglio 2001

Macchia S. and D’Orazio (2000), “Analysis of Textual data for integrating an automated coding

environment system and building a system to monitor the quality of its results”, 5

th

Journées

Internationales d’Analyse Statistique des Données Textuelles, Lausanne, Switzerland, 9-11 Mars

2000, 407-414

Massingham R. (1997). “Data capture and Coding for the 2001 Great Britain Census”. In XIV Annual International Symposium on Methodology Issues, 5-7 November, Hull, Canada.

Tourigny J.Y. and Moloney J. (1995). The 1991 Canadian Census of Population experience with automated coding. In United Nations Statistical Commission, Statistical Data Editing, 2.

Wenzowski M.J. (1988). ACTR – A Generalised Automated Coding System. Survey Methodology,

vol. 14: 299-308.

ALLEGATO 1

NOMEPROGRAMMA GLA

.

EXE DATA

: 2001

LINGUAGGIO VBASIC

+

PROMPTDOS

(

ACTR

)

DESCRIZIONE

PERMETTE DI INSERIRE IN ALCUNI RECORDS DI UN FILE DI INPUT PER ACTR

(

ATECO

_

T

1_

T

8.

TXT

)

UN

DETERMINATO FILTRO

(

VEDIALLEGATO

)

ED UN

FILTRO FITTIZIO

(“00”)

PERLE ECCEZIONI

(

CHE NELL

ULTIMO

PASSAGGIODELLAPRIMAFASESARÀPORTATOA

“ ”)

ALFINEDICONTROLLAREEDAVERELACERTEZZACHEGLI

UNICICODIFICATI

,

DAACTR

,

SIANOCODIFICATICONILGIUSTOCODICE

SPECIFICA

CREADBFILTRORIDOTTO

CREAREILCONTESTO

(

RIDOTTO

)

DEISOLI FILTRI

ESEGUIREILFILECREADB

_

FILTRO

.

BAT

BCODEFILTRO

SFRUTTALACODIFICAACTRPERASSEGNARE

ILCODICE

,

CHEINREALTÀSARÀILNOSTRO FILTRO

.

ESEGUEBCODE

_

FILTRO

.

BAT

ASSEGNAFILTRO

TRASFORMAILFILEDIINPUTORIGINALEINUN

FILECONILFILTROOCON

“ “

NEIPRIMIDUE BYTES

.

SEILFILTROÈUGUALEA

“00””

VIENE INSERITO

“ “.

SINTASSI ANNOTAZIONI

CREAREUN

ICONASULDESKTOPDIWINDOWSEFARE

DOPPIOCLICKCONILMOUSE

TRACCIATOCHENONPUÒESSEREVARIATO

NOMEDELFILEDIINPUTFISSO

PERESSEREESEGUITOHABISOGNODELLELIBRERIE

DIRUNTIMEDIVISUALBASIC

6.

ALLEGATO 2

Filtro Descrizione Filtro Descrizione

00 - acconciatura 00 - commercio biglietteria

00 - acido borico 00 - commercio camere di

Documenti correlati