Teoria e tecniche della
catalogazione e classificazione
Presentazioni, “informazione”, quanta infomazione?
ricerca1intro
Prof.ssa Elisa Grignani
Università degli studi di Parma aa. 2004/2005
Ringrazio il prof. Ray Larson,
School of Information Management & Systems, University of California Berkeley,
per avermi messo a disposizione i materiali delle sue lezioni
OGGI
• Presentazioni
• Presentazione del corso
• Che cosa si intende con “informazione”?
• Quanta informazione?
OGGI
• Presentazioni
• Presentazione del corso
• Che cosa si intende con “informazione”?
• Quanta informazione?
Presentazioni: docente
• Elisa GRIGNANI
• www2.unipr.it/~grignani/EGhome/eg.htm
• Studi:
• laurea in lettere, Università di Pavia
• perfezionamento in biblioteconomia, Università di Parma
• MLIS, University of California, Berkeley
• Ricerca:
• Classificazioni bibliografiche, sistemi di recupero dell’informazione, società bibliografica italiana sec. XIX, produzione editoriale a Pavia sec. XVII, storia delle biblioteche sec. XVII e XVIII.
• Didattica:
• Teoria e tecniche della catalogazione e classificazione, Storia e tecniche della catalogazione e classificazione, Bibliografia, Informatica documentale.
Presentazioni: studenti
• Nome e cognome: ...
• Corso di laurea: ...
• Anno di iscrizione: ...
• e-mail: ...
• Aree di interesse o di competenza: ...
• Cosa vi aspettate da questo corso? ...
• Per quanti crediti lo seguite? …
Per iscrivervi a questo corso:
• Andate nel sito www.nicenet.org
• “join a class”
• inserite in modo completo i dati richiesti: in particolare, come prima cosa, l’USERNAME e la PASSWORD che intendete utilizzare; il codice da indicare come “class key”
è: TZ07ZZ9B49; il nome della classe è BibCat
• “log in” usando USERNAME / PASSWORD: come prima esercitazione, dovete inviarmi compilato (“turn it online”) il modulo “Presentazioni: studenti”.
OGGI
• Presentazioni
• Presentazione del corso
• Che cosa si intende con “informazione”?
• Quanta informazione?
Due temi principali
Rappresentazione / organizzazione dell’informazione Recupero
dell’informazione
e il processo di ricerca
Due temi principali
• Come trovare risorse informative, ed oggetti che veicolano informazione, appropriate rispetto alle esigenze nostre o di altri
Ricerca (Modulo A)
• Come descrivere e correlare le risorse informative, e gli oggetti che veicolano informazione, in modo che possano essere efficacemente trovati ed utilizzati da chi ne ha bisogno
Catalogazione (Modulo B)
T&T 2004/05 10
Ricerca – Modulo A
Recupero
dell’informazione e processo di ricerca
ALCUNI ARGOMENTI:
- che cosa si intende con informazione?
- dati / informazione / conoscenza / sapere - quanta informazione?
- teoria matematica dell’informazione - ciclo di vita dell’informazione
- processo di ricerca
- sistemi di recupero dell’informazione (IR) - valutazione IR
- bibliografie e cataloghi come sistemi IR - ricerca in OPAC
- elementi di ricerca web
- stili di citazione bibliografica - ...
Catalogazione – Modulo B
Rappresentazione / organizzazione dell’informazione
ALCUNI ARGOMENTI:
- perchè organizzare l’informazione?
- metadati - cataloghi
- requisiti funzionali per le registrazioni bibliografiche - descrizione bibliografica
- accessi formali e semantici - authority file
- programmi per la catalogazione automatizzata - ...
Esercitazioni, letture ed esame
• Circa 4 esercitazioni per modulo
• Almeno 1 presentazione in classe
(anche inpiccolo gruppo; raccomandato l’utilizzo di PowerPoint)
• Letture indicate di volta in volta
• Esame finale
Orario lezioni, esercitazioni e ricevimento
• Lezioni:
– Aula H; lun., mart.: 10:30-12:00, merc.: 14:15-15:45
• Esercitazioni:
– in orario da concordare
• Materiali lezioni ed esercitazioni:
– <www2.unipr.it/~grignani/EGhome/eg.htm>
– <www.nicenet.org>
• Ricevimento:
– mart. 15:00-16:00, merc. 9:00-10:00, Sezione beni librari (Via D’Azeglio, 85)
• e-mail:
– elisa.grignani@unipr.it
OGGI
• Presentazioni
• Presentazione del corso
• Che cosa si intende con “informazione”?
• Quanta informazione?
Che cosa si intende con
“informazione”?
(forse per metatesi dal gr. morfé ; cfr. lat. formosus (spagn. hermoso), formaggio, formalità, informatica (“information automatique”, 1962) ...
• Non c’è una unica definizione “corretta”
• Può essere d’interesse sociologico, linguistico, filosofico, informatico, giornalistico …
• Definizione d’uso:
– “notizie o fatti su qualche cosa”
• Oxford English Dictionary
– information: informing, telling; thing told, knowledge, items of knowledge, news – knowledge: knowing familiarity gained by experience; person’s range of
information; a theoretical or practical understanding of; the sum of what is known
Altra (!) esercitazione
Cercate su un dizionario della lingua italiana le
definizioni di “informazione” e “comunicazione” e procuratevi una riproduzione delle pagine (su cui trascriverete gli estremi bibliografici – autore,
titolo, editore, anno di pubblicazione – del dizionario consultato).
Preparatevi a presentare le voci e a discuterne
insieme mercoledì p.v.
Che cosa si intende con informazione?
• Correlare dati a un
contesto (“interpretazione situazionale”)
dati informazione
conoscenza
• Richiede una comunità interpretante
• Ogni informazione
dipende dal contesto da cui proviene
• Può essere registrata,
immagazzinata, trasmessa (anche in forma fisica: p.e.
i fossili)
• Deve essere registrata
• E’ una registrazione di qualcosa che può essere riutilizzato
• E’ una necessità / è una comodità
Che tipi di informazione?
• Testo
– Libri, periodici, WWW, pubblicità, appunti … – A stampa / manoscritta
• Film
• Fotografie, altre immagini
• TV, Radio
• Telefono
• Database
• …
• Quanta informazione?
Perché organizzare l’informazione?
• E’ una questione di scala:
– Usare metodi e categorie personali per
organizzare la nostra raccolta di libri o di CD sembra funzionare …
– Ma come organizzare una raccolta di
dimensione 10, 100, 1000 … volte più grande?
OGGI
• Presentazioni
• Presentazione del corso
• Che cosa si intende con “informazione”?
• Quanta informazione?
Quanta informazione?
Produzione libri a stampa: alcuni dati storici
How much information is there?
Dati tratti da How much information di Hal Varian e Peter Lyman
<www.sims.berkeley.edu/how-much-info>
Information
• Stored Information
(physical media)
– Print – Film – Optical – Magnetic
• Communicated
(channels)
– Internet – Broadcast – Phone
Unità di misura
How big is an Exabyte?
(R. Williams, Data Power of Ten)• Annual Production (1999)
– Books 968,735 = 8 Terabytes (compressed image)
– Newspapers 22643 = 25 Terabytes – Journals 40000 = 2 Terabytes – Magazines 80000 = 10 Terabytes – Office Documents 195 Terabytes
– TOTAL 240 Terabytes (1200 scanned, 24 text)
• Library of Congress Printed book collection
– About 18 Million books = About 130 Terabytes (compressed image)
– For all of LC we should also assume
• 13M photographs, 5MB each = 65 TB
• 4M maps, say 200 TB
• 500K files, 1GB each = 500 TB
• 3.5M sound recordings, ~2000 TB
• Grand total: 3 petabytes (~3000 terabytes)
Film and Image
• Annual Production (1999)
– Movies = 16 Terabytes (Commercial Production of about 4000 films)
– Photographs = 410 Petabytes – X-Rays = 17.2 Petabytes
Optical Media
• Annual Production (1999)
– CDD-Music 90,000 items = 58 TB – CD-ROM 1,000 items = 3 TB – DVD-Video 5,000 items = 22 TB
– TOTAL 83 TB (total compressed 29 TB)
Magnetic Media
• Annual Production (1999)
– Audio Tape 184,200,000 = 184.2 Petabytes – Video Tape 355,000,000 = 1420
– Floppy disks = 0.07
– Removable disks = 1.69
– Hard Disks = 500
Table 1.2: Worldwide production of original information, if stored digitally, in terabytes circa 2002.
Upper estimates assume information is digitally scanned, lower estimates assume digital content has been compressed.
Storage Medium 2002
Teraby tes Upper Estima
te
2002 Teraby
tes Lower Estima
te
1999- 2000 Upper Estima
te
1999- 2000 Lower Estima
te
% Chan
ge Uppe
r Esti mate
s
Paper 1,634 327 1,200 240 36%
Film 420,25
4
76,69 431,69 0
58,209 -3%
Magnetic 51871
30
3,416, 230
2,779, 760
2,073, 760
87%
Optical 103 51 81 29 28%
TOTAL: 5,609, 121
3,416, 281
3,212, 731
2,132, 238
74.5
%
Source: How much information 2003
Currently...
1. Print, film, magnetic, and optical storage media produced about 5 exabytes of new information in 2002. Ninety-two percent of the new information was stored on magnetic media, mostly in hard disks.
2. We estimate that the amount of new information stored on paper, film, magnetic, and optical media has about doubled in the last three years.
3. Information flows through electronic channels -- telephone, radio, TV, and the Internet -- contained almost 18 exabytes of new
information in 2002, three and a half times more than is recorded in storage media. Ninety eight percent of this total is the
information sent and received in telephone calls - including both voice and data on both fixed lines and wireless.
• Radio took 38 years to get 50 M listeners, TV took 13 years, the Net took 4 years...
Internet Hosts (000s) 1989-2006
0 100000 200000 300000 400000 500000 600000 700000 800000 900000 1000000
1989 1991 1993 1995 1997 1999 2001 2003 2005
hosts
Source: Vint Cerf
Users on the Internet - May 1999
• CAN/US - 90.65M
• Europe - 40.09M
• Asia/Pac - 26.97M
• Latin Am - 5.29M
• Africa - 1.14M
• Mid-east - 0.88 M ---
• Total - 165M
CAN/US Europe Asia/Pac Latin Am Africa Mid East
Language Distribution of Web Content
English Japanese
German French
Chinese Spanish
Italian Swedish
Malay Korean
Portuguese Dutch
Danish Czech
Finnish Russian
Polish Hungarian
Norwegian Estonian
Greek Bulgarian
Croatian Basque
Thai Turkish
Arabic Albanian
Others & Unknown
Source: Jack Xu: Excite
Language Distribution on a 634 Million Web Pages Corpus
Language Number of Docs Percentage
English 453,685,690 71.5288%
Japanese 43,271,080 6.8222%
German 32,253,563 5.0851%
French 11,107,994 1.7513%
Chinese 9,642,450 1.5202%
Spanish 6,965,560 1.0982%
Italian 5,638,827 0.8890%
Swedish 4,392,709 0.6926%
Malay 3,619,227 0.5706%
Korean 3,200,762 0.5046%
Portuguese 3,014,294 0.4752%
Dutch 2,745,610 0.4329%
Danish 1,911,677 0.3014%
Czech 1,428,385 0.2252%
Finnish 1,312,932 0.2070%
Russian 1,150,127 0.1813%
Polish 952,716 0.1502%
Hungarian 760,162 0.1198%
Norwegian 607,211 0.0957%
Estonian 456,613 0.0720%
Greek 393,360 0.0620%
Bulgarian 392,777 0.0619%
Croatian 310,237 0.0489%
Basque 258,074 0.0407%
Thai 99,691 0.0157%
Turkish 81,218 0.0128%
Information Overload
• “The greatest problem of today is how to
teach people to ignore the irrelevant, how to refuse to know things, before they are
suffocated. For too many facts are as bad as
none at all.” (W.H. Auden)
Sources on Information, Computer, and Network Use
• http://www.sims.berkeley.edu/emc/
• http://www.cs.cmu.edu/afs/cs.cmu.edu/user/bam/w ww/numbers.html
– Statistical snippets extracted from the news
• http://www.wcom.com/about_the_company/cerfs_u p/
– Vint Cerf’s pages
• http://www.firstmonday.dk/issues/issue3_10/coffma n/index.html
– The size and growth rate of the Internet by K.G. Coffman