• Non ci sono risultati.

Teoria e tecniche della catalogazione e classificazione

N/A
N/A
Protected

Academic year: 2022

Condividi "Teoria e tecniche della catalogazione e classificazione"

Copied!
38
0
0

Testo completo

(1)

Teoria e tecniche della

catalogazione e classificazione

Presentazioni, “informazione”, quanta infomazione?

ricerca1intro

Prof.ssa Elisa Grignani

Università degli studi di Parma aa. 2004/2005

Ringrazio il prof. Ray Larson,

School of Information Management & Systems, University of California Berkeley,

per avermi messo a disposizione i materiali delle sue lezioni

(2)

OGGI

• Presentazioni

• Presentazione del corso

• Che cosa si intende con “informazione”?

• Quanta informazione?

(3)

OGGI

Presentazioni

• Presentazione del corso

• Che cosa si intende con “informazione”?

• Quanta informazione?

(4)

Presentazioni: docente

• Elisa GRIGNANI

www2.unipr.it/~grignani/EGhome/eg.htm

• Studi:

laurea in lettere, Università di Pavia

perfezionamento in biblioteconomia, Università di Parma

MLIS, University of California, Berkeley

• Ricerca:

Classificazioni bibliografiche, sistemi di recupero dell’informazione, società bibliografica italiana sec. XIX, produzione editoriale a Pavia sec. XVII, storia delle biblioteche sec. XVII e XVIII.

• Didattica:

Teoria e tecniche della catalogazione e classificazione, Storia e tecniche della catalogazione e classificazione, Bibliografia, Informatica documentale.

(5)

Presentazioni: studenti

• Nome e cognome: ...

• Corso di laurea: ...

• Anno di iscrizione: ...

• e-mail: ...

• Aree di interesse o di competenza: ...

• Cosa vi aspettate da questo corso? ...

• Per quanti crediti lo seguite? …

(6)

Per iscrivervi a questo corso:

• Andate nel sito www.nicenet.org

• “join a class”

• inserite in modo completo i dati richiesti: in particolare, come prima cosa, l’USERNAME e la PASSWORD che intendete utilizzare; il codice da indicare come “class key”

è: TZ07ZZ9B49; il nome della classe è BibCat

• “log in” usando USERNAME / PASSWORD: come prima esercitazione, dovete inviarmi compilato (“turn it online”) il modulo “Presentazioni: studenti”.

(7)

OGGI

• Presentazioni

Presentazione del corso

• Che cosa si intende con “informazione”?

• Quanta informazione?

(8)

Due temi principali

Rappresentazione / organizzazione dell’informazione Recupero

dell’informazione

e il processo di ricerca

(9)

Due temi principali

• Come trovare risorse informative, ed oggetti che veicolano informazione, appropriate rispetto alle esigenze nostre o di altri

Ricerca (Modulo A)

• Come descrivere e correlare le risorse informative, e gli oggetti che veicolano informazione, in modo che possano essere efficacemente trovati ed utilizzati da chi ne ha bisogno

Catalogazione (Modulo B)

(10)

T&T 2004/05 10

Ricerca – Modulo A

Recupero

dell’informazione e processo di ricerca

ALCUNI ARGOMENTI:

- che cosa si intende con informazione?

- dati / informazione / conoscenza / sapere - quanta informazione?

- teoria matematica dell’informazione - ciclo di vita dell’informazione

- processo di ricerca

- sistemi di recupero dell’informazione (IR) - valutazione IR

- bibliografie e cataloghi come sistemi IR - ricerca in OPAC

- elementi di ricerca web

- stili di citazione bibliografica - ...

(11)

Catalogazione – Modulo B

Rappresentazione / organizzazione dell’informazione

ALCUNI ARGOMENTI:

- perchè organizzare l’informazione?

- metadati - cataloghi

- requisiti funzionali per le registrazioni bibliografiche - descrizione bibliografica

- accessi formali e semantici - authority file

- programmi per la catalogazione automatizzata - ...

(12)

Esercitazioni, letture ed esame

• Circa 4 esercitazioni per modulo

• Almeno 1 presentazione in classe

(anche in

piccolo gruppo; raccomandato l’utilizzo di PowerPoint)

• Letture indicate di volta in volta

• Esame finale

(13)

Orario lezioni, esercitazioni e ricevimento

Lezioni:

Aula H; lun., mart.: 10:30-12:00, merc.: 14:15-15:45

Esercitazioni:

in orario da concordare

Materiali lezioni ed esercitazioni:

<www2.unipr.it/~grignani/EGhome/eg.htm>

<www.nicenet.org>

Ricevimento:

mart. 15:00-16:00, merc. 9:00-10:00, Sezione beni librari (Via D’Azeglio, 85)

e-mail:

elisa.grignani@unipr.it

(14)

OGGI

• Presentazioni

• Presentazione del corso

Che cosa si intende con “informazione”?

• Quanta informazione?

(15)

Che cosa si intende con

“informazione”?

(forse per metatesi dal gr. morfé ; cfr. lat. formosus (spagn. hermoso), formaggio, formalità, informatica (“information automatique”, 1962) ...

• Non c’è una unica definizione “corretta”

• Può essere d’interesse sociologico, linguistico, filosofico, informatico, giornalistico …

• Definizione d’uso:

“notizie o fatti su qualche cosa”

• Oxford English Dictionary

information: informing, telling; thing told, knowledge, items of knowledge, news knowledge: knowing familiarity gained by experience; person’s range of

information; a theoretical or practical understanding of; the sum of what is known

(16)

Altra (!) esercitazione

Cercate su un dizionario della lingua italiana le

definizioni di “informazione” e “comunicazione” e procuratevi una riproduzione delle pagine (su cui trascriverete gli estremi bibliografici – autore,

titolo, editore, anno di pubblicazione – del dizionario consultato).

Preparatevi a presentare le voci e a discuterne

insieme mercoledì p.v.

(17)

Che cosa si intende con informazione?

• Correlare dati a un

contesto (“interpretazione situazionale”)

dati informazione

conoscenza

• Richiede una comunità interpretante

• Ogni informazione

dipende dal contesto da cui proviene

• Può essere registrata,

immagazzinata, trasmessa (anche in forma fisica: p.e.

i fossili)

• Deve essere registrata

• E’ una registrazione di qualcosa che può essere riutilizzato

• E’ una necessità / è una comodità

(18)

Che tipi di informazione?

• Testo

Libri, periodici, WWW, pubblicità, appunti … A stampa / manoscritta

• Film

• Fotografie, altre immagini

• TV, Radio

• Telefono

• Database

• …

• Quanta informazione?

(19)

Perché organizzare l’informazione?

• E’ una questione di scala:

– Usare metodi e categorie personali per

organizzare la nostra raccolta di libri o di CD sembra funzionare …

– Ma come organizzare una raccolta di

dimensione 10, 100, 1000 … volte più grande?

(20)

OGGI

• Presentazioni

• Presentazione del corso

• Che cosa si intende con “informazione”?

Quanta informazione?

(21)

Quanta informazione?

Produzione libri a stampa: alcuni dati storici

(22)

How much information is there?

Dati tratti da How much information di Hal Varian e Peter Lyman

<www.sims.berkeley.edu/how-much-info>

(23)

Information

• Stored Information

(physical media)

– Print – Film – Optical – Magnetic

• Communicated

(channels)

– Internet – Broadcast – Phone

– Mail

(24)

Unità di misura

How big is an Exabyte?

(R. Williams, Data Power of Ten)

(25)

Print

• Annual Production (1999)

– Books 968,735 = 8 Terabytes (compressed image)

– Newspapers 22643 = 25 Terabytes – Journals 40000 = 2 Terabytes – Magazines 80000 = 10 Terabytes – Office Documents 195 Terabytes

– TOTAL 240 Terabytes (1200 scanned, 24 text)

(26)

Print

• Library of Congress Printed book collection

– About 18 Million books = About 130 Terabytes (compressed image)

– For all of LC we should also assume

13M photographs, 5MB each = 65 TB

4M maps, say 200 TB

500K files, 1GB each = 500 TB

3.5M sound recordings, ~2000 TB

Grand total: 3 petabytes (~3000 terabytes)

(27)

Film and Image

• Annual Production (1999)

– Movies = 16 Terabytes (Commercial Production of about 4000 films)

– Photographs = 410 Petabytes – X-Rays = 17.2 Petabytes

(28)

Optical Media

• Annual Production (1999)

– CDD-Music 90,000 items = 58 TB – CD-ROM 1,000 items = 3 TB – DVD-Video 5,000 items = 22 TB

– TOTAL 83 TB (total compressed 29 TB)

(29)

Magnetic Media

• Annual Production (1999)

– Audio Tape 184,200,000 = 184.2 Petabytes – Video Tape 355,000,000 = 1420

– Floppy disks = 0.07

– Removable disks = 1.69

– Hard Disks = 500

(30)

Table 1.2: Worldwide production of original information, if stored digitally, in terabytes circa 2002.

Upper estimates assume information is digitally scanned, lower estimates assume digital content has been compressed.

Storage Medium 2002

Teraby tes Upper Estima

te

2002 Teraby

tes Lower Estima

te

1999- 2000 Upper Estima

te

1999- 2000 Lower Estima

te

% Chan

ge Uppe

r Esti mate

s

Paper 1,634 327 1,200 240 36%

Film 420,25

4

76,69 431,69 0

58,209 -3%

Magnetic 51871

30

3,416, 230

2,779, 760

2,073, 760

87%

Optical 103 51 81 29 28%

TOTAL: 5,609, 121

3,416, 281

3,212, 731

2,132, 238

74.5

%

Source: How much information 2003

(31)

Currently...

1. Print, film, magnetic, and optical storage media produced about 5 exabytes of new information in 2002. Ninety-two percent of the new information was stored on magnetic media, mostly in hard disks.

2. We estimate that the amount of new information stored on paper, film, magnetic, and optical media has about doubled in the last three years.

3. Information flows through electronic channels -- telephone, radio, TV, and the Internet -- contained almost 18 exabytes of new

information in 2002, three and a half times more than is recorded in storage media. Ninety eight percent of this total is the

information sent and received in telephone calls - including both voice and data on both fixed lines and wireless.

Radio took 38 years to get 50 M listeners, TV took 13 years, the Net took 4 years...

(32)

Internet Hosts (000s) 1989-2006

0 100000 200000 300000 400000 500000 600000 700000 800000 900000 1000000

1989 1991 1993 1995 1997 1999 2001 2003 2005

hosts

Source: Vint Cerf

(33)

Users on the Internet - May 1999

• CAN/US - 90.65M

• Europe - 40.09M

• Asia/Pac - 26.97M

• Latin Am - 5.29M

• Africa - 1.14M

• Mid-east - 0.88 M ---

• Total - 165M

CAN/US Europe Asia/Pac Latin Am Africa Mid East

(34)

Language Distribution of Web Content

English Japanese

German French

Chinese Spanish

Italian Swedish

Malay Korean

Portuguese Dutch

Danish Czech

Finnish Russian

Polish Hungarian

Norwegian Estonian

Greek Bulgarian

Croatian Basque

Thai Turkish

Arabic Albanian

Others & Unknown

Source: Jack Xu: Excite

(35)

Language Distribution on a 634 Million Web Pages Corpus

Language Number of Docs Percentage

English 453,685,690 71.5288%

Japanese 43,271,080 6.8222%

German 32,253,563 5.0851%

French 11,107,994 1.7513%

Chinese 9,642,450 1.5202%

Spanish 6,965,560 1.0982%

Italian 5,638,827 0.8890%

Swedish 4,392,709 0.6926%

Malay 3,619,227 0.5706%

Korean 3,200,762 0.5046%

Portuguese 3,014,294 0.4752%

Dutch 2,745,610 0.4329%

Danish 1,911,677 0.3014%

Czech 1,428,385 0.2252%

Finnish 1,312,932 0.2070%

Russian 1,150,127 0.1813%

Polish 952,716 0.1502%

Hungarian 760,162 0.1198%

Norwegian 607,211 0.0957%

Estonian 456,613 0.0720%

Greek 393,360 0.0620%

Bulgarian 392,777 0.0619%

Croatian 310,237 0.0489%

Basque 258,074 0.0407%

Thai 99,691 0.0157%

Turkish 81,218 0.0128%

(36)

Information Overload

• “The greatest problem of today is how to

teach people to ignore the irrelevant, how to refuse to know things, before they are

suffocated. For too many facts are as bad as

none at all.” (W.H. Auden)

(37)

Sources on Information, Computer, and Network Use

• http://www.sims.berkeley.edu/emc/

• http://www.cs.cmu.edu/afs/cs.cmu.edu/user/bam/w ww/numbers.html

Statistical snippets extracted from the news

• http://www.wcom.com/about_the_company/cerfs_u p/

Vint Cerf’s pages

• http://www.firstmonday.dk/issues/issue3_10/coffma n/index.html

The size and growth rate of the Internet by K.G. Coffman

(38)

Prossimamente

• Ancora sull’informazione

Riferimenti

Documenti correlati

Il modello dei dati di RDF è molto simile al modello Entity-Relationship (proprio della modellazione di Database Relazionali) e può essere visto come un’estensione del modello ER

La classe astratta Matrix (Abstraction) fornisce i metodi di base comuni alla gestione della collezione di supporto per gli oggetti corrispondenti alle celle della

Un uomo sordo e che si colloca tra il “mutismo” e il “parlare con difficoltà” 1 e dove la sua guarigione sarà indicata come un “parlare correttamente” (v. Emblematico

Congressi, conferenze, riunioni, simposi, giornate di studio sono enti a carattere temporaneo (tipo autore R) e come tali si considerano autori delle loro pubblicazioni che perciò

- individuazione di funzioni (pragmatici) definizione di requisiti (funzionali e quindi. come misura

detta anche analisi del contenuto, analisi del contenuto prende in esame il documento nei. termini del suo contenuto concettuale, mediante un procedimento

In Sicilia, il volume di acque reflue depurate da impianti di depurazione connessi a sistemi irrigui sarebbe pari a circa 163×10 6 m 3 /anno, a fronte di un deficit idrico di circa 66

- Descrivere e interpretare il funzionamento del corpo come sistema complesso situato in un ambiente; costruire modelli plausibili sul funzionamento dei diversi apparati,