Teoria e tecniche della
catalogazione e classificazione
Utenti, documenti, linguaggi di indicizzazione ricerca5ir
Prof.ssa Elisa Grignani
Università degli studi di Parma aa. 2004/2005
Abbiamo visto:
• Informazione
• Gerarchia dell’informazione
• Teoria dell’informazione (C. Shannon)
• Ciclo di trasferimento dell’informazione
• Sistemi di recupero dell’informazione
Gerarchia dell’informazione
Wisdom Knowledge Information
Data
Teoria dell’informazione
Noise
Source Encoding Decoding Destination
Message Message
Channel
Decoding Encoding
Message Message
Ciclo di trasferimento dell’informazione
Creation
Active
Semi-Active Retention/
Mining Discard
Using Creating
Authoring Modifying
Organizing Indexing
Storing Retrieval
Distribution Networking Accessing
Filtering
Struttura di un sistema IR
Search
Line Interest profiles
& Queries
Documents
& data
Rules of the game = Rules for subject indexing + Thesaurus (which consists of
Lead-In Vocabulary
and Indexing Language
Storage Line
Indexing (Descriptive and
Subject) Formulating query in
terms of descriptors
Storage of
profiles Storage of
Documents Information Storage and Retrieval System
Sistemi IR: struttura
(Cooper - Maron, 1985)1. l’insieme delle possibili chiavi di accesso assegnate ai documenti;
2. l’insieme delle domande formulabili dagli utenti;
3. l’insieme degli indicatori di valore
informativo da assegnare ai documenti;
4. una regola di recupero.
Oggi (e domani)
• IR: alcuni concetti di base
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari controllati
• Processo di ricerca
• Valutazione - Rilevanza
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari controllati
• Processo di ricerca
• Valutazione - Rilevanza
Utenti: bisogni informativi
• Perchè costruire sitemi IR?
• Le diverse persone hanno bisogni
informativi diversi e del tutto svariati
• Le persone spesso non sanno cosa cercano, o possono non essere in grado di esprimere il loro bisogno informativo in modo utile
Utenti: domande
• Una domanda (query) è una forma di espressione dei bisogni informativi dell’utente
• Può essere espressa in vari modi
– in linguaggio naturale
– nei termini di un linguaggio di indicizzazione
• Le domande talvolta non rappresentano in modo accurato il bisogno informativo
Utenti: domande: cataloghi
Indagine sponsorizzata dal Council on Library Resources sull’utilizzo dei cataloghi online
nelle biblioteche USA: Using online catalogs:
a nationwide survey, New York, Neal- Schuman, 1983.
Utenti: domande: Web
Indagini sull’uso del Web:
• La gente che cosa cerca?
• Come utilizza i motori di ricerca?
–In quale percentuale trova ciò che sta cercando?
–Qual è il livello di difficoltà nel trovare ciò che cerca?
• Come si possono migliorare i motori di ricerca?
La gente che cosa cerca nel Web?
• Studio di Amanda Spink et al., Ott. 1998
Indagine su Excite; dati tratti da un campione di 316 utenti intervistati tramite questionario
<www.shef.ac.uk/~is/publications/infres/paper53.html>
What Do People Search for on the Web?
Self-reported topics
• Genealogy/Public Figure: 12%
• Computer related: 12%
• Business: 12%
• Entertainment: 8%
• Medical: 8%
• Politics & Government 7%
• News 7%
• Hobbies 6%
• General info/surfing 6%
• Science 6%
• Travel 5%
• Arts/education/shopping/images 14%
• Something is missing…
What Do People Search for on the Web?
• 4660 sex
• 3129 yahoo
• 2191 internal site administr.
• 1520 chat
• 1498 porn
• 1315 horoscopes
• 1284 pokemon
• 1223 hotmail
• 1163 games
• 1151 mp3
• 1140 weather
• 1127 www.yahoo.com
• 1110 maps
• 1036 yahoo.com
50,000 queries from Excite 1997 Most frequent terms:
Google come spirito del tempo Zeitgeist
• Andiamo a vedere la pagina:
<http://www.google.com/press/zeitgeist.html
>
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari controllati
• Processo di ricerca
• Valutazione - Rilevanza
Documenti
• Un documento è una rappresentazione di una
aggregazione di informazioni, considerata come una unità
• Cosa intendiamo con documento?
– l’intero documento?
– un suo surrogato?
– pagine?
• M. Buckland, What is a Document, “JASIS”, Sept. 1997, pp. 804-809
• J. LeGoff, Documento/Monumento, in Enciclopedia, Torino, Einaudi, 1977-1982, vol. 5, pp. 38-48
Raccolte di documenti / Collezioni
• Una collezione è una aggregazione fisica o logica di documenti
– museo, pinacoteca – biblioteca
– base di dati
– biblioteca digitale – ...
• Krzysztof POMIAN, Memoria, in Enciclopedia,
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari controllati (da approfondire nel modulo B del corso)
• Processo di ricerca
• Valutazione - Rilevanza
Linguaggi di indicizzazione
• Indicizzazione a parole chiave non
controllate: p.e. KWIC, KWOC, “cerca” nel titolo in un OPAC
• Linguaggi di indicizzazione controllati ma non strutturati
• Thesauri: controllati e strutturati
• Schemi di classificazione: controllati,
Vocabolari controllati
• Il controllo terminologico è un tentativo di fornire un insieme standardizzato e coerente di termini (quali voci di soggetto, nomi di persone o enti, notazioni di uno schema di classificazione) con lo scopo di portare un aiuto nella ricerca di informazioni
• Un esempio linguistico: Word Net <www.cogsci.princeton.edu/~wn>
Vocabolari controllati
• Soggettari: p.e., Soggettario di Firenze, Library of Congress Subject Headings: <http://authorities.loc.gov/>
• Thesauri: p.e., ERIC Thesaurus of Descriptors
<www.ericfacility.net/extra/pub/thessearch.cfm>, The Art and Architecture Thesaurus
<www.getty.edu/research/conducting_research/vocabularies/>, Medical Subject Headings (MESH)
• Name Authority File: <http://authorities.loc.gov/>
Sistemi pre- e post-coordinati
• Sistemi pre-coordinati: è l’indicizzatore
(bibliotecario, etc.) che costruisce adeguate rappresentazioni del contenuto dei
documenti.
• Sistemi post-coordinati: è l’utente o chi conduce la ricerca che combina i singoli concetti per descrivere documenti che
Concetti di base IR
• Utenti, bisogni informativi, domande
• Documenti, raccolte di documenti
• Linguaggi di indicizzazione, vocabolari controllati
• Processo di ricerca
• Valutazione - Rilevanza
Prossimamente
• Processo di ricerca dell’informazione
• Valutazione – Rilevanza
• Cataloghi e bibliografie come sistemi IR