• Non ci sono risultati.

Teoria e tecniche della catalogazione e classificazione

N/A
N/A
Protected

Academic year: 2022

Condividi "Teoria e tecniche della catalogazione e classificazione"

Copied!
29
0
0

Testo completo

(1)

Teoria e tecniche della

catalogazione e classificazione

Utenti, documenti, linguaggi di indicizzazione ricerca5ir

Prof.ssa Elisa Grignani

Università degli studi di Parma aa. 2004/2005

(2)

Abbiamo visto:

Informazione

Gerarchia dell’informazione

Teoria dell’informazione (C. Shannon)

Ciclo di trasferimento dell’informazione

Sistemi di recupero dell’informazione

(3)

Gerarchia dell’informazione

Wisdom Knowledge Information

Data

(4)

Teoria dell’informazione

Noise

Source Encoding Decoding Destination

Message Message

Channel

Decoding Encoding

Message Message

(5)

Ciclo di trasferimento dell’informazione

Creation

Active

Semi-Active Retention/

Mining Discard

Using Creating

Authoring Modifying

Organizing Indexing

Storing Retrieval

Distribution Networking Accessing

Filtering

(6)

Struttura di un sistema IR

Search

Line Interest profiles

& Queries

Documents

& data

Rules of the game = Rules for subject indexing + Thesaurus (which consists of

Lead-In Vocabulary

and Indexing Language

Storage Line

Indexing (Descriptive and

Subject) Formulating query in

terms of descriptors

Storage of

profiles Storage of

Documents Information Storage and Retrieval System

(7)

Sistemi IR: struttura

(Cooper - Maron, 1985)

1. l’insieme delle possibili chiavi di accesso assegnate ai documenti;

2. l’insieme delle domande formulabili dagli utenti;

3. l’insieme degli indicatori di valore

informativo da assegnare ai documenti;

4. una regola di recupero.

(8)

Oggi (e domani)

IR: alcuni concetti di base

(9)

Concetti di base IR

• Utenti, bisogni informativi, domande

• Documenti, raccolte di documenti

• Linguaggi di indicizzazione, vocabolari controllati

• Processo di ricerca

• Valutazione - Rilevanza

(10)

Concetti di base IR

Utenti, bisogni informativi, domande

• Documenti, raccolte di documenti

• Linguaggi di indicizzazione, vocabolari controllati

• Processo di ricerca

• Valutazione - Rilevanza

(11)

Utenti: bisogni informativi

• Perchè costruire sitemi IR?

• Le diverse persone hanno bisogni

informativi diversi e del tutto svariati

• Le persone spesso non sanno cosa cercano, o possono non essere in grado di esprimere il loro bisogno informativo in modo utile

(12)

Utenti: domande

Una domanda (query) è una forma di espressione dei bisogni informativi dell’utente

Può essere espressa in vari modi

in linguaggio naturale

nei termini di un linguaggio di indicizzazione

Le domande talvolta non rappresentano in modo accurato il bisogno informativo

(13)

Utenti: domande: cataloghi

Indagine sponsorizzata dal Council on Library Resources sull’utilizzo dei cataloghi online

nelle biblioteche USA: Using online catalogs:

a nationwide survey, New York, Neal- Schuman, 1983.

(14)
(15)

Utenti: domande: Web

Indagini sull’uso del Web:

La gente che cosa cerca?

Come utilizza i motori di ricerca?

In quale percentuale trova ciò che sta cercando?

Qual è il livello di difficoltà nel trovare ciò che cerca?

Come si possono migliorare i motori di ricerca?

(16)

La gente che cosa cerca nel Web?

• Studio di Amanda Spink et al., Ott. 1998

Indagine su Excite; dati tratti da un campione di 316 utenti intervistati tramite questionario

<www.shef.ac.uk/~is/publications/infres/paper53.html>

(17)

What Do People Search for on the Web?

Self-reported topics

Genealogy/Public Figure: 12%

Computer related: 12%

Business: 12%

Entertainment: 8%

Medical: 8%

Politics & Government 7%

News 7%

Hobbies 6%

General info/surfing 6%

Science 6%

Travel 5%

Arts/education/shopping/images 14%

Something is missing…

(18)

What Do People Search for on the Web?

4660 sex

3129 yahoo

2191 internal site administr.

1520 chat

1498 porn

1315 horoscopes

1284 pokemon

1223 hotmail

1163 games

1151 mp3

1140 weather

1127 www.yahoo.com

1110 maps

1036 yahoo.com

50,000 queries from Excite 1997 Most frequent terms:

(19)

Google come spirito del tempo Zeitgeist

• Andiamo a vedere la pagina:

<http://www.google.com/press/zeitgeist.html

>

(20)

Concetti di base IR

• Utenti, bisogni informativi, domande

Documenti, raccolte di documenti

• Linguaggi di indicizzazione, vocabolari controllati

• Processo di ricerca

• Valutazione - Rilevanza

(21)

Documenti

Un documento è una rappresentazione di una

aggregazione di informazioni, considerata come una unità

Cosa intendiamo con documento?

l’intero documento?

un suo surrogato?

pagine?

M. Buckland, What is a Document, “JASIS”, Sept. 1997, pp. 804-809

J. LeGoff, Documento/Monumento, in Enciclopedia, Torino, Einaudi, 1977-1982, vol. 5, pp. 38-48

(22)

Raccolte di documenti / Collezioni

Una collezione è una aggregazione fisica o logica di documenti

museo, pinacoteca biblioteca

base di dati

biblioteca digitale ...

Krzysztof POMIAN, Memoria, in Enciclopedia,

(23)

Concetti di base IR

• Utenti, bisogni informativi, domande

• Documenti, raccolte di documenti

Linguaggi di indicizzazione, vocabolari controllati (da approfondire nel modulo B del corso)

• Processo di ricerca

• Valutazione - Rilevanza

(24)

Linguaggi di indicizzazione

• Indicizzazione a parole chiave non

controllate: p.e. KWIC, KWOC, “cerca” nel titolo in un OPAC

• Linguaggi di indicizzazione controllati ma non strutturati

• Thesauri: controllati e strutturati

• Schemi di classificazione: controllati,

(25)

Vocabolari controllati

• Il controllo terminologico è un tentativo di fornire un insieme standardizzato e coerente di termini (quali voci di soggetto, nomi di persone o enti, notazioni di uno schema di classificazione) con lo scopo di portare un aiuto nella ricerca di informazioni

• Un esempio linguistico: Word Net <www.cogsci.princeton.edu/~wn>

(26)

Vocabolari controllati

Soggettari: p.e., Soggettario di Firenze, Library of Congress Subject Headings: <http://authorities.loc.gov/>

Thesauri: p.e., ERIC Thesaurus of Descriptors

<www.ericfacility.net/extra/pub/thessearch.cfm>, The Art and Architecture Thesaurus

<www.getty.edu/research/conducting_research/vocabularies/>, Medical Subject Headings (MESH)

Name Authority File: <http://authorities.loc.gov/>

(27)

Sistemi pre- e post-coordinati

• Sistemi pre-coordinati: è l’indicizzatore

(bibliotecario, etc.) che costruisce adeguate rappresentazioni del contenuto dei

documenti.

• Sistemi post-coordinati: è l’utente o chi conduce la ricerca che combina i singoli concetti per descrivere documenti che

(28)

Concetti di base IR

• Utenti, bisogni informativi, domande

• Documenti, raccolte di documenti

• Linguaggi di indicizzazione, vocabolari controllati

Processo di ricerca

Valutazione - Rilevanza

(29)

Prossimamente

• Processo di ricerca dell’informazione

• Valutazione – Rilevanza

• Cataloghi e bibliografie come sistemi IR

Riferimenti

Documenti correlati

Nel limite (noto come limite termodinamico) l’energia diventa sempre più prossima al suo valore medio e può essere considerata come fissata. Ma questo è nient’altro che il punto

situazioni note) fondamentali e di saper consapevoli conoscenze e abilità acquisite. applicare basilari regole mostrando di saper Prende decisioni e sostiene le e

Ma, inoltre, non siamo solo «educatori», bensì delle «guide» o «mi- stagoghi», termine caro ai Padri per indicare l’iniziazione al mistero di Cristo, ossia, preoccupati

CISQ – Politecnico di Bari - Corso di formazione per RSPP – Modulo 6: Esempio di un insieme PED (ing. Boenzi).. Bari, 3 febbraio

In quanti modi si possono colorare di rosso e di azzurro i quadretti di una riga di n quadretti in modo che ci siano esattamente c linee di confine fra una zona rossa e una

Ogni insieme può essere considerato un sottoinsieme di se stesso e l’insieme vuoto può essere ritenuto un sottoinsieme di qualsiasi insieme: per questo motivo, dato un insieme

Si procede cercando per prima cosa un polinomio che si annulli su quella radice, da quello estraiamo poi il polinomio minimo. Eliminiamo una radice o un fattore

Un caso in cui è rapido verificare l’equivalenza di una relazione è quando la relazione coincide con la relazione d’equivalenza associata ad una funzione.. Si tratta