• Non ci sono risultati.

2.3

Citazioni

La parte centrale del lavoro, come detto in precedenza, consiste nel creare una rete citazionale. Per fare questo bisogna individuare i riferimenti biblio- grafici all’interno del file JATS e tradurli in RDF con le regole illustrate nella sezione precedente. Un esempio di citazione ben formata `e il seguente:

< r e f i d =”R32”>

<l a b e l >32</ l a b e l >

<e l e m e n t −c i t a t i o n p u b l i c a t i o n −t y p e=” j o u r n a l ”> <p e r s o n −group p e r s o n −group−t y p e=”a u t h o r”>

<name> <surname>I r i a r t e </surname> <g i v e n −names>FB</g i v e n −names> </name> <name> <surname>Balogh </surname> <g i v e n −names>B</g i v e n −names> </name> <name> <surname>Momol</surname> <g i v e n −names>MT</g i v e n −names> </name> <name> <surname>Smith</surname> <g i v e n −names>LM</g i v e n −names> </name> <name> <surname>Wilson </surname> <g i v e n −names>M</g i v e n −names> </name> <name> <surname>Jones </surname> <g i v e n −names>JB</g i v e n −names> </name> </p e r s o n −group> < a r t i c l e −t i t l e >F a c t o r s a f f e c t i n g s u r v i v a l o f b a c t e r i o p h a g e on tomato l e a f s u r f a c e s </ a r t i c l e −t i t l e > <s o u r c e >Appl E nv i r o n M i c r o b i o l </s o u r c e >

<y e a r >2007</ y e a r > <volume >73</volume> <f p a g e >1704</ f p a g e > <l p a g e >11</ l p a g e >

<pub−i d pub−i d −t y p e=” d o i ” >10.1128/AEM.02118 −06 </pub−i d > <pub−i d pub−i d −t y p e=”pmid”>17259361</pub−i d >

</e l e m e n t −c i t a t i o n > </ r e f >

Esso contiene tutte le informazioni utili per identificare correttamente la citazione come ad esempio i nomi degli autori, il titolo, il journal, l’anno, il volume e le pagine di inizio e fine, nonch´e il PubMedId e il DOI.

Di seguito invece riportiamo alcuni esempi di citazioni che necessitano di un’analisi pi`u approfondita. Questo non vuol dire che i dati ivi contenuti vengano persi ma vengono salvati in una stringa di testo e annotati con la propriet`a dcterms:BibliographicCitation[18]. Esempio 1: < r e f i d =”b4”> <l a b e l >4</ l a b e l > <e l e m e n t −c i t a t i o n p u b l i c a t i o n −t y p e=” o t h e r ”> <c o l l a b >American M e d i c a l A s s o c i a t i o n </ c o l l a b > <comment>Report 2 o f t h e C o u n c i l on S c i e n t i f i c A f f a i r s (A− 0 4 ) . Impact o f drug f o r m u l a r i e s and t h e r a p e u t i c i n t e r c h a n g e on h e a l t h outcomes . 2 0 0 4 . A v a i l a b l e a t

<ext−l i n k ext−l i n k −t y p e=” u r i ” x l i n k : h r e f =” h t t p : / /www. ama−a s s n . o r g /ama/no−i n d e x / about−ama / 1 3 6 7 5 . s h t m l”> h t t p : / /www. ama−a s s n . o r g /ama/no−i n d e x / about−ama / 1 3 6 7 5 . s h t m l

</ext−l i n k > ( l a s t a c c e s s e d 29 A p r i l 2 0 0 9 ) </comment> </e l e m e n t −c i t a t i o n > </ r e f > Esempio 2: < r e f i d =”B29”> <mixed−c i t a t i o n p u b l i c a t i o n −t y p e=” o t h e r ”> <c o l l a b >N a t i o n a l C e n t e r f o r B i o t e c h n o l o g y I n f o r m a t i o n E n t r e z Gene d a t a b a s e </ c o l l a b >

<ext−l i n k ext−l i n k −t y p e=” u r i ” x l i n k : h r e f= ” h t t p : / /www. n c b i . nlm . n i h . gov / g e n e”>

2.3 Citazioni 29

h t t p : / /www. n c b i . nlm . n i h . gov / gene </ext−l i n k > </mixed−c i t a t i o n >

</ r e f >

Esempio 3:

< r e f i d =”B5”>

< c i t a t i o n c i t a t i o n −t y p e=”book”>

<p e r s o n −group p e r s o n −group−t y p e=”a u t h o r”> <c o l l a b >IOM/NAS</ c o l l a b >

</p e r s o n −group>

<s o u r c e >Modeling Community Containment f o r Pandemic I n f l u e n z a </s o u r c e >

<y e a r >2006</ y e a r >

<p u b l i s h e r −name> I n s t i t u t e o f M e d i c i n e o f t h e N a t i o n a l Academies , The N a t i o n a l Academies P r e s s ,

Washington , DC 20001 </ p u b l i s h e r −name> </ c i t a t i o n > </ r e f > Esempio 4: < r e f i d =”b i b 1”> <l a b e l >1.</ l a b e l > < c i t a t i o n c i t a t i o n −t y p e=” j o u r n a l ”>Chen , L . B . <y e a r >1988</ y e a r >. M i t o c h o n d r i a l membrane p o t e n t i a l i n l i v i n g c e l l s . <s o u r c e >Annu . Rev . C e l l B i o l . </ s o u r c e ><volume >4 </volume >:< f p a g e >155</ f p a g e>&#x2013 ; 1 8 1 .

<pub−i d pub−i d −t y p e=”pmid”>3058159</pub−i d ></ c i t a t i o n > </ r e f >

Esempio 5:

< r e f i d =”R39”>

<l a b e l >39</ l a b e l >

<mixed−c i t a t i o n p u b l i c a t i o n −t y p e=” t h e s i s ”>Balogh B .

C h a r a c t e r i z a t i o n and u s e o f b a c t e r i o p h a g e s a s s o c i a t e d w i t h c i t r u s b a c t e r i a l p a t h o g e n s f o r d i s e a s e c o n t r o l . PhD t h e s i s 2 0 0 6 . Univ . FL : G a i n e s v i l l e . </ mixed−c i t a t i o n >

</ r e f >

< r e f i d =”R38”>

<l a b e l >38</ l a b e l >

<mixed−c i t a t i o n p u b l i c a t i o n −t y p e=” c o n f p r o c ”> S v i r c e v AM, Lehman SM, Kim W, B a r s z c z E , S c h n e i d e r KE, C a s t l e AJ . C o n t r o l

o f t h e f i r e b l i g h t p a t ho g e n w i t h b a c t e r i o p h a g e s . I n : Z e l l e r W, U l l r i c h C, Seeheim / Darmstadt e d s . P r o c e e d i n g s o f t h e 1 s t

I n t e r n a t i o n a l Symposium on B i o l o g i c a l C o n t r o l o f B a c t e r i a l

P l a n t D i s e a s e s . Land− F o r s t w i r t s c h Germany : Mitt B i o l Bundesanst , 2 0 0 6 ; 408:259 −61. </ mixed−c i t a t i o n >

Capitolo 3

Il prototipo CiNeX (Citation

Network eXtractor)

Scopo del programma realizzato `e quello di rendere fruibili sottoforma di linked data le informazioni contenute nei file XML descritti in JATS. Per fare questo il software prende in input uno o pi`u file in XML e fornisce in output un file Turtle con la traduzione in RDF. In questo capitolo verr`a illustrato il prototipo CiNeX (Citation Network eXtractor) sia per quanto concerne la logica applicativa sia la parte implementativa. Inoltre verranno approfonditi alcuni strumenti utilizzati per lo sviluppo, Jena e Fuseki, e verr`a brevemente introdotto il linguaggio SPARQL per l’interrogazione di dataset in RDF.

3.1

La logica

Il software si occupa, in due fasi differenti, di due problemi. Il primo, riguarda l’individuazione dei tag XML all’interno dei documenti di input e il loro trasferimento su una struttura dati locale, poi, a partire da questa struttura, il tool identifica tramite le regole definite nel capitolo 2 le parti del documento e le traduce in RDF.

Per quanto riguarda il primo problema bisogna individuare 3 macro aree:

• <journal-meta>

• <article-meta>

• <ref-list>

Nella prima sono contenute tutte le informazioni relative al journal di riferi- mento dell’articolo, nella seconda i metadati dell’articolo stesso e nella terza la lista dei riferimenti bibliografici. Individuate queste aree si scende nel det- taglio con tutti i tag relativi e si popola la struttura dati locale.

La traduzione RDF deve avvenire necessariamente utilizzando delle specifiche regole. In questa fase sono stati riscontrati i seguenti problemi:

• Nomi abbreviati e nomi per esteso: solitamente nel tag <article-meta> i nomi degli autori vengono messi per esteso mentre nei riferimenti bi- bliografici i nomi vengono abbreviati con le iniziali. Ci`o ha comportato un problema di individuazione univoca degli stessi perch´e non c’era omogeneit`a nell’abbreviazione (ad esempio venivano annotati sia il pri- mo che il secondo nome, a volte con punti, a volte senza). Il problema `e stato risolto in parte con un apposito algoritmo che ricerca l’esistenza dell’autore prima sul cognome e poi sulle iniziali del primo nome. Se vi `e corrispondenza, controlla la lunghezza della stringa del nome pi`u corto, e se questa `e uguale a 1, sostituisce il nome con quello pi`u lungo.

• Omonimia: non abbiamo trovato, per ora, una soluzione al problema legato all’omonimia tra autori

• Errori di battitura / scrittura di Journal e Articoli : un problema piut- tosto comune `e stato quello di dover far fronte ad articoli identici ma con nomi differenti. In questo caso basta controllare il DOI e verificare la corrispondenza oppure, nel caso di alcuni Journal, l’unica differenza era un punto alla fine del nome, quindi abbiamo deciso di eliminarlo manualmente nel tool.

Documenti correlati