• Non ci sono risultati.

Motori di ricerca: introduzione - I Un

N/A
N/A
Protected

Academic year: 2022

Condividi "Motori di ricerca: introduzione - I Un"

Copied!
28
0
0

Testo completo

(1)

Motori di ricerca: introduzione - I

Un motore di ricerca...

non è "nient'altro" che un'applicazione Web basata sulle tecnologie web di cui abbiamo parlato sin qui (architettura client-server, HTTP, HTML, fogli di stile, linguaggi di scripting client-side come Javascript o server-side come PHP, tecnologie come le Java Servlet AJAX e le Open API )

a.a. 2017/18 Tecnologie Web 1

tecnologie come le Java Servlet, AJAX e le Open API, ...) NB: osservate ciò che accade quando fate una ricerca...: form, utilizzo di AJAX, invio request con parametri, esecuzione di un programma server-side (questa è la "parte difficile"!!), invio response (pagina web con un elenco di link)...

Motori di ricerca: introduzione - II

• Tipicamente, gli attuali motori di ricerca:

1) consentono all'utente di specificare la propria richiesta (query): per mezzo di parole chiave[1], eventualmente restringendo la ricerca ad una specifica tipologia di risorserestringendo la ricerca ad una specifica tipologia di risorse es., immagini, video, ecc [2] o utilizzando funzionalità di ricerca "avanzate" (es: cercare documenti che contengono quelle una data sequenza di parole: "sempre caro mi fu"; cercare in uno specifico sito: vittorio foa site:www.anpi.it; cercare documenti che contengono una parola oppure un'altra: latifoglia OR conifera; cercare documenti che contengono una parola ma non un'altra: acidofile -azalea)

Google offre anche un'interfaccia utente per la ricerca Google offre anche un interfaccia utente per la ricerca avanzata [www.google.com/advanced_search] [3]

[1] [2]

(2)

Motori di ricerca: introduzione - III

[3]

a.a. 2017/18 Tecnologie Web 3

Motori di ricerca: introduzione - IV

2) presentano all'utente i risultati della ricerca (SERP: Search Engine Result Pages): tipicamente un elenco di URL di risorse (pagine) web [4], ma talvolta anche dati

"aggregati"gg g [5]

[4]

[5]

(3)

Motori di ricerca: introduzione - V

• I motori di ricerca servono

a) a cercare (e trovare) informazioni

Il servizio di ricerca può essere utilizzato:

• dall'utente finale (human user) per gli scopi più vari (personali, di ricerca, di marketing, ecc) User Interface

• in un mashup (es: inserisco l'accesso al motore di ricerca nel mio sito e lo invoco attraverso i suoi Open API; oppure utilizzo gli Open API per effettuare una

a.a. 2017/18 Tecnologie Web 5

ricerca dall'interno di un software) Application Programming Interface

Motori di ricerca: introduzione - VI

b) ad essere trovati

Chi costruisce un sito/app/servizio web solitamente desidera essere facilmente trovato da chi effettua delle ricerche con trovato da chi effettua delle ricerche con determinate parole chiave (es: vorrei che il mio sito sulla coltivazione delle orchidee venisse facilmente trovato da chi cerca "orchidee", o "come curare le orchidee", ...)

• Questa esigenza è particolarmente evidente quando si tratta di siti/app/servizi aziendali/commerciali

t atta d s t /app/se v a e da /co e c a

• E' importante che il sito/app/servizio compaia ai primi posti (idealmente nella prima pagina) nell'elenco dei risultati dei motori di ricerca (SERP), per ricerche

(4)

Motori di ricerca: introduzione - VII

 SEO (Search Engine Optimization)

SEO = insieme di buone prassi nella costruzione e manutenzione di un sito web volte ad assicurare buona

" i ibilità" iti/ / i i b i i lt ti d i t i di

"visibilità" a siti/app/servizi web nei risultati dei motori di ricerca (volte cioè a far sì che, ogni volta che un

sito/app/servizio web contiene informazioni rilevanti per una data ricerca, i link a quel sito/app/servizio compaiano nelle prime posizioni tra i risultati risultati della ricerca)

NB Il SEO riguarda solo i risultati della cosiddetta ricerca

"nat rale": escl de le t tto ciò che attiene alle

a.a. 2017/18 Tecnologie Web 7

"naturale": esclude le tutto ciò che attiene alle sponsorizzazioni (es. gli AdWords di Google)

Per capire il SEO, occorre prima capire (almeno un po') come funzionano i motori di ricerca...

Motori di ricerca: come funzionano - I

Un motore di ricerca su Web è un'applicazione Web piuttosto complessa  il suo funzionamento è il risultato dell'esecuzione di 4 funzionalità principali:

1 A li i d l W b 1. Analisi del Web 2. Indicizzazione

3. Analisi della query e ricerca 4. Produzione dei risultati (SERP)

NB Molti motori di ricerca sono applicazioni proprietarie di

"dietro le quinte"

NB Molti motori di ricerca sono applicazioni proprietarie di aziende profit, le quali non svelano tutti i segreti del loro prodotto...quindi, in molti casi, non è possibile conoscere i dettagli implementativi di un motore di ricerca :-(

(5)

Motori di ricerca: come funzionano - II

1. Analisi del Web o Web crawling

• eseguita dai Web crawlers (o spiders, robots, bots, ...) = appositi software, parte essenziale dei motori di ricerca, che:

– "scandiscono" il Web, visitandone i siti e seguendo iscandiscono il Web, visitandone i siti e seguendo i collegamenti ipertestuali (link) fra le pagine

– durante le loro visite, memorizzano informazioni sulle pagine web che visitano (possono memorizzare intere pagine web o parti di esse, immagini, documenti, ecc...) negli enormi data center delle organizzazioni che li gestiscono

NB W b l è li t HTTP i di i i

a.a. 2017/18 Tecnologie Web 9

NB un Web crawler è un client HTTP... quindi per visitare un sito invia HTTP request ad un Web Server!!!

Motori di ricerca: come funzionano - III

2. Indicizzazione

• Le informazioni recuperate dai Web crawlers e memorizzate nei data center vengono utilizzate per rispondere alle ricerche (query) fatte dagli utenti

(q y) g

• Queste informazioni vengono opportunamente organizzate per poter essere recuperate efficientemente: vengono

indicizzate vengono costruiti degli indici (in certa misura analoghi agli indici analitici dei libri) consultando i quali i motori di ricerca possono accedere più velocemente alle informazioni cercate

S lifi d i di è l di l i

Semplificando, un indice è un elenco di parole: per ogni parola vengono memorizzati i

riferimenti alle risorse (pagine web, immagini, ecc...) che

Bach  url1, url2, url4, ...

musica  url1, url2, url3, ...

baroccaurl2, url4, url5, ...

(6)

Motori di ricerca: come funzionano - IV

• Stop words: articoli, congiunzioni, ecc. (chiamate stop words) non vengono indicizzati!

• Attualmente, negli indici, gli URL delle risorse sono ordinati

i b l R k ("i t ") d ll i [ di i

in base al Rank ("importanza") della risorsa [vedi prossime slide]:

Rank url1 > Rank  url2

> Rank url4 ecc...

• Attualmente gli indici non contengono solo parole, ma

h i i ( i ifi ti ) l " ti "

Bach  url1, url2, url4, ...

musica  url1, url2, url3, ...

baroccaurl2, url4, url5, ...

...

a.a. 2017/18 Tecnologie Web 11

anche espressioni (significative): x es non solo "semantic" e

"web", ma anche "semantic web"

Motori di ricerca: come funzionano - V

3. Analisi della query e ricerca

• Quando un utente esprime una richiesta (query), tipicamente un insieme di parole chiave, il motore di ricerca cerca quelle parole nei suoi indici e, per ogni parola, trova i documenti (le

i / i b) h l " "

risorse/pagine web) che la "contengono"

• Completamento automatico della query

si basa su complessi algoritmi che tengono conto di diversi – si basa su complessi algoritmi che tengono conto di diversi

fattori (es: frequenza dei termini, query più frequenti di altri utenti, ricerche eseguite in passato dall'utente)

– parzialmente configurabile (es, su Google:

https://support.google.com/websearch/answer/186610?hl=it)

(7)

Motori di ricerca: come funzionano - VI

• Tendenze recenti [rif. Prabhakar Raghavan, vice-president of Engineering at Google, keynote talk at ISWC'14]:

si cerca di "interpretare" la query dell'utente, x es cercando di capire l'esigenza che "sta dietro" alle parole chiave

 look at the verb behind the noun = si cerca di capire cosa

 look at the verb behind the noun = si cerca di capire cosa l'utente vuole fare (goal) a partire dalle keyword; es:

 query = "ristorante indiano TajMahal, Torino"

 cosa vuol fare l'utente? avere info, valutarlo, prenotare un tavolo, raggiungerlo, ...? dipende, ovviamente, da molti fattori, x es. orario, luogo, ... (alle 20 probabilmente vuole raggiungerlo, tanto più se si trova nei paraggi...)

f i di l d ll

a.a. 2017/18 Tecnologie Web 13

 per fare questo si cerca di classificare la query dell'utente all'interno di categorie predefinite di esigenze, per fornire risultati più appropriati

es: se l'utente cerca un indirizzo, gli fornisco innanzi tutto una mappa; se cerca "gazpacho" gli fornisco delle ricette, ...

Motori di ricerca: come funzionano - VII

4. Produzione dei risultati

 SERP (Search Engine Result Pages)

• tipicamente un elenco di URL di risorse (pagine, immagini, ...) web (ricavate dagli indici) (b)+ dati "aggregati" (a)

(8)

Motori di ricerca: come funzionano - VIII

(a)Risultati della ricerca  dati "aggregati"

– individua l'entità principale a cui si riferiscono le keyword (es: Mozart)

i f ll' tità

 recupera e aggrega info su quell'entità

 esempio di mashup di dati!!

– Da dove prende le info?

Da basi di dati aperte, accessibili in formati standard sul web  Open Data [www.opendatafoundation.org]

Per es: DBPedia [dbpedia org] Wikidata

a.a. 2017/18 Tecnologie Web 15

Per es: DBPedia [dbpedia.org], Wikidata [www.wikidata.org]

– Nel caso di Google, la struttura delle info mostrate nel box è data dal Google Knowledge Graph [vedi prossime slide]

Motori di ricerca: come funzionano - IX

(b)Risultati della ricerca  elenco di URL di risorse web

• Misurare la "bontà" dei risultati: recall e precision Data una query...

– recall = rapporto tra il numero di risorse rilevanti recuperate pp p e il numero di risorse rilevanti disponibili (il motore

recupera tutto ciò che deve?)

– precision = rapporto tra il numero di risorse rilevanti recuperate e il numero di risorse recuperate (quanta

"spazzatura" recupera?)

risorse disponibili

risorse risorse risorse

 alta recall  non mi perdo nulla di rilevante...

 alta precision  non ci sono "schifezze" tra i risultati

risorse rilevanti

risorse recuperate recuperate

rilevanti

(9)

Motori di ricerca: ranking - I

NOTA: all'inizio (meta' anni '90) la recall era molto più importante, oggi, con molte risorse disponibili in più, ha assunto più importanza la precision!

• Ma come vengono ordinate le risorse trovate?

Tipicamente le risorse vengono presentate in ordine Tipicamente, le risorse vengono presentate in ordine

decrescente di "importanza" (rispetto alla ricerca dell'utente)

• Ma come si fa a stabilire l'importanza di una risorsa (rispetto alla ricerca dell'utente)?

Le tecniche che decidono l'importanza sono chiamate tecniche (algoritmi) di ranking

Ranking

a.a. 2017/18 Tecnologie Web 17

Ranking

• Il calcolo dell'importanza di una risorsa è un algoritmo complesso che combina molti parametri... inoltre, spesso, i dettagli di questo algoritmo sono tenuti segreti dai proprietari dei motori di ricerca!

Motori di ricerca: ranking - II

• Il più famoso algoritmo di ranking è Page Rank (Google, 1996) Senza entrare nei dettagli, qual'è l'idea che ne sta alla base?

– si assume che un link ad una risorsa rappresenti:

1. una "raccomandazione" (endorsement) per quella risorsa 1. una raccomandazione (endorsement) per quella risorsa 2. una "descrizione" (annotazione) di quella risorsa

– data una risorsa (sito), si prendono in considerazione i back links (= link che puntano a quella una risorsa) e si assegna un

"voto" alto a risorse che hanno:

 molti link "in entrata" (quantità dei back links)

 link in entrata provenienti da siti "autorevoli", cioè che hanno un alto "voto" di Page Rank (qualità dei back links)

 non tutti link in entrata hanno lo stesso "peso": quelli provenienti da siti più autorevoli pesano di più

(10)

Motori di ricerca: ranking - III

• Dalla prima ver. di Page Rank, vari aggiornamenti dell'algoritmo si sono susseguiti e affiancati... x es:

– Google Panda (2011)

– Google Penguin (2012, concentrato sul webspam)

G l H i bi d (2013 i ll i " i " i

– Google Hummingbird (2013, orientato alla ricerca "semantica", integrato con il Google Knowledge Graph [vedi prossime slide])

– Google Pigeon (2014)

• Google ha parlato di più di 200 fattori di ranking principali ("segnali") che vengono considerati dall'algoritmo, ma potrebbero esserci più di 10.000 variazioni di "sottosegnali"...

• Gli algoritmi di ranking sono stati integrati con numerosi

a.a. 2017/18 Tecnologie Web 19

algoritmi secondari volti a smascherare (e penalizzare) i tentativi di manipolazione i motori di ricerca hanno penalizzato pesantemente i siti che hanno tentato di far salire

"artificialmente" il proprio ranking (per es. escludendoli dai propri indici)

Motori di ricerca: la semantica - I

Ma il limite più grande dei motori di ricerca è quello non essere in grado di capire il "significato" delle query...

Sempre più numerosi sono gli esempi di motori di ricerca che tentano di andare al di là di un meccanismo basato sulle parole tentano di andare al di là di un meccanismo basato sulle parole chiave (keyword), cercando di basare le proprie ricerche non sulle parole in sé, ma sul loro "significato" (la loro semantica) (1) le parole sono ambigue disambiguazione

senza semantica con la semantica

company fruit

(11)

Motori di ricerca: la semantica - II

(2) parole diverse possono essere usate per riferirsi allo stesso concetto  ricerca dei sinonimi

senza semantica

url1 (...pagamento multe...) url3 (Multe:... pagamento...) url5 (... pagamento ... multe...)

con la semantica

url1 (...pagamento multe...)

url2 (Contavvenzioni:... pagamento...) url3 (Multe:... pagamento...)

url4 (... pagamento ... contavvenzioni...) url5 ( pagamento multe )

a.a. 2017/18 Tecnologie Web 21

dove contravvenzioni è sinonimo di multe

url5 (... pagamento ... multe...)

Motori di ricerca: la semantica - III

(3) posso estendere la ricerca a concetti "vicini" (es: sovra- classi, sotto-classi, parti, ...)

senza semantica

url1 (...allevamento mucche...) url3 (Mucche... allevamento...) url5 (... allevamento... mucche...)

con la semantica

url1 (...allevamento mucche...) url2 (Bovini... allevamento...) url3 (Mucche... allevamento...) url4 (... allevamento... bovini...) url5 ( allevamento mucche )

dove bovini è una sovra-classe di mucche

url5 (... allevamento... mucche...) bovini

ISA ISA ISA

(12)

Motori di ricerca: la semantica - IV

Quasi tutti i motori di ricerca hanno integrato funzionalità

"semantiche" nei loro algoritmi di ricerca (x es. analizzando la query e cercando di interpretarla, cioè di capire il "significato"

delle keyword)

Alcuni (i cosiddetti "motori semantici") lo avevano fatto anni fa, per primi, x es:

• DuckDuckGo [duckduckgo.com]

• Evi [www.evi.com]

a.a. 2017/18 Tecnologie Web 23

Motori di ricerca: la semantica - V

Google Knowledge Graph (rif. post Introducing the Knowledge Graph: things, not strings, pubblicato il 16/5/2012 sul blog ufficiale di Google: googleblog.blogspot.co.uk)

• base di conoscenza che contiene info su entità di vario tipo p (es. persone, organizzazioni, luoghi, film, canzoni, quadri, ecc.) e loro relazioni (es. S. Leone è il regista di Giù la testa)

• incorpora dati da diverse fonti (es. Wikipedia wikipedia.orge Wikidatawww.wikidata.org)

• migliora le risposte del motore in 3 modi principali:

1. aiuta l'utente a identificare le info relative all'entità cercata 2. fornisce un riassunto sintetico di info su tale entità

 sta alla base del cosiddetto box di dati aggregati 3. relazioni tra le entità (es. S. Leone è il regista di Giù

la testa)  permette all'utente di scoprire nuove info

(13)

Motori di ricerca: Schema.org - I

Oltre a capire il significato della query, il motore di ricerca deve capire di cosa parlano i siti (le app, i servizi) sul web... deve essere in grado di capire i contenuti!

Schema.org [g [schema.orgg]]

• Recentemente Google, Microsoft, Yahoo e Yandex (il più importante motore di ricerca russo) hanno proposto Schema.org

• Schema.org = sistema di annotazione per le pagine web che consente di aggiungere descrizioni "machine readable" di ciò di cui le pagine parlano

• Annotazioni Schema.org: non sono rivolte agli utenti umani, ma

a.a. 2017/18 Tecnologie Web 25

ai motori di ricerca che riescono così a "comprendere", in parte, il significato delle pagine web

• Le annotazioni Schema.org sono visibili nel sorgente delle pagine web (quindi visibili ai motori di ricerca), ma non sono visualizzate dai browser (quindi invisibili agli utenti finali)

Motori di ricerca: Schema.org - II

• Schema.org serve ad arricchire i siti (app/servizi) con info

"semantiche" (anche) per i motori di ricerca!

• Schema.org avrà sempre più importanza anche in ambito SEO...

Schema.org è costituito da:

• Una gerarchia di categorie (tipi) predefinite (es. Person, Movie, …)

• Una gerarchia di proprietà predefinite (es: name, director, …)

• Delle regole che specificano come è possibile combinare tipi, proprietà (e valori per le proprietà) nelle descrizioni dei vari proprietà (e valori per le proprietà) nelle descrizioni dei vari elementi (items) di cui le pagine web parlano (es: il regista James Cameron, il film Avatar, …)

Per esempio...

(14)

Motori di ricerca: Schema.org - III

Movie è un particolare sotto-tipo (sotto categoria) di MediaObject (sotto-categoria) di MediaObject MediaObject è un particolare sotto-tipo (sotto-categria) di CreativeWork

un elemento di tipo Movie può essere descritto dalle proprietà actor, actors, director, directors, duration, ecc. (+ le proprietà dei suoi sovra-tipi MediaObject, CreativeWork)

a.a. 2017/18 Tecnologie Web 27

Esempio di uso di Schema.org nelle pagine web (tratto da

https://schema.org/docs/gs.html)

1. Frammento del sorgente di una "normale" pagina web che

d i il fil A t (i t di h1 " li"

Motori di ricerca: Schema.org - IV

descrive il film Avatar (i tag div, h1, span, a sono "normali"

tag HTML e href è un "normale" attributo HTML)

 il contenuto di questa pagina è fruibile dagli utenti attraverso la visualizzazione del browser

<div>

<h1>Avatar</h1>

<span>Director: James Cameron (born August 16, 1954)</span>

<span>Science fiction</span>

<a href="../movies/avatar-trailer.html">Trailer</a>

</div>

(15)

2. Frammento del sorgente di una pagina web che descrive il film Avatar, arricchita di annotazioni Schema.org che rendono il contenuto in certa misura "comprensibile"

anche ai motori di ricerca

Motori di ricerca: Schema.org - V

anche ai motori di ricerca

<div itemscope itemtype ="http://schema.org/Movie">

<h1 itemprop="name">Avatar</h1>

<div itemprop="director" itemscope

itemtype="http://schema.org/Person">

Director: <span itemprop="name">James Cameron</span>

(born <span itemprop="birthDate">August 16, 1954</span>)

</div>

</div>

<span itemprop="genre">Science fiction</span>

<a href="../movies/avatar-trailer.html"

itemprop="trailer">Trailer</a>

</div>

a.a. 2017/18 Tecnologie Web 29

In particolare...

Motori di ricerca: Schema.org - VI

questa pagina descrive un item di tipo

l'item descritto ha nome Avatar (cioè, per l'item descritto, il valore della

i à è A )

il regista (proprietà director) è un item di i

<div itemscope itemtype ="http://schema.org/Movie">

<h1 itemprop="name">Avatar</h1>

<div itemprop="director" itemscope

itemtype="http://schema.org/Person">

Director: <span itemprop="name">James Cameron</span>

(born <span itemprop="birthDate">August 16, 1954</span>) Movie proprietà name è Avatar) di tipo Person

il genere (proprietà genre) è Science fiction

( p p p g , / p )

</div>

<span itemprop="genre">Science fiction</span>

<a href="../movies/avatar-trailer.html"

itemprop="trailer">Trailer</a>

(16)

Motori di ricerca e SEO - I

Torniamo al SEO... con un'avvertenza preliminare:

• Il SEO (Search Engine Optimization) è un'attività complessa (molte variabili sono in gioco) che richiede competenze specifiche nelle prossime slide riportiamo alcune delle specifiche  nelle prossime slide riportiamo alcune delle principali linee guida SEO, ma senza la pretesa di essere esaustivi né di formare degli esperti SEO...

• Alcune importanti raccomandazioni:

1. Non cercare di ingannare i motori di ricerca!

Per es: link farm (creazione, eventualmente automatica, di un gruppo di siti che si linkano reciprocamente con migliaia di

a.a. 2017/18 Tecnologie Web 31

gruppo di siti che si linkano reciprocamente con migliaia di collegamenti), o la compravendita di link

I motori di ricerca sono diventati molto abili a riconoscere i tentativi di "frode" e penalizzano i siti nei quali riconoscono tali tentativi!

Motori di ricerca e SEO - II

2. Ricordare che un sito è fatto per gli utenti, non per i motori di ricerca! I motori di ricerca, tendenzialmente, premiano i siti in cui trovano informazioni utili per rispondere ai bisogni informativi degli utenti e penalizzano fortemente i bisogni informativi degli utenti e penalizzano fortemente i siti che costruiscono versioni per gli spider diverse da quelle per gli utenti

3. Non abusare delle stesse pratiche SEO! L'abuso di pratiche SEO è comunque sospetto e generalmente non è apprezzato dai motori di ricerca

(17)

Motori di ricerca e SEO - III

• I principali motori di ricerca mettono a disposizione dei webmaster un insieme servizi utili per il SEO (solitamente, per usare questi servizi è necessario registrarsi), per es:

Google

l / b t /t l /

– www.google.com/webmasters/tools/

– www.google.it/analytics/

Bing (Microsoft) e Yahoo!

– www.bing.com/toolbox/webmaster

• Uno strumento utile è l'operatore Site, presente in Google e in altri motori di ricerca, che consente:

di verificare la presenza di un sito in un motore di ricerca

a.a. 2017/18 Tecnologie Web 33

– di verificare la presenza di un sito in un motore di ricerca – di focalizzare una ricerca all'interno di uno specifico sito NB attenzione a non inserire spazi tra i due punti e il sito!!

Motori di ricerca e SEO - IV

Site (Google) –www.apesusa.it(che non esiste...)

(18)

Motori di ricerca e SEO - V

Site (Google) –celi.it(che esiste ed è indicizzato da Google...)

a.a. 2017/18 Tecnologie Web 35

Motori di ricerca e SEO: linee guida - I

Principali linee guida SEO (1) Scegliere le parole chiave

è importante innanzi tutto individuare le parole chiave con cui

i l h i t ti d l it i t ti

si vuole che i contenuti del sito siano trovati

• le parole chiave devono essere coerenti con i contenuti del sito

• può essere utile cercare di capire quali sono le parole chiave usate da siti affini (es: dai concorrenti)

• è opportuno cercare di capire quali parole gli utenti potrebbero utilizzare per cercare i contenuti del sito (es: può essere utile p ( p intervistare un campione di potenziali utenti)

• non ha senso inserire parole chiave che non hanno nulla a che vedere con i contenuti del sito (es: per un'azienda che offre servizi di marketing inserire "frutta" o "protezione panda")

(19)

Motori di ricerca e SEO: linee guida - II

• Vi sono parole chiave più competitive (per le quali è più difficile posizionarsi bene nelle SERP) e parole chiave meno competitive, più "di nicchia" (per le quali è più facile

posizionarsi bene nelle SERP)

Es: un'azienda di Venaus (Comune della Val di Susa) che produca e venda miele biologico potrebbe desiderare posizionarsi bene nelle SERP per ricerche con parole come:

– "prodotti biologici"  esempio di parole molto competitive (sono molte le aziende che vorrebbero essere ben posizionate in ricerche con "prodotti biologici")  SEO più difficile!

– "miele biologico venaus"  esempio di parole meno

titi ( b bil t lt l i d h

a.a. 2017/18 Tecnologie Web 37

competitive (probabilmente non sono molte le aziende che desiderano essere trovate con le parole "miele biologico venaus")  SEO (relativamente) più semplice

• alcuni motori di ricerca offrono un servizio di suggerimento di keyword, es: adwords.google.com/keywordplannerdi Google

Motori di ricerca e SEO: linee guida - III

(2) Usare le parole chiave nel sito

dove devono comparire, nel sito, le parole chiave?

• in alcuni tag "strutturali" (es: title, h1, h2, ...), per es:

OK:<title>APESUSA: produzione e vendita miele e

OK: <title>APESUSA: produzione e vendita miele e prodotti biologici a Venaus (Torino)</title>

NO: <title>Home page APESUSA: vieni a trovarci!</title>

– il titolo deve essere coerente con il contenuto della pagina OK: <h1>Miele biologico e prodotti derivati: le

nostre offerte</h1>

NO: <h1>Le nostre offerte</h1>

– è bene non ripetere uno stesso titolo in molte pagine (peggio ancora: in tutte le pagine del sito)

– usare i tag title, h1, h2, ecc... per specificare effettivamente i titoli (evitare di inserire interi paragrafi in questi tag)

(20)

Motori di ricerca e SEO: linee guida - IV

• nel testo dei link

OK: <a href="http://www.apesusa.com/catalogo-miele.php">

Catalogo prodotti: miele biologico</a>

NO:Per il catalogo <a href="http://www.apesusa.com/

catalogo-miele php">clicca qui</a>

catalogo miele.php >clicca qui</a>

 il testo del link deve essere significativo e legato al contenuto

 non scrivere frasi troppo lunghe nei testi dei link

 meglio non usare come testo l'URL della risorsa

• nei nomi dei file

OK: <img src=" barattolo-miele-castagno.jpg">

NO:<img src=" image345 jpg">

a.a. 2017/18 Tecnologie Web 39

NO:<img src= image345.jpg >

OK: <a href="catalogo-miele-biologico.php">...

NO:<a href="page04.php">...

 attribuire a file e cartelle nomi significativi(senza esagerare:

barattolo-250gr-miele-biologico-castagno-apesusa-venaus-to.jpg

non è un buon nome di file!)

Motori di ricerca e SEO: linee guida - V

• nell'attributo alt delle immagini

I crawler leggono solo testo! Non "capiscono" le immagini, ma leggono il testo valore dell'attributo alt è importante associare all'attributo alt un testo significativo

all attributo alt un testo significativo

OK: <img src="barattolo-miele-castagno.jpg" alt="barattolo da 250 gr di miele biologico di castagno">

• nel contenuto vero e proprio (testuale)

Descrivete chi siete, cosa fate, come lo fate, ... utilizzando testi che contengano parole chiave significative (piuttosto che...

"evocative"!)

(21)

Motori di ricerca e SEO: linee guida - VI

• in alcuni meta-tag (nell'intestazione  <head>  della pagina) a) description: breve descrizione (indicativamente, un breve

paragrafo, 150-200 caratteri...) del contenuto della pagina OK:< t "d i ti " t t "D i i d l OK: <meta name="description" content="Descrizione del nostro processo di produzione del miele biologico:

posizionamento delle arnie, estrazione dei melari, smielatura, filtraggio, decantazione, schiumatura, invasettamento e stoccaggio. Elenco delle

certificazioni bio ottenute.">

 il contenuto del meta-tag description deve essere informativo e coerente con il contenuto della pagina

a.a. 2017/18 Tecnologie Web 41

 non ripetere la stessa descrizione in molte pagine

 non inserire nella descrizione una copia dell'intera pagina

Motori di ricerca e SEO: linee guida - VII

b) keywords: elenco di parole-chiave che rappresentano il contenuto della pagina

OK: <meta name="keywords" content="miele, miele biologico, produzione miele biologico, venaus,

ifi i i bi

certificazioni bio">

 è spesso ignorato dai motori di ricerca (come conseguenza di molti usi impropri), quindi è spesso inutile e, secondo alcuni, sarebbe addirittura meglio non utilizzarlo...

 se lo si usa, elecare keyword significative e coerenti con il contenuto della pagina

meglio non ripetere esattamente le stesse keyword in

 meglio non ripetere esattamente le stesse keyword in molte pagine

(22)

Motori di ricerca e SEO: linee guida - VIII

(3) Guadagnare "reputazione" (autorevolezza)

• La determinazione di "reputazione" (autorevolezza) di un sito (app/servizio) è un calcolo complesso che combina molti fattori (e, spesso, i proprietari dei motori di ricerca non ( p p p svelano gli algoritmi di calcolo della reputazione!)

• Alcuni aspetti che influenzano la reputazione/autorevolezza : – la qualità del sito stesso e dei suoi contenuti [vedi slide

successive]

– il numero e la qualità dei collegamenti che il sito ottiene da pagine di altri siti (backlink) > link "in ingresso"

l t i d i iti i il it ti

a.a. 2017/18 Tecnologie Web 43

– la reputazione dei siti verso cui il sito contiene collegamenti ipertestuali > link "in uscita"

– i click degli utenti sui link al sito delle SERP – l'uso di HTTPS

– il livello della user experience

Motori di ricerca e SEO: linee guida - IX

Attenzione però...

• non basta "ricevere" molti link da altri siti, occorre anche (soprattutto) che tali link siano pertinenti e di qualità

 cercare di ottenere backlink da siti con buona reputazione e p che trattano argomenti affini (es: per Apesusa, un backlink da un sito autorevole che parla di agricoltura biologica vale molto di più di un backlink da un sito – magari altrettanto autorevole – che parla di automobili)

 il miglior modo per ottenere backlink da siti affini (e, sperabilmente, autorevoli) è quello di offrire contenuti utili, interessanti e di qualità (i link saranno... "spontanei")

• evitare di acquistare link da altri siti o di far parte di accordi

• evitare di acquistare link da altri siti o di far parte di accordi per lo scambio dei link fra siti (i motori di ricerca sono

diventati abili nello scoprire tentativi di ingannarli come questi)

• evitare di costruire "siti satelliti" al solo scopo di contenere link al sito che si vuole promuovere (idem)

(23)

Motori di ricerca e SEO: linee guida - X

• evitare di inserire link a siti con bassa reputazione: un sito che contenga link o backlink a/da siti con bassa reputazione può veder ridotta la propria reputazione

• A volte, è inevitabile l'inserimento di link a siti con bassa reputazione (per es. in un blog dove gli utenti possono postare commenti, un utente  malintenzionato o meno  può postare un

commento che contiene link a siti con bassa reputazione  magari per fare un esempio negativo)... Che fare?

Assegnare valore nofollow all'attributo rel del link, es:

<a href="http://www.gran-balle.org" rel="nofollow">Gran Balle</a> è un sito pieno di menzogne</p>

i t i di i ( id

a.a. 2017/18 Tecnologie Web 45

 i motori di ricerca non seguono (o non considerano come un voto positivo per sito target) i link con rel ="nofollow"

NB Questo meccanismo è utile anche se si vuole evitare di

"regalare", con un link, un po' di reputazione ad un altro sito (verso cui comunque si vuole inserire un link)

Motori di ricerca e SEO: linee guida - XI

Ma come faccio a sapere che reputazione ha un sito?

• fare un'analisi con semrush.com

• usare la funzione site: di Google: se il sito non è il primo

(24)

Motori di ricerca e SEO: linee guida - XII

Ma la migliore strategia per il SEO (per guadagnare reputazione/

autorevolezza) è scrivere pagine "pulite"! Es:

• rispettare la sintassi (X)HTML

• mantenere separato tutto ciò che riguarda l'aspetto da p g p

contenuto e struttura logica della pagina (usare i CSS esterni!)

• usare correttamente gli elementi <h1>,<h2>, ...; per es:

– non ripetere il tag <h1> in una stessa pagina – non usarli per ottenere del testo enfatizzato – annidarli correttamente:

<h1>Miele e prodotti biologici</h1>

<h2>Le nostre varietà di miele</h2>

bl bl / OK

a.a. 2017/18 Tecnologie Web 47

<p>bla bla... </p>

<h2>I nostri prodotti biologici</h2>

<p>bla bla... </p>

<h2>Miele e prodotti biologici</h2>

<h1>Le nostre varietà di miele</h1>

<p>bla bla... </p>

<h2>I nostri prodotti biologici</h2>

<p>bla bla... </p>

OK

NO

Motori di ricerca e SEO: linee guida - XIII

• evitare (il più possibile) link che richiedono di cliccare su un'immagine: meglio i link testuali; se si utilizza

un'immagine, scrivere testo significativo nell'attributo alt li di NO

stampa

• non usare un'immagine per visualizzare un testo; es:

<img src="titolo.jpg">

<h1>Catalogo</h1>OK NO meglio di NO...

OK

• evitare l'uso dei frame (ormai obsoleti)

(25)

Motori di ricerca e SEO: linee guida - XIV

Anche la struttura del sito può influenzare il SEO...

1. Navigazione

– creare una struttura di navigazione razionale e semplice – definire (link) tra pagine del sito che siano effettivamente ( ) p g

correlate

– consentire una navigazione gerarchica (dai contenuti più generali a quelli più specifici)

– evitare strutture eccessivamente profonde (per es. che richiedano 20 click per raggiungere una pagina)

2. Sitemap

– costruire una mappa del sito con l'elenco strutturato degli URL

a.a. 2017/18 Tecnologie Web 49

pp g

delle pagine che lo compongono  molto importante!

3. Cartelle

– fra le cartelle e i file di un sito, possono essercene alcuni non rilevanti per i motori di ricerca, per es. le pagine di

amministrazione del sito

Motori di ricerca e SEO: linee guida - XV

 è opportuno segnalare ai crawler di NON visitare quei file o cartelle, inserendo nella cartella principale del sito il file di testo robots.txt con le indicazioni delle sezioni del sito a cui i crawler non dovrebbero accedere; i crawler, se trovano questo file nella cartella

i i l l l i tt (d bb tt ) ll

principale, lo leggono e si attengono (dovrebbero attenere) alle direttive che esso contiene

Per es, per indicare al crawler di Google di NON accedere alla cartella admin, nel file robots.txt possiamo scrivere:

"User-agent: googlebot Disallow: /admin/"

per dare questa indicazione a tutti i crawler:

"User-agent: * i ll / d i /"

Disallow: /admin/"

Attenzione! I crawler non sono obbligati a seguire le direttive del file robots.txt non usare (solo) questo file per bloccare l'accesso a materiale sensibile o riservato!

(26)

Motori di ricerca e SEO: linee guida - XVI

4. Immagini

– riservare (sul file system del server) una cartella per le immagini

– usare formati supportati dai browser comuni (es: JPEG, GIF, BMP, PNG)

5. Registrazione

– un tempo era importante registrare il sito presso i motori di ricerca: ora questo passaggio è ritenuto da molti irrilevante ai fini SEO... se lo si desidera, è comunque possibile farlo (seguendo le istruzioni riportate sui siti dei motori di ricerca) registrare il sito sui porali dedicati (es: Tripadvisor:

a.a. 2017/18 Tecnologie Web 51

– registrare il sito sui porali dedicati (es: Tripadvisor:

www.tripadvisor.com/GetListedNew, Booking.com: join.booking.com/, ecc.)

– creare una pagina sui social (es. Facebook, ecc.)

Motori di ricerca e SEO: linee guida - XVII

6. URL(non influisce molto sul posizionamento nelle SERP, ma la sua scelta è molto importante a fini di marketing/immagine/visibilità):

– meglio URL corti, facili da ricordare e da "indovinare"

OK: www.apesusa.com

NO: i l bi l i d tti d i ti

NO: www.miele-biologico-prodotti-derivati.com – meglio se nell'URL compare il nome dell'azienda

OK: www.apesusa.com, opp www.apesusa-scarl.com

– scegliere un dominio di primo livello attinente; es. x Apesusa:

OK .com, .it, eventualmente .biz NO .mil, .edu

NB è comunque opportuno registrare tutti principali domini di primo livello (anche quelli che non si intende usare) per evitare che qualcuno livello (anche quelli che non si intende usare), per evitare che qualcuno possa farlo con intenzioni "cattive"!

– ogni risorsa del sito (pagine, immagini, applicazioni, ...) è identificata da un URL: creare URL semplici e comprensibili = creare una struttura di cartelle sul server ben organizzata, non molto profonda e con nomi significativi

(27)

Motori di ricerca e SEO: linee guida - XIII

(4) Fornire informazioni "semantiche"

• Usare i tag "semantici" di HTML5

• Utilizzare schema.org (sistema di annotazione per le pagine web che consente di aggiungere descrizioni "machine

web che consente di aggiungere descrizioni machine

readable", cioè rivolte ai software, per es. ai motori di ricerca, che riescono così a "comprendere", in parte, il significato delle pagine web)  Esempio:

<div itemscope itemtype ="http://schema.org/Movie">

<h1 itemprop="name">Avatar</h1>

<div itemprop="director" itemscope

itemtype="http://schema.org/Person">

Di t < it " ">J C </ >

a.a. 2017/18 Tecnologie Web 53

Director: <span itemprop="name">James Cameron</span>

(born <span itemprop="birthDate">August 16, 1954</span>)

</div>

<span itemprop="genre">Science fiction</span>

<a href="../movies/avatar-trailer.html"

itemprop="trailer">Trailer</a>

</div>

Motori di ricerca e SEO: linee guida - XIX

Ma, alla fine... il contenuto è il fattore più importante (anche – e soprattutto – ai fini SEO)!!!

• scrivere testi corretti (anche grammaticalmente) escrivere testi corretti (anche grammaticalmente) e comprensibili

• offrire contenuto utile ed originale

• evitare di copiare o riarrangiare contenuti da altri siti (meglio mettere un link ai siti che si reputano autorevoli, anziché riproporne parti del contenuto)

it di t ti d li ti ll'i t d l it t

• evitare di avere contenuti duplicati all'interno del sito stesso

• creare pensando agli utenti

(28)

Riferimenti bibliografici

(oltre ai link segnalati nelle slide...)

• Andrea Sardo, Search Engine Optimization nel percorso evolutivo dei motori di ricerca e nel Web Semantico, Tesi di Laurea Spec. in Comunicaz. nella Società dell'Informaz., Univ. di Torino, a.a. 2007/08 [www.di.unito.it/~goy/materiale/1718/tesiSardo.pdf]

l i d f / l i di l d

> NB le parti da fare/saltare sono indicate nel documento

Inoltre...

 sul completamento automatico:

https://support.google.com/websearch/answer/106230?hl=it

 un articolo utile: Fabio Noce, Cercare su Google: conosciamo gli operatori di ricerca?, 2013

[blog.artera.it/curiosita-web/operatori-di-ricerca-google]

SEO G l G id i d i di G l ll' i i i

a.a. 2017/18 Tecnologie Web 55

 su SEO: Google, Guida introduttiva di Google all'ottimizzazione per motori di ricerca (SEO) [www.google.com/intl/it/webmasters/docs/

search-engine-optimization-starter-guide-it.pdf] > pagine 1-20

Riferimenti

Documenti correlati

cerca i siti indicizzati in cui compaiono tutte le parole chiave e che non contengono la parola da escludere. site:www.sito.it

 Sono relativi alle keyword ed alla loro posizione e peso all’interno della pagina.  Titolo

WORKERS' compensation -- Adjustment of claims 1 WORKERS' compensation -- Law &amp; legislation 1.

LA MONTAGNA DELLA MAIELLA NELLA LETTERATURA GEOLOGICA 5 2.1 La Maiella nel contesto geologico dell’Appennino centrale 5 2.2 La geologia della Maiella: una breve

CARTELLONE MURALE SULLA COMPRENSIONE DELLE PAROLE CHIAVE NELLA RISOLUZIONE.

L’uso dei connettori senza ago (needle less device) (variabile indipendente) riduce l’incidenza delle infezioni dei CVC (variabile dipendente) nei pazienti sottoposti a

I Un problema aggiuntivo consiste nel presentare i risultati della ricerca dando maggior risalto ai risultati pi` u rilevanti.. Architettura dei motori

 L’ordinamento delle pagine restituite si basa sul PageRank delle pagine che era