analisi sito web

Cos’è il Crawl Budget e come aumentarlo

Il Crawl Budget è il tempo, o anche l’energia, che Google decide di dedicare al tuo sito.

Questo indicatore, visibile all’interno di Google Search Console, è determinato da diversi fattori, come per esempio la velocità di caricamento delle pagine, la struttura delle cartelle e l’organizzazione dei link interni.

Ad ogni modo, il funzionamento del crawl budget, nonché il suo reale valore come “Fattore di Ranking” è oggetto di costante dibattito tra i SEO expert di mezzo mondo.

Anche se non è chiaro quanto influenzi il ranking, il crawl budget è molto importante, vediamo perché.

Ti sei mai chiesto come Google riesca a dare una risposta a tutte le tue domande?

Forse non te ne rendi conto ma in rete esistono miliardi di gigabyte di informazioni contenute all’interno di milioni e milioni di siti web, ciononostante, ogni volta che effettui una ricerca, raramente ti spingi oltre la prima pagina della SERP.

Sicuramente avrai sentito parlare degli algoritmi di Google ma per essere ancora più precisi, tecnicamente tutto questo processo di analisi avviene tramite i “Web crawler” (Googlebot), i software incaricati di scansionare la rete alla ricerca delle risposte migliori per te.

Questi software però non scansionano ogni sito, ogni giorno, nella sua interezza, ma dedicano ad ogni sito una determinata attenzione, o meglio un “Crawl Budget”.

In questo articolo:

Crawl Rate Limit (limite della velocità di scansione)

Il “Crawl Rate Limit” è uno dei primi concetti da comprendere quando si parla di Crawl Budget.

Si tratta di un parametro determinato dal numero di connessioni simultanee effettuate da Googlebot e dalla velocità del sito nel rispondere. In parole più semplici, il sito deve avere un server abbastanza potente, nonché una buona velocità di caricamento, per permettere a Googlebot l’analisi senza compromettere l’integrità e la velocità del sistema.

Se Googlebot percepisce un rallentamento del sito durante la scansione, tale da limitare l’esperienza degli utenti, limiterà il numero degli accessi.

Ti segnalo inoltre che il Crawl Rate Limit può essere impostato manualmente utilizzando Google Search Console.

Crawl Demand (domanda di scansione)

Il “Crawl demand” può essere definita come la “Domanda di scansione” del tuo sito da parte di Googlebot. Se il tuo sito non riceve richieste, vuol dire che per Google non è interessante.

In generale sono 2 i fattori che determinano il crawl demand:

  • La la popolarità dei contenuti del tuo sito (popularity)
  • La frequenza con cui vengono aggiornati i vecchi contenuti (staleness)

Questi 2 concetti vengono definiti da Gary Illyes come “Popularity” e “Staleness”.

Con il termine “Popolarità” si intendono contenuti nuovi, letti dagli utenti, condivisi e citati (backlink e link building), mentre con “Staleness” si intende principalmente quanto i contenuti siano aggiornati. Pagine con contenuti datati, non più realmente utili agli utenti, o addirittura con dei problemi tecnici (no responsive o codice obsoleto) tendono a diminuire il Crawl demand.

Devo anche segnalare che operazioni come una “Migrazione”, un nuovo template, o aggiornamenti tecnici globali e rilevanti possono portare a un aumento del crawl demand, in quanto Google deve reindirizzare i contenuti del tuo sito.

In conclusione, è possibile affermare che crawl rate e crawl demand determinano il numero di url che Google vuole e/o può scansionare.

Come analizzare il Crawl Budget (a Google piace il tuo sito?)

Adesso che dovresti aver capito, almeno in parte, che cos’è il crawl budget, sicuramente ti starai chiedendo “Come posso determinare il crawl budget del mio sito?”.

Lo strumento che devi utilizzare per verificare il crawl budget è Google search console, ti basterà cliccare su “Strumenti e rapporti precedenti” e poi su “Statistiche di scansione”. Una volta arrivato sulla pagina indicata, compariranno 3 grafici:

  • Pagine sottoposte a scansione giornalmente
  • Kilobyte scaricati giornalmente
  • Tempo trascorso per il download di una pagina (in millisecondi)

Ci tengo però a precisare che non esistono dei dati precisi, ovvero comunicati da Google, su come dovrebbero essere questi risultati. In generale, posso dire che questi dati vanno “Interpretati” a seconda del sito web che si sta analizzando.

Pagine sottoposte a scansione giornalmente

Un valore molto semplice da comprendere. In poche parole, si tratta del numero di pagine del tuo che ogni giorno Google scansiona: in genere più è alto e meglio è.

Se infatti il numero di pagine scansionate giornalmente è, per esempio 700, ma il tuo sito ha 1000 pagine, significa che ci sono almeno 300 pagine che Google ritiene “Non scansionabili”. In questi casi, una prima operazione da svolgere è aggiornare i contenuti più datati e verificare se search console segnala errori 404 o 404 soft.

Kilobyte scaricati giornalmente

I Kilobyte scaricati giornalmente sono un ottimo parametro per valutare la velocità del tuo sito web in relazione al peso medio delle pagine. Dividendo infatti il numero delle pagine scansione in un giorno, con il numero medio di kilobyte scaricati (sempre in un giorno), otterrai il “Peso medio” di una pagina del tuo sito.

Diminuendo il peso medio, in genere, aumenta il numero delle pagine sottoposte a scansione.

Tempo trascorso per il download di una pagina

Come avrai già certamente compreso, la “Velocità” è cruciale quando si parla di Crawlbudget. Il grafico “Tempo trascorso per il download di una pagina (in millisecondi)” mostra proprio il tempo medio che Googlebot impiega per scaricare la tua pagina. In genere questo parametro deve restare sotto il secondo per essere considerato “Buono”.

Anche in questo caso, si ritiene che più è basso e meglio è.

Come aumentare (o ottimizzare) il crawl budget

Punto cruciale di questa guida SEO è appunto “Come ottimizzare” e “Come aumentare il “Crawl budget”. Nonostante infatti il Crawl Budget, per il momento, non sia un fattore di ranking riconosciuto da Google, è senza dubbio una vera ossessione per molti SEO expert o proprietari di siti web.

Per questo riporto di seguito una serie di tecniche utilizzate abitualmente dai SEO expert per aumentare il Crawl Budget. Prima però mi permetto di dare il mio personale consiglio.

Prima di tutto: un sito veloce con contenuti di qualità e aggiornati

Ottimizzare il Crawl Budget è un’operazione che riguarda qualunque sito, piccolo o grande che sia, prima però di perderti dietro tecnicismi spesso inutili, concentrati sulle basi.

Per prima cosa ricordati di avere un sito “Veloce”: ti basterà consultare GT-metrix per capire a che punto sei. Ovviamente acquistare un servizio di hosting professionale e utilizzare programmi per la “Speed optimization” è fondamentale.

Contenuti di qualità, creati con una struttura semantica precisa, un giusto numero di parole parole di chiave e una strategia content marketing che non miri solo al “Clickbait”, sono fattori che, a parere mio, miglioreranno il Crawl Budget.

Un ultimo consiglio poi riguarda gli articoli più “Datati”, spesso divenuti obsoleti sia per Google che per gli utenti. Un aggiornamento periodico di tutti i contenuti del sito, specie quelli con un potenziale di traffico maggiore, ti permetteranno di non vedere ridotta la scansione del tuo sito da parte di googlebot.

Aumentare il numero dei backlink, attraverso una precisa e corretta strategia di link building, in genere porta a un aumento del budget di scansione da parte di googlebot.

Sitemap aggiornata e funzionante

Assicurati di avere una sitemap e che sia perfettamente funzionate. Avere problemi nella sitemap comporta, in genere, una riduzione del crawl budget.

I broken link, ovvero i link non funzionanti che rilasciano, in genere, un errore 404, sono un problema per il crawl budget. Questo tipo di url, infatti, vengono comunque scansionate senza però portare alcun vantaggio per il tuo sito.

Google Search Console in genere è in grado di individuare le pagine con errore 404 ma, in alternativa, puoi usare anche software a pagamento come, per esempio, Screaming Frog SEO Spider.

Nuovi contenuti: con che frequenza vengono pubblicati

Un parametro che, in genere, influisce sulla “Frequenza di scansionamento” è la frequenza con cui vengono pubblicati nuovi contenuti. Per esempio, nel caso tu abbia un blog o un sito di news, pubblicare 20 post al giorno di dovrebbe garantirti una frequenza di scansionamento maggiore rispetto a chi ne pubblica solo 10.

Vecchi contenuti: con che frequenza vengono aggiornati

Ho già parlato di questo punto ma è meglio ribadirlo. Un contenuto creato nel 2014, in genere, non è più attuale, pertanto tende a essere ignorato dagli utenti e da Google. In questo modo viene ridetto il tuo crawl budget.

Un dei consigli più frequenti che viene dato, è proprio quello di aggiornare periodicamente i propri contenuti stabilendo però una priorità.

PLT (Page Load Time)

Anche di questo ho già parlato ma ho preferito comunque ribadirne l’importanza. Un sito più veloce, in genere, permette di aumentare il crawl budget, in quanto googlebot impiega meno tempo per analizzarlo.

Ad ogni modo, la speed optimization non deve essere un’ossessione, ricordo infatti che siti molto visitati, in Italia e nel mondo, prevedono un tempo di caricamento superiore ai 12 secondo, a fronte di uno standard che dovrebbe essere al di sotto dei 3.

Il Crawl Budget è un fattore di ranking per la SEO?

La risposta è no, ufficialmente il crawl budget non è un fattore di ranking, almeno questo è quanto dichiarato non solo da Google, ma anche da importanti esperti come Gary Illyes.

Ciononostante, troverete moltissimi SEO expert convinti del contrario. Io posso dire che, pur non riconoscendolo come un fattore di ranking, è sicuramente un parametro la cui ottimizzazione porterà dei benefici al tuo sito.

Leggi anche “Il più importante fattore di Ranking | Guida SEO”.

Cosa influenza negativamente il crawl budget

Ci sono alcuni elementi, segnalati anche da Google, che influenzano negativamente il Crawl Budget.

Li presento di seguito.

I contenuti duplicati

I contenuti duplicati, sia del tuo sito che di altri, non sono in genere rilevanti a fini SEO, ma consumano comunque crawl budget. Pertanto si consiglia caldamente di evitarli (non solo per questo motivo).

Faceted navigation

Il tema del “Faceted navigation” è piuttosto complesso e andrò ad espletarlo meglio in un articolo dedicato. Qui però posso dirti che, come indicato da Google, l’utilizzo può influenzare negative il crawl budget, pertanto si consiglia di ottimizzarli seguendo le linee guida presenti nei forum ufficiali.

Se non hai ancora capito cosa sia la “Faceted navigation”, provo a spiegarlo in parole più semplici. Si parla della navigazione mediante “Filtri” tipica dei siti e-commerce, i cui risultati nelle ricerche vengono gestite mediante la creazione di link dinamici e l’utilizzo di immagini.

Purtroppo, quando si gestisce un sito e-commerce, gestire questo tipo di contenuto, come i filtri su taglia, colore e misura, è molto più complesso di quello che sembra.

Session identifiers

L’argomento “Session identifiers” è strettamente legato al “Faceted navigation”. Si tratta infatti dei parametri che spesso troviamo all’interno di url dinamiche che però vanno a creare contenuti duplicati.

Proprio la creazione di questi contenuti provoca uno “Spreco di risorse” da parte del googlebot.

404 Soft error pages

La presenza di questo tipo di errore comporta problemi alla scansione del sito. Le pagine che danno un risposta “Soft 404” vengono comunque scansionate, anche se non compariranno all’interno del motore di ricerca, impattando quindi negativamente sul crawl budget.

Le soft 404 sono in genere pagine con poco contenuto, prive di SEO e con contenuti obsoleti.

Attacco Haker

Parlo di questo elemento nella mia guida sull’Analisi SEO. L’attacco da parte di un haker è, a parer mio, molto sottovalutata dagli utenti:

  • Hai acquistato un servizio di anti-virus per il tuo server?
  • Fai scansionare periodicamente il suo dominio per verificare la presenza di virus e malware?
  • Utilizzi programmi o plugin anti-spam?

Sappi che se non utilizzi questi sistemi, potresti essere stato hakerato e non saperlo.

Ricordati inoltre che un sito la cui sicurezza è compromessa, può non essere più scantinato da Google.

Leggi anche “Come fare un’analisi SEO: la guida per principianti”.

Contenuti di bassa qualità e Spam

Concetto che ho già affrontato in altri paragrafi. Google ribadisce nelle sue linee guida che l’utilizzo di contenuti di bassa qualità, o “Spam” influisce negativamente sul crawl budget, come dimostrato dalla perdita di traffico di tanti siti che in passato usavano questa tecnica.

John Muller sul Crawl Budget

John Muller, una delle fonti più accreditate per quello che riguarda la SEO, in un articolo ha dichiarato che non non esiste un benchmark per il Crawl Budget.

There is No Benchmark for Crawl Budget

In poche parole non esiste un numero, neanche un rapporto, che possa in qualche modo definire “Standard” parametri come la scansione delle pagine di un sito o il crawl budget stesso.


Pubblicato

in

da