Crawl Budget e siti di grandi dimensioni

Il crawl budget o budget di scansione è l’insieme di risorse e di tempo che Google dedica alla scansione di un sito web.

Rendere un sito web accessibile al crawler, o almeno tutte le risorse e le sezioni che vorresti fossero mostrate nei risultati di ricerca, è il requisito fondamentale perché un sito web possa essere indicizzato. La scansione del sito web, infatti, è lo step che precede l’indicizzazione.

Attenzione però. Non sempre tutte le risorse sottoposte a scansione da parte dei bot Google saranno indicizzate. 

La selezione delle risorse da mostrare in SERP si basa su molti criteri qualitativi e quantitativi. 

Durante Google I/O 2021 sono stati elencati alcuni fattori che potrebbero determinare la decisione di Google di indicizzare i contenuti scansionati. Tra questi:

  • il modo in cui le risorse di un sito sono collegate tra di loro da link interni;
  • i dati strutturati, cioè le porzioni di codice inserite nel HTML della pagina, possibilmente in formato JSON-LD, con cui arricchire di informazioni correlate ciascuna tipologia di contenuto (es. ricetta, video, pagina contatti, scheda prodotto e-commerce ecc.);
  • Il protocollo utilizzato, meglio se HTTP/2 e obbligatoriamente con certificato di sicurezza attivo. HTTP/2 rende più efficiente il crawling, impegnando il minor numero di risorse.

In linea generale, è bene sapere che, prima o poi, tutti i siti web accessibili saranno sottoposti a scansione. Con questa procedura, infatti, Google punta a mantenere sempre aggiornato l’indice delle risorse così da offrire all’utente la migliore esperienza di ricerca possibile. 

Per questo motivo, Googlebot scansiona quotidianamente migliaia di risorse, dai piccoli siti web a quelli di grandi dimensioni, dai nuovi url appena pubblicati a quelli con una certa storicità.

I siti web di grandi dimensioni e soggetti ad aggiornamenti continui richiedono scansioni frequenti. Ciò significa che Google dovrà allocare quotidianamente una parte del suo prezioso crawl budget nella scansione del tuo sito. Attenzione a non sprecarlo!

Per siti web di grandi dimensioni Google intende tutti i portali con oltre un milione di pagine uniche, i cui contenuti sono aggiornati almeno una volta a settimana, oppure i siti di medie o grandi dimensioni con oltre 10.000 pagine uniche e contenuti che cambiano ogni giorno. In questa casistica rientrano i grandi e-commerce, per esempio, oppure piattaforme di shopping online come Amazon.

Un sito web di piccole dimensioni invece, ha un numero ridotto di pagine uniche oppure viene aggiornato di rado, per esempio un blog aziendale su cui si pubblicano due news al mese, oppure un sito corporate vetrina. Google non ignora questi siti web. Semplicemente, premia la qualità. Quindi, anche i siti di piccole dimensioni possono essere sottoposti a scansioni frequenti.

Le risorse presenti online sono infinite ma il tempo che Googlebot può dedicare alla scansione di ciascun sito è limitato. Sarebbe impensabile per Google, esplorare ogni giorno tutti gli url presenti in rete.

Dunque, Google ha un crawl budget finito e deve quotidianamente decidere su quali risorse del web allocarlo assegnando delle priorità alle risorse, in modo da ottimizzarne l’impiego.

La scansione, infatti, deve essere un processo performante e agile e non deve sovraccaricare i server su cui si trova ciascun sito web. Spesso però, i siti web presentano criticità tecniche che possono avere un impatto negativo sul crawling.

Accessibilità delle risorse, tempi di risposta del server, velocità di caricamento delle pagine sono alcuni dei fattori che, se non gestiti correttamente, potrebbero ridurre o impedire la corretta scansione di un sito web.

Attenzione quindi a fare in modo che il crawl budget non vada sprecato, ma che venga investito invece nella scansione delle risorse principali del sito ovvero quelle più importanti per il posizionamento organico del sito web.

Ecco una checklist di elementi da verificare per essere certi che il tuo sito web sia realmente accessibile al crawler.

  • Renderizzazione delle pagine e risorse bloccanti. Verifica se le risorse sono correttamente visibili al motore o se ci sono delle porzioni di codice che ne impediscono il rendering. Ricorda che Google legge il codice delle tue pagine, non quello che un qualsiasi utente visualizza da front end.  
  • Istruzioni di disallow nel robots.txt. Verifica se nel tuo robots.txt sono presenti istruzioni di Disallow: per url o cartelle che invece vorresti vedere in SERP. Il Disallow: si utilizza per indicare al bot quali risorse sono inaccessibili e non scansionabili. 
  • Risorse duplicate: accertati di aver pubblicato risorse univoche. Verifica se, per esempio, due o più pagine del tuo sito presentano contenuti uguali pur avendo url diversi. In caso affermativo, elimina le risorse non necessarie, accorpa i contenuti simili in un unico contenuto più dettagliato e definisci un criterio per comunicare a Google qual è la risorsa per te più importante (canonical) e che vorresti vedere in SERP. Indica invece con un tag noindex tutte le risorse che il bot può anche ignorare durante la scansione. 
  • Codice di risposta 4xx ed errori di scansione: verifica se le risorse non più presenti sul sito restituiscono un codice 404 (la risorsa non c’è più) o 410 (la risorsa è stata eliminata definitivamente). I codici di stato di tipo 4xx indicano al bot che le risorse non esistono più e che quindi non deve più sprecare crawl budget per la loro scansione. Ricorda di impostare sempre un redirect 301 o 302 delle pagine in 404 verso risorse attive e pertinenti.
  • Sitemap: verifica se le risorse presenti in sitemap corrispondono alle risorse che vorresti fossero scansionate dal bot. Escludi dalla sitemap risorse non necessarie, per esempio le pagine del template, oppure risorse potenzialmente duplicate, per esempio gli url di paginazione. 
  • Velocità e performance: monitora e migliora i parametri da cui dipende l’efficienza della scansione, in particolare la velocità di caricamento di una risorsa, per esempio bloccando la scansione di risorse non necessarie al bot per comprendere il contenuto della pagina (icone, immagini decorativi, paratesto), evitando lunghe catene di reindirizzamento (A > B > C invece di A > C e B > C) e migliorando le prestazioni del server.

Il report Statistiche di Scansione di Google Search Console è ricco di informazioni utili per comprendere in che modo il crawler sta investendo il suo budget sul tuo sito.

Report Statistiche di Scansione Google Search Console.
Report Statistiche di Scansione Google Search Console.

In particolare:

  • Data dell’ultimo passaggio del bot ( dell’ultima scansione). In alto a destra.
  • Numero di richieste di scansione totali, cioè di risorse analizzate. 
  • Dimensioni totali download, cioè il peso delle risorse scansionate.
  • Tempo medio di risposta, cioè il tempo medio di risposta del server quando il bot richiede una scansione.
  • Stato dell’host, cioè gli eventuali errori server rilevati nell’ultimo mese.
Report Richieste di Scansione Google Search Console.
Report Richieste di Scansione Google Search Console.

Nella seconda parte del report, Search Console fornisce dettagli sulle richieste di scansione, suddividendo le risposte in cluster

  • codice di stato restituito (4xx, 3xx, 2xx, 5xx);
  • tipo di file (HTML, CSS, JavaScript ecc.);
  • finalità (aggiornamento o primo rilevamento di un url);
  • tipo di bot (per dispositivo, per risorsa ecc.).

Per verificare questi e altri aspetti tecnici relativi allo stato di salute del tuo sito web analizza i dati restituiti dai report “Copertura” e “Statistiche di scansione” di Google Search Console.  

Risorse utili by Google

Fissa un appuntamento