Di cosa parliamo
Che cos’è e come funziona l’indicizzazione di un sito web
L’ indicizzazione è il termine con cui ci si riferisce all‘inclusione di un sito web all’interno dell’indice di un motore di ricerca.
I motori di ricerca, infatti, includono milioni (miliardi!) di siti web in una sorta di enorme database in continuo aggiornamento ed espansione. Quando l’utente fa una ricerca online, i motori di ricercano estrapolano dall’indice i siti web più pertinenti. Ciò significa che quando parliamo di best practice SEO, un aspetto da considerare – e spesso trascurato in fase di Tech Audit – è lo stato di indicizzazione del tuo sito web prima ancora del suo reale posizionamento organico.
Infatti, se un sito web non è indicizzato ha praticamente possibilità nulle di comparire tra i risultati restituiti dal motore quando un utente effettua una ricerca online.
Come controllare se il tuo sito web compare sui motori di ricerca?
Google, così come gli altri motori di ricerca, offre alcuni strumenti e funzioni nativi per capire se il sito web è stato o meno incluso nel loro indice. Il più utile e completo è la Google Search Console. Esiste un corrispettivo per gli altri motori di ricerca. Per esempio Bing Webmaster Tools. Le due suite offrono opzioni simili.
Strumento controllo URl di Google Search Console
Condizione necessaria per accedere ai servizi di controllo dell’indicizzazione offerti da Google, è che la Search Console sia stata correttamente agganciata al tuo sito web. Per conoscere la procedura leggi questa guida.
Una volta all’interno della Search Console, potrai utilizzare lo strumento controllo URl.
Inserisci l’URl che desideri controllare nella tab di ricerca. La piattaforma restituirà informazioni esatte sullo stato di indicizzazione della singola risorsa e in particolare:
- se è indicizzata o meno;
- quale versione del URl è indicizzata;
- se sono presenti problemi di scansione o blocchi che possano impedire l’accesso del crawler alla scansione della risorsa;
- se e quali altre risorse del tuo sito web sono collegate ad essa.
Questo controllo consente di effettuare il check soltanto su un URl per volta.
Site:
Se invece hai bisogno di sapere se, per esempio, un sito pubblicato da pochi mesi è stato correttamente incluso nell’indice di Google, puoi utilizzare il comando site:
Su Google, fai una ricerca per site:nometuodominio. Il motore restituirà il numero di pagina presenti nell’indice, in alto a sinistra sopra il primo SNIPPET.
Questo comando è utile anche per capire se in SERP sono presenti risorse del sito che non dovrebbero essere indicizzate. Per esempio lo staging, cioè l’ambiente di test, oppure le pagine di servizio negli e-commerce, come My Account, Login, Carrello e simili.
Tool a pagamento
Infine, esistono diversi strumenti a pagamento in grado di fornire informazioni dettagliate sullo stato di indicizzazione dei singoli URl. Il più completo è Screaming Frog, gratuito fino a 500 URl per scansione.
Screaming Frog dedica un interno report all’indicizzazione riportandone lo status URl per URl ed evidenziando eventuali problematiche che potrebbero impedire a una o più risorse di essere incluse nell’indice dei motori di ricerca.
Prima di avviare una scansione completa del tuo sito web con Screaming Frog, ricorda di configurare le impostazioni di scansione. Se, per esempio, desideri analizzare soltanto lo stato di indicizzazione delle immagini in Google Immagini, spunta soltanto la casella relative a questo elemento. Se invece vuoi includere nella scansione eventuali sottodomini, ricorda di includerli spuntando la casella corrispondente.
E se il tuo sito non compare sui motori di ricerca? Ecco un elenco di problemi di indicizzazione comuni su cui effettuare un controllo e gli interventi suggeriti.
Problemi di indicizzazione comuni: una checklist
Search Console dedica all’indicizzazione un intero report. Il rapporto Indice offre una panoramica sullo stato di indicizzazione riportando il numero di risorse totali indicizzate e il numero di risorse non indicizzate. Il report completo è molto utile per capire quali sono le risorse non incluse nell’indice e le specifiche motivazioni. Attenzione però: alcune segnalazioni sono semplici alert, non errori reali.
1) Tempistiche di pubblicazione
Uno dei motivi più comuni per cui un sito web non è presente nell’indice dei motori di ricerca è la sua giovane età: è necessario attendere un po’ di tempo per vedere il tuo sito web in SERP, ammesso che tutto, dal punto di vista tecnico, sia stato impostato correttamente (vedi i punti successivi).
2) Blocco dell’accesso ai crawler
Un altro problema di indicizzazione comune è il blocco dell’accesso ai crawler. In WordPress, per esempio, si tratta di una banale spunta all’interno di Impostazioni > Lettura > Scoraggia i motori di ricerca dall’indicizzazione di questo sito.
Se la spunta è attiva, il sito web non potrà essere scansionato e quindi indicizzato. Questa impostazione è utile in fase di staging, cioè quando si lavora in un ambiente di test. Se per esempio, stai affrontando un restyling o una migrazione SEO del tuo sito WordPress verso una nuova versione del sito web sullo stesso CMS, o verso un nuovo dominio o verso un altro CMS, attenzione a questa spunta. Verifica che la spunta NON sia presente dopo il passaggio al nuovo sito web.
WordPress come altri CMS offre questa opzione. La stessa impostazione può essere applicata su siti custom.
3) Invio della Sitemap
Tramite Search Console è possibile inviare a Google la sitemap XML del tuo sito web.
La sitemap include tutti gli URl che desideri indicizzare. Attenzione quindi a includere soltanto gli URl che vorresti mostrare agli utenti. L’invio della sitemap è utile per aiutare il crawler a scoprire gli URl del tuo sito web e come sono interconnessi tra di loro.
Se la sitemap non è stata inviata, il crawler scoprirà più lentamente gli URl.
Se è stata inviata e contiene risorse non utili in SERP, potresti ricevere traffico organico su pagine che né gli utenti né i motori di ricerca dovrebbero vedere.
Se è stata inviata e contiene errori, allora è necessario verificare caso per caso quali sono gli errori segnalati. Puoi farlo tramite Search Console > Sitemap in cui sarnano riportati gli eventuali errori.
4) .htaccess
Il file .htaccess è un file presente su tutti i siti web, editabile, a cui puoi accedere dal backend del sito web (non via CMS ma via database).
Si tratta di un documento che consente di svolgere diverse azioni che diversamente potrebbero essere svolte in alcuni casi dai plugin. I plugin però appesantiscono il sito web, le performance ne risentono e tutto questo potrebbe avere un impatto sul rendimento del sito. Tramite .htaccess è possibile: impostare redirect 1to1 o massivi, impostare la versione canonica del sito web; impostare la lingua di default mostrata all’utente; indicare le modalità di caricamento delle singole risorse sul sito web per ottimizzarne le performance e molto altro.
Un errore all’interno del file .htaccess può letteralmente “sbatterti fuori” dal tuo sito ma anche impedirne l’accesso ai crawler e quindi l’indicizzazione. Consigliamo di testare il file in ambiente di staging verificando che tutto funzioni correttamente e che non si presentino conflitti.
5) Robots.txt
Anche il file robots.txt è presente su tutti i siti web e serve per fornire istruzioni di accesso / blocco ad alcune specifiche risorse del sito web. Normalmente questo è il primo luogo in cui cercare eventuali istruzioni di Disallow: (cioè di blocco) che potrebbero impedire l’accesso alla scansione di specifici URl o sezioni del sito web.
L’istruzione User-agent: * Disallow: / per esempio, esclude tutto il sito web dalla scansione. Se presente, deve essere eliminata.
L’istruzione User-agent: * Disallow: /portfolio/ invece, esclude dalla scansione soltanto i contenuti nella cartella Portfolio.
Il file robots.txt non è sufficiente a impedire ai crawler di accedere a una certa risorsa ma ha un impatto importante.
Un comando simile può trovarsi non nel file robots.txt bensì all’interno del codice sorgente (ed è molto più difficile individuarlo).
Puoi fare un controllo così: Visita il sito web > Tasto destro del mouse > Visualizzazione sorgente pagina > cerca il termine “noindex”
Se ti imbatterai in una stringa di tipo <meta name=“robots” content=“noindex”> allora il sito web non potrà essere indicizzato.
Questi sono i problemi di indicizzazione più comuni ma ne esistono molti altri dovuti ad aspetti tecnici più complessi. Hai bisogno di supporto? Contatta Quindo, Agenzia SEO.