Crawl Budget: Come Ottimizzarlo per Siti di Grandi Dimensioni

Il crawl budget è il numero di pagine che Googlebot è disposto a scansionare sul tuo sito in un dato periodo. Non è infinito: Google distribuisce le sue risorse tra miliardi di siti web, e decide quanto “tempo” dedicare a ciascuno in base all’autorevolezza, alla velocità del server e alla domanda di scansione. Per il 90% dei siti il crawl budget non è mai un problema: Google riesce a crawlare tutto senza fatica. Per il restante 10% — siti con decine di migliaia di pagine o più — diventa il fattore tecnico SEO più importante.

Indice contenuti:

Questa guida spiega quando il crawl budget conta davvero, come analizzare cosa Googlebot sta scansionando, e come ottimizzarlo senza sprecarlo su URL inutili.

Quando il crawl budget è un problema (e quando non lo è)

Non è un problema se:

Il tuo sito ha meno di 10.000 URL
Le nuove pagine vengono indicizzate entro 1-3 giorni
In Search Console non vedi problemi di “Rilevata, ma non attualmente indicizzata”

Potrebbe essere un problema se:

Il tuo sito ha più di 50.000 URL
Hai URL generate dinamicamente (filtri, parametri, varianti prodotto)
Noti che nuove pagine tardano molto a essere indicizzate
Vedi in Search Console molte pagine “Rilevate, ma non attualmente indicizzate”

È sicuramente un problema se:

E-commerce con 100.000+ SKU e combinazioni filtro
Portali con milioni di URL generate automaticamente
Siti con layered navigation non gestita
News site con nuovi contenuti quotidiani

Se il tuo sito non rientra in queste categorie, quello che cambierà il tuo ranking non è l’ottimizzazione del crawl budget: sono i contenuti e i link.

I due componenti del crawl budget

Google definisce il crawl budget come somma di due fattori:

Crawl rate limit (capacità di scansione): Quante richieste al secondo Googlebot può fare al tuo server senza sovraccaricarlo. Determinato da:

Velocità di risposta del tuo server
Errori 5xx che emergono durante la scansione
Configurazione in Search Console (puoi limitare manualmente il rate)

Crawl demand (domanda di scansione): Quanto Google desidera scansionare il tuo sito. Determinato da:

Popolarità del sito (pagine con più link/traffico vengono scansionate più spesso)
Freshness: pagine che cambiano spesso vengono visitate più spesso
Autorità del dominio

Un sito veloce (alta capacità) ma con contenuti statici e poco popolari (bassa domanda) avrà crawl limitato. Un sito lento ma molto popolare riceverà comunque visite ma potrebbe far arrancare il server.

Come sapere cosa Googlebot sta crawlando

Due fonti, entrambe necessarie:

Google Search Console

Impostazioni → Statistiche di scansione:

Totale richieste di scansione nel tempo: se cala improvvisamente, potenziale problema
Numero medio di richieste/giorno: ti dice quanto Google sta “spendendo” su di te
Risposta principale: dovrebbe essere 200 OK per la maggioranza
Tempo medio di risposta: sopra 1 secondo è segnale di problema server-side
Per scopo: differenza tra “Aggiornamento” (recrawl di pagine note) e “Rilevamento” (scoperta di nuove)

Report di diagnosi veloce: se hai 50.000 URL ma Search Console dice che Google ne scansiona 2.000/giorno, servono 25 giorni per scansionare tutto il sito. Crawl budget stretto.

Log del server

La fonte più completa. Ogni richiesta al server viene loggata. Filtrare per User-Agent Googlebot ti dice esattamente quali URL Google sta crawlando.

Pattern da cercare nei log:

URL con parametri che Googlebot crawla ripetutamente → spreco
Redirect chain (richieste 301 che portano ad altri 301) → spreco
URL 404 che Googlebot continua a richiedere → spreco
Errori 5xx sotto Googlebot → problema server
URL di staging, admin, test crawlati → blocco necessario

Tool per analisi log:

Screaming Frog Log File Analyzer (commerciale): importi i log del server, ottieni report SEO-focused
Splunk, ELK stack: per chi ha già questi strumenti
Query manuali con grep/awk: per analisi spot

Strategie di ottimizzazione in ordine di impatto

1. Eliminare URL inutili dal crawl

Il primo e più importante intervento. Se Googlebot spende il 70% del budget su URL che non dovrebbero essere crawlate, liberare quel budget è il guadagno maggiore.

Candidati tipici da escludere:

URL con parametri di ordinamento, paginazione, filtri non strategici
Pagine di ricerca interna (/?s=)
Admin, login, aree riservate
Versioni per stampa, PDF duplicati di HTML
URL generate da tracking (UTM, etc.)

Come:

robots.txt per URL che Googlebot non deve scaricare
Rimuovere i link interni verso queste URL (il modo più efficace: se non le trova, non le crawla)
Meta noindex + canonical per URL che già conosce (col tempo il crawl rallenta)

2. Sitemap XML pulita

Una sitemap contenente 100k URL di cui 30k sono 404 o noindex confonde Google. Deve contenere solo URL canoniche, 200 OK, indicizzabili.

Per siti grandi: partizionare in più sitemap per tipo di contenuto (sitemap-prodotti, sitemap-categorie, sitemap-articoli) tramite sitemap index. Aiuta a identificare velocemente dove ci sono problemi.

3. Server performance

TTFB sotto 200ms è il target. Sopra i 500ms Google rallenta deliberatamente il crawl per non sovraccaricare il server. Su siti grandi, investire in:

Caching (server-side + CDN)
Database ottimizzato (indici, query plan)
Hosting adeguato al volume

4. Struttura dei link interni

Le pagine più profondamente annidate (6+ clic dalla home) vengono crawlate raramente. Ristrutturare l’internal linking in modo che tutte le pagine importanti siano raggiungibili in 3-4 clic dalla home aiuta sia l’utente sia il crawl budget.

Strumento pratico: Screaming Frog > report “Crawl Depth”. Se hai pagine importanti a depth > 5, considera di rivedere navigazione e link interni.

5. Gestione del codice di risposta

Googlebot interpreta i codici HTTP:

200: normale, risorse spese per scaricare la pagina
301: seguito ma costoso in catene
404: segnalato, crawl frequenza cala nel tempo per quella URL
410: “gone”, segnale più forte di 404, Google rimuove più velocemente
503: “servizio non disponibile temporaneamente”, Google ritenta più tardi senza penalizzare

Uso strategico del 410: per pagine definitivamente rimosse (prodotti esauriti per sempre, contenuti obsoleti), 410 è più pulito di 404 o 301 alla home.

Uso del 503: in caso di manutenzione, restituire 503 con header Retry-After evita che Google indicizzi pagine di errore.

6. Gestione dei parametri URL

Vedi la guida dedicata. Ogni combinazione di parametri è una URL diversa per Google: senza gestione, 1000 prodotti × 5 filtri possono generare milioni di URL potenzialmente crawlabili.

Come migliorare il crawl budget: cosa NON funziona

Alcune tattiche popolari che non aiutano o sono controproducenti:

1. “Ping” della sitemap. L’endpoint google.com/ping?sitemap=... è stato dismesso a giugno 2023. Non funziona più. Invia via Search Console.

2. Direttiva crawl-delay nel robots.txt. Non supportata da Googlebot. Supportata da Bingbot e qualche altro crawler, ma non cambia il comportamento di Google.

3. Richiedere indicizzazione manualmente per ogni URL. Il Controllo URL in Search Console ha limite giornaliero (~10 richieste). Su siti con molti URL nuovi, non scala. Meglio assicurarsi che sitemap e link interni facciano il lavoro.

4. Creare pagine “hub” di link per tutte le URL. Una pagina con 500 link interni verso URL profonde viene interpretata come spam. La navigazione deve essere naturale.

5. Concentrarsi solo sul crawl budget. Se hai problemi di ranking, quasi mai la causa è il crawl budget. Sono i contenuti o i link. Il crawl budget è un problema di efficienza tecnica su siti grandi, non un fattore di ranking diretto.

Un flusso di audit per siti grandi

Procedura che uso tipicamente:

Step 1: Estrazione log server degli ultimi 30 giorni, filtro User-Agent Googlebot.

Step 2: Aggregazione per URL: quante volte Google ha richiesto ogni URL, quale status code ha ottenuto.

Step 3: Analisi top 100 URL più richieste: sono le pagine importanti o URL inutili?

Step 4: Analisi URL richieste con 404 e 301: quante sono, qual è l’impatto sul totale?

Step 5: Cross-check con sitemap: le URL in sitemap vengono effettivamente crawlate? Quelle che non sono in sitemap ma vengono crawlate, vanno bloccate o aggiunte?

Step 6: Diagnosi e piano: blocchi robots.txt per pattern inutili, pulizia sitemap, eliminazione link interni verso URL inutili, fix redirect chain.

Step 7: Re-audit dopo 4-6 settimane per verificare i cambiamenti.

Takeaway

Il crawl budget è un problema reale solo per siti grandi (oltre 10-50k URL) o molto dinamici
Il primo intervento ad alto impatto è togliere URL inutili dal crawl, non aggiungere nuove ottimizzazioni
La sitemap XML deve essere pulita: solo canonical, 200 OK, indicizzabili
I log server sono la fonte più completa per capire cosa Googlebot sta davvero facendo sul tuo sito
crawl-delay in robots.txt è ignorato da Google; il ping della sitemap è deprecato dal 2023
Prima di ottimizzare il crawl budget, verifica che sia davvero il tuo problema: spesso la causa del calo di traffico è altrove