Il crawl budget è il numero di pagine che Googlebot è disposto a scansionare sul tuo sito in un dato periodo. Non è infinito: Google distribuisce le sue risorse tra miliardi di siti web, e decide quanto “tempo” dedicare a ciascuno in base all’autorevolezza, alla velocità del server e alla domanda di scansione. Per il 90% dei siti il crawl budget non è mai un problema: Google riesce a crawlare tutto senza fatica. Per il restante 10% — siti con decine di migliaia di pagine o più — diventa il fattore tecnico SEO più importante.

Questa guida spiega quando il crawl budget conta davvero, come analizzare cosa Googlebot sta scansionando, e come ottimizzarlo senza sprecarlo su URL inutili.

Quando il crawl budget è un problema (e quando non lo è)

Non è un problema se:

  • Il tuo sito ha meno di 10.000 URL
  • Le nuove pagine vengono indicizzate entro 1-3 giorni
  • In Search Console non vedi problemi di “Rilevata, ma non attualmente indicizzata”

Potrebbe essere un problema se:

  • Il tuo sito ha più di 50.000 URL
  • Hai URL generate dinamicamente (filtri, parametri, varianti prodotto)
  • Noti che nuove pagine tardano molto a essere indicizzate
  • Vedi in Search Console molte pagine “Rilevate, ma non attualmente indicizzate”

È sicuramente un problema se:

  • E-commerce con 100.000+ SKU e combinazioni filtro
  • Portali con milioni di URL generate automaticamente
  • Siti con layered navigation non gestita
  • News site con nuovi contenuti quotidiani

Se il tuo sito non rientra in queste categorie, quello che cambierà il tuo ranking non è l’ottimizzazione del crawl budget: sono i contenuti e i link.

I due componenti del crawl budget

Google definisce il crawl budget come somma di due fattori:

Crawl rate limit (capacità di scansione): Quante richieste al secondo Googlebot può fare al tuo server senza sovraccaricarlo. Determinato da:

  • Velocità di risposta del tuo server
  • Errori 5xx che emergono durante la scansione
  • Configurazione in Search Console (puoi limitare manualmente il rate)

Crawl demand (domanda di scansione): Quanto Google desidera scansionare il tuo sito. Determinato da:

  • Popolarità del sito (pagine con più link/traffico vengono scansionate più spesso)
  • Freshness: pagine che cambiano spesso vengono visitate più spesso
  • Autorità del dominio

Un sito veloce (alta capacità) ma con contenuti statici e poco popolari (bassa domanda) avrà crawl limitato. Un sito lento ma molto popolare riceverà comunque visite ma potrebbe far arrancare il server.

Come sapere cosa Googlebot sta crawlando

Due fonti, entrambe necessarie:

Google Search Console

Impostazioni → Statistiche di scansione:

  • Totale richieste di scansione nel tempo: se cala improvvisamente, potenziale problema
  • Numero medio di richieste/giorno: ti dice quanto Google sta “spendendo” su di te
  • Risposta principale: dovrebbe essere 200 OK per la maggioranza
  • Tempo medio di risposta: sopra 1 secondo è segnale di problema server-side
  • Per scopo: differenza tra “Aggiornamento” (recrawl di pagine note) e “Rilevamento” (scoperta di nuove)

Report di diagnosi veloce: se hai 50.000 URL ma Search Console dice che Google ne scansiona 2.000/giorno, servono 25 giorni per scansionare tutto il sito. Crawl budget stretto.

Log del server

La fonte più completa. Ogni richiesta al server viene loggata. Filtrare per User-Agent Googlebot ti dice esattamente quali URL Google sta crawlando.

Pattern da cercare nei log:

  • URL con parametri che Googlebot crawla ripetutamente → spreco
  • Redirect chain (richieste 301 che portano ad altri 301) → spreco
  • URL 404 che Googlebot continua a richiedere → spreco
  • Errori 5xx sotto Googlebot → problema server
  • URL di staging, admin, test crawlati → blocco necessario

Tool per analisi log:

  • Screaming Frog Log File Analyzer (commerciale): importi i log del server, ottieni report SEO-focused
  • Splunk, ELK stack: per chi ha già questi strumenti
  • Query manuali con grep/awk: per analisi spot

Strategie di ottimizzazione in ordine di impatto

1. Eliminare URL inutili dal crawl

Il primo e più importante intervento. Se Googlebot spende il 70% del budget su URL che non dovrebbero essere crawlate, liberare quel budget è il guadagno maggiore.

Candidati tipici da escludere:

  • URL con parametri di ordinamento, paginazione, filtri non strategici
  • Pagine di ricerca interna (/?s=)
  • Admin, login, aree riservate
  • Versioni per stampa, PDF duplicati di HTML
  • URL generate da tracking (UTM, etc.)

Come:

  • robots.txt per URL che Googlebot non deve scaricare
  • Rimuovere i link interni verso queste URL (il modo più efficace: se non le trova, non le crawla)
  • Meta noindex + canonical per URL che già conosce (col tempo il crawl rallenta)

2. Sitemap XML pulita

Una sitemap contenente 100k URL di cui 30k sono 404 o noindex confonde Google. Deve contenere solo URL canoniche, 200 OK, indicizzabili.

Per siti grandi: partizionare in più sitemap per tipo di contenuto (sitemap-prodotti, sitemap-categorie, sitemap-articoli) tramite sitemap index. Aiuta a identificare velocemente dove ci sono problemi.

3. Server performance

TTFB sotto 200ms è il target. Sopra i 500ms Google rallenta deliberatamente il crawl per non sovraccaricare il server. Su siti grandi, investire in:

  • Caching (server-side + CDN)
  • Database ottimizzato (indici, query plan)
  • Hosting adeguato al volume

4. Struttura dei link interni

Le pagine più profondamente annidate (6+ clic dalla home) vengono crawlate raramente. Ristrutturare l’internal linking in modo che tutte le pagine importanti siano raggiungibili in 3-4 clic dalla home aiuta sia l’utente sia il crawl budget.

Strumento pratico: Screaming Frog > report “Crawl Depth”. Se hai pagine importanti a depth > 5, considera di rivedere navigazione e link interni.

5. Gestione del codice di risposta

Googlebot interpreta i codici HTTP:

  • 200: normale, risorse spese per scaricare la pagina
  • 301: seguito ma costoso in catene
  • 404: segnalato, crawl frequenza cala nel tempo per quella URL
  • 410: “gone”, segnale più forte di 404, Google rimuove più velocemente
  • 503: “servizio non disponibile temporaneamente”, Google ritenta più tardi senza penalizzare

Uso strategico del 410: per pagine definitivamente rimosse (prodotti esauriti per sempre, contenuti obsoleti), 410 è più pulito di 404 o 301 alla home.

Uso del 503: in caso di manutenzione, restituire 503 con header Retry-After evita che Google indicizzi pagine di errore.

6. Gestione dei parametri URL

Vedi la guida dedicata. Ogni combinazione di parametri è una URL diversa per Google: senza gestione, 1000 prodotti × 5 filtri possono generare milioni di URL potenzialmente crawlabili.

Come migliorare il crawl budget: cosa NON funziona

Alcune tattiche popolari che non aiutano o sono controproducenti:

1. “Ping” della sitemap. L’endpoint google.com/ping?sitemap=... è stato dismesso a giugno 2023. Non funziona più. Invia via Search Console.

2. Direttiva crawl-delay nel robots.txt. Non supportata da Googlebot. Supportata da Bingbot e qualche altro crawler, ma non cambia il comportamento di Google.

3. Richiedere indicizzazione manualmente per ogni URL. Il Controllo URL in Search Console ha limite giornaliero (~10 richieste). Su siti con molti URL nuovi, non scala. Meglio assicurarsi che sitemap e link interni facciano il lavoro.

4. Creare pagine “hub” di link per tutte le URL. Una pagina con 500 link interni verso URL profonde viene interpretata come spam. La navigazione deve essere naturale.

5. Concentrarsi solo sul crawl budget. Se hai problemi di ranking, quasi mai la causa è il crawl budget. Sono i contenuti o i link. Il crawl budget è un problema di efficienza tecnica su siti grandi, non un fattore di ranking diretto.

Un flusso di audit per siti grandi

Procedura che uso tipicamente:

Step 1: Estrazione log server degli ultimi 30 giorni, filtro User-Agent Googlebot.

Step 2: Aggregazione per URL: quante volte Google ha richiesto ogni URL, quale status code ha ottenuto.

Step 3: Analisi top 100 URL più richieste: sono le pagine importanti o URL inutili?

Step 4: Analisi URL richieste con 404 e 301: quante sono, qual è l’impatto sul totale?

Step 5: Cross-check con sitemap: le URL in sitemap vengono effettivamente crawlate? Quelle che non sono in sitemap ma vengono crawlate, vanno bloccate o aggiunte?

Step 6: Diagnosi e piano: blocchi robots.txt per pattern inutili, pulizia sitemap, eliminazione link interni verso URL inutili, fix redirect chain.

Step 7: Re-audit dopo 4-6 settimane per verificare i cambiamenti.

Takeaway

  • Il crawl budget è un problema reale solo per siti grandi (oltre 10-50k URL) o molto dinamici
  • Il primo intervento ad alto impatto è togliere URL inutili dal crawl, non aggiungere nuove ottimizzazioni
  • La sitemap XML deve essere pulita: solo canonical, 200 OK, indicizzabili
  • I log server sono la fonte più completa per capire cosa Googlebot sta davvero facendo sul tuo sito
  • crawl-delay in robots.txt è ignorato da Google; il ping della sitemap è deprecato dal 2023
  • Prima di ottimizzare il crawl budget, verifica che sia davvero il tuo problema: spesso la causa del calo di traffico è altrove
Torna in alto