Crawling, Indicizzazione e Posizionamento: le 3 Fasi SEO

Prima che una tua pagina appaia nei risultati di Google per una qualsiasi ricerca, deve superare tre fasi distinte: crawling, indicizzazione e posizionamento. Sono processi sequenziali e indipendenti: una pagina può essere crawlata ma non indicizzata, indicizzata ma non posizionata, o posizionata male nonostante sia in indice. Confondere le tre fasi è l’errore più frequente tra chi inizia a fare SEO, perché porta a diagnosticare il problema sbagliato.

Indice contenuti:

Questo articolo chiarisce cosa fa ciascuna fase, dove può rompersi, e come capire velocemente in quale fase si blocca una tua pagina.

Le tre fasi in una frase

Crawling: Googlebot visita una URL e ne scarica il contenuto
Indicizzazione: Google analizza quel contenuto e decide se salvarlo nel suo database
Posizionamento: quando un utente fa una ricerca, Google sceglie e ordina le pagine dall’indice

Metafora utile: una libreria pubblica. Il crawling è il furgone che porta nuovi libri in magazzino. L’indicizzazione è il bibliotecario che decide quali tenere a scaffale e come catalogarli. Il posizionamento è quello che succede quando un lettore chiede un libro al banco: su dieci libri sullo stesso tema, quale gli consigli per primo.

Crawling: come Google scopre le tue pagine

Googlebot (il crawler di Google) parte da una lista di URL note e segue i link che trova, aggiungendo nuove URL alla coda di scansione. La scoperta avviene in tre modi:

Link da altre pagine già note a Google (interni o esterni)
Sitemap XML che dichiari
Invio manuale tramite Search Console (Controllo URL → Richiedi indicizzazione)

Cosa può impedire il crawling

Blocco in robots.txt: Disallow: /sezione/ impedisce a Googlebot di scaricare quelle URL
Errori 5xx: il server risponde con errori; dopo ripetuti 5xx, Google riduce drasticamente la frequenza di crawling
Timeout: risposte oltre i 10 secondi vengono trattate come fallimenti
Redirect chain troppo lunghe: oltre 5 hop Google si ferma
URL non linkate e non in sitemap: orfane, semplicemente Google non le trova

Come verificare se una URL è stata crawlata

Google Search Console → Controllo URL → incolla URL. Ti dice:

Quando è stata crawlata l’ultima volta
Se la scansione è riuscita
Che user-agent è stato usato (desktop vs mobile)
La pagina renderizzata come la vede Google

Il log del server è l’altra fonte, più completa: cerca Googlebot nello User-Agent per vedere tutte le richieste reali. Utile su siti grandi per capire cosa Googlebot sta davvero scansionando e cosa ignora.

Indicizzazione: cosa succede dopo la scansione

Dopo aver scaricato una pagina, Google la processa: esegue il JavaScript, estrae testo e link, valuta qualità e pertinenza, e decide se includerla nell’indice. Questa decisione non è automatica.

Una pagina crawlata può NON essere indicizzata

Nel report di Search Console → “Indicizzazione delle pagine” ci sono diverse categorie in cui questo succede:

Stato	Significato
Rilevata, ma non attualmente indicizzata	Google conosce la URL ma non l’ha ancora scansionata (tipico su siti nuovi o con bassa autorità)
Sottoposta a scansione, ma non attualmente indicizzata	Google l’ha scansionata e ha deciso di non indicizzarla. Di solito = contenuto considerato di bassa qualità o duplicato
Esclusa da tag ‘noindex’	Direttiva tua esplicita, va bene se intenzionale
Duplicato, Google ha scelto una pagina canonica diversa	Google ha deciso che un’altra URL è la canonica, non quella che hai indicato tu
Pagina alternativa con tag canonical appropriato	Tutto ok: la pagina canonica è indicizzata, le varianti no

Il caso più problematico è “Sottoposta a scansione, ma non attualmente indicizzata”: significa che Google non ritiene la pagina meritevole. Cause tipiche:

Contenuto thin (poche centinaia di parole, niente valore aggiunto)
Contenuto duplicato da altre fonti del web
Contenuto AI-generato senza editing (pattern che Google riconosce)
Pagina in un sito con segnali di qualità bassi

Se hai molte pagine in questo stato, il problema non è tecnico — è di contenuto.

Cosa impedisce l’indicizzazione

Tag <meta name="robots" content="noindex">
Header HTTP X-Robots-Tag: noindex
Canonical verso un’altra URL (non blocca, ma fa sì che Google indicizzi quella canonica)
Contenuto percepito come duplicato di un’altra URL dello stesso sito
Qualità insufficiente per l’autorità del sito

Posizionamento: il ranking nelle SERP

Una volta che una pagina è in indice, entra nel pool di candidate per qualsiasi query potenzialmente pertinente. Quando un utente cerca qualcosa, Google:

Seleziona tutte le pagine in indice potenzialmente rilevanti (centinaia o migliaia)
Le filtra per rilevanza rispetto alla query specifica
Le ordina in base a centinaia di segnali (qualità contenuto, autorevolezza dominio, link in ingresso, esperienza utente, intento di ricerca, contesto geografico/linguistico, personalizzazione)
Restituisce le prime 10 (o meno, con feature SERP come AI Overviews che occupano spazio)

Il posizionamento è dinamico e per-query: la stessa pagina può essere prima per “sitemap xml cos’è” e non apparire affatto per “sitemap google search console”. Non esiste un “ranking assoluto” della pagina.

I fattori di ranking più rilevanti nel 2026

Con l’evoluzione verso ricerca semantica e AI Overviews, il peso relativo è cambiato. In ordine di importanza (consenso della industry, non lista ufficiale Google):

Pertinenza semantica tra contenuto e query (non keyword matching, ma comprensione dell’intento)
Qualità ed E-E-A-T: Experience, Expertise, Authoritativeness, Trustworthiness
Autorevolezza del dominio (link in ingresso da fonti autorevoli)
Freschezza per query che la richiedono (notizie, classifiche, guide che cambiano)
Esperienza utente (Core Web Vitals, HTTPS, mobile-friendly)
Segnali di engagement (chi clicca, chi torna indietro subito)
Pertinenza al contesto (località, lingua, cronologia utente)

Il flusso completo con un esempio

Pubblichi un nuovo articolo alle 10:00 di lunedì. Ecco cosa può succedere:

10:15 — Googlebot è su un’altra pagina del tuo sito, segue un link interno al nuovo articolo. La URL entra in coda di scansione.

14:30 — Googlebot scansiona l’articolo. Lo scarica, esegue eventuali JavaScript, processa il rendering finale.

15:00 — Google processa il contenuto: estrae testo, valuta qualità, confronta con contenuti simili già in indice. Se passa la soglia di qualità, la URL viene indicizzata.

Martedì mattina — Un utente cerca una delle query per cui il tuo articolo è pertinente. Google seleziona il pool di candidati dall’indice, valuta il tuo articolo contro gli altri, lo posiziona in una posizione.

Se il tuo articolo non appare tra i risultati, può essere perché:

Non è ancora stato crawlato (possibile, ma improbabile dopo 24h)
È stato crawlato ma non indicizzato (controlla in Search Console)
È indicizzato ma non è competitivo contro gli altri risultati (controlla il ranking con Search Console → Performance)

Strumenti per diagnosticare ciascuna fase

Domanda	Strumento	Dove guardare
Googlebot visita il mio sito?	Search Console	Impostazioni → Statistiche di scansione
Questa URL è stata crawlata?	Search Console	Controllo URL
Questa URL è in indice?	Search Console	Controllo URL (stato: “URL presente in Google”)
Perché questa URL non è indicizzata?	Search Console	Indicizzazione pagine → clicca categoria
Per quali query ranko?	Search Console	Rendimento → Risultati di ricerca
Per quali query potrei rankare?	Ahrefs / Semrush / Ubersuggest	Keyword gap, organic keywords
Come mi vede Googlebot davvero?	Search Console	Controllo URL → Visualizza pagina di cui è stata eseguita la scansione

Ricerche tipo site:tuodominio.com/pagina in Google sembrano un modo veloce per verificare l’indicizzazione ma non sono affidabili: possono mostrare una URL che in realtà è stata deindicizzata di recente, o non mostrarne una che invece è in indice. Fonte unica di verità: Search Console.

Errori di ragionamento comuni

“Il mio sito non rankerà mai perché non è in indice Google.” Falso ragionamento: prima verifica. Molti pensano di avere un problema di indicizzazione quando in realtà le pagine sono indicizzate ma non competitive. Controlla Search Console prima di fare ipotesi.

“Se rimuovo il noindex, la pagina apparirà in prima pagina.” Rimuovere noindex rende la pagina indicizzabile, non la rende competitiva. Dopo il noindex devi comunque avere contenuto di qualità e segnali sufficienti per rankare.

“Il mio sito è stato penalizzato da Google.” Penalizzazioni algoritmiche automatiche esistono (Spam Update, Helpful Content Update, ecc.) ma sono rare. Il 90% dei casi di calo di traffico che sento descrivere come “penalizzazione” sono in realtà: competitor che hanno fatto meglio, aggiornamento di algoritmo che ha ridistribuito i pesi, o problema tecnico (migrazione sbagliata, robots.txt rotto, server lento). Verifica prima di concludere.

“Se aumento le pagine indicizzate, aumenta il traffico.” No. Indicizzare pagine thin o duplicate peggiora il segnale di qualità medio del sito. Meno pagine, tutte di valore, è quasi sempre la strategia vincente rispetto a più pagine, alcune scadenti.

Takeaway

Crawling, indicizzazione e posizionamento sono tre fasi distinte: diagnostica il problema prima di agire
Una pagina può essere crawlata ma non indicizzata: se succede sistematicamente, il problema è di qualità del contenuto
Una pagina in indice non è necessariamente una pagina competitiva: l’indicizzazione è condizione necessaria ma non sufficiente
Lo strumento diagnostico principale è Google Search Console — più affidabile di site: e di qualsiasi tool SEO di terze parti per queste verifiche
Meno pagine di qualità > più pagine scadenti: il segnale medio del sito conta