Prima che una tua pagina appaia nei risultati di Google per una qualsiasi ricerca, deve superare tre fasi distinte: crawling, indicizzazione e posizionamento. Sono processi sequenziali e indipendenti: una pagina può essere crawlata ma non indicizzata, indicizzata ma non posizionata, o posizionata male nonostante sia in indice. Confondere le tre fasi è l’errore più frequente tra chi inizia a fare SEO, perché porta a diagnosticare il problema sbagliato.
Indice contenuti:
Questo articolo chiarisce cosa fa ciascuna fase, dove può rompersi, e come capire velocemente in quale fase si blocca una tua pagina.
Le tre fasi in una frase
- Crawling: Googlebot visita una URL e ne scarica il contenuto
- Indicizzazione: Google analizza quel contenuto e decide se salvarlo nel suo database
- Posizionamento: quando un utente fa una ricerca, Google sceglie e ordina le pagine dall’indice
Metafora utile: una libreria pubblica. Il crawling è il furgone che porta nuovi libri in magazzino. L’indicizzazione è il bibliotecario che decide quali tenere a scaffale e come catalogarli. Il posizionamento è quello che succede quando un lettore chiede un libro al banco: su dieci libri sullo stesso tema, quale gli consigli per primo.
Crawling: come Google scopre le tue pagine
Googlebot (il crawler di Google) parte da una lista di URL note e segue i link che trova, aggiungendo nuove URL alla coda di scansione. La scoperta avviene in tre modi:
- Link da altre pagine già note a Google (interni o esterni)
- Sitemap XML che dichiari
- Invio manuale tramite Search Console (Controllo URL → Richiedi indicizzazione)
Cosa può impedire il crawling
- Blocco in robots.txt:
Disallow: /sezione/impedisce a Googlebot di scaricare quelle URL - Errori 5xx: il server risponde con errori; dopo ripetuti 5xx, Google riduce drasticamente la frequenza di crawling
- Timeout: risposte oltre i 10 secondi vengono trattate come fallimenti
- Redirect chain troppo lunghe: oltre 5 hop Google si ferma
- URL non linkate e non in sitemap: orfane, semplicemente Google non le trova
Come verificare se una URL è stata crawlata
Google Search Console → Controllo URL → incolla URL. Ti dice:
- Quando è stata crawlata l’ultima volta
- Se la scansione è riuscita
- Che user-agent è stato usato (desktop vs mobile)
- La pagina renderizzata come la vede Google
Il log del server è l’altra fonte, più completa: cerca Googlebot nello User-Agent per vedere tutte le richieste reali. Utile su siti grandi per capire cosa Googlebot sta davvero scansionando e cosa ignora.
Indicizzazione: cosa succede dopo la scansione
Dopo aver scaricato una pagina, Google la processa: esegue il JavaScript, estrae testo e link, valuta qualità e pertinenza, e decide se includerla nell’indice. Questa decisione non è automatica.
Una pagina crawlata può NON essere indicizzata
Nel report di Search Console → “Indicizzazione delle pagine” ci sono diverse categorie in cui questo succede:
| Stato | Significato |
|---|---|
| Rilevata, ma non attualmente indicizzata | Google conosce la URL ma non l’ha ancora scansionata (tipico su siti nuovi o con bassa autorità) |
| Sottoposta a scansione, ma non attualmente indicizzata | Google l’ha scansionata e ha deciso di non indicizzarla. Di solito = contenuto considerato di bassa qualità o duplicato |
| Esclusa da tag ‘noindex’ | Direttiva tua esplicita, va bene se intenzionale |
| Duplicato, Google ha scelto una pagina canonica diversa | Google ha deciso che un’altra URL è la canonica, non quella che hai indicato tu |
| Pagina alternativa con tag canonical appropriato | Tutto ok: la pagina canonica è indicizzata, le varianti no |
Il caso più problematico è “Sottoposta a scansione, ma non attualmente indicizzata”: significa che Google non ritiene la pagina meritevole. Cause tipiche:
- Contenuto thin (poche centinaia di parole, niente valore aggiunto)
- Contenuto duplicato da altre fonti del web
- Contenuto AI-generato senza editing (pattern che Google riconosce)
- Pagina in un sito con segnali di qualità bassi
Se hai molte pagine in questo stato, il problema non è tecnico — è di contenuto.
Cosa impedisce l’indicizzazione
- Tag
<meta name="robots" content="noindex"> - Header HTTP
X-Robots-Tag: noindex - Canonical verso un’altra URL (non blocca, ma fa sì che Google indicizzi quella canonica)
- Contenuto percepito come duplicato di un’altra URL dello stesso sito
- Qualità insufficiente per l’autorità del sito
Posizionamento: il ranking nelle SERP
Una volta che una pagina è in indice, entra nel pool di candidate per qualsiasi query potenzialmente pertinente. Quando un utente cerca qualcosa, Google:
- Seleziona tutte le pagine in indice potenzialmente rilevanti (centinaia o migliaia)
- Le filtra per rilevanza rispetto alla query specifica
- Le ordina in base a centinaia di segnali (qualità contenuto, autorevolezza dominio, link in ingresso, esperienza utente, intento di ricerca, contesto geografico/linguistico, personalizzazione)
- Restituisce le prime 10 (o meno, con feature SERP come AI Overviews che occupano spazio)
Il posizionamento è dinamico e per-query: la stessa pagina può essere prima per “sitemap xml cos’è” e non apparire affatto per “sitemap google search console”. Non esiste un “ranking assoluto” della pagina.
I fattori di ranking più rilevanti nel 2026
Con l’evoluzione verso ricerca semantica e AI Overviews, il peso relativo è cambiato. In ordine di importanza (consenso della industry, non lista ufficiale Google):
- Pertinenza semantica tra contenuto e query (non keyword matching, ma comprensione dell’intento)
- Qualità ed E-E-A-T: Experience, Expertise, Authoritativeness, Trustworthiness
- Autorevolezza del dominio (link in ingresso da fonti autorevoli)
- Freschezza per query che la richiedono (notizie, classifiche, guide che cambiano)
- Esperienza utente (Core Web Vitals, HTTPS, mobile-friendly)
- Segnali di engagement (chi clicca, chi torna indietro subito)
- Pertinenza al contesto (località, lingua, cronologia utente)
Il flusso completo con un esempio
Pubblichi un nuovo articolo alle 10:00 di lunedì. Ecco cosa può succedere:
10:15 — Googlebot è su un’altra pagina del tuo sito, segue un link interno al nuovo articolo. La URL entra in coda di scansione.
14:30 — Googlebot scansiona l’articolo. Lo scarica, esegue eventuali JavaScript, processa il rendering finale.
15:00 — Google processa il contenuto: estrae testo, valuta qualità, confronta con contenuti simili già in indice. Se passa la soglia di qualità, la URL viene indicizzata.
Martedì mattina — Un utente cerca una delle query per cui il tuo articolo è pertinente. Google seleziona il pool di candidati dall’indice, valuta il tuo articolo contro gli altri, lo posiziona in una posizione.
Se il tuo articolo non appare tra i risultati, può essere perché:
- Non è ancora stato crawlato (possibile, ma improbabile dopo 24h)
- È stato crawlato ma non indicizzato (controlla in Search Console)
- È indicizzato ma non è competitivo contro gli altri risultati (controlla il ranking con Search Console → Performance)
Strumenti per diagnosticare ciascuna fase
| Domanda | Strumento | Dove guardare |
|---|---|---|
| Googlebot visita il mio sito? | Search Console | Impostazioni → Statistiche di scansione |
| Questa URL è stata crawlata? | Search Console | Controllo URL |
| Questa URL è in indice? | Search Console | Controllo URL (stato: “URL presente in Google”) |
| Perché questa URL non è indicizzata? | Search Console | Indicizzazione pagine → clicca categoria |
| Per quali query ranko? | Search Console | Rendimento → Risultati di ricerca |
| Per quali query potrei rankare? | Ahrefs / Semrush / Ubersuggest | Keyword gap, organic keywords |
| Come mi vede Googlebot davvero? | Search Console | Controllo URL → Visualizza pagina di cui è stata eseguita la scansione |
Ricerche tipo site:tuodominio.com/pagina in Google sembrano un modo veloce per verificare l’indicizzazione ma non sono affidabili: possono mostrare una URL che in realtà è stata deindicizzata di recente, o non mostrarne una che invece è in indice. Fonte unica di verità: Search Console.
Errori di ragionamento comuni
“Il mio sito non rankerà mai perché non è in indice Google.” Falso ragionamento: prima verifica. Molti pensano di avere un problema di indicizzazione quando in realtà le pagine sono indicizzate ma non competitive. Controlla Search Console prima di fare ipotesi.
“Se rimuovo il noindex, la pagina apparirà in prima pagina.” Rimuovere noindex rende la pagina indicizzabile, non la rende competitiva. Dopo il noindex devi comunque avere contenuto di qualità e segnali sufficienti per rankare.
“Il mio sito è stato penalizzato da Google.” Penalizzazioni algoritmiche automatiche esistono (Spam Update, Helpful Content Update, ecc.) ma sono rare. Il 90% dei casi di calo di traffico che sento descrivere come “penalizzazione” sono in realtà: competitor che hanno fatto meglio, aggiornamento di algoritmo che ha ridistribuito i pesi, o problema tecnico (migrazione sbagliata, robots.txt rotto, server lento). Verifica prima di concludere.
“Se aumento le pagine indicizzate, aumenta il traffico.” No. Indicizzare pagine thin o duplicate peggiora il segnale di qualità medio del sito. Meno pagine, tutte di valore, è quasi sempre la strategia vincente rispetto a più pagine, alcune scadenti.
Takeaway
- Crawling, indicizzazione e posizionamento sono tre fasi distinte: diagnostica il problema prima di agire
- Una pagina può essere crawlata ma non indicizzata: se succede sistematicamente, il problema è di qualità del contenuto
- Una pagina in indice non è necessariamente una pagina competitiva: l’indicizzazione è condizione necessaria ma non sufficiente
- Lo strumento diagnostico principale è Google Search Console — più affidabile di
site:e di qualsiasi tool SEO di terze parti per queste verifiche - Meno pagine di qualità > più pagine scadenti: il segnale medio del sito conta
