È uscito il Corso Java Completo — usa il coupon JAVA2026 (fino al 30 giugno)
Torna al blog

Robots.txt: cos'è e come configurarlo

Robots txt spiegato semplice: cos'è questo file, come scrivere le direttive corrette per i crawler e gli errori da evitare per non bloccare il tuo sito su Google.

Edoardo Midali

Edoardo Midali

Developer · Content Creator

4 min di lettura

C'è un piccolo file di testo che può aiutare il tuo sito a farsi scansionare meglio, o mandarlo in tilt facendolo sparire da Google. Si chiama robots.txt ed è uno di quegli strumenti potenti quanto fraintesi. In questo articolo ti spiego cos'è il robots.txt, come configurarlo correttamente e quali errori evitare a tutti i costi.

Cos'è il robots.txt in parole semplici

Il robots.txt è un file di testo posto nella radice del sito che indica ai crawler dei motori di ricerca quali parti del sito possono o non possono scansionare. È la prima cosa che un bot come Googlebot legge quando arriva sul tuo dominio.

Si trova sempre allo stesso indirizzo: tuosito.it/robots.txt. È un accordo basato sulla buona volontà: i bot rispettabili lo rispettano, ma non è una barriera di sicurezza. Fa parte della gestione del crawling e dell'indicizzazione.

A cosa serve davvero

Il robots.txt serve principalmente a gestire la scansione, non l'indicizzazione. Gli usi più comuni:

  • Risparmiare crawl budget evitando che Google perda tempo su sezioni inutili. Vedi cos'è il crawl budget.
  • Bloccare aree tecniche come pannelli di amministrazione, script o cartelle interne.
  • Evitare la scansione di pagine duplicate generate da filtri e parametri.
  • Segnalare la sitemap indicando dove trovare la sitemap XML.

La struttura di base

Un robots.txt è fatto di blocchi, ciascuno con un destinatario (User-agent) e delle regole. Ecco un esempio commentato:

# Si applica a tutti i bot
User-agent: *
# Vieta la scansione della cartella admin
Disallow: /admin/
# Vieta i risultati di ricerca interni
Disallow: /cerca
# Consente esplicitamente una sottocartella
Allow: /admin/public/

# Indica dove si trova la sitemap
Sitemap: https://tuosito.it/sitemap.xml

Le direttive principali sono:

DirettivaCosa fa
User-agentA quale bot si applicano le regole
DisallowPercorso da non scansionare
AllowEccezione che consente la scansione
SitemapURL della sitemap del sito

Un Disallow: vuoto significa "consenti tutto", mentre Disallow: / blocca l'intero sito.

L'errore più pericoloso

Il malinteso più grave riguarda la differenza tra scansione e indicizzazione. Il robots.txt impedisce la scansione, non l'indicizzazione.

Cosa significa? Se blocchi una pagina con Disallow, Google non potrà leggerne il contenuto, ma se altri siti la linkano potrebbe comunque indicizzarla, mostrandola in SERP senza descrizione. Risultato paradossale: hai bloccato la scansione ma la pagina appare lo stesso.

Per tenere davvero una pagina fuori dall'indice devi usare il meta tag noindex (e lasciare che Google possa leggerla per vederlo), non il robots.txt. Sono due strumenti diversi per scopi diversi.

Errori comuni da evitare

  • Bloccare CSS e JavaScript: Google ha bisogno di queste risorse per renderizzare e capire la pagina. Bloccarle danneggia la SEO.
  • Usare robots.txt per nascondere informazioni sensibili: il file è pubblico e leggibile da chiunque. Non è uno strumento di sicurezza.
  • Bloccare l'intero sito per sbaglio: un Disallow: / dimenticato in produzione (capita dopo un lancio) può azzerare la visibilità.
  • Sintassi errata: maiuscole, percorsi sbagliati e regole mal scritte possono avere effetti imprevisti.

Come testarlo

Prima di pubblicare modifiche, verifica sempre. Google Search Console offre strumenti per controllare il robots.txt e per testare se un URL specifico è bloccato o meno. Dopo ogni cambiamento importante, controlla che le pagine chiave del tuo sito restino scansionabili. Un test di due minuti può evitare settimane di danni.

In sintesi

Il robots.txt è un file di testo nella radice del sito che dice ai crawler quali parti scansionare e quali no. Serve a gestire la scansione e a risparmiare crawl budget, non a controllare l'indicizzazione: per quella servono i meta tag noindex. Attento agli errori classici, come bloccare CSS e JavaScript o lasciare un Disallow totale dopo un lancio. Scrivi le direttive con cura, indica la sitemap e testa sempre prima di pubblicare.

Se non sei sicuro che il tuo robots.txt sia configurato bene, un controllo tecnico può evitarti brutte sorprese: dai un'occhiata ai miei servizi di consulenza SEO e AI.