Che cosa è il file Robots.txt

Il file robots.txt fa parte del Robots Exclusion Protocol (REP), un conglomerato di standard che regolano il modo in cui i robot eseguono il crawl del web, l'accesso e l'indicizzazione dei contenuti, e come presentano tali contenuti agli utenti.
Cos'è robots.txt file
Indice dei contenuti

Un file robots.txt è semplicemente un file di testo inserito all’interno della root del vostro sito web che istruisce i crawler dei motori di ricerca su quali pagine di un sito web deve crawlare e quali ignorare. Queste istruzioni di crawl sono definite “disallowing” o “allowing” del comportamento di uno specifico (o di tutti) software di web crawling.

Come funziona Robots.txt?

Il file robots fa parte del Robots Exclusion Protocol (REP), un conglomerato di standard che regolano il modo in cui i robot eseguono il crawl del web, l’accesso e l’indicizzazione dei contenuti, e come presentano tali contenuti agli utenti.

Il REP include anche indicazioni come i meta robot, così come pagine, sottodirectory, o istruzioni a livello di sito web per come i motori di ricerca dovrebbero trattare i link (come “nofollow” o “follow”).

Studio Samo Pro Minidegree

Esempio Robots.txt:

Di seguito sono riportati alcuni esempi di robots.txt in azione per un sito www.example.com.

L’URL del file robots deve essere: www.example.com/robots.txt

Blocco di tutti i web crawler da tutti i contenuti

Questa istruzione dice a tutti i web crawler di non eseguire il crawling di alcuna pagina su www.example.com, compresa la homepage. 

User-agent: *
Disallow: /

Permettere a tutti i web crawler di accedere a tutti i contenuti

La regola seguente dice ai web crawler di cercare tutte le pagine del sito www.example.com, compresa la homepage.

User-agent: * Allow:

Bloccare un web crawler specifico da una cartella specifica

User-agent: Googlebot 
Disallow: /example-subfolder/ 

Questa sintassi indica solo al crawler di Google di eseguire il crawler di qualsiasi pagina contenente la stringa URL www.example.com/example-subfolder/.

Bloccare un determinato web crawler da una specifica pagina web

User-agent: Bingbot 
Disallow: /example-subfolder/blocked-page.html 

Questa sintassi indica solo il crawler di Bing per evitare il crawling della pagina esatta all’indirizzo www.example.com/example-subfolder/blocked-page.html.

Come funziona il file robots.txt

I motori di ricerca hanno due obiettivi principali:

Studio Samo Pro Minidegree
  1. Eseguire il crawler del web per scoprire i contenuti
  2. Indicizzare quel contenuto in modo che possa essere trovato da chi cerca informazioni.

In generale, per cercare siti web, i motori di ricerca seguono i link per passare da un sito web all’altro, navigando attraverso miliardi di link e siti. Questo comportamento di crawling è anche conosciuto con il nome di “spidering“.

Una volta in un sito web e prima di effettuare lo spidering, i crawler cercano un file robots. Se ne esiste uno, lo leggono ancor prima di proseguire nella “scansione” dell’intera pagina.

Se il file robots non contiene alcuna regola di disallow o il sito web non ha un file robots, i crawler procedono alla ricerca di altre informazioni sul sito web.

Nozioni veloci da sapere sul file robots.txt:

  • Per essere trovato, un file robots deve essere inserito nella directory di primo livello di un sito web detta anche root.
  • Il file /robots.txt è disponibile al pubblico. Basta aggiungere /robots.txt alla fine di qualsiasi dominio principale per vedere le direttive di quel sito web (se quel sito ha un file robots!). Questo significa che chiunque può vedere quali pagine hai impostato per essere o non essere scansionato. Quindi, non usatele per nascondere le informazioni sensibili dell’utente.
  • Alcuni robot potrebbero decidere di ignorare il vostro file robots. Questo è particolarmente comune con i crawler malevoli, come gli scraper di indirizzi e-mail o i robot malware.
  • Ogni sottodominio su un dominio principale utilizza file robots separati. Ciò significa che sia example.com che blog.example.example.com dovrebbero avere i propri file robots.txt (su example.com/robots.txt e blog.example.com/robots.txt).
  • Robots.txt è case sensitive: il file deve essere chiamato “robots.txt” (non robots.TXT, Robots.txt, ecc.).
  • Si consiglia di indicare la posizione di eventuali sitemap collegate a questo dominio nella parte inferiore del file robots.

Sintassi tecnica robots.txt

Moz definisce la sintassi di robots.txt come segue: La sintassi di Robots.txt può essere pensata come il “linguaggio” dei file robots.txt.

Ci sono 5 termini comuni che si possono incontrare in un file robots. Essi includono:

  • User-agent: Il web crawler specifico a cui si forniscono le istruzioni per il crawler – di solito un motore di ricerca. La maggior parte degli interpreti può essere trovata qui.
  • Allow (valido solo per Googlebot): Questa direttiva indica a Googlebot di accedere a una pagina o sottocartella anche se la sua pagina madre o sottocartella può essere proibita.
  • Disallow: La direttiva istruisce l’utente-agente a non fare il crawl di certo URL. Si noti che è consentita una sola riga “Disallow:” per ogni URL.
  • Sitemap: Usato per richiamare la posizione di qualsiasi sitemap XML collegata a questo URL.
    Suggerimento: questa direttiva è supportata solo da Ask, Bing, Google e Yahoo.
  • Crawl-delay: Si riferisce al numero di secondi che un crawler dovrebbe attendere prima di caricare e strisciare il contenuto della pagina. Suggerimento: Googlebot non riconosce questa regola. Tuttavia la velocità di scansione può essere impostata nella Google Search Console.

Da leggere: 40 motori di ricerca alternativi a Google

Pattern-matching

Quando si tratta di consentire o bloccare gli URL esatti, i file robots.txt possono diventare piuttosto complessi in quanto consentono l’uso di pattern-matching per coprire una serie di possibili opzioni di URL.

Sia Bing che Google riconoscono due espressioni comuni che possono essere usate per rilevare pagine o sottocartelle che un SEO vuole essere escluso.

Questi due caratteri sono il segno del dollaro ($) e l’asterisco (*).

Il ($) corrisponde alla fine dell’URL e (*) è un carattere jolly che rappresenta una qualsiasi sequenza di caratteri.

Google fornisce nelle guida “Creare un file robots.txt” un’ampia lista di possibili sintassi e di esempi di sintassi che corrispondono ai modelli.

Dove mettere i robot.txt?

Il file robots.txt deve essere posizionato alla radice dell’host del sito a cui si applica.

Ad esempio, per controllare il crawling su tutti gli URL sotto http://www.example.com/, il file robots deve essere posizionato all’indirizzo http://www.example.com/robots.txt.

Non può essere localizzato in una sottodirectory (per esempio all’indirizzo http://example.com/pages/robots.txt).

Se non si è sicuri di come accedere alla root del proprio sito, o si ha bisogno di un supporto operativo, si consiglia sempre di contattare il proprio fornitore di servizi di web hosting.

Suggerimento professionale! Se non riesci ad accedere al tuo sito web root, usa un metodo alternativo come i meta tag.

Perché robots.txt è essenziale?

Per bloccare le pagine non pubbliche

Sì, a volte si possono avere pagine del sito web che non si vuole indicizzare – per esempio, una pagina di login. Se avete tali pagine, è possibile utilizzare il file robots.txt per bloccarle da crawler e bot dei motori di ricerca.

Massimizzare il crawl budget

Se hai difficoltà a indicizzare tutte le tue pagine, potresti avere un problema di budget. Bloccando pagine insignificanti dal file robots, Googlebot può spendere più del crawl budget sulle pagine che essenzialmente contano.

Prevenire l’indicizzazione delle risorse

Mentre le meta directives possono funzionare bene quanto i robots.txt nell’impedire che le pagine vengano indicizzate, non funzionano bene per le risorse multimediali come immagini e i file PDF. È qui che entra in gioco robots.txt.

Puoi sempre controllare quante pagine web hai indicizzato nella Google Search Console. Se il numero è esattamente quello che si vuole indicizzare, non c’è bisogno di preoccuparsi. Ma se non è così, allora c’è bisogno di creare un file robots.txt per il tuo sito.

Da leggere: Google Search Console: una guida pratica per chi inizia

Le migliori pratiche SEO

  • Assicurati di non bloccare alcun contenuto o sezione del tuo sito che vuoi far crawlare.
  • Non utilizzare il file robots per evitare che i dati sensibili appaiano nei risultati della SERP. Questo perché altre pagine potrebbero collegarsi direttamente alla pagina contenente informazioni private, che potrebbero essere ancora indicizzate.
  • Se vuoi davvero bloccare la tua pagina dai risultati della ricerca, utilizza un metodo diverso, come la noindex meta directive o la protezione con password.

I link sulle pagine bloccate da robots.txt non saranno seguiti. Ciò significa:

  • A meno che non siano collegati anche da altre pagine accessibili dal motore di ricerca (come ad esempio le pagine non bloccate da robots.txt, meta-robot, ecc.), le risorse collegate non saranno sottoposte a crawled e potrebbero non essere indicizzate.
  • Nessuna link equity può essere passata dalla pagina bloccata alla destinazione del link. Se hai pagine a cui vuoi che l’equity venga passata, utilizza un meccanismo di blocco diverso da quello di robots.txt.
  • Alcuni motori di ricerca hanno più crawler. Ad esempio, Google utilizza Googlebot-Image per la ricerca di immagini e Googlebot per la ricerca organica.

La maggior parte dei crawler dello stesso motore di ricerca seguono le stesse regole, quindi non c’è bisogno di definire regole per ciascuno dei crawler multipli di un motore di ricerca.

Tuttavia, avere la possibilità di farlo permette di perfezionare il modo in cui il tuo sito web viene crawlato.

  • Rendi il tuo file robots facile da trovare.
  • Mentre è possibile posizionarlo in qualsiasi directory principale del tuo sito web, si consiglia di metterlo a https://example.com/robots.txt e scriverlo in minuscolo per aumentare le probabilità.
  • Il file robots è case sensitive. Quindi assicurati di usare una “r” minuscola nel nome del file.
  • Un motore di ricerca metterà in cache i contenuti di robots.txt, ma di solito aggiorna i contenuti in cache almeno una volta al giorno. Se si modifica il file e si desidera aggiornarlo più velocemente di quanto non sia, è possibile inviare l’URL /robots.txt a Google.

Robots.txt vs. meta-robot vs. x-robot

Qual è la differenza tra questi tre tipi di robot directive?

Semplicemente, robots.txt è il file di testo vero e proprio, mentre meta e x-robot sono meta directive. Oltre a questo, questi tre directive servono per funzioni diverse.

Robots.txt determina il comportamento di crawl del sito web o della direzione a livello di sito web.

I meta e gli x-robot possono determinare il comportamento di indicizzazione a livello di singola pagina (o elemento di pagina).

[  via siteguru.com ]

Studio Samo Pro Minidegree
Vuoi dare una svolta alla tua carriera o innovare la tua azienda?

Scopri il nostro corso in Web & Digital Marketing

54 ore in aula a Bologna o in live streaming

Piaciuto? Condividilo!

L'autore di questo post

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

Iscriviti gratis a…

MakeMeThink

La newsletter di Studio Samo

Ricevi ogni 2 settimane le novità più importanti dal mondo del digital marketing.

Potrebbe interessarti anche...

heading tag seo
Angela Giampaglia

Heading Tag: cosa sono e come ottimizzarli per la SEO

Gli Heading Tag sono un elemento fondamentale per la struttura e l’ottimizzazione delle pagine web, in quanto rappresentano la chiave per rendere le pagine leggibili e fruibili. In questo articolo potrai imparare usarli per strutturare testi e articoli, migliorarne la leggibilità , ottenere visibilità su Google… e trasformati un un architetto SEO!

Quota impression Google ads
Beatrice Romano

Quota impression Google Ads

La quota impressioni Google Ads ti permette di capire se i tuoi annunci sono visibili sulla rete di ricerca. Non solo ti aiuta a monitorare i competitor, ma anche a capire come migliorare i tuoi annunci per aumentare la visibilità.

Oltre all’attività dei competitor, la visibilità dipende da budget e ranking dell’annuncio, fattori che puoi controllare per migliorare la tua posizione in serp.

dirette instagram
Giuliana Curato

Dirette Instagram: come fare le live su IG

Ti chiedi come sfruttare al meglio le dirette Instagram per connetterti con il tuo pubblico e ottimizzare la tua presenza online ma non sai da dove iniziare? Allora sei nel posto giusto.

regolamentazione intelligenza artificiale
Caterina Quaiotti

AI Act e regolamentazione dell’Intelligenza Artificiale

L’impatto dell’utilizzo dell’IA è tangibile in diverse aree, promuovendo l’efficienza operativa, la competitività e l’innovazione e possiamo per questo parlare di benefici evidenti e concreti. 

La sua rapida diffusione solleva anche questioni etiche e giuridiche cruciali.

La necessità di una regolamentazione legale dell’Intelligenza Artificiale è emersa come una priorità fondamentale per garantire un utilizzo responsabile e sicuro di questa tecnologia avanzata. Facciamo un po’ di chiarezza in materia.

informazioni aste google ads
Beatrice Romano

Informazioni sulle aste e analisi competitors su Google Ads

Quando si lavora in Google Ads è importante monitorare ciò che fanno i competitor non solo per i prodotti o servizi che offrono agli utenti, ma anche per capire come si propongono, che linguaggio usano e a cosa danno più importanza. In questo articolo ti parlerò dell’analisi dei competitor a partire dalle parole chiave presenti all’interno delle campagne in rete di ricerca.

Vuoi essere sempre sul pezzo?

Iscriviti a MakeMeThink, la newsletter di Studio Samo. ✉️ Ricevi ogni 2 settimane le novità più importanti dal mondo del digital marketing.

Iscriviti gratis a

MakeMeThink

La newsletter di Studio Samo

Ricevi ogni 2 settimane le novità più importanti dal mondo del digital marketing.