Quando un cliente chiede qualcosa a ChatGPT, dovrebbe trovare te, non il tuo concorrente.
Indice dei contenuti
ToggleMa se il tuo sito non ha un llms.txt
, è come se fosse invisibile.
Non ai motori di ricerca. Alle intelligenze artificiali che oggi rispondono a milioni di persone, ogni giorno.
Hai un e-commerce? Un’azienda? Un blog?
Allora devi sapere che i tuoi contenuti possono (e devono) essere letti e capiti dai nuovi assistenti AI.
llms.txt è il modo più semplice per dire a queste AI:
“Ecco chi sono, cosa vendo, e perché dovresti parlarne.”
È come spiegare il tuo lavoro in 30 secondi a qualcuno che può portarti migliaia di clienti.
E chi arriva primo, prende tutto.
Leggi l’articolo completo: non è troppo tecnico, è pieno di esempi pratici e ti spiega come scrivere il tuo llms.txt in modo chiaro, utile e già pronto per il futuro.
Cosa sono llms.txt e llms-full.txt
llms.txt e llms-full.txt sono due file di configurazione pensati per Large Language Models (LLM), proposti per aiutare questi modelli a comprendere e utilizzare meglio i contenuti di un sito web.
L’idea è nata nel 2024 da Jeremy Howard (fast.ai/Answer.AI) come estensione dei concetti di robots.txt e sitemap.xml al mondo dell’AI generativa.
In sintesi:
- llms.txt è un file in formato Markdown che fornisce una mappa strutturata e riassuntiva del sito per gli LLM, indicando le sezioni chiave e dove trovare i contenuti più importanti.
- llms-full.txt è un file (anch’esso Markdown) che contiene in modo esteso tutto il contenuto rilevante del sito (es. documentazione completa) in un unico luogo.
Questi file mirano a guidare gli LLM durante la fase di consultazione (inference), complementando – ma non sostituendo – i tradizionali strumenti SEO come robots.txt e sitemap.xml. Nelle sezioni seguenti vedremo nel dettaglio come funzionano, come si strutturano e quale impatto possono avere sull’indicizzazione e visibilità (SEO) dei contenuti, con esempi pratici e best practice.
llms.txt: struttura e ruolo
llms.txt è un file testuale formato Markdown posizionato nella radice del sito (ad es. https://tuodominio.com/llms.txt
) oppure in una sottocartella specifica (ad es. /docs/llms.txt
) se pertinente.
La scelta del Markdown è intenzionale: formattazioni come titoli, liste e blocchi di testo forniscono una gerarchia naturale che i modelli linguistici comprendono facilmente. Il file segue uno schema prestabilito secondo le linee guida ufficiali:
- Titolo H1: il nome del progetto o del sito (unico H1 nel file). Esempio:
# Nome del Sito
. - Descrizione breve: subito sotto il titolo, un blocco di citazione (linee che iniziano con
>
in Markdown) contenente un riassunto conciso del sito o progetto. In poche righe, deve evidenziare lo scopo del sito e le info chiave per contestualizzare i contenuti. - Dettagli aggiuntivi (opzionale): uno o più paragrafi o liste senza titoli ulteriori dove si possono fornire istruzioni o contesto aggiuntivo su come interpretare i contenuti. Ad esempio, alcuni siti includono linee guida per l’LLM su cosa privilegiare o ignorare nelle pagine (nav menu, footer, tono da mantenere, ecc.).
- Sezioni H2 con liste di link: la parte principale consiste in una serie di sezioni Markdown di secondo livello (intestazioni
##
) che organizzano i link ai contenuti chiave del sito.
Ogni sezione ha:- Un titolo descrittivo (es.
## Documentazione API
,## Guide
,## Prodotti
ecc.) che indica una categoria di contenuti. - Una lista puntata di link in formato
[Titolo](URL): descrizione
. Ogni voce elenca una risorsa importante (pagina o file) seguita da una breve descrizione dopo i due punti. La descrizione serve a chiarire all’LLM cosa contiene quella risorsa (es: “Guida rapida all’uso dell’API, con esempi di richieste”).
- Un titolo descrittivo (es.
- Sezione “Optional” (facoltativa): una sezione speciale con intestazione
## Optional
che elenca link a risorse secondarie. Secondo la specifica, gli LLM possono ignorare questa sezione in caso di contesto limitato, privilegiando le altre informazioni. È utile per includere contenuti utili ma non fondamentali, che possono essere saltati se necessario (es. pagine di dettaglio meno critiche).
In pratica, llms.txt funge da mappa del tesoro per i modelli AI: indica “dove trovare le cose buone” del sito senza dover indovinare da zero. A differenza di un sitemap.xml (che elenca tutte le URL) o di un normale crawling HTML, llms.txt offre un percorso curato e commentato alle sezioni rilevanti, riducendo ambiguità e rumore. Ad esempio, Anthropic (creatrice del modello Claude) ha pubblicato un proprio llms.txt che segue questo formato per presentare la sua documentazione agli LLM.
Esempio di llms.txt
Di seguito un esempio ipotetico di llms.txt
per un sito fittizio, che illustra la struttura descritta. Supponiamo sia un sito di notizie online chiamato “Notizie24”:
# Notizie24
> Notizie24 è un quotidiano online che copre attualità, politica, economia, tecnologia e altre categorie. Aggiorniamo il sito 24/7 con reportage accurati e approfondimenti.
Forniamo notizie verificate, analisi indipendenti e aggiornamenti in tempo reale su eventi dall'Italia e dal mondo.
## Sezioni Principali
- [Politica](https://www.notizie24.it/politica.md): Ultime notizie e analisi dal mondo politico.
- [Economia](https://www.notizie24.it/economia.md): Approfondimenti su finanza, mercati e lavoro.
- [Tecnologia](https://www.notizie24.it/tecnologia.md): Novità tech, recensioni di gadget e guide tecnologiche.
- [Sport](https://www.notizie24.it/sport.md): Risultati e cronache sportive con interviste ai protagonisti.
## Risorse
- [Chi Siamo](https://www.notizie24.it/chi-siamo.md): Informazioni sulla redazione e sulla nostra missione.
- [Codice Etico](https://www.notizie24.it/codice-etico.md): Principi editoriali e linee guida deontologiche.
- [Contatti](https://www.notizie24.it/contatti.md): Come contattare la redazione o inviare segnalazioni.
## Optional
- [Archivio Storico](https://www.notizie24.it/archivio.md): Tutti gli articoli pubblicati dal 2010 a oggi, suddivisi per anno.
Nell’esempio sopra, il titolo e la descrizione introducono il sito; le sezioni principali elencano le categorie di news più importanti con relative descrizioni (che aiutano l’AI a capire il contesto di ciascuna categoria), una sezione “Risorse” include pagine istituzionali, e la sezione “Optional” mette a disposizione l’archivio completo come risorsa secondaria. Notare l’uso di link con estensione .md
– questo perché idealmente ogni pagina potrebbe avere una versione Markdown pulita (o almeno una versione semplificata) da fornire all’LLM. Se tali versioni non esistono, si possono comunque elencare gli URL HTML normali; l’importante è fornire istruzioni chiare su cosa contengono.
llms-full.txt: contenuto completo in un unico file
Se llms.txt è la mappa, llms-full.txt è il forziere con il contenuto completo. Si tratta di un file aggiuntivo (anch’esso da posizionare in root o altrove) che raccoglie in un’unica risorsa tutti i contenuti testuali rilevanti del sito in formato Markdown. In altre parole, è come un documento unico che unisce documentazione, guide o altre pagine chiave, pensato per essere scaricato interamente da un modello AI.
L’uso di llms-full.txt è particolarmente utile per siti con documentazione tecnica o testi estesi (manuali, knowledge base, SDK) dove un utente potrebbe voler fornire all’LLM tutto il materiale contemporaneamente, ad esempio per porre domande dettagliate. In contesti di programmazione, alcuni IDE e chatbot permettono di caricare questo file come contesto per poter rispondere a domande specifiche sul prodotto/progetto.
Ad esempio, Cursor (un IDE AI) consente di aggiungere il link a /llms-full.txt
di un progetto ed eseguire interrogazioni sul contenuto completo della documentazione.
Struttura: llms-full.txt in genere non ha la stessa struttura gerarchica breve di llms.txt, ma contiene direttamente sezioni di contenuto completo. Si può immaginare come una concatenazione di pagine principali del sito in un formato ben strutturato (titoli, paragrafi, tabelle, codice, ecc. in Markdown).
Ad esempio, nel caso di una documentazione software, llms-full.txt potrebbe includere tutti i capitoli: introduzione, guida rapida, reference API, FAQ, ecc., uno dopo l’altro. Il file potrebbe comunque iniziare con un H1 e magari un breve intro, ma poi segue con H2/H3 interni per ogni sezione di contenuto così come appaiono nelle documentazioni originali. Il risultato è un file potenzialmente molto lungo, ma che contiene tutto il necessario.
Un esempio reale citato in letteratura è l’llms-full.txt
di Perplexity.ai, che aggrega tutta la loro documentazione tecnica in un unico markdown esteso. Questo consente, ad esempio, di dare in pasto a un LLM l’intero file per poi porre domande molto specifiche, senza dover farlo navigare pagina per pagina.
Considerazioni: va tenuto presente che llms-full.txt può diventare pesante in termini di dimensioni; non tutti i LLM possono elaborare migliaia di token in un colpo solo. Pertanto, valutare l’uso di llms-full.txt in base al caso d’uso: per un piccolo blog potrebbe non servire (llms.txt è sufficiente a indirizzare l’AI verso le pagine chiave da eventualmente leggere), mentre per un grande manuale tecnico può essere provvidenziale.
In ogni caso, assicurarsi che il file sia aggiornato e coerente con le pagine originali (potrebbe essere utile rigenerarlo ad ogni release o aggiornamento sostanziale dei contenuti, magari tramite script o plugin). Inoltre, se si pubblica llms-full.txt, si potrebbe considerare di escluderlo dall’indicizzazione dei motori di ricerca tradizionali (ad es. tramite robots.txt
o header noindex) per evitare problemi di contenuto duplicato o che utenti finiscano su questo “mega-file” invece che sulle normali pagine del sito.
Regolare l’accesso degli LLM ai contenuti
Uno degli obiettivi impliciti di questi file è dare ai proprietari dei siti maggiore controllo su cosa gli LLM possono o dovrebbero usare del loro sito. In altre parole, llms.txt e llms-full.txt aiutano a regolare l’accesso ai contenuti da parte degli LLM in modo guidato. Vediamo in che senso:
- Indicazione di priorità e permessi: llms.txt permette di dichiarare esplicitamente quali parti del sito sono importanti e dovrebbero essere lette dall’LLM, e implicitamente quali no (ciò che non è menzionato è da considerarsi meno rilevante). Come affermato da Jeremy Howard, imprenditore e data scientist, l’idea è che “i proprietari di siti dovrebbero decidere cosa un LLM legge — basta scraping casuale”. In pratica però, va chiarito che llms.txt non è un meccanismo di blocco: se una pagina non è elencata, non c’è garanzia che un modello non la consideri comunque (specialmente se l’LLM la ottiene da altre fonti o la trova tramite normale crawling web). llms.txt fornisce una white-list ragionata di contenuti, ma non impone un divieto su altri. È dunque uno strumento di regolamentazione “morbida” dell’accesso: orienta l’attenzione dell’AI, senza forzarla.
- llm.txt (singolare) vs llms.txt: per una regolazione più stringente esiste una proposta correlata denominata llm.txt (al singolare). Questo file, distinto da llms.txt, sarebbe un equivalente di robots.txt pensato specificamente per i crawler AI, in cui un sito può dichiarare regole di crawling, uso nei training e autorizzazioni di citazione dei contenuti. Ad esempio, llm.txt potrebbe specificare se l’AI è autorizzata a usare i dati del sito per addestramento, se deve citarne la fonte, ecc. Si tratta di una proposta iniziale e in evoluzione (inizialmente parte dello stesso spec di Jeremy Howard del novembre 2024, non ancora standardizzata. È importante non confondere llms.txt con llm.txt: il primo (oggetto principale di questa guida) non contiene direttive di permesso o divieto, ma solo contenuto e istruzioni per l’uso; il secondo, invece, qualora adottato, servirebbe a dare comandi sul cosa l’AI può o non può fare.
- Coesistenza con robots.txt: llms.txt è pensato per coesistere con robots.txt, non per rimpiazzarlo. Infatti, robots.txt rimane il riferimento primario per i crawler (inclusi quelli degli LLM come GPTBot di OpenAI) in termini di accesso consentito o negato alle risorse. Ad esempio, se nel robots.txt un sito blocca l’agente
GPTBot
sull’intero dominio, un modello come GPT-4 non dovrebbe utilizzare i contenuti di quel sito nel proprio addestramento. llms.txt non scavalca queste restrizioni: un LLM crawler ben educato dovrebbe prima rispettare robots.txt. Invece, llms.txt entra in gioco dopo che l’accesso è stato accordato, fornendo all’LLM una strada preferenziale su quali contenuti consultare e come interpretarli. Si può dire che robots.txt riguarda la “cosa è permesso leggere”, mentre llms.txt riguarda “cosa è utile leggere e come”. Nella pratica, è sensato assicurarsi che non ci siano contraddizioni: se una pagina è importante e la includiamo in llms.txt, dovremmo verificare che non sia bloccata per gli LLM via robots.txt. Viceversa, se decidiamo di escludere completamente certe sezioni dal consumo AI, conviene bloccarle via robots (o llm.txt se e quando sarà supportato) – non elencarle semplicemente in llms.txt non garantisce che vengano ignorate.
In sintesi, llms.txt regolamenta l’accesso in modo qualitativo (guidando gli LLM attraverso i contenuti), ma le vere barriere quantitative (consentito/vietato) restano in capo a robots.txt e ad eventuali meta-tag di esclusione. Al momento, infatti, nessun grande fornitore di LLM ha dichiarato supporto ufficiale per llms.txt come “filtro”: OpenAI, Anthropic, Google, ecc. non lo utilizzano attivamente nei loro crawler.
Google in particolare gestisce la sua AI crawl tramite l’agente Google-Extended
nel robots.txt (l’assenza di Disallow
per Google-Extended equivale a permettere l’uso dei dati per Bard/Gemini) e ha ignorato finora llms.txt, paragonandolo a un meta tag “keywords” obsoleto. Dunque, per ora llms.txt va visto come uno strumento volontario che può essere sfruttato da alcuni tool e comunità, ma non impone nulla ai crawler mainstream.
Impatto SEO e indicizzazione
Qual è l’impatto di llms.txt sul SEO? La domanda è cruciale, dato che molte implementazioni vengono spinte con l’idea di non “perdere il treno” della visibilità nei motori di ricerca evoluti. Vediamo i punti principali:
- Nessun impatto sul ranking organico (per ora): secondo dichiarazioni pubbliche di Google, llms.txt non influisce sul posizionamento nei risultati di ricerca tradizionali. John Mueller (analista di Google) nell’aprile 2025 ha paragonato llms.txt al vecchio meta keywords, indicando che Google non lo considera un segnale di ranking e non cambia il modo in cui indicizza o classifica il sito (quindi zero impatto diretto al momento). Anche analisi da esperti SEO esterni confermano che si tratta di uno standard speculativo e non adottato ufficialmente dai big, il che lo rende poco significativo in termini di SEO classico. In altre parole, non aspettatevi balzi di traffico organico su Google/Bing solo perché avete aggiunto llms.txt.
- Impatto sul “AI SEO” (ricerche conversazionali): se guardiamo però oltre la SERP tradizionale, vediamo che sta emergendo un nuovo scenario in cui gli utenti ottengono risposte direttamente dagli LLM (es. chat come Bing Chat, Bard, ChatGPT con browsing o plugin). In questo contesto, avere contenuti ottimizzati per LLM potrebbe incidere sulla visibilità del vostro brand/informazioni. Studi di settore stimano che il traffico mediato da LLM (ossia utenti che trovano risposte via AI anziché motore di ricerca) potrebbe passare dallo 0,25% delle ricerche nel 2024 fino al 10% entro fine 2025. Si parla quindi di una fetta crescente di “ricerche” dove l’LLM funge da intermediario. In tali casi, disporre di un llms.txt ben fatto può facilitare l’LLM nel recuperare proprio i nostri contenuti per formulare la risposta, migliorando le chance che l’utente finale venga esposto al nostro brand o indirizzato al nostro sito per approfondire. Ad esempio, se qualcuno chiede a un assistente AI “Come funziona il reso su Acme Shop?”, e Acme Shop ha fornito all’AI un facile accesso alla sua pagina “Spedizioni e Resi” tramite llms.txt, l’assistente potrebbe rispondere citando quelle policy in modo accurato (magari con un link di riferimento). Viceversa, se l’AI trova difficoltà a capire il nostro sito, potrebbe fornire una risposta generica (o peggio, proveniente da un altro sito concorrente). Dunque l’impatto SEO di llms.txt è più indiretto e orientato al futuro: riguarda la findability dei contenuti nelle risposte AI. Si potrebbe parlare di “AI Visibility” o “LLM Optimization” come estensione del lavoro SEO tradizionale.
- Migliore parsing = risposte migliori: offrire all’AI una versione semplificata e strutturata dei contenuti migliora la comprensione. Questo può ridurre errori o allucinazioni quando l’AI sintetizza le informazioni del nostro sito. Dal punto di vista SEO, ciò significa che quando l’AI rappresenta il nostro contenuto, lo farà in modo più fedele e utile per l’utente (un po’ come fornire dati strutturati per i rich snippet dei motori di ricerca). Una risposta AI più accurata basata sul nostro sito può tradursi in maggiore fiducia e probabilità che l’utente clicchi eventualmente sul nostro link o menzioni il nostro brand. Inoltre, se in futuro gli assistenti AI attribuiranno “crediti” o fonti alle informazioni fornite, avere un llms.txt aumenta la probabilità che la nostra fonte venga riconosciuta come attendibile e primaria.
- Vantaggio competitivo early-adopters: sebbene non ufficialmente supportato dai big, llms.txt sta vedendo adozione in nicchie (siti di documentazione tecnica, aziende AI-forward, ecc.). Secondo alcuni esperti di marketing, dotarsi ora di questo file è una mossa strategica per prepararsi all’evoluzione della ricerca. WordLift, ad esempio, sostiene che avere un llms.txt ottimizzato dia “un vantaggio distintivo” man mano che le piattaforme di ricerca AI si diffondono: contenuti chiari e accessibili agli LLM porterebbero a “migliore visibilità, ranking migliorato e maggiore reperibilità” nelle esperienze di ricerca AI. Anche se queste affermazioni sono ottimistiche, l’idea è che chi avrà già curato la propria presenza in ottica LLM sarà un passo avanti quando (e se) strumenti come Google Bard, Bing o altri inizieranno a consumare attivamente i llms.txt. In termini pratici, il costo di implementazione è basso, quindi “male non fa”: creare il file richiede solo un po’ di tempo e riflessione sui propri contenuti, senza effetti collaterali negativi.
- Indicizzazione e considerazioni tecniche: dal punto di vista dell’indicizzazione tradizionale, llms.txt è semplicemente un file di testo accessibile pubblicamente. Non c’è evidenza che i motori di ricerca tradizionali lo indicizzino in SERP (e probabilmente non sarebbe di utilità per loro). Tuttavia, c’è la possibilità che Googlebot lo veda come un normale URL e possa indicizzarlo come pagina a sé (specialmente se è linkato da qualche parte). Per sicurezza, alcuni suggeriscono di mettere
llms.txt
(e soprattuttollms-full.txt
se presente) nell’elenco delle URL “noindex” (tramite un meta tag se servito come HTML, oppure più semplicemente aggiungerlo a robots.txt come Disallow per i crawler dei motori di ricerca, mantenendolo però accessibile agli agent AI se identificabili). Questa finezza serve ad evitare che il vostro llms.txt compaia nei risultati di ricerca al posto delle pagine originali, o che i motori lo vedano come duplicato di contenuti già presenti sulle pagine. Ad esempio, se il vostro llms-full.txt include tutta la documentazione, potreste non voler che un utente Google finisca su quel muro di testo invece che sulla documentazione web navigabile. In ogni caso, queste sono precauzioni avanzate; all’atto pratico molti siti lasciano pubblico llms.txt senza restrizioni, confidando che i motori di ricerca lo ignorino (com’è finora).
In breve: llms.txt di per sé oggi non migliora il posizionamento SEO classico, ma è uno strumento di SEO strategico prospettico. Aiuta a proteggere e favorire la visibilità dei contenuti nel contesto delle risposte generate dagli AI, un ambito destinato a crescere. È una forma di ottimizzazione per LLM (LLM-SEO): simile all’ottimizzare per i motori di ricerca prima che diventassero dominanti, c’è un beneficio potenziale nell’esserci già preparati quando l’uso mainstream arriverà.
Nel frattempo, mantenete solide le basi SEO tradizionali (contenuti di qualità, meta-tag, schema, velocità, link, ecc.), perché llms.txt non le rimpiazza e, come detto da Ahrefs, “potrebbe non impattare la tua visibilità online, ma robots.txt sì”. Quindi, non trascurate l’ordinario per lo straordinario: llms.txt integra la vostra strategia di visibilità, non la sostituisce.
Migliori pratiche di implementazione
Di seguito elenchiamo alcune best practice e considerazioni sia tecniche che strategiche per redigere efficacemente i file llms.txt e llms-full.txt:
- Scrittura chiara e concisa: poiché llms.txt sarà “letto” da modelli linguistici, è importante usare un linguaggio semplice e diretto. Evitare gergo non spiegato o frasi ambigue (domains – llms-txt). Meglio descrivere le cose in modo esplicito: ad esempio, invece di “sezione X“, dire “sezione X: raccolta di articoli su…“. Un principio guida delle linee ufficiali è: “usa un linguaggio conciso e chiaro. Includi descrizioni brevi e informative per i link. Evita termini ambigui o tecnicismi non spiegati” (domains – llms-txt).
- Struttura Markdown corretta: rispettare lo schema di intestazioni e sezioni. In particolare, assicurarsi di avere un solo H1 all’inizio, poi nessun altro H1. Usare H2 per introdurre le sezioni di link principali. Non inserire livelli di titoli più profondi (H3, H4) a meno che non facciano parte del contenuto testuale o di llms-full. Se si vuole fornire testo aggiuntivo (istruzioni, note) dentro llms.txt, lo si faccia con paragrafi normali o liste, non con nuove intestazioni fuori dallo schema (o al più considerare una sezione H2 dedicata tipo “## Istruzioni” come visto in alcuni esempi, con cautela perché la spec formale prevedrebbe H2 solo per liste di link). Inoltre, mantenere il file di dimensioni ragionevoli; non elencare ogni singola pagina del sito in llms.txt come fosse una sitemap – bisogna curare una selezione ragionata. Per liste troppo lunghe, suddividerle in più sezioni tematiche oppure spostare dettagli minori nella sezione “Optional”.
- Uso appropriato della sezione Optional: inserire sotto
## Optional
solo contenuti che possono essere trascurati in caso di contesto limitato. Un esempio tipico: in un sito di documentazione software, la sezione optional potrebbe linkare a changelog, note di versione, o approfondimenti storici che non servono sempre per comprendere l’uso corrente del software. In un e-commerce potrebbe essere la pagina “Chi Siamo” o il blog aziendale: utile contesto, ma non critico per rispondere alle domande su prodotti o acquisti. Usare questa sezione aiuta gli LLM a gestire il budget di contesto – sanno che possono dare priorità ad altro se necessario. - Descrizioni informative per i link: ogni link elencato dovrebbe avere una descrizione sintetica dopo i due punti. Questa fungera
da **meta-informazione** per l’LLM. Ad esempio, invece di elencare solo “*Guida Utente*”, meglio “*Guida Utente: istruzioni passo-passo per configurare e utilizzare il prodotto*”. In questo modo, anche senza ancora aver letto la guida, l’AI capisce di cosa tratta e quando dovrebbe consultarla. Tali descrizioni sono paragonabili alle
` per le pagine web – orientano chi legge (in questo caso l’AI) sul contenuto della risorsa linkata. - Aggiornamenti e manutenzione: trattare llms.txt come parte della documentazione viva del sito. Se cambiano sezioni importanti o nascono nuovi contenuti chiave, aggiornare il file di conseguenza. Alcuni includono una riga di “Ultimo aggiornamento” all’inizio (es. in corsivo sotto il titolo) per indicare all’AI la freschezza delle info. Non è standard, ma può essere utile come riferimento. Mantenere consistenza: se un link cambia o viene rimosso dal sito, aggiornarlo anche in llms.txt (è facile dimenticarsene, soprattutto se gestito manualmente). Per siti con deploy frequenti, considerare di automatizzare la generazione del file.
- Automazione e tool: esistono già vari strumenti per aiutare a creare questi file. Ad esempio, servizi come llmstxt.new permettono di generare una bozza di llms.txt partendo dal tuo sito, semplicemente fornendo l’URL. Ci sono anche plugin (per WordPress e altri CMS) e script Python open-source che costruiscono llms.txt a partire dalla sitemap o dalla struttura dei menu. Usare questi tool può far risparmiare tempo, ma ricordarsi di rivedere manualmente il risultato: l’automazione può elencare troppo o troppo poco. L’occhio umano è ancora il migliore nel decidere cosa è davvero essenziale per comprendere un sito.
- Versioni Markdown delle pagine: se possibile, predisporre endpoint
.md
o feed puliti delle pagine principali. Questo non è obbligatorio ma è altamente consigliato, perché in llms.txt possiamo poi linkare direttamente a quelle versioni leggibili dall’AI. Molte piattaforme di documentazione (es. Mintlify, Docusaurus) creano automaticamente la versione markdown dei contenuti, spesso accessibile aggiungendo.md
o.txt
all’URL. In altri casi potreste fornire PDF testuali o JSON con i contenuti. L’importante è che l’URL linkato punti a contenuto testuale privo di layout html complesso, così l’LLM può estrarre conoscenza senza essere distratto da menu, pubblicità o markup. Se non avete modo di fornire versioni alternative, va bene anche linkare alle normali pagine HTML – l’LLM dovrà fare un po’ più di lavoro di parsing HTML, ma almeno saprà dove guardare grazie a llms.txt. - Testare con un LLM: una volta creato (o aggiornato) il llms.txt, conviene testarne l’efficacia simulando il comportamento di un LLM. Potete ad esempio usare GPT-4 (tramite ChatGPT) o Claude di Anthropic caricando il contenuto del file e ponendo domande sul vostro sito. Verificate se l’LLM riesce a trovare le risposte nelle risorse che avete elencato. In caso di risposte confuse, valutate se aggiungere più contesto nel file o link aggiuntivi. Il sito ufficiale suggerisce proprio di “testare con loro” come migliore verifica. Ad esempio, potete fare domande tipo “Quali servizi offre questo sito?” e vedere se l’AI attinge correttamente alla sezione giusta (es. “Key Content” o “Servizi” che avete elencato).
- Considerazioni strategiche: pensate ai casi d’uso di un LLM che naviga il vostro sito. Quali domande potrebbe ricevere per cui vorreste che fornisca la vostra risposta? Strutturate llms.txt in funzione di ciò. Se avete un e-commerce, è probabile che gli utenti chiedano di politica di reso, spedizione internazionale, caratteristiche di un prodotto: assicuratevi che queste info siano facilmente accessibili (magari linkando la sezione FAQ o specifiche del prodotto). Se avete un blog tecnico, magari le domande riguarderanno i “come fare per…”: vale la pena evidenziare le guide pratiche e i tutorial chiave. In breve, mettetevi nei panni dell’AI: datele una bussola per orientarsi nel vostro sito come fareste con un nuovo utente in carne ed ossa.
Esempi di configurazione per diversi tipi di sito
Ogni tipologia di sito web ha priorità informative diverse. Vediamo alcuni esempi pratici di come potrebbe essere strutturato il file llms.txt (e in parte llms-full.txt) per tre tipi di siti: un portale editoriale, un sito di e-commerce e un blog personale.
1. Sito Editoriale (News/Media)
In un sito di notizie o contenuti editoriali, l’obiettivo è aiutare l’LLM a capire la gerarchia delle sezioni tematiche e a trovare articoli o pagine chiave (es. editoriali principali, approfondimenti, ecc.). Probabilmente non si elencheranno tutti gli articoli (sarebbero troppi), ma si fornirà una struttura per argomenti. Ad esempio:
# Daily News 360
> Daily News 360 è un quotidiano online che copre le notizie più importanti dall'Italia e dal mondo, con approfondimenti su politica, economia, cronaca e tecnologia. Fondato nel 2005, offre informazione indipendente 24 ore su 24.
Il nostro portale offre aggiornamenti in tempo reale, reportage esclusivi e rubriche settimanali di analisi.
## Sezioni Principali
- [Politica](https://dailynews360.com/politica.md): Articoli e analisi sul governo, le elezioni e la scena politica italiana ed estera.
- [Economia](https://dailynews360.com/economia.md): Notizie su mercati, aziende, innovazione e lavoro, con approfondimenti finanziari.
- [Cronaca](https://dailynews360.com/cronaca.md): Ultimi fatti di cronaca nera e bianca, dall'Italia e dal mondo, con reportage sul campo.
- [Tecnologia](https://dailynews360.com/tecnologia.md): Novità dal mondo hi-tech, recensioni di gadget e riflessioni sul futuro digitale.
## Contenuti In Evidenza
- [Editoriale del Direttore](https://dailynews360.com/editoriale.md): Opinioni e commenti a cura del direttore su temi di attualità.
- [Dossier Speciali](https://dailynews360.com/dossier.md): Raccolte di articoli su un tema specifico (es. Elezioni 2025, Emergenza Climatica) per un quadro completo.
- [Interviste Esclusive](https://dailynews360.com/interviste.md): Colloqui approfonditi con protagonisti del mondo politico, economico e culturale.
## Risorse e Info
- [Chi Siamo](https://dailynews360.com/chi-siamo.md): La storia della testata, la nostra missione e il team editoriale.
- [Codice Etico](https://dailynews360.com/codice-etico.md): I principi deontologici che seguiamo nel fare informazione.
- [Contatti & Pubblicità](https://dailynews360.com/contatti.md): Come contattare la redazione o richiedere spazi pubblicitari.
## Optional
- [Archivio Articoli](https://dailynews360.com/archivio.md): Archivio cronologico di tutti gli articoli pubblicati, suddivisi per mese e anno.
- [RSS Feed](https://dailynews360.com/feed.xml): Feed RSS per seguire gli aggiornamenti in tempo reale.
Spiegazione: in questo esempio, dopo la presentazione generale, le Sezioni Principali raggruppano le macro-aree tematiche del giornale, ciascuna con un link (idealmente a una pagina indice o una versione markdown di essa) e una descrizione del tipo di contenuti. Poi è presente una sezione “Contenuti In Evidenza” per mettere in risalto pagine speciali o rubriche (che l’LLM potrebbe usare per risposte più qualitative, ad es. spiegare la linea editoriale attraverso l’editoriale del direttore, o fornire contesto tramite i dossier). La sezione Risorse e Info copre le pagine istituzionali e di servizio. Infine la sezione optional include l’archivio completo (per consultazioni storiche) e il feed RSS. Un LLM, avendo questa mappa, se interrogato su “Qual è la posizione di Daily News 360 su X?” saprebbe di poter guardare all’editoriale; per “Cosa è successo sul tema Y?” potrebbe vedere se c’è un dossier; per “Chi ha scritto l’articolo Z?” potrebbe trovare info su chi siamo, etc.
Per un sito editoriale, llms-full.txt potrebbe non essere usato (sarebbe un dump enorme di articoli). Più probabile è che il modello AI, se ben guidato dal llms.txt, scarichi all’occorrenza solo le pagine linkate che servono (ad es. la pagina dossier o l’editoriale specifico). Tuttavia, si potrebbe creare una versione ridotta di llms-full.txt includendo magari solo gli editoriali e dossier speciali in serie, se li si vuole fornire tutti insieme per una panoramica.
2. Sito E-commerce
In un sito di commercio elettronico, l’LLM potrebbe ricevere domande su prodotti, politiche di reso/spedizione, consigli d’acquisto, ecc. Il llms.txt dovrebbe quindi evidenziare dove sono elencati i prodotti (cataloghi o API), e le pagine informative utili. Ecco un esempio per un ipotetico e-commerce:
# Acme Gadget Store
> Acme Gadget Store è un negozio online di elettronica specializzato in smartphone, computer e accessori tech. Offriamo un catalogo con oltre 1000 prodotti delle migliori marche, prezzi competitivi e spedizioni veloci in tutta Italia.
# Acme Gadget Store > Acme Gadget Store è un negozio online di elettronica specializzato in smartphone, computer e accessori tech. Offriamo un catalogo con oltre 1000 prodotti delle migliori marche, prezzi competitivi e spedizioni veloci in tutta Italia. Nel nostro store i clienti trovano descrizioni dettagliate, recensioni utenti e supporto post-vendita per ogni prodotto, oltre a guide all'acquisto per aiutarli a scegliere.
## Catalogo Prodotti - [Categorie Prodotti](https://acme-gadget.com/categorie.md): Lista di tutte le categorie (Smartphone, Laptop, Audio, Gaming, etc.) ciascuna con i prodotti relativi. - [Offerte del Giorno](https://acme-gadget.com/offerte.md): Sezione aggiornata quotidianamente con sconti e promozioni in corso. - [Nuovi Arrivi](https://acme-gadget.com/novita.md): Ultimi prodotti aggiunti in catalogo, con evidenza delle novità più recenti.
## Guide e Risorse Utili - [Guida all'Acquisto](https://acme-gadget.com/guida-acquisto.md): Consigli su come scegliere il dispositivo giusto (es. quale smartphone fa per te, cosa valutare in un laptop). - [FAQ e Supporto](https://acme-gadget.com/faq.md): Domande frequenti su ordini, pagamenti, garanzie e supporto tecnico post-vendita. - [Recensioni & Test](https://acme-gadget.com/recensioni.md): Sezione editoriale con recensioni approfondite dei nostri prodotti più popolari e confronti tra modelli.
## Politiche del Negozio - [Spedizioni e Resi](https://acme-gadget.com/spedizioni-resi.md): Dettagli su metodi e costi di spedizione, tempi di consegna, procedure di reso e rimborso. - [Garanzia Prodotti](https://acme-gadget.com/garanzia.md): Informazioni sulla garanzia ufficiale dei prodotti e sulla nostra estensione di garanzia AcmeCare. - [Privacy e Sicurezza](https://acme-gadget.com/privacy.md): Come trattiamo i dati dei clienti e garantiamo transazioni sicure.
## Optional - [Chi Siamo](https://acme-gadget.com/chi-siamo.md): La storia di Acme Gadget Store, il nostro team e la mission aziendale. - [Blog Tech](https://acme-gadget.com/blog.md): Articoli sul mondo tech, guide d'uso e novità dal settore (risorsa secondaria per approfondimento). - [Contatti](https://acme-gadget.com/contatti.md): Come contattare il nostro servizio clienti (email, numero verde, live chat).
Spiegazione: qui il llms.txt è organizzato in modo da coprire: il Catalogo Prodotti (come navigare l’offerta, con categorie, offerte, nuovi arrivi), le Guide e Risorse (materiale di content marketing e aiuto clienti – utile se l’utente chiede consigli o dettagli tecnici), e le Politiche (tutto ciò che riguarda il servizio, fondamentale se l’AI viene interrogata su “quali sono le condizioni di reso?” o “c’è garanzia di 2 anni?” ecc.). In optional si mettono informazioni aziendali e il blog, che sono meno rilevanti a fini di Q&A transazionale ma comunque utili. Un LLM con questo file potrebbe ad esempio, dato “Mi descrivi le opzioni di reso di Acme Gadget?”, andare dritto alla pagina Spedizioni e Resi che abbiamo esposto, invece di frugare tra termini e condizioni generali. Oppure se chiesto “Quale laptop dovrei comprare per grafica 3D?”, potrebbe sfruttare la Guida all’Acquisto o le Recensioni & Test linkate.
Per llms-full.txt in un e-commerce: si potrebbe pensare di includere ad esempio l’intero catalogo (descrizioni di tutti i prodotti) in un mega-file, ma questo probabilmente è impraticabile per siti grandi. Più sensato sarebbe includere magari solo i testi delle guide e delle policy (che sono discorsivi) in llms-full.txt, mentre per i prodotti usare altri meccanismi (un’API?). Dipende dal contesto. È importante notare che llms.txt non sostituisce le API per le interrogazioni transazionali; se un utente chiede “trova smartphone sotto i 300€”, un LLM non potrà eseguire query sul catalogo come farebbe il motore di ricerca interno. llms.txt qui serve più che altro a far trovare all’AI le informazioni testuali (guide, policy, dettagli) per rispondere correttamente a domande sul negozio e prodotti. La parte transazionale (ricerca di prodotti specifici) resta compito di sistemi tradizionali, almeno finché i plugin AI non evolveranno in tal senso.
3. Blog personale / Sito di contenuti informativi
In un blog o sito personale, spesso i contenuti sono articoli informativi, tutorial o opinioni. llms.txt dovrebbe aiutare a individuare i temi principali e magari i post più rappresentativi. Un esempio per un blog tecnico potrebbe essere:
# Il Blog di Mario Rossi
> "Il Blog di Mario Rossi" è uno spazio personale dove condivido guide, tutorial e opinioni su sviluppo web, marketing digitale e produttività. Dal 2018 pubblico regolarmente articoli pratici e approfondimenti per aiutare professionisti e appassionati a crescere nel mondo digitale.
Gli articoli coprono sia nozioni tecniche (programmazione, SEO, tool) sia consigli su organizzazione e metodi di lavoro efficaci.
## Categorie Principali
- [Sviluppo Web](https://mariorossi.it/blog/sviluppo-web.md): Tutorial su HTML, CSS, JavaScript e framework front-end, con esempi di codice e progetti.
- [Marketing Digitale](https://mariorossi.it/blog/marketing-digitale.md): Strategie di SEO, SEM, social media e content marketing spiegate passo passo.
- [Produttività](https://mariorossi.it/blog/produttivita.md): Consigli e strumenti per migliorare l'efficienza nel lavoro e nella gestione del tempo.
## Articoli in Evidenza
- [Guida Introduttiva a HTML5](https://mariorossi.it/blog/guida-html5.md): Tutorial base per principianti su come creare pagine web con HTML5 (uno degli articoli più letti).
- [Caso Studio SEO: +200% Traffico in 6 Mesi](https://mariorossi.it/blog/caso-seo.md): Come ho ottimizzato un sito aumentando il traffico organico, con dati e strategie adottate.
- [Top 10 App per la Produttività nel 2025](https://mariorossi.it/blog/top10-app-produttivita.md): Recensione comparativa delle migliori applicazioni per organizzarsi e risparmiare tempo.
## Risorse e Info
- [Chi sono](https://mariorossi.it/blog/chi-sono.md): Presentazione dell'autore, il mio background professionale e di cosa mi occupo.
- [Collabora](https://mariorossi.it/blog/collabora.md): Informazioni su come contattarmi per consulenze, guest post o progetti.
- [Newsletter](https://mariorossi.it/blog/newsletter.md): Pagina di iscrizione alla newsletter mensile, per ricevere gli ultimi articoli e contenuti esclusivi.
## Optional
- [Archivio Completo](https://mariorossi.it/blog/archivio.md): Elenco di tutti i post anno per anno e mese per mese.
- [Strumenti Consigliati](https://mariorossi.it/blog/tool-consigliati.md): Una lista di software e servizi che raccomando spesso nei miei articoli (risorsa extra per approfondire).
Spiegazione: qui vediamo un blog con tre macro-categorie (tecnologia, marketing, produttività), e all’interno di ciascuna categoria i vari articoli sono accessibili. llms.txt le elenca per dare all’AI il quadro dei temi trattati. Inoltre, poiché spesso l’utente potrebbe chiedere qualcosa di correlato a un argomento specifico, abbiamo aggiunto una sezione “Articoli in Evidenza” con alcuni post rappresentativi o popolari, in modo da evidenziarli all’LLM. Ad esempio se qualcuno chiede “Come iniziare con HTML5?” l’LLM potrebbe attingere direttamente alla Guida Introduttiva a HTML5 linkata. O se chiede “Quali strumenti consiglia Mario Rossi per la produttività?” potrebbe trovare la risposta in “Strumenti Consigliati” in optional. Le sezioni finali (Chi sono, Collabora, Newsletter) sono lì per fornire contesto sull’autore e opportunità di contatto, ma probabilmente non entrano nelle risposte a meno di domande molto specifiche (tipo “Chi è Mario Rossi?”).
In un blog il file llms-full.txt potrebbe essere una concatenazione di alcuni articoli selezionati (ad esempio tutti quelli di una serie di guide), ma nella maggior parte dei casi potrebbe essere superfluo: probabilmente è più efficiente che l’LLM scarichi solo l’articolo pertinente quando serve. Tuttavia, se il blog ha formato libro/guida, un llms-full che unisce i capitoli avrebbe senso.
llms.txt, robots.txt e sitemap.xml: differenze e interazioni
Per chiarire definitivamente ruoli e differenze, ecco un confronto tra llms.txt (e llms-full.txt) e gli altri file di configurazione noti nel mondo SEO:
File | Scopo | Formato | Supporto/Utilizzo attuale |
---|---|---|---|
robots.txt | Definire regole di accesso per i crawler (quali agent possono o non possono scansionare certe aree). Serve a proteggere risorse sensibili o evitare sovraccarico. | Testo semplice (righe con User-agent e Disallow/Allow etc.). | Standard consolidato dal 1994; tutti i motori di ricerca lo rispettano. Anche i principali crawler LLM (es. OpenAI GPTBot) lo onorano per l’esclusione dei dati. |
sitemap.xml | Elencare tutte le URL del sito da indicizzare, con eventuali meta-dati (ultima modifica, priorità, frequenza aggiornamento). Aiuta i motori a scoprire pagine, ma non dà informazioni sul contenuto ([LLMs.txt Explained | XML (o anche .txt con una URL per linea). | Standard SEO diffuso. Utilizzato dai motori di ricerca (Google, Bing, etc.) per la scoperta di contenuti. Non usato direttamente dagli LLM per comprendere il sito (troppo esteso e non semantico). |
llms.txt | Fornire un overview semantico del sito per LLM: una sorta di “guida” ai contenuti chiave e al loro significato, ottimizzata per essere letta da AI. Aiuta a superare i limiti di contesto dando all’AI un condensato curato dell’architettura informativa del sito. | Markdown strutturato (H1 titolo, blockquote descrittivo, sezioni ## con liste puntate di link e descrizioni). | Standard emergente (proposto nel 2024). Adottato finora da siti tech/documentazione e pochi altri pionieri. Non ufficialmente supportato dai big (Google, OpenAI, MS) al momento, ma utilizzato da alcuni strumenti specializzati e pipeline AI. Potenziale di crescita man mano che l’AI search prende piede. |
llms-full.txt | Fornire all’LLM tutto il contenuto testuale rilevante in un colpo solo. È un supplemento a llms.txt: quest’ultimo indica dove stanno le cose, llms-full le contiene integralmente. Utile per permettere query approfondite o offline (es. chat senza connessione che ha già il file). | Markdown (testo integrale unificato: può contenere titoli, paragrafi, tabelle, codice, proprio come una documentazione concatenata). | Ancora più di nicchia. Usato soprattutto da piattaforme di documentazione e sviluppatori (ad es. progetti open source che offrono un unico file delle docs). Supportato in contesti manuali o tool (caricamento in chatbot come ChatGPT, integrazione in IDE AI). Non consumato dai motori di ricerca. Va gestito con attenzione per dimensioni. |
Come si vede, robots.txt e sitemap.xml restano fondamentali per il SEO tradizionale, mentre llms.txt/llms-full.txt sono strumenti nuovi, focalizzati sull’AI. Non c’è conflitto tra di loro, anzi: llms.txt è progettato per convivere con gli altri standard. Ad esempio, llms.txt può rimandare a sitemap o file JSON/CSV se questi aiutano l’AI a capire dati strutturati del sito. Un scenario virtuoso potrebbe essere: robots.txt regola l’accesso (per evitare abusi o training indesiderati), sitemap.xml elenca tutte le pagine per i crawler tradizionali, e llms.txt fornisce agli LLM un executive summary del sito con link alle versioni “AI-friendly” dei contenuti.
Infine, teniamo presente che siamo agli inizi: llms.txt e llms-full.txt sono in evoluzione. È bene seguire gli aggiornamenti sul sito ufficiale (llmstxt.org) e nella comunità SEO/AI. Google potrebbe in futuro proporre alternative o iniziare a dare peso a questi file, oppure potrebbero emergere meta-tag specifici (alcuni hanno suggerito ad es. un meta tag per consentire/negare uso AI).
Per ora, implementare llms.txt è un esercizio di preparazione e protezione dei contenuti: preparazione, perché alleniamo la nostra struttura informativa per dialogare con AI; protezione, perché esplicitiamo all’AI come vogliamo che legga i nostri dati (riducendo il rischio che fraintenda qualcosa o ne ignori di importanti). In termini di visibilità, non aspettate miracoli immediati, ma considerate questa pratica come un investimento a medio termine nella SEO per l’era dell’intelligenza artificiale.
Fonti: le linee guida e gli esempi qui riportati si basano sulle specifiche ufficiali pubblicate su llmstxt.org, su analisi di esperti SEO e AI.