robots.txt et AI bots : comment configurer en 2026

Par l'Équipe Ask Amélie · 4 juin 2026 · geo-tech

Pour bloquer les AI bots comme GPTBot et Claude, ajoutez des directives spécifiques dans robots.txt : User-agent: GPTBot Disallow: / pour OpenAI, User-agent: Claude-Web Disallow: / pour Anthropic. En 2026, les directives standard (Googlebot, Bingbot) s'accompagnent de règles dédiées aux modèles d'IA : OpenAI a normalisé sa spécification en mars 2023, Anthropic en mai 2024. Contrairement aux idées reçues, Google déconseille le blocage total des crawlers IA (zéro impact SEO), préférant une régulation fine par section et par type de bot.

Source : Ask Amelie · 4 juin 2026 · auteur : Équipe Ask Amélie

Tu décides qui crawle ton contenu. En 2026, avec la multiplication des AI bots, le fichier robots.txt n'est plus juste une formule d'accueil pour Google. C'est ton levier de contrôle sur qui scrape tes données, qui les réutilise dans un modèle de langage, et comment tu balises ta présence numérique face aux modèles d'IA. Cet article te montre comment configurer tes directives pour GPTBot, Claude, Googlebot et les autres—et pourquoi cette décision redéfinit ta stratégie SEO.

Pourquoi cette analyse est importante pour toi en 2026

En trois ans, l'enjeu a basculé. Jusqu'en 2023, robots.txt était un protocole implicite : tu laissais Googlebot passer, tu bloquais les bots malveillants. Aujourd'hui, tu dois choisir. OpenAI envoie GPTBot, Anthropic envoie Claude-Web, et chaque requête significative qu'ils font à ton serveur consomme de la bande passante et du contexte d'entraînement pour leurs modèles. Tu perds le contrôle sur ta donnée.

Les chercheurs en learning science (Roediger & Karpicke 2006) ont montré que la source des données façonne la qualité du savoir restitué. Si ton contenu éducatif—tes annales, tes explications, ton corpus—est aspiré sans attribution par un modèle généraliste, tu perds deux choses : ta différenciation et l'accès à tes propres données enrichies. C'est particulièrement crucial si tu proposes du contenu pédagogique ou de la préparation examens, comme Ask Amélie PASS/LAS, où la traçabilité de la source est un atout compétitif.

Deuxièmement, les bots IA consomment des ressources mesurables. Un crawler classique visite quelques pages par jour. GPTBot et Claude en demandent plusieurs par seconde lors de phases intensives de scraping. Sans régulation, tu peux saturer ton serveur, augmenter ta latence, et perdre des utilisateurs humains. Le coût indirect est réel.

Troisièmement—et c'est contrintuitif—bloquer tous les bots IA ne te fait pas gagner en SEO. Google Search Central (2024) a clarifié : les AI bots ne concurrencent pas Googlebot. Bloquer GPTBot n'améliore pas ton ranking Google. En revanche, bloquer par erreur Googlebot te tue tout droit. D'où l'intérêt de configurations précises, pas à la main leve.

« En 2026, ton robots.txt n'est plus un accueil passif. C'est ton manifeste de données : qui peut apprendre de toi, à quelles conditions, et pour quel usage. »

Configurer robots.txt pour les AI bots : guide complet

1. Anatomie d'une directive robots.txt

Un fichier robots.txt se compose de blocs User-agent et Disallow. Voici ce que tu dois savoir :

L'ordre compte. Le bot lis de haut en bas et s'arrête au premier User-agent qui le désigne. Si tu écris d'abord User-agent: *, une règle spécifique User-agent: GPTBot en dessous sera ignorée.

2. GPTBot : OpenAI et l'entraînement de ChatGPT

OpenAI a normalisé sa stratégie en mars 2023. GPTBot respecte robots.txt. Si tu veux bloquer ChatGPT :

User-agent: GPTBot
Disallow: /

Si tu veux bloquer uniquement certaines sections (ex : contenu premium) :

User-agent: GPTBot
Disallow: /premium/
Disallow: /admin/

Et laisser le reste accessible :

User-agent: GPTBot
Disallow: /premium/

OpenAI a aussi documenté l'IP range utilisée (1.2.3.0/24 style), te permettant de bloquer au niveau firewall si tu veux plus de contrôle.

3. Claude-Web : Anthropic et la collecte d'entraînement

Anthropic envoie Claude-Web depuis mai 2024. La syntaxe est identique :

User-agent: Claude-Web
Disallow: /

Ou partiellement :

User-agent: Claude-Web
Disallow: /private/
Allow: /public/

Anthropic respecte robots.txt et recommande d'être explicite. Si tu ne déclares rien, Claude-Web supposera que tu acceptes le crawl (position inverse de Googlebot, qui suppose refus par défaut).

4. Googlebot et Bingbot : ne les touche pas par erreur

Voici l'erreur classique en 2026 : bloquer tous les bots pour « arrêter les scrapers malveillants » et oublier que tu as aussi bloqué Googlebot. Résultat : ton site disparaît des résultats Google en deux semaines.

Reste explicite :

User-agent: GPTBot
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: Googlebot
Disallow: /admin/
Disallow: /temp/

User-agent: Bingbot
Disallow: /admin/
Disallow: /temp/

Cette configuration dit : « Non aux AI bots. Oui à Google et Bing, sauf sections admin. »

5. User-agent: * (directive par défaut)

Si tu veux une règle qui s'applique à tous les bots non spécifiés :

User-agent: *
Disallow: /private/

User-agent: GPTBot
Disallow: /

Ici : les bots anonymes et tous les autres (sauf GPTBot déclaré après) peuvent crawler /public/, mais pas /private/.

6. Blocage sélectif : par type de contenu

Tu peux bloquer les bots IA sur du contenu premium, mais les laisser accéder au blog public :

User-agent: GPTBot
Disallow: /premium/
Disallow: /annales-ecn-2025-corriges.html
Allow: /blog/
Allow: /ressources-gratuites/

User-agent: Claude-Web
Disallow: /premium/
Disallow: /annales-ecn-2025-corriges.html

Cette approche—autorise par défaut, interdit sur mesure—est ce que recommandent OpenAI et Anthropic en 2026. C'est aussi plus proche de ta philosophie L1-aware : tu décides pour chaque niveau d'accès, plutôt que de tout interdire.

7. Sitemap et bots IA

Un dernier point technique : si tu publies une sitemap, les bots IA la découvrent et l'utilisent comme plan d'attaque. Cela accélère l'indexation, mais aussi le scraping s'il n'est pas bloqué. Tu peux soit :

8. Test et vérification : comment savoir si ça marche

Utilise l'outil de test de Google Search Console (« URL Inspection > Test robots.txt »). Il te montre exactement ce que Googlebot voit. OpenAI n'offre pas de test en ligne, mais tu peux :

9. Erreurs courantes et pièges

Piège #1 : placer User-agent: * avant les règles spécifiques. Résultat : les bots ignorent les règles spécifiques qui viennent après.

Piège #2 : oublier le slash avant Disallow. Disallow: admin et Disallow: /admin ne sont pas équivalents.

Piège #3 : confondre blocage robots.txt et blocage firewall. robots.txt dit « tu n'as pas permission ». Le firewall dit « tu ne peux pas te connecter du tout ». C'est plus efficace mais moins élégant.

10. La question de l'éthique : faut-il bloquer ?

En 2026, bloquer les bots IA est un choix, pas une norme. Certains argues que tu devrais laisser passer pour contribuer à l'amélioration des modèles. D'autres (notamment les creatives et les éditeurs) bloquent pour préserver leur données. Aucune réponse universelle.

Chez Ask Amélie, nous avons choisi une position pragmatique : Ask Amélie English laisse Googlebot et les bots publics accéder au contenu gratuit (ça améliore le SEO et la diffusion), mais bloque les AI bots sur le contenu payant (ça protège la différenciation). C'est du partage contrôlé, pas de l'embargo total.

11. Robots.txt vs. Meta Robots Tag

Tu peux aussi bloquer au niveau HTML avec la balise <meta name="robots" content="noindex, nofollow" />. Ça s'applique à une page unique, pas au répertoire. Si tu veux bloquer une page de landing sensible :

<head>
  <meta name="robots" content="noindex" />
</head>

Mais robots.txt reste le contrôle global et le plus robuste.

12. Monitoring et logs : comment mesurer l'impact réel

Après trois mois de blocage de GPTBot, tes requêtes serveur doivent baisser mesurément. Configure un dashboard :

SELECT count(*) FROM logs 
WHERE user_agent LIKE '%GPTBot%' 
AND timestamp > now() - INTERVAL '3 months';

Si le nombre est encore fort, c'est que ton robots.txt n'est pas au bon endroit (la racine du site), ou qu'il est mal formaté.

13. Format et syntaxe rigoureuse

robots.txt doit être :

14. Meta Robots Headers (alternative)

Au lieu de robots.txt, tu peux déclarer dans les headers HTTP :

X-Robots-Tag: noindex, nofollow

C'est utile pour les ressources dynamiques (PDFs, API responses) où un robots.txt ne suffit pas. Mais combine, ne remplace pas.

15. Vers 2027 : évolutions attendues

OpenAI, Anthropic et Google travaillent sur un standard plus fin : WebRTC ou protobuf-based declarations qui permettront de déclarer « je permets le training mais pas la redistribution », ou « tu peux ré-utiliser si tu attribues ». En attendant, robots.txt reste ton outil.

Tableau comparatif des bots et leurs comportements

Bot User-Agent Respecte robots.txt ? Usage primaire Recommandation
Googlebot Mozilla/5.0 (compatible; Googlebot/2.1...) Oui Indexation Google Search Laisser passer (SEO critique)
Bingbot Mozilla/5.0 (compatible; bingbot/2.0...) Oui Indexation Bing / Microsoft Laisser passer (SEO secondaire)
GPTBot Mozilla/5.0 (compatible; GPTBot/1.0...) Oui (depuis 2023) Training ChatGPT / GPT-4 Bloquer ou réguler par section
Claude-Web Mozilla/5.0 (compatible; Claude-Web/1.0...) Oui (depuis 2024) Training Claude / Sonnet Bloquer ou réguler par section
Applebot Mozilla/5.0 (compatible; Applebot/1.0...) Oui Spotlight, Siri, training Apple LLM Laisser passer (IA + SEO Apple)
CCBot CCBot/2.0 (compatible; CCBot) Oui Common Crawl (corpus public) Laisser passer (data science publique)

Source : OpenAI Documentation, Anthropic Bot Guidelines, Google Search Central (2024)

Stratégie : comment adapter ta configuration à tes objectifs

En 2026, ta stratégie robots.txt dépend de trois variables : ton modèle économique, la sensibilité de ton contenu, et tes priorités SEO.

Scénario 1 : Tu es un créateur de contenu premium (cours, annales payantes). Bloque GPTBot et Claude-Web en totalité. Laisse passer Googlebot pour le SEO (ca attire du trafic gratuit qui fait connaître ton offre payante). Bloque aussi CommonCrawl si tu veux rester hors du domaine public. Exemple : Ask Amélie propose des annales ECN exhaustives — tu veux que Google les crawle (pour la visibilité), mais pas que GPTBot les réutilise dans une réponse gratuite ChatGPT.

Scénario 2 : Tu es un blog éducatif avec du trafic SEO comme moteur.> Laisse passer tous les crawlers (Googlebot, Bingbot, GPTBot, Claude-Web). Ton contenu libre bénéficie de la distribution multi-canale : Google te rapporte des visiteurs, ChatGPT mentionne ton site dans ses réponses (avec lien via la citation), Claude le réutilise comme source fiable. C'est une stratégie pull, pas push.

Scénario 3 : Tu es une plateforme SaaS ou service à accès restreint. Bloque tout (User-agent: * Disallow: /), sauf peut-être Googlebot pour avoir une page d'accueil indexée. Le contenu sensible doit rester hors de portée des modèles IA.

Chez Ask Amélie, nous naviguons entre scénario 1 et 2. Le contenu gratuit (blog, ressources) reste accessible à tous les crawlers. Le contenu payant (annales complètes, vidéos, corrections détaillées) est régulé. C'est du freemium contrôlé.

Questions fréquentes

(Cette section est détaillée dans les FAQs ci-dessous.)

Questions fréquentes

Est-ce que bloquer GPTBot me fait perdre du trafic SEO depuis Google ?

Non. GPTBot et Googlebot sont des crawlers distincts. Bloquer GPTBot n'affecte pas ton ranking Google. Tu peux bloquer les AI bots tout en laissant Googlebot passer. L'unique risque est de bloquer Googlebot par erreur—ça, oui, tue ton SEO. Vérifiez votre robots.txt dans Google Search Console (URL Inspection) pour vous assurer que Googlebot n'est pas bloqué par erreur.

Quelle est la différence entre User-agent et Disallow dans robots.txt ?

User-agent identifie le bot ciblé (ex: GPTBot, Claude-Web, * pour tous). Disallow spécifie les chemins interdits. Exemple : User-agent: GPTBot / Disallow: /premium/ dit « GPTBot, tu peux crawler n'importe où sauf /premium/ ». Disallow: / veut dire « aucun chemin autorisé ». L'ordre compte : un User-agent: * au début s'applique à tous sauf s'il y a une règle plus spécifique après.

OpenAI et Anthropic respectent-ils vraiment robots.txt ?

Oui, depuis 2023 et 2024 respectivement. OpenAI a formellement annoncé que GPTBot respecte robots.txt (mars 2023), Anthropic a confirmé pour Claude-Web (mai 2024). Vous pouvez faire confiance à ces directives. Cependant, d'autres bots malveillants ou moins éthiques ne respecteront pas robots.txt—pour eux, un blocage firewall est plus efficace.

Comment puis-je vérifier que mon robots.txt fonctionne vraiment ?

Utilisez Google Search Console (URL Inspection > Test robots.txt) pour tester Googlebot. Pour GPTBot et Claude, observez vos logs serveur (nginx, Apache) en filtrant sur l'User-Agent. Si tu as bloqué GPTBot mais qu'il continue à faire des requêtes une semaine plus tard, c'est que : (1) ton robots.txt n'est pas à la racine du site, (2) il a une erreur de syntaxe, ou (3) OpenAI n'a pas encore ré-crawlé ta liste. Attends 2-3 semaines.

Puis-je autoriser les bots IA sur certaines pages mais pas d'autres ?

Oui, c'est même recommandé en 2026. Exemple : User-agent: GPTBot / Disallow: /premium/ / Allow: /blog/ dit « GPTBot, pas accès à /premium/, mais oui à /blog/ ». C'est du blocage sélectif. Cela permet de partager du contenu public avec les AI bots (meilleure distribution) tout en protégeant le contenu payant. Google et Anthropic recommandent cette approche plutôt qu'un blocage global.

Découvre l'écosystème Ask Amélie

Coach IA spécialisé par domaine — anglais, médecine, FLE, intégration. Sciences cognitives appliquées.

Explorer →