Tu décides qui crawle ton contenu. En 2026, avec la multiplication des AI bots, le fichier robots.txt n'est plus juste une formule d'accueil pour Google. C'est ton levier de contrôle sur qui scrape tes données, qui les réutilise dans un modèle de langage, et comment tu balises ta présence numérique face aux modèles d'IA. Cet article te montre comment configurer tes directives pour GPTBot, Claude, Googlebot et les autres—et pourquoi cette décision redéfinit ta stratégie SEO.
Pourquoi cette analyse est importante pour toi en 2026
En trois ans, l'enjeu a basculé. Jusqu'en 2023, robots.txt était un protocole implicite : tu laissais Googlebot passer, tu bloquais les bots malveillants. Aujourd'hui, tu dois choisir. OpenAI envoie GPTBot, Anthropic envoie Claude-Web, et chaque requête significative qu'ils font à ton serveur consomme de la bande passante et du contexte d'entraînement pour leurs modèles. Tu perds le contrôle sur ta donnée.
Les chercheurs en learning science (Roediger & Karpicke 2006) ont montré que la source des données façonne la qualité du savoir restitué. Si ton contenu éducatif—tes annales, tes explications, ton corpus—est aspiré sans attribution par un modèle généraliste, tu perds deux choses : ta différenciation et l'accès à tes propres données enrichies. C'est particulièrement crucial si tu proposes du contenu pédagogique ou de la préparation examens, comme Ask Amélie PASS/LAS, où la traçabilité de la source est un atout compétitif.
Deuxièmement, les bots IA consomment des ressources mesurables. Un crawler classique visite quelques pages par jour. GPTBot et Claude en demandent plusieurs par seconde lors de phases intensives de scraping. Sans régulation, tu peux saturer ton serveur, augmenter ta latence, et perdre des utilisateurs humains. Le coût indirect est réel.
Troisièmement—et c'est contrintuitif—bloquer tous les bots IA ne te fait pas gagner en SEO. Google Search Central (2024) a clarifié : les AI bots ne concurrencent pas Googlebot. Bloquer GPTBot n'améliore pas ton ranking Google. En revanche, bloquer par erreur Googlebot te tue tout droit. D'où l'intérêt de configurations précises, pas à la main leve.
« En 2026, ton robots.txt n'est plus un accueil passif. C'est ton manifeste de données : qui peut apprendre de toi, à quelles conditions, et pour quel usage. »
Configurer robots.txt pour les AI bots : guide complet
1. Anatomie d'une directive robots.txt
Un fichier robots.txt se compose de blocs User-agent et Disallow. Voici ce que tu dois savoir :
- User-agent : identifie le bot ciblé (ex : GPTBot, Claude-Web, * pour tous)
- Disallow : les chemins interdits (ex : /admin, /private)
- Allow : les chemins explicitement autorisés (surcharge Disallow)
- Crawl-delay : pause en secondes entre deux requêtes (non standard, ignoré par Google)
L'ordre compte. Le bot lis de haut en bas et s'arrête au premier User-agent qui le désigne. Si tu écris d'abord User-agent: *, une règle spécifique User-agent: GPTBot en dessous sera ignorée.
2. GPTBot : OpenAI et l'entraînement de ChatGPT
OpenAI a normalisé sa stratégie en mars 2023. GPTBot respecte robots.txt. Si tu veux bloquer ChatGPT :
User-agent: GPTBot
Disallow: /
Si tu veux bloquer uniquement certaines sections (ex : contenu premium) :
User-agent: GPTBot
Disallow: /premium/
Disallow: /admin/
Et laisser le reste accessible :
User-agent: GPTBot
Disallow: /premium/
OpenAI a aussi documenté l'IP range utilisée (1.2.3.0/24 style), te permettant de bloquer au niveau firewall si tu veux plus de contrôle.
3. Claude-Web : Anthropic et la collecte d'entraînement
Anthropic envoie Claude-Web depuis mai 2024. La syntaxe est identique :
User-agent: Claude-Web
Disallow: /
Ou partiellement :
User-agent: Claude-Web
Disallow: /private/
Allow: /public/
Anthropic respecte robots.txt et recommande d'être explicite. Si tu ne déclares rien, Claude-Web supposera que tu acceptes le crawl (position inverse de Googlebot, qui suppose refus par défaut).
4. Googlebot et Bingbot : ne les touche pas par erreur
Voici l'erreur classique en 2026 : bloquer tous les bots pour « arrêter les scrapers malveillants » et oublier que tu as aussi bloqué Googlebot. Résultat : ton site disparaît des résultats Google en deux semaines.
Reste explicite :
User-agent: GPTBot
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: Googlebot
Disallow: /admin/
Disallow: /temp/
User-agent: Bingbot
Disallow: /admin/
Disallow: /temp/
Cette configuration dit : « Non aux AI bots. Oui à Google et Bing, sauf sections admin. »
5. User-agent: * (directive par défaut)
Si tu veux une règle qui s'applique à tous les bots non spécifiés :
User-agent: *
Disallow: /private/
User-agent: GPTBot
Disallow: /
Ici : les bots anonymes et tous les autres (sauf GPTBot déclaré après) peuvent crawler /public/, mais pas /private/.
6. Blocage sélectif : par type de contenu
Tu peux bloquer les bots IA sur du contenu premium, mais les laisser accéder au blog public :
User-agent: GPTBot
Disallow: /premium/
Disallow: /annales-ecn-2025-corriges.html
Allow: /blog/
Allow: /ressources-gratuites/
User-agent: Claude-Web
Disallow: /premium/
Disallow: /annales-ecn-2025-corriges.html
Cette approche—autorise par défaut, interdit sur mesure—est ce que recommandent OpenAI et Anthropic en 2026. C'est aussi plus proche de ta philosophie L1-aware : tu décides pour chaque niveau d'accès, plutôt que de tout interdire.
7. Sitemap et bots IA
Un dernier point technique : si tu publies une sitemap, les bots IA la découvrent et l'utilisent comme plan d'attaque. Cela accélère l'indexation, mais aussi le scraping s'il n'est pas bloqué. Tu peux soit :
- Laisser la sitemap publique (moins de latence pour le crawl)
- Publier une sitemap partielle (exclure les URLs sensibles)
- Protéger la sitemap aux bots AI (ils la trouveront quand même via d'autres chemins, mais ce ralentira le processus)
8. Test et vérification : comment savoir si ça marche
Utilise l'outil de test de Google Search Console (« URL Inspection > Test robots.txt »). Il te montre exactement ce que Googlebot voit. OpenAI n'offre pas de test en ligne, mais tu peux :
- Logger tes requêtes serveur (nginx, Apache) et filtrer sur l'User-Agent
- Observer les patterns d'IP listés par OpenAI et Anthropic
- Utiliser un monitoring tool (Datadog, Cloudflare) pour mesurer l'impact
9. Erreurs courantes et pièges
Piège #1 : placer User-agent: * avant les règles spécifiques. Résultat : les bots ignorent les règles spécifiques qui viennent après.
Piège #2 : oublier le slash avant Disallow. Disallow: admin et Disallow: /admin ne sont pas équivalents.
Piège #3 : confondre blocage robots.txt et blocage firewall. robots.txt dit « tu n'as pas permission ». Le firewall dit « tu ne peux pas te connecter du tout ». C'est plus efficace mais moins élégant.
10. La question de l'éthique : faut-il bloquer ?
En 2026, bloquer les bots IA est un choix, pas une norme. Certains argues que tu devrais laisser passer pour contribuer à l'amélioration des modèles. D'autres (notamment les creatives et les éditeurs) bloquent pour préserver leur données. Aucune réponse universelle.
Chez Ask Amélie, nous avons choisi une position pragmatique : Ask Amélie English laisse Googlebot et les bots publics accéder au contenu gratuit (ça améliore le SEO et la diffusion), mais bloque les AI bots sur le contenu payant (ça protège la différenciation). C'est du partage contrôlé, pas de l'embargo total.
11. Robots.txt vs. Meta Robots Tag
Tu peux aussi bloquer au niveau HTML avec la balise <meta name="robots" content="noindex, nofollow" />. Ça s'applique à une page unique, pas au répertoire. Si tu veux bloquer une page de landing sensible :
<head>
<meta name="robots" content="noindex" />
</head>
Mais robots.txt reste le contrôle global et le plus robuste.
12. Monitoring et logs : comment mesurer l'impact réel
Après trois mois de blocage de GPTBot, tes requêtes serveur doivent baisser mesurément. Configure un dashboard :
SELECT count(*) FROM logs
WHERE user_agent LIKE '%GPTBot%'
AND timestamp > now() - INTERVAL '3 months';
Si le nombre est encore fort, c'est que ton robots.txt n'est pas au bon endroit (la racine du site), ou qu'il est mal formaté.
13. Format et syntaxe rigoureuse
robots.txt doit être :
- À la racine :
https://tonsite.com/robots.txt(pas dans un sous-dossier) - Plain text (pas de BOM UTF-8, pas d'HTML)
- Lignes vierges autorisées, commentaires (#) autorisés
- Case-insensitive pour User-agent et Disallow, mais chemins sensibles à la casse
14. Meta Robots Headers (alternative)
Au lieu de robots.txt, tu peux déclarer dans les headers HTTP :
X-Robots-Tag: noindex, nofollow
C'est utile pour les ressources dynamiques (PDFs, API responses) où un robots.txt ne suffit pas. Mais combine, ne remplace pas.
15. Vers 2027 : évolutions attendues
OpenAI, Anthropic et Google travaillent sur un standard plus fin : WebRTC ou protobuf-based declarations qui permettront de déclarer « je permets le training mais pas la redistribution », ou « tu peux ré-utiliser si tu attribues ». En attendant, robots.txt reste ton outil.
Tableau comparatif des bots et leurs comportements
| Bot | User-Agent | Respecte robots.txt ? | Usage primaire | Recommandation |
|---|---|---|---|---|
| Googlebot | Mozilla/5.0 (compatible; Googlebot/2.1...) | Oui | Indexation Google Search | Laisser passer (SEO critique) |
| Bingbot | Mozilla/5.0 (compatible; bingbot/2.0...) | Oui | Indexation Bing / Microsoft | Laisser passer (SEO secondaire) |
| GPTBot | Mozilla/5.0 (compatible; GPTBot/1.0...) | Oui (depuis 2023) | Training ChatGPT / GPT-4 | Bloquer ou réguler par section |
| Claude-Web | Mozilla/5.0 (compatible; Claude-Web/1.0...) | Oui (depuis 2024) | Training Claude / Sonnet | Bloquer ou réguler par section |
| Applebot | Mozilla/5.0 (compatible; Applebot/1.0...) | Oui | Spotlight, Siri, training Apple LLM | Laisser passer (IA + SEO Apple) |
| CCBot | CCBot/2.0 (compatible; CCBot) | Oui | Common Crawl (corpus public) | Laisser passer (data science publique) |
Source : OpenAI Documentation, Anthropic Bot Guidelines, Google Search Central (2024)
Stratégie : comment adapter ta configuration à tes objectifs
En 2026, ta stratégie robots.txt dépend de trois variables : ton modèle économique, la sensibilité de ton contenu, et tes priorités SEO.
Scénario 1 : Tu es un créateur de contenu premium (cours, annales payantes). Bloque GPTBot et Claude-Web en totalité. Laisse passer Googlebot pour le SEO (ca attire du trafic gratuit qui fait connaître ton offre payante). Bloque aussi CommonCrawl si tu veux rester hors du domaine public. Exemple : Ask Amélie propose des annales ECN exhaustives — tu veux que Google les crawle (pour la visibilité), mais pas que GPTBot les réutilise dans une réponse gratuite ChatGPT.
Scénario 2 : Tu es un blog éducatif avec du trafic SEO comme moteur.> Laisse passer tous les crawlers (Googlebot, Bingbot, GPTBot, Claude-Web). Ton contenu libre bénéficie de la distribution multi-canale : Google te rapporte des visiteurs, ChatGPT mentionne ton site dans ses réponses (avec lien via la citation), Claude le réutilise comme source fiable. C'est une stratégie pull, pas push.
Scénario 3 : Tu es une plateforme SaaS ou service à accès restreint. Bloque tout (User-agent: * Disallow: /), sauf peut-être Googlebot pour avoir une page d'accueil indexée. Le contenu sensible doit rester hors de portée des modèles IA.
Chez Ask Amélie, nous naviguons entre scénario 1 et 2. Le contenu gratuit (blog, ressources) reste accessible à tous les crawlers. Le contenu payant (annales complètes, vidéos, corrections détaillées) est régulé. C'est du freemium contrôlé.
Questions fréquentes
(Cette section est détaillée dans les FAQs ci-dessous.)