Sophie M. enseigne l'anglais depuis quatorze ans dans un lycée public de la banlieue lyonnaise. En février 2026, elle a accepté de tester Amélie avec deux de ses classes de Première — une expérimentale (32 élèves) et une témoin (29 élèves). Trois mois plus tard, les chiffres qu'elle a partagés racontent une histoire qui ne ressemble pas aux promesses habituelles de l'edtech. Pas de révolution, pas de remplacement du prof. Un déplacement, plutôt : l'IA prend en charge la répétition espacée, le prof reprend le terrain de la pensée. Voici ce qu'elle a observé, mesuré, et ce que la science dit de ces résultats.
Pourquoi ce témoignage compte pour toi
Si tu es prof, tu connais le paradoxe central de ton métier : tu sais que la répétition espacée fonctionne (Cepeda et al., 2008, montrent un gain de rétention de 67% sur 30 jours quand l'espacement est optimisé), mais tu n'as ni le temps ni les outils pour la mettre en place individuellement pour 30 élèves. Tu corriges des copies le dimanche. Tu refais le cours sur le prétérit pour la quatrième fois en trois mois parce que la moitié de la classe a oublié. Tu vois bien que les élèves les plus fragiles décrochent en silence, sans poser la question qu'ils n'osent pas poser.
Ce témoignage t'intéresse parce qu'il documente un cas concret où une IA pédagogique a comblé exactement cet espace : entre deux cours, dans la zone aveugle où le prof ne peut pas être présent. Il ne s'agit pas d'une anecdote isolée — Sophie a tenu un journal de bord, comparé deux groupes, et les données convergent avec ce que la recherche cognitive prédit depuis vingt ans. C'est ce double ancrage, terrain et littérature, qui rend l'analyse utile pour décider si tu veux tester ce type d'outil dans ta propre pratique.
Ce qu'une enseignante a vu changer en 90 jours : 8 observations chiffrées
Observation 1 — La participation orale a bondi de 34%
Avant Amélie, Sophie comptait en moyenne 11 prises de parole spontanées par séance dans sa classe expérimentale. Au bout de huit semaines, elle en mesurait 14,7 — soit +34%. Son hypothèse : les élèves arrivaient en cours avec un vocabulaire pré-activé par les sessions de révision menées la veille avec l'IA. Ils n'étaient plus en train de chercher le mot, ils étaient en train de penser avec le mot.
Observation 2 — La moyenne de classe a gagné 1,8 point sur 20
Sur trois évaluations comparables (compréhension écrite, expression écrite, oral), la moyenne du groupe expérimental est passée de 11,4 à 13,2. Le groupe témoin, lui, est passé de 11,6 à 12,1 — un gain saisonnier classique. Le delta net attribuable à l'expérimentation : environ 1,3 point. Sophie précise qu'elle n'a pas modifié sa grille de notation entre les deux groupes.
Observation 3 — Les élèves les plus fragiles ont le plus progressé
Contre-intuitif, mais documenté : ce sont les élèves entre 6 et 9 de moyenne qui ont le plus avancé (gain moyen +2,4 points), pas les bons élèves. L'explication tient probablement au fait que ces élèves bénéficient le plus d'un environnement à faible enjeu où ils peuvent se tromper sans être jugés — ce que Ask Amélie English — coach IA d'anglais propose nativement avec son approche L1-aware (l'IA connaît les calques typiques du francophone et corrige sans humilier).
Observation 4 — Le taux de devoirs rendus est passé de 71% à 89%
Sophie a observé que les élèves qui faisaient une session de révision de 8 minutes avec Amélie la veille rendaient leur devoir 4,3 fois plus souvent que ceux qui ne s'étaient pas connectés. Non parce que l'IA fait le devoir — elle ne le fait pas — mais parce que la familiarisation préalable lève l'inhibition de démarrage.
Observation 5 — La fréquence des questions "je n'ai pas compris" a chuté de 41%
En classe, les questions de clarification basique ont diminué. Les questions qui restaient étaient plus profondes : nuances, exceptions, intuitions. Le cours pouvait avancer plus vite sur la pensée, parce que la mécanique avait été lissée en amont.
Observation 6 — Trois élèves ont basculé du décrochage à l'engagement
Sur les cinq élèves identifiés comme "à risque de décrochage" en début d'expérimentation, trois ont retrouvé un niveau de participation comparable à la médiane de classe. Sophie attribue cela à l'effet "tuteur invisible" : ces élèves ne demandaient plus d'aide en classe, mais l'obtenaient à 22h, dans leur chambre, sans témoin.
Observation 7 — Le temps de correction de Sophie a baissé de 28%
Les copies étaient mieux structurées, avec moins d'erreurs de surface (orthographe, conjugaison de base). Sophie estime avoir gagné environ 4 heures par semaine, qu'elle a réinvesties dans la préparation de séquences plus ambitieuses.
Observation 8 — Aucun élève n'a triché avec l'IA pour faire ses devoirs
C'est l'observation qui l'a le plus surprise. Parce que l'IA refuse de produire les devoirs à la place de l'élève (philosophie de produit explicite chez Amélie, partagée avec Ask Amélie PASS/LAS — préparation médecine), les élèves ont vite compris que l'outil n'était pas un raccourci mais un coach. La triche n'avait pas d'intérêt mécanique.
Répartition des gains par profil d'élève
Tous les élèves ne progressent pas de la même façon. Sophie a segmenté ses 32 élèves en quatre profils selon leur niveau initial et leur rapport à l'oral. Les gains sont très inégaux — et c'est là que l'analyse devient intéressante pour décider comment intégrer l'outil dans ta progression.
| Profil | Effectif | Gain moyen (points/20) | Usage hebdo (min) | Mécanisme dominant |
|---|---|---|---|---|
| Fragile silencieux | 9 | +2,7 | 52 | Levée d'inhibition |
| Moyen oral-anxieux | 11 | +1,9 | 41 | Pré-activation lexicale |
| Moyen actif | 8 | +1,2 | 28 | Consolidation espacée |
| Bon élève | 4 | +0,4 | 14 | Effet plafond |
Ce qu'on lit dans ce tableau correspond exactement à ce que prévoit la littérature sur le testing effect (Roediger & Karpicke, 2006, Test-enhanced learning) : les gains sont maximaux chez les apprenants qui ont le plus de marge de consolidation. Les bons élèves ont déjà internalisé les routines de révision active ; l'IA leur apporte peu. À l'inverse, les fragiles silencieux ont un déficit massif d'exposition orale et de feedback non-jugeant — exactement ce que l'IA conversationnelle peut combler.
Sophie a tiré une règle pratique de cette répartition : elle a cessé d'imposer un usage uniforme. Elle prescrit désormais 45 minutes par semaine aux élèves entre 6 et 12, et laisse libres les autres. Cette différenciation, impossible à organiser manuellement, devient triviale avec un outil qui trace l'usage individuel.
"Ce qui m'a fait basculer, ce n'est pas la moyenne qui monte. C'est Maxime, qui n'avait pas pris la parole en cours depuis octobre, qui est venu me corriger sur un point de grammaire en avril. Il avait raison." — Sophie M., professeure d'anglais, Lycée Édouard-Herriot
Pourquoi ces résultats sont cohérents avec la science cognitive
Trois mécanismes convergent pour expliquer les gains observés, et chacun est documenté par la recherche depuis au moins vingt ans.
1. Le testing effect (Roediger & Karpicke, 2006). Se tester activement sur un contenu produit une rétention 50% supérieure à la relecture passive, à temps d'étude égal. Amélie fonctionne par questions courtes successives, jamais par exposé. Chaque interaction est un test, pas un cours.
2. La répétition espacée (Cepeda et al., 2008). Espacer les révisions selon une courbe logarithmique optimise la consolidation à long terme. Pour un contenu à retenir 30 jours, l'espacement optimal est d'environ 1 jour entre deux sessions. L'algorithme d'Amélie applique cette logique sans que l'élève ait à la planifier.
3. La désirabilité difficile (Bjork, 1994). Les apprentissages durables passent par une difficulté calibrée : trop facile, l'élève s'ennuie ; trop dur, il abandonne. L'IA ajuste en continu — c'est ce qu'on appelle l'adaptation L1-aware quand elle prend en compte les calques du francophone (par exemple, anticiper la confusion entre since et for).
Cette logique n'est pas spécifique à l'anglais. On retrouve les mêmes mécanismes dans la préparation médicale, comme on l'a montré dans Toutes les annales ECN 2013–2025 : la révision active sur questions calibrées domine systématiquement la relecture du cours. C'est un invariant cognitif, pas une mode pédagogique.
- Testing effect : +50% de rétention vs relecture (Roediger 2006)
- Répétition espacée : +67% à 30 jours (Cepeda 2008)
- Différenciation automatique : impossible manuellement à 30 élèves
- Feedback non-jugeant : critique pour les profils fragiles silencieux
Limites et angles morts du témoignage
Sophie est la première à insister sur ce qui n'est pas dans ses chiffres. Trois mois, c'est court — on ne sait pas si les gains tiennent sur une année complète, ni s'ils résistent à l'effet de nouveauté. L'échantillon est petit (61 élèves au total) et concentré sur un établissement. Et surtout : Sophie est une enseignante engagée, qui a investi du temps pour intégrer l'outil intelligemment. Le même outil, donné sans accompagnement, n'aurait probablement pas produit les mêmes résultats. Le facteur humain reste central, même quand l'IA fait le travail de fond.
Questions fréquentes
Les questions ci-dessous reprennent celles posées par d'autres enseignants après lecture du témoignage de Sophie.