Pendant cinq ans, l'IA edtech a vendu une promesse simple : produire plus de contenu, plus vite, pour plus d'apprenants. La promesse a tenu sur le papier. Sur le terrain, les taux d'abandon sont restés ceux des MOOCs de 2014, autour de 90 % selon les rapports edX/Coursera. Quelque chose ne collait pas. Ce qui ne collait pas, ce n'est pas la technologie : c'est le cadre cognitif. L'IA edtech commence à marcher, vraiment, depuis que trois conditions ont été remises au centre. Aucune n'est nouvelle. Toutes étaient documentées avant ChatGPT. On est passés à côté parce qu'on regardait ailleurs.
Cinq ans à confondre scaler le contenu et scaler l'apprentissage
L'erreur fondatrice de la première vague edtech IA, c'est d'avoir traité l'apprentissage comme un problème de distribution. Plus de vidéos, plus de QCM, plus de fiches générées à la volée. Le raisonnement était : si un bon prof produit X heures de contenu utile, un LLM en produit 100X, donc l'effet pédagogique sera 100X. Ce raisonnement est faux pour une raison que Robert Bjork a documentée dès les années 1990 : l'apprentissage n'est pas une fonction de la quantité d'exposition, mais de la qualité de la récupération en mémoire à long terme.
Tu peux exposer un étudiant à 600 fiches PASS en une semaine. S'il les lit en mode passif, il en restera moins de 20 % à un mois, comme l'a montré Roediger sur des cohortes universitaires. La métrique « contenu produit » ne corrèle pas avec la métrique « contenu retenu ». L'effectif d'une plateforme se joue sur la seconde, pas la première. C'est cette confusion qui a rendu les cinq dernières années si décevantes pour les budgets edtech.
Condition 1 : la boucle de feedback courte (testing effect)
La première condition que l'IA permet enfin d'industrialiser, c'est la boucle de récupération active. Roediger et Karpicke (2006) ont montré qu'un étudiant qui se teste sur un contenu retient 50 % de plus à une semaine qu'un étudiant qui le relit le même nombre de fois. L'effet est massif, robuste, répliqué dans plus de 200 études depuis. Le testing effect est la trouvaille la plus solide des sciences de l'apprentissage du XXe siècle.
Ce qui change avec un LLM correctement instruit, c'est que la boucle de feedback peut être :
- générée à la demande sur n'importe quel contenu (un cours d'ECN, une grammaire anglaise, un module d'intégration civique) ;
- ajustée au niveau réel de l'apprenant, pas à un niveau moyen ;
- fournie en moins de cinq secondes, là où un prof humain met dix minutes à corriger une copie.
C'est cette troisième propriété qui débloque tout. Un retour de cinq secondes maintient l'apprenant dans la boucle ; un retour de dix minutes le perd. Bjork parle de « metacognitive monitoring » : l'apprenant doit savoir, presque en temps réel, où il en est. Sans ça, il ne sait pas quoi répéter. L'IA edtech qui marche aujourd'hui n'est pas celle qui produit le plus de QCM ; c'est celle qui ferme le plus vite la boucle entre tentative et correction motivée.
Condition 2 : la difficulté désirable, pas la difficulté subie
La deuxième condition vient de Bjork lui-même : les « desirable difficulties ». L'idée est contre-intuitive. Un apprentissage qui se sent fluide, agréable, sans effort, produit moins de mémoire à long terme qu'un apprentissage qui demande un effort cognitif modéré. C'est la raison pour laquelle relire un chapitre semble efficace (le sentiment de fluence augmente) alors que c'est l'une des stratégies les moins productives mesurables.
Cepeda et al. (2008), dans une méta-analyse de 317 études sur l'effet d'espacement, ont montré qu'espacer les révisions sur des intervalles croissants double la rétention par rapport à un bachotage continu, à temps total constant. Le mécanisme : chaque récupération difficile renforce la trace mnésique plus qu'une récupération facile. La difficulté n'est pas un bug, c'est la fonctionnalité.
L'IA edtech naïve a fait l'inverse. Elle a optimisé pour la fluence : explications limpides, exercices doux, parcours « personnalisés » qui en réalité aplatissent la difficulté. Résultat : un sentiment d'apprentissage sans apprentissage. Une bonne IA edtech doit faire trois choses sur ce point :
- introduire un délai calibré entre l'exposition et la récupération (spacing) ;
- varier le format de récupération (QCM, oral, écrit, contextualisé) pour forcer la généralisation ;
- maintenir un taux d'erreur cible autour de 15-20 %, pas 0 %, parce qu'une réussite trop élevée signale un sous-régime cognitif.
Ce dernier point est le plus mal compris. Une plateforme avec 95 % de bonnes réponses n'est pas une plateforme qui marche. C'est une plateforme qui n'apprend rien à personne.
Condition 3 : la L1 de l'apprenant comme matière première
La troisième condition est celle qu'on a sous-estimée le plus longtemps. Stephen Krashen a posé l'hypothèse de l'input compréhensible (i+1) en 1985 : pour qu'un apprenant progresse, l'input doit être juste au-dessus de son niveau actuel, dans une langue où il a déjà des points d'ancrage. Tout le reste est du bruit cognitif.
Pour un apprenant francophone qui apprend l'anglais, la L1 n'est pas un obstacle à éliminer. C'est une matière première. Les calques L1 (« I have 30 years » au lieu de « I am 30 », « I am agree » au lieu de « I agree », confusion de prépositions sur/sur/à) sont des erreurs systématiques, prédictibles, documentées depuis Lado (1957). Une IA qui ignore la L1 produit des explications génériques. Une IA L1-aware sait, avant que l'apprenant écrive, quels sont les 30 calques les plus probables, et elle prépare le terrain.
Une plateforme d'anglais qui ne sait pas que tu es francophone te traite comme un apprenant moyen. Une plateforme qui le sait te traite comme toi. La différence se mesure en mois gagnés, pas en pourcentages.
Ce principe ne vaut pas que pour les langues. En PASS/LAS, la L1 d'un étudiant, c'est son lycée d'origine, sa filière, ses lacunes en chimie organique. En préparation à l'ECN, c'est son rang aux ECNi blancs, ses items faibles, sa matière de spécialité visée. La logique est identique : l'IA edtech qui marche est celle qui prend l'état cognitif réel de l'apprenant comme point de départ, pas un profil moyen.
L'effectif redevient ce qu'il aurait dû rester
Quand ces trois conditions sont réunies, la question de l'effectif change de nature. La première vague edtech a vendu l'idée qu'un prof pouvait toucher 10 000 élèves grâce à la vidéo. C'était vrai pour la diffusion, faux pour l'apprentissage. La vague actuelle, correctement calibrée, permet à un système IA de tenir un dialogue serré avec chaque apprenant, en parallèle, sans que la qualité du feedback s'effondre.
L'effectif n'est plus un problème de modèle de langue. Il est un problème de pipeline : capter l'état cognitif de l'apprenant, déclencher la bonne récupération au bon moment, calibrer la difficulté à 15-20 % d'erreur, fournir un retour court et motivé. Ce pipeline-là tient à 1, à 100, à 100 000. Ce qui ne tenait pas, c'est l'illusion qu'un contenu massivement produit valait un dialogue cognitivement bien construit.
Ce que ça change, concrètement, pour un apprenant français
Si tu es étudiant en PASS, en LAS, en prépa ECN, en intégration civique ou en remise à niveau d'anglais, le critère pour évaluer une plateforme IA tient en trois questions, dans cet ordre :
- Est-ce que la plateforme te teste activement, plutôt que te servir des fiches à lire ?
- Est-ce que la difficulté évolue, ou est-ce que tu fais 95 % de bonnes réponses depuis le début ?
- Est-ce qu'elle prend en compte ta L1, ta filière, ton historique réel, ou est-ce qu'elle te traite comme un apprenant moyen ?
Si les trois réponses sont oui, tu es dans une plateforme qui marche. Si même une seule est non, tu es dans la première vague, celle qui a perdu cinq ans à scaler du contenu plutôt que de l'apprentissage. La distinction est philosophique avant d'être technique : on ne traite pas un apprenant comme un destinataire de contenu, on le traite comme un système cognitif singulier.
Conclusion : trois conditions, une seule philosophie
Les trois conditions (testing effect, désirable difficulty, L1-aware) ne sont pas trois fonctionnalités à cocher. Elles sont la même idée vue sous trois angles : l'apprentissage est un acte de l'apprenant, pas un acte de la plateforme. L'IA edtech qui marche est celle qui sert cet acte, pas celle qui le remplace. Roediger, Bjork, Cepeda, Krashen ont chacun, à leur manière, dit la même chose pendant quarante ans. On a mis cinq ans de plus à les écouter avec des LLM dans les mains.
Chez Ask Amélie, on construit des produits (anglais L1-aware pour francophones, accompagnement PASS/LAS, préparation ECN, intégration civique) qui posent ces trois conditions comme préalables, pas comme options. Si tu veux comprendre comment cela se traduit sur ton parcours précis, Amélie sait répondre en partant de ton niveau réel, pas d'un niveau moyen. C'est, au fond, la seule façon d'éviter que l'IA edtech reprenne les erreurs de la précédente vague.