Revenir au site

LeWorldModel : quand l'IA n'apprend plus à parler, mais à anticiper


Le sujet n'est pas neuf puisque David Ha et Jürgen Schmidhuber publiaient un papier intitulé « World Models » dès 2018, et Yann LeCun a posé sa thèse JEPA dans une publication de 2022. Ce qui change en 2025-2026, c'est à la fois une vague d'annonces techniques :

  • DeepMind dévoile Genie 3 le 5 août 2025, NVIDIA lance Cosmos au CES en janvier 2025 et publie une mise à jour majeure début 2026,
  • Wayve publie GAIA-2 en mars 2025 puis GAIA-3 en décembre 2025,
  • DreamerV3 fait l'objet d'une publication dans Nature en avril 2025, LeWorldModel de AMIl@bs est déposé sur arXiv le 13 mars 2026.)

et une forte accélération des investissements :

  • le 18-19 février 2026, World Labs a annoncé une levée de 1 milliard de dollars, avec AMD, Autodesk, Emerson Collective, Fidelity, NVIDIA et Sea avec une rumeur de valorisation rumorée à 5 Md$.
  • AMI Labs a annoncé le 9 mars 2026 un seed round de 1,03 milliard de dollars à une valorisation pré-money de 3,5 milliards, le plus important seed round jamais levé par une entreprise européenne.
  • Wayve a annoncé le 25 février 2026 une Series D de 1,2 milliard de dollars à une valorisation post-money de 8,6 Md$, étendue de 60 M$ par AMD, Arm et Qualcomm le 15 avril 2026 ; le chiffre de 1,5 Md$ que Wayve communique inclut
    un engagement milestone-based séparé de 300 M$ d'Uber pour des déploiements de robotaxis.


De quoi parle-t-on ?

Pour comprendre LeWM, il faut imaginer deux briques qui travaillent ensemble :

  • La première brique est un encodeur : il prend une image (par exemple, une vue d'une scène robotique) et la compresse en une représentation interne très compacte. Pas une description textuelle. Pas une copie de l'image. Une sorte d'« empreinte » abstraite qui contient l'essentiel de la situation.
  • La seconde brique est un prédicteur : on lui donne cette empreinte, plus une action (« avance », « tourne », « pousse »), et il prédit quelle sera l'empreinte de l'image suivante. Autrement dit, il imagine à quoi le monde va ressembler après cette action directement dans cet espace abstrait, sans repasser par le pixel.Si AMI Labs est en vue sur le sujet il n'est pas le seul à s'intéresser aux World Models et si chacun vise une même "compréhension / intégration" du monde physique les voies pour y arriver sont sensiblement différentes, on peut même parler "d'écoles" différentes qui n'adressent ni les mêmes cas d'usage, ni les mêmes contraintes industrielles.
  1. École générative 3D : la simulation interactive
    Le principe est de générer des environnements 3D navigables et manipulablesà partir d'un prompt textuel ou d'une image. La sortie est visuelle, jouable,partageable. Le modèle apprend la « physique » de manière implicite à partir de gigantesques volumes de vidéos.
  • Google DeepMind — Genie 3

Annoncé le 5 août 2025 sur le blog officiel DeepMind, Genie 3 génère des environnements 3D interactifs. Il dispose d'événements modifiables par prompt («promptable world events »), qui lui permet de générer des environnements 3D navigables en temps réel, capables de s’adapter aux actions de l’utilisateur. Le directeur de recherche Shlomi Fruchter le présente comme

« le premier world model 3D interactif généraliste en temps réel ».

Project Genie a été lancé pour les abonnés américains de Google, mais Genie 3 lui-même reste en mode recherche sans disponibilité publique annoncée à date.

  • World Labs

Fei-Fei Li une des voix qui compte en matière d'IA, créatrice d'ImageNet, ancienne directrice scientifique de l'IA chez Google Cloud a fondé World Labs en 2024. Son produit phare s'appelle Marble, un logiciel qui génère des mondes 3D à partir de texte, d'images, de vidéo ou d'esquisses. C'est en particulier autour de la robotique que les avancées vont être les plus visibles comme le précise World labs dans son papier de recherche car ils permettent d'entraîner les robots dans des environnements simulés (entrepôt, cuisine...).

"Nous construisons des world models fondamentaux capables de percevoir, générer, raisonner et interagir avec le monde 3D libérant tout le potentiel de l’IA grâce à l’intelligence spatiale en transformant la vision en action, la perception en raisonnement, et l’imagination en création. Nous croyons que l’intelligence spatiale ouvrira de nouvelles formes de narration, de créativité, de design, de simulation et d’expériences immersives à travers les mondes virtuel et physique".

Utiliser des world models génératifs pour la simulation, l'entraînement et l'évaluation des systèmes de conduite autonome. La logique est moins celle de la recherche fondamentale que celle d'un outil industriel pour pallier la rareté des scénarios critiques en données réelles.

« Avec GAIA-3, Wayve fait un pas audacieux en avant, faisant progresser la modélisation du monde de la synthèse visuelle à une véritable évaluation et validation de l’autonomie. Le modèle apprend à recréer la dynamique des environnements réels – du trafic quotidien aux événements rares et critiques pour la sécurité. Cela permettra aux développeurs de mesurer, comparer et accélérer les progrès vers une conduite autonome sûre et évolutive. » Jamie Shotton, scientifique en chef chez Wayve

Un partenariat avec le Warwick Manufacturing Group (Université de Warwick) a été développé sur le projet DriveSafeSim, financé par le gouvernement britannique.

2. École Dreamer (Google DEEPMIND) : l'apprentissage par imagination

Le principe est assez semblable : l'agent apprend un modèle latent du monde à partir d'expériences réelles, puis « imagine » des trajectoires futures dans ce modèle pour entraîner sa politique d'action. C'est un croisement entre world model et modèle par renforcement.
C'est Danijar Hafner, ancien Staff ResearchScientist chez Google DeepMind qui était l'auteur principal de la suite Dreamer.
Cette version est utilisée sur MINECRAFT mais sa vraie portée est ailleurs : si on peut entraîner un agent à exécuter une tâche complexe à partir de vidéos sans interaction réelle, on ouvre la porte à des cas d'usage où l'interaction est coûteuse, lente, ou risquée : robotique industrielle, gestes médicaux, conduite, manipulation d'équipements industriels.

Section image

3. École JEPA

Le principe est d'apprendre une représentation du monde et prédire dans cet espace abstrait, sans générer d'image. Pas de sortie visuelle, pas de pixel reconstitué, uniquement de la planification d'actions à partir d'observations.
Quand on veut faire planifier une tâche au système (par exemple : déplacer un cube d'un point A à un point B), on lui donne l'image de départ et l'image du but, et il cherche la séquence d'actions dont la prédiction finale ressemble le plus au but. C'est tout. Pas de texte, pas de récompense, pas d'humain dans la boucle.

C'est cette famille d'approches que Yann LeCun défend depuis plusieurs années sous l'acronyme

JEPA (Joint-Embedding Predictive Architecture). LeWM en est une nouvelle déclinaison, dont la promesse est la stabilité d'entraînement à partir de pixels bruts, sans tous les artifices qu'exigeaient les versions précédentes.

"Dans la première année de notre vie, un humain collecte autant de données que l'ensemble de l'internet mondial aujourd'hui en matière de quantité, de bits d'informations"


Premier partenaire métier : Nabla (santé). Selon le communiqué AMILabs / Nabla, l'objectif est de bâtir « les premiers systèmes IA agentiques certifiables FDA pour la santé » à partir des world models AMI. Cibles applicatives plus larges annoncées par AMI Labs : contrôle de processus industriels, automatisation, dispositifs portables, robotique, santé.
Cette école est la plus académique et la plus exigeante théoriquement. Ses livrables actuels sont des papiers et des démonstrateurs sur des tâches contrôlées (manipulation de cubes, navigation 2D,
bras robotiques simples). L'industrialisation reste à démontrer.

Ce que LeWM de AMI labs fait différemment des LLM

Un grand modèle de langage (LLM) apprend en lisant d'énormes quantités de texte et en prédisant le mot suivant. Son monde, c'est la séquence de tokens. Sa physique, c'est la statistique du langage humain.

"Si on prend des problèmes comme résumer un texte ou faire des maths ou écrire du code informatique. Ça, ce sont des activités (...) avec des séquences de symboles, du langage. Là, les LLM, on ne les battra pas. Ça marche très bien pour ça et c'est pour ça d'ailleurs qu'aujourd'hui, ce sont les champs d'application". Alexandre Lebrun, PDG d'AMI Labs

LeWM apprend en regardant des images successives et en prédisant la représentation compacte de l'image suivante, étant donnée une action. Son monde, c'est l'espace des situations visuelles. Sa physique commence à ressembler à la physique réelle.

Trois différences structurelles à retenir :

  • La modalité d'entrée : Le LLM ingère du texte écrit par des humains ; LeWM ingère des pixels et des commandes d'action. Là où le LLM hérite de tout ce que l'humanité a couché par écrit, LeWM doit construire seul une représentation du monde à partir de ce qu'il observe.
  • L'objectif : Le LLM apprend à reconstruire un signal observable (le mot suivant). LeWM apprend à prédire dans un espace latent : c'est-à-dire dans sa propre représentation interne. Cela évite au modèle de gaspiller son énergie à reconstituer chaque détail visuel inutile (la couleur exacte d'un mur, la texture d'un sol) pour se concentrer sur ce qui compte pour l'action.
  • L'échelle : LeWM compte environ 15 millions de paramètres et s'entraîne sur un seul GPU en quelques heures. À titre de comparaison, les LLM grand public se comptent en centaines de milliards de paramètres et nécessitent des semaines de calcul sur des milliers de processeurs spécialisés.

Les points positifs

Le point le plus mis en avant par l'équipe de Yann Lecun est la simplicité de l'entraînement et son évolution vs les versions précédentes.

La deuxième évolution est l'efficacité au moment de la planification. Chaque image est encodée en un unique vecteur de 192 dimensions, soit environ 200 fois moins de « tokens » que dans une approche concurrente. Résultat : la planification d'une tâche prend environ 1 seconde contre 47 secondes pour DINO-WM la référence actuelle, soit une accélération annoncée jusqu'à 48× à budget de calcul comparable.

Le troisième point fort est la qualité des résultats sur la plupart des tâches testées. LeWM bat son concurrent principal sur l'ensemble des environnements difficiles.

Enfin, point qui semble le plus parlant pour des non-techniciens : LeWM détecte les événements physiquement aberrants. Quand on lui montre des séquences truquées (un objet qui se téléporte, un cube qui change de couleur), le modèle exprime de la « surprise ». C'est ce qu'on appelle le paradigme de violation des attentes, classique en sciences cognitives. C'est, à très petite échelle, un embryon de bon sens physique.

Les limites

Il faut être lucide : ce travail est une preuve de concept de recherche, pas un produit. Plusieurs limites méritent d'être citées.

LeWM échoue sur la tâche Two-Room, un environnement de navigation 2D simple. Les auteurs eux-mêmes l'expliquent : la tâche a une dimensionnalité intrinsèque trop faible, ce qui empêche le régularisateur gaussien de structurer correctement l'espace latent. Autrement dit, le mécanisme qui fait la force du modèle devient un handicap quand le problème est trop pauvre.

Sur les scènes 3D visuellement riches, DINO-WM conserve l'avantage. Les auteurs l'attribuent honnêtement aux a priori visuels supérieurs hérités du pré-entraînement à grande échelle de DINO. Cela rappelle une vérité inconfortable : pour le visuel complexe, l'échelle des données reste pour l'instant difficile à concurrencer.

Le périmètre des tâches reste étroit : navigation 2D, bras à deux articulations, manipulation de blocs, pick-and-place 3D simple. On est loin d'un système qui comprendrait une scène quotidienne.

Aucune capacité linguistique. LeWM ne lit rien, ne parle pas, ne raisonne pas symboliquement. Là où un LLM excelle à manipuler des concepts abstraits exprimés en mots, LeWM n'a aucun accès à cette dimension du monde mais ce n'est pas ce qu'on lui demande !

En conclusion

LeWM montre qu'il est possible d'entraîner un « modèle du monde » utile, stable, à partir de pixels, sur une infrastructure modeste. C'est une rupture par rapport au narratif dominant qui associe progrès en IA et explosion des coûts de calcul ( même si cela a tendance à diminuer)

On commence donc à voir émerger sérieusement une seconde voie à côté des LLM. Pas en remplacement mais en complément. Pour des cas d'usage où l'IA doit agir dans un environnement plutôt que produire du texte (robotique, simulation, assistance physique, monitoring), les architectures de type JEPA méritent une veille active.

Alors, "intelligence" par le langage, ou "intelligence" par l'action et la perception ? LeWM ne tranche pas il rappelle simplement qu'une partie de la communauté de recherche n'a jamais cessé d'explorer la seconde piste, et que cette piste produit aujourd'hui des résultats reproductibles.

À suivre !

Sources : page projet le-wm.github.io