Blog Economie Numérique - JEPA : une architecture prédictive pour une intelligence artificielle incarnée

Malgré les avancées spectaculaires de l’intelligence artificielle (IA) ces dernières années, les modèles dominants restent confrontés à des limites structurelles profondes. Qu’il s’agisse de générer du texte, des images ou de prendre des décisions en environnement simulé, les IA actuelles s’appuient sur des mécanismes statistiques, corrélatifs et désincarnés. C’est le constat formulé par Yann Le Cun. Ce dernier propose une voie alternative fondée sur une architecture novatrice : JEPA, pour Joint Embedding Predictive Architecture.

Les limites des approches dominantes

Les modèles génératifs actuels tels que les LLM (Large Language Models) ou les générateurs d’images se fondent sur l’analyse de très grands volumes de données. Leur principe est essentiellement probabiliste : à partir d’un historique, ils estiment la suite la plus probable — mot, image, pixel. Ce fonctionnement présente plusieurs limites :

Corrélation sans compréhension : ces systèmes identifient des motifs fréquents sans compréhension contextuelle. Ils peuvent confondre un avocat (juriste) avec un avocat (fruit), faute d’accès à un modèle du monde.
Absence d’incarnation : l’IA n’a pas de perception sensorielle ni de motricité. Elle n’interagit pas avec le monde réel, ce qui rend difficile l’apprentissage de tâches physiques comme plier un linge ou manipuler un objet.
Absence de causalité : les modèles sont formés pour compléter, non pour expliquer ni prédire les conséquences d’une action.

JEPA : un modèle fondé sur la prédiction d’états

L’architecture JEPA rompt avec la logique générative. Son objectif n’est pas de produire du texte ou des images, mais de prédire des représentations internes abstraites — appelées embeddings — à partir de l’observation d’un contexte.

Le principe est le suivant : une situation observée (image, vidéo, séquence sensorielle, etc.) est transformée en une représentation vectorielle simplifiée (embedding A). Une situation future, attendue ou partiellement connue, est transformée de la même façon (embedding B). Le modèle est entraîné à prédire B à partir de A, non en générant un contenu visuel, mais en apprenant la relation conceptuelle entre les deux états.

Exemple : un chat saute d’un mur (image A), puis atterrit sur ses pattes (image B). JEPA apprend à prédire la représentation latente de l’atterrissage à partir de celle du saut, sans jamais avoir besoin de reconstituer les pixels d’une image.

Cette approche permet d’apprendre la dynamique d’un environnement plutôt qu’un simple enchaînement d’unités symboliques. Elle est directement inspirée de l’apprentissage humain, où la perception d’une situation induit naturellement des attentes sur la suite.

Comparaison avec l’apprentissage humain

Le Cun souligne un paradoxe majeur : un enfant de 4 ans, éveillé 16 000 heures, aura intégré via ses 2 millions de fibres sensorielles environ 1,1 × 10¹⁴ octets d’expériences vécues. Un LLM, lui, est entraîné sur environ 0,9 × 10¹⁴ octets de données textuelles.

Autrement dit, l’expérience sensorielle d’un jeune enfant dépasse déjà en volume celle d’un modèle linguistique de pointe. Pourtant, l’enfant est capable d’anticiper, d’interagir, de comprendre les intentions et les effets. Ce constat justifie une refonte radicale de l’apprentissage machine : passer d’un traitement statistique de corpus à un apprentissage ancré dans l’expérience du monde.

JEPA marque un tournant stratégique : il ne s’agit plus de générer du contenu, mais de comprendre et anticiper le monde. Cette architecture ouvre la voie à une intelligence artificielle incarnée, économe et adaptative. Elle pourrait constituer l’un des socles techniques d’une IA véritablement cognitive, apte à interagir intelligemment avec la réalité.

Sources : https://www.journaldunet.com/intelligence-artificielle/1542351-meta-a-un-plan-pour-creer-un-systeme-dote-de-capacites-d-apprentissage-et-d-intelligence-similaires-a-l-humain/ https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/