top of page

NVIDIA publie DreamDojo, un modèle robotique entraîné sur 44 000 heures de vidéos humaines

  • Photo du rédacteur: ARKTechNews
    ARKTechNews
  • 8 mars
  • 2 min de lecture

NVIDIA et une équipe de chercheurs ont dévoilé DreamDojo, un système d’intelligence artificielle conçu pour apprendre aux robots à interagir avec le monde physique simplement en regardant des vidéos humaines enregistrées à la première personne. DreamDojo se distingue par l’usage d’un dataset unique de 44 000 heures de vidéos humaines (DreamDojo‑HV), ce qui constitue, à ce jour, le plus large corpus de vidéos jamais utilisé pour entraîner un modèle de type world model. Ce modèle entraîne une compréhension du comportement physique et des interactions d’objets avant de l’adapter à des plateformes robotiques spécifiques. Ce procédé permet de surmonter une limitation traditionnelle dans l’apprentissage robotique : la nécessité de collecter des données spécifiques à chaque robot, ce qui demande du temps, des coûts et des ressources considérables. En apprenant d’abord à partir d’une grande variété de vidéos humaines, DreamDojo acquiert une compréhension générale des objets, des actions et des environnements, puis la spécialise pour un robot donné grâce à une phase de post‑entraînement.


Deux phases d’apprentissage pour la robotique

La phase de pré‑entraînement consiste à exposer DreamDojo à des milliers d’heures de vidéos humaines pour apprendre des représentations générales de la physique, des interactions et des mouvements. Ce processus n’est pas lié à un robot spécifique. La phase de post‑entraînement adapte ensuite ce world model à un robot donné en utilisant des données continues d’actions spécifiques à ce robot, ce qui lui permet de traduire sa compréhension physique en commandes moteurs concrètes. Cette séparation des phases permet aux robots d’atteindre rapidement une capacité robuste à manipuler des objets et à planifier des actions dans des environnements variés, réduisant drastiquement le besoin de collecter de grandes quantités de données physiques pour chaque robot.

NVIDIA publie DreamDojo, un modèle robotique entraîné sur 44 000 heures de vidéos humaines

Des performances prometteuses pour des applications réelles

Le modèle a été démontré sur plusieurs plateformes robotiques différentes, notamment GR‑1, G1, AgiBot et YAM, et il a montré une capacité de généralisation significative à des objets et scénarios variés après post‑entraînement. Une optimisation interne permet des interactions « temps réel » à environ 10 images par seconde pendant plus d’une minute, une performance jugée suffisante pour des applications pratiques telles que la téléopération ou la planification en direct dans des environnements réels.


Ce qu’est un world model et pourquoi c’est important

Un « world model » est une représentation interne d’un environnement qui permet à une IA de prévoir des événements physiques, de simuler des interactions et de planifier des actions sans nécessiter des essais physiques coûteux à chaque étape d’apprentissage. Dans la robotique, ce type de modèle facilite l’apprentissage de tâches complexes sans dépendre exclusivement de longues sessions de collecte de données réelles. Des world models sont vus comme un élément clé pour faire progresser l’autonomie physique des robots, permettant de réduire les coûts de développement, d’accélérer les cycles d’entraînement et d’augmenter l’adaptabilité à de nouveaux environnements.



Sources :

Nvidia releases DreamDojo, a robot ‘world model’ trained on 44,000 hours of human video – VentureBeat

Nvidia’s DreamDojo trains robots on 44,000 hours of human video – TechBooky

What Is a World Model? – NVIDIA Glossary

bottom of page