top of page

Gemini Robotics-ER 1.5 : “penser d’abord, agir ensuite”

  • Photo du rédacteur: ARKTechNews
    ARKTechNews
  • 7 oct. 2025
  • 2 min de lecture

Google DeepMind a franchi une nouvelle étape dans la robotique avec la présentation de Gemini Robotics-ER 1.5, une version améliorée de son système d’intelligence artificielle incarnée. L’objectif : permettre aux robots de raisonner avant de se mouvoir, en séparant pour la première fois la phase de réflexion et celle de l’action. Ce modèle s’inscrit dans la lignée des recherches sur les grands modèles multimodaux, mais appliqués au monde physique. Il combine un moteur de raisonnement, le Gemini ER 1.5 (“Embodied Reasoning”), et un moteur d’exécution, Gemini Robotics 1.5, responsable des mouvements précis.


Penser, planifier, puis agir

Selon DeepMind, cette architecture “dual-model” rompt avec la logique classique où les robots exécutent des instructions sans contexte. Désormais, l’IA établit une stratégie d’action avant d’agir. Un exemple simple serait : un robot capable d’évaluer l’emplacement d’une tasse, de comprendre la séquence nécessaire pour y verser du café, puis d’ajuster ses gestes selon la situation. Cette capacité découle d’un apprentissage fondé sur des vidéos et des démonstrations réelles, combiné à une couche de planification inspirée du langage naturel.

Gemini Robotics-ER 1.5 : “penser d’abord, agir ensuite”

Un apprentissage transférable

L’un des apports majeurs de Gemini Robotics-ER 1.5 est la transférabilité des compétences. Un robot entraîné sur un modèle peut transmettre ce savoir à un autre appareil de forme ou de taille différente, sans réentraîner tout le système. D’après le blog officiel de DeepMind, cette propriété ouvre la voie à une production plus souple : les mêmes modèles d’IA pourraient fonctionner aussi bien sur des bras industriels que sur des assistants domestiques.


Des applications concrètes déjà testées

DeepMind a montré que Gemini 1.5 pouvait effectuer des tâches complexes comme préparer un café, trier du linge ou organiser des objets dans un espace encombré. Ces démonstrations soulignent la capacité du modèle à exécuter des instructions à plusieurs étapes tout en adaptant sa stratégie en temps réel. L’IA peut même consulter des données externes (comme des images ou des recherches web) pour améliorer sa compréhension de la tâche.


Des défis encore ouverts

Malgré son potentiel, la technologie n’est pas exempte de limites. Les chercheurs de DeepMind admettent que le système reste fragile face aux environnements non structurés : des objets imprévus ou des surfaces instables peuvent perturber la planification. La sécurité et la fiabilité à long terme demeurent également des sujets de recherche. Néanmoins, cette approche “penser avant d’agir” marque un tournant vers des robots plus autonomes et adaptatifs.



Sources :

bottom of page