Introduction
L'idée de robots multitâches, à l'image de l'emblématique Rosie des « Jetson », est une ambition de longue date en robotique. Cependant, l'entraînement de robots polyvalents demeure un défi majeur. Traditionnellement, les ingénieurs collectent des données spécifiques à un robot et à une tâche dans des environnements contrôlés, un processus non seulement coûteux et chronophage, mais qui limite également la capacité du robot à s'adapter à de nouvelles tâches ou à des environnements imprévus pendant l'entraînement.
S'inspirer des modèles linguistiques à grande échelle
Des chercheurs du MIT ont proposé une approche novatrice pour surmonter ces défis, en s'inspirant de modèles linguistiques à grande échelle comme GPT-4. Ces modèles sont pré-entraînés avec d'importantes quantités de données diverses, puis affinés avec un petit volume de données spécifiques à la tâche. Cette stratégie permet au modèle de s'adapter et d'être performant sur une variété de tâches, grâce aux vastes connaissances acquises lors du pré-entraînement.
En robotique, les données sont très hétérogènes, allant des images de caméra aux signaux proprioceptifs qui surveillent la position et la vitesse d'un bras robotisé. De plus, chaque robot possède des caractéristiques mécaniques uniques, comme un nombre différent de bras, de pinces et de capteurs. Les environnements de collecte des données sont également très variés. Pour gérer cette hétérogénéité, une architecture capable d'unifier ces différents types de données dans un format compréhensible par le robot est nécessaire.
L'architecture des transformateurs pré-entraînés hétérogènes (HPT)
L'équipe du MIT a développé une nouvelle architecture appelée Transformateurs Hétérogènes Préentraînés (HPT), qui unifie les données de multiples modalités et domaines. Au cœur de cette architecture se trouve un modèle d'apprentissage automatique appelé transformateur, du même type que celui qui constitue la base des grands modèles de langage.
Les chercheurs ont aligné les données de vision et de proprioception (cconscience de la posture, du mouvement, des différentes parties du corps et des changements d'équilibre, ainsi que des sensations de mouvement et de position des articulations) en un type d'entrée commun, appelé « jeton », que le transformateur peut traiter. Chaque entrée est représentée par le même nombre fixe de jetons, ce qui permet au modèle de traiter uniformément les informations provenant de différentes sources. Le transformateur mappe ensuite toutes les entrées dans un espace partagé, évoluant ainsi vers un modèle pré-entraîné massif à mesure qu'il traite et apprend davantage de données. Plus le transformateur est grand, meilleures sont ses performances.
Avantages et performances du HPT
L'un des principaux avantages de cette approche est que l'utilisateur n'a besoin de fournir qu'une petite quantité de données sur la conception, la configuration et la tâche prévue du robot. HPT transfère les connaissances acquises lors de la pré-formation à l'apprentissage de la nouvelle tâche. Cela rend le processus de formation plus rapide et moins coûteux, car il nécessite beaucoup moins de données spécifiques à la tâche.
Lors des tests, HPT a amélioré les performances du robot de plus de 20 % dans les tâches simulées et réelles, par rapport à un entraînement complet. Même lorsque la tâche était très différente des données de pré-entraînement, HPT a montré des améliorations significatives. Cela témoigne d'une remarquable capacité de généralisation, essentielle pour les robots devant évoluer dans des environnements imprévisibles ou effectuer des tâches auparavant non programmées.
Défis rencontrés
L'un des plus grands défis de la création du HPT a été de constituer l'immense base de données nécessaire au pré-entraînement du transformateur. Celle-ci comprenait 52 jeux de données contenant plus de 200.000 XNUMX trajectoires robotiques réparties en quatre catégories, incluant des vidéos de démonstrations et de simulations humaines. De plus, les chercheurs devaient développer un moyen efficace de transformer les signaux proprioceptifs bruts provenant de divers capteurs en données exploitables par le transformateur.
« La proprioception est essentielle à de nombreux mouvements des droitiers », explique Lirui Wang, auteur principal de l'étude. « Le nombre de jetons étant toujours le même dans notre architecture, nous accordons une importance égale à la proprioception et à la vision. »
L'avenir de la robotique avec HPT
À l'avenir, les chercheurs prévoient d'étudier comment la diversité des données peut améliorer encore les performances de HPT. Ils espèrent également améliorer HPT afin qu'il puisse traiter des données non étiquetées, suivant ainsi les traces de modèles linguistiques à grande échelle comme GPT-4. Cela pourrait conduire à un système où le robot apprend en permanence de nouvelles expériences, sans intervention humaine constante pour étiqueter les données.
« Notre rêve est de disposer d'un cerveau robotique universel, téléchargeable et utilisable sur votre robot sans aucune formation », explique Wang. « Bien que nous en soyons encore aux prémices, nous poursuivrons nos efforts et espérons que l'évolutivité permettra des avancées majeures en matière de politiques robotiques, comme ce fut le cas pour les grands modèles linguistiques. »
Conclusion
Les recherches du MIT représentent une avancée significative dans la quête de robots polyvalents, efficaces et adaptables. En combinant de grandes quantités de données hétérogènes au sein d'une architecture unifiée, les chercheurs ont ouvert la voie à des robots capables d'apprendre diverses tâches sans nécessiter de formation approfondie pour chaque nouvelle situation. Cette approche a le potentiel de révolutionner la robotique, permettant le développement de robots plus polyvalents, capables de s'adapter à des environnements et des tâches inconnus, nous rapprochant ainsi toujours plus de la vision de robots comme Rosie dans Les Jetson.
Références
Ces travaux ont été financés en partie par l'Amazon Greater Boston Tech Initiative et le Toyota Research Institute. Présentés lors de la Conférence sur les systèmes de traitement de l'information neuronale, ils sont disponibles dans leur intégralité dans l'article « Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers ».







