HPT: El «cerebro universal» que está revolucionando la robótica

Introducción

La visión de robots multitarea, como la icónica Rosie de "Los Supersónicos", ha sido una aspiración histórica en robótica. Sin embargo, entrenar robots de propósito general sigue siendo un desafío importante. Tradicionalmente, los ingenieros recopilan datos específicos de un robot y de su tarea en entornos controlados, un proceso que no solo es costoso y lento, sino que también limita la capacidad del robot para adaptarse a nuevas tareas o entornos imprevistos durante el entrenamiento.

Inspirándose en modelos lingüísticos a gran escala

Investigadores del MIT han propuesto un enfoque novedoso para superar estos desafíos, inspirándose en modelos lingüísticos a gran escala como GPT-4. Estos modelos se preentrenan con cantidades masivas de datos diversos y luego se perfeccionan con una pequeña cantidad de datos específicos de la tarea. Esta estrategia permite que el modelo se adapte y tenga un buen rendimiento en diversas tareas, gracias al amplio conocimiento adquirido durante el preentrenamiento.

En robótica, los datos son muy heterogéneos, desde imágenes de cámaras hasta señales propioceptivas que monitorizan la posición y la velocidad de un brazo robótico. Además, cada robot posee características mecánicas únicas, como un número distinto de brazos, pinzas y sensores. Los entornos donde se recopilan los datos también varían considerablemente. Para abordar esta heterogeneidad, se necesita una arquitectura que unifique estos diversos tipos de datos en un formato comprensible para el robot.

La arquitectura de transformadores preentrenados heterogéneos (HPT)

El equipo del MIT desarrolló una nueva arquitectura denominada Transformadores Preentrenados Heterogéneos (HPT) que unifica datos de múltiples modalidades y dominios. En el corazón de esta arquitectura se encuentra un modelo de aprendizaje automático conocido como transformador, el mismo tipo que constituye la base de los grandes modelos lingüísticos.

Los investigadores alinearon los datos de visión y propiocepción (cconciencia de la postura, el movimiento, las distintas partes del cuerpo y los cambios en el equilibrio, así como incluir sensaciones de movimiento y posición de las articulaciones) en un tipo de entrada común, llamado "token", que el transformador puede procesar. Cada entrada se representa con el mismo número fijo de tokens, lo que permite al modelo procesar información de diferentes fuentes de manera uniforme. El transformador luego asigna todas las entradas a un espacio compartido, creciendo hasta convertirse en un modelo masivo preentrenado a medida que procesa y aprende de más datos. Cuanto más grande sea el transformador, mejor será su rendimiento.

Ventajas y rendimiento del HPT

Una de las principales ventajas de este enfoque es que el usuario solo necesita proporcionar una pequeña cantidad de datos sobre el diseño, la configuración y la tarea prevista del robot. HPT transfiere el conocimiento adquirido durante el preentrenamiento al aprendizaje de la nueva tarea. Esto agiliza y reduce el coste del proceso de entrenamiento, ya que requiere menos datos específicos de la tarea.

Durante las pruebas, el HPT mejoró el rendimiento del robot en más de un 20%, tanto en tareas simuladas como reales, en comparación con el entrenamiento desde cero en cada ocasión. Incluso cuando la tarea era muy diferente a los datos previos al entrenamiento, el HPT mostró mejoras significativas. Esto indica una notable capacidad de generalización, crucial para robots que necesitan operar en entornos impredecibles o realizar tareas no programadas previamente.

Desafíos enfrentados

Uno de los mayores desafíos en la creación del HPT fue generar el enorme conjunto de datos necesario para el preentrenamiento del transformador. Este incluía 52 conjuntos de datos con más de 200.000 trayectorias robóticas en cuatro categorías, incluyendo videos de demostraciones y simulaciones humanas. Además, los investigadores necesitaban desarrollar un método eficiente para transformar las señales propioceptivas sin procesar de diversos sensores en datos que el transformador pudiera procesar.

"La propiocepción es crucial para muchos movimientos diestros", explica Lirui Wang, autor principal del estudio. "Dado que el número de tokens es siempre el mismo en nuestra arquitectura, otorgamos la misma importancia a la propiocepción y a la visión".

El futuro de la robótica con HPT

En el futuro, los investigadores planean estudiar cómo la diversidad de datos puede mejorar aún más el rendimiento del HPT. También esperan optimizar el HPT para que pueda procesar datos sin etiquetar, siguiendo los pasos de modelos de lenguaje a gran escala como GPT-4. Esto podría conducir a un sistema donde el robot aprenda continuamente de nuevas experiencias, sin necesidad de intervención humana constante para etiquetar los datos.

"Nuestro sueño es tener un cerebro robótico universal que se pueda descargar y usar en el robot sin necesidad de entrenamiento", afirma Wang. "Aunque aún estamos en las primeras etapas, seguiremos avanzando y esperamos que la escalabilidad conduzca a avances en las políticas robóticas, tal como ocurrió con los grandes modelos lingüísticos".

Conclusión

La investigación del MIT representa un avance significativo en la búsqueda de robots de propósito general eficientes y adaptables. Al combinar grandes cantidades de datos heterogéneos en una arquitectura unificada, los investigadores han allanado el camino para robots capaces de aprender diversas tareas sin requerir un entrenamiento exhaustivo para cada nueva situación. Este enfoque tiene el potencial de revolucionar la robótica, permitiendo el desarrollo de robots más versátiles capaces de adaptarse a entornos y tareas desconocidos, acercándonos cada vez más a la visión de robots como Rosie de Los Supersónicos.

Referencias

Este trabajo fue financiado en parte por la Iniciativa Tecnológica de Amazon para el Gran Boston y el Instituto de Investigación Toyota. La investigación se presentó en la Conferencia sobre Sistemas de Procesamiento de Información Neural y está disponible para su lectura completa en el artículo "Escalando el Aprendizaje Propioceptivo-Visual con Transformadores Heterogéneos Preentrenados".

https://liruiw.github.io/hpt/

Compartir