Introdução
A visão de robôs capazes de realizar múltiplas tarefas, assim como a icônica Rosie do desenho “Os Jetsons”, tem sido uma aspiração de longa data na robótica. No entanto, treinar robôs de propósito geral continua sendo um desafio significativo. Tradicionalmente, os engenheiros coletam dados específicos para um robô e tarefa em ambientes controlados, um processo que é não apenas caro e demorado, mas também limita a capacidade do robô de se adaptar a novas tarefas ou ambientes não previstos durante o treinamento.
Inspirando-se em Modelos de Linguagem de Grande Escala
Pesquisadores do MIT propuseram uma abordagem inovadora para superar esses desafios, inspirando-se em modelos de linguagem de grande escala, como o GPT-4. Esses modelos são pré-treinados com enormes quantidades de dados diversos e posteriormente ajustados com uma pequena quantidade de dados específicos da tarefa. Essa estratégia permite que o modelo se adapte e execute bem em uma variedade de tarefas, graças ao vasto conhecimento adquirido durante o pré-treinamento.
Na robótica, os dados são altamente heterogêneos, variando de imagens de câmera a sinais proprioceptivos que monitoram a posição e velocidade de um braço robótico. Além disso, cada robô possui características mecânicas únicas, como diferentes números de braços, garras e sensores. Os ambientes onde os dados são coletados também variam amplamente. Para lidar com essa heterogeneidade, é necessária uma arquitetura que possa unificar esses diversos tipos de dados em um formato compreensível para o robô.
A Arquitetura Heterogeneous Pretrained Transformers (HPT)
A equipe do MIT desenvolveu uma nova arquitetura chamada Heterogeneous Pretrained Transformers (HPT) que unifica dados de várias modalidades e domínios. No coração dessa arquitetura está um modelo de aprendizado de máquina conhecido como transformer, o mesmo tipo que forma a base dos grandes modelos de linguagem.
Os pesquisadores alinharam dados de visão e propriocepção (consciência da postura, do movimento, das várias partes do corpo e das mudanças no equilíbrio, além de incluir as sensações de movimento e de posição das articulações) em um tipo de entrada comum, chamado de “token”, que o transformer pode processar. Cada entrada é representada com o mesmo número fixo de tokens, permitindo que o modelo processe informações de diferentes fontes de maneira uniforme. O transformer então mapeia todas as entradas em um espaço compartilhado, crescendo em um modelo pré-treinado enorme à medida que processa e aprende com mais dados. Quanto maior o transformer se torna, melhor é seu desempenho.
Vantagens e Desempenho do HPT
Uma das principais vantagens dessa abordagem é que um usuário precisa fornecer apenas uma pequena quantidade de dados sobre o design, configuração e a tarefa desejada para o robô. O HPT transfere o conhecimento adquirido durante o pré-treinamento para aprender a nova tarefa. Isso torna o processo de treinamento mais rápido e menos dispendioso, pois requer muito menos dados específicos da tarefa.
Quando testado, o HPT melhorou o desempenho dos robôs em mais de 20% em tarefas simuladas e no mundo real, em comparação com o treinamento do zero a cada vez. Mesmo quando a tarefa era muito diferente dos dados de pré-treinamento, o HPT ainda mostrou melhorias significativas. Isso indica uma capacidade notável de generalização, crucial para robôs que precisam operar em ambientes imprevisíveis ou realizar tarefas não previamente programadas.
Desafios Enfrentados
Um dos maiores desafios na criação do HPT foi construir o enorme conjunto de dados necessário para pré-treinar o transformer. Isso incluiu 52 conjuntos de dados com mais de 200.000 trajetórias robóticas em quatro categorias, incluindo vídeos de demonstrações humanas e simulações. Além disso, os pesquisadores precisaram desenvolver uma maneira eficiente de transformar sinais proprioceptivos brutos de uma variedade de sensores em dados que o transformer pudesse processar.
“Propriocepção é fundamental para permitir muitos movimentos destros”, explica Lirui Wang, principal autor do estudo. “Como o número de tokens é sempre o mesmo em nossa arquitetura, atribuímos a mesma importância à propriocepção e à visão.”
O Futuro da Robótica com HPT
No futuro, os pesquisadores pretendem estudar como a diversidade de dados pode aumentar ainda mais o desempenho do HPT. Eles também desejam aprimorar o HPT para que possa processar dados não rotulados, seguindo os passos de modelos de linguagem de grande escala como o GPT-4. Isso poderia levar a um sistema onde o robô aprende continuamente de novas experiências, sem a necessidade de intervenção humana constante para rotular dados.
“Nosso sonho é ter um cérebro robótico universal que você possa baixar e usar no seu robô sem nenhum treinamento”, diz Wang. “Embora ainda estejamos nos estágios iniciais, vamos continuar nos esforçando e esperamos que a escalabilidade leve a um avanço nas políticas robóticas, assim como aconteceu com os grandes modelos de linguagem.”
Conclusão
A pesquisa do MIT representa um avanço significativo na busca por robôs de propósito geral eficientes e adaptáveis. Ao combinar grandes quantidades de dados heterogêneos em uma arquitetura unificada, os pesquisadores abriram caminho para robôs que podem aprender uma variedade de tarefas sem a necessidade de treinamento extensivo para cada nova situação. Essa abordagem tem o potencial de revolucionar a robótica, permitindo o desenvolvimento de robôs mais versáteis e capazes de se adaptar a ambientes e tarefas desconhecidas, aproximando-nos cada vez mais da visão de robôs como a Rosie dos “Jetsons”.
Referências
Este trabalho foi financiado, em parte, pela Amazon Greater Boston Tech Initiative e pelo Toyota Research Institute. A pesquisa foi apresentada na Conferência sobre Sistemas de Processamento de Informação Neural e está disponível para leitura completa no artigo “Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers”.