Введение
Идея создания многозадачных роботов, подобных культовой Рози из сериала «Джетсоны», давно лелеется в робототехнике. Однако обучение универсальных роботов остаётся серьёзной проблемой. Традиционно инженеры собирают данные, специфичные для конкретного робота и выполняемой им задачи, в контролируемых условиях. Этот процесс не только дорогостоящий и трудоёмкий, но и ограничивает способность робота адаптироваться к новым задачам или непредвиденным условиям во время обучения.
Черпая вдохновение из крупномасштабных языковых моделей
Исследователи Массачусетского технологического института предложили новый подход к решению этих проблем, вдохновлённый крупномасштабными языковыми моделями, такими как GPT-4. Эти модели предварительно обучаются на огромных объёмах разнообразных данных, а затем корректируются с использованием небольшого объёма данных, специфичных для конкретной задачи. Эта стратегия позволяет модели адаптироваться и эффективно выполнять самые разные задачи благодаря обширным знаниям, полученным в ходе предварительного обучения.
В робототехнике данные крайне неоднородны: от изображений с камер до проприоцептивных сигналов, отслеживающих положение и скорость роботизированной руки. Более того, каждый робот обладает уникальными механическими характеристиками, такими как разное количество рук, захватов и датчиков. Среды, в которых собираются данные, также сильно различаются. Для решения этой неоднородности необходима архитектура, способная унифицировать эти разнообразные типы данных в формате, понятном роботу.
Архитектура гетерогенных предварительно обученных трансформаторов (HPT)
Команда Массачусетского технологического института разработала новую архитектуру под названием «Гетерогенные предобученные преобразователи» (HPT), которая объединяет данные из различных модальностей и областей. В основе этой архитектуры лежит модель машинного обучения, известная как преобразователь, того же типа, что лежит в основе больших языковых моделей.
Исследователи сопоставили данные о зрении и проприоцепции (cосознание позы, движения, различных частей тела и изменений равновесия, а также включая ощущения движения и положения суставов) в общий тип входных данных, называемый «токеном», который может обрабатывать преобразователь. Каждый вход представлен одинаковым фиксированным количеством токенов, что позволяет модели единообразно обрабатывать информацию из разных источников. Затем преобразователь отображает все входные данные в общее пространство, превращаясь в массивную предобученную модель по мере обработки и обучения на большем количестве данных. Чем больше становится преобразователь, тем выше его производительность.
Преимущества и эффективность HPT
Одно из главных преимуществ такого подхода заключается в том, что пользователю достаточно предоставить лишь небольшой объём данных о конструкции робота, его конфигурации и предполагаемой задаче. HPT переносит знания, полученные в ходе предварительного обучения, на этап обучения новой задаче. Это ускоряет процесс обучения и снижает его стоимость, поскольку требуется гораздо меньше данных, специфичных для конкретной задачи.
В ходе тестирования HPT улучшил производительность робота более чем на 20% как в смоделированных, так и в реальных задачах по сравнению с обучением с нуля. Даже когда задача сильно отличалась от данных, полученных до обучения, HPT всё равно демонстрировал значительные улучшения. Это свидетельствует о выдающейся способности к обобщению, критически важной для роботов, которым необходимо работать в непредсказуемых условиях или выполнять ранее не запрограммированные задачи.
Проблемы, с которыми пришлось столкнуться
Одной из самых сложных задач при создании HPT было создание огромного набора данных, необходимого для предварительной подготовки преобразователя. Он включал 52 набора данных с более чем 200 000 траекторий движения робота в четырёх категориях, включая видеозаписи демонстраций и моделирования с участием людей. Кроме того, исследователям требовалось разработать эффективный способ преобразования исходных проприоцептивных сигналов от различных датчиков в данные, которые мог бы обрабатывать преобразователь.
«Проприоцепция критически важна для многих движений правой рукой», — объясняет Лируй Ван, ведущий автор исследования. «Поскольку количество маркеров в нашей архитектуре всегда одинаково, мы придаём равное значение проприоцепции и зрению».
Будущее робототехники с HPT
В будущем исследователи планируют изучить, как разнообразие данных может дополнительно повысить производительность HPT. Они также надеются усовершенствовать HPT, чтобы он мог обрабатывать немаркированные данные, следуя примеру крупномасштабных языковых моделей, таких как GPT-4. Это может привести к созданию системы, в которой робот будет непрерывно обучаться на основе нового опыта, без необходимости постоянного вмешательства человека для маркировки данных.
«Мы мечтаем о создании универсального роботизированного мозга, который можно загрузить и использовать на своём роботе без какой-либо подготовки», — говорит Ван. «Хотя мы пока находимся на ранней стадии, мы будем продолжать двигаться вперёд и надеяться, что масштабируемость приведёт к прорывам в политике в области робототехники, как это было с большими языковыми моделями».
Заключение
Исследование Массачусетского технологического института представляет собой значительный шаг вперёд в поиске эффективных и адаптируемых универсальных роботов. Объединив большие объёмы разнородных данных в единую архитектуру, исследователи проложили путь к созданию роботов, способных обучаться различным задачам без необходимости длительного обучения для каждой новой ситуации. Этот подход может произвести революцию в робототехнике, позволяя разрабатывать более универсальных роботов, способных адаптироваться к незнакомым условиям и задачам, приближая нас к воплощению идеи роботов, подобных Рози из сериала «Джетсоны».
ссылки
Эта работа была частично профинансирована программой Amazon Greater Boston Tech Initiative и исследовательским институтом Toyota. Исследование было представлено на конференции по нейронным системам обработки информации и полностью доступно для прочтения в статье «Масштабирование проприоцептивно-визуального обучения с использованием гетерогенных предобученных трансформеров».







