HPT: Das „Universalgehirn“, das die Robotik revolutioniert

Einführung

Die Vision von Multitasking-Robotern, wie der legendären Rosie aus „Die Jetsons“, ist ein langjähriger Wunsch der Robotik. Das Training von Allzweckrobotern bleibt jedoch eine große Herausforderung. Traditionell sammeln Ingenieure roboter- und aufgabenspezifische Daten in kontrollierten Umgebungen. Dieser Prozess ist nicht nur teuer und zeitaufwändig, sondern schränkt auch die Fähigkeit des Roboters ein, sich während des Trainings an neue Aufgaben oder unerwartete Umgebungen anzupassen.

Inspiration aus umfangreichen Sprachmodellen

Forscher des MIT haben einen neuartigen Ansatz zur Bewältigung dieser Herausforderungen vorgeschlagen, der sich von groß angelegten Sprachmodellen wie GPT-4 inspirieren lässt. Diese Modelle werden mit riesigen Mengen unterschiedlicher Daten vortrainiert und anschließend mit einer kleinen Menge aufgabenspezifischer Daten feinabgestimmt. Diese Strategie ermöglicht es dem Modell, sich dank des umfangreichen Wissens, das während des Vortrainings gewonnen wurde, an eine Vielzahl von Aufgaben anzupassen und gute Leistungen zu erbringen.

In der Robotik sind die Daten sehr heterogen und reichen von Kamerabildern bis hin zu propriozeptiven Signalen, die die Position und Geschwindigkeit eines Roboterarms überwachen. Darüber hinaus verfügt jeder Roboter über einzigartige mechanische Eigenschaften, wie beispielsweise eine unterschiedliche Anzahl an Armen, Greifern und Sensoren. Auch die Umgebungen, in denen die Daten erfasst werden, variieren stark. Um dieser Heterogenität gerecht zu werden, bedarf es einer Architektur, die diese unterschiedlichen Datentypen in ein für den Roboter verständliches Format zusammenführt.

Die Architektur heterogener vortrainierter Transformatoren (HPT)

Das MIT-Team entwickelte eine neue Architektur namens Heterogeneous Pretrained Transformers (HPT), die Daten aus verschiedenen Modalitäten und Domänen vereint. Das Herzstück dieser Architektur ist ein als Transformer bezeichnetes maschinelles Lernmodell, derselbe Typ, der die Grundlage großer Sprachmodelle bildet.

Die Forscher haben die Daten zu Sehvermögen und Propriozeption (c) miteinander verglichen.Wahrnehmung von Haltung, Bewegung, verschiedenen Körperteilen und Gleichgewichtsveränderungen sowie Einbeziehung von Bewegungsempfindungen und Gelenkstellungen) in einen gemeinsamen Eingabetyp, ein sogenanntes „Token“, den der Transformator verarbeiten kann. Jeder Input wird durch die gleiche feste Anzahl von Token dargestellt, sodass das Modell Informationen aus verschiedenen Quellen einheitlich verarbeiten kann. Der Transformator bildet dann alle Inputs in einem gemeinsamen Raum ab und wächst mit der Verarbeitung und dem Lernen von mehr Daten zu einem massiven vortrainierten Modell heran. Je größer der Transformator wird, desto besser ist seine Leistung.

Vorteile und Leistung von HPT

Einer der Hauptvorteile dieses Ansatzes besteht darin, dass der Benutzer nur wenige Daten über Design, Konfiguration und geplante Aufgabe des Roboters angeben muss. HPT überträgt die im Vortraining gewonnenen Erkenntnisse auf das Erlernen der neuen Aufgabe. Dies macht den Trainingsprozess schneller und kostengünstiger, da deutlich weniger aufgabenspezifische Daten benötigt werden.

Im Test verbesserte HPT die Roboterleistung sowohl bei simulierten als auch bei realen Aufgaben um über 20 % im Vergleich zu einem Training von Grund auf. Selbst wenn die Aufgabe stark von den Daten vor dem Training abwich, zeigte HPT signifikante Verbesserungen. Dies deutet auf eine bemerkenswerte Generalisierungsfähigkeit hin, die für Roboter, die in unvorhersehbaren Umgebungen arbeiten oder bisher nicht programmierte Aufgaben ausführen müssen, von entscheidender Bedeutung ist.

Herausforderungen

Eine der größten Herausforderungen bei der Entwicklung des HPT bestand darin, den riesigen Datensatz für das Vortraining des Transformers aufzubauen. Dieser umfasste 52 Datensätze mit über 200.000 Robotertrajektorien in vier Kategorien, darunter Videos von menschlichen Demonstrationen und Simulationen. Darüber hinaus mussten die Forscher eine effiziente Methode entwickeln, um die rohen propriozeptiven Signale verschiedener Sensoren in Daten umzuwandeln, die der Transformer verarbeiten konnte.

„Die Propriozeption ist entscheidend für viele rechtshändige Bewegungen“, erklärt Lirui Wang, Hauptautor der Studie. „Da die Anzahl der Token in unserer Architektur immer gleich ist, messen wir der Propriozeption und dem Sehen die gleiche Bedeutung bei.“

Die Zukunft der Robotik mit HPT

Zukünftig wollen die Forscher untersuchen, wie Datenvielfalt die Leistung von HPT weiter verbessern kann. Sie hoffen außerdem, HPT so zu verbessern, dass es auch unmarkierte Daten verarbeiten kann, und dabei dem Beispiel groß angelegter Sprachmodelle wie GPT-4 folgen. Dies könnte zu einem System führen, in dem der Roboter kontinuierlich aus neuen Erfahrungen lernt, ohne dass ständig menschliches Eingreifen zur Markierung der Daten erforderlich ist.

„Unser Traum ist ein universelles Robotergehirn, das man herunterladen und ohne Training auf seinem Roboter verwenden kann“, sagt Wang. „Wir befinden uns zwar noch in der Anfangsphase, aber wir werden weiter voranschreiten und hoffen, dass die Skalierbarkeit zu Durchbrüchen in der Roboterpolitik führen wird, so wie es bei großen Sprachmodellen der Fall war.“

Fazit

Die MIT-Forschung stellt einen bedeutenden Fortschritt auf der Suche nach effizienten und anpassungsfähigen Allzweckrobotern dar. Durch die Kombination großer Mengen heterogener Daten in einer einheitlichen Architektur haben die Forscher den Weg für Roboter geebnet, die eine Vielzahl von Aufgaben erlernen können, ohne für jede neue Situation ein umfangreiches Training zu benötigen. Dieser Ansatz hat das Potenzial, die Robotik zu revolutionieren und die Entwicklung vielseitigerer Roboter zu ermöglichen, die sich an unbekannte Umgebungen und Aufgaben anpassen können. Damit kommen wir der Vision von Robotern wie Rosie aus den Jetsons immer näher.

Referenzen

Diese Arbeit wurde teilweise von der Amazon Greater Boston Tech Initiative und dem Toyota Research Institute finanziert. Die Forschungsergebnisse wurden auf der Conference on Neural Information Processing Systems vorgestellt und können in voller Länge im Artikel „Scaling Propriozeptive-Visual Learning with Heterogeneous Pre-trained Transformers“ nachgelesen werden.

https://liruiw.github.io/hpt/

Zurückkehren

Nachricht