HPT: il "cervello universale" che sta rivoluzionando la robotica

Introdução

La visione di robot multitasking, come l'iconica Rosie de "I Pronipoti", è un'aspirazione di lunga data nella robotica. Tuttavia, addestrare robot multiuso rimane una sfida significativa. Tradizionalmente, gli ingegneri raccolgono dati specifici per un robot e un compito in ambienti controllati, un processo che non solo è costoso e dispendioso in termini di tempo, ma limita anche la capacità del robot di adattarsi a nuovi compiti o ambienti imprevisti durante l'addestramento.

Trarre ispirazione dai modelli linguistici su larga scala

I ricercatori del MIT hanno proposto un nuovo approccio per superare queste sfide, traendo ispirazione da modelli linguistici su larga scala come GPT-4. Questi modelli vengono pre-addestrati con enormi quantità di dati eterogenei e poi perfezionati con una piccola quantità di dati specifici per un'attività. Questa strategia consente al modello di adattarsi e funzionare bene su una varietà di attività, grazie alla vasta conoscenza acquisita durante il pre-addestramento.

In robotica, i dati sono altamente eterogenei, spaziando dalle immagini delle telecamere ai segnali propriocettivi che monitorano la posizione e la velocità di un braccio robotico. Inoltre, ogni robot ha caratteristiche meccaniche uniche, come un diverso numero di bracci, pinze e sensori. Anche gli ambienti in cui i dati vengono raccolti variano notevolmente. Per gestire questa eterogeneità, è necessaria un'architettura in grado di unificare queste diverse tipologie di dati in un formato comprensibile per il robot.

L'architettura dei trasformatori pre-addestrati eterogenei (HPT)

Il team del MIT ha sviluppato una nuova architettura chiamata Heterogeneous Pretrained Transformers (HPT) che unifica i dati provenienti da più modalità e domini. Al centro di questa architettura c'è un modello di apprendimento automatico noto come trasformatore, lo stesso tipo che costituisce la base dei modelli linguistici di grandi dimensioni.

I ricercatori hanno allineato i dati sulla visione e sulla propriocezione (cconsapevolezza della postura, del movimento, delle varie parti del corpo e dei cambiamenti di equilibrio, nonché delle sensazioni di movimento e della posizione delle articolazioni) in un tipo di input comune, chiamato "token", che il trasformatore può elaborare. Ogni input è rappresentato con lo stesso numero fisso di token, consentendo al modello di elaborare informazioni provenienti da fonti diverse in modo uniforme. Il trasformatore mappa quindi tutti gli input in uno spazio condiviso, espandendosi in un enorme modello pre-addestrato man mano che elabora e apprende da più dati. Più grande diventa il trasformatore, migliori sono le sue prestazioni.

Vantaggi e prestazioni dell'HPT

Uno dei principali vantaggi di questo approccio è che l'utente deve fornire solo una piccola quantità di dati sul design, la configurazione e il compito previsto del robot. L'HPT trasferisce le conoscenze acquisite durante la fase di pre-addestramento all'apprendimento del nuovo compito. Questo rende il processo di addestramento più rapido ed economico, poiché richiede molti meno dati specifici per il compito.

Durante i test, l'HPT ha migliorato le prestazioni del robot di oltre il 20% sia nei compiti simulati che in quelli reali, rispetto all'addestramento da zero ogni volta. Anche quando il compito era molto diverso dai dati pre-addestramento, l'HPT ha comunque mostrato miglioramenti significativi. Ciò indica una notevole capacità di generalizzazione, fondamentale per i robot che devono operare in ambienti imprevedibili o eseguire compiti precedentemente non programmati.

Sfide affrontate

Una delle sfide più grandi nella creazione dell'HPT è stata la creazione dell'enorme set di dati necessario per il pre-addestramento del trasformatore. Questo includeva 52 set di dati con oltre 200.000 traiettorie robotiche suddivise in quattro categorie, inclusi video di dimostrazioni e simulazioni umane. Inoltre, i ricercatori dovevano sviluppare un modo efficiente per trasformare i segnali propriocettivi grezzi provenienti da una varietà di sensori in dati che il trasformatore potesse elaborare.

"La propriocezione è fondamentale per consentire molti movimenti della mano destra", spiega Lirui Wang, autore principale dello studio. "Poiché il numero di token è sempre lo stesso nella nostra architettura, diamo la stessa importanza alla propriocezione e alla vista."

Il futuro della robotica con HPT

In futuro, i ricercatori intendono studiare come la diversità dei dati possa migliorare ulteriormente le prestazioni dell'HPT. Sperano inoltre di potenziare l'HPT in modo che possa elaborare dati non etichettati, seguendo le orme di modelli linguistici su larga scala come GPT-4. Questo potrebbe portare a un sistema in cui il robot impara continuamente da nuove esperienze, senza la necessità di un costante intervento umano per etichettare i dati.

"Il nostro sogno è avere un cervello robotico universale che si possa scaricare e utilizzare sul proprio robot senza alcuna formazione", afferma Wang. "Sebbene siamo ancora nelle fasi iniziali, continueremo a impegnarci e speriamo che la scalabilità porti a innovazioni nelle politiche della robotica, proprio come è successo con i grandi modelli linguistici".

Conclusione

La ricerca del MIT rappresenta un significativo passo avanti nella ricerca di robot multiuso efficienti e adattabili. Combinando grandi quantità di dati eterogenei in un'architettura unificata, i ricercatori hanno aperto la strada a robot in grado di apprendere una varietà di compiti senza richiedere un addestramento approfondito per ogni nuova situazione. Questo approccio ha il potenziale per rivoluzionare la robotica, consentendo lo sviluppo di robot più versatili in grado di adattarsi ad ambienti e compiti non familiari, avvicinandoci sempre di più alla visione di robot come Rosie dei Pronipoti.

Riferimenti

Questo lavoro è stato finanziato in parte dall'Amazon Greater Boston Tech Initiative e dal Toyota Research Institute. La ricerca è stata presentata alla Conferenza sui Sistemi di Elaborazione delle Informazioni Neurali ed è disponibile per la lettura completa nell'articolo "Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers".

https://liruiw.github.io/hpt/

Ritorno

Notizia