HPT: "الدماغ العالمي" الذي يُحدث ثورة في عالم الروبوتات

مقدمة

لطالما كانت رؤية الروبوتات متعددة المهام، مثل روزي الشهيرة من مسلسل "ذا جيتسون"، طموحًا راسخًا في مجال الروبوتات. ومع ذلك، لا يزال تدريب الروبوتات متعددة الأغراض يمثل تحديًا كبيرًا. فعادةً ما يجمع المهندسون بيانات خاصة بالروبوت والمهمة الموكلة إليه في بيئات مُتحكم بها، وهي عملية مكلفة وتستغرق وقتًا طويلاً، كما أنها تُحد من قدرة الروبوت على التكيف مع المهام الجديدة أو البيئات غير المتوقعة أثناء التدريب.

الاستلهام من نماذج اللغة واسعة النطاق

اقترح باحثو معهد ماساتشوستس للتكنولوجيا (MIT) نهجًا جديدًا للتغلب على هذه التحديات، مستوحين من نماذج اللغات واسعة النطاق مثل GPT-4. تُدرّب هذه النماذج مسبقًا بكميات هائلة من البيانات المتنوعة، ثم تُحسّن بدقة باستخدام كمية صغيرة من البيانات الخاصة بمهمة محددة. تُمكّن هذه الاستراتيجية النموذج من التكيف والأداء الجيد في مجموعة متنوعة من المهام، بفضل المعرفة الواسعة المكتسبة خلال التدريب المسبق.

في مجال الروبوتات، تتنوع البيانات بشكل كبير، بدءًا من صور الكاميرا وصولًا إلى إشارات الحس العميق التي تراقب موضع وسرعة ذراع الروبوت. علاوة على ذلك، يتميز كل روبوت بخصائص ميكانيكية فريدة، مثل اختلاف عدد الأذرع والمقابض والمستشعرات. كما تتنوع بيئات جمع البيانات بشكل كبير. ولمعالجة هذا التباين، يلزم وجود بنية قادرة على توحيد هذه الأنواع المتنوعة من البيانات في صيغة مفهومة للروبوت.

هندسة المحولات المدربة مسبقًا غير المتجانسة (HPT)

طوّر فريق معهد ماساتشوستس للتكنولوجيا (MIT) بنيةً جديدةً تُسمى "المحوّلات المُدرّبة مُسبقًا غير المتجانسة" (HPT)، تُوحّد البيانات من وسائط ومجالات مُتعددة. ويرتكز هذا الهيكل على نموذج تعلّم آلي يُعرف باسم "المحوّل"، وهو نفس النوع الذي يُشكّل أساس نماذج اللغات الكبيرة.

قام الباحثون بمحاذاة بيانات الرؤية والحس العميق (ج)(الوعي بالوضعية والحركة وأجزاء الجسم المختلفة والتغيرات في التوازن، بالإضافة إلى تضمين أحاسيس الحركة وموضع المفاصل) إلى نوع مُدخلات مُشترك، يُسمى "رمزًا"، يُمكن للمُحوّل معالجته. يُمثَّل كل مُدخل بنفس العدد الثابت من الرموز، مما يُتيح للنموذج معالجة المعلومات من مصادر مُختلفة بشكل مُوحَّد. ثم يُرسِل المُحوّل جميع المُدخلات إلى مساحة مُشتركة، مُتناميًا إلى نموذج ضخم مُدرَّب مُسبقًا مع مُعالجة المزيد من البيانات والتعلم منها. كلما كبر حجم المُحوّل، كان أداؤه أفضل.

مزايا وأداء HPT

من أهم مزايا هذا النهج أن المستخدم لا يحتاج سوى إلى توفير قدر ضئيل من البيانات حول تصميم الروبوت وتكوينه والمهمة المقصودة. ينقل برنامج HPT المعرفة المكتسبة خلال مرحلة ما قبل التدريب إلى تعلم المهمة الجديدة. هذا يُسرّع عملية التدريب ويقلل تكلفتها، إذ يتطلب بيانات أقل بكثير خاصة بالمهمة.

عند اختباره، حسّن HPT أداء الروبوت بأكثر من 20% في كلٍّ من المهام المحاكية والواقعية، مقارنةً بالتدريب من الصفر في كل مرة. حتى عندما كانت المهمة مختلفة تمامًا عن بيانات ما قبل التدريب، أظهر HPT تحسينات ملحوظة. هذا يدل على قدرة تعميمية ملحوظة، وهي ضرورية للروبوتات التي تحتاج إلى العمل في بيئات غير متوقعة أو تنفيذ مهام غير مبرمجة مسبقًا.

التحديات التي تواجهها

كان أحد أكبر التحديات في إنشاء HPT هو بناء قاعدة البيانات الضخمة اللازمة لتدريب المحول مسبقًا. وشمل ذلك 52 مجموعة بيانات تضم أكثر من 200.000 مسار روبوتي ضمن أربع فئات، بما في ذلك مقاطع فيديو لعروض بشرية ومحاكاة. بالإضافة إلى ذلك، احتاج الباحثون إلى تطوير طريقة فعّالة لتحويل الإشارات الحسية الخام من مجموعة متنوعة من أجهزة الاستشعار إلى بيانات يمكن للمحول معالجتها.

يوضح ليرو وانغ، المؤلف الرئيسي للدراسة، قائلاً: "يُعد الحس العميق أساسيًا لتمكين العديد من حركات اليد اليمنى. ولأن عدد الرموز ثابت دائمًا في بنيتنا، فإننا نولي أهمية متساوية للحس العميق والرؤية".

مستقبل الروبوتات مع HPT

يخطط الباحثون مستقبلًا لدراسة كيفية إسهام تنوع البيانات في تحسين أداء HPT. كما يأملون في تحسينه ليتمكن من معالجة البيانات غير المُصنّفة، على غرار نماذج اللغة واسعة النطاق مثل GPT-4. قد يؤدي هذا إلى نظام يتعلم فيه الروبوت باستمرار من التجارب الجديدة، دون الحاجة إلى تدخل بشري مستمر لتصنيف البيانات.

يقول وانغ: "حلمنا هو امتلاك دماغ روبوتي عالمي يُمكن تنزيله واستخدامه على روبوتك دون أي تدريب. وبينما لا نزال في المراحل الأولى، سنواصل العمل، ونأمل أن تُؤدي قابلية التوسع إلى إنجازات في سياسات الروبوتات، تمامًا كما حدث مع نماذج اللغات الكبيرة".

اختتام

يمثل بحث معهد ماساتشوستس للتكنولوجيا تقدمًا ملحوظًا في السعي نحو تطوير روبوتات متعددة الأغراض فعّالة وقابلة للتكيف. فمن خلال دمج كميات كبيرة من البيانات المتنوعة في بنية موحدة، مهد الباحثون الطريق لروبوتات قادرة على تعلم مهام متنوعة دون الحاجة إلى تدريب مكثف لكل موقف جديد. ويحمل هذا النهج القدرة على إحداث ثورة في عالم الروبوتات، مما يتيح تطوير روبوتات أكثر مرونة وقادرة على التكيف مع بيئات ومهام غير مألوفة، مما يقربنا أكثر فأكثر من رؤية روبوتات مثل روزي من مسلسل "ذا جيتسون".

المراجع

مُوِّل هذا العمل جزئيًا من قِبَل مبادرة أمازون جريتر بوسطن التقنية ومعهد تويوتا للأبحاث. عُرض البحث في مؤتمر أنظمة معالجة المعلومات العصبية، وهو متاح للقراءة كاملةً في ورقة بحثية بعنوان "توسيع نطاق التعلم الحسي البصري باستخدام محولات مُدرَّبة مسبقًا غير متجانسة".

https://liruiw.github.io/hpt/

حصة

مقالات ذات صلة

ابق على اطلاع باتجاهات التكنولوجيا والإدارة من خلال النصوص ومقاطع الفيديو والمواد القابلة للتنزيل.