Alibaba تطلق Qwen-Robot لاختبار الذكاء الاصطناعي المجسد في الملاحة والمناولة

ملخص المقال

أطلقت Alibaba عائلة Qwen-Robot للذكاء الاصطناعي المجسد، وتشمل نماذج للملاحة والمناولة ونمذجة العالم المادي. وتعرض الشركة Qwen-RobotNav على روبوت Unitree Go2 بكاميرا منخفضة الدقة واحدة، لكن الدليل المتاح يبقى أقرب إلى عرض تقني منه إلى نشر تجاري واسع.

Alibaba تطلق Qwen-Robot لاختبار الذكاء الاصطناعي المجسد في الملاحة والمناولة

مصدر الصورة: Pandaily

نقلت Alibaba عملها على Qwen إلى الذكاء الاصطناعي المجسد عبر Qwen-Robot، وهي عائلة نماذج موجهة للملاحة والمناولة ونمذجة العالم بدلاً من التفاعل النصي فقط.

Qwen ينتقل من المحادثة إلى المهام المادية

تمنح Qwen-Robot شركة Alibaba طبقة روبوتية تربط نماذج اللغة والرؤية بآلات تعمل في الفضاء المادي. وتنقسم العائلة إلى Qwen-RobotNav للملاحة البصرية اللغوية، وQwen-RobotManip لمناولة الأجسام، وQwen-RobotWorld للتنبؤ بالمستقبل المادي عبر سيناريوهات المناولة والقيادة والملاحة.

تكمن أهمية البنية في أن Alibaba لا تقدم عقلاً روبوتياً عاماً واحداً. فهي تقسم المشكلة إلى أنظمة منفصلة للحركة والفعل والاستدلال المادي المحاكى، ثم تربط هذه الأنظمة بوكلاء Qwen القادرين على استدعائها كأدوات.

العرض التقني يتمحور حول روبوت صغير

أوضح مثال تقني هو تشغيل Qwen-RobotNav على روبوت Unitree Go2 رباعي الأرجل. استخدم الروبوت عتاد NVIDIA Jetson Thor وكاميرا واحدة منخفضة الدقة، ثم تحرك داخل شقة غير مألوفة مع اتباع تعليمات صوتية.

قالت Alibaba في العرض إن الروبوت عبر غرفاً متعددة دون خريطة مسبقة وحقق زمن استدلال يبلغ 196 ms. وهذا مؤشر أداء مفيد للملاحة، لكنه لا يثبت وحده الاعتمادية داخل المصانع أو المستشفيات أو المنازل أو البيئات الخارجية.

تدرب Qwen-RobotNav على 15.6 million samples. ويستخدم Qwen-RobotManip بنية Qwen3.5-4B VL مع رأس فعل قائم على flow-matching diffusion transformer، وتدرب على over 38,100 hours من بيانات تشغيلية مبنية من مصادر open-source. أما Qwen-RobotWorld فيغطي طبقة التنبؤ، ما يمنح الوكلاء الماديين طريقة للتفكير في الحالات التالية المحتملة قبل الفعل.

إطار الوكلاء يوضح هدف التكامل

قدمت Alibaba أيضاً Qwen-RobotClaw، وهو إطار داخلي لوكلاء الروبوتات. يسمح الإطار لوكلاء Qwen VLM باستدعاء نماذج Qwen-Robot كأدوات للعالم المادي مع إدارة السياق والذاكرة في المهام الطويلة.

المثال المدعوم من المصدر عملي عمداً: بحث وكيل داخل مبنى عن دورة مياه متاحة، ورصد لافتة out-of-order، ثم أعاد تخطيط مساره للعثور على بديل. السيناريو محدود، لكنه يختبر قدرة وكيل روبوتي على الجمع بين الإدراك وتعليمات اللغة والذاكرة وتعديل المسار في بيئة حقيقية.

الاختبار القريب هو الدليل خارج العروض

فتحت Alibaba أيضاً Chat2Robot كمِنصة تقييم قائمة على المتصفح، حيث يمكن للمستخدمين الدردشة مع روبوت ومشاهدة الاستجابات في الوقت الحقيقي. وتدعم المنصة حالياً Qwen-RobotManip المدرب على 50 tasks باستخدام مجموعة RoboTwin-Clean.

بالنسبة إلى قراء SendTech Times، تكمن أهمية الإطلاق في أنه يدفع خريطة طريق Qwen نحو أنظمة ذكاء اصطناعي مادية، لا نحو معايير النماذج فقط. نقطة المتابعة التالية هي ما إذا كانت Qwen-Robot ستنتقل من العروض المضبوطة وأدوات التقييم إلى عمليات نشر متكررة مع عملاء مسمين أو بيئات تشغيل واضحة أو نتائج اعتمادية منشورة.

#ai #embodied AI #robotics #Alibaba