SendTech Times
الذكاء الاصطناعيNews|31 مايو 2026 في 07:10 م
AI SHIFT:

نموذج WALL-WM من X-Square يدفع ذكاء الروبوتات نحو التخطيط على مستوى الحدث

ملخص المقال

أطلقت X-Square Robot نموذج WALL-WM للذكاء الاصطناعي المجسد، وهو نموذج عالم يتنبأ بالأحداث الدلالية بدلا من الإطارات الحركية الثابتة. وتقول الشركة إن النهج يساعد الروبوتات على فهم هدف المهمة مثل الإمساك بجسم بدلا من حفظ تسلسلات حركة دقيقة. وتشير نتائج الاختبارات إلى أداء أقوى في جودة الحركة والاتساق الدلالي والمعقولية الفيزيائية وإنجاز المهام.

نموذج WALL-WM من X-Square يدفع ذكاء الروبوتات نحو التخطيط على مستوى الحدث
مصدر الصورة: Pandaily

تحاول X-Square Robot تغيير الطريقة التي تخطط بها أنظمة الذكاء الاصطناعي المجسد للمهام الفيزيائية. وينقل نموذجها الجديد WALL-WM التنبؤ من الإطارات الزمنية القصيرة الثابتة إلى فهم الأحداث، في تحول يستهدف جعل الروبوتات أقل اعتمادا على تسلسلات الحركة المحفوظة.

تقول الشركة الصينية، المعروفة بنماذج GreatWall الأساسية للروبوتات، إن WALL-WM هو نموذج عالم يتنبأ على مستوى الحدث للذكاء المجسد. وتبرز أهمية هذا الادعاء لأن التحكم الروبوتي ما زال يواجه صعوبة عندما تبدو المهمة مألوفة لكن يتغير الجسم أو السطح أو التوقيت.

إشارة البنية

تتنبأ معظم أنظمة الرؤية واللغة والحركة بالحركة ضمن شرائح زمنية صغيرة. وفي مثال المصدر، قد يقدر النموذج أين يجب أن تكون يد الروبوت بعد 0.1 ثانية و0.2 ثانية، بدلا من التفكير مباشرة في النتيجة المستهدفة.

يعيد WALL-WM صياغة هذه المشكلة. فبدلا من التنبؤ بالإطار التالي، يتنبأ بحدث دلالي مثل لحظة الإمساك بجسم، ثم يولد الأفعال اللازمة للوصول إلى تلك الحالة. وصمم النهج لمساعدة الروبوت على التركيز على نية المهمة بدلا من أنماط الحركة المرتبطة بالبكسلات.

لماذا يهم التنبؤ بالحدث

الوعد الأساسي هو التعميم. يمكن أن يتعطل النموذج القائم على الإطارات إذا تغير الكوب أو الطاولة أو التوقيت لأنه تعلم تسلسل حركة ضيقا. أما النموذج القائم على الحدث فيفترض أن تكون لديه فرصة أفضل للتكيف لأن الحدث، لا المشهد الدقيق، يصبح نقطة الارتكاز.

هذا مهم للذكاء الاصطناعي المجسد لأن البيئات الفيزيائية متغيرة. فحالات التلامس، ومواقع الأشياء، ودقة التوقيت، والاضطرابات الصغيرة يمكن أن تغير جميعها نتيجة مهمة المناولة.

نقاط الإثبات التقنية

تحدد ورقة WALL-WM عدم توافق بين بيانات النص والرؤية والحركة. فالنص يحمل نية عالية المستوى، والرؤية تتغير باستمرار، والحركة مقيدة بالفيزياء والتلامس. وتقول X-Square Robot إن حلها هو نظام من ثلاث طبقات: طبقة إدخال تعليمات الحدث، وطبقة تنبؤ أساسية تستخدم تحسين Muon الموزع، واستراتيجية حزم متعددة الأحداث تدرب عدة أحداث داخل تسلسل طويل واحد.

وتفيد الشركة بأن النتائج تفوقت على Wan2.1-14B وOpen-Sora 2.0 في اختبارات توليد فيديو للذكاء المجسد، كما حققت إنجاز مهام أعلى من Pi0.5 وDreamZero في معيار Core15 L1 للروبوتات.

ما يجب مراقبته

الاختبار التالي هو ما إذا كان WALL-WM يستطيع الانتقال من أداء الاختبارات إلى سلوك روبوتي موثوق خارج العروض المضبوطة. ويشير المصدر إلى تحسن في جودة الحركة، والاتساق الدلالي، والمعقولية الفيزيائية، والاستدلال، والمناولة الدقيقة، ودرجات التعميم.

بالنسبة إلى مطوري الروبوتات، تكمن الإشارة الأكبر في أن الذكاء الاصطناعي المجسد ينتقل من التقليد البصري إلى التخطيط على مستوى الهدف. وإذا صمدت نماذج العالم القائمة على الأحداث في الاستخدام العملي، فقد تصبح أساسا أكثر ملاءمة للروبوتات التي تحتاج إلى التعامل مع أشياء وبيئات متغيرة.

شارك هذا المقال
inXf

مقالات ذات صلة

المزيد
نوتا تشغل نموذج روبوتات VLA في الوقت الحقيقي على عتاد كوالكوم الطرفي
الذكاء الاصطناعي

نوتا تشغل نموذج روبوتات VLA في الوقت الحقيقي على عتاد كوالكوم الطرفي

عرضت نوتا تشغيل نموذج روبوتات يجمع بين الرؤية واللغة والفعل في الوقت الحقيقي على عتاد Qualcomm Dragonwing للذكاء الاصطناعي الطرفي. وخفضت الشركة زمن معالجة رأس الفعل من 218 ملي ثانية إلى 31 ملي ثانية مع بقاء معدل نجاح المهمة شبه ثابت. ويشير العرض إلى مسار لأنظمة الذكاء الاصطناعي الفيزيائي التي تعمل قرب الروبوتات بدلا من الاعتماد أساسا على خوادم GPU أو السحابة.

البرمجة بالذكاء الاصطناعي تجعل المطورين هدفاً سيبرانياً عالي القيمة
الذكاء الاصطناعي

البرمجة بالذكاء الاصطناعي تجعل المطورين هدفاً سيبرانياً عالي القيمة

يشير تحليل نشره موقع @IT الياباني إلى أن المهاجمين يستهدفون المطورين بشكل متزايد لأن أدوات البرمجة بالذكاء الاصطناعي والبرمجيات مفتوحة المصدر وخطوط CI/CD والخدمات السحابية تجمع حولهم صلاحيات وبيانات اعتماد عالية القيمة.

Tencent تطرح وكيل WorkBuddy عالمياً ضمن دفعها لإنتاجية المؤسسات
الذكاء الاصطناعي

Tencent تطرح وكيل WorkBuddy عالمياً ضمن دفعها لإنتاجية المؤسسات

أطلقت Tencent Cloud وكيل WorkBuddy للمستخدمين خارج الصين بعد طرحه محلياً. يستطيع المنتج تشغيل مهام عبر تطبيقات المراسلة والاتصال بأدوات عمل مثل GitHub وJira وGoogle Drive وGmail وNotion وSlack. كما طرحت الشركة Miora وTokenHub ضمن توسع أوسع في ذكاء المؤسسات.

تقييم Cognition AI البالغ 26 مليار دولار يختبر جدوى وكلاء البرمجة للشركات
الذكاء الاصطناعي

تقييم Cognition AI البالغ 26 مليار دولار يختبر جدوى وكلاء البرمجة للشركات

جمعت Cognition AI، المطورة لوكيل البرمجة Devin، أكثر من مليار دولار بتقييم يبلغ 26 مليار دولار، وفقاً لـ TMTPost. ويعكس التمويل رهانات كبيرة على وكلاء البرمجة داخل الشركات، مع استمرار أسئلة الموثوقية والمنافسة.