نموذج WALL-WM من X-Square يدفع ذكاء الروبوتات نحو التخطيط على مستوى الحدث

بقلممكتب الذكاء الاصطناعي والمؤسسات في SendTech Timesتغطية مكتبية محررة ومراجعة المصدر|المصدر: Pandaily

موجز التحرير

أطلقت X-Square Robot نموذج WALL-WM للذكاء الاصطناعي المجسد، وهو نموذج عالم يتنبأ بالأحداث الدلالية بدلا من الإطارات الحركية الثابتة. وتقول الشركة إن النهج يساعد الروبوتات على فهم هدف المهمة مثل الإمساك بجسم بدلا من حفظ تسلسلات حركة دقيقة. وتشير نتائج الاختبارات إلى أداء أقوى في جودة الحركة والاتساق الدلالي والمعقولية الفيزيائية وإنجاز المهام.

تمت المراجعة مقابل مواد المصدرتحرير مكتب الذكاء الاصطناعي والمؤسسات في SendTech Times

نموذج WALL-WM من X-Square يدفع ذكاء الروبوتات نحو التخطيط على مستوى الحدث

مصدر الصورة: Pandaily

تحاول X-Square Robot تغيير الطريقة التي تخطط بها أنظمة الذكاء الاصطناعي المجسد للمهام الفيزيائية. وينقل نموذجها الجديد WALL-WM التنبؤ من الإطارات الزمنية القصيرة الثابتة إلى فهم الأحداث، في تحول يستهدف جعل الروبوتات أقل اعتمادا على تسلسلات الحركة المحفوظة.

تقول الشركة الصينية، المعروفة بنماذج GreatWall الأساسية للروبوتات، إن WALL-WM هو نموذج عالم يتنبأ على مستوى الحدث للذكاء المجسد. وتبرز أهمية هذا الادعاء لأن التحكم الروبوتي ما زال يواجه صعوبة عندما تبدو المهمة مألوفة لكن يتغير الجسم أو السطح أو التوقيت.

إشارة البنية

تتنبأ معظم أنظمة الرؤية واللغة والحركة بالحركة ضمن شرائح زمنية صغيرة. وفي مثال المصدر، قد يقدر النموذج أين يجب أن تكون يد الروبوت بعد 0.1 ثانية و0.2 ثانية، بدلا من التفكير مباشرة في النتيجة المستهدفة.

يعيد WALL-WM صياغة هذه المشكلة. فبدلا من التنبؤ بالإطار التالي، يتنبأ بحدث دلالي مثل لحظة الإمساك بجسم، ثم يولد الأفعال اللازمة للوصول إلى تلك الحالة. وصمم النهج لمساعدة الروبوت على التركيز على نية المهمة بدلا من أنماط الحركة المرتبطة بالبكسلات.

لماذا يهم التنبؤ بالحدث

الوعد الأساسي هو التعميم. يمكن أن يتعطل النموذج القائم على الإطارات إذا تغير الكوب أو الطاولة أو التوقيت لأنه تعلم تسلسل حركة ضيقا. أما النموذج القائم على الحدث فيفترض أن تكون لديه فرصة أفضل للتكيف لأن الحدث، لا المشهد الدقيق، يصبح نقطة الارتكاز.

هذا مهم للذكاء الاصطناعي المجسد لأن البيئات الفيزيائية متغيرة. فحالات التلامس، ومواقع الأشياء، ودقة التوقيت، والاضطرابات الصغيرة يمكن أن تغير جميعها نتيجة مهمة المناولة.

نقاط الإثبات التقنية

تحدد ورقة WALL-WM عدم توافق بين بيانات النص والرؤية والحركة. فالنص يحمل نية عالية المستوى، والرؤية تتغير باستمرار، والحركة مقيدة بالفيزياء والتلامس. وتقول X-Square Robot إن حلها هو نظام من ثلاث طبقات: طبقة إدخال تعليمات الحدث، وطبقة تنبؤ أساسية تستخدم تحسين Muon الموزع، واستراتيجية حزم متعددة الأحداث تدرب عدة أحداث داخل تسلسل طويل واحد.

وتفيد الشركة بأن النتائج تفوقت على Wan2.1-14B وOpen-Sora 2.0 في اختبارات توليد فيديو للذكاء المجسد، كما حققت إنجاز مهام أعلى من Pi0.5 وDreamZero في معيار Core15 L1 للروبوتات.

ما يجب مراقبته

الاختبار التالي هو ما إذا كان WALL-WM يستطيع الانتقال من أداء الاختبارات إلى سلوك روبوتي موثوق خارج العروض المضبوطة. ويشير المصدر إلى تحسن في جودة الحركة، والاتساق الدلالي، والمعقولية الفيزيائية، والاستدلال، والمناولة الدقيقة، ودرجات التعميم.

بالنسبة إلى مطوري الروبوتات، تكمن الإشارة الأكبر في أن الذكاء الاصطناعي المجسد ينتقل من التقليد البصري إلى التخطيط على مستوى الهدف. وإذا صمدت نماذج العالم القائمة على الأحداث في الاستخدام العملي، فقد تصبح أساسا أكثر ملاءمة للروبوتات التي تحتاج إلى التعامل مع أشياء وبيئات متغيرة.

#ذكاء_اصطناعي_صيني #البنية_التحتية_للذكاء_الاصطناعي

مقالات ذات صلة

المزيد

الذكاء الاصطناعي

Qwen يدخل العالم المادي: هل تستطيع نماذج الروبوتات من Alibaba التنقل داخل المنازل الحقيقية؟

وسّعت Alibaba نطاق Qwen إلى الذكاء الاصطناعي المجسّد عبر Qwen-Robot، وهي عائلة نماذج للتنقل والمناولة ونمذجة العالم للوكلاء الماديين. وتضم المجموعة Qwen-RobotNav وQwen-RobotManip وQwen-RobotWorld، مع عرض Qwen-RobotNav على روبوت Unitree Go2 باستخدام كاميرا واحدة منخفضة الدقة. ويمنح هذا الإطلاق Alibaba طبقة روبوتات ملموسة حول Qwen، لكن الأدلة المعروضة حتى الآن لا تزال أقرب إلى عرض تقني منها إلى انتشار تجاري واسع.

الذكاء الاصطناعي

ORBBEC تدفع الرؤية ثلاثية الأبعاد نحو عمق الذكاء الاصطناعي الفيزيائي

تتوسع ORBBEC من رؤية الروبوتات إلى الذكاء الاصطناعي الفيزيائي والرؤية العامة للذكاء الاصطناعي والطباعة ثلاثية الأبعاد واكتساب البيانات. تمتلك الشركة حصة تتجاوز 70% في سوق روبوتات الخدمات في الصين وكوريا الجنوبية، ودخلت سلاسل توريد AgiBot وUBTech وUnitree. وبلغت إيرادات الربع الأول من 2026 نحو 203 ملايين يوان، مع ارتفاع صافي الربح بعد الاستقطاعات 531.01% على أساس سنوي.

الذكاء الاصطناعي

نوتا تشغل نموذج روبوتات VLA في الوقت الحقيقي على عتاد كوالكوم الطرفي

عرضت نوتا تشغيل نموذج روبوتات يجمع بين الرؤية واللغة والفعل في الوقت الحقيقي على عتاد Qualcomm Dragonwing للذكاء الاصطناعي الطرفي. وخفضت الشركة زمن معالجة رأس الفعل من 218 ملي ثانية إلى 31 ملي ثانية مع بقاء معدل نجاح المهمة شبه ثابت. ويشير العرض إلى مسار لأنظمة الذكاء الاصطناعي الفيزيائي التي تعمل قرب الروبوتات بدلا من الاعتماد أساسا على خوادم GPU أو السحابة.

الذكاء الاصطناعي

AIVEX تدخل الذكاء الاصطناعي الفيزيائي إلى أعمال تغليف مصانع البطاريات الكورية

قالت AIVEX إن منصة AIbot أتمتت عملية إزالة تغليف البوتقات لدى شركة كورية رائدة في مواد البطاريات. يجمع النظام بين الرؤية بالذكاء الاصطناعي والبصريات ثلاثية الأبعاد وتقدير الوضعية وتخطيط المسار للتعامل مع حبال وأغلفة غير منتظمة. ويشير التطبيق إلى انتقال الذكاء الاصطناعي الفيزيائي إلى مهام مصانع متكررة لكنها شديدة التغير.

الذكاء الاصطناعي

Yann LeCun يجمع أكثر من مليار دولار لتطوير AI يتجاوز نماذج اللغة

قال Yann LeCun لـ BBC إن نماذج اللغة الكبيرة ليست مسارا نحو ذكاء شبيه بالبشر أو الحيوانات لأنها لا تستطيع التعامل مع بيانات العالم الحقيقي. جمعت AMI Labs في باريس أكثر من مليار دولار وتطور JEPA، لكنها لم تسم العملاء الصناعيين الأوائل أو عقود النشر.

الذكاء الاصطناعي

Om AI تراهن على نماذج متعددة الوسائط على الحافة مع تحول شركات الذكاء الاصطناعي الصينية نحو النشر العملي

تركز Om AI Technology على نماذج رؤية متعددة الوسائط صغيرة تعمل على الحافة لأجهزة الكمبيوتر والكاميرات والروبوتات وغيرها، بدلاً من النماذج السحابية الضخمة. عرضت الشركة خلال BEYOND Expo 2026 منتج OttoBox AI Studio، وهو أداة محتوى تعتمد على الذكاء الاصطناعي المحلي لتحليل الفيديو ومطابقة الأصول وتوليد النصوص والإنتاج السريع. الاختبار التالي هو ما إذا كان نموذج VLX متعدد الوسائط على الحافة سيحسن فهم الفيديو واتخاذ القرار مع خفض تكاليف التشغيل.