نتائج Blackwell في MLPerf تنقل اختناق تدريب الذكاء الاصطناعي إلى مستوى الرفوف
تقول NVIDIA إن Blackwell تصدر MLPerf Training 6.0 عبر جميع المعايير السبعة، مع عمليات إرسال توسعت إلى 8,192 GPU وتدريب GB300 NVL72 أسرع حتى 1.6x من GB200 NVL72 على النطاق نفسه.

Blackwell ينقل معركة المعايير إلى رفوف كاملة
تضع نتائج NVIDIA الأخيرة في MLPerf Training 6.0 سباق تدريب الذكاء الاصطناعي على مستوى الرف والعنقود، لا على مستوى المسرع الفردي فقط.
تقول الشركة إن منصة Blackwell حققت أسرع وقت تدريب عبر جميع معايير MLPerf Training 6.0 السبعة. كما قدمت نتائج في كل معيار ضمن المجموعة، ووسعت إحدى عمليات تدريب Blackwell NVL72 إلى 8,192 GPU.
بات تدريب الذكاء الاصطناعي الكبير مقيداً أكثر بالشبكات والذاكرة والاعتمادية وحدود الطاقة. تساعد الرقائق الأسرع، لكن تدريب نماذج frontier يعتمد أيضاً على قدرة آلاف وحدات GPU على العمل كنظام منسق لمدة كافية لإنهاء التشغيل.
أعباء MoE ترفع عبء الشبكات
أضاف MLPerf Training 6.0 عمليتي تدريب مسبق بنمط mixture-of-experts: DeepSeek-V3 671B وGPT-OSS-20B. تجعل هذه الأعباء الشبكة أكثر أهمية لأن الرموز يجب أن تتحرك عبر GPU للوصول إلى شبكات الخبراء الفرعية المناسبة.
قدمت NVIDIA نتائج على أنظمة GB200 NVL72 وGB300 NVL72 على مستوى الرف. في كل رف NVL72، تربط مفاتيح NVLink من الجيل الخامس 72 GPU في تجمع مشترك للحوسبة والذاكرة.
وضعت NVIDIA ميزة GB300 NVL72 عند سرعة تدريب أعلى حتى 1.6x مقارنة مع GB200 NVL72 عندما قيس النظامان على النطاق نفسه. وربطت الشركة الزيادة بميزات Blackwell Ultra مثل NVFP4 وسعة الذاكرة الموسعة وسقف طاقة أعلى.
ادعاءات النطاق تعتمد الآن على الاعتمادية
استخدم أكبر إرسال من Blackwell عدد 8,192 GPU على DeepSeek-V3 671B بأنظمة GB200 NVL72. كما قدمت NVIDIA نتائج عند 5,120 GPU على Llama 3.1 405B.
توضح نتائج الشركاء كيف تستخدم السحابات الكبرى وسحابات الذكاء الاصطناعي الادعاءات نفسها. وسعت Microsoft Azure تدريب Llama 3.1 405B إلى 8,192 GPU ووصلت إلى هدف الجودة المرجعي خلال 7.07 دقيقة. ووصلت CoreWeave إلى هدف جودة DeepSeek-V3 671B خلال 2.02 دقيقة على نطاق 8,192-GPU باستخدام GB300 NVL72 مع Spectrum-X Ethernet.
على هذا النطاق، تصبح الاعتمادية جزءاً من الأداء. تقول NVIDIA إن التدريب الإنتاجي يمكن أن يعمل لأسابيع أو أشهر عبر مئات الآلاف من GPU، لذلك تؤثر نقاط الحفظ واكتشاف الأعطال وإعادة توجيه الشبكة في ما إذا كان throughput النظري يتحول إلى وقت تدريب قابل للاستخدام.
طلب الشركاء هو الإثبات التجاري
قائمة المنظومة واسعة. تقول NVIDIA إن 19 منظمة قدمت نتائج في جولة MLPerf هذه، من بينها Microsoft Azure وCoreWeave وGoogle Cloud وDell Technologies وHewlett Packard Enterprise وSupermicro وCisco وغيرها.
تضيف أمثلة العملاء طبقة أخرى. حققت Cohere تدريباً أسرع 3x على GB200 NVL72 لمنصة North agentic AI. وشهدت Thinking Machines Lab سرعات تدريب وخدمة أسرع 2x على GB300 NVL72 عبر Google Cloud. وخفضت Higgsfield وقت تدريب النموذج 30% على بنية Nebius، وتخدم الآن 22 million مستخدم ينتجون أكثر من 6 million قطعة محتوى ذكاء اصطناعي يومياً.
المسألة غير المحسومة ليست ما إذا كانت NVIDIA قادرة على تسجيل انتصارات في المعايير. بل ما إذا كان مشغلو مراكز البيانات يستطيعون تزويد هذه الأنظمة على مستوى الرف بالطاقة والشبكات والتبريد وأعباء العملاء بالسرعة التي يوحي بها طلب Blackwell.
















