NVIDIA تختبر DFlash لتقليل اختناقات استدلال نماذج اللغة
يستبدل DFlash مسار الصياغة التخمينى المتسلسل بتنبؤ رموز قائم على block diffusion على وحدات NVIDIA، بهدف رفع الإنتاجية في مهام البرمجة والاستدلال والوكلاء الحساسة للزمن من دون تغيير مسار إخراج النموذج الهدف.

DFlash ينقل صياغة الرموز إلى حوسبة متوازية
يُختبر DFlash كطريقة لتسريع استدلال نماذج اللغة التوليدية autoregressive على عتاد NVIDIA من خلال استبدال نموذج الصياغة التخمينى المتسلسل المعتاد بنموذج خفيف قائم على block diffusion. تتنبأ الطريقة بكتلة من الرموز المستقبلية المقنعة في تمريرة أمامية واحدة، ثم تترك للنموذج الهدف مهمة التحقق من المرشحات.
المشكلة محددة في تشغيل نماذج اللغة الحساس لزمن الاستجابة. تولد النماذج autoregressive الرموز واحدا بعد آخر، ما قد يترك قدرة GPU غير مستغلة عندما يحتاج المطورون إلى ردود تفاعلية سريعة. يحاول speculative decoding تخفيف ذلك عبر نموذج أصغر يصوغ رموزا مستقبلية، لكن نموذج الصياغة المعتاد لا يزال ينتج تلك الرموز بالتسلسل.
يغير DFlash مسار الصياغة لا مسار التحقق النهائي. يظل النموذج الهدف مسؤولا عن تمريرة التحقق، بينما يكشف DFlash مزيدا من العمل المتوازي أمام GPU. لذلك يرتبط الأسلوب بمساعدي البرمجة وأنظمة الاستدلال وسير عمل الوكلاء حيث يمثل زمن الرمز لكل مستخدم والتزامن حدودا صعبة.
اختبارات Blackwell تضع مطالبات الإنتاجية في الواجهة
تأتي أقوى الأرقام من اختبارات على نظام eight NVIDIA DGX B300 يشغل نموذج gpt-oss-120b باستخدام TensorRT-LLM. وعلى مجموعة SPEED-Bench للبرمجة، أنتج DFlash إنتاجية أعلى عبر أهداف زمن استجابة وُصفت بأنها ملائمة للإنتاج.
في نطاقات تفاعلية عالية تبلغ 500-600 رمز في الثانية لكل مستخدم، زاد DFlash الإنتاجية على معمارية NVIDIA Blackwell بأكثر من 15x مقارنة بفك الترميز autoregressive. وكان معدل الإخراج نفسه أعلى بمقدار 1.5x من EAGLE-3. وعند أدنى نقطة تزامن مع batch size يساوي one، زاد DFlash التفاعلية على عتاد Blackwell بأكثر من الضعف.
توضح تفاصيل العتاد سبب عرض الادعاء كقصة أنظمة استدلال لا كإصدار نموذج فقط. توصف كل وحدة Blackwell Ultra GPU بأنها تضم قالبين بحجم reticle موصولين بوصلة chip-to-chip عالية النطاق بسرعة 10tbps، مع 160 streaming multiprocessors و640 من Tensor Cores من الجيل الخامس. صُمم DFlash لإمداد هذا العتاد بعمل صياغة متواز بدلا من الانتظار على رمز بعد آخر.
دعم vLLM وSGLang يحدد عمل التبني
يتضمن الإصدار أيضا مسارات تكامل لفرق الهندسة التي تشغل بالفعل مكدسات استدلال مفتوحة. أصدر فريق البحث 20 checkpoint لنموذج DFlash على Hugging Face، مع وصفات لوحدات NVIDIA Blackwell وHopper ودعم لعائلات نماذج تشمل Qwen وKimi K2.6 وLlama وGemma وgpt-oss.
في بيئات vLLM، يستطيع المهندسون استبدال EAGLE-3 بنقطة DFlash عبر تحديث إعدادات باستخدام مكتبة Speculators المفتوحة. وأظهر اختبار Gemma 4 31B على وحدة Blackwell Ultra GPU واحدة إنتاجية أعلى حتى 5.8x عند تزامن مطابق مقارنة بفك الترميز autoregressive القياسي، بما في ذلك 5.8x على Math500 و5.6x على HumanEval و5.3x على GSM8K.
تتطلب عمليات SGLang تغيير خوارزمية speculative decoding إلى DFlash وتوفير checkpoint الصياغة المطابق. وأظهر تقييم Qwen3 8-B على وحدة NVIDIA B200 GPU واحدة تحسنا في الإنتاجية يصل إلى 5.1x عند تزامن مطابق مقارنة بفك الترميز autoregressive، مع 5.1x على Math500 و4.2x على HumanEval.
يقع العبء التشغيلي الآن على فرق الاستدلال. يوفر DFlash checkpoints مفتوحة ومسارات للأطر، لكن التبني الإنتاجي لا يزال يعتمد على قدرة الفرق على الحفاظ على معدلات القبول وأهداف زمن الاستجابة وتوافق النماذج وموثوقية الخدمة عبر أعباء العمل الخاصة بها.
















