NVIDIA تختبر DFlash لتقليل اختناقات استدلال نماذج اللغة

بقلممكتب البنية التحتية في SendTech Timesتغطية مكتبية محررة ومراجعة المصدر|المصدر: Developer Tech

موجز التحرير

يستبدل DFlash مسار الصياغة التخمينى المتسلسل بتنبؤ رموز قائم على block diffusion على وحدات NVIDIA، بهدف رفع الإنتاجية في مهام البرمجة والاستدلال والوكلاء الحساسة للزمن من دون تغيير مسار إخراج النموذج الهدف.

تمت المراجعة مقابل مواد المصدرتحرير مكتب البنية التحتية في SendTech Times

NVIDIA تختبر DFlash لتقليل اختناقات استدلال نماذج اللغة

DFlash ينقل صياغة الرموز إلى حوسبة متوازية

يُختبر DFlash كطريقة لتسريع استدلال نماذج اللغة التوليدية autoregressive على عتاد NVIDIA من خلال استبدال نموذج الصياغة التخمينى المتسلسل المعتاد بنموذج خفيف قائم على block diffusion. تتنبأ الطريقة بكتلة من الرموز المستقبلية المقنعة في تمريرة أمامية واحدة، ثم تترك للنموذج الهدف مهمة التحقق من المرشحات.

المشكلة محددة في تشغيل نماذج اللغة الحساس لزمن الاستجابة. تولد النماذج autoregressive الرموز واحدا بعد آخر، ما قد يترك قدرة GPU غير مستغلة عندما يحتاج المطورون إلى ردود تفاعلية سريعة. يحاول speculative decoding تخفيف ذلك عبر نموذج أصغر يصوغ رموزا مستقبلية، لكن نموذج الصياغة المعتاد لا يزال ينتج تلك الرموز بالتسلسل.

يغير DFlash مسار الصياغة لا مسار التحقق النهائي. يظل النموذج الهدف مسؤولا عن تمريرة التحقق، بينما يكشف DFlash مزيدا من العمل المتوازي أمام GPU. لذلك يرتبط الأسلوب بمساعدي البرمجة وأنظمة الاستدلال وسير عمل الوكلاء حيث يمثل زمن الرمز لكل مستخدم والتزامن حدودا صعبة.

اختبارات Blackwell تضع مطالبات الإنتاجية في الواجهة

تأتي أقوى الأرقام من اختبارات على نظام eight NVIDIA DGX B300 يشغل نموذج gpt-oss-120b باستخدام TensorRT-LLM. وعلى مجموعة SPEED-Bench للبرمجة، أنتج DFlash إنتاجية أعلى عبر أهداف زمن استجابة وُصفت بأنها ملائمة للإنتاج.

في نطاقات تفاعلية عالية تبلغ 500-600 رمز في الثانية لكل مستخدم، زاد DFlash الإنتاجية على معمارية NVIDIA Blackwell بأكثر من 15x مقارنة بفك الترميز autoregressive. وكان معدل الإخراج نفسه أعلى بمقدار 1.5x من EAGLE-3. وعند أدنى نقطة تزامن مع batch size يساوي one، زاد DFlash التفاعلية على عتاد Blackwell بأكثر من الضعف.

توضح تفاصيل العتاد سبب عرض الادعاء كقصة أنظمة استدلال لا كإصدار نموذج فقط. توصف كل وحدة Blackwell Ultra GPU بأنها تضم قالبين بحجم reticle موصولين بوصلة chip-to-chip عالية النطاق بسرعة 10tbps، مع 160 streaming multiprocessors و640 من Tensor Cores من الجيل الخامس. صُمم DFlash لإمداد هذا العتاد بعمل صياغة متواز بدلا من الانتظار على رمز بعد آخر.

دعم vLLM وSGLang يحدد عمل التبني

يتضمن الإصدار أيضا مسارات تكامل لفرق الهندسة التي تشغل بالفعل مكدسات استدلال مفتوحة. أصدر فريق البحث 20 checkpoint لنموذج DFlash على Hugging Face، مع وصفات لوحدات NVIDIA Blackwell وHopper ودعم لعائلات نماذج تشمل Qwen وKimi K2.6 وLlama وGemma وgpt-oss.

في بيئات vLLM، يستطيع المهندسون استبدال EAGLE-3 بنقطة DFlash عبر تحديث إعدادات باستخدام مكتبة Speculators المفتوحة. وأظهر اختبار Gemma 4 31B على وحدة Blackwell Ultra GPU واحدة إنتاجية أعلى حتى 5.8x عند تزامن مطابق مقارنة بفك الترميز autoregressive القياسي، بما في ذلك 5.8x على Math500 و5.6x على HumanEval و5.3x على GSM8K.

تتطلب عمليات SGLang تغيير خوارزمية speculative decoding إلى DFlash وتوفير checkpoint الصياغة المطابق. وأظهر تقييم Qwen3 8-B على وحدة NVIDIA B200 GPU واحدة تحسنا في الإنتاجية يصل إلى 5.1x عند تزامن مطابق مقارنة بفك الترميز autoregressive، مع 5.1x على Math500 و4.2x على HumanEval.

يقع العبء التشغيلي الآن على فرق الاستدلال. يوفر DFlash checkpoints مفتوحة ومسارات للأطر، لكن التبني الإنتاجي لا يزال يعتمد على قدرة الفرق على الحفاظ على معدلات القبول وأهداف زمن الاستجابة وتوافق النماذج وموثوقية الخدمة عبر أعباء العمل الخاصة بها.

#AI inference #block diffusion #Nvidia #DFlash

مقالات ذات صلة

المزيد

الذكاء الاصطناعي

Nvidia وFoxconn تدفعان الذكاء الاصطناعي الوكيلي إلى مستشفيات تايوان

تعمل Nvidia وFoxconn مع مراكز طبية تايوانية على أنظمة ذكاء اصطناعي وكيلية للعمليات السريرية وعمليات المستشفيات ضمن مبادرة Healthy Taiwan.

الذكاء الاصطناعي

NVIDIA تمنح وكلاء الذكاء الاصطناعي حزمة أدوات لعلوم الحياة

تقول NVIDIA إن BioNeMo Agent Toolkit يمنح وكلاء الذكاء الاصطناعي أدوات متخصصة في biology وchemistry وgenomics وdrug discovery، مع استخدام أكثر من 50 شركة للنظام بالفعل.

الذكاء الاصطناعي

أدوات NVIDIA للذكاء الاصطناعي العلمي تنقل بيانات البحث إلى مسارات GPU

قدمت NVIDIA مكتبة DAQIRI وخدمات ALCHEMI NIM ومرجع cuPhoton لأعباء عمل الذكاء الاصطناعي العلمي، مستهدفة الكيمياء واكتشاف المواد وأبحاث المادة المظلمة ومجموعات البيانات الرصدية الضخمة.

الرقائق وأشباه الموصلات

Arm وSupermicro تضعان خوادم الذكاء الاصطناعي الوكيلي أمام اختبار المعالجات المركزية

طرحت Supermicro منصات خوادم جديدة مبنية على معالج AGI CPU من Arm لأحمال الاستدلال الكثيفة وتطبيقات الذكاء الاصطناعي الوكيلي عبر بيئات السحابة والمؤسسات والطرف. وتقول Arm إن معالج AGI CPU يضم ما يصل إلى 136 نواة Arm Neoverse V3، و12 قناة لذاكرة DDR5 بسرعة تصل إلى 8800 MT/s، واتصال PCIe Gen6 ضمن غلاف طاقة بقدرة 300W. ويبقى الاختبار الأساسي هو ما إذا كان بوسع المشغلين استخدام هذه التصاميم المعتمدة بكثافة على المعالجات المركزية لإضافة سعة للاستدلال من دون خلق ضغوط جديدة على الطاقة والتبريد.