Analysis
AI SHIFT:

NVIDIA تختبر DFlash لتقليل اختناقات استدلال نماذج اللغة

موجز التحرير

يستبدل DFlash مسار الصياغة التخمينى المتسلسل بتنبؤ رموز قائم على block diffusion على وحدات NVIDIA، بهدف رفع الإنتاجية في مهام البرمجة والاستدلال والوكلاء الحساسة للزمن من دون تغيير مسار إخراج النموذج الهدف.

تمت المراجعة مقابل مواد المصدرتحرير مكتب البنية التحتية في SendTech Times
NVIDIA تختبر DFlash لتقليل اختناقات استدلال نماذج اللغة

DFlash ينقل صياغة الرموز إلى حوسبة متوازية

يُختبر DFlash كطريقة لتسريع استدلال نماذج اللغة التوليدية autoregressive على عتاد NVIDIA من خلال استبدال نموذج الصياغة التخمينى المتسلسل المعتاد بنموذج خفيف قائم على block diffusion. تتنبأ الطريقة بكتلة من الرموز المستقبلية المقنعة في تمريرة أمامية واحدة، ثم تترك للنموذج الهدف مهمة التحقق من المرشحات.

المشكلة محددة في تشغيل نماذج اللغة الحساس لزمن الاستجابة. تولد النماذج autoregressive الرموز واحدا بعد آخر، ما قد يترك قدرة GPU غير مستغلة عندما يحتاج المطورون إلى ردود تفاعلية سريعة. يحاول speculative decoding تخفيف ذلك عبر نموذج أصغر يصوغ رموزا مستقبلية، لكن نموذج الصياغة المعتاد لا يزال ينتج تلك الرموز بالتسلسل.

يغير DFlash مسار الصياغة لا مسار التحقق النهائي. يظل النموذج الهدف مسؤولا عن تمريرة التحقق، بينما يكشف DFlash مزيدا من العمل المتوازي أمام GPU. لذلك يرتبط الأسلوب بمساعدي البرمجة وأنظمة الاستدلال وسير عمل الوكلاء حيث يمثل زمن الرمز لكل مستخدم والتزامن حدودا صعبة.

اختبارات Blackwell تضع مطالبات الإنتاجية في الواجهة

تأتي أقوى الأرقام من اختبارات على نظام eight NVIDIA DGX B300 يشغل نموذج gpt-oss-120b باستخدام TensorRT-LLM. وعلى مجموعة SPEED-Bench للبرمجة، أنتج DFlash إنتاجية أعلى عبر أهداف زمن استجابة وُصفت بأنها ملائمة للإنتاج.

في نطاقات تفاعلية عالية تبلغ 500-600 رمز في الثانية لكل مستخدم، زاد DFlash الإنتاجية على معمارية NVIDIA Blackwell بأكثر من 15x مقارنة بفك الترميز autoregressive. وكان معدل الإخراج نفسه أعلى بمقدار 1.5x من EAGLE-3. وعند أدنى نقطة تزامن مع batch size يساوي one، زاد DFlash التفاعلية على عتاد Blackwell بأكثر من الضعف.

توضح تفاصيل العتاد سبب عرض الادعاء كقصة أنظمة استدلال لا كإصدار نموذج فقط. توصف كل وحدة Blackwell Ultra GPU بأنها تضم قالبين بحجم reticle موصولين بوصلة chip-to-chip عالية النطاق بسرعة 10tbps، مع 160 streaming multiprocessors و640 من Tensor Cores من الجيل الخامس. صُمم DFlash لإمداد هذا العتاد بعمل صياغة متواز بدلا من الانتظار على رمز بعد آخر.

دعم vLLM وSGLang يحدد عمل التبني

يتضمن الإصدار أيضا مسارات تكامل لفرق الهندسة التي تشغل بالفعل مكدسات استدلال مفتوحة. أصدر فريق البحث 20 checkpoint لنموذج DFlash على Hugging Face، مع وصفات لوحدات NVIDIA Blackwell وHopper ودعم لعائلات نماذج تشمل Qwen وKimi K2.6 وLlama وGemma وgpt-oss.

في بيئات vLLM، يستطيع المهندسون استبدال EAGLE-3 بنقطة DFlash عبر تحديث إعدادات باستخدام مكتبة Speculators المفتوحة. وأظهر اختبار Gemma 4 31B على وحدة Blackwell Ultra GPU واحدة إنتاجية أعلى حتى 5.8x عند تزامن مطابق مقارنة بفك الترميز autoregressive القياسي، بما في ذلك 5.8x على Math500 و5.6x على HumanEval و5.3x على GSM8K.

تتطلب عمليات SGLang تغيير خوارزمية speculative decoding إلى DFlash وتوفير checkpoint الصياغة المطابق. وأظهر تقييم Qwen3 8-B على وحدة NVIDIA B200 GPU واحدة تحسنا في الإنتاجية يصل إلى 5.1x عند تزامن مطابق مقارنة بفك الترميز autoregressive، مع 5.1x على Math500 و4.2x على HumanEval.

يقع العبء التشغيلي الآن على فرق الاستدلال. يوفر DFlash checkpoints مفتوحة ومسارات للأطر، لكن التبني الإنتاجي لا يزال يعتمد على قدرة الفرق على الحفاظ على معدلات القبول وأهداف زمن الاستجابة وتوافق النماذج وموثوقية الخدمة عبر أعباء العمل الخاصة بها.

شارك هذا المقال
inXf

مقالات ذات صلة

المزيد
Nvidia وFoxconn تدفعان الذكاء الاصطناعي الوكيلي إلى مستشفيات تايوان
الذكاء الاصطناعي

Nvidia وFoxconn تدفعان الذكاء الاصطناعي الوكيلي إلى مستشفيات تايوان

تعمل Nvidia وFoxconn مع مراكز طبية تايوانية على أنظمة ذكاء اصطناعي وكيلية للعمليات السريرية وعمليات المستشفيات ضمن مبادرة Healthy Taiwan.

NVIDIA تمنح وكلاء الذكاء الاصطناعي حزمة أدوات لعلوم الحياة
الذكاء الاصطناعي

NVIDIA تمنح وكلاء الذكاء الاصطناعي حزمة أدوات لعلوم الحياة

تقول NVIDIA إن BioNeMo Agent Toolkit يمنح وكلاء الذكاء الاصطناعي أدوات متخصصة في biology وchemistry وgenomics وdrug discovery، مع استخدام أكثر من 50 شركة للنظام بالفعل.

أدوات NVIDIA للذكاء الاصطناعي العلمي تنقل بيانات البحث إلى مسارات GPU
الذكاء الاصطناعي

أدوات NVIDIA للذكاء الاصطناعي العلمي تنقل بيانات البحث إلى مسارات GPU

قدمت NVIDIA مكتبة DAQIRI وخدمات ALCHEMI NIM ومرجع cuPhoton لأعباء عمل الذكاء الاصطناعي العلمي، مستهدفة الكيمياء واكتشاف المواد وأبحاث المادة المظلمة ومجموعات البيانات الرصدية الضخمة.

Arm وSupermicro تضعان خوادم الذكاء الاصطناعي الوكيلي أمام اختبار المعالجات المركزية
الرقائق وأشباه الموصلات

Arm وSupermicro تضعان خوادم الذكاء الاصطناعي الوكيلي أمام اختبار المعالجات المركزية

طرحت Supermicro منصات خوادم جديدة مبنية على معالج AGI CPU من Arm لأحمال الاستدلال الكثيفة وتطبيقات الذكاء الاصطناعي الوكيلي عبر بيئات السحابة والمؤسسات والطرف. وتقول Arm إن معالج AGI CPU يضم ما يصل إلى 136 نواة Arm Neoverse V3، و12 قناة لذاكرة DDR5 بسرعة تصل إلى 8800 MT/s، واتصال PCIe Gen6 ضمن غلاف طاقة بقدرة 300W. ويبقى الاختبار الأساسي هو ما إذا كان بوسع المشغلين استخدام هذه التصاميم المعتمدة بكثافة على المعالجات المركزية لإضافة سعة للاستدلال من دون خلق ضغوط جديدة على الطاقة والتبريد.

التالي

المزيد من الأخبار

كل الأخبار
دبي تعتمد تحدي تصميم حدائق بالذكاء الاصطناعي ضمن حزمة بلدية جديدةالسياسة25 يونيو 2026دبي تعتمد تحدي تصميم حدائق بالذكاء الاصطناعي ضمن حزمة بلدية جديدةاعتمدت دبي حزمة مشاريع لبلدية دبي تشمل تحديا لتصميم الحدائق بالذكاء الاصطناعي، وسوقا للصقور بتكلفة 50 مليون درهم، ومشروع إنارة خور دبي بطول 8 كيلومترات مقرر إنجازه في الربع الأول من 2027.Taktile تجمع $110 million لأدوات قرار بالذكاء الاصطناعي في التمويلالتقنية المالية والمدفوعات الرقمية25 يونيو 2026Taktile تجمع $110 million لأدوات قرار بالذكاء الاصطناعي في التمويلجمعت Taktile جولة Series C بقيمة $110 million بقيادة Growth Equity at Goldman Sachs Alternatives، بينما تدفع وكلاء الذكاء الاصطناعي إلى قرارات الاكتتاب والمطالبات والاحتيال والامتثال داخل المؤسسات المالية.Circle وNomura تضعان خطة تسوية USDC في اليابان لعام 2027التقنية المالية والمدفوعات الرقمية25 يونيو 2026Circle وNomura تضعان خطة تسوية USDC في اليابان لعام 2027تخطط Circle وNomura لخدمة مدفوعات وتسوية أصول رقمية للشركات في اليابان قائمة على USDC في وقت مبكر من 2027، مستهدفة مدفوعات الموردين عبر الحدود وسوق الصرف الأجنبي.Amazon تخصص 13 مليار دولار لسعة الذكاء الاصطناعي والسحابة في الهندالسحابة ومراكز البيانات25 يونيو 2026Amazon تخصص 13 مليار دولار لسعة الذكاء الاصطناعي والسحابة في الهندقالت Amazon إنها ستستثمر 13 مليار دولار إضافية لتوسيع بنية الذكاء الاصطناعي والسحابة في الهند بحلول 2030، بما في ذلك سعة مراكز بيانات AWS في مومباي وحيدر آباد.Salesforce تحول Slackbot إلى وكيل ذكاء اصطناعي للمؤسساتالذكاء الاصطناعي25 يونيو 2026Salesforce تحول Slackbot إلى وكيل ذكاء اصطناعي للمؤسساتأعادت Salesforce بناء Slackbot كوكيل ذكاء اصطناعي لعملاء Business+ وEnterprise+، مع إضافة الوصول إلى سجلات Salesforce وملفات Google Drive والتقويمات ومحادثات Slack.Railway تجمع 100 مليون دولار لبناء سحابة مصممة لعصر الذكاء الاصطناعيالسحابة ومراكز البيانات25 يونيو 2026Railway تجمع 100 مليون دولار لبناء سحابة مصممة لعصر الذكاء الاصطناعيجمعت Railway تمويلا من الفئة B بقيمة 100 مليون دولار بقيادة TQ Ventures، بينما توسع منصة السحابة للمطورين بصمتها الخاصة في مراكز البيانات وتعرض نشرا أسرع للبرمجيات المولدة بالذكاء الاصطناعي.Mistral OCR 4 يضيف مسار تدقيق لوثائق المؤسساتالذكاء الاصطناعي25 يونيو 2026Mistral OCR 4 يضيف مسار تدقيق لوثائق المؤسساتأطلقت Mistral AI نموذج OCR 4 مع مربعات تحديد وتصنيف للكتل ودرجات ثقة، وحددت سعر نموذج الوثائق من 4 دولارات لكل 1,000 صفحة لسير عمل المؤسسات.اليابان تجيز RLUSD من Ripple لاستخدام مستقر منظمالتقنية المالية والمدفوعات الرقمية25 يونيو 2026اليابان تجيز RLUSD من Ripple لاستخدام مستقر منظموافقت Financial Services Agency اليابانية على RLUSD من Ripple كأداة دفع إلكترونية، ما يسمح لـ SBI VC Trade بتقديم العملة المستقرة المدعومة بالدولار للمستخدمين الأفراد والمؤسسات.OpenAI وBroadcom تسميان مسرع الذكاء الاصطناعي Jalapeñoالرقائق وأشباه الموصلات25 يونيو 2026OpenAI وBroadcom تسميان مسرع الذكاء الاصطناعي Jalapeñoكشفت OpenAI وBroadcom عن Jalapeño، أول مسرع ذكاء اصطناعي مخصص من شراكتهما، مع استهداف نشر أولي بحلول نهاية 2026 وتوسيع متوقع خلال 2027 والنصف الأول من 2028.AD Ports ترفع حصتها في GFS إلى 81% بصفقة قدرها 300 مليون دولارالاقتصاد25 يونيو 2026AD Ports ترفع حصتها في GFS إلى 81% بصفقة قدرها 300 مليون دولاررفعت AD Ports ملكيتها في Global Feeder Shipping إلى 81% عبر صفقة بقيمة 1.1 مليار درهم، أو 300 مليون دولار، بينما تبقى طرق التجارة في الخليج والبحر الأحمر تحت ضغط.اختبار الضغط لدى Fed يبقي قواعد رأس مال البنوك الكبرى من دون تغيير حتى 2027العقارات25 يونيو 2026اختبار الضغط لدى Fed يبقي قواعد رأس مال البنوك الكبرى من دون تغيير حتى 2027قال Federal Reserve إن جميع البنوك الـ 32 في اختبار الضغط السنوي بقيت فوق متطلبات common equity tier 1 الدنيا، حتى بعد خسائر متوقعة تتجاوز $708 billion.AMD تبدأ تصعيد إنتاج معالجات Venice EPYC على تقنية TSMC بدقة 2 نانومترالرقائق وأشباه الموصلات25 يونيو 2026AMD تبدأ تصعيد إنتاج معالجات Venice EPYC على تقنية TSMC بدقة 2 نانومترتقول AMD إن معالج EPYC من الجيل السادس، الذي يحمل الاسم الرمزي Venice، دخل مرحلة تصعيد الإنتاج على تقنية TSMC بدقة 2 نانومتر، مع خطط مستقبلية للإنتاج في مصنع TSMC في Arizona.