Intel وAMD تدفعان ACE لإعادة بعض حسابات الذكاء الاصطناعي إلى معالجات x86
أصدرت Intel وAMD مواصفة ACE لمعالجات x86، مستخدمة سجلات AVX10 وسيليكوناً مخصصاً لضرب المصفوفات لجعل بعض مهام الذكاء الاصطناعي أكثر كفاءة في الطاقة على المعالجات بدلاً من GPU أو NPU.

ACE يعيد صياغة دور المعالج في الذكاء الاصطناعي
أصدرت Intel وAMD المواصفة الكاملة لامتدادات ACE في المعالجات، في خطوة تهدف إلى جعل معالجات x86 أكثر فائدة لمهام ذكاء اصطناعي لا تنتمي دائماً إلى GPU. يستهدف التغيير النماذج الأصغر، والعمل الحساس للزمن لمستخدم واحد، والحالات التي لا يتوافر فيها GPU قادر.
يستخدم المعيار سجلات AVX10 القائمة مع إضافة سيليكون مخصص لضرب المصفوفات. ويهدف هذا الجمع إلى الحفاظ على الصلة بتصاميم x86 الحالية مع منح المطورين مساراً أكثر مباشرة لحسابات الذكاء الاصطناعي. الادعاء العملي ليس أن المعالجات تستبدل المسرعات، بل أن بعض أعمال الذكاء الاصطناعي يمكن أن تعمل بكلفة تشغيلية أقل عندما تبقى قريبة من المعالج الذي يدير النظام أصلاً.
تكمن الأهمية في أن بنية الذكاء الاصطناعي ليست قصة GPU فقط. فما زالت المعالجات تدير أنظمة التشغيل وحركة الذاكرة والتخزين والشبكات وكثيراً من مهام الحافة أو الأجهزة الشخصية. إذا منح ACE رقائق x86 طريقة أكثر كفاءة لمعالجة عمليات المصفوفات، فستحصل Intel وAMD على رد أوضح على أحمال ذكاء اصطناعي صغيرة أو حساسة للزمن أو موزعة أكثر من اللازم للمسرعات المخصصة.
ضرب المصفوفات يحصل على سيليكون مخصص
يقع ضرب المصفوفات في قلب كثير من أحمال الذكاء الاصطناعي. تستطيع المعالجات تشغيل هذه العمليات بالفعل، لكن العملية قد تكون بطيئة وكثيفة الاستهلاك للطاقة عندما تعتمد على تعليمات متجهة عامة. يمكن أن تساعد تعليمات AVX10 للضرب والتجميع، لكن المادة المصدرية تصف ذلك المسار كحل التفافي لأن AVX لم يصمم حول عمليات مصفوفات 2D.
يغير ACE النهج عبر إضافة دعم عتادي لضرب المصفوفات مع الاستمرار في استخدام مدخلات AVX بقياس 512-bit. ويهدف هذا التصميم إلى تبسيط الدمج مع تصاميم معالجات x86 الحالية لأن ACE لا يحتاج إلى صيغة مدخلات منفصلة.
بالنسبة إلى العدد نفسه من متجهات الإدخال، يستطيع ACE تنفيذ عمليات أكثر بمقدار 16x مقارنة بـ AVX10. ولا تجعل المواصفة ذلك مكافئاً لتسارع مضمون بمقدار 16x، لأن كل تطبيق سيحدد الأداء الفعلي. ومع ذلك، فإن تقليل عدد التعليمات للعمل نفسه يمكن أن يخفض عبء التعليمات وقد يحسن استخدام عرض نطاق RAM.
هدف مشترك لأطر الذكاء الاصطناعي
قد تكون زاوية المطورين مهمة بقدر أهمية تغيير العتاد. صُمم ACE ليكون مستقلاً عن طريقة التنفيذ، بحيث تستطيع أطر ومكتبات التعلم الآلي مثل PyTorch وTensorFlow استهداف مسار كود واحد بدلاً من بناء نسخ كثيرة حول مستويات مختلفة من دعم AVX.
يدعم المعيار أيضاً أنواع بيانات مستخدمة في عمليات التعلم الآلي، بما في ذلك INT8 وINT32 وFP8 وFP16 وFP32 وBF16. كما يمكنه استخدام صيغ Open Compute Project MX ذات التحجيم الكتلي بصورة أصلية، وهو ما لا توفره AVX10.
يمنح ذلك Intel وAMD طريقة لجعل معالجات x86 هدفاً أكثر اتساقاً كخيار احتياطي أو أساسي لبعض أعمال الاستدلال. ويمكن للمطورين نقل بعض أحمال العمل الخاصة بـ NPU إلى المعالجات عندما يحتاجون إلى تنفيذ سريع ولا يريدون التعامل مع اختلاف تصاميم NPU.
نقطة المتابعة هي التنفيذ الفعلي
تمنح المواصفة Intel وAMD اتجاهاً تقنياً مشتركاً، لكن الاختبار التجاري سيأتي من السيليكون وتبني البرمجيات. يحتاج ACE إلى تطبيقات في المعالجات ودعم في المترجمات وأطر العمل قبل أن يغير طريقة نشر أحمال الذكاء الاصطناعي.
السؤال المفتوح هو أين يتموضع ACE مقابل GPU وNPU. ستظل GPU مركزية للتدريب واسع النطاق والاستدلال الثقيل. وستواصل NPU خدمة أحمال الأجهزة الحساسة للطاقة. من المرجح أن يهم ACE في المساحة الوسطى: النماذج الصغيرة، والتنفيذ الاحتياطي، والبيئات التي تعتمد على CPU فقط، وسير العمل حيث يضيف نقل البيانات إلى مسرع آخر عبئاً أكبر من قيمته.
إذا نفذت Intel وAMD ذلك جيداً، فقد يجعل ACE معالجات x86 جزءاً أكثر مصداقية من حزمة الذكاء الاصطناعي بدلاً من كونها مجرد المضيف حول المسرعات. وإذا وصل الدعم ببطء، فقد يبقى مواصفة مفيدة دون أن يصبح هدف نشر عملياً لأطر الذكاء الاصطناعي الرئيسية.
















