Qualcomm تكدس الذاكرة فوق الحوسبة في AI250 لكنها لا تكشف أداء FLOPS
تطرح Qualcomm مفهوم high-bandwidth compute لاستدلال الذكاء الاصطناعي، مع بطاقة AI250 تقول إنها تضم 768 GB من الذاكرة و133 TB/s من النطاق الترددي الفعال، لكنها لم تكشف أداء FLOPS الأقصى أو أسماء العملاء.

Qualcomm تقرب ذاكرة AI250 من الحوسبة
تستخدم Qualcomm خارطة طريق مسرع AI250 لتقديم إجابة مختلفة عن اختناق الذاكرة في استدلال الذكاء الاصطناعي. وتصف الشركة high-bandwidth compute، أو HBC، بأنه تصميم ثلاثي الأبعاد يضع DRAM فوق المنطق حتى يمكن تنفيذ بعض العمل قرب الذاكرة.
من المقرر أن يأتي AI250 بعد أنظمة AI200 Dragonfly rack، وتخطط Qualcomm لبدء طرحه في 2027. كما عرضت الشركة منصة HBC من الجيل الثاني، AI300، لعام 2028.
تقول Qualcomm إن بطاقة AI250 ستضم 768 GB من الذاكرة وما يصل إلى 133 TB/s من النطاق الترددي الفعال للذاكرة. وتربط الشركة هذه الادعاءات بأعمال الاستدلال المقيدة بالنطاق الترددي، ولا سيما مرحلة decode التي تُبث فيها أوزان النموذج من الذاكرة أثناء توليد الرموز.
ادعاءات النطاق الترددي الفعال تحتاج إلى تفاصيل أكثر
تقدم الشركة HBC كطريقة لتقليل حركة البيانات بين الذاكرة والحوسبة. وتقول Qualcomm إن البنية تستخدم ذاكرة LPDDR في تصميم قريب من الذاكرة، وتختلف عن HBM لأن HBC تنفذ الحوسبة في قالب المنطق الأساسي.
ما زالت ادعاءات النطاق الترددي تعتمد على تعريف Qualcomm لعبارة النطاق الترددي الفعال. ففي جيل AI200، ذكرت Qualcomm رقم 414 TB/s من النطاق الترددي الفعال عبر 56 شريحة. وتقول مواد AI250 التسويقية إن HBC يمنح 18x من النطاق الترددي الفعال في AI200، بينما سيصل AI300 إلى 54x.
تقول Qualcomm إن AI250 يمكن أن يعمل كمسرع ذكاء اصطناعي مستقل. وتقول أيضاً إن الجزء يمكن أن يدخل في أنظمة استدلال مفككة، حيث تتولى GPUs أو أجزاء أخرى من Qualcomm معالجة المطالبات بينما تتولى مسرعات AI250 مرحلة decode الكثيفة في استخدام الذاكرة.
رفضت الشركة تقديم أداء FLOPS الأقصى في AI250. كما لم تقدم طريقة حساب النطاق الترددي المادي وراء أرقام النطاق الترددي الفعال، مع أن مادة المصدر تشير إلى أن عرض نطاق LPDDR5x العادي لا يفسر الأرقام المعلنة وحده.
صفقة Modular تستهدف فجوة البرمجيات
شمل عرض Qualcomm للمستثمرين أيضاً استحواذها المخطط على شركة برمجيات الذكاء الاصطناعي Modular، المطورة لـMojo ومنصة Max لخدمة النماذج. وتُطرح Mojo كواجهة برمجة منخفضة المستوى يمكنها العمل عبر عتاد مختلف، بينما تستهدف Max خدمة نماذج اللغة الكبيرة.
يقارن مشترو مسرعات الذكاء الاصطناعي أكثر من مواصفات السيليكون. فهم يحتاجون إلى أدوات خدمة، ودعم للمطورين، ومسارات نشر لا تقيد كل عبء عمل بحزمة مورد واحد. وتستخدم Qualcomm صفقة Modular لمعالجة فجوة البرمجيات بينما تظل Nvidia وAMD نقطتي المقارنة الرئيسيتين لمشتري بنية الذكاء الاصطناعي.
تفترض الخطة أيضاً أن Qualcomm تستطيع جعل نموذج الاستدلال المتنوع جذاباً. وتصف المادة احتمال تقسيم العمل بحيث تتولى رقائق أخرى معالجة المطالبات وتركز أنظمة AI250 على مرحلة decode الكثيفة في استخدام الذاكرة، لكنها لا تحدد عمليات نشر إنتاجية تستخدم هذا التصميم.
لم تكشف Qualcomm أداء FLOPS الأقصى في AI250، أو الطريقة التفصيلية وراء حساب النطاق الترددي الفعال، أو أسماء عملاء AI250، أو مواعيد نشر إنتاجية تتجاوز هدف 2027، أو ما إذا كان المنظمون سيوافقون على استحواذ Modular هذا العام.
















