محاكي من كايست يختبر بنية نماذج اللغة قبل بناء خوادم الذكاء الاصطناعي
طوّر باحثو كايست LLMServingSim 2.0 لاختبار بنية تشغيل نماذج اللغة الكبيرة قبل نشر الخوادم. تنمذج الأداة وحدات GPU وNPU وPIM وسلوك الذاكرة والطاقة وسياسات التشغيل. ويخطط الفريق لإتاحتها كمشروع مفتوح المصدر والتحقق منها مع أطر تشغيل حقيقية.
كايست تختبر بنية نماذج اللغة قبل نشر الخوادم
طوّر باحثون في كايست LLMServingSim 2.0، وهي محاكاة لاختبار بنية تشغيل نماذج اللغة الكبيرة قبل بناء عناقيد خوادم مكلفة. وذكرت AI Times Korea أن العمل، الذي قاده فريق علوم الحاسوب لدى البروفيسور جونغسي بارك، فاز بجائزة أفضل ورقة في مؤتمر ISPASS 2026.
تعمل الأداة كمختبر افتراضي لتصميم بنية الذكاء الاصطناعي. وبدلاً من نشر أنظمة مادية لمقارنة المسرّعات وأجهزة الذاكرة وسياسات التشغيل، يستطيع المهندسون نمذجة سلوك خدمة تعتمد على نماذج اللغة عبر تكوينات مختلفة للعناقيد.
لماذا يهم ذلك
قد تتطلب خدمات نماذج اللغة الكبيرة أساطيل ضخمة من الخوادم. وقال فريق كايست إن تشغيل هذه النماذج أصبح أكثر تعقيداً مع جمع وحدات GPU بمسرّعات أخرى وطبقات ذاكرة وأساليب برمجية مثل فصل prefill وdecode واستخدام prefix caching.
تهدف LLMServingSim 2.0 إلى تقدير الإنتاجية وزمن الاستجابة واستخدام الذاكرة وسلوك الطاقة. وتدعم بيئات غير متجانسة يمكن أن تشمل GPU وNPU وأجهزة المعالجة داخل الذاكرة، ما يمنح مزودي السحابة وشركات أشباه الموصلات وسيلة لاختبار عتاد الذكاء الاصطناعي المستقبلي قبل انتشاره الواسع.
تستقبل الأداة مدخلات عن عبء العمل وتكوين العنقود وملف العتاد. ثم تبني محرك تشغيل مع توجيه للطلبات ومجموعات خدمة للنماذج، مع نمذجة التنفيذ الحسابي والوصول إلى الذاكرة وتكلفة الاتصال واستهلاك الطاقة ومخرجات التشغيل.
وفي نماذج mixture-of-experts، يمكنها عكس توجيه الخبراء وتوزيعهم والتحميل والمزامنة، وتحليل أثر expert parallelism وexpert offloading في أداء الخدمة.
الخطوات التالية
يخطط الباحثون لإتاحة المحاكاة كمشروع مفتوح المصدر وربطها بأطر تشغيل حقيقية لنماذج اللغة وإضافة ملفات عتاد جديدة. وقال البروفيسور بارك إن تنافسية خدمات الذكاء الاصطناعي تعتمد ليس فقط على النموذج، بل أيضاً على بنية تحتية موثوقة وفعالة.
وبالنسبة لقطاع الذكاء الاصطناعي في كوريا، يبرز المشروع أهمية أبحاث البنية التحتية خلف الذكاء الاصطناعي التوليدي. وإذا تم التحقق منه على نطاق واسع، فقد يساعد مشغلي السحابة ومطوري شرائح الذكاء الاصطناعي وفرق المؤسسات على خفض كلفة ومخاطر اختبار تصميمات جديدة لتشغيل نماذج اللغة.





