Zamba2-VL من Zyphra يختبر AI هجينا لنماذج رؤية ولغة أسرع

بقلمSTechTimes Editor|المصدر: AI Times Korea

ملخص المقال

أطلقت Zyphra عائلة Zamba2-VL المفتوحة المصدر لنماذج الرؤية واللغة، مستخدمة معمارية هجينة من Mamba2 وtransformer لاستهداف استدلال متعدد الوسائط بزمن أقل في مهام المستندات وOCR والعد وAI على الحافة.

Zamba2-VL من Zyphra يختبر AI هجينا لنماذج رؤية ولغة أسرع

مصدر الصورة: AI Times Korea

Zyphra تنقل النماذج الهجينة إلى AI متعدد الوسائط

أطلقت Zyphra عائلة Zamba2-VL، وهي نماذج رؤية ولغة مفتوحة المصدر مبنية على معمارية هجينة تجمع بين Mamba2 وtransformer. يضع الإطلاق بنية Zamba2 في AI متعدد الوسائط، حيث يجب أن تقرأ النماذج الصور والنصوص معا بدلا من معالجة اللغة وحدها.

يشمل الإصدار ثلاثة أحجام للنماذج: 1.2B و2.7B و7B parameter. أتاحت Zyphra النماذج على Hugging Face بموجب رخصة Apache 2.0، ما يمنح المطورين مسارا لاختبار المعمارية من دون انتظار نشر تجاري مغلق.

ما المختلف في المعمارية

يحافظ Zamba2-VL على مسار شبيه بتصميم LLaVA في العمل متعدد الوسائط. يستخرج vision encoder مدرب مسبقا ميزات الصورة، ثم يحولها MLP adapter خفيف إلى فضاء تضمين نموذج اللغة، وبعد ذلك يعالج نموذج اللغة رموز الصورة والنص معا. يدعم النموذج تحليل صورة واحدة، وفهم صور متعددة، وتحديد مواقع الأجسام.

يقع التغيير داخل عمود نموذج اللغة. يستخدم Zamba2 طبقات Mamba2 state-space لمعظم الحسابات، ويضيف طبقة transformer attention مشتركة بعد كل ست طبقات Mamba2. يهدف تصميم الأوزان المشتركة إلى تخفيف ضغط عرض نطاق الذاكرة مع الحفاظ على بعض نقاط قوة transformer.

يعالج هذا التصميم عنق زجاجة محددا في vision-language AI. يمكن للصور عالية الدقة والمستندات والمدخلات الشبيهة بالفيديو أن تولد آلاف رموز الرؤية، ما يجعل استدلال transformer وحده مكلفا مع زيادة طول التسلسل. تقول Zyphra إن البنية المعتمدة بكثافة على Mamba2 تمنح Zamba2-VL معالجة prefill شبه خطية وحالة recurrent ثابتة الحجم.

الاختبارات تضع الكفاءة بجانب الدقة

درّبت Zyphra عائلة النماذج على 100 billion من رموز vision-text والنص العام من مجموعات بيانات ويب عامة. ثم قيّمت النماذج عبر 14 معيارا تغطي فهم الرسوم والمستندات، والاستدلال البصري، وOCR، وتحديد مواقع الأجسام، والعد البصري.

تظهر أقوى الأرقام المنشورة في مهام العد والمستندات. حقق نموذج 1.2B درجة 62.5 في PixMoCount، متقدما على InternVL3.5 عند 32.8 وعلى PerceptionLM-1B. وفي CountBenchQA، حقق نموذجا 2.7B و7B درجتي 87.5 و90.6. كما وصل نموذج 2.7B إلى 90.9 في DocVQA.

تظل مطالبة الكفاءة هي الجزء الأكثر استراتيجية في الإصدار. في بيئة إدخال تبلغ 32,000 token، قالت Zyphra إن Zamba2-VL سجل TTFT أقل بما لا يقل عن 10 مرات من نماذج transformer مماثلة مع الحفاظ على دقة مشابهة. هذا لا يثبت الجاهزية الإنتاجية الواسعة، لكنه يمنح المطورين معيارا ملموسا لاختباره في أعباء العمل البصرية طويلة السياق.

النشر على الحافة هو الاختبار العملي

تستهدف نماذج Zamba2-VL الأصغر عمليات نشر تكون فيها الذاكرة وزمن الاستجابة مهمين. سمت Zyphra الهواتف الذكية، ومعدات edge الصناعية، وتحليل PDF، والمعالجة الآلية للإيصالات والفواتير، وأعمال الجرد أو عد المنتجات كحالات استخدام مستهدفة.

تفسر هذه التطبيقات سبب أهمية نموذج 1.2B أو 2.7B أكثر من الحجم النظري الكبير. إذا استطاعت المعمارية الحفاظ على أداء مفيد في OCR والعد والمستندات مع خفض تأخير أول رمز، فقد تناسب أجهزة وأنظمة edge لا تستطيع تحمل استدلال transformer ثقيل.

نقطة التحقق التالية هي التحقق الخارجي. النماذج مفتوحة بموجب Apache 2.0، لذلك الدليل الذي يجب مراقبته هو ما إذا كان المطورون المستقلون يستطيعون إعادة إنتاج ميزة TTFT عند 32,000 token ونتائج DocVQA وPixMoCount وCountBenchQA في تطبيقات متعددة الوسائط حقيقية.

#ai #vision language models #edge AI #Zyphra

مقالات ذات صلة

المزيد

الذكاء الاصطناعي

رهان CoRover على الذكاء الاصطناعي دون اتصال يختبر جدوى النشر الطرفي في الهند

تطرح CoRover AI النشر على الجهاز وداخل المؤسسة كحل عملي للبنوك والمستشفيات والدفاع والبنية الريفية، إذ يرى الرئيس التنفيذي Ankush Sabharwal أن النماذج الأضيق قد ترفع الاعتمادية عندما تصبح السحابة أو الامتثال أو زمن الاستجابة قيودا تشغيلية.

الذكاء الاصطناعي

DISAI 2026 في السعودية يحول دعم شركات الذكاء الاصطناعي إلى اختبار نماذج Edge AI

اختارت Qualcomm وAramco وRDIA وHUMAIN عشر شركات ناشئة لبرنامج DISAI 2026، في اختبار سعودي جديد لدعم الذكاء الاصطناعي والتقنية العميقة عبر منصات edge AI والبنية التحتية وتدريب الملكية الفكرية وتسليم النماذج الأولية.

الذكاء الاصطناعي

اندفاعة الصين في نماذج AI مفتوحة المصدر تختبر نهج النماذج المغلقة

قال Tiezhen Wang، المسؤول السابق عن منظومة Asia-Pacific في Hugging Face، إن مختبرات AI الصينية تستخدم الإصدارات المفتوحة وتغييرات الترخيص واقتصاديات الرموز الأرخص لتحدي استراتيجيات النماذج الأميركية المغلقة من دون الاعتماد فقط على رسوم النماذج المباشرة.

الذكاء الاصطناعي

جولة Sarvam بقيادة HCLTech تختبر توسع AI السيادي في الهند

جمعت Sarvam مبلغ $234 Mn ضمن جولة Series B بقيمة $300 Mn قادتها HCLTech، ما منح شركة AI في بنغالورو تقييما قدره $1.5 Bn ورأسمالا إضافيا لنماذج اللغات الهندية وبنية الحوسبة ونشر AI للمؤسسات.