Zamba2-VL من Zyphra يختبر AI هجينا لنماذج رؤية ولغة أسرع
أطلقت Zyphra عائلة Zamba2-VL المفتوحة المصدر لنماذج الرؤية واللغة، مستخدمة معمارية هجينة من Mamba2 وtransformer لاستهداف استدلال متعدد الوسائط بزمن أقل في مهام المستندات وOCR والعد وAI على الحافة.

Zyphra تنقل النماذج الهجينة إلى AI متعدد الوسائط
أطلقت Zyphra عائلة Zamba2-VL، وهي نماذج رؤية ولغة مفتوحة المصدر مبنية على معمارية هجينة تجمع بين Mamba2 وtransformer. يضع الإطلاق بنية Zamba2 في AI متعدد الوسائط، حيث يجب أن تقرأ النماذج الصور والنصوص معا بدلا من معالجة اللغة وحدها.
يشمل الإصدار ثلاثة أحجام للنماذج: 1.2B و2.7B و7B parameter. أتاحت Zyphra النماذج على Hugging Face بموجب رخصة Apache 2.0، ما يمنح المطورين مسارا لاختبار المعمارية من دون انتظار نشر تجاري مغلق.
ما المختلف في المعمارية
يحافظ Zamba2-VL على مسار شبيه بتصميم LLaVA في العمل متعدد الوسائط. يستخرج vision encoder مدرب مسبقا ميزات الصورة، ثم يحولها MLP adapter خفيف إلى فضاء تضمين نموذج اللغة، وبعد ذلك يعالج نموذج اللغة رموز الصورة والنص معا. يدعم النموذج تحليل صورة واحدة، وفهم صور متعددة، وتحديد مواقع الأجسام.
يقع التغيير داخل عمود نموذج اللغة. يستخدم Zamba2 طبقات Mamba2 state-space لمعظم الحسابات، ويضيف طبقة transformer attention مشتركة بعد كل ست طبقات Mamba2. يهدف تصميم الأوزان المشتركة إلى تخفيف ضغط عرض نطاق الذاكرة مع الحفاظ على بعض نقاط قوة transformer.
يعالج هذا التصميم عنق زجاجة محددا في vision-language AI. يمكن للصور عالية الدقة والمستندات والمدخلات الشبيهة بالفيديو أن تولد آلاف رموز الرؤية، ما يجعل استدلال transformer وحده مكلفا مع زيادة طول التسلسل. تقول Zyphra إن البنية المعتمدة بكثافة على Mamba2 تمنح Zamba2-VL معالجة prefill شبه خطية وحالة recurrent ثابتة الحجم.
الاختبارات تضع الكفاءة بجانب الدقة
درّبت Zyphra عائلة النماذج على 100 billion من رموز vision-text والنص العام من مجموعات بيانات ويب عامة. ثم قيّمت النماذج عبر 14 معيارا تغطي فهم الرسوم والمستندات، والاستدلال البصري، وOCR، وتحديد مواقع الأجسام، والعد البصري.
تظهر أقوى الأرقام المنشورة في مهام العد والمستندات. حقق نموذج 1.2B درجة 62.5 في PixMoCount، متقدما على InternVL3.5 عند 32.8 وعلى PerceptionLM-1B. وفي CountBenchQA، حقق نموذجا 2.7B و7B درجتي 87.5 و90.6. كما وصل نموذج 2.7B إلى 90.9 في DocVQA.
تظل مطالبة الكفاءة هي الجزء الأكثر استراتيجية في الإصدار. في بيئة إدخال تبلغ 32,000 token، قالت Zyphra إن Zamba2-VL سجل TTFT أقل بما لا يقل عن 10 مرات من نماذج transformer مماثلة مع الحفاظ على دقة مشابهة. هذا لا يثبت الجاهزية الإنتاجية الواسعة، لكنه يمنح المطورين معيارا ملموسا لاختباره في أعباء العمل البصرية طويلة السياق.
النشر على الحافة هو الاختبار العملي
تستهدف نماذج Zamba2-VL الأصغر عمليات نشر تكون فيها الذاكرة وزمن الاستجابة مهمين. سمت Zyphra الهواتف الذكية، ومعدات edge الصناعية، وتحليل PDF، والمعالجة الآلية للإيصالات والفواتير، وأعمال الجرد أو عد المنتجات كحالات استخدام مستهدفة.
تفسر هذه التطبيقات سبب أهمية نموذج 1.2B أو 2.7B أكثر من الحجم النظري الكبير. إذا استطاعت المعمارية الحفاظ على أداء مفيد في OCR والعد والمستندات مع خفض تأخير أول رمز، فقد تناسب أجهزة وأنظمة edge لا تستطيع تحمل استدلال transformer ثقيل.
نقطة التحقق التالية هي التحقق الخارجي. النماذج مفتوحة بموجب Apache 2.0، لذلك الدليل الذي يجب مراقبته هو ما إذا كان المطورون المستقلون يستطيعون إعادة إنتاج ميزة TTFT عند 32,000 token ونتائج DocVQA وPixMoCount وCountBenchQA في تطبيقات متعددة الوسائط حقيقية.
















