Mistral OCR 4 يضيف مسار تدقيق لوثائق المؤسسات
أطلقت Mistral AI نموذج OCR 4 مع مربعات تحديد وتصنيف للكتل ودرجات ثقة، وحددت سعر نموذج الوثائق من 4 دولارات لكل 1,000 صفحة لسير عمل المؤسسات.

OCR 4 يضيف بنية إلى استخراج الوثائق
أطلقت Mistral AI نموذج OCR 4، وهو نموذج ذكاء وثائقي مصمم لإرجاع تمثيلات منظمة للوثائق بدلا من النص المستخرج فقط. يحدد النموذج مربعات التحديد، ويصنف أنواع الكتل، ويمنح درجات ثقة على مستوى الصفحة والكلمة، ما يوفر لفرق المؤسسات دليلا أكبر لتدقيق ما يسحبه النظام من الوثيقة.
يستهدف الإصدار الشركات التي تحتاج إلى أتمتة الوثائق داخل سير عمل منظم. يدعم OCR 4 عدد 170 لغة عبر 10 مجموعات لغوية، ويقبل صيغ PDF وDOC وPPT وOpenDocument. وتقول Mistral أيضا إن النموذج يمكن تشغيله كحاوية واحدة على بنية المؤسسة نفسها، وهو خيار نشر للشركات التي لا تريد تمرير الوثائق الحساسة عبر واجهات سحابية خاضعة للولاية الأميركية.
يتاح النموذج عبر Mistral API وDocument AI في Mistral Studio وAmazon SageMaker وMicrosoft Foundry. وسيأتي دعم Snowflake Parse Document قريبا. يبدأ السعر من 4 دولارات لكل 1,000 صفحة، وينخفض إلى 2 دولار لكل 1,000 صفحة عبر خصم واجهة الدفعات.
بيانات التخطيط تصبح ميزة مؤسسية
التغيير التقني هو طبقة التخطيط. يعيد OCR 4 كتلا محددة الموقع مع تصنيفات مثل العنوان أو الجدول أو المعادلة أو التوقيع. يعني ذلك أن فقرة يمكن استخدامها للبحث الدلالي، وأن جدولا يمكن نقله إلى خط بيانات منظم، وأن توقيعا يمكن أن يطلق عملية حجب في نظام امتثال.
قالت Mistral إن مربعات التحديد كانت أكثر قدرة مطلوبة. السبب تشغيلي: تحتاج فرق الامتثال والقانون والمالية إلى تتبع الحقائق المستخرجة إلى موقع محدد في الصفحة قبل أن تثق بسير عمل للذكاء الاصطناعي. ومن دون بيانات الموقع هذه، تحتاج أنظمة التوليد المعزز بالاسترجاع وسير عمل الوكلاء غالبا إلى خطوة تحليل تخطيط إضافية قبل أن يستخدم النموذج اللاحق الوثيقة بأمان.
تضيف درجات الثقة نقطة تحكم أخرى. تستطيع المؤسسات توجيه المناطق منخفضة الثقة إلى مراجعين بشريين بينما تمرر الاستخراجات عالية الثقة عبر سير عمل آلي. يهم ذلك على نطاق واسع لأن OCR يكون عادة المرحلة الأولى في خط وثائق أكبر، لا المنتج النهائي.
المعايير ما زالت تحتاج إلى إثبات إنتاج
أبلغت Mistral عن معدل فوز متوسط قدره 72% في تقييم بشري مباشر ضد منافسين رئيسيين. استخدم التقييم معلقين مستقلين عبر أكثر من 600 وثيقة واقعية بأكثر من 12 لغة. كما ذكرت الشركة درجة إجمالية رائدة قدرها 85.20 على OlmOCRBench و93.07 على OmniDocBench.
تدعم هذه الأرقام الإطلاق، لكن مشتري المؤسسات ما زالوا بحاجة إلى اختبار OCR 4 داخل مجموعات وثائقهم. يمكن لجودة الوثائق والصور الممسوحة والجداول والتواقيع ومزيج اللغات وقواعد المراجعة أن تغير ما إذا كانت نتيجة معيارية ستصبح سير عمل إنتاجيا.
يمنح OCR 4 شركة Mistral منتجا لذكاء الوثائق مع خيارات نشر وبيانات تدقيق وتسعير واضح. وتبقى المسألة المؤسسية غير المحسومة هي ما إذا كان العملاء المنظمون يستطيعون استخدام تلك الضوابط لتقليل المراجعة اليدوية من دون فقدان إمكانية التتبع عندما تكون الوثائق معقدة أو حساسة.
















