Springboards تختبر نموذج Qwen 3 ضد إجابات LLM المتكررة

بقلممكتب الذكاء الاصطناعي والمؤسسات في SendTech Timesتغطية مكتبية محررة ومراجعة المصدر|المصدر: MIT Technology Review

موجز التحرير

بنت الشركة الأسترالية Springboards نموذج Flint على Alibaba Qwen 3 لإنتاج إجابات أكثر تنوعا في المطالبات المفتوحة. وتجمع مقالة MIT Technology Review بين ادعاء الشركة وورقة فازت في NeurIPS حول تجانس النماذج، مع تحذيرات مستخدمين من أن النموذج الأولي ما زال يتعثر عند الضغط.

تمت المراجعة مقابل مواد المصدرتحرير مكتب الذكاء الاصطناعي والمؤسسات في SendTech Times

Springboards تختبر نموذج Qwen 3 ضد إجابات LLM المتكررة

مصدر الصورة: MIT Technology Review

Springboards تبني Flint على Qwen 3

بنت الشركة الأسترالية Springboards نموذجا لغويا كبيرا باسم Flint لجعل إجابات روبوتات المحادثة المفتوحة أقل تكرارا. وتعرض الشركة النموذج على مستخدمي الإعلان والتسويق الذين يريدون مخرجات عصف ذهني أكثر تنوعا مما تنتجه الأنظمة الشائعة غالبا.

قال Pip Bingemann، الشريك المؤسس والرئيس التنفيذي لـ Springboards، إن معظم نماذج اللغة مصممة لمحاربة الهلوسة، بينما صمم Flint لدفع اقتراحات أكثر غرابة. وفي عرض وصفته MIT Technology Review، أعطى ChatGPT وClaude العبارة الترويجية البسيطة نفسها، بينما قدم Flint عبارة مختلفة.

بنت الشركة Flint على Qwen 3، النموذج المفتوح المصدر من Alibaba. وقال Kieran Browne، الشريك المؤسس والمدير التقني في Springboards، إن تدريب نموذج أساس مكلف جدا لفريق صغير، لذلك ركزت الشركة على تغيير المواضع التي يدخل فيها النموذج التنوع في مخرجاته.

ورقة بحثية تظهر الإجابات المتكررة

تعمل الشركة الناشئة على مشكلة قاسها باحثو AI أيضا. وجدت ورقة صدرت في نوفمبر بعنوان "Artificial Hivemind" أن نماذج LLM مختلفة غالبا ما تتقارب نحو إجابات متشابهة في المطالبات المفتوحة.

طلب الباحثون من 25 نموذج LLM كتابة استعارة عن الوقت 50 مرة لكل نموذج. وقالت MIT Technology Review إن معظم الإجابات البالغ عددها 1,250 كانت نسخا من "Time is a river" أو "Time is a weaver". وفازت الورقة بجائزة أفضل ورقة في NeurIPS.

قالت OpenAI لـ MIT Technology Review إن تدريب النماذج على تقديم إجابات موثوقة ومتماسكة قد يجعلها تتقارب حول ردود مألوفة وعالية الاحتمال. وقالت OpenAI أيضا إن الدفع بقوة أكبر نحو الحداثة قد يجعل الإجابات أقل موثوقية.

مستخدمو النموذج الأولي يحتاجون حكما بشريا

تقدم Springboards نموذج Flint كخيار ضمن أداة العصف الذهني الخاصة بها، والتي تتيح للفرق الإبداعية دمج نصوص من عدة نماذج LLM. وقالت Zoe Scaman، مؤسسة Bodacious والمديرة الاستراتيجية في 77X، إن Flint دفعها في اتجاهات مختلفة أثناء الاختبارات.

وقالت Scaman أيضا إن الفكرة قوية، لكنها أشارت إلى أن Flint ما زال نموذجا أوليا ويمكن أن يتعثر عندما يضغط عليه المستخدمون كثيرا. ويجعل ذلك الدليل أقرب إلى اختبار للتنوع الإبداعي منه إلى نشر مؤسسي مثبت.

قال Maximilian Weigl، الشريك المؤسس والمدير الاستراتيجي في Uncommon، إن فريقه يستخدم Flint مع ChatGPT وClaude وGemini. وقال أيضا إن الإجابات المتوسطة تكون كافية غالبا، وحذر من نسخ الفرق لمخرجات AI من دون تفكير بشري.

لم تكشف Springboards أسعار Flint أو موعد إطلاق عام أو أعداد العملاء أو التزامات نشر مؤسسي أو نتائج اختبارات مستقلة للنموذج الأولي.

#Springboards #Flint #NeurIPS #البنية_التحتية_للذكاء_الاصطناعي

مقالات ذات صلة

المزيد

الذكاء الاصطناعي

إطلاق Instacart لمساعد البقالة بالذكاء الاصطناعي يختبر قدرة الوكلاء على بناء السلال دون كسر الثقة

أتاحت Instacart مساعد تسوق بالذكاء الاصطناعي لملايين العملاء في الولايات المتحدة، مع خطة للتوسع في U.S. وCanada خلال coming months. ويحول المساعد المطالبات والصور وطلبات العروض إلى سلال باستخدام مخزون حي من nearly 100,000 stores وبيانات من more than 1.6 billion lifetime orders.

الذكاء الاصطناعي

دفع اليابان بنظام Gennai يختبر ضوابط الذكاء الاصطناعي في إجابات البرلمان

تستخدم الحكومة اليابانية نظام الذكاء الاصطناعي التوليدي الداخلي Gennai للمساعدة في إعداد وثائق إجابات البرلمان، بينما يدافع المسؤولون عن سير العمل أمام الانتقادات. قال الوزير الرقمي Matsumoto إن Gennai يمكنه تحديد الأنظمة ذات الصلة والإجابات السابقة، مع استمرار الموظفين في تعديل المخرجات وفحص الحقائق قبل وصولها إلى الوزير. الاختبار العملي هو ما إذا كانت الأداة ستخفف العمل البيروقراطي الليلي من دون تحويل الإجابات البرلمانية إلى مخرجات ذكاء اصطناعي غير مدققة.

الذكاء الاصطناعي

هبوط SoftBank يبين أثر تكاليف بنية الذكاء الاصطناعي على أسهم التقنية الآسيوية

تراجعت SoftBank Group بأكثر من 12% مع بيع أسهم التقنية الآسيوية، وسط ضغط مرتبط بتكاليف بنية الذكاء الاصطناعي وضعف Arm ومخاوف أسعار أشباه الموصلات.

الذكاء الاصطناعي

Grep تضيف وكيل LLM إلى Monito مع تحول مراقبة الاختبارات نحو مراجعة السياق

قالت Grep إن منتج Monito لمراقبة الاختبارات عبر الإنترنت يستخدم الآن وكيل LLM لتحليل السياق حول الأحداث المشتبه بها. وذكرت الشركة اختبارات داخلية أظهرت تقليص وقت المراجعة بعد الاختبار بأكثر من 30% وخفض التنبيهات الخاطئة بنحو 20%. وتبقى القضية الرئيسية هي ما إذا كانت المراقبة المعتمدة على الوكلاء تستطيع تحسين الكفاءة مع الحفاظ على الحكم البشري النهائي وعدالة المرشحين.