نموذج علي بابا الصوتي للذكاء الاصطناعي يتفوق على OpenAI وxAI في ردم فجوة اللهجات الصينية

بقلممكتب الذكاء الاصطناعي والمؤسسات في SendTech Timesتغطية مكتبية محررة ومراجعة المصدر|المصدر: Scmp

موجز التحرير

حلّ نموذج Fun-Realtime-TTS-Preview من علي بابا في المركز الخامس على منصة Speech Arena التابعة لـArtificial Analysis، متقدماً على منافسين من بينهم OpenAI وxAI، وكان النظام الوحيد المطوَّر في الصين ضمن المراكز الخمسة الأولى عالمياً. كما وضع مؤشر منفصل لـArtificial Analysis نموذج Fun-Realtime-ASR من علي بابا في المركز الأول من حيث معدل خطأ الكلمات بنسبة 1.8 في المائة. وتقول علي بابا إن النموذج يدعم أكثر من 30 لغة، وسبع لهجات صينية رئيسية، وأكثر من 20 لكنة إقليمية، مستهدفاً نقطة ضعف مزمنة في أنظمة الكلام المدرَّبة على الماندرين القياسية.

تمت المراجعة مقابل مواد المصدرتحرير مكتب الذكاء الاصطناعي والمؤسسات في SendTech Times

نموذج علي بابا الصوتي للذكاء الاصطناعي يتفوق على OpenAI وxAI في ردم فجوة اللهجات الصينية

مصدر الصورة: South China Morning Post

تفوق نموذج الذكاء الاصطناعي الصوتي الجديد من مجموعة علي بابا القابضة على منافسين غربيين مثل OpenAI وxAI في معيار عالمي رئيسي، في نتيجة تُبرز قوته في التعامل مع اللهجات واللكنات الصينية المعقدة.

وجاء Fun-Realtime-TTS-Preview، الذي طوّره مختبر تونغي التابع لعلي بابا، في المركز الخامس على لوحة ترتيب Speech Arena التابعة لـArtificial Analysis، مسجلاً 1,190 نقطة. وكان نظام الصوت الوحيد المطوَّر في الصين ضمن المراكز الخمسة الأولى عالمياً.

ويُدار هذا المعيار من قبل Artificial Analysis، وهي منظمة لتقييم الذكاء الاصطناعي مقرها سان فرانسيسكو وتحظى بدعم مستثمرين من بينهم الرئيس التنفيذي السابق لـGitHub نات فريدمان ومؤسس Google Brain أندرو نغ. وتُرتّب المنصة النماذج عبر تقييمات عمياء يجريها المستخدمون لمقاطع صوتية مولَّدة باستخدام نظام قائم على تصنيف Elo.

تصنيفات المعايير ومهام الكلام

يختبر مستخدمو Speech Arena النماذج عبر ثلاث قدرات أساسية: تحويل الكلام إلى نص، وإتاحة الفهم الصوتي الشامل من البداية إلى النهاية والتفاعل الحواري، وتحويل النص إلى كلام طبيعي النبرة.

وفي مؤشر منفصل لمعدل خطأ الكلمات لدى Artificial Analysis، احتل نموذج Fun-Realtime-ASR من علي بابا المركز الأول بمعدل خطأ كلمات بلغ 1.8 في المائة. وهذا يعني أن أقل من كلمتين من كل 100 كلمة جرى نسخهما بشكل غير صحيح.

ردم فجوات اللهجات واللكنات

تعكس هذه النتيجة عنق زجاجة مستمراً منذ فترة طويلة أمام تقنيات الصوت في آسيا. فقد ذكر تقرير صادر في مايو/أيار عن مركز مطوري بايدو أن أنظمة الكلام التقليدية المدرَّبة على الماندرين القياسية تنخفض دقتها إلى أقل من 60 في المائة لدى المتحدثين بلكنات مختلفة، وإلى أقل من 30 في المائة بالنسبة إلى اللهجات الصينية الإقليمية.

وتسعى علي بابا إلى ردم هذه الفجوة. ووفقاً لوحدتها السحابية، يدعم Fun-Realtime-TTS-Preview أكثر من 30 لغة، وسبع لهجات صينية رئيسية، وأكثر من 20 لكنة إقليمية.

كما يوفّر النموذج واجهات تخصيص على مستوى المؤسسات لحالات استخدام في قطاعي التمويل والرعاية الصحية. وفي البيئات الطبية على سبيل المثال، قالت علي بابا إن النظام يمكنه تحويل الملاحظات الشفوية للأطباء إلى سجلات سريرية منظَّمة في الوقت الفعلي.

توسع أوسع في الذكاء الاصطناعي الصوتي

يأتي توسع علي بابا في الذكاء الاصطناعي الصوتي في وقت تتحول فيه شركات التكنولوجيا الصينية من روبوتات الدردشة ذات الأغراض العامة نحو تطبيقات أكثر تخصصاً في العالم الحقيقي. ويعمد المطورون على نحو متزايد إلى دمج مساعدين صوتيين مدعومين بالذكاء الاصطناعي في التطبيقات اليومية سعياً إلى استخدامات تجارية أوسع للذكاء الاصطناعي التوليدي.

ويعكس هذا التركيز توقعات بأن واجهات الصوت قد تصبح بوابة رئيسية لنشر الذكاء الاصطناعي عبر مختلف الصناعات. ويُنظَر إلى الصوت على نطاق واسع باعتباره أحد أكثر أشكال التفاعل بين الإنسان والحاسوب بداهة، إذ لا يتطلب تدريباً يُذكر من المستخدمين ويعمل بصورة طبيعية عبر الهواتف الذكية، ومكبرات الصوت الذكية، والمساعدات داخل السيارات.

ومع ذلك، لا تزال شركات أميركية، من بينها Google وElevenLabs، تهيمن على كثير من التطبيقات الصوتية التجارية العالمية والأنظمة البيئية للمطورين.

#البنية_التحتية_للذكاء_الاصطناعي

مقالات ذات صلة

المزيد

الذكاء الاصطناعي

ديب سيك تخفض أسعار واجهة برمجة تطبيقات V4-Pro بنسبة 75% مع اقتراب جمع تمويل خارجي

حقيقة: خفضت ديب سيك سعر واجهة برمجة التطبيقات لنموذج DeepSeek-V4-Pro بنسبة 75%، محددة السعر عند 3 يوانات (نحو 1.53 درهم إماراتي) أو 0.44 دولار (نحو 1.61 درهم إماراتي) لكل مليون رمز. حقيقة: يأتي السعر الجديد أقل بكثير من نحو 5 دولارات (نحو 18.35 درهماً إماراتياً) التي تُفرض على GPT-5.5 من OpenAI، وأقل من 0.95 دولار (نحو 3.49 دراهم إماراتية) التي يفرضها Kimi. نقطة متابعة: تستعد ديب سيك لأول جولة جمع رأس مال خارجي بتقييم متداول عند 44 مليار دولار، في وقت يظل فيه V4-Pro نموذجاً كبيراً مفتوح الأوزان يحتل المرتبة التاسعة عالمياً وفق VALS AI.

الذكاء الاصطناعي

استطلاع Public First يُظهر تقدّم الصين في تصورات الذكاء الاصطناعي وتراجعها في الثقة

أظهر استطلاع أجرته Public First وشمل أكثر من 18,000 شخص في 15 دولة أن المشاركين في 11 دولة رأوا أن الصين تتقدم في قدرات الذكاء الاصطناعي والابتكار. وأظهر الاستطلاع نفسه فجوة في الثقة، إذ جاءت نماذج الذكاء الاصطناعي الأميركية في المرتبة الثانية على مقياس صافي الثقة عند +16، بينما حلت الصين في المرتبة 10 عند -8. وتأتي هذه النتائج في وقت تدفع فيه الصين باستراتيجية AI Plus، فيما تظهر نماذج صينية مثل Alibaba Qwen3.7-Max وZhipu GLM-5.1 في مراتب متقدمة على تصنيفات Code Arena.

الذكاء الاصطناعي

تقييم Cognition AI البالغ 26 مليار دولار يختبر جدوى وكلاء البرمجة للشركات

جمعت Cognition AI، المطورة لوكيل البرمجة Devin، أكثر من مليار دولار بتقييم يبلغ 26 مليار دولار، وفقاً لـ TMTPost. ويعكس التمويل رهانات كبيرة على وكلاء البرمجة داخل الشركات، مع استمرار أسئلة الموثوقية والمنافسة.

الذكاء الاصطناعي

تشيسكي يختبر حاجة الذكاء الاصطناعي إلى مختبر جديد للواجهات

يخطط برايان تشيسكي، الرئيس التنفيذي لشركة Airbnb، لدعم مختبر ذكاء اصطناعي يركز على تفاعل المستخدم والتصميم مع بقائه في منصبه. أتمت Airbnb بالفعل 40% من استفسارات دعم العملاء باستخدام روبوت ذكاء اصطناعي وأعادت بناء تطبيقها حول نموذج لغوي كبير للبحث الحواري. السؤال المركزي هو ما إذا كان مختبر يقوده مؤسس قادرًا على تحويل أبحاث الواجهات إلى ذكاء اصطناعي استهلاكي مفيد من دون فريق أو تمويل أو جدول زمني معلن.

الذكاء الاصطناعي

مصارف إماراتية تقود دفع الذكاء الاصطناعي المسؤول مع تضاؤل فجوة التبني إقليمياً

حل مصرف الإمارات دبي الوطني في المركز الأول وجاء بنك أبوظبي الأول في المركز الثالث ضمن مؤشر للذكاء الاصطناعي المسؤول في بنوك الشرق الأوسط وأفريقيا. شمل مؤشر Evident AI Index أكثر من 100 شركة، ومنح معيار المواهب أعلى وزن عند 45 في المئة ضمن أربعة مقاييس. الاختبار العملي هو ما إذا كانت البنوك الإماراتية ستحول مراكزها المتقدمة إلى تطبيقات قابلة للقياس في تفاعل العملاء وتحليلات المخاطر وعمليات البنوك الأساسية.

الذكاء الاصطناعي

ByteDance ترفع هدف إيرادات Volcano Engine للذكاء الاصطناعي مع طلب Seedance 2.0

رفعت Volcano Engine التابعة لـ ByteDance هدف إيرادات MaaS للعام الكامل إلى RMB 15 billion بعد أن أصبح Seedance 2.0 مساهماً أكبر في إيرادات الذكاء الاصطناعي. ويوصف Seedance 2.0 بأنه يحقق أكثر من RMB 1 billion من الإيرادات الشهرية، بينما نما متوسط استهلاك الرموز اليومي بنحو 40% شهرياً. والاختبار العملي هو ما إذا كانت Volcano Engine قادرة على مواصلة تحويل استخدام توليد الفيديو إلى استهلاك مدفوع للرموز خارج قطاعات المحتوى كثيفة الاستخدام.