SendTech Times
الذكاء الاصطناعيAnalysis|30 مايو 2026 في 02:10 ص
AI SHIFT:

نموذج علي بابا الصوتي للذكاء الاصطناعي يتفوق على OpenAI وxAI في ردم فجوة اللهجات الصينية

ملخص المقال

حلّ نموذج Fun-Realtime-TTS-Preview من علي بابا في المركز الخامس على منصة Speech Arena التابعة لـArtificial Analysis، متقدماً على منافسين من بينهم OpenAI وxAI، وكان النظام الوحيد المطوَّر في الصين ضمن المراكز الخمسة الأولى عالمياً. كما وضع مؤشر منفصل لـArtificial Analysis نموذج Fun-Realtime-ASR من علي بابا في المركز الأول من حيث معدل خطأ الكلمات بنسبة 1.8 في المائة. وتقول علي بابا إن النموذج يدعم أكثر من 30 لغة، وسبع لهجات صينية رئيسية، وأكثر من 20 لكنة إقليمية، مستهدفاً نقطة ضعف مزمنة في أنظمة الكلام المدرَّبة على الماندرين القياسية.

لماذا يهم ذلك؟

تكمن أهمية الخبر في أثره العملي على الصحة اليومية والوقاية واتخاذ القرار الشخصي. ما يجب متابعته هو الإرشادات الطبية أو البيانات الرسمية التي تؤكد حجم الخطر أو فائدة السلوك المقترح.

نموذج علي بابا الصوتي للذكاء الاصطناعي يتفوق على OpenAI وxAI في ردم فجوة اللهجات الصينية
مصدر الصورة: South China Morning Post

تفوق نموذج الذكاء الاصطناعي الصوتي الجديد من مجموعة علي بابا القابضة على منافسين غربيين مثل OpenAI وxAI في معيار عالمي رئيسي، في نتيجة تُبرز قوته في التعامل مع اللهجات واللكنات الصينية المعقدة.

وجاء Fun-Realtime-TTS-Preview، الذي طوّره مختبر تونغي التابع لعلي بابا، في المركز الخامس على لوحة ترتيب Speech Arena التابعة لـArtificial Analysis، مسجلاً 1,190 نقطة. وكان نظام الصوت الوحيد المطوَّر في الصين ضمن المراكز الخمسة الأولى عالمياً.

ويُدار هذا المعيار من قبل Artificial Analysis، وهي منظمة لتقييم الذكاء الاصطناعي مقرها سان فرانسيسكو وتحظى بدعم مستثمرين من بينهم الرئيس التنفيذي السابق لـGitHub نات فريدمان ومؤسس Google Brain أندرو نغ. وتُرتّب المنصة النماذج عبر تقييمات عمياء يجريها المستخدمون لمقاطع صوتية مولَّدة باستخدام نظام قائم على تصنيف Elo.

تصنيفات المعايير ومهام الكلام

يختبر مستخدمو Speech Arena النماذج عبر ثلاث قدرات أساسية: تحويل الكلام إلى نص، وإتاحة الفهم الصوتي الشامل من البداية إلى النهاية والتفاعل الحواري، وتحويل النص إلى كلام طبيعي النبرة.

وفي مؤشر منفصل لمعدل خطأ الكلمات لدى Artificial Analysis، احتل نموذج Fun-Realtime-ASR من علي بابا المركز الأول بمعدل خطأ كلمات بلغ 1.8 في المائة. وهذا يعني أن أقل من كلمتين من كل 100 كلمة جرى نسخهما بشكل غير صحيح.

ردم فجوات اللهجات واللكنات

تعكس هذه النتيجة عنق زجاجة مستمراً منذ فترة طويلة أمام تقنيات الصوت في آسيا. فقد ذكر تقرير صادر في مايو/أيار عن مركز مطوري بايدو أن أنظمة الكلام التقليدية المدرَّبة على الماندرين القياسية تنخفض دقتها إلى أقل من 60 في المائة لدى المتحدثين بلكنات مختلفة، وإلى أقل من 30 في المائة بالنسبة إلى اللهجات الصينية الإقليمية.

وتسعى علي بابا إلى ردم هذه الفجوة. ووفقاً لوحدتها السحابية، يدعم Fun-Realtime-TTS-Preview أكثر من 30 لغة، وسبع لهجات صينية رئيسية، وأكثر من 20 لكنة إقليمية.

كما يوفّر النموذج واجهات تخصيص على مستوى المؤسسات لحالات استخدام في قطاعي التمويل والرعاية الصحية. وفي البيئات الطبية على سبيل المثال، قالت علي بابا إن النظام يمكنه تحويل الملاحظات الشفوية للأطباء إلى سجلات سريرية منظَّمة في الوقت الفعلي.

توسع أوسع في الذكاء الاصطناعي الصوتي

يأتي توسع علي بابا في الذكاء الاصطناعي الصوتي في وقت تتحول فيه شركات التكنولوجيا الصينية من روبوتات الدردشة ذات الأغراض العامة نحو تطبيقات أكثر تخصصاً في العالم الحقيقي. ويعمد المطورون على نحو متزايد إلى دمج مساعدين صوتيين مدعومين بالذكاء الاصطناعي في التطبيقات اليومية سعياً إلى استخدامات تجارية أوسع للذكاء الاصطناعي التوليدي.

ويعكس هذا التركيز توقعات بأن واجهات الصوت قد تصبح بوابة رئيسية لنشر الذكاء الاصطناعي عبر مختلف الصناعات. ويُنظَر إلى الصوت على نطاق واسع باعتباره أحد أكثر أشكال التفاعل بين الإنسان والحاسوب بداهة، إذ لا يتطلب تدريباً يُذكر من المستخدمين ويعمل بصورة طبيعية عبر الهواتف الذكية، ومكبرات الصوت الذكية، والمساعدات داخل السيارات.

ومع ذلك، لا تزال شركات أميركية، من بينها Google وElevenLabs، تهيمن على كثير من التطبيقات الصوتية التجارية العالمية والأنظمة البيئية للمطورين.

شارك هذا المقال
inXf

مقالات ذات صلة

المزيد
مؤسس JD.com يتعهد بحماية الوظائف الصينية من الذكاء الاصطناعي والروبوتات
الذكاء الاصطناعي

مؤسس JD.com يتعهد بحماية الوظائف الصينية من الذكاء الاصطناعي والروبوتات

قال ليو تشيانغدونغ، مؤسس JD.com، إن الشركة ستحمي الوظائف عبر قوتها العاملة البالغ عددها 900 ألف موظف مع تبنيها للأتمتة. وقال ليو إن JD.com لن تستغني عن العاملين في الخطوط الأمامية الذين تحل الآلات محلهم، مشيراً إلى أكثر من 80 قاعدة تدريب لاكتساب مهارات تقنية جديدة. وتأتي تعليقاته بعد تحركات قانونية صينية تشترط إعادة التدريب أو إعادة التعيين قبل إنهاء خدمات العاملين.

تحديثات أخبار الذكاء الاصطناعي: أحدث الأخبار حول ذكاء جوجل، أوبن إيه آي، شات جي بي تي، جمني، لامدا والمزيد
الذكاء الاصطناعي

تحديثات أخبار الذكاء الاصطناعي: أحدث الأخبار حول ذكاء جوجل، أوبن إيه آي، شات جي بي تي، جمني، لامدا والمزيد

البابا ليو الرابع عشر يستعد لإصدار بيان حول الذكاء الاصطناعي بعنوان 'إنسانية رائعة'. يهدف الوثيقة إلى معالجة التحديات الأخلاقية والاجتماعية التي تطرحها التطورات السريعة في الذكاء الاصطناعي. يأتي هذا الإصدار بعد سنوات من الدراسة التي أجرتها الكنيسة حول التقنيات المتعلقة بالذكاء الاصطناعي.

«سيدانْس 2.0» من بايت دانس يصل إلى كانّ بفيلم ذكاء اصطناعي مدته 95 دقيقة بعنوان «هيل غرايند»
الذكاء الاصطناعي

«سيدانْس 2.0» من بايت دانس يصل إلى كانّ بفيلم ذكاء اصطناعي مدته 95 دقيقة بعنوان «هيل غرايند»

عرضت منصة الحوسبة السحابية «فولس إنجن» التابعة لبايت دانس نموذجها «سيدانْس 2.0» في الدورة التاسعة والسبعين من مهرجان كانّ السينمائي، وقدّمت العرض الأول لفيلم «هيل غرايند»، وهو فيلم روائي طويل مولّد بالذكاء الاصطناعي مدته 95 دقيقة ويُسوَّق له باعتباره أول فيلم ذكاء اصطناعي طويل كامل في العالم. أُنتج الفيلم على يد فريق من شركة الذكاء الاصطناعي الأميركية «هيغزفيلد» باستخدام «سيدانْس 2.0» الذي طورته بايت دانس، وبحسب التقارير استغرق الإنتاج 14 يومًا، بمشاركة 15 شخصًا، وبتكلفة تقل عن 500 ألف دولار. ويشير هذا الظهور الأول إلى تقدم في توليد الفيديو الطويل بالذكاء الاصطناعي، مع إثارته أيضًا تساؤلات بشأن إحلال العمالة، ونَسب التأليف، ودور المبدعين البشر.

جلسات المائدة المستديرة: هل يمكن للذكاء الاصطناعي أن يتعلّم فهم العالم؟
الذكاء الاصطناعي

جلسات المائدة المستديرة: هل يمكن للذكاء الاصطناعي أن يتعلّم فهم العالم؟

تقدّم MIT Technology Review نقاشاً ضمن جلسات «المائدة المستديرة» للمشتركين فقط، حول ما إذا كان بإمكان الذكاء الاصطناعي أن يتعلّم فهم العالم. تستكشف الجلسة كيف يمكن للذكاء الاصطناعي أن يدخل العالم المادي، في وقت تعمل فيه الشركات على أنظمة تفهم العالم الخارجي. وتضم قائمة المتحدثين في الحوار مات هونان، وويل دوغلاس هيفن، وغريس هاكنز.