تجاوز نموذج الصوت المدعوم بالذكاء الاصطناعي الجديد من مجموعة علي بابا منافسيه الرئيسيين في الغرب، مما يبرز قدراته المتقدمة في إتقان اللهجات الصينية المعقدة والنبرات المختلفة. وقد تم تطوير هذا النموذج، المعروف باسم Fun-Realtime-TTS-Preview، بواسطة مختبر تونجي التابع لعلي بابا، وحقق المرتبة الخامسة في قائمة المتصدرين العالمية في مجال تحليل الكلام بالذكاء الاصطناعي، ليصبح النظام الوحيد الذي تم تطويره في الصين ضمن المراكز الخمسة الأولى. وتعد Speech Arena، وهي منصة تقييم للذكاء الاصطناعي مقرها سان فرانسيسكو، معيارًا لتقييم النماذج بناءً على تحويل الكلام إلى نص، وفهم الصوت، وإنتاج الكلام بطريقة طبيعية. بالإضافة إلى ذلك، تصدر نموذج Fun-Realtime-ASR من علي بابا مؤشر معدل خطأ الكلمات بمعدل خطأ بلغ 1.8% فقط، مما يدل على دقة عالية في النسخ.

