كشفت شركة أمازون عن نموذجها الصوتي الجديد القائم على الذكاء الاصطناعي التوليدي (Nova Sonic)، وهو مصمم للتعامل مع الصوت بنحو مباشر وتوليد كلام طبيعي أقرب إلى المحادثات البشرية. وذكرت الشركة في بيانها الرسمي أن أداء هذا النموذج ينافس أبرز النماذج الصوتية المتقدمة من شركتي OpenAI وجوجل، وذلك وفقا لمعايير تقيس السرعة ودقة تعرف الكلام وجودة المحادثة.
ويعد Nova Sonic استجابة من أمازون للنماذج الصوتية الحديثة، مثل النموذج الذي يدعم وضع الصوت في ChatGPT، الذي بات أكثر سلاسة مقارنة بالنماذج السابقة، مثل الإصدارات الأولى من أليكسا وسيري، حيث أسهمت الطفرات التقنية الأخيرة في جعل المساعدات الصوتية التقليدية مثل أليكسا وسيري تبدو متأخرة من ناحية الواقعية والطبيعية في التفاعل. ويتوفر نموذج Nova Sonic عبر منصة أمازون Bedrock المخصصة للمطورين لبناء تطبيقات الذكاء الاصطناعي للمؤسسات، وذلك من خلال واجهة برمجة تطبيقات API جديدة تتيح البث الصوتي في الاتجاهين.
ووصفت أمازون هذا النموذج بأنه “الأكثر كفاءة من ناحية التكلفة” في السوق، مشيرة إلى أنه أقل تكلفة بنسبة تقارب 80% مقارنة بنموذج GPT-4o من OpenAI. وأكد روهيت براساد، النائب الأول لرئيس أمازون وكبير علماء الذكاء الاصطناعي العام (AGI) في الشركة، أن مكونات Nova Sonic تستخدم بالفعل في تشغيل أليكسا بلس، المساعد الصوتي المحسن الذي أطلقته الشركة حديثا.
ويتميز Nova Sonic كذلك بقدرته على الاستجابة في الوقت المناسب في أثناء الحوارات الثنائية، إذ يراعي مدد الصمت والمقاطعات من الطرف الآخر، كما يولد نسخة مكتوبة من كلام المستخدم، يمكن للمطورين الاستفادة منها في تطبيقات مختلفة، بالإضافة إلى إن النموذج أقل عرضة لأخطاء تعرف الكلام مقارنة بالنماذج الأخرى، إذ يتمكن من فهم نوايا المستخدم حتى في حال تمتمته أو حديثه وسط ضوضاء. وعبر معيار Multilingual LibriSpeech لاختبار تعرف الكلام عبر لغات ولهجات مختلفة، سجل Nova Sonic معدل خطأ بلغ 4.2% فقط عند متوسط الأداء عبر اللغات الإنجليزية والفرنسية والإيطالية والألمانية والإسبانية.
وعبر معيار آخر يعرف باسم Augmented Multi Party Interaction لاختبار دقة التعرف الصوتي في حوارات متعددة الأطراف بمستوى صوت مرتفع، تفوق Nova Sonic بنسبة قدرها 46.7% من ناحية معدل الخطأ مقارنة بنموذج GPT-4o-transcribe من OpenAI.
ويسجل النموذج سرعة استجابة رائدة في القطاع، بمتوسط تأخير محسوس قدره 1.09 ثانية، مقارنة بـ1.18 ثانية لنموذج Realtime API من OpenAI، وفقا لاختبارات أجرتها مؤسسة Artificial Analysis.