أعلنت شركة “ميتا” عن إطلاق أداة ذكاء اصطناعي جديدة مفتوحة المصدر باسم “SAM Audio”، قادرة على فصل الأصوات وتنقية التسجيلات المزدحمة بالضوضاء بمجرد إدخال وصف نصي للصوت المطلوب، دون الحاجة إلى برامج تحرير صوتية معقدة.

ووفقاً للشركة، تتيح الأداة للمستخدمين استخراج أصوات محددة مثل الصوت البشري، والآلات الموسيقية، أو ضوضاء الخلفية من تسجيل واحد مزدحم، ما قد يحدث تحولًا كبيرًا في مجالات البودكاست، الإنتاج الموسيقي، وصناعة الأفلام، وتسهيل الوصول لذوي الإعاقة. وتعتمد “SAM Audio” على نموذج متعدد الوسائط يدعم ثلاثة أنواع من الأوامر “وصف نصي للصوت المراد عزله، واختيار بصري لشخص أو عنصر داخل الفيديو لتحديد مصدر الصوت، وتحديد زمني للحظة ظهور الصوت في التسجيل”.

ويمكن استخدام هذه الطرق بشكل منفصل أو مجتمعة لتحقيق دقة أعلى في فصل الأصوات، ويستند النموذج إلى محرك “Perception Encoder Audiovisual” الذي يحلل الأصوات قبل فصلها بدقة عن بقية المقطع.

كما كشفت ميتا، عن معيار تقييم جديد باسم “SAM Audio-Bench” لقياس أداء نماذج فصل الصوت، إلى جانب أداة SAM Audio Judge لتقييم جودة الصوت الناتج من منظور المستمعين، حتى دون وجود ملف مرجعي.

وأظهرت النتائج تفوق النموذج عند الجمع بين أكثر من نوع من الأوامر، مع قدرته على معالجة الصوت بسرعة تفوق الزمن الحقيقي، حتى على نطاق واسع.

وتشمل الاستخدامات العملية للأداة، إزالة ضوضاء المرور من تسجيلات البودكاست، وعزل الصوت البشري عن التسجيلات الموسيقية، وحذف أصوات غير مرغوبة مثل نباح الكلاب من التسجيلات المنزلية.

ويأتي هذا الإطلاق ضمن توجه “ميتا” لتطوير نماذج ذكاء اصطناعي تفهم الصوت والسياق والتفاعل البشري، بما في ذلك تحسين وضوح الصوت في نظاراتها الذكية، وتطوير نظارات واقع مختلط متقدمة بحلول 2027، وبناء مساعد محادثة ذكي قد ينافس “شات جي بي تي”، مما يعزز جهود “ميتا” في إتاحة تقنيات الذكاء الاصطناعي المتقدمة للمطورين وصناع المحتوى حول العالم.

شاركها.
اترك تعليقاً

Exit mobile version