جارى فتح الساعة......

طرحت شركة مايكروسوفت نموذجا جديدا لتوليد الفيديو بالذكاء الاصطناعي يسمى DragNUWA لتسهل عملية توليد الفيديو بالذكاء الاصطناعي. ووفقا للشركة، يهدف النموذج الجديد إلى توفير تحكم دقيق في توليد الفيديو من خلال استخدام النص والصور والمسار بصفتها ثلاثة عوامل تحكم أساسية لتسهيل توليد مقطع فيديو يمكن التحكم فيه بشكل كبير من الجوانب الدلالية والمكانية والزمانية.

وتابعت، يسمح نموذج DragNUWA للمستخدمين بمعالجة الخلفيات أو الكائنات داخل الصور مباشرة، ويترجم هذه الإجراءات بسلاسة إلى حركات الكاميرا أو حركات الكائنات، مما يؤدي إلى توليد الفيديو المقابل، ويضيف النموذج التوليد المستند إلى المسار بصفته أسلوبا جديدا إلى جانب الأساليب المعروفة التي تشمل المطالبة المستندة إلى النص والمطالبة المستندة إلى الصورة ، ويوفر هذا طريقة سهلة لتوليد فيديو يمكن التحكم فيه بشكل كبير من الجوانب الدلالية والمكانية والزمانية، مع ضمان إخراج عالي الجودة في الوقت نفسه.

وأوضحت الشركة أن توليد الفيديو بالذكاء الاصطناعي يتمحور حول النص أو الصورة أو المدخلات المستندة إلى المسار، ويواجه كل نهج صعوبات في توفير تحكم دقيق في المخرجات المطلوبة، ويفشل الجمع بين النص والصور بمفرده في نقل تفاصيل الحركة المعقدة الموجودة في الفيديو، وقد لا تمثل الصور والمسارات الأشياء المستقبلية بشكل مناسب، ويمكن أن تؤدي النصوص والمسارات إلى الغموض عند التعبير عن المفاهيم المجردة ، واقترح فريق الذكاء الاصطناعي في مايكروسوفت نموذج DragNUWA للتغلب على هذه المشكلة، إذ إنه نموذج قائم على الانتشار مفتوح المدى يجمع بين العوامل الثلاثة، ويتيح ذلك للمستخدم التحديد الدقيق للنص والصورة والمسار المطلوب في الإدخال للتحكم في جوانب، مثل حركات الكاميرا، ويشمل ذلك تأثيرات التكبير أو التصغير، أو حركة الكائن في الفيديو الناتج ، ويوفر المسار تفاصيل الحركة، وتعطي النصوص تفاصيل عن الأشياء المستقبلية، وتضيف الصور التمييز بين الكائنات، كما أن النموذج قادر على تحقيق حركات دقيقة للكاميرا والكائنات بمسارات سحب مختلفة.

شاركها.
اترك تعليقاً

Exit mobile version