في تقدّم كبير لأدوات الإنشاء لمقاطع الفيديو، كشفت DeepMind التابعة لشركة غوغل عن نظام ذكاء اصطناعي جديد قوي يُسمّى V2A (اختصاراً من Video to Audio)، يمكنه إنشاء مقاطع صوتية متزامنة لمقاطع الفيديو الصامتة. وتهدف هذه التقنية إلى إضفاء الحيوية على نتائج أدوات التحويل للنصوص إلى فيديو، التي تفتقر للصوت.يجمع نظام V2A بين وحدات بكسل الفيديو مع أوامر نصية اختيارية لإنشاء صوت يتماشى بشكل وثيق مع مقطع الفيديو. ويمكنه توليد الموسيقى والمؤثرات الصوتية وحتى الحوار المتزامن مع الأحداث على الشاشة.



وقال متحدث باسم غوغل، أمس الأربعاء، إنّ «الصوت جزء أساسي من صناعة فيديو جيد. ويملأ V2A هذا الفراغ عبر التخلص من الإحساس بعدم وجود حياة، الأمر الذي يكثر في مقاطع الفيديو المنشأة بالذكاء الاصطناعي».
يعمل V2A عبر البدء بضوضاء عشوائية، ثم تحسين هذه الضوضاء وتشكيلها تدريجياً إلى أصوات واقعية. ويفعل ذلك باستخدام لقطات الفيديو وأي تعليمات نصية مقدمة لتوجيه عملية تحويل الضوضاء إلى صوت ذي معنى يتطابق مع ما يحدث في الصور المرئية. ولجعل الصوت أفضل وأكثر تحديداً لكل مشهد، دُرّب V2A أيضاً على بيانات إضافية مثل التعليقات التوضيحية الصوتية والنصوص التي تعتمد على الذكاء الاصطناعي لتعزيز الجودة والخصوصية. وتساعد بيانات التدريب الإضافية هذه V2A على إنتاج صوت أعلى جودة وأكثر دقة مع محتوى الفيديو.



ومع ذلك، يواجه النظام بعض القيود. فجودة الصوت تعتمد على جودة الفيديو المُدخل، كما أن مزامنة حركات الشفاه للفيديوهات الناطقة تحتاج إلى تحسين. لكن تعتبر غوغل أن أبرز ما يميز V2A هو قدرته على فهم لقطات الفيديو الخام مباشرة، ودمج الصوت المنشأ بسلاسة مع المرئيات.
في الوقت الحالي، لا تخطط غوغل لإطلاق V2A للجمهور العام. فهي تركز على معالجة قيود التقنية الجديدة وضمان التأثير الإيجابي لها على مجتمع صانعي المحتوى.