✍️ Prompt for audio: “Jellyfish pulsating under water, marine life, ocean.” pic.twitter.com/PftZPS7mgq
— Google DeepMind (@GoogleDeepMind) June 17, 2024
وقال متحدث باسم غوغل، أمس الأربعاء، إنّ «الصوت جزء أساسي من صناعة فيديو جيد. ويملأ V2A هذا الفراغ عبر التخلص من الإحساس بعدم وجود حياة، الأمر الذي يكثر في مقاطع الفيديو المنشأة بالذكاء الاصطناعي».
يعمل V2A عبر البدء بضوضاء عشوائية، ثم تحسين هذه الضوضاء وتشكيلها تدريجياً إلى أصوات واقعية. ويفعل ذلك باستخدام لقطات الفيديو وأي تعليمات نصية مقدمة لتوجيه عملية تحويل الضوضاء إلى صوت ذي معنى يتطابق مع ما يحدث في الصور المرئية. ولجعل الصوت أفضل وأكثر تحديداً لكل مشهد، دُرّب V2A أيضاً على بيانات إضافية مثل التعليقات التوضيحية الصوتية والنصوص التي تعتمد على الذكاء الاصطناعي لتعزيز الجودة والخصوصية. وتساعد بيانات التدريب الإضافية هذه V2A على إنتاج صوت أعلى جودة وأكثر دقة مع محتوى الفيديو.
✍️ Prompt for audio: “A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd.” pic.twitter.com/z0N8sbbsEU
— Google DeepMind (@GoogleDeepMind) June 17, 2024
ومع ذلك، يواجه النظام بعض القيود. فجودة الصوت تعتمد على جودة الفيديو المُدخل، كما أن مزامنة حركات الشفاه للفيديوهات الناطقة تحتاج إلى تحسين. لكن تعتبر غوغل أن أبرز ما يميز V2A هو قدرته على فهم لقطات الفيديو الخام مباشرة، ودمج الصوت المنشأ بسلاسة مع المرئيات.
في الوقت الحالي، لا تخطط غوغل لإطلاق V2A للجمهور العام. فهي تركز على معالجة قيود التقنية الجديدة وضمان التأثير الإيجابي لها على مجتمع صانعي المحتوى.