تريد شركة نفيديا أن تخبركم أن أغرب رغباتكم الصوتية أصبحت الآن ممكنة. مشروع الشركة الأخير في مجال الذكاء الاصطناعي، إلى جانب شخصياتها غير القابلة للعب (NPCs) والدردشة داخل اللعبة، هو نموذج ذكاء اصطناعي لتحويل النص إلى صوت يُدعى “فوجاتو”. مثل نماذج أخرى، يمكن لذكاء نفيديا الاصطناعي إنشاء مقاطع صوتية من وصف بسيط، ولكن هذا البرنامج يمكنه أيضًا إنشاء “أصوات لم تُسمع من قبل”، مثل “عواء الساكسفون”، مهما كان يعني ذلك.
في منشور مدونة، ادعت شركة نفيديا أن نموذج الذكاء الاصطناعي الذي يُعتبر “سكين الجيش السويسري للصوت” يمكنه تعديل الأصوات الموجودة أو إنشاء مشاهد صوتية كاملة من العدم. فوجاتو هو في الواقع اختصار لـ “نموذج التحويل الصوتي التوليدي الأساسي أوبس 1” والذي يعد طويلاً بشكل مزعج. وهو قادر على معالجة الأصوات والموسيقى وضوضاء الخلفية وإنتاجها كلها في مسار صوتي واحد. يمكنه أيضًا تعديل مصادر الصوت الموجودة.
من السخيف أن نطلق على أي شيء “صوت لم يُسمع من قبل”، خاصة إذا جاء من الذكاء الاصطناعي. مهما كان الناتج، فإن الصوت الناتج عن الذكاء الاصطناعي ليس سوى خوارزمية تستخدم مصادر موجودة في بيانات التدريب الخاصة بها لتوفير نتيجة تقترب من الطلب. قالت نفيديا إن نموذجها فريد من نوعه لأنه يمكنه دمج التعليمات التي كانت منفصلة أثناء التدريب و”إنشاء مشاهد صوتية لم يرها من قبل.” وهذا يعني أنه يمكنه دمج تأثيرين صوتيين مميزين لإنشاء شيء جديد. في فيديو، عرضت نفيديا كيف يمكنه توليد صوت قطار يتحول إلى لحن أوركسترالي. يمكنه أيضًا إنشاء صوت عاصفة مطرية تتلاشى في المسافة.
هذه قدرات لم نرها من قبل. بجانب الطلب لتجربة “موسيقى إلكترونية مع نباح الكلاب بالتزامن مع الإيقاع”، قالت نفيديا إن أداتها توفر “تحكم دقيق” في المشاهد الصوتية التي تم إنشاؤها. تدعي نفيديا أن الراوي في الفيديو كان نسخة ذكاء اصطناعي من الرئيس التنفيذي لشركة نفيديا، جينسن هوانغ، على الرغم من أنه إذا كانت فوجاتو قد أنتجت الصوت الواضح المزيف، فإن نموذج الذكاء الاصطناعي يحتاج إلى مزيد من العمل قبل أن يستخدمه أي شخص لمشروعه المقبل في مجال التزييف العميق.
توجد بالفعل العديد من أدوات الصوت الاصطناعي التي تأخذ الطلبات النصية وتحولها إلى مقاطع صوتية. قامت أدوبي بالترويج لأداتها الخاصة “مشروع موسيقى جين AI Control” للموسيقيين غير الأخلاقيين. وقد قامت الشركات التكنولوجية الكبرى مثل ميتا بالترويج لنماذج الصوت الخاصة بها لصناعة الأفلام. في الشهر الماضي، قدمت ميتا “موفي جين”، والتي يمكنها توليد مشاهد صوتية لأفلام تم إنشاؤها بواسطة الذكاء الاصطناعي.
نقلت نفيديا عن الباحثة في الذكاء الاصطناعي، روهانا بادلاني، التي قالت إن النموذج “جعلني أشعر قليلاً كأنني فنان”، على الرغم من أن الذكاء الاصطناعي يستمد من آلاف الجيجابايت من الموسيقى والبيانات الصوتية الموجودة. لم تشارك نفيديا تفاصيل دقيقة حول مجموعة بياناتها واكتفت بالقول إنها تحتوي على “ملايين من عينات الصوت المستخدمة للتدريب.” النسخة الكاملة من فوجاتو هي نموذج يحتوي على 2.5 مليار معلمة تم تدريبها على بنوك نفيديا الخاصة من وحدات معالجة الرسوميات H100 الشهيرة.
هذه أخبار سيئة لفناني الصوت، الذين جعلوا من هذا النوع من التزييف الصوتي فناً معروفاً. قالت الشركة إن فوجاتو يمكن أن يكون أداة مفيدة لوكالات الإعلان ومطوري ألعاب الفيديو أو الموسيقيين الذين يرغبون في عينة التغييرات على أعمالهم دون بذل الكثير من الجهد الإضافي. ومع ذلك، فإن الجانب الآخر من العملة هو كل هؤلاء الأشخاص الذين سيستخدمونه لصنع “أصول جديدة”، أي أنهم قد يضيفون المزيد من الفوضى الناتجة عن الذكاء الاصطناعي إلى الكومة المتزايدة.
قد يكون لفوجاتو فائدة أكثر من مجرد إعطاء سبب لشركات إنتاج الأفلام لاستبدال مهندسي الصوت البشريين. تدعي نفيديا أنه يمكنه إزالة أو إضافة آلات موسيقية إلى الموسيقى الموجودة. يمكنه أيضًا عزل وتعديل ضوضاء معينة من المصادر الموجودة. ربما يمكنك الهروب بإنشاء إيقاعات طبول فارغة لموسيقى سينثسيزر العادية الخاصة بك، ولكن إنشاء موسيقى تصويرية كاملة تعتمد فقط على الذكاء الاصطناعي ليس ما يدفعه معظم الناس عند شراء تذكرة فيلم.