يقوم نموذج الذكاء الاصطناعي الجديد من Nvidia بإنشاء الموسيقى من المطالبات النصية والصوتية - غاية التعليمية

الاثنين 25 نوفمبر 2024 05:10 مساءً

غاية التعليمية يكتُب.. أصدرت Nvidia نموذجًا جديدًا للذكاء الاصطناعي الصوتي قادر على إنشاء عدد لا يحصى من الأصوات والموسيقى وحتى الأصوات، بناءً على المطالبات النصية والصوتية البسيطة للمستخدم.

اخر الاخبار العاجلة عبر غاية التعليمية أخبار محلية ودولية، وكذلك أخبار الر ياضة وخاصة كرة القدم يلا كورة و يلا شوت اليوم.

يمكن للنموذج المدبلج Fugatto (المعروف أيضًا باسم Foundational Geneative Audio Transformer Opus 1) إنشاء نغمات ومقتطفات من الأغاني بناءً على المطالبات النصية فقط، وإضافة أو إزالة الآلات والغناء من المسارات الموجودة، وتعديل كل من لهجة الصوت وعاطفته، و “حتى السماح للناس بإنتاج أصوات لم يسمعوها من قبل” في منشور إعلان يوم الاثنين.

وقال رافائيل فالي، مدير الأبحاث الصوتية التطبيقية في شركة Nvidia: “أردنا إنشاء نموذج يفهم الصوت وينتجه مثلما يفعل البشر”. “إن Fugatto هي خطوتنا الأولى نحو المستقبل حيث ينشأ التعلم متعدد المهام غير الخاضع للرقابة في تركيب الصوت وتحويله من البيانات وحجم النموذج.”

وتشير الشركة إلى أنه يمكن لمنتجي الموسيقى استخدام نموذج الذكاء الاصطناعي لوضع نماذج أولية سريعة لأفكار الأغاني وفحصها في أنماط موسيقية مختلفة بترتيبات مختلفة، أو إضافة تأثيرات وطبقات إضافية إلى المسارات الموجودة. يمكن أيضًا الاستفادة من النموذج لتكييف وتوطين الموسيقى والتعليقات الصوتية لحملة إعلانية موجودة، أو ضبط موسيقى لعبة فيديو أثناء لعب اللاعب خلال المستوى.

كما أن النموذج قادر على إصدار أصوات لم يسمع بها من قبل مثل نباح الأبواق أو مواء الساكسفونات. للقيام بذلك، يستخدم تقنية تسمى ComposableART لدمج التعليمات التي تعلمها أثناء التدريب.

كتب روهان بادلاني، الباحث في Nvidia AI، في منشور الإعلان: “أردت السماح للمستخدمين بدمج السمات بطريقة ذاتية أو فنية، واختيار مقدار التركيز الذي يضعونه على كل واحدة”. “في اختباراتي، كانت النتائج غالبًا مفاجئة وجعلتني أشعر وكأنني فنان إلى حد ما، على الرغم من أنني عالم كمبيوتر.”

يستخدم نموذج Fugatto نفسه 2.5 مليار معلمة وتم تدريبه على 32 وحدة معالجة رسوميات H100. أصبحت تقنيات الذكاء الاصطناعي الصوتي مثل هذه شائعة بشكل متزايد. كشف Stability AI النقاب عن نظام مماثل في أبريل يمكنه إنشاء مسارات يصل طولها إلى ثلاث دقائق بينما يمكن لنموذج Google V2A إنشاء “عدد غير محدود من المقاطع الصوتية لأي إدخال فيديو”.

أصدر YouTube مؤخرًا أداة مزج موسيقى تعمل بالذكاء الاصطناعي والتي تولد عينة مدتها 30 ثانية بناءً على الأغنية المدخلة والمطالبات النصية للمستخدم. حتى OpenAI تقوم بالتجارب في هذا المجال، بعد أن أصدرت أداة ذكاء اصطناعي في أبريل تحتاج إلى 15 ثانية فقط من عينة الصوت من أجل استنساخ صوت المستخدم وأنماطه الصوتية بشكل كامل.

كُنا قد تحدثنا في خبر يقوم نموذج الذكاء الاصطناعي الجديد من Nvidia بإنشاء الموسيقى من المطالبات النصية والصوتية - غاية التعليمية بأستفاضة، ويمكنك تصفح جميع الأخبار المتعلقة بهذا الشأن عبر موقعنا غاية التعليمية الالكتروني.

أخبار متعلقة :