گسترش مرزهای هوش مصنوعی به قلمرو موسیقی رسید؛ گوگل دیپمایند با معرفی مدل پیشرفته Lyria 3، امکان خلق قطعات موسیقی اورجینال را مستقیماً در اپلیکیشن Gemini فراهم کرده است. کاربران اکنون میتوانند با ارائه یک توصیف متنی ساده، تصویر یا ویدیوی کوتاه، موسیقیهای ۳۰ ثانیهای با کیفیت بالا تولید کنند که همراه با کاور آرت اختصاصی توسط مدل تصویری Nano Banana ارائه میشود .
به گزارش ایتنا، این قابلیت که در فوریه ۲۰۲۶ (اسفند ۱۴۰۴) برای کاربران بالای ۱۸ سال در دسترس قرار گرفته، گامی بلند در جهت دموکراتیزه کردن فرآیند آهنگسازی محسوب میشود و نیازی به نرمافزارهای تخصصی یا دانش موسیقی ندارد .
Lyria 3؛ جهشی در تولید موسیقی منسجم و واقعگرا
Lyria 3 که توسط واحد گوگل دیپمایند توسعه یافته، نسل جدید مدلهای تولید موسیقی این شرکت است که نسبت به نسخههای پیشین، پیشرفتهای چشمگیری داشته است. به گفته گوگل، این مدل قادر به درک زبان طبیعی و تحلیل پارامترهایی مانند سبک، حالوهوا، تمپو و حتی شیوههای سازبندی است و بر اساس آن، قطعهای اورجینال خلق میکند .

از مهمترین قابلیتهای Lyria 3 میتوان به تولید خودکار شعر (متن آهنگ) اشاره کرد. برخلاف نسخههای قبلی که کاربر باید شعر را خودش وارد میکرد، اکنون تنها با توصیف مفهوم اصلی، مدل متناسب با آن شعر میسازد . همچنین کاربر کنترل دقیقتری بر عناصر موسیقی مانند سبک، نوع صدا (وکال)، تمپو و سازها دارد و خروجی نهایی از نظر لایههای صوتی و ساختار موسیقی، پیچیدهتر و واقعگرایانهتر شده است .
سه روش خلاقانه برای ساخت موسیقی با Gemini
کاربران میتوانند از سه رویکرد اصلی برای تعامل با Lyria 3 استفاده کنند:
تولید موسیقی با پرامپت متنی: سادهترین راه، توصیف موسیقی مورد نظر با کلمات است. برای مثال: «یک قطعه آرامشبخش با تمپوی کند، ساز پیانو و حالوهوای رویایی برای مدیتیشن صبحگاهی» یا «یک آهنگ شاد و پرانرژی با سبک پاپ، وکال زنانه و تمپوی تند برای ویدیوهای ورزشی» .
تولید موسیقی از روی تصویر: کاربران میتوانند یک عکس (مثلاً عکس سفر، طبیعت یا دوستان) را آپلود کنند و از Gemini بخواهند موسیقی متناسب با فضای تصویر بسازد. هوش مصنوعی با تحلیل سوژهها، مکان و حالوهوای عکس، قطعهای هماهنگ خلق میکند .
تولید موسیقی از روی ویدیو: مشابه قابلیت تصویر، با آپلود یک کلیپ ویدیویی کوتاه، Lyria 3 میتواند موسیقی پسزمینهای متناسب با ریتم و اتمسفر ویدیو بسازد. این ویژگی برای تولید محتوای شبکههای اجتماعی بسیار کاربردی است .
راهنمای عملی: چگونه پرامپت مؤثر بنویسیم؟
برای دریافت بهترین نتیجه از Lyria 3، کارشناسان گوگل توصیه میکنند پرامپتها را شفاف و ساختاریافته طراحی کنید. هرچه جزئیات بیشتر باشد، خروجی به خواسته کاربر نزدیکتر خواهد بود .
عناصر کلیدی یک پرامپت خوب عبارتند از:
- سبک موسیقی: مشخص کردن ژانر مانند پاپ، راک، هیپهاپ، کلاسیک، الکترونیک، لُفت و …
- حالوهوا: تعیین احساس حاکم بر قطعه مثل پرانرژی، آرامشبخش، حماسی، غمگین، رمانتیک
- تمپو و ریتم: اشاره به تندی یا کندی آهنگ (مثلاً تند، کند، ۱۲۰ ضرب در دقیقه)
- سازها: ذکر سازهای مورد نظر مانند پیانو، گیتار، درام، سینتسایزر
- وکال: مشخص کردن نوع صدا (مرد، زن، گروه کر، بدون کلام)
- کاربرد نهایی: توضیح هدف از ساخت موسیقی مثل «برای پسزمینه پادکست» یا «برای ویدیوی تولد»
نمونه پرامپتهای پیشنهادی
- سبک بالیوودی: «یک قطعه پرانرژی به سبک موسیقی فیلمهای بالیوود با تمپوی ۱۲۸ ضرب در دقیقه، شامل بخش برنجی، ساز دهل، بیتهای الکترونیک و آواز دونفره مرد و زن با اشعاری شاد و پرجنبوجوش درباره رقصیدن تا صبح» .
- تلفیق سبکها: «یک آهنگ تلفیقی از فانک دهه ۷۰ و سینثویو مدرن با تمپوی ۱۱۰ ضرب در دقیقه. از سازهای گیتار بیس، گیتار الکتریک، سینتسایزر مگ و درام ماشین با ریورب سنگین استفاده کن. بخش ملایم به تدریج به کر شورانگیز با سازهای برنجی تبدیل شود» .
- بر اساس خاطره: «یک آهنگ نوستالژیک درباره روزهای خوش کودکی و بازی در حیاط خانه مادربزرگ، با حالوهوای گرم و صمیمی، سبک فولک، سازهای آکوستیک و وکال آرام مردانه» .
ادغام با یوتیوب و دسترسی جهانی
علاوه بر اپلیکیشن Gemini، گوگل Lyria 3 را به قابلیت Dream Track در یوتیوب نیز افزوده است. این ابزار که پیشتر فقط در آمریکا در دسترس بود، اکنون در سطح جهانی به سازندگان محتوا امکان میدهد برای ویدیوهای Shorts خود موسیقی متن سفارشی و هوشمند تولید کنند .
این قابلیت در حال حاضر برای تمام کاربران بالای ۱۸ سال در کشورهای مختلف با پشتیبانی از زبانهای انگلیسی، آلمانی، اسپانیایی، فرانسوی، هندی، ژاپنی، کرهای و پرتغالی فعال است. کاربران نسخه رایگان Gemini و مشترکین پلنهای AI Plus، Pro و Ultra میتوانند از این ویژگی استفاده کنند، با این تفاوت که مشترکین سقف تولید بالاتری دارند .
حفظ حقوق هنرمندان و شفافیت محتوا
گوگل تأکید کرده است که Lyria 3 «برای بیان اصیل و خلاقانه طراحی شده، نه تقلید از هنرمندان موجود». اگر کاربر نام یک خواننده خاص را در پرامپت ذکر کند، مدل از آن به عنوان الهامبخشی کلی استفاده کرده و قطعهای با سبک یا حالوهوای مشابه (نه کپی) تولید میکند. همچنین فیلترهایی برای بررسی خروجیها و تطبیق با محتوای دارای حقکپی در نظر گرفته شده است .
تمام قطعات تولیدشده با Lyria 3 با واترمارک صوتی نامرئی SynthID نشانهگذاری میشوند تا قابلیت تشخیص محتوای تولیدشده توسط هوش مصنوعی فراهم باشد. کاربران حتی میتوانند فایل صوتی را در Gemini آپلود کرده و از هوش مصنوعی بپرسند که آیا توسط گوگل ساخته شده است یا خیر .
با این نوآوری، گوگل تولید موسیقی را به جریان اصلی کاربردهای هوش مصنوعی نزدیکتر کرده و ابزاری قدرتمند در اختیار عموم کاربران، تولیدکنندگان محتوا و هنرمندان قرار داده است تا ایدههای شنیداری خود را بدون نیاز به تجهیزات حرفهای به واقعیت تبدیل کنند.
ماهان زند
من فارغالتحصیل رشته مهندسی کامپیوتر هستم و از دوران نوجوانی به دنیای فناوری علاقهمند بودم. فعالیت حرفهای خودم را از سال ۱۳۹۷ با نوشتن مقالههای نقد و بررسی گجتهای هوشمند در یک وبلاگ شخصی آغاز کردم. پس از کسب تجربه، به عنوان نویسنده و تحلیلگر در نشریات مختلف فعالیت کردم و در حال حاضر، به عنوان دبیر بخش فناوریهای نو در یک مجله معتبر تکنولوژی مشغول به کار هستم. تلاش من این است که آخرین اخبار و پیشرفتهای دنیای فناوری را به زبانی ساده و کاربردی برای مخاطبان ارائه دهم.