Voyager 3D: تولد ویدئوی سه‌بعدی از یک عکس

وویجر تنسنت; تولید ویدئوهای سه‌بعدی تنها با یک عکس

شرکت تنسنت با رونمایی از HunyuanWorld-Voyager گامی فراتر در تولید ویدئوهای سه‌بعدی برداشته است. این مدل هوش مصنوعی می‌تواند تنها با یک تصویر ایستا و تعریف مسیر حرکت دوربین توسط کاربر، رشته‌ای از فریم‌ها را تولید و داده‌های عمق (depth map) متناظر را استخراج کند. نتیجه، ویدئویی کوتاه با نمای شبه‌سه‌بعدی است که بدون نیاز به مدل‌سازی سنتی، حس عمق و پویایی را منتقل می‌کند.

نوآوری‌های اصلی Voyager

  • استفاده از «world cache» برای ذخیره و بازتاب ابرنقاط سه‌بعدی و حفظ انسجام هندسی در فریم‌های پیاپی
  • چرخه بازخوردی تبدیل فریم‌ها به نقاط سه‌بعدی و مقایسه با داده‌های پیشین برای جلوگیری از اعوجاج فضایی

این رویکرد، تولید ویدئو و نقشه‌های عمق را همزمان امکان‌پذیر می‌سازد و انعطاف بالایی برای ترکیب کلیپ‌ها در مدت‌زمان چنددقیقه‌ای ارائه می‌دهد.

وویجر تنسنت; تولید ویدئوهای سه‌بعدی تنها با یک عکس
وویجر تنسنت; تولید ویدئوهای سه‌بعدی تنها با یک عکس

HunyuanWorld-Voyager با بیش از ۱۰۰ هزار کلیپ آموزشی (ترکیبی از صحنه‌های واقعی و موتور گرافیکی آنریل) تربیت شده و در بنچمارک WorldScore دانشگاه استنفورد با امتیاز ۷۷.۶۲، از مدل‌هایی مانند WonderWorld و CogVideoX-I2V پیشی گرفته است. همچنین در مقایسه با Sora اوپن‌ای‌آی که تمرکز اصلی‌اش واقع‌گرایی بصری است، Voyager روی حفظ سازگاری هندسی میان فریم‌ها تاکید دارد.

محدودیت‌ها و چالش‌های اجرایی

  • نیاز به حداقل ۶۰ گیگابایت حافظه GPU (۸۰ گیگابایت برای کیفیت مطلوب) و چندین GPU برای شتاب مقیاس‌پذیر
  • عدم امکان بهره‌برداری رسمی در اتحادیه اروپا، بریتانیا و کره‌جنوبی و الزام به توافق‌های جداگانه برای استفاده تجاری

علی‌رغم محدودیت‌های محاسباتی و حقوقی، Voyager بستری نوآورانه برای آزمایش روش‌های بازسازی سه‌بعدی از داده‌های دو‌بعدی فراهم کرده است. انتظار می‌رود با بهینه‌سازی مدل و توسعه سخت‌افزار سبک‌تر، این فناوری در آینده نزدیک به یک ابزار فراگیر برای ساخت نماهای درون‌متنی تعاملی تبدیل شود.

پایگاه خبری مجتمع نوآوری فرداد

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *