شرکت تنسنت با رونمایی از HunyuanWorld-Voyager گامی فراتر در تولید ویدئوهای سهبعدی برداشته است. این مدل هوش مصنوعی میتواند تنها با یک تصویر ایستا و تعریف مسیر حرکت دوربین توسط کاربر، رشتهای از فریمها را تولید و دادههای عمق (depth map) متناظر را استخراج کند. نتیجه، ویدئویی کوتاه با نمای شبهسهبعدی است که بدون نیاز به مدلسازی سنتی، حس عمق و پویایی را منتقل میکند.
نوآوریهای اصلی Voyager
- استفاده از «world cache» برای ذخیره و بازتاب ابرنقاط سهبعدی و حفظ انسجام هندسی در فریمهای پیاپی
- چرخه بازخوردی تبدیل فریمها به نقاط سهبعدی و مقایسه با دادههای پیشین برای جلوگیری از اعوجاج فضایی
این رویکرد، تولید ویدئو و نقشههای عمق را همزمان امکانپذیر میسازد و انعطاف بالایی برای ترکیب کلیپها در مدتزمان چنددقیقهای ارائه میدهد.

HunyuanWorld-Voyager با بیش از ۱۰۰ هزار کلیپ آموزشی (ترکیبی از صحنههای واقعی و موتور گرافیکی آنریل) تربیت شده و در بنچمارک WorldScore دانشگاه استنفورد با امتیاز ۷۷.۶۲، از مدلهایی مانند WonderWorld و CogVideoX-I2V پیشی گرفته است. همچنین در مقایسه با Sora اوپنایآی که تمرکز اصلیاش واقعگرایی بصری است، Voyager روی حفظ سازگاری هندسی میان فریمها تاکید دارد.
محدودیتها و چالشهای اجرایی
- نیاز به حداقل ۶۰ گیگابایت حافظه GPU (۸۰ گیگابایت برای کیفیت مطلوب) و چندین GPU برای شتاب مقیاسپذیر
- عدم امکان بهرهبرداری رسمی در اتحادیه اروپا، بریتانیا و کرهجنوبی و الزام به توافقهای جداگانه برای استفاده تجاری
علیرغم محدودیتهای محاسباتی و حقوقی، Voyager بستری نوآورانه برای آزمایش روشهای بازسازی سهبعدی از دادههای دوبعدی فراهم کرده است. انتظار میرود با بهینهسازی مدل و توسعه سختافزار سبکتر، این فناوری در آینده نزدیک به یک ابزار فراگیر برای ساخت نماهای درونمتنی تعاملی تبدیل شود.
پایگاه خبری مجتمع نوآوری فرداد
ماهان زند
من فارغالتحصیل رشته مهندسی کامپیوتر هستم و از دوران نوجوانی به دنیای فناوری علاقهمند بودم. فعالیت حرفهای خودم را از سال ۱۳۹۷ با نوشتن مقالههای نقد و بررسی گجتهای هوشمند در یک وبلاگ شخصی آغاز کردم. پس از کسب تجربه، به عنوان نویسنده و تحلیلگر در نشریات مختلف فعالیت کردم و در حال حاضر، به عنوان دبیر بخش فناوریهای نو در یک مجله معتبر تکنولوژی مشغول به کار هستم. تلاش من این است که آخرین اخبار و پیشرفتهای دنیای فناوری را به زبانی ساده و کاربردی برای مخاطبان ارائه دهم.