انویدیا از نخستین هوش مصنوعی «طولانیمتن» جهان رونمایی کرده است؛ سیستمی که میتواند تا ۳۲ برابر سریعتر از روشهای پیشین به کاربران همزمان پاسخ دهد. این فناوری نوین با بهرهگیری از معماری جدید Helix و پردازنده گرافیکی قدرتمند Blackwell، استاندارد تازهای در پردازش متون بسیار طولانی و تعامل بلادرنگ با کاربران ایجاد کرده است.
به گزارش ایسنا، این دستاورد جدید انویدیا بهطور خاص برای اجرای مدلهای بزرگ زبانی طراحی شده و با هدف ارتقای عملکرد در برنامههایی مانند چتباتها، دستیارهای مجازی و موتورهای جستوجوی هوشمند توسعه یافته است.
پردازش همزمان میلیونها کلمه با معماری Helix
فناوری Helix با معرفی روشی نو به نام «موازیسازی هلیکس» (Helix Parallelism)، امکان پردازش همزمان میلیونها توکن یا کلمه را برای مدلهای هوش مصنوعی فراهم میکند. این قابلیت بهویژه در مواقعی که مدل باید متون بسیار طولانی مانند مکالمات چندماهه یا اسناد حجیم را بررسی کند، اهمیت دارد.
Helix بهگونهای طراحی شده که با پردازندههای گرافیکی نسل جدید انویدیا یعنی Blackwell هماهنگ باشد. این پردازندهها از پهنای باند حافظه بالا و توان محاسباتی چشمگیری برخوردارند که برای اجرای مدلهای زبانی بزرگ ضروری است.
حل چالشهای حافظه در مدلهای زبانی
یکی از چالشهای اصلی در اجرای مدلهای زبانی بزرگ، فشار سنگین بر حافظه GPU هنگام پردازش متنهای طولانی است. مدلها برای تولید هر پاسخ جدید، باید بارها به حافظه KV (که شامل تمام کلمات قبلی است) مراجعه کنند. این فرآیند باعث کندی و افزایش مصرف منابع میشود.

پیشتر، توسعهدهندگان از روش Tensor Parallelism برای توزیع بار بین چند GPU استفاده میکردند، اما این روش در مقیاس بالا باعث تکرار حافظه و افزایش فشار میشد. Helix با تفکیک دو بخش اصلی مدل یعنی «توجه» (attention) و «شبکه تغذیه پیشرو» (FFN)، این مشکل را برطرف کرده است.
فناوریهای مکمل برای افزایش سرعت و بهرهوری
در معماری Helix، حافظه KV بهصورت هوشمند بین GPUها تقسیم میشود (KV Parallelism) تا از تکرار جلوگیری شود. سپس، GPUها به حالت قبلی بازمیگردند تا بخش FFN را اجرا کنند. این رویکرد باعث استفاده بهینه از منابع و کاهش زمان پاسخدهی میشود.
همچنین، انویدیا از فناوریهای ارتباطی پرسرعت مانند NVLink و NVL72 برای انتقال سریع دادهها بین GPUها بهره گرفته و تکنیکی به نام HOP-B را معرفی کرده که محاسبات و انتقال داده را بهصورت همزمان انجام میدهد تا تأخیر به حداقل برسد.
عملکرد چشمگیر در آزمایشها
در آزمایشهایی که با مدل DeepSeek-R1 671B انجام شده، Helix توانسته تا ۳۲ برابر بیشتر از روشهای قبلی به کاربران همزمان پاسخ دهد، بدون آنکه تأخیر افزایش یابد. حتی در شرایطی که بار کاری سبک است، این فناوری زمان پاسخدهی را تا ۱.۵ برابر کاهش میدهد.
مدیریت حافظه در Helix نیز بهصورت چرخشی انجام میشود تا از فشار ناگهانی بر GPUها جلوگیری شود و عملکرد سیستم در پردازش متون بسیار طولانی پایدار باقی بماند.
تحولی در آینده هوش مصنوعی تعاملی
فناوری Helix به مدلهای هوش مصنوعی این امکان را میدهد که در عین افزایش مقیاس، سرعت و پاسخگویی بلادرنگ خود را حفظ کنند. این پیشرفت میتواند کاربردهایی مانند دستیارهای مجازی، رباتهای حقوقی و سامانههای پاسخگویی هوشمند را به سطحی جدید از کارایی و تعامل برساند.