شعر، راهی غیرمنتظره برای جیلبریک هوش مصنوعی: آسیب‌پذیری جدید چت‌بات‌ها کشف شد

AI chatbots can be tricked with poetry to ignore their safety guardrails

در یک کشف خیره‌کننده که می‌تواند چالش‌های امنیتی بزرگی را برای صنعت هوش مصنوعی به همراه داشته باشد، پژوهشگران آزمایشگاه «ایکارو» (Icarus Lab) نشان داده‌اند که پیشرفته‌ترین مدل‌های زبان بزرگ (LLM) و چت‌بات‌های هوش مصنوعی، در برابر درخواست‌های مخرب ارائه‌شده در قالب شعر آسیب‌پذیر هستند. این روش که به "جیلبریک هوش مصنوعی با شعر" شهرت یافته است، راهی غیرمنتظره برای دور زدن مکانیزم‌های ایمنی این سیستم‌ها را آشکار می‌کند و زنگ خطری جدی برای توسعه‌دهندگان هوش مصنوعی به صدا درآورده است.

image

آسیب‌پذیری چت‌بات‌های هوش مصنوعی: شکستن حفاظ‌های ایمنی با واژگان شاعرانه

جیلبریک هوش مصنوعی به فرآیندی گفته می‌شود که طی آن محدودیت‌ها و مکانیزم‌های ایمنی تعبیه‌شده در مدل‌های زبان بزرگ دور زده می‌شوند تا چت‌بات‌ها محتوایی را تولید کنند که معمولاً از ارائه آن منع شده‌اند. مطالعه جدید آزمایشگاه ایکارو با عنوان «شعر خصمانه به‌عنوان مکانیزم جیلبریک جهانی تک‌نوبتی در مدل‌های زبان بزرگ»، فاش کرده است که فرم شاعرانه می‌تواند به‌عنوان یک عامل همه‌منظوره برای این نوع جیلبریک عمل کند. محققان با استفاده از این روش، موفق شدند با نرخ موفقیت کلی ۶۲ درصد، مدل‌های زبان بزرگ را وادار به تولید محتوای ممنوعه کنند. این محتوا شامل اطلاعاتی در مورد ساخت سلاح‌های هسته‌ای، مطالب مرتبط با سوءاستفاده جنسی از کودکان و راهنمایی برای خودکشی یا خودآزاری بوده که ماهیت حساس و خطرناک این آسیب‌پذیری هوش مصنوعی را برجسته می‌کند.

مکانیسم جیلبریک هوش مصنوعی با شعر و نتایج خیره‌کننده

تأثیرگذاری شعر در جیلبریک هوش مصنوعی، بیش از آنکه به پیچیدگی زبانی آن مربوط باشد، احتمالاً به ماهیت غیرمستقیم و ابهام‌آفرین این قالب بازمی‌گردد. مدل‌های هوش مصنوعی برای درک الگوهای زبانی مستقیم و شناسایی کلمات کلیدی مخرب آموزش دیده‌اند، اما شعر با استفاده از استعاره‌ها، کنایه‌ها و ساختارهای غیرخطی، می‌تواند نیت واقعی کاربر را پوشش دهد و سیستم‌های حفاظتی را فریب دهد. این توانایی پنهان‌سازی دستورالعمل‌های مخرب در پشت زیبایی‌شناسی ادبی، نقطه ضعف جدیدی برای چت‌بات‌ها محسوب می‌شود. در این آزمایش گسترده، محبوب‌ترین مدل‌های هوش مصنوعی جهان، از جمله مدل‌های GPT شرکت OpenAI، جمنای گوگل و کلود آنتروپیک، به همراه چندین مدل دیگر مورد بررسی قرار گرفتند. نتایج این پژوهش نشان داد که میزان آسیب‌پذیری در میان این مدل‌ها متفاوت است:

آسیب‌پذیرترین مدل‌ها: جمنای گوگل، دیپ‌سیک و Mistral AI به طور مداوم به درخواست‌های شاعرانه مخرب پاسخ دادند.

مقاوم‌ترین مدل‌ها: مدل‌های GPT-5 شرکت OpenAI و کلود هایکو ۴/۵ آنتروپیک کمترین احتمال را برای عبور از محدودیت‌های خود نشان دادند.

پژوهشگران برای جلوگیری از سوءاستفاده احتمالی، از انتشار اشعار دقیقی که در این جیلبریک‌ها استفاده شده، خودداری کرده‌اند. آن‌ها به مجله وایرد اعلام کرده‌اند که این ابیات برای به اشتراک گذاشتن با عموم بیش از حد خطرناک هستند و تاکید کردند که این فرآیند احتمالاً بسیار آسان‌تر از آن چیزی است که تصور می‌شود، و همین موضوع دلیل اصلی احتیاط آن‌هاست.

پیامدهای امنیتی جیلبریک هوش مصنوعی و آینده ایمنی چت‌بات‌ها

این یافته‌ها زنگ هشداری جدی برای تمامی ذینفعان صنعت هوش مصنوعی است. هرچند پیشرفت‌های چشمگیری در ایجاد حفاظ‌های ایمنی و مکانیزم‌های تعدیل‌کننده برای مدل‌های زبان بزرگ حاصل شده است، اما این مطالعه به وضوح نشان می‌دهد که سیستم‌های هوش مصنوعی همچنان در برابر روش‌های خلاقانه و غیرمنتظره آسیب‌پذیرند. توسعه‌دهندگان چت‌بات‌های هوش مصنوعی باید نه تنها بر شناسایی الگوهای مستقیم محتوای مخرب تمرکز کنند، بلکه نیاز به بررسی عمیق‌تر و جامع‌تر زبان، از جمله فرم‌های ادبی و هنری، برای شناسایی نیات پنهان دارند. این چالش جدید، اهمیت رویکردهای چندرشته‌ای در تضمین امنیت هوش مصنوعی و لزوم سرمایه‌گذاری بیشتر در تحقیقات امنیتی هوش مصنوعی را بیش از پیش آشکار می‌سازد تا از پیامدهای بالقوه خطرناک این آسیب‌پذیری جلوگیری شود.

پایگاه خبری مجتمع نوآوری فرداد


مطالب مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *