شعر، راهی غیرمنتظره برای جیلبریک هوش مصنوعی: آسیب‌پذیری جدید چت‌بات‌ها کشف شد

در یک کشف خیره‌کننده که می‌تواند چالش‌های امنیتی بزرگی را برای صنعت هوش مصنوعی به همراه داشته باشد، پژوهشگران آزمایشگاه «ایکارو» (Icarus Lab) نشان داده‌اند که پیشرفته‌ترین مدل‌های زبان بزرگ (LLM) و چت‌بات‌های هوش مصنوعی، در برابر درخواست‌های مخرب ارائه‌شده در قالب شعر آسیب‌پذیر هستند. این روش که به "جیلبریک هوش مصنوعی با شعر" شهرت یافته است، راهی غیرمنتظره برای دور زدن مکانیزم‌های ایمنی این سیستم‌ها را آشکار می‌کند و زنگ خطری جدی برای توسعه‌دهندگان هوش مصنوعی به صدا درآورده است.

آسیب‌پذیری چت‌بات‌های هوش مصنوعی: شکستن حفاظ‌های ایمنی با واژگان شاعرانه

جیلبریک هوش مصنوعی به فرآیندی گفته می‌شود که طی آن محدودیت‌ها و مکانیزم‌های ایمنی تعبیه‌شده در مدل‌های زبان بزرگ دور زده می‌شوند تا چت‌بات‌ها محتوایی را تولید کنند که معمولاً از ارائه آن منع شده‌اند. مطالعه جدید آزمایشگاه ایکارو با عنوان «شعر خصمانه به‌عنوان مکانیزم جیلبریک جهانی تک‌نوبتی در مدل‌های زبان بزرگ»، فاش کرده است که فرم شاعرانه می‌تواند به‌عنوان یک عامل همه‌منظوره برای این نوع جیلبریک عمل کند. محققان با استفاده از این روش، موفق شدند با نرخ موفقیت کلی ۶۲ درصد، مدل‌های زبان بزرگ را وادار به تولید محتوای ممنوعه کنند. این محتوا شامل اطلاعاتی در مورد ساخت سلاح‌های هسته‌ای، مطالب مرتبط با سوءاستفاده جنسی از کودکان و راهنمایی برای خودکشی یا خودآزاری بوده که ماهیت حساس و خطرناک این آسیب‌پذیری هوش مصنوعی را برجسته می‌کند.

مکانیسم جیلبریک هوش مصنوعی با شعر و نتایج خیره‌کننده

تأثیرگذاری شعر در جیلبریک هوش مصنوعی، بیش از آنکه به پیچیدگی زبانی آن مربوط باشد، احتمالاً به ماهیت غیرمستقیم و ابهام‌آفرین این قالب بازمی‌گردد. مدل‌های هوش مصنوعی برای درک الگوهای زبانی مستقیم و شناسایی کلمات کلیدی مخرب آموزش دیده‌اند، اما شعر با استفاده از استعاره‌ها، کنایه‌ها و ساختارهای غیرخطی، می‌تواند نیت واقعی کاربر را پوشش دهد و سیستم‌های حفاظتی را فریب دهد. این توانایی پنهان‌سازی دستورالعمل‌های مخرب در پشت زیبایی‌شناسی ادبی، نقطه ضعف جدیدی برای چت‌بات‌ها محسوب می‌شود. در این آزمایش گسترده، محبوب‌ترین مدل‌های هوش مصنوعی جهان، از جمله مدل‌های GPT شرکت OpenAI، جمنای گوگل و کلود آنتروپیک، به همراه چندین مدل دیگر مورد بررسی قرار گرفتند. نتایج این پژوهش نشان داد که میزان آسیب‌پذیری در میان این مدل‌ها متفاوت است:

آسیب‌پذیرترین مدل‌ها: جمنای گوگل، دیپ‌سیک و Mistral AI به طور مداوم به درخواست‌های شاعرانه مخرب پاسخ دادند.

مقاوم‌ترین مدل‌ها: مدل‌های GPT-5 شرکت OpenAI و کلود هایکو ۴/۵ آنتروپیک کمترین احتمال را برای عبور از محدودیت‌های خود نشان دادند.

پژوهشگران برای جلوگیری از سوءاستفاده احتمالی، از انتشار اشعار دقیقی که در این جیلبریک‌ها استفاده شده، خودداری کرده‌اند. آن‌ها به مجله وایرد اعلام کرده‌اند که این ابیات برای به اشتراک گذاشتن با عموم بیش از حد خطرناک هستند و تاکید کردند که این فرآیند احتمالاً بسیار آسان‌تر از آن چیزی است که تصور می‌شود، و همین موضوع دلیل اصلی احتیاط آن‌هاست.

پیامدهای امنیتی جیلبریک هوش مصنوعی و آینده ایمنی چت‌بات‌ها

این یافته‌ها زنگ هشداری جدی برای تمامی ذینفعان صنعت هوش مصنوعی است. هرچند پیشرفت‌های چشمگیری در ایجاد حفاظ‌های ایمنی و مکانیزم‌های تعدیل‌کننده برای مدل‌های زبان بزرگ حاصل شده است، اما این مطالعه به وضوح نشان می‌دهد که سیستم‌های هوش مصنوعی همچنان در برابر روش‌های خلاقانه و غیرمنتظره آسیب‌پذیرند. توسعه‌دهندگان چت‌بات‌های هوش مصنوعی باید نه تنها بر شناسایی الگوهای مستقیم محتوای مخرب تمرکز کنند، بلکه نیاز به بررسی عمیق‌تر و جامع‌تر زبان، از جمله فرم‌های ادبی و هنری، برای شناسایی نیات پنهان دارند. این چالش جدید، اهمیت رویکردهای چندرشته‌ای در تضمین امنیت هوش مصنوعی و لزوم سرمایه‌گذاری بیشتر در تحقیقات امنیتی هوش مصنوعی را بیش از پیش آشکار می‌سازد تا از پیامدهای بالقوه خطرناک این آسیب‌پذیری جلوگیری شود.

پایگاه خبری مجتمع نوآوری فرداد

مطالب مرتبط

ماهان زند

من فارغ‌التحصیل رشته مهندسی کامپیوتر هستم و از دوران نوجوانی به دنیای فناوری علاقه‌مند بودم. فعالیت حرفه‌ای خودم را از سال ۱۳۹۷ با نوشتن مقاله‌های نقد و بررسی گجت‌های هوشمند در یک وبلاگ شخصی آغاز کردم. پس از کسب تجربه، به عنوان نویسنده و تحلیل‌گر در نشریات مختلف فعالیت کردم و در حال حاضر، به عنوان دبیر بخش فناوری‌های نو در یک مجله معتبر تکنولوژی مشغول به کار هستم. تلاش من این است که آخرین اخبار و پیشرفت‌های دنیای فناوری را به زبانی ساده و کاربردی برای مخاطبان ارائه دهم.

شعر، راهی غیرمنتظره برای جیلبریک هوش مصنوعی: آسیب‌پذیری جدید چت‌بات‌ها کشف شد

آسیب‌پذیری چت‌بات‌های هوش مصنوعی: شکستن حفاظ‌های ایمنی با واژگان شاعرانه

مکانیسم جیلبریک هوش مصنوعی با شعر و نتایج خیره‌کننده

پیامدهای امنیتی جیلبریک هوش مصنوعی و آینده ایمنی چت‌بات‌ها

مطالب مرتبط

دیدگاهتان را بنویسید لغو پاسخ

پایان رسمی یک دوران؛ اپل پشتیبانی از آیفون SE نسل اول را رسماً متوقف کرد

موتورولا اج ۷۰ سواروسکی با ۱۴ کریستال در طراحی لوکس خود، بازار گوشی‌های هوشمند را هدف قرار می‌دهد

آپدیت انقلابی iOS 26.1 با تمرکز بی‌سابقه بر عمر باتری منتشر شد

تغییر بزرگ در اکوسیستم گوگل: جمینای به طور کامل جایگزین گوگل اسیستنت در دستگاه‌های گلکسی می‌شود

جزئیات جدید از معماری RDNA 5 فاش شد؛ AMD برای نبرد با سری قدرتمند 80 انویدیا آماده می‌شود

دانشمندان با توسعه تراشه فوتونیک کوانتومی نوین، گامی بلند در مسیر محاسبات کوانتومی برداشتند

اینتل با چیپ گرافیکی BMG-G31، بازار را با چهار نسخه حرفه‌ای و مصرفی هدف قرار می‌دهد

AMD با وعده پشتیبانی پایدار از نسل‌های RDNA 1 و RDNA 2، وفاداری کاربران خود را تضمین می‌کند

سامسونگ از لپتاپ‌های پرچم‌دار Galaxy Book6 Pro با تراشه‌های قدرتمند Panther Lake اینتل رونمایی کرد

رایانه کوانتومی گوگل فصل تازه‌ای در کشف فازهای ناشناخته ماده گشود

مکس‌سان از ورک‌استیشن هوش مصنوعی با ۱۹۲ گیگابایت حافظه گرافیکی و طراحی ویژه پرده‌برداری کرد

انویدیا Project G‑Assist را به لپ‌تاپ‌ها آورد؛ دستیار هوشمند برای تنظیمات گیمینگ و بهینه‌سازی خودکار

هوش مصنوعی :

عصر جدید خلاقیت: گوگل قابلیت حاشیه‌نویسی مستقیم تصاویر جمینای را فعال می‌کند

تهران پیشتاز میزبانی از نخستین نمایشگاه بین‌المللی هوش مصنوعی ایران