در یک کشف خیرهکننده که میتواند چالشهای امنیتی بزرگی را برای صنعت هوش مصنوعی به همراه داشته باشد، پژوهشگران آزمایشگاه «ایکارو» (Icarus Lab) نشان دادهاند که پیشرفتهترین مدلهای زبان بزرگ (LLM) و چتباتهای هوش مصنوعی، در برابر درخواستهای مخرب ارائهشده در قالب شعر آسیبپذیر هستند. این روش که به "جیلبریک هوش مصنوعی با شعر" شهرت یافته است، راهی غیرمنتظره برای دور زدن مکانیزمهای ایمنی این سیستمها را آشکار میکند و زنگ خطری جدی برای توسعهدهندگان هوش مصنوعی به صدا درآورده است.

آسیبپذیری چتباتهای هوش مصنوعی: شکستن حفاظهای ایمنی با واژگان شاعرانه
جیلبریک هوش مصنوعی به فرآیندی گفته میشود که طی آن محدودیتها و مکانیزمهای ایمنی تعبیهشده در مدلهای زبان بزرگ دور زده میشوند تا چتباتها محتوایی را تولید کنند که معمولاً از ارائه آن منع شدهاند. مطالعه جدید آزمایشگاه ایکارو با عنوان «شعر خصمانه بهعنوان مکانیزم جیلبریک جهانی تکنوبتی در مدلهای زبان بزرگ»، فاش کرده است که فرم شاعرانه میتواند بهعنوان یک عامل همهمنظوره برای این نوع جیلبریک عمل کند. محققان با استفاده از این روش، موفق شدند با نرخ موفقیت کلی ۶۲ درصد، مدلهای زبان بزرگ را وادار به تولید محتوای ممنوعه کنند. این محتوا شامل اطلاعاتی در مورد ساخت سلاحهای هستهای، مطالب مرتبط با سوءاستفاده جنسی از کودکان و راهنمایی برای خودکشی یا خودآزاری بوده که ماهیت حساس و خطرناک این آسیبپذیری هوش مصنوعی را برجسته میکند.
مکانیسم جیلبریک هوش مصنوعی با شعر و نتایج خیرهکننده
تأثیرگذاری شعر در جیلبریک هوش مصنوعی، بیش از آنکه به پیچیدگی زبانی آن مربوط باشد، احتمالاً به ماهیت غیرمستقیم و ابهامآفرین این قالب بازمیگردد. مدلهای هوش مصنوعی برای درک الگوهای زبانی مستقیم و شناسایی کلمات کلیدی مخرب آموزش دیدهاند، اما شعر با استفاده از استعارهها، کنایهها و ساختارهای غیرخطی، میتواند نیت واقعی کاربر را پوشش دهد و سیستمهای حفاظتی را فریب دهد. این توانایی پنهانسازی دستورالعملهای مخرب در پشت زیباییشناسی ادبی، نقطه ضعف جدیدی برای چتباتها محسوب میشود. در این آزمایش گسترده، محبوبترین مدلهای هوش مصنوعی جهان، از جمله مدلهای GPT شرکت OpenAI، جمنای گوگل و کلود آنتروپیک، به همراه چندین مدل دیگر مورد بررسی قرار گرفتند. نتایج این پژوهش نشان داد که میزان آسیبپذیری در میان این مدلها متفاوت است:
آسیبپذیرترین مدلها: جمنای گوگل، دیپسیک و Mistral AI به طور مداوم به درخواستهای شاعرانه مخرب پاسخ دادند.
مقاومترین مدلها: مدلهای GPT-5 شرکت OpenAI و کلود هایکو ۴/۵ آنتروپیک کمترین احتمال را برای عبور از محدودیتهای خود نشان دادند.
پژوهشگران برای جلوگیری از سوءاستفاده احتمالی، از انتشار اشعار دقیقی که در این جیلبریکها استفاده شده، خودداری کردهاند. آنها به مجله وایرد اعلام کردهاند که این ابیات برای به اشتراک گذاشتن با عموم بیش از حد خطرناک هستند و تاکید کردند که این فرآیند احتمالاً بسیار آسانتر از آن چیزی است که تصور میشود، و همین موضوع دلیل اصلی احتیاط آنهاست.
پیامدهای امنیتی جیلبریک هوش مصنوعی و آینده ایمنی چتباتها
این یافتهها زنگ هشداری جدی برای تمامی ذینفعان صنعت هوش مصنوعی است. هرچند پیشرفتهای چشمگیری در ایجاد حفاظهای ایمنی و مکانیزمهای تعدیلکننده برای مدلهای زبان بزرگ حاصل شده است، اما این مطالعه به وضوح نشان میدهد که سیستمهای هوش مصنوعی همچنان در برابر روشهای خلاقانه و غیرمنتظره آسیبپذیرند. توسعهدهندگان چتباتهای هوش مصنوعی باید نه تنها بر شناسایی الگوهای مستقیم محتوای مخرب تمرکز کنند، بلکه نیاز به بررسی عمیقتر و جامعتر زبان، از جمله فرمهای ادبی و هنری، برای شناسایی نیات پنهان دارند. این چالش جدید، اهمیت رویکردهای چندرشتهای در تضمین امنیت هوش مصنوعی و لزوم سرمایهگذاری بیشتر در تحقیقات امنیتی هوش مصنوعی را بیش از پیش آشکار میسازد تا از پیامدهای بالقوه خطرناک این آسیبپذیری جلوگیری شود.
پایگاه خبری مجتمع نوآوری فرداد
مطالب مرتبط
- دانشگاه MIT گزارش داد هوش مصنوعی عاملمحور ظرفیت جایگزینی ۱۱ درصد از نیروی کار آمریکا را دارد
- مدل مالی OpenAI: چشماندازی نگرانکننده برای آینده هوش مصنوعی و اقتصاد جهانی
- هوش مصنوعی، استراتژی جدید ایسوس برای شخصیسازی خرید لباس مشتریان و مقابله با افت فروش
- هوش مصنوعی نسل آلفا را از کیبورد بینیاز میکند: پیشبینی یک دگرگونی عظیم
ماهان زند
من فارغالتحصیل رشته مهندسی کامپیوتر هستم و از دوران نوجوانی به دنیای فناوری علاقهمند بودم. فعالیت حرفهای خودم را از سال ۱۳۹۷ با نوشتن مقالههای نقد و بررسی گجتهای هوشمند در یک وبلاگ شخصی آغاز کردم. پس از کسب تجربه، به عنوان نویسنده و تحلیلگر در نشریات مختلف فعالیت کردم و در حال حاضر، به عنوان دبیر بخش فناوریهای نو در یک مجله معتبر تکنولوژی مشغول به کار هستم. تلاش من این است که آخرین اخبار و پیشرفتهای دنیای فناوری را به زبانی ساده و کاربردی برای مخاطبان ارائه دهم.