محققان به تازگی ChatGPT | را باز کرده اند گرایش های دیجیتال
محققان کشف کردهاند که میتوان مکانیسمی را که در چت رباتهای هوش مصنوعی تعبیه شده دور زد تا بتوانند با استفاده از یک چت ربات هوش مصنوعی به عنوان بخشی از فرآیند آموزش، به سؤالات مربوط به موضوعات ممنوعه یا حساس پاسخ دهند.
تیمی از دانشمندان کامپیوتر از دانشگاه فناوری نانیانگ (NTU) در سنگاپور به طور غیررسمی این روش را “جیل بریک” می نامند، اما به طور رسمی تر، این یک فرآیند “Masterkey” است. این سیستم رباتهای چت شامل ChatGPT، Google Bard و Microsoft Bing Chat را در یک روش آموزشی دو قسمتی در برابر یکدیگر قرار میدهد که به دو ربات چت اجازه میدهد الگوهای یکدیگر را یاد بگیرند و هر دستوری را در برابر موضوعات ممنوعه منحرف کنند.
این تیم شامل پروفسور لیو یانگ و Ph.D. از NTU دانشآموزان آقای دنگ گلی و لیو یی که در این تحقیق مشارکت داشتند و روشهای حمله اثبات مفهومی را توسعه دادند که اساساً مانند هک بازیگر بد عمل میکنند.
به گفته این تیم، آنها ابتدا یک مدل زبان بزرگ (LLM) طراحی کردند تا مکانیسم های دفاعی آن را آشکار کنند. در ابتدا، آنها بلوکهای مدل بودند و اجازه نمیدادند که پاسخها به برخی اعلانها یا کلمات بهدلیل نیت خشونتآمیز، غیراخلاقی یا بدخواهانه به عنوان پاسخ منتقل شوند.
اما با این اطلاعات مهندسی معکوس، آنها می توانند به یک LLM مختلف نحوه ایجاد یک بای پس را آموزش دهند. با بای پس ایجاد شده، مدل دوم قادر خواهد بود با مهندسی معکوس مدل اول، خود را آزادتر بر اساس LLM بیان کند. تیم این فرآیند را “Masterkey” نامیده است زیرا حتی اگر چت رباتهای LLM با امنیت بیشتری افزایش یابند یا در آینده وصله شوند، باید کار کند.
فرآیند Masterkey ادعا می کند که سه برابر بهتر از دستورات در جیلبریک کردن چت بات ها است.
پروفسور لوئیس یانگ خاطرنشان کرد که ماهیت این فرآیند این است که نشان می دهد چت ربات های هوش مصنوعی LLM چگونه به راحتی می توانند یاد بگیرند و سازگار شوند. این تیم ادعا می کند که فرآیند Masterkey آن سه برابر موفق تر از یک فرآیند سریع سنتی در جیلبریک کردن چت ربات های LLM بوده است. به طور مشابه، برخی از کارشناسان استدلال می کنند که مشکلات اخیر پیشنهاد شده که برخی از LLM ها، مانند GPT-4، با آن مواجه هستند، نشانه هایی از پیشرفته تر شدن آنها است، نه احمقانه و تنبل تر، همانطور که برخی از منتقدان ادعا می کنند.
از آنجایی که چت رباتهای هوش مصنوعی در اواخر سال 2022 با معرفی ChatGPT OpenAI محبوب شدند، فشار زیادی برای اطمینان از ایمن بودن سرویسهای مختلف برای استفاده همگان انجام شد. OpenAI در هنگام ثبت نام و به روز رسانی های پراکنده هشدارهای ایمنی را روی محصول ChatGPT خود قرار داده است و در مورد خطاهای زبانی ناخواسته هشدار می دهد. در همین حال، اسپینآفهای مختلف چت بات در اجازه دادن به توهین و زبان توهینآمیز تا حدی خوب ثابت شدهاند.
علاوه بر این، بازیگران بد واقعی به سرعت شروع به استفاده از جستجوی ChatGPT، Google Bard و دیگر چتباتها کردند، قبل از اینکه به طور گسترده در دسترس قرار گیرند. بسیاری از کمپینها محصولات را در رسانههای اجتماعی با بدافزار متصل به پیوندهای تصویر، در میان حملات دیگر، تبلیغ کردند. به سرعت نشان داد که هوش مصنوعی مرز بعدی در جرایم سایبری است.
تیم تحقیقاتی NTU با ارائه دهندگان خدمات چت بات هوش مصنوعی درگیر در این مطالعه در مورد داده های اثبات مفهومی که نشان می دهد فرار از زندان چت بات واقعی است، تماس گرفت. این تیم همچنین یافته های خود را در سمپوزیوم امنیت شبکه و سیستم های توزیع شده در سن دیگو در ماه فوریه ارائه خواهد کرد.
توصیه های سردبیران