آیا ChatGPT فراتر از کپی پیست سرقت ادبی می کند؟
نگرانیهای سرقت ادبی زمانی ایجاد میشوند که مدلهای زبان، احتمالاً شامل ChatGPT، مفاهیم را از دادههای آموزشی بدون ذکر منبع اصلی بازنویسی و استفاده مجدد میکنند.
قبل از تکمیل تکلیف ربات چت بعدی، دانش آموزان ممکن است بخواهند کمی به آن فکر کنند. بر اساس یک تیم تحقیقاتی به رهبری دانشگاه پن، که اولین مطالعه را برای بررسی خاص این موضوع انجام داد، مدلهای زبانی که متن را در پاسخ به درخواستهای کاربر تولید میکنند، محتوا را به روشهای مختلفی سرقت میکنند.
دونگ وان لی، استاد علوم و فناوری اطلاعات در ایالت پن میگوید: سرقت ادبی در رنگهای مختلف وجود دارد. ما میخواستیم ببینیم که آیا مدلهای زبان نه تنها کپی و پیست میکنند، بلکه بدون اینکه متوجه شوند به اشکال پیچیدهتری از سرقت ادبی متوسل میشوند یا خیر.
محققان بر شناسایی سه شکل سرقت ادبی متمرکز شدند: کپی و چسباندن به کلمه یا مستقیم محتوا. بازنویسی یا بازنویسی و تغییر ساختار محتوا بدون ذکر منبع اصلی؛ و ایده، یا استفاده از ایده اصلی از یک متن بدون انتساب مناسب. آنها یک خط لوله خودکار تشخیص سرقت ادبی ساختند و آن را در برابر GPT-2 OpenAI آزمایش کردند زیرا داده های آموزش مدل زبان به صورت آنلاین در دسترس است و به محققان اجازه می دهد متون تولید شده را با 8 میلیون سند مورد استفاده برای پیش آموزش GPT-2 مقایسه کنند.
محققان از 210000 متن تولید شده برای آزمایش سرقت ادبی در مدلهای زبانی از پیش آموزشدیده و مدلهای زبانی تنظیمشده یا مدلهایی که بیشتر برای تمرکز بر حوزههای موضوعی آموزش دیدهاند، استفاده کردند. در این مورد، تیم سه مدل زبان را برای تمرکز بر اسناد علمی، مقالات علمی مرتبط با COVID-19 و ادعاهای ثبت اختراع اصلاح کرد. آنها از یک موتور جستجوی متن باز برای بازیابی 10 سند آکادمیک برتر استفاده کردند که شبیه به هر متن تولید شده بود، و الگوریتم همترازی متن موجود را برای تشخیص بهتر نمونه هایی از ایده های کلمه به کلمه، بازنویسی شده و سرقت ادبی اصلاح کردند.
این تیم دریافت که مدلهای زبان هر سه نوع سرقت ادبی را انجام میدهند و هر چه مجموعه دادهها و پارامترهای مورد استفاده برای آموزش مدل بزرگتر باشد، سرقت ادبی بیشتر اتفاق میافتد. آنها همچنین خاطرنشان کردند که الگوهای زبانی دقیقتر، سرقت ادبی را کاهش میدهد، اما سرقت ادبی را افزایش میدهد. علاوه بر این، آنها نمونه هایی از یک الگوی زبانی را شناسایی کردند که اطلاعات شخصی افراد را از طریق هر سه شکل سرقت ادبی افشا می کرد. محققان یافته های خود را در کنفرانس وب ACM 2023 که از 30 آوریل تا 4 می در آستین، تگزاس برگزار می شود، ارائه خواهند کرد.
جویونگ لی، نویسنده اصلی، دانشجوی دکترا در کالج علوم و فناوری اطلاعات در ایالت پن، میگوید: «مردم به دنبال مدلهای زبانی بزرگ میروند، زیرا هر چه مدل بزرگتر شود، احتمال تولید بیشتر افزایش مییابد. «در عین حال، آنها اصالت و خلاقیت محتوا را در مجموعه آموزشی تهدید می کنند. این یک یافته مهم است.»
به گفته محققان، این مطالعه نیاز به تحقیقات بیشتر در مورد تولیدکنندگان متن و سؤالات اخلاقی و فلسفی را که آنها مطرح می کنند، برجسته می کند.
تای لی، استادیار علوم کامپیوتر و اطلاعات در دانشگاه، گفت: «در حالی که خروجی ممکن است جذاب باشد و استفاده از مدلهای زبانی سرگرمکننده باشد و برای کارهای خاصی سازنده به نظر برسد، این بدان معنا نیست که آنها کاربردی هستند. از می سی سی پی که کار روی این پروژه را به عنوان دانشجوی فوق دکترا در ایالت پن آغاز کرد. در عمل، ما باید با مسائل اخلاقی و کپی رایتی که تولیدکنندگان متن ایجاد میکنند مقابله کنیم.»
اگرچه نتایج این مطالعه فقط برای GPT-2 اعمال میشود، فرآیند تشخیص سرقت خودکار که توسط محققان ایجاد شده است، میتواند برای مدلهای زبان جدیدتر مانند ChatGPT اعمال شود تا مشخص شود که آیا این مدلها چقدر محتوای آموزشی را سرقت میکنند یا خیر. به گفته محققان، با این حال، آزمایش سرقت ادبی به توسعه دهندگان بستگی دارد که داده های آموزشی را در دسترس عموم قرار دهند.
به گفته دانشمندان، مطالعه فعلی می تواند به محققان هوش مصنوعی کمک کند تا در آینده مدل های زبانی قوی، قابل اعتماد و پاسخگو بسازند. در حال حاضر، آنها از مردم می خواهند که در استفاده از تولید کننده های متن مراقب باشند.
جینگوی چن، استادیار علوم و فناوری اطلاعات در ایالت پن، گفت: «محققان و دانشمندان هوش مصنوعی در حال مطالعه چگونگی بهتر و قویتر ساختن مدلهای زبان هستند، در حالی که بسیاری از افراد در زندگی روزمره خود از مدلهای زبانی برای کارهای مختلف بهرهوری استفاده میکنند. در حالی که استفاده از الگوهای زبانی مانند موتور جستجو یا سرریز پشته برای اشکال زدایی کد، احتمالاً برای مقاصد دیگر خوب است، زیرا یک الگوی زبان می تواند محتوای سرقت ادبی تولید کند، می تواند عواقب منفی برای کاربر داشته باشد.
دونگ وان لی افزود که نتیجه سرقت ادبی غیرمنتظره نیست.
او گفت: «مانند یک طوطی تصادفی، ما مدلهای زبانی را آموزش دادیم تا از نوشتههای انسان تقلید کنند، بدون اینکه به آنها یاد دهیم که چگونه به درستی سرقت ادبی نکنند. “اکنون زمان آن است که به آنها یاد دهیم درست بنویسند، و ما راه زیادی در پیش داریم.” (ANI)