تکنولوژی

آیا ChatGPT فراتر از کپی پیست سرقت ادبی می کند؟

نگرانی‌های سرقت ادبی زمانی ایجاد می‌شوند که مدل‌های زبان، احتمالاً شامل ChatGPT، مفاهیم را از داده‌های آموزشی بدون ذکر منبع اصلی بازنویسی و استفاده مجدد می‌کنند.

قبل از تکمیل تکلیف ربات چت بعدی، دانش آموزان ممکن است بخواهند کمی به آن فکر کنند. بر اساس یک تیم تحقیقاتی به رهبری دانشگاه پن، که اولین مطالعه را برای بررسی خاص این موضوع انجام داد، مدل‌های زبانی که متن را در پاسخ به درخواست‌های کاربر تولید می‌کنند، محتوا را به روش‌های مختلفی سرقت می‌کنند.

دونگ وان لی، استاد علوم و فناوری اطلاعات در ایالت پن می‌گوید: سرقت ادبی در رنگ‌های مختلف وجود دارد. ما می‌خواستیم ببینیم که آیا مدل‌های زبان نه تنها کپی و پیست می‌کنند، بلکه بدون اینکه متوجه شوند به اشکال پیچیده‌تری از سرقت ادبی متوسل می‌شوند یا خیر.

محققان بر شناسایی سه شکل سرقت ادبی متمرکز شدند: کپی و چسباندن به کلمه یا مستقیم محتوا. بازنویسی یا بازنویسی و تغییر ساختار محتوا بدون ذکر منبع اصلی؛ و ایده، یا استفاده از ایده اصلی از یک متن بدون انتساب مناسب. آنها یک خط لوله خودکار تشخیص سرقت ادبی ساختند و آن را در برابر GPT-2 OpenAI آزمایش کردند زیرا داده های آموزش مدل زبان به صورت آنلاین در دسترس است و به محققان اجازه می دهد متون تولید شده را با 8 میلیون سند مورد استفاده برای پیش آموزش GPT-2 مقایسه کنند.

محققان از 210000 متن تولید شده برای آزمایش سرقت ادبی در مدل‌های زبانی از پیش آموزش‌دیده و مدل‌های زبانی تنظیم‌شده یا مدل‌هایی که بیشتر برای تمرکز بر حوزه‌های موضوعی آموزش دیده‌اند، استفاده کردند. در این مورد، تیم سه مدل زبان را برای تمرکز بر اسناد علمی، مقالات علمی مرتبط با COVID-19 و ادعاهای ثبت اختراع اصلاح کرد. آنها از یک موتور جستجوی متن باز برای بازیابی 10 سند آکادمیک برتر استفاده کردند که شبیه به هر متن تولید شده بود، و الگوریتم همترازی متن موجود را برای تشخیص بهتر نمونه هایی از ایده های کلمه به کلمه، بازنویسی شده و سرقت ادبی اصلاح کردند.

مطلب پیشنهادی:  گران‌ترین چیزی که تا به حال توسط انسان ساخته شده است، یک شگفتی تکنولوژیک است که قیمتی بالغ بر 100 میلیارد دلار دارد

این تیم دریافت که مدل‌های زبان هر سه نوع سرقت ادبی را انجام می‌دهند و هر چه مجموعه داده‌ها و پارامترهای مورد استفاده برای آموزش مدل بزرگ‌تر باشد، سرقت ادبی بیشتر اتفاق می‌افتد. آن‌ها همچنین خاطرنشان کردند که الگوهای زبانی دقیق‌تر، سرقت ادبی را کاهش می‌دهد، اما سرقت ادبی را افزایش می‌دهد. علاوه بر این، آنها نمونه هایی از یک الگوی زبانی را شناسایی کردند که اطلاعات شخصی افراد را از طریق هر سه شکل سرقت ادبی افشا می کرد. محققان یافته های خود را در کنفرانس وب ACM 2023 که از 30 آوریل تا 4 می در آستین، تگزاس برگزار می شود، ارائه خواهند کرد.

جویونگ لی، نویسنده اصلی، دانشجوی دکترا در کالج علوم و فناوری اطلاعات در ایالت پن، می‌گوید: «مردم به دنبال مدل‌های زبانی بزرگ می‌روند، زیرا هر چه مدل بزرگ‌تر شود، احتمال تولید بیشتر افزایش می‌یابد. «در عین حال، آنها اصالت و خلاقیت محتوا را در مجموعه آموزشی تهدید می کنند. این یک یافته مهم است.»

به گفته محققان، این مطالعه نیاز به تحقیقات بیشتر در مورد تولیدکنندگان متن و سؤالات اخلاقی و فلسفی را که آنها مطرح می کنند، برجسته می کند.

تای لی، استادیار علوم کامپیوتر و اطلاعات در دانشگاه، گفت: «در حالی که خروجی ممکن است جذاب باشد و استفاده از مدل‌های زبانی سرگرم‌کننده باشد و برای کارهای خاصی سازنده به نظر برسد، این بدان معنا نیست که آنها کاربردی هستند. از می سی سی پی که کار روی این پروژه را به عنوان دانشجوی فوق دکترا در ایالت پن آغاز کرد. در عمل، ما باید با مسائل اخلاقی و کپی رایتی که تولیدکنندگان متن ایجاد می‌کنند مقابله کنیم.»

مطلب پیشنهادی:  برای اولین بار، هند با مأموریت Aditya-L1 ISRO به سمت خورشید می رود

اگرچه نتایج این مطالعه فقط برای GPT-2 اعمال می‌شود، فرآیند تشخیص سرقت خودکار که توسط محققان ایجاد شده است، می‌تواند برای مدل‌های زبان جدیدتر مانند ChatGPT اعمال شود تا مشخص شود که آیا این مدل‌ها چقدر محتوای آموزشی را سرقت می‌کنند یا خیر. به گفته محققان، با این حال، آزمایش سرقت ادبی به توسعه دهندگان بستگی دارد که داده های آموزشی را در دسترس عموم قرار دهند.

به گفته دانشمندان، مطالعه فعلی می تواند به محققان هوش مصنوعی کمک کند تا در آینده مدل های زبانی قوی، قابل اعتماد و پاسخگو بسازند. در حال حاضر، آنها از مردم می خواهند که در استفاده از تولید کننده های متن مراقب باشند.

جینگوی چن، استادیار علوم و فناوری اطلاعات در ایالت پن، گفت: «محققان و دانشمندان هوش مصنوعی در حال مطالعه چگونگی بهتر و قوی‌تر ساختن مدل‌های زبان هستند، در حالی که بسیاری از افراد در زندگی روزمره خود از مدل‌های زبانی برای کارهای مختلف بهره‌وری استفاده می‌کنند. در حالی که استفاده از الگوهای زبانی مانند موتور جستجو یا سرریز پشته برای اشکال زدایی کد، احتمالاً برای مقاصد دیگر خوب است، زیرا یک الگوی زبان می تواند محتوای سرقت ادبی تولید کند، می تواند عواقب منفی برای کاربر داشته باشد.

دونگ وان لی افزود که نتیجه سرقت ادبی غیرمنتظره نیست.

او گفت: «مانند یک طوطی تصادفی، ما مدل‌های زبانی را آموزش دادیم تا از نوشته‌های انسان تقلید کنند، بدون اینکه به آن‌ها یاد دهیم که چگونه به درستی سرقت ادبی نکنند. “اکنون زمان آن است که به آنها یاد دهیم درست بنویسند، و ما راه زیادی در پیش داریم.” (ANI)

مطلب پیشنهادی:  آینده ارتباطات تلفنی ماهواره ای


نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا