آیا GPT-4 احمقانه تر می شود؟ ممکن است بالاخره مدرکی داشته باشیم

2023-07-20

0 3 دقیقه قبل خوانده شده

همانطور که GPT-4 در هنگام پرتاب چشمگیر بود، برخی از ناظران متوجه شدند که دقت و قدرت خود را از دست داده است. این مشاهدات ماه ها به صورت آنلاین از جمله در انجمن های OpenAI ارسال شده است.

این احساسات مدتی است که وجود داشته است، اما اکنون ممکن است بالاخره مدرکی داشته باشیم. مطالعه ای که با همکاری دانشگاه استنفورد و دانشگاه کالیفرنیا، برکلی انجام شد، نشان می دهد که GPT-4 مهارت های پاسخگویی خود را بهبود نداده است، اما در واقع با به روز رسانی های بیشتر در مدل زبان بدتر شده است.

GPT-4 با گذشت زمان کاهش می یابد، بهبود نمی یابد.

بسیاری از مردم گزارش کرده اند که کاهش قابل توجهی در کیفیت پاسخ های مدل مشاهده کرده اند، اما تا کنون همه اینها حکایتی بوده است.

اما اکنون می دانیم.

حداقل یک مطالعه نشان می دهد که چگونه نسخه ژوئن GPT-4 به طور عینی بدتر از… pic.twitter.com/whhELYY6M4

– سانتیاگو (@svpino) 19 جولای 2023

این مطالعه با نام چگونه رفتار ChatGPT در طول زمان تغییر می کند؟، توانایی بین GPT-4 و نسخه قبلی زبان GPT-3.5 را بین ماه مارس و ژوئن آزمایش کرد. محققان با آزمایش هر دو نسخه از مدل با مجموعه داده ای از 500 مشکل، خاطرنشان کردند که GPT-4 دارای نرخ دقت 97.6٪ در ماه مارس با 488 پاسخ صحیح و نرخ دقت 2.4٪ در ماه ژوئن پس از اینکه GPT-4 تحت برخی به روز رسانی ها قرار گرفت، داشت. این مدل ماه ها بعد تنها 12 پاسخ صحیح داد.

آزمایش دیگری که توسط محققان مورد استفاده قرار می‌گیرد، تکنیک زنجیره فکر است که در آن از GPT-4 سؤال می‌کنند آیا 17077 عدد اول است؟ موضوع استدلال. به گفته محققان، GPT-4 نه تنها به اشتباه پاسخ «نه» داد، بلکه توضیحی درباره نحوه رسیدن به این نتیجه نیز ارائه نکرد.

مطلب پیشنهادی: Meta Connect Live Stream: Quest Pro Launch و موارد دیگر

این مطالعه تنها شش روز پس از آن انجام شد که یکی از مدیران OpenAI تلاش کرد تا سوء ظن را مبنی بر اینکه GPT-4 واقعاً احمقانه می‌شود برطرف کند. این توییت زیر نشان می دهد که کاهش کیفیت پاسخ یک پدیده روانشناختی استفاده کننده سنگین است.

نه، ما GPT-4 را گنگ تر نساخته ایم. کاملا برعکس: ما هر نسخه جدید را هوشمندتر از نسخه قبلی می کنیم.

فرضیه فعلی: همانطور که از آن به شدت استفاده می کنید، متوجه مشکلاتی می شوید که قبلاً ندیده اید.

– پیتر ولیندر (@npew) 13 جولای 2023

به طور خاص، GPT-4 در حال حاضر برای توسعه دهندگان یا اعضای پولی از طریق ChatGPT Plus در دسترس است. پرسیدن همان سؤال GPT-3.5 از طریق پیش‌نمایش تحقیق رایگان ChatGPT، همانطور که من انجام دادم، نه تنها پاسخ صحیح را به شما می‌دهد، بلکه توضیح مفصلی در مورد فرآیند ریاضی نیز ارائه می‌دهد.

علاوه بر این، تولید کد از توسعه‌دهندگان LeetCode رنج می‌برد که عملکرد GPT-4 در مجموعه داده‌های 50 مشکل آسان خود را از دقت 52 درصد به دقت 10 درصد بین مارس و ژوئن کاهش دادند.

هنگامی که GPT-4 برای اولین بار معرفی شد، OpenAI استفاده از ابررایانه های Microsoft Azure AI را برای آموزش مدل زبان به مدت شش ماه توصیف کرد و ادعا کرد که نتیجه آن 40 درصد احتمال بیشتری برای تولید “اطلاعات مورد نظر از درخواست های کاربر” است.

با این حال، مفسر در توییتر، @svpino اشاره کرد که شایعاتی وجود دارد مبنی بر اینکه OpenAI ممکن است از “مدل های کوچکتر و تخصصی GPT-4 استفاده کند که شبیه به یک مدل بزرگ عمل می کنند اما برای اجرا ارزان تر هستند.”

مطلب پیشنهادی: این لپ تاپ بازی Alienware 1200 دلار از ردیف سمت راست قیمت دارد

این گزینه ارزان‌تر و سریع‌تر می‌تواند منجر به افت کیفیت پاسخ‌های GPT-4 در زمانی بحرانی شود که شرکت مادر سازمان‌های بزرگ دیگری را بسته به فناوری همکاری خود دارد.

ChatGPT، بر اساس GPT-3.5 LLM، قبلاً به دلیل چالش های اطلاعاتی خود مانند دانش محدود از رویدادهای جهان پس از سال 2021 شناخته شده بود که می تواند باعث شود شکاف ها با داده های نادرست پر شود. با این حال، به نظر می رسد رگرسیون اطلاعات یک مشکل کاملاً جدید است که قبلاً در این سرویس دیده نشده است. کاربران مشتاقانه منتظر به روز رسانی برای رسیدگی به مشکلات پذیرفته شده بودند.

مدیر عامل OpenAI، سام آلتمن اخیرا بیان شده است ناامیدی او در توییتی پس از اینکه کمیسیون تجارت فدرال تحقیقاتی را در مورد اینکه آیا ChatGPT قوانین حمایت از مصرف کننده را نقض کرده است آغاز کرد.

“ما در مورد محدودیت های فناوری خود شفاف هستیم، به خصوص زمانی که شکست می خوریم. و ساختار سود محدود ما به این معنی است که ما انگیزه ای برای کسب سود نامحدود نداریم.»

توصیه های سردبیران