آیا GPT-4 احمقانه تر می شود؟ ممکن است بالاخره مدرکی داشته باشیم
همانطور که GPT-4 در هنگام پرتاب چشمگیر بود، برخی از ناظران متوجه شدند که دقت و قدرت خود را از دست داده است. این مشاهدات ماه ها به صورت آنلاین از جمله در انجمن های OpenAI ارسال شده است.
این احساسات مدتی است که وجود داشته است، اما اکنون ممکن است بالاخره مدرکی داشته باشیم. مطالعه ای که با همکاری دانشگاه استنفورد و دانشگاه کالیفرنیا، برکلی انجام شد، نشان می دهد که GPT-4 مهارت های پاسخگویی خود را بهبود نداده است، اما در واقع با به روز رسانی های بیشتر در مدل زبان بدتر شده است.
این مطالعه با نام چگونه رفتار ChatGPT در طول زمان تغییر می کند؟، توانایی بین GPT-4 و نسخه قبلی زبان GPT-3.5 را بین ماه مارس و ژوئن آزمایش کرد. محققان با آزمایش هر دو نسخه از مدل با مجموعه داده ای از 500 مشکل، خاطرنشان کردند که GPT-4 دارای نرخ دقت 97.6٪ در ماه مارس با 488 پاسخ صحیح و نرخ دقت 2.4٪ در ماه ژوئن پس از اینکه GPT-4 تحت برخی به روز رسانی ها قرار گرفت، داشت. این مدل ماه ها بعد تنها 12 پاسخ صحیح داد.
آزمایش دیگری که توسط محققان مورد استفاده قرار میگیرد، تکنیک زنجیره فکر است که در آن از GPT-4 سؤال میکنند آیا 17077 عدد اول است؟ موضوع استدلال. به گفته محققان، GPT-4 نه تنها به اشتباه پاسخ «نه» داد، بلکه توضیحی درباره نحوه رسیدن به این نتیجه نیز ارائه نکرد.
این مطالعه تنها شش روز پس از آن انجام شد که یکی از مدیران OpenAI تلاش کرد تا سوء ظن را مبنی بر اینکه GPT-4 واقعاً احمقانه میشود برطرف کند. این توییت زیر نشان می دهد که کاهش کیفیت پاسخ یک پدیده روانشناختی استفاده کننده سنگین است.
به طور خاص، GPT-4 در حال حاضر برای توسعه دهندگان یا اعضای پولی از طریق ChatGPT Plus در دسترس است. پرسیدن همان سؤال GPT-3.5 از طریق پیشنمایش تحقیق رایگان ChatGPT، همانطور که من انجام دادم، نه تنها پاسخ صحیح را به شما میدهد، بلکه توضیح مفصلی در مورد فرآیند ریاضی نیز ارائه میدهد.
علاوه بر این، تولید کد از توسعهدهندگان LeetCode رنج میبرد که عملکرد GPT-4 در مجموعه دادههای 50 مشکل آسان خود را از دقت 52 درصد به دقت 10 درصد بین مارس و ژوئن کاهش دادند.
هنگامی که GPT-4 برای اولین بار معرفی شد، OpenAI استفاده از ابررایانه های Microsoft Azure AI را برای آموزش مدل زبان به مدت شش ماه توصیف کرد و ادعا کرد که نتیجه آن 40 درصد احتمال بیشتری برای تولید “اطلاعات مورد نظر از درخواست های کاربر” است.
با این حال، مفسر در توییتر، @svpino اشاره کرد که شایعاتی وجود دارد مبنی بر اینکه OpenAI ممکن است از “مدل های کوچکتر و تخصصی GPT-4 استفاده کند که شبیه به یک مدل بزرگ عمل می کنند اما برای اجرا ارزان تر هستند.”
این گزینه ارزانتر و سریعتر میتواند منجر به افت کیفیت پاسخهای GPT-4 در زمانی بحرانی شود که شرکت مادر سازمانهای بزرگ دیگری را بسته به فناوری همکاری خود دارد.
ChatGPT، بر اساس GPT-3.5 LLM، قبلاً به دلیل چالش های اطلاعاتی خود مانند دانش محدود از رویدادهای جهان پس از سال 2021 شناخته شده بود که می تواند باعث شود شکاف ها با داده های نادرست پر شود. با این حال، به نظر می رسد رگرسیون اطلاعات یک مشکل کاملاً جدید است که قبلاً در این سرویس دیده نشده است. کاربران مشتاقانه منتظر به روز رسانی برای رسیدگی به مشکلات پذیرفته شده بودند.
مدیر عامل OpenAI، سام آلتمن اخیرا بیان شده است ناامیدی او در توییتی پس از اینکه کمیسیون تجارت فدرال تحقیقاتی را در مورد اینکه آیا ChatGPT قوانین حمایت از مصرف کننده را نقض کرده است آغاز کرد.
“ما در مورد محدودیت های فناوری خود شفاف هستیم، به خصوص زمانی که شکست می خوریم. و ساختار سود محدود ما به این معنی است که ما انگیزه ای برای کسب سود نامحدود نداریم.»
توصیه های سردبیران