چت ربات هوش مصنوعی مهربان تر و دوستانه تر، کلود 2 که توسط آنتروپیک معرفی شد
این لفاف ها توسط یک ربات چت هوش مصنوعی جدید که روز سه شنبه توسط توسعه دهنده آن Anthropic به عنوان “مفید، بی ضرر و صادقانه” اعلام شد، کشیده شد.
چت بات، کلود 2، دارای مجموعه ای آشنا است. می تواند خلاصه بسازد، کد بنویسد، متن را ترجمه کند، و کارهایی را انجام دهد که برای ژانر نرم افزار اجباری شده اند.
این آخرین نسخه از ارائه AI مولد را می توان از طریق API و از طریق یک رابط وب جدید که عموم می توانند در ایالات متحده و بریتانیا استفاده کنند قابل دسترسی است. قبلاً فقط در صورت تقاضا یا از طریق Slack به عنوان یک برنامه برای مشاغل در دسترس بود.
آنتروپیک در بیانیه ای گفت: “کلود را به عنوان یک همکار دوستانه، مشتاق یا دستیار شخصی در نظر بگیرید که می تواند به زبان طبیعی آموزش داده شود تا در بسیاری از وظایف به شما کمک کند.”
ویل دافیلد، تحلیلگر سیاست در موسسه کاتو، یک اتاق فکر در واشنگتن دی سی، خاطرنشان کرد: «آنتروپیک در تلاش است تا فضای دستیار شخصی را هدف قرار دهد.
او به دیجیتال تو گفت: «در حالی که مایکروسافت میتواند بینگ را به مجموعه بهرهوری خود بیاورد، کلود میخواهد دستیار شخصی مفیدتر از بقیه باشد.
نتایج استدلال بهبود یافته
به گفته آنتروپیک، Claude 2 نسبت به مدل های قبلی در کدنویسی، ریاضی و استدلال بهبود یافته است.
به عنوان مثال، در بخش چند گزینه ای آزمون وکالت، کلود 2 امتیاز 76.5٪ را کسب کرد. مدل های قبلی امتیاز 73.0٪ را کسب کردند.
در امتحانات خواندن و نوشتن GRE برای دانش آموزان متقاضی تحصیلات تکمیلی، کلود 2 بالاتر از صدک 90 را کسب کرد. تا آنجایی که به استدلال کمی مربوط می شود، او به اندازه کاندیداهای متوسط این کار را انجام داد.
در زمینه کدنویسی، Claude 2 در آزمون Codex HumanEval، یک آزمون کدنویسی پایتون، 71.2% امتیاز کسب کرد. این یک پیشرفت قابل توجه نسبت به مدل های قبلی است که امتیاز 56.0٪ را به دست آوردند.
با این حال، آن را تنها کمی بهتر از GSM8K قبلی خود، که مجموعه بزرگی از تکالیف ریاضی مدرسه ابتدایی را پوشش میداد، انجام داد و امتیاز 88.0 درصد را در مقایسه با 85.2 درصد برای Claude 1.3 به دست آورد.
Claude 2 از نظر ارزیابی هایی از جمله Codex HumanEval، GSM8K و MMLU نسبت به مدل های قبلی ما بهبود یافته است. می توانید طیف کامل رتبه بندی ها را در نقشه مدل ما مشاهده کنید: https://t.co/fJ210d9utd pic.twitter.com/LLOuUNfOFV
– Anthropic (@AnthropicAI) 11 جولای 2023
تاخیر دانش
Anthropic کلود را در زمینه دیگری بهبود بخشید: ورودی.
پنجره زمینه کلود 2 می تواند تا 75000 کلمه را مدیریت کند. این بدان معنی است که کلود می تواند صدها صفحه از اسناد فنی یا حتی یک کتاب را هضم کند. در مقایسه، حداکثر ورودی ChatGPT 3000 کلمه است.
آنتروپیک اضافه کرد که کلود اکنون میتواند اسناد طولانیتری نیز بنویسد، از یادداشتها گرفته تا نامهها و داستانها تا چندین هزار کلمه.
مانند ChatGPT، کلود به اینترنت متصل نیست. بر روی دادههایی که در دسامبر 2022 به طور ناگهانی به پایان میرسند آموزش داده شده است. این به آن برتری جزئی نسبت به ChatGPT میدهد، که دادههای آن در حال حاضر در سپتامبر 2021 به پایان میرسد — اما از بینگ و بارد عقبتر است.
گرگ استرلینگ، یکی از بنیانگذاران Near Media، یک وب سایت خبری، تفسیری و تحلیلی، توضیح داد: “با Bing، نتایج جستجوی به روزی را که با Bard دریافت می کنید، دریافت می کنید.”
با این حال، این ممکن است تأثیر محدودی بر Claude 2 داشته باشد. استرلینگ به دیجیتال تو گفت: «بیشتر مردم تفاوت های بزرگی را مشاهده نمی کنند مگر اینکه از همه این برنامه ها در کنار هم استفاده کنند. “تفاوت هایی که مردم می توانند درک کنند بیشتر در رابط های کاربری است.”
آنتروپیک همچنین بهبودهای ایمنی انجام شده در کلود 2 را تبلیغ کرد. توضیح داد که یک “تیم قرمز” داخلی دارد که مدلهای آن را بر اساس مجموعه بزرگی از پیامهای مضر ارزیابی میکند. تست ها خودکار هستند، اما نتایج به طور مرتب به صورت دستی بررسی می شوند. در آخرین ارزیابی خود، Anthropic اشاره کرد که Claude 2 در ارائه پاسخ های بی ضرر دو برابر بهتر از Claude 1.3 بود.
علاوه بر این، مجموعه ای از اصول به نام قانون اساسی در سیستم تعبیه شده است که می تواند پاسخ های خود را بدون نیاز به استفاده از ناظم انسانی تعدیل کند.
کاهش آسیب
Anthropic در تلاش برای محدود کردن آسیب های احتمالی ناشی از نرم افزار هوش مصنوعی مولد خود تنها نیست. راب اندرل، رئیس و تحلیلگر اصلی در گروه Enderle، یک شرکت خدمات مشاوره ای در Bend، Ore، خاطرنشان کرد: همه روی هوش مصنوعی مفیدی کار می کنند که قرار است هیچ آسیبی نداشته باشد، و هدف تقریباً جهانی است.
او به دیجیتال تو گفت: “عملکرد احتمالا بین فروشندگان متفاوت خواهد بود.”
وی خاطرنشان کرد که فروشندگان صنعتی مانند مایکروسافت، انویدیا و IBM از زمانی که وارد این حوزه شدند، ایمنی هوش مصنوعی را جدی گرفته اند. او گفت: «به نظر میرسد برخی استارتآپهای دیگر بیشتر بر روی راهاندازی و راهاندازی چیزی متمرکز هستند تا چیزی که امن و مطمئن باشد.
دافیلد افزود: «من همیشه استفاده از زبان را بیضرر میدانم، زیرا ابزارهای مفید معمولاً میتوانند به نحوی برای آسیب رساندن مورد سوء استفاده قرار گیرند.
تلاش برای به حداقل رساندن آسیب در یک برنامه هوش مصنوعی مولد می تواند به طور بالقوه بر ارزش آن تأثیر بگذارد. با این حال، به نظر نمی رسد که این مورد در مورد کلود 2 باشد. دافیلد گفت: «به نظر می رسد که تا حدی بی فایده نباشد.
غلبه بر سد نویز
Enderle معتقد است که داشتن هوش مصنوعی “صادقانه” کلید اعتبار آن است. او گفت: «داشتن هوش مصنوعی مخرب و غیرصادق برای ما فایده چندانی ندارد. اما اگر به فناوری اعتماد نداریم، نباید از آن استفاده کنیم.»
او ادامه داد: «هوش مصنوعی با سرعت ماشین کار میکند و ما این کار را نمیکنیم، بنابراین آنها میتوانند در مدت زمان کوتاهی آسیبهای بسیار بیشتری از آنچه که ما تحمل کنیم، وارد کنند.»
استرلینگ افزود: “هوش مصنوعی می تواند چیزهایی را ارائه دهد که نادرست اما باورپذیر به نظر می رسند.” اگر مردم به اطلاعات نادرست تکیه کنند، بسیار مشکل ساز است.
او گفت: “هوش مصنوعی همچنین می تواند اطلاعات جانبدارانه یا سمی را در برخی موارد منتشر کند.”
حتی اگر Claude 2 بتواند به وعده خود مبنی بر اینکه یک چت ربات هوش مصنوعی «مفید، بی ضرر و صادق» باشد عمل کند، باید در بازاری که در حال تبدیل شدن به یک بازار بسیار پر سر و صدا می شود، برای جلب توجه خود تلاش کند.
اندرل خاطرنشان کرد: «ما از تعداد چیزهایی که اعلام میشود غرق شدهایم، که بالا رفتن از سر و صدا را سختتر میکند.
استرلینگ افزود: «ChatGPT، Bing و Bard بیشترین سهم را در ذهن دارند و بیشتر مردم دلیل کمی برای استفاده از برنامههای دیگر خواهند دید.
او خاطرنشان کرد که تلاش برای متمایز کردن کلود به عنوان یک هوش مصنوعی “دوستانه” احتمالا برای متمایز کردن آن از سایر بازیگران در بازار کافی نخواهد بود. او گفت: «این یک انتزاع است. کلود باید عملکرد بهتری داشته باشد یا مفیدتر باشد تا پذیرفته شود. مردم هیچ تفاوتی بین آن و رقیب مشهورترش ChatGPT نخواهند دید.”
همانطور که اگر سطوح بالای سر و صدا کافی نبود، آزاردهنده ای برای مقابله با آن وجود دارد. دافیلد خاطرنشان کرد: تحت تاثیر قرار دادن مردم با هر نوع چت بات جدید سخت تر از شش ماه پیش است. “کمی خستگی چت بات در حال ایجاد است.”