تکنولوژی

ایلان ماسک Grok 1.5 Vision را معرفی کرد: چیست و آیا می‌تواند با GPT-4، Gemini 1.5 Pro رقابت کند.

سرمایه‌گذاری ایلان ماسک، xAI، اخیراً از نسخه بهبودیافته مدل Grok 1.5 خود – Grok 1.5 Vision – رونمایی کرده است. این مدل جدید قابلیت‌های بینایی کامپیوتر را ادغام می‌کند و به آن اجازه می‌دهد محتوای بصری را تفسیر کند و به سؤالات مربوط به تصاویر پاسخ دهد. این توسعه مدت کوتاهی پس از رونمایی OpenAI از مدل GPT-4 خود، که دارای ویژگی‌های بینایی کامپیوتری است، انجام می‌شود.

xAI این ارتقا را از طریق حساب رسمی X خود (توئیتر سابق) اعلام کرد و اطلاعات مربوط به قابلیت های مدل را از طریق یک پست وبلاگ به اشتراک گذاشت. در حالی که ویژگی‌های اصلی Grok 1.5 با این نسخه به‌روز شده سازگار است، قابلیت‌های تجسمی اضافه شده نویدبخش افق‌های جدیدی در نحوه تعامل هوش مصنوعی با دنیای واقعی است.

همچنین بخوانید: اپل با به‌روزرسانی iOS 18 به هوش مصنوعی رونق زیادی می‌دهد: ببینید آیفون شما چه ویژگی‌های هوش مصنوعی می‌تواند داشته باشد

معیار و عملکرد

تست‌های بنچمارک توسط xAI انجام شد و عملکرد Grok 1.5 Vision را در برابر معیارهای مختلف، از جمله بنچمارک اختصاصی RealWorldQA این شرکت، نشان داد. این متریک «درک فضایی دنیای واقعی» مدل را ارزیابی می کند. علاوه بر این، مدل در معیارهای دیگر مانند MMMU و ChartQA مورد ارزیابی قرار گرفت. به طور قابل توجهی، در RealWorldQA، Grok از GPT-4 OpenAI با Vision و Gemini 1.5 Pro گوگل بهتر عمل کرد، اگرچه در تست های دیگر عقب افتاد.

همچنین بخوانید: OpenAI دفتر جدید توکیو را معرفی کرد و کارمند سابق آمازون را برای رهبری فشار هوش مصنوعی استخدام کرد

مطلب پیشنهادی:  با کاهش سلطه جهانی، سهام تسلا در سه ماهه اول 29 درصد سقوط کرد

درک بینایی کامپیوتر

بینایی کامپیوتر یک زمینه هیجان انگیز در علوم کامپیوتر است که بر روی توانمندسازی کامپیوترها، از جمله مدل های هوش مصنوعی، برای شناسایی و تفسیر اشیاء دنیای واقعی از طریق تصاویر و ویدئوها متمرکز است. اساساً هدف آن توانمندسازی ماشین‌هایی با قابلیت‌های بینایی انسان‌مانند است.

چندین شرکت فن‌آوری پیشرو سرمایه‌گذاری هنگفتی را برای توسعه مدل‌های هوش مصنوعی مبتنی بر دید انجام می‌دهند. Gemini 1.5 Pro گوگل و OpenAI GPT-4 with Vision رقبای قابل توجهی در این فضا هستند.

کاربردهای بالقوه بینایی کامپیوتری گسترده و متحول کننده هستند. به عنوان مثال، Healthify، یک پلت فرم هندی ردیابی کالری و تغذیه، اخیراً یک ویژگی به نام “Snap” را ادغام کرده است. در اینجا، کاربران می توانند از مواد غذایی عکس بگیرند و هوش مصنوعی تغییراتی در دستور العمل های سالم تر و رژیم های ورزشی برای جبران کالری دریافتی پیشنهاد می کند. علاوه بر این، بینایی کامپیوتری برای تشخیص پزشکی، وسایل نقلیه خودران و موارد دیگر نویدبخش است.

یک چیز دیگر! ما اکنون در کانال های واتس اپ هستیم! ما را در آنجا دنبال کنید تا هیچ به روز رسانی دنیای فناوری را از دست ندهید. برای دنبال کردن کانال HT Tech WhatsApp، اینجا را کلیک کنید تا اکنون بپیوندید!

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا