ایلان ماسک Grok 1.5 Vision را معرفی کرد: چیست و آیا میتواند با GPT-4، Gemini 1.5 Pro رقابت کند.
سرمایهگذاری ایلان ماسک، xAI، اخیراً از نسخه بهبودیافته مدل Grok 1.5 خود – Grok 1.5 Vision – رونمایی کرده است. این مدل جدید قابلیتهای بینایی کامپیوتر را ادغام میکند و به آن اجازه میدهد محتوای بصری را تفسیر کند و به سؤالات مربوط به تصاویر پاسخ دهد. این توسعه مدت کوتاهی پس از رونمایی OpenAI از مدل GPT-4 خود، که دارای ویژگیهای بینایی کامپیوتری است، انجام میشود.
xAI این ارتقا را از طریق حساب رسمی X خود (توئیتر سابق) اعلام کرد و اطلاعات مربوط به قابلیت های مدل را از طریق یک پست وبلاگ به اشتراک گذاشت. در حالی که ویژگیهای اصلی Grok 1.5 با این نسخه بهروز شده سازگار است، قابلیتهای تجسمی اضافه شده نویدبخش افقهای جدیدی در نحوه تعامل هوش مصنوعی با دنیای واقعی است.
همچنین بخوانید: اپل با بهروزرسانی iOS 18 به هوش مصنوعی رونق زیادی میدهد: ببینید آیفون شما چه ویژگیهای هوش مصنوعی میتواند داشته باشد
معیار و عملکرد
تستهای بنچمارک توسط xAI انجام شد و عملکرد Grok 1.5 Vision را در برابر معیارهای مختلف، از جمله بنچمارک اختصاصی RealWorldQA این شرکت، نشان داد. این متریک «درک فضایی دنیای واقعی» مدل را ارزیابی می کند. علاوه بر این، مدل در معیارهای دیگر مانند MMMU و ChartQA مورد ارزیابی قرار گرفت. به طور قابل توجهی، در RealWorldQA، Grok از GPT-4 OpenAI با Vision و Gemini 1.5 Pro گوگل بهتر عمل کرد، اگرچه در تست های دیگر عقب افتاد.
همچنین بخوانید: OpenAI دفتر جدید توکیو را معرفی کرد و کارمند سابق آمازون را برای رهبری فشار هوش مصنوعی استخدام کرد
درک بینایی کامپیوتر
بینایی کامپیوتر یک زمینه هیجان انگیز در علوم کامپیوتر است که بر روی توانمندسازی کامپیوترها، از جمله مدل های هوش مصنوعی، برای شناسایی و تفسیر اشیاء دنیای واقعی از طریق تصاویر و ویدئوها متمرکز است. اساساً هدف آن توانمندسازی ماشینهایی با قابلیتهای بینایی انسانمانند است.
چندین شرکت فنآوری پیشرو سرمایهگذاری هنگفتی را برای توسعه مدلهای هوش مصنوعی مبتنی بر دید انجام میدهند. Gemini 1.5 Pro گوگل و OpenAI GPT-4 with Vision رقبای قابل توجهی در این فضا هستند.
کاربردهای بالقوه بینایی کامپیوتری گسترده و متحول کننده هستند. به عنوان مثال، Healthify، یک پلت فرم هندی ردیابی کالری و تغذیه، اخیراً یک ویژگی به نام “Snap” را ادغام کرده است. در اینجا، کاربران می توانند از مواد غذایی عکس بگیرند و هوش مصنوعی تغییراتی در دستور العمل های سالم تر و رژیم های ورزشی برای جبران کالری دریافتی پیشنهاد می کند. علاوه بر این، بینایی کامپیوتری برای تشخیص پزشکی، وسایل نقلیه خودران و موارد دیگر نویدبخش است.
یک چیز دیگر! ما اکنون در کانال های واتس اپ هستیم! ما را در آنجا دنبال کنید تا هیچ به روز رسانی دنیای فناوری را از دست ندهید. برای دنبال کردن کانال HT Tech WhatsApp، اینجا را کلیک کنید تا اکنون بپیوندید!