هوش مصنوعی گوگل به تازگی گوش دارد

2024-04-10

0 2 دقیقه قبل خوانده شده

گوگل

چت ربات‌های هوش مصنوعی اکنون می‌توانند جهان را از طریق تصاویر و ویدیو «دیدن» کنند. اما اکنون گوگل قابلیت صوتی به گفتار را به عنوان بخشی از آخرین به روز رسانی Gemini Pro خود اعلام کرده است. در Gemini 1.5 Pro، چت بات اکنون می تواند فایل های صوتی آپلود شده در سیستم خود را “شنود” کند و سپس اطلاعات متنی را استخراج کند.

این شرکت این نسخه LLM را به صورت پیش نمایش عمومی در پلتفرم توسعه Vertex AI خود در دسترس قرار داده است. این به بیشتر کاربران سازمانی اجازه می‌دهد تا پس از عرضه خصوصی‌تر در فوریه، زمانی که این مدل برای اولین بار معرفی شد، این ویژگی را آزمایش کرده و پایه آن را گسترش دهند. در ابتدا، این فقط برای گروه محدودی از توسعه دهندگان و مشتریان سازمانی در دسترس است.

1. شکستن + درک یک ویدیوی طولانی

من کل مسابقه دانک NBA را از دیشب آپلود کردم و پرسیدم کدام دانک بالاترین امتیاز را دارد.

Gemini 1.5 به طرز شگفت‌انگیزی توانست 50 دانک و جزئیات عالی را فقط از درک ویدیویی متنی طولانی خود بیابد! pic.twitter.com/01iUfqfiAO

— روآن چونگ (@rowancheung) 18 فوریه 2024

گوگل در کنفرانس Cloud Next خود که در حال حاضر در لاس وگاس در حال برگزاری است، جزئیات مربوط به به‌روزرسانی را به اشتراک گذاشت. گوگل پس از نامیدن Gemini Ultra LLM که قدرت چت ربات پیشرفته Gemini آن را قدرتمندترین مدل در خانواده جمینی خود دارد، اکنون Gemini 1.5 Pro را تواناترین مدل تولیدی خود می نامد. این شرکت اضافه کرد که این نسخه در آموزش بدون تنظیم مدل اضافی بهتر است.

مطلب پیشنهادی: معامله لپ تاپ بازی Alienware قیمت را بیش از 1000 دلار کاهش داد

Gemini 1.5 Pro چندوجهی است که می تواند انواع مختلف صدا را به متن تفسیر کند، از جمله پخش تلویزیونی، فیلم، پخش رادیویی و ضبط تماس کنفرانسی. این حتی چند زبانه است زیرا می تواند صدا را به چندین زبان مختلف مدیریت کند. LLM همچنین ممکن است قادر به ایجاد رونوشت از فیلم ها باشد. اما همانطور که TechCrunch اشاره می کند کیفیت آن می تواند غیر قابل اعتماد باشد.

هنگامی که برای اولین بار اعلام شد، گوگل توضیح داد که Gemini 1.5 Pro از یک سیستم توکن برای پردازش داده های خام استفاده می کند. یک میلیون توکن تقریبا معادل 700000 کلمه یا 30000 خط کد است. در قالب رسانه، این معادل یک ساعت ویدیو یا حدود 11 ساعت صدا است.

برخی از نسخه‌های نمایشی پیش‌نمایش خصوصی Gemini 1.5 Pro وجود دارد که نشان می‌دهد چگونه LLM می‌تواند لحظات خاصی را در یک متن ویدیویی پیدا کند. مثلا، روآن چونگ، علاقه‌مند به هوش مصنوعی دسترسی زودهنگام دریافت کرد و توضیح داد که چگونه نسخه ی نمایشی آن یک عکس اکشن دقیق در یک مسابقه ورزشی پیدا کرد و رویداد را خلاصه کرد، همانطور که در توییت تعبیه شده در بالا مشاهده می شود.

با این حال، گوگل اشاره کرد که سایر پذیرندگان اولیه، از جمله United Wholesale Mortgage، TBS و Replit، موارد استفاده بیشتر متمرکز بر سازمان مانند تعهد وام مسکن، خودکارسازی برچسب‌گذاری ابرداده، و تولید، توضیح و به‌روزرسانی کد را انتخاب می‌کنند.

توصیه های سردبیران

2024-04-10

0 2 دقیقه قبل خوانده شده

هوش مصنوعی گوگل به تازگی گوش دارد

دیدگاهتان را بنویسید لغو پاسخ

قالب وودمارت

Google Project Gameface مبتنی بر دسترسی را در اندروید راه‌اندازی می‌کند تا ناوبری بدون هندز را ارائه دهد

شرکت‌های هندی تا سال 2027 بیش از 5 میلیارد دلار برای فناوری هوش مصنوعی هزینه خواهند کرد: همه جزئیات

موتورولا Razr، Razr 50 Ultra Design پیش نمایش Surface Online; مشخصات Razr 50 لو رفت: تصاویر را ببینید

دولت در مورد کلاهبرداری های «دستگیری دیجیتالی» هشدار بزرگی صادر می کند – جزئیاتی که باید بدانید

4 ویژگی پیشرفته لپ‌تاپ‌های ویندوزی هنوز نسبت به مک‌بوک‌ها دارند

گوگل چیزی را ارائه کرده است که می تواند بزرگترین محصول سال های اخیر آنها باشد

اپل در حال ارائه یک ویژگی جدید برای کاهش بیماری حرکت برای کاربران آیفون و آیپد است

Samsung Galaxy Z Fold 6 در Geekbench ظاهر می شود. قرار است دوربین های بهتری نسبت به گلکسی اس 24 ارائه دهد

زن ساکن بمبئی به دلیل این کلاهبرداری جدید 54 میلیون روپیه به صورت آنلاین از دست می دهد – تمام جزئیاتی که باید بدانید

نوشته های مشابه

مایکروسافت اعلام کرد پشتیبانی از ویندوز 8.1 در ژانویه 2023 به پایان می رسد

فروش روز جمهوری بزرگ آمازون 2024: بهترین پیشنهادهای لپ تاپ که ممکن است نخواهید از دست بدهید

اینتل ممکن است اولین عکس‌ها را در جنگ نسل بعدی پردازنده‌های گرافیکی انجام دهد

بهترین لوازم جانبی Vision Pro برای افزایش تجربه

دیدگاهتان را بنویسید لغو پاسخ