هوش مصنوعی گوگل به تازگی گوش دارد

2024-04-10

0 2 دقیقه قبل خوانده شده

گوگل

چت ربات‌های هوش مصنوعی اکنون می‌توانند جهان را از طریق تصاویر و ویدیو «دیدن» کنند. اما اکنون گوگل قابلیت صوتی به گفتار را به عنوان بخشی از آخرین به روز رسانی Gemini Pro خود اعلام کرده است. در Gemini 1.5 Pro، چت بات اکنون می تواند فایل های صوتی آپلود شده در سیستم خود را “شنود” کند و سپس اطلاعات متنی را استخراج کند.

این شرکت این نسخه LLM را به صورت پیش نمایش عمومی در پلتفرم توسعه Vertex AI خود در دسترس قرار داده است. این به بیشتر کاربران سازمانی اجازه می‌دهد تا پس از عرضه خصوصی‌تر در فوریه، زمانی که این مدل برای اولین بار معرفی شد، این ویژگی را آزمایش کرده و پایه آن را گسترش دهند. در ابتدا، این فقط برای گروه محدودی از توسعه دهندگان و مشتریان سازمانی در دسترس است.

1. شکستن + درک یک ویدیوی طولانی

من کل مسابقه دانک NBA را از دیشب آپلود کردم و پرسیدم کدام دانک بالاترین امتیاز را دارد.

Gemini 1.5 به طرز شگفت‌انگیزی توانست 50 دانک و جزئیات عالی را فقط از درک ویدیویی متنی طولانی خود بیابد! pic.twitter.com/01iUfqfiAO

— روآن چونگ (@rowancheung) 18 فوریه 2024

گوگل در کنفرانس Cloud Next خود که در حال حاضر در لاس وگاس در حال برگزاری است، جزئیات مربوط به به‌روزرسانی را به اشتراک گذاشت. گوگل پس از نامیدن Gemini Ultra LLM که قدرت چت ربات پیشرفته Gemini آن را قدرتمندترین مدل در خانواده جمینی خود دارد، اکنون Gemini 1.5 Pro را تواناترین مدل تولیدی خود می نامد. این شرکت اضافه کرد که این نسخه در آموزش بدون تنظیم مدل اضافی بهتر است.

مطلب پیشنهادی: 200 دلار در این مانیتور گیمینگ 32 اینچی 4K سامسونگ صرفه جویی کنید

Gemini 1.5 Pro چندوجهی است که می تواند انواع مختلف صدا را به متن تفسیر کند، از جمله پخش تلویزیونی، فیلم، پخش رادیویی و ضبط تماس کنفرانسی. این حتی چند زبانه است زیرا می تواند صدا را به چندین زبان مختلف مدیریت کند. LLM همچنین ممکن است قادر به ایجاد رونوشت از فیلم ها باشد. اما همانطور که TechCrunch اشاره می کند کیفیت آن می تواند غیر قابل اعتماد باشد.

هنگامی که برای اولین بار اعلام شد، گوگل توضیح داد که Gemini 1.5 Pro از یک سیستم توکن برای پردازش داده های خام استفاده می کند. یک میلیون توکن تقریبا معادل 700000 کلمه یا 30000 خط کد است. در قالب رسانه، این معادل یک ساعت ویدیو یا حدود 11 ساعت صدا است.

برخی از نسخه‌های نمایشی پیش‌نمایش خصوصی Gemini 1.5 Pro وجود دارد که نشان می‌دهد چگونه LLM می‌تواند لحظات خاصی را در یک متن ویدیویی پیدا کند. مثلا، روآن چونگ، علاقه‌مند به هوش مصنوعی دسترسی زودهنگام دریافت کرد و توضیح داد که چگونه نسخه ی نمایشی آن یک عکس اکشن دقیق در یک مسابقه ورزشی پیدا کرد و رویداد را خلاصه کرد، همانطور که در توییت تعبیه شده در بالا مشاهده می شود.

با این حال، گوگل اشاره کرد که سایر پذیرندگان اولیه، از جمله United Wholesale Mortgage، TBS و Replit، موارد استفاده بیشتر متمرکز بر سازمان مانند تعهد وام مسکن، خودکارسازی برچسب‌گذاری ابرداده، و تولید، توضیح و به‌روزرسانی کد را انتخاب می‌کنند.

توصیه های سردبیران