هوش مصنوعی گوگل به تازگی گوش دارد
چت رباتهای هوش مصنوعی اکنون میتوانند جهان را از طریق تصاویر و ویدیو «دیدن» کنند. اما اکنون گوگل قابلیت صوتی به گفتار را به عنوان بخشی از آخرین به روز رسانی Gemini Pro خود اعلام کرده است. در Gemini 1.5 Pro، چت بات اکنون می تواند فایل های صوتی آپلود شده در سیستم خود را “شنود” کند و سپس اطلاعات متنی را استخراج کند.
این شرکت این نسخه LLM را به صورت پیش نمایش عمومی در پلتفرم توسعه Vertex AI خود در دسترس قرار داده است. این به بیشتر کاربران سازمانی اجازه میدهد تا پس از عرضه خصوصیتر در فوریه، زمانی که این مدل برای اولین بار معرفی شد، این ویژگی را آزمایش کرده و پایه آن را گسترش دهند. در ابتدا، این فقط برای گروه محدودی از توسعه دهندگان و مشتریان سازمانی در دسترس است.
1. شکستن + درک یک ویدیوی طولانی
من کل مسابقه دانک NBA را از دیشب آپلود کردم و پرسیدم کدام دانک بالاترین امتیاز را دارد.
Gemini 1.5 به طرز شگفتانگیزی توانست 50 دانک و جزئیات عالی را فقط از درک ویدیویی متنی طولانی خود بیابد! pic.twitter.com/01iUfqfiAO
— روآن چونگ (@rowancheung) 18 فوریه 2024
گوگل در کنفرانس Cloud Next خود که در حال حاضر در لاس وگاس در حال برگزاری است، جزئیات مربوط به بهروزرسانی را به اشتراک گذاشت. گوگل پس از نامیدن Gemini Ultra LLM که قدرت چت ربات پیشرفته Gemini آن را قدرتمندترین مدل در خانواده جمینی خود دارد، اکنون Gemini 1.5 Pro را تواناترین مدل تولیدی خود می نامد. این شرکت اضافه کرد که این نسخه در آموزش بدون تنظیم مدل اضافی بهتر است.
Gemini 1.5 Pro چندوجهی است که می تواند انواع مختلف صدا را به متن تفسیر کند، از جمله پخش تلویزیونی، فیلم، پخش رادیویی و ضبط تماس کنفرانسی. این حتی چند زبانه است زیرا می تواند صدا را به چندین زبان مختلف مدیریت کند. LLM همچنین ممکن است قادر به ایجاد رونوشت از فیلم ها باشد. اما همانطور که TechCrunch اشاره می کند کیفیت آن می تواند غیر قابل اعتماد باشد.
هنگامی که برای اولین بار اعلام شد، گوگل توضیح داد که Gemini 1.5 Pro از یک سیستم توکن برای پردازش داده های خام استفاده می کند. یک میلیون توکن تقریبا معادل 700000 کلمه یا 30000 خط کد است. در قالب رسانه، این معادل یک ساعت ویدیو یا حدود 11 ساعت صدا است.
برخی از نسخههای نمایشی پیشنمایش خصوصی Gemini 1.5 Pro وجود دارد که نشان میدهد چگونه LLM میتواند لحظات خاصی را در یک متن ویدیویی پیدا کند. مثلا، روآن چونگ، علاقهمند به هوش مصنوعی دسترسی زودهنگام دریافت کرد و توضیح داد که چگونه نسخه ی نمایشی آن یک عکس اکشن دقیق در یک مسابقه ورزشی پیدا کرد و رویداد را خلاصه کرد، همانطور که در توییت تعبیه شده در بالا مشاهده می شود.
با این حال، گوگل اشاره کرد که سایر پذیرندگان اولیه، از جمله United Wholesale Mortgage، TBS و Replit، موارد استفاده بیشتر متمرکز بر سازمان مانند تعهد وام مسکن، خودکارسازی برچسبگذاری ابرداده، و تولید، توضیح و بهروزرسانی کد را انتخاب میکنند.
توصیه های سردبیران