کوالکام می خواهد این ابزارهای هوش مصنوعی دیوانه را به گوشی اندرویدی شما اضافه کند
در کنگره جهانی موبایل 2024، کوالکام ترفندهای هوش مصنوعی بیشتری را به مجموعه ترفندهای هوش مصنوعی خود در تلفن اضافه میکند، که توسط سری سیلیکون اسنپدراگون برای تلفنهای اندرویدی تسهیل شده است. این سازنده تراشه قبلاً برخی از قابلیتهای هوش مصنوعی چشمگیر را برای پرچمدار Snapdragon 8 Gen 3 نشان داده است، مانند ویرایش رسانهای با صدای فعال، تولید تصویر روی دستگاه با استفاده از Stable Diffusion و یک دستیار مجازی هوشمندتر که بر روی مدلهای زبان بزرگ ساخته شده است. متا.
امروز، این شرکت حتی بیشتر به این ابرقدرت های هوش مصنوعی اضافه می کند. اولین مورد، قابلیت اجرای Large Language and Vision Assistant (LLaVa) روی گوشی هوشمند است. آن را به عنوان یک ربات چت مانند ChatGPT با توجه به قابلیت های Google Lens در نظر بگیرید. به این ترتیب، راه حل کوالکام نه تنها می تواند ورودی متن را بپذیرد، بلکه می تواند تصاویر را نیز پردازش کند.
به عنوان مثال، می توانید روی تصویری که یک تخته سوسیس را نشان می دهد کلیک کنید و بر اساس آن سؤال بپرسید. دستیار هوش مصنوعی، بر اساس یک مدل بزرگ چندوجهی (LMM) که میتواند بیش از 7 میلیارد پارامتر را پردازش کند، سپس انواع میوهها، پنیرها، گوشتها و آجیلها را در تابلوی تصویر ورودی زیر به شما میگوید.
همچنین می تواند پرس و جوهای بعدی را مدیریت کند، بنابراین می توانید یک مکالمه روان به عقب و جلو داشته باشید. اکنون، افرادی مانند ChatGPT نیز قابلیت های چند وجهی را به دست آورده اند، به این معنی که ابزار OpenAI می تواند تصاویر تایپ شده را نیز مدیریت کند. با این حال، یک تفاوت قابل توجه وجود دارد.
محصولاتی مانند ChatGPT و Copilot هنوز هم بسیار به معماری ابری مرتبط هستند، به این معنی که داده های شما در سرورهای راه دور پردازش می شوند. فشار کوالکام در جهت پردازش دستگاه است. همه چیز در تلفن شما اتفاق می افتد، به این معنی که کل فرآیند سریعتر است و خطر کمی برای نقض حریم خصوصی وجود دارد.
کوالکام میگوید: «این LMM با سرعت توکنهای دستگاه عمل میکند و در نتیجه حفظ حریم خصوصی، قابلیت اطمینان، سفارشیسازی و هزینه را بهبود میبخشد. هنوز به طور رسمی تایید نشده است که آیا دستیار مجازی مبتنی بر LLaVa قول داده شده کوالکام به عنوان یک برنامه مستقل وارد بازار می شود یا هزینه ای دارد.
اعلامیه بعدی کوالکام به حوزه خلاقانه تولید و دستکاری تصویر می پردازد. چندی پیش، کوالکام با استفاده از فناوری Stable Diffusion، سریعترین تولید متن به تصویر جهان را بر روی یک تلفن به نمایش گذاشت. امروزه، این شرکت اولین نگاهی به تولید تصویر مبتنی بر LoRA ارائه میکند.
LoRA رویکرد متفاوتی برای تولید تصویر در مقایسه با یک ابزار معمولی تولید کننده هوش مصنوعی مانند Dall.E دارد. LoRA، مخفف Low-Rank Adaptation، تکنیکی است که توسط مایکروسافت توسعه یافته است. آموزش یک مدل هوش مصنوعی می تواند بسیار پرهزینه، با تأخیر بالا و به ویژه از منظر سخت افزاری سخت باشد.
کاری که LoRA انجام می دهد این است که وزن مدل را به طور چشمگیری کاهش می دهد، هدفی که تنها با تمرکز بر بخش های خاصی از مدل و کاهش تعداد پارامترها برای اهداف آموزشی به دست می آید. با انجام این کار، نیازهای حافظه کاهش مییابد، فرآیند سریعتر میشود و زمان و تلاش لازم برای تطبیق یک مدل متن به تصویر نیز به شدت کاهش مییابد.
با گذشت زمان، تکنیک تقطیر LoRA در مدل انتشار پایدار برای تولید تصاویر از پیامهای متنی استفاده شد. به لطف بهبودهای کارایی و سازگاری آسانتر مدلهای مبتنی بر LoRA، این به عنوان یک مسیر سفارشی برای گوشیهای هوشمند دیده میشود. مطمئناً کوالکام چنین فکر میکند و حتی رقیب مدیاتک نیز همین راهحل را برای ترفندهای هوش مصنوعی در تراشه پرچمدار Dimensity 9300 خود اتخاذ کرد.
کوالکام همچنین چند ترفند هوش مصنوعی دیگر را در MWC 2024 به نمایش گذاشت که برخی از آنها قبلاً در Samsung Galaxy S24 Ultra ظاهر شده اند. از جمله آنها توانایی گسترش بوم تصویر با استفاده از پر شده توسط هوش مصنوعی و تولید ویدئو با استفاده از هوش مصنوعی است. مورد دوم کاملا جاه طلبانه است، به خصوص پس از دیدن آنچه که OpenAI با Sora به دست آورده است. جالب است که ببینیم کوالکام چگونه توانسته آن را به گوشی های هوشمند بیاورد.
توصیه های سردبیران