در اینجا آمده است که چگونه اپل می تواند آیفون شما را برای همیشه تغییر دهد
طی چند ماه گذشته، اپل جریان ثابتی از مقالات تحقیقاتی را منتشر کرده است که جزئیات کار خود را با هوش مصنوعی مولد شرح می دهد. تا کنون، اپل در مورد اینکه دقیقاً چه چیزی در آزمایشگاههای تحقیقاتی خود پخته میشود، سخت صحبت کرده است، در حالی که شایعاتی مبنی بر مذاکره اپل با گوگل برای مجوز هوش مصنوعی Gemini خود برای آیفون منتشر شده است.
اما چند تیزر از آنچه می توانیم انتظار داشته باشیم وجود دارد. در ماه فوریه، یک مقاله تحقیقاتی اپل یک مدل منبع باز به نام MLLM-Guided Image Editing (MGIE) را توصیف کرد که قادر است رسانه ها را با استفاده از دستورالعمل های زبان طبیعی کاربران ویرایش کند. اکنون، یک مقاله تحقیقاتی دیگر در مورد رابط کاربری Ferret، جامعه هوش مصنوعی را به دیوانگی وارد کرده است.
ایده این است که هوش مصنوعی چندوجهی (که متن و همچنین داراییهای چندرسانهای را درک میکند) برای درک بهتر عناصر رابط کاربر تلفن همراه به کار گرفته شود. – و مهمتر از همه، ارائه مشاوره مفید. این یک هدف حیاتی است زیرا مهندسان در تلاشند تا هوش مصنوعی را برای کاربران عادی گوشی هوشمند مفیدتر از وضعیت فعلی «ترفند سالن» آن کنند.
در این راستا، بزرگترین فشار، تخلیه قابلیتهای مولد هوش مصنوعی از فضای ابری، پایان دادن به نیاز به اتصال به اینترنت و قرار دادن هر کار بر روی دستگاه است تا سریعتر و ایمنتر شود. بهعنوان مثال، Gemini Google را در نظر بگیرید، که بهطور بومی روی تلفنهای سری Google Pixel و Samsung Galaxy S24 – و به زودی در تلفنهای OnePlus – اجرا میشود و کارهایی مانند خلاصهسازی و ترجمه را انجام میدهد.
رابط کاربری Ferret اپل چیست؟
به نظر می رسد اپل با Ferret-UI قصد دارد هوش یک مدل هوش مصنوعی چندوجهی را با iOS ترکیب کند. در حال حاضر، تمرکز بر روی کارهای «پایهای» مانند «تشخیص نمادها، یافتن متن و فهرست کردن ویجتها» است. با این حال، این فقط در مورد درک آنچه روی صفحه نمایش آیفون است نیست، بلکه در مورد درک منطقی آن و پاسخ به سؤالات متنی مطرح شده توسط کاربران از طریق قابلیت های استدلال آن است.
سادهترین راه برای توصیف قابلیتهای Ferret UI، سیستم تشخیص کاراکتر نوری با هوش مصنوعی (OCR) است. این مقاله تحقیقاتی خاطرنشان میکند: «پس از آموزش روی مجموعههای داده انتخابشده، Ferret-UI درک استثنایی از صفحههای رابط کاربری و توانایی اجرای دستورالعملهای پایان باز را نشان میدهد». تیم سازنده Ferret UI آن را به گونه ای تنظیم کرده است که “هر وضوح” را در خود جای دهد.
شما می توانید در حین مرور فروشگاه App، سوالاتی مانند “آیا این برنامه برای کودک 12 ساله من ایمن است؟” در چنین شرایطی، هوش مصنوعی رده بندی سنی اپلیکیشن را می خواند و پاسخ آن را ارائه می دهد. نحوه ارائه پاسخ – متنی یا صوتی – مشخص نشده است، زیرا در مقاله به سیری یا دستیار مجازی اشاره ای نشده است.
اپل از درخت GPT خیلی دور نیفتاد
اما ایده ها بسیار پانوراما و هوشمندانه تر هستند. از آن بپرسید “چگونه می توانم برنامه را با یک دوست به اشتراک بگذارم؟” و هوش مصنوعی نماد “اشتراک گذاری” را روی صفحه نمایش می دهد. البته، این به شما میگوید که چه چیزی روی صفحه چشمک میزند، اما در عین حال به طور منطقی داراییهای بصری روی صفحه را تجزیه و تحلیل میکند – درست مانند جعبهها، دکمهها، تصاویر، نمادها و موارد دیگر. این یک پیروزی بزرگ برای دسترسی است.
اگر می خواهید اصطلاحات فنی را بشنوید، خوب، مقاله به این توانایی ها به عنوان “مکالمه ادراکی”، “استنتاج عملکردی” و “مکالمه تعاملی” اشاره می کند. یکی از توصیفهای مقاله تحقیقاتی در واقع قابلیتهای رابط کاربری Ferret را بهطور کامل خلاصه میکند و آن را بهعنوان «اولین MLLM طراحی شده برای انجام وظایف ارسال دقیق و زمینگذاری ویژه صفحههای UI، در حالی که به طرز ماهرانهای دستورالعملهای زبان باز را تفسیر و عمل میکند» توصیف میکند.
در نتیجه، میتواند اسکرینشاتها را توصیف کند، بگوید یک دارایی خاص هنگام لمس چه میکند، و تشخیص دهد که آیا چیزی روی صفحه با ورودیهای لمسی تعاملی است یا خیر. Ferret UI فقط یک پروژه داخلی نیست. در عوض، برای بخش استدلال و توضیحات، به فناوری GPT-4 OpenAI تکیه میکند که ChatGPT را به همراه یک دسته کامل از محصولات مکالمهای دیگر در آنجا تقویت میکند.
لازم به ذکر است که نسخه خاص پیشنهاد شده در سند برای نسبت های متعدد مناسب است. این مقاله تحقیقاتی علاوه بر تجزیه و تحلیل و قابلیت استدلال روی صفحه، چندین قابلیت پیشرفته را نیز توصیف می کند که ارائه آنها بسیار شگفت انگیز است. به عنوان مثال، در اسکرین شات زیر، به نظر می رسد که نه تنها می تواند دست خط را تجزیه و تحلیل کند، بلکه می تواند نسخه صحیح را از روی غلط املایی کاربر پیش بینی کند.
MIt همچنین میتواند متنهایی را که در بالا یا پایین قطع شدهاند و در غیر این صورت نیاز به پیمایش عمودی دارند، به دقت بخواند. اگرچه کامل نیست. گاهی اوقات یک دکمه را بهعنوان یک برگه به اشتباه شناسایی میکند و داراییهایی را که تصاویر و متن را در یک بلوک ترکیب میکنند، اشتباه میخواند.
هنگامی که در مقابل مدل GPT-4V OpenAI قرار گرفت، Ferret UI سطح قابل توجهی از نتایج تعامل مکالمه را هنگام پرسیدن سوالات مربوط به محتوای صفحه ارائه داد. همانطور که در تصویر زیر مشاهده می شود، Ferret UI پاسخ های کوتاه تر و واضح تر را ترجیح می دهد، در حالی که GPT-4V پاسخ های دقیق تری را می نویسد.
انتخاب ذهنی است، اما اگر بخواهم از هوش مصنوعی بپرسم “چگونه یک دمپایی که روی صفحه ظاهر می شود بخریم”، ترجیح می دهم مراحل صحیح را در کمترین کلمه ممکن به من ارائه دهد. اما Ferret UI نه تنها در کوتاه نگه داشتن موارد، بلکه در دقت نیز عالی بود. در کار فوق الذکر، Ferret UI 91.7٪ در نمرات تعامل مکالمه پایه به دست آورد، در حالی که GPT-4V تنها با دقت 93.4٪ کمی جلوتر بود.
جهانی از امکانات جذاب
Ferret UI اولین حضور چشمگیر هوش مصنوعی را نشان می دهد که می تواند اقدامات روی صفحه را معنا کند. اکنون، قبل از اینکه بیش از حد در مورد احتمالات اینجا هیجان زده شویم، مطمئن نیستیم که دقیقاً چگونه اپل قصد دارد این را با iOS ادغام کند، یا به دلایل متعددی هرگز محقق خواهد شد. بلومبرگ اخیرا گزارش داد که اپل میدانست که در رقابت هوش مصنوعی عقب مانده است و این در فقدان محصولات هوش مصنوعی مولد بومی در اکوسیستم اپل کاملاً مشهود است.
اول، شایعاتی مبنی بر اینکه اپل حتی در حال بررسی قرارداد مجوز جمینی با گوگل یا OpenAI است، نشانه این است که کار خود اپل در سطح رقبا نیست. در چنین سناریویی، استفاده از کاری که گوگل قبلاً با Gemini انجام داده است (که اکنون در تلاش است تا Google Assistant را در تلفنها جایگزین کند) عاقلانهتر از ارائه یک محصول نیمه کاره هوش مصنوعی در iPhone و iPad خواهد بود.
اپل به وضوح ایده های بلندپروازانه ای دارد و همچنان به کار روی آنها ادامه می دهد، همانطور که آزمایش های مفصل در مقالات علمی متعدد نشان می دهد. با این حال، حتی اگر اپل بتواند به وعدههای Ferret UI در iOS عمل کند، باز هم به معنای اجرای سطحی هوش مصنوعی مولد در دستگاه خواهد بود.
با این حال، ادغام های عملکردی، حتی اگر محدود به برنامه های از پیش نصب شده باشد، می تواند نتایج شگفت انگیزی به همراه داشته باشد. به عنوان مثال، فرض کنید در حال خواندن یک ایمیل هستید در حالی که هوش مصنوعی قبلاً محتوای صفحه را در پسزمینه ارزیابی کرده است. در حالی که در حال خواندن پیام در برنامه Mail هستید، می توانید با یک فرمان صوتی از هوش مصنوعی بخواهید که آن را در تقویم وارد کرده و آن را در برنامه شما ذخیره کند.
لازم نیست این یک کار چند مرحله ای فوق العاده پیچیده باشد که بیش از یک برنامه کاربردی را شامل می شود. فرض کنید در حال مرور صفحه اطلاعات جستجوی گوگل برای یک رستوران هستید، و با گفتن “تماس با مکان”، هوش مصنوعی شماره تلفن روی صفحه را می خواند، آن را در شماره گیر کپی می کند و یک تماس را آغاز می کند.
یا مثلاً در حال خواندن توییتی در مورد فیلمی هستید که در تاریخ 6 آوریل اکران می شود و به هوش مصنوعی می گویید میانبر برای برنامه Fandango ایجاد کند. یا یک پست در ساحلی در ویتنام الهامبخش سفر انفرادی بعدی شما میشود و یک «برای من بلیط کن دای رزرو کنید» شما را در حالی که تمام ورودیهایتان از قبل پر شدهاند، به برنامه Skyscanner میبرد.
اما گفتن همه اینها آسان تر از انجام آن است و به مجموعه ای از متغیرها بستگی دارد که برخی از آنها ممکن است خارج از کنترل اپل باشند. به عنوان مثال، صفحات وب پر از پنجره های بازشو و تبلیغات مزاحم باعث می شود که رابط کاربری Ferret کار خود را تقریباً غیرممکن کند. اما نکته مثبت این است که توسعه دهندگان iOS به شدت به دستورالعمل های طراحی تعیین شده توسط اپل پایبند هستند، بنابراین Ferret UI احتمالاً جادوی خود را به طور موثرتری در برنامه های آیفون انجام می دهد.
این هنوز هم یک برد چشمگیر خواهد بود. و از آنجایی که ما در مورد پیادهسازی دستگاهی صحبت میکنیم که دقیقاً در سطح سیستمعامل قرار دارد، بعید است که اپل برای راحتی آن هزینهای بپردازد، برخلاف محصولات اصلی AI مولد مانند ChatGPT Plus یا Microsoft Copilot Pro. آیا iOS 18 در نهایت به ما نگاهی اجمالی به یک iOS بازسازی شده با هوش مصنوعی بارگذاری می کند؟ ما باید تا کنفرانس جهانی توسعه دهندگان اپل در سال 2024 منتظر بمانیم تا متوجه شویم.
توصیه های سردبیران