موبایل

در اینجا آمده است که چگونه اپل می تواند آیفون شما را برای همیشه تغییر دهد

آیفون 15 پرو مکس به پشت دراز کشیده و صفحه اصلی خود را نشان می دهد.
جو مارینگ / روندهای دیجیتال

طی چند ماه گذشته، اپل جریان ثابتی از مقالات تحقیقاتی را منتشر کرده است که جزئیات کار خود را با هوش مصنوعی مولد شرح می دهد. تا کنون، اپل در مورد اینکه دقیقاً چه چیزی در آزمایشگاه‌های تحقیقاتی خود پخته می‌شود، سخت صحبت کرده است، در حالی که شایعاتی مبنی بر مذاکره اپل با گوگل برای مجوز هوش مصنوعی Gemini خود برای آیفون منتشر شده است.

اما چند تیزر از آنچه می توانیم انتظار داشته باشیم وجود دارد. در ماه فوریه، یک مقاله تحقیقاتی اپل یک مدل منبع باز به نام MLLM-Guided Image Editing (MGIE) را توصیف کرد که قادر است رسانه ها را با استفاده از دستورالعمل های زبان طبیعی کاربران ویرایش کند. اکنون، یک مقاله تحقیقاتی دیگر در مورد رابط کاربری Ferret، جامعه هوش مصنوعی را به دیوانگی وارد کرده است.

ایده این است که هوش مصنوعی چندوجهی (که متن و همچنین دارایی‌های چندرسانه‌ای را درک می‌کند) برای درک بهتر عناصر رابط کاربر تلفن همراه به کار گرفته شود. – و مهمتر از همه، ارائه مشاوره مفید. این یک هدف حیاتی است زیرا مهندسان در تلاشند تا هوش مصنوعی را برای کاربران عادی گوشی هوشمند مفیدتر از وضعیت فعلی «ترفند سالن» آن کنند.

در این راستا، بزرگترین فشار، تخلیه قابلیت‌های مولد هوش مصنوعی از فضای ابری، پایان دادن به نیاز به اتصال به اینترنت و قرار دادن هر کار بر روی دستگاه است تا سریع‌تر و ایمن‌تر شود. به‌عنوان مثال، Gemini Google را در نظر بگیرید، که به‌طور بومی روی تلفن‌های سری Google Pixel و Samsung Galaxy S24 – و به زودی در تلفن‌های OnePlus – اجرا می‌شود و کارهایی مانند خلاصه‌سازی و ترجمه را انجام می‌دهد.

رابط کاربری Ferret اپل چیست؟

نقشه های ویژگی Apple Ferret UI.
یک سیب

به نظر می رسد اپل با Ferret-UI قصد دارد هوش یک مدل هوش مصنوعی چندوجهی را با iOS ترکیب کند. در حال حاضر، تمرکز بر روی کارهای «پایه‌ای» مانند «تشخیص نمادها، یافتن متن و فهرست کردن ویجت‌ها» است. با این حال، این فقط در مورد درک آنچه روی صفحه نمایش آیفون است نیست، بلکه در مورد درک منطقی آن و پاسخ به سؤالات متنی مطرح شده توسط کاربران از طریق قابلیت های استدلال آن است.

ساده‌ترین راه برای توصیف قابلیت‌های Ferret UI، سیستم تشخیص کاراکتر نوری با هوش مصنوعی (OCR) است. این مقاله تحقیقاتی خاطرنشان می‌کند: «پس از آموزش روی مجموعه‌های داده انتخاب‌شده، Ferret-UI درک استثنایی از صفحه‌های رابط کاربری و توانایی اجرای دستورالعمل‌های پایان باز را نشان می‌دهد». تیم سازنده Ferret UI آن را به گونه ای تنظیم کرده است که “هر وضوح” را در خود جای دهد.

مطلب پیشنهادی:  Poco X5 Pro 5G بر روی Snapdragon 778G SoC اجرا خواهد شد. طراحی Poco X5 5G، مشخصات قبل از راه اندازی

شما می توانید در حین مرور فروشگاه App، سوالاتی مانند “آیا این برنامه برای کودک 12 ساله من ایمن است؟” در چنین شرایطی، هوش مصنوعی رده بندی سنی اپلیکیشن را می خواند و پاسخ آن را ارائه می دهد. نحوه ارائه پاسخ – متنی یا صوتی – مشخص نشده است، زیرا در مقاله به سیری یا دستیار مجازی اشاره ای نشده است.

اپل از درخت GPT خیلی دور نیفتاد

نمای کلی رابط کاربری Apple Ferret.
یک سیب

اما ایده ها بسیار پانوراما و هوشمندانه تر هستند. از آن بپرسید “چگونه می توانم برنامه را با یک دوست به اشتراک بگذارم؟” و هوش مصنوعی نماد “اشتراک گذاری” را روی صفحه نمایش می دهد. البته، این به شما می‌گوید که چه چیزی روی صفحه چشمک می‌زند، اما در عین حال به طور منطقی دارایی‌های بصری روی صفحه را تجزیه و تحلیل می‌کند – درست مانند جعبه‌ها، دکمه‌ها، تصاویر، نمادها و موارد دیگر. این یک پیروزی بزرگ برای دسترسی است.

اگر می خواهید اصطلاحات فنی را بشنوید، خوب، مقاله به این توانایی ها به عنوان “مکالمه ادراکی”، “استنتاج عملکردی” و “مکالمه تعاملی” اشاره می کند. یکی از توصیف‌های مقاله تحقیقاتی در واقع قابلیت‌های رابط کاربری Ferret را به‌طور کامل خلاصه می‌کند و آن را به‌عنوان «اولین MLLM طراحی شده برای انجام وظایف ارسال دقیق و زمین‌گذاری ویژه صفحه‌های UI، در حالی که به طرز ماهرانه‌ای دستورالعمل‌های زبان باز را تفسیر و عمل می‌کند» توصیف می‌کند.

رابط کاربری Apple Ferret به سوالات مربوط به صفحه نمایش پاسخ می دهد.
یک سیب

در نتیجه، می‌تواند اسکرین‌شات‌ها را توصیف کند، بگوید یک دارایی خاص هنگام لمس چه می‌کند، و تشخیص دهد که آیا چیزی روی صفحه با ورودی‌های لمسی تعاملی است یا خیر. Ferret UI فقط یک پروژه داخلی نیست. در عوض، برای بخش استدلال و توضیحات، به فناوری GPT-4 OpenAI تکیه می‌کند که ChatGPT را به همراه یک دسته کامل از محصولات مکالمه‌ای دیگر در آنجا تقویت می‌کند.

لازم به ذکر است که نسخه خاص پیشنهاد شده در سند برای نسبت های متعدد مناسب است. این مقاله تحقیقاتی علاوه بر تجزیه و تحلیل و قابلیت استدلال روی صفحه، چندین قابلیت پیشرفته را نیز توصیف می کند که ارائه آنها بسیار شگفت انگیز است. به عنوان مثال، در اسکرین شات زیر، به نظر می رسد که نه تنها می تواند دست خط را تجزیه و تحلیل کند، بلکه می تواند نسخه صحیح را از روی غلط املایی کاربر پیش بینی کند.

مطلب پیشنهادی:  مدل‌های iPhone 15 Pro طراحی را با دو دکمه کنترل صدا حفظ می‌کنند: گزارش
رابط کاربری Apple Ferret، تشخیص متن.
یک سیب

MIt همچنین می‌تواند متن‌هایی را که در بالا یا پایین قطع شده‌اند و در غیر این صورت نیاز به پیمایش عمودی دارند، به دقت بخواند. اگرچه کامل نیست. گاهی اوقات یک دکمه را به‌عنوان یک برگه به ​​اشتباه شناسایی می‌کند و دارایی‌هایی را که تصاویر و متن را در یک بلوک ترکیب می‌کنند، اشتباه می‌خواند.

هنگامی که در مقابل مدل GPT-4V OpenAI قرار گرفت، Ferret UI سطح قابل توجهی از نتایج تعامل مکالمه را هنگام پرسیدن سوالات مربوط به محتوای صفحه ارائه داد. همانطور که در تصویر زیر مشاهده می شود، Ferret UI پاسخ های کوتاه تر و واضح تر را ترجیح می دهد، در حالی که GPT-4V پاسخ های دقیق تری را می نویسد.

انتخاب ذهنی است، اما اگر بخواهم از هوش مصنوعی بپرسم “چگونه یک دمپایی که روی صفحه ظاهر می شود بخریم”، ترجیح می دهم مراحل صحیح را در کمترین کلمه ممکن به من ارائه دهد. اما Ferret UI نه تنها در کوتاه نگه داشتن موارد، بلکه در دقت نیز عالی بود. در کار فوق الذکر، Ferret UI 91.7٪ در نمرات تعامل مکالمه پایه به دست آورد، در حالی که GPT-4V تنها با دقت 93.4٪ کمی جلوتر بود.

جهانی از امکانات جذاب

میانبرها در رابط کاربری Apple Ferret
یک سیب

Ferret UI اولین حضور چشمگیر هوش مصنوعی را نشان می دهد که می تواند اقدامات روی صفحه را معنا کند. اکنون، قبل از اینکه بیش از حد در مورد احتمالات اینجا هیجان زده شویم، مطمئن نیستیم که دقیقاً چگونه اپل قصد دارد این را با iOS ادغام کند، یا به دلایل متعددی هرگز محقق خواهد شد. بلومبرگ اخیرا گزارش داد که اپل می‌دانست که در رقابت هوش مصنوعی عقب مانده است و این در فقدان محصولات هوش مصنوعی مولد بومی در اکوسیستم اپل کاملاً مشهود است.

اول، شایعاتی مبنی بر اینکه اپل حتی در حال بررسی قرارداد مجوز جمینی با گوگل یا OpenAI است، نشانه این است که کار خود اپل در سطح رقبا نیست. در چنین سناریویی، استفاده از کاری که گوگل قبلاً با Gemini انجام داده است (که اکنون در تلاش است تا Google Assistant را در تلفن‌ها جایگزین کند) عاقلانه‌تر از ارائه یک محصول نیمه کاره هوش مصنوعی در iPhone و iPad خواهد بود.

اپل به وضوح ایده های بلندپروازانه ای دارد و همچنان به کار روی آنها ادامه می دهد، همانطور که آزمایش های مفصل در مقالات علمی متعدد نشان می دهد. با این حال، حتی اگر اپل بتواند به وعده‌های Ferret UI در iOS عمل کند، باز هم به معنای اجرای سطحی هوش مصنوعی مولد در دستگاه خواهد بود.

مطلب پیشنهادی:  آیفون 16 پرو مکس ممکن است دارای صفحه نمایش بزرگتر باشد
Apple Ferret UI محتوا را روی صفحه می خواند.
یک سیب

با این حال، ادغام های عملکردی، حتی اگر محدود به برنامه های از پیش نصب شده باشد، می تواند نتایج شگفت انگیزی به همراه داشته باشد. به عنوان مثال، فرض کنید در حال خواندن یک ایمیل هستید در حالی که هوش مصنوعی قبلاً محتوای صفحه را در پس‌زمینه ارزیابی کرده است. در حالی که در حال خواندن پیام در برنامه Mail هستید، می توانید با یک فرمان صوتی از هوش مصنوعی بخواهید که آن را در تقویم وارد کرده و آن را در برنامه شما ذخیره کند.

لازم نیست این یک کار چند مرحله ای فوق العاده پیچیده باشد که بیش از یک برنامه کاربردی را شامل می شود. فرض کنید در حال مرور صفحه اطلاعات جستجوی گوگل برای یک رستوران هستید، و با گفتن “تماس با مکان”، هوش مصنوعی شماره تلفن روی صفحه را می خواند، آن را در شماره گیر کپی می کند و یک تماس را آغاز می کند.

یا مثلاً در حال خواندن توییتی در مورد فیلمی هستید که در تاریخ 6 آوریل اکران می شود و به هوش مصنوعی می گویید میانبر برای برنامه Fandango ایجاد کند. یا یک پست در ساحلی در ویتنام الهام‌بخش سفر انفرادی بعدی شما می‌شود و یک «برای من بلیط کن دای رزرو کنید» شما را در حالی که تمام ورودی‌هایتان از قبل پر شده‌اند، به برنامه Skyscanner می‌برد.

هی سیری
ندیم سرور / روندهای دیجیتال

اما گفتن همه اینها آسان تر از انجام آن است و به مجموعه ای از متغیرها بستگی دارد که برخی از آنها ممکن است خارج از کنترل اپل باشند. به عنوان مثال، صفحات وب پر از پنجره های بازشو و تبلیغات مزاحم باعث می شود که رابط کاربری Ferret کار خود را تقریباً غیرممکن کند. اما نکته مثبت این است که توسعه دهندگان iOS به شدت به دستورالعمل های طراحی تعیین شده توسط اپل پایبند هستند، بنابراین Ferret UI احتمالاً جادوی خود را به طور موثرتری در برنامه های آیفون انجام می دهد.

این هنوز هم یک برد چشمگیر خواهد بود. و از آنجایی که ما در مورد پیاده‌سازی دستگاهی صحبت می‌کنیم که دقیقاً در سطح سیستم‌عامل قرار دارد، بعید است که اپل برای راحتی آن هزینه‌ای بپردازد، برخلاف محصولات اصلی AI مولد مانند ChatGPT Plus یا Microsoft Copilot Pro. آیا iOS 18 در نهایت به ما نگاهی اجمالی به یک iOS بازسازی شده با هوش مصنوعی بارگذاری می کند؟ ما باید تا کنفرانس جهانی توسعه دهندگان اپل در سال 2024 منتظر بمانیم تا متوجه شویم.

توصیه های سردبیران






نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا