توهمات نوری می توانند به ما در ساختن نسل جدیدی از هوش مصنوعی کمک کنند
شما به تصویر یک دایره سیاه روی شبکه ای از نقاط دایره ای نگاه می کنید. به نظر می رسد سوراخی در یک قطعه مش سفید ایجاد شده است، اگرچه در واقع یک تصویر صاف و ثابت روی صفحه یا تکه کاغذ است. اما مغز شما آن را اینطور نمی بیند. مانند یک تجربه توهم سطح پایین، ذهن شما از بین می رود. درک تصویر ایستا به عنوان دهانه یک تونل سیاه که به سمت شما حرکت می کند.
در پاسخ به معقول بودن اثر، بدن ناخودآگاه شروع به واکنش می کند: مردمک های چشم گشاد می شوند تا نور بیشتری وارد کنند، درست همانطور که اگر بخواهید در تاریکی فرو بروید، تنظیم می شوند تا بهترین دید ممکن را تضمین کنند.
اثر مورد بحث توسط آکیوشی کیتائوکا، روانشناس دانشگاه Ritsumeikan در کوبه، ژاپن ایجاد شده است. این یکی از ده ها توهم نوری است که او در طول حرفه طولانی خود ایجاد کرده است. (او در پاسخ به سوال Digital Trend گفت: “من همه آنها را دوست دارم.”
این توهم جدید موضوع تحقیقی بود که اخیراً در مجله Frontiers in Human Neuroscience منتشر شده است. در حالی که تمرکز مقاله کاملاً بر پاسخهای فیزیولوژیکی انسان به اثر جدید است (که به نظر میرسد، حدود 86 درصد از ما تجربه خواهیم کرد)، موضوع کلی ممکن است پیامدهای عمدهای در آینده هوش ماشینی نیز داشته باشد. یکی از محققان مشتاق توضیح دادن به دیجیتال تو بود.
یک لبه تکاملی
یه چیزی تو مغزت مشکل داره حداقل این نتیجه گیری آسانی است که می توان از نحوه درک مغز انسان از توهمات نوری بدست آورد. چه توضیح دیگری برای یک تصویر دو بعدی و ایستا وجود دارد که مغز آن را چیزی کاملاً متفاوت درک می کند؟ برای مدت طولانی، روانشناسی جریان اصلی همین را باور داشت.
برونو لانگ، پروفسور دپارتمان روانشناسی در این باره می گوید: «در ابتدا مردم فکر کردند، “خوب، مغز ما کامل نیست… همیشه آن را درست نمی فهمد.” این یک شکست است، اینطور نیست؟ توهمات در این مورد جالب بودند زیرا نوعی نقص را در دستگاه آشکار می کردند.
مغز هیچ راهی برای دانستن چیست [really] اون بیرون.”
روانشناسان دیگر به آنها اینگونه نگاه نمی کنند. در هر صورت، مطالعاتی مانند این نشان می دهد که چگونه سیستم بصری فقط یک دوربین ساده نیست. توهم نوری Illusory Expanding Hole به وضوح نشان می دهد که چشم با نور و تاریکی درک شده، حتی تصور شده، سازگار می شود، نه انرژی فیزیکی.
مهمتر از همه، نشان می دهد که ما نه تنها جهان را با سیستم های بصری خود به صورت احمقانه ثبت نمی کنیم، بلکه مجموعه ای از آزمایشات علمی مداوم را برای به دست آوردن یک مزیت تکاملی جزئی انجام می دهیم. هدف این است که دادههایی را که به ما ارائه میشود تجزیه و تحلیل کنیم و سعی کنیم به طور فعالانه به مسائل قبل از تبدیل شدن به مشکل بپردازیم.
مغز هیچ راهی برای دانستن چیست [really] لانگ گفت. کاری که انجام می دهد این است که نوعی واقعیت مجازی از آنچه می تواند وجود داشته باشد، می سازد. چند حدس وجود دارد. از این نظر می توان مغز را نوعی ماشین احتمال در نظر گرفت. اگر بخواهید می توانید آن را ماشین بیزی بنامید. از برخی فرضیه های قبلی استفاده می کند و سعی می کند همیشه آن را آزمایش کند تا ببیند آیا کار می کند یا خیر.
لانگ مثالی از چشمان ما میزند که بر اساس چیزی بیش از تأثیر نور خورشید، تنظیمات را انجام میدهند: حتی زمانی که از میان پوشش ابری یا برآمدگی از برگها دیده میشود. محض احتیاط.
«نکته مهم در مورد تکامل این نیست که درست باشد [at that moment]او ادامه داد، اما این احتمال وجود دارد. با منقبض کردن مردمک چشم، بدن شما در حال سازگاری با موقعیتی است که احتمال وقوع آن در مدت زمان کوتاهی بسیار زیاد است. چه اتفاقی می افتد [if the sun suddenly comes out] این است که شما کور شده اید. کور یعنی موقتاً ناتوان. این عواقب بزرگی دارد، چه طعمه و چه درنده باشید. شما کسری از ثانیه را در یک موقعیت خاص تلف می کنید و ممکن است زنده نمانید.
فقط روشنایی و تاریکی نیست که سیستمهای بینایی ما باید در مورد آن فرضیاتی بسازند. یک بازی تنیس را در نظر بگیرید که در آن توپ با سرعت بالایی در حال حرکت است. اگر رفتار خود را کاملاً بر اساس آنچه سیستم بینایی در هر لحظه دریافت میکند استوار کنیم، از واقعیت عقب میافتیم و نمیتوانیم توپ را برگردانیم. لانگ گفت: «ما قادر به درک حال هستیم، حتی اگر واقعاً در گذشته گیر کرده ایم. تنها راه برای انجام این کار، پیشبینی آینده است. کمی شبیه بازی با کلمات به نظر می رسد، اما به طور خلاصه همین است.
بینایی ماشین در حال بهبود است
پس این چه ربطی به بینایی کامپیوتر دارد؟ به طور بالقوه همه چیز برای مثال، برای اینکه یک ربات به طور موثر در دنیای واقعی کار کند، باید بتواند این نوع تنظیمات را در پرواز انجام دهد. وقتی صحبت از توانایی آنها در انجام محاسبات بسیار سریع می شود، رایانه ها دارای یک مزیت هستند. چیزی که آنها ندارند میلیون ها سال تکامل در کنارشان است.
با این حال، در سال های اخیر، بینایی ماشین پیشرفت فوق العاده ای داشته است. آنها میتوانند چهرهها یا راه رفتنها را در جریانهای ویدیویی در زمان واقعی شناسایی کنند – به طور بالقوه حتی در جمعیت عظیمی از مردم. طبقهبندی تصاویر مشابه و ابزارهای فنی نیز میتوانند حضور اشیاء دیگر را تشخیص دهند، در حالی که پیشرفتها در تقسیمبندی اشیا، درک بهتر محتوای صحنههای مختلف را ممکن میسازد. همچنین، پیشرفت قابل توجهی در برون یابی تصاویر سه بعدی از صحنه های دو بعدی حاصل شده است که به ماشین ها اجازه می دهد اطلاعات سه بعدی مانند عمق را از صحنه ها “خواندن” کنند. این امر بینایی کامپیوتری مدرن را به درک تصویر انسان نزدیکتر می کند.
با این حال، هنوز بین بهترین الگوریتمهای بینایی ماشین و انواع تواناییهای مبتنی بر بینایی که اکثریت قریب به اتفاق افراد میتوانند از سنین پایین انجام دهند، فاصله وجود دارد. اگرچه نمیتوانیم دقیقاً بیان کنیم که چگونه این وظایف مبتنی بر بینش را انجام میدهیم (به نقل از دانشمند مجارستانی-بریتانیایی، مایکل پولانی، «ما میتوانیم بیش از آنچه میتوانیم بگوییم، بدانیم»)، با این وجود میتوانیم مجموعهای چشمگیر از وظایف را انجام دهیم. به ما این امکان را می دهد که از دید خود به روش های مختلف هوشمند استفاده کنیم.
تست تورینگ برای بینایی ماشین
اگر محققان و مهندسان امیدوارند سیستمهای بینایی رایانهای ایجاد کنند که حداقل با مهارتهای پردازش بصری مغز مرطوبافزار عمل کند، ساخت الگوریتمهایی که بتواند توهمات نوری را درک کند، نقطه شروع بدی نیست. حداقل، این می تواند ثابت کند که راه خوبی برای اندازه گیری میزان عملکرد سیستم های بینایی ماشین با مغز خودمان است. شاید پاسخی به هوش عمومی مصنوعی افسانه ای نباشد، اما ممکن است کلید باز کردن قفل General Vision باشد.
“اگر روزی کسی یک سیستم بینایی مصنوعی ایجاد کند که همان اشتباهات واهی ادراک ما را مرتکب شود، در آن لحظه خواهید فهمید که او [achieving] لانگ گفت: شبیهسازی خوبی از نحوه عملکرد مغز ما. «این شبیه یک آزمون تورینگ است. اگر شما یک شبکه مصنوعی دارید که با توهماتی مانند ما فریب خورده است، پس ما [would be] بسیار نزدیک به درک محاسبات اساسی خود مغز است.
Yi-Zhe Song، خواننده بینایی کامپیوتری و یادگیری ماشین در مرکز پردازش تصویری گفتار و سیگنال در دانشگاه ساری در بریتانیا، با این فرضیه موافق است. او به دیجیتال تو گفت: “درخواست الگوریتم های بصری برای درک توهمات نوری به عنوان یک موضوع مشترک برای جامعه ارزش زیادی دارد.” درخواست از ماشینها فراتر از تمرکز فعلی جامعه است [recognize]فشار دادن پاکت حتی بیشتر [and] درخواست از ماشین ها برای استدلال آن فشار [would represent] یک گام مهم رو به جلو به سوی “چشم انداز مشترک” که در آن باید تفاسیر ذهنی از مفاهیم بصری در نظر گرفته شود.”
از تخیلت استفاده کن
تا به امروز، تحقیقات محدودی در این مورد وجود دارد – اگرچه در مراحل نسبتاً اولیه باقی مانده است. نسیم نعمت زاده، پژوهشگر دارای مدرک دکتری. در هوش مصنوعی و رباتیک – مدل های بینایی سطح پایین، یکی از افرادی است که در این زمینه کار منتشر کرده است.
ما معتقدیم که بررسی بیشتر نقش الگوهای ساده گاوسی مانند در پردازش سطح پایین شبکیه و هسته گاوسی در مراحل اولیه [deep neural networks]نعمت زاده به دیجیتال تو گفت: و پیش بینی آن از دست دادن توهم ادراکی، منجر به تکنیک ها و مدل های دقیق تر بینایی کامپیوتری می شود. “[This could] به مدلهای سطح بالاتر پردازش عمق و حرکت کمک میکند و به درک رایانهای از تصاویر طبیعی تعمیم مییابد.
مکس ویلیامز، محقق هوش مصنوعی که به گردآوری مجموعه داده ای از هزاران تصویر از توهمات نوری برای سیستم های بینایی کامپیوتری کمک کرد، ارتباط بین دید عمومی و توهمات نوری را به اختصار بیان می کند: “توهمات وجود دارند زیرا چشم ها و مغز ما هرج و مرج و یک فرآیند موقت را انجام می دهند. برای استخراج یک صحنه بصری از یک میدان نوری غیرقابل درک که توسط دنیای فیزیکی ایجاد شده است که تقریباً به طور کامل از آن جدا شده ایم.» آنها به دیجیتال تو گفتند. من فکر نمیکنم که بتوان یک سیستم بصری را به اندازهای رسا کرد که بهعنوان «ادراکی» که عاری از توهم باشد نیز به حساب آید.»
دستیابی به یک چشم انداز مشترک
برای روشن بودن، دستیابی به دید عمومی در سطح انسان (یا بهتر) برای هوش مصنوعی به سادگی آنها را برای تشخیص توهمات نوری استاندارد آموزش نمی دهد. هیچ توانایی فوقالعادهای برای رمزگشایی توهمات چشم جادویی با دقت 99.9 درصد در 0.001 ثانیه، جایگزین میلیونها سال تکامل انسان نخواهد شد.
(جالب است که بینایی ماشین نسخه مخصوص به خود را از توهمات نوری به شکل الگوهای مسابقه ای دارد که می تواند باعث اشتباه آنها شود – مانند یک تصویر نگران کننده – یک لاک پشت اسباب بازی چاپ سه بعدی برای تفنگ. با این حال، اینها همان را ارائه نمی دهند. مزایای تکاملی به عنوان توهمات نوری که بر روی مردم کار می کنند.)
با این حال، درک ماشینها برای درک توهمات نوری انسان و پاسخ دادن به آنها به روشی که ما انجام میدهیم میتواند مطالعه بسیار مفیدی باشد.
و یک چیز مسلم است: وقتی جنرال ویژن هوش مصنوعی است به دست آمده، تسلیم همان انواع توهمات نوری مانند ما خواهد شد. حداقل در مورد سوراخ انبساط وهمی، 86 درصد از ما.
توصیه های سردبیران