کامپیوتر

5 چیزی که تولیدکنندگان تصویر هوش مصنوعی هنوز با آن ها دست و پنجه نرم می کنند

تولیدکننده‌های تصویر هوش مصنوعی مانند Dall-E، Stable Diffusion، Midjourney و Bing Image Creator نتایج شگفت‌انگیزی ایجاد می‌کنند، اما گاهی اوقات می‌توانند به‌طور باورنکردنی خسته‌کننده باشند. هوش مصنوعی با اعلان‌های ساده‌ای که فقط شامل چند کلمه است، می‌تواند تصاویر چشم‌گیری را تولید کند که شبیه عکس‌های حرفه‌ای و هنری متقاعدکننده در سبک‌های مختلف هستند. با این حال، همین درخواست گهگاه باعث ایجاد موجودی وحشتناک یا ارائه نادرست خنده‌دار می‌شود.

درخواست های منفی می تواند به کاهش احتمال این خطاها کمک کند، اما پیچیدگی همیشه نمی تواند شما را نجات دهد. حتی متخصصان هوش مصنوعی با موجودات تغییر شکل یافته و صحنه های دنیای ماورایی که نیاز به ساعت های طولانی دستورات تنظیم دقیق یا روتوش تصاویر با یک ویرایشگر عکس سنتی دارند، دست و پنجه نرم می کنند. در حال حاضر، اگر از نزدیک به نواحی مناسب تصویر نگاه کنید، شانس خوبی وجود دارد که بتوانید تشخیص دهید که توسط یک ماشین ساخته شده است یا خیر.

سالاد دستی و توپ انگشتی

توسعه دهندگان هوش مصنوعی در تلاش برای آموزش ابزارهای هوش مصنوعی پیشرفت هایی داشته اند که دست های انسان چگونه باید باشد، اما جای زیادی برای بهبود وجود دارد. اگر انگشتان به طور برجسته بیرون نزنند، به راحتی می توان اشتباهات را از دست داد، اما این یک مشکل دائمی است.

Dall-E یکی از رهبران اولیه هوش مصنوعی بود، اما دست ها چیز او نیستند.
Dall-E یکی از رهبران اولیه هوش مصنوعی بود، اما دست ها چیز او نیستند. Dall-E توسط Alan Truly تحریک شده است

یکی از اولین و بهترین تولیدکننده‌های تصویر هوش مصنوعی در دسترس عموم، OpenAI’s Dall-E، این عکس‌ها را از افرادی که دست در دست هم گرفته بودند ایجاد کرد. در نگاه اول، ممکن است خوب به نظر برسد. با بررسی دقیق تر، برخی از مشکلات آشکار می شود. مراقب انگشتان اضافی، ناخن های عجیب و غریب و انگشت های به هم ریخته باشید.

مطلب پیشنهادی:  این رایانه شخصی Lenovo Tiny Workstation با 64 گیگابایت رم 42 درصد تخفیف دارد

گرفتن های پیچیده و انگشتان درهم پیچیده تر نیز چالش برانگیزتر هستند. تعجب نکنید اگر تصاویر هوش مصنوعی شما با مشکلات کلاسیکی به نام «سالاد دستی» یا «گلوله انگشتی» بازگردد.

پیکان های درهم تنیده Dall-E نگران کننده است.
پیکان های درهم تنیده Dall-E نگران کننده است. Dall-E توسط Alan Truly تحریک شده است

متن و نوشته مضطرب

ممکن است انتظار داشته باشید که تولید متن برای رایانه آسان باشد. وقتی تلفن را برمی دارید یا مرورگر را باز می کنید، هر روز شواهدی از کلمات را روی صفحه نمایش می بینید. کامپیوترهای اولیه، برخلاف بهترین کامپیوترهای بازی امروزی، قادر به نمایش هیچ گرافیکی نبودند. همش متن یا اعداد بود.

هوش مصنوعی لئوناردو سبک ها را می شناسد، اما متن چاپ شده یک چالش است.
هوش مصنوعی لئوناردو سبک ها را می شناسد، اما متن چاپ شده یک چالش است. هوش مصنوعی لئوناردو توسط آلن ترولی هل داده شد

با این حال نمایش حروف و نمادهای واقعی به عنوان کلمات چاپ شده یا نوشته شده برای یک تولید کننده تصویر هوش مصنوعی به طرز شگفت آوری دشوار است. شاید حل آن مشکلی آسان به نظر برسد، اما اینطور نیست. برنامه نمی‌تواند فقط متن ساده را پوشش دهد. برای متقاعد کردن، سبک متن، رنگ‌آمیزی، زاویه و پرسپکتیو باید با بقیه صحنه مطابقت داشته باشد.

در مثال، یک تولیدکننده تصویر نسبتاً جدید هوش مصنوعی، لئوناردو AI، تلاش شجاعانه‌ای را با یک بیلبورد قدیمی برای Jack Rabbit Slim’s Diner انجام داد. پس از تلاش‌های متعدد، هوش مصنوعی توانست هجی “Jack Rabbit’s” را بنویسد که بسیار نزدیک به پرس و جو است. سبک عکاسی رترو در هر تصویر مشخص بود، اما حروف و کلمات عمدتاً ناقص بودند.

هوش مصنوعی لئوناردو نزدیک بود که متن را در یکی از این رندرها درست کند.
لئوناردو AI متن صحیح را در رندر سمت چپ تقریب زد. لئوناردو AI رندر شده، تحت فشار آلن ترولی

چشم ها آن را ندارند

ایجاد کننده تصویر بینگ با چشم ها مبارزه می کند.
Bing Image Creator پیشنهاد شده توسط Alan Truly

اغلب گفته می شود که چشم ها پنجره ای به روح هستند. ما آنقدر به تماس چشمی متکی هستیم که می تواند مهمترین جزئیات در ایجاد یک پرتره واقع گرایانه باشد. اما بسیاری از ابزارهای هوش مصنوعی در رندر کردن چشم انسان مشکل دارند.

مطلب پیشنهادی:  5 چیزی که در مورد طراحی مجدد Google Docs دوست دارم

Bing Image Creator با پس‌زمینه استودیو و ژست گرفتن برای یک عکس خانوادگی چند نسلی کار شایسته‌ای انجام داد. با این حال، تقریباً هر فردی چشم‌های عجیبی دارد که به نظر می‌رسد توسط بیگانگان به چشم می‌خورد یا شاید این افراد خندان در حال تبدیل شدن به موجودات فرازمینی هستند.

دو مثال نزدیکتر از مشکلات چشمی Bing Image Creator.
دو مثال نزدیکتر از مشکلات چشمی مشکل ساز Bing Image Creator. Bing Image Creator پیشنهاد شده توسط Alan Truly

ابزار مشکل

انسان ها با ابزارها عالی هستند و نه فقط انواع دیجیتالی مانند هوش مصنوعی. ما به سرعت بر هر ابزار فیزیکی در دستمان مسلط می شویم. از سوی دیگر، هوش مصنوعی برای درک چیستی آنها و نحوه استفاده از آنها تلاش می کند.

Midjourney دست‌ها را می‌فهمد اما با آچارها گیج می‌شود.
Midjourney دست‌ها را می‌فهمد اما با آچارها گیج می‌شود. آیا آن یک لامپ در پایین سمت چپ است؟ Midjourney، به تحریک آلن ترولی

Midjourney یک تولید کننده تصویر هوش مصنوعی است که پیشرفت فوق العاده ای در حل مشکلات صورت و دست انسان دارد. با این حال، هنگامی که از مکانیک خواسته می شود تا پیچ و مهره را با آچار محکم کند، ابزار کاملاً وجود ندارد. در یک مورد، پنجه ها به دستکش اضافه می شود و در مورد دیگر، یک لامپ به نوعی ظاهر می شود.

قیچی برای ایجاد تصویر بینگ در این نمای نزدیک از موهای کوتاه بسیار پیچیده است. آنها فقط برای یک تصویر باز هستند و هرگز به نظر نمی رسد که در حال برش باشند.

Bing Image Creator نمی تواند قیچی را بفهمد.
Bing Image Creator نمی تواند نحوه عملکرد قیچی را درک کند. Bing Image Creator پیشنهاد شده توسط Alan Truly

دندان های کابوس

رندرهای پخش پایدار لبخند گاهی اوقات دندان های زیادی دارند.
انتشار پایدار از طریق هوش مصنوعی لئوناردو، تحت فشار آلن ترولی

وقتی مردم لبخند می زنند و می خندند، معمولاً تصویر را زیباتر و خنده دار می کند. زمانی که هوش مصنوعی به یک دستور ساده مانند لبخند زدن و خندیدن دو دانشجوی کالج داده می‌شود، هوش مصنوعی می‌تواند آن را با ردیف‌های دندان‌های متعدد و دیگر پیچ‌خوردگی‌های عجیب به سوخت کابوس تبدیل کند.

مطلب پیشنهادی:  اینها فرودگاه هایی هستند که در واقع دارای وای فای پرسرعت هستند

هوش مصنوعی لئوناردو به شما امکان می‌دهد از بین مدل‌های مختلفی انتخاب کنید، و برخی از آنها با دندان‌ها به خوبی عمل می‌کنند. مدل محبوب Stable Diffusion 2.1 به کمک کمی برای درست کردن دندان های خود نیاز داشت. با برخی پیشنهادات منفی، مشکل حل شد. راه حل های هوش مصنوعی برای این مشکلات تصویری وجود دارد، اما هنوز هم برای به دست آوردن نتایج خوب باید کار کرد.

شکلک های Stable Diffusion از پیام های منفی سود می برند.
لبخندهای انتشار پایدار از پیام های منفی برای حذف “دندان های عجیب و غریب” و “دهان کج” استفاده می کنند. انتشار پایدار از طریق هوش مصنوعی لئوناردو، تحت فشار آلن ترولی

هنر هوش مصنوعی به سرعت در حال پیشرفت است

در روزهای اولیه هنر هوش مصنوعی، نتایج عجیب و شگفت‌انگیز بود و زیبایی و وحشت را به همان اندازه ایجاد می‌کرد. اشکالات با هر به روز رسانی جدید کمتر قابل توجه می شوند و با کمی اصلاح می توان بر بسیاری از مشکلات غلبه کرد.

با بسیاری از ابزارهای هوش مصنوعی در دسترس، آزمایش یک سیستم دیگر آسان است. بسیاری از تولیدکنندگان تصویر هوش مصنوعی به پیام‌های منفی یا گزینه‌های دیگر اجازه می‌دهند تا الگوریتم را تغییر دهند و نتایج بهتری بگیرند.

ممکن است برای گرفتن یک عکس قابل استفاده چند بار تلاش کنید، به خصوص اگر فوکوس روی صورت یا دست باشد. هنگامی که می خواهید کلمات چاپ شده یا نوشته شده را اضافه کنید، آماده باشید که زمان خود را در ویرایشگر تصویر صرف حذف حروف بی معنی هوش مصنوعی و ترکیب متن صحیح کنید.

خبر خوب این است که بسیاری از تولیدکننده‌های تصویر هوش مصنوعی رایگان هستند و مدل‌های اشتراک آن نسبتاً ارزان هستند. در عرض یک سال، این مشکلات طولانی مدت می توانند حل شوند و به شما این امکان را می دهند که از تجسم هوش مصنوعی به عنوان یک اثر هنری تمام شده یا به عنوان جایگزینی برای عکس استفاده کنید.

توصیه های سردبیران






نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا