5 چیزی که تولیدکنندگان تصویر هوش مصنوعی هنوز با آن ها دست و پنجه نرم می کنند
تولیدکنندههای تصویر هوش مصنوعی مانند Dall-E، Stable Diffusion، Midjourney و Bing Image Creator نتایج شگفتانگیزی ایجاد میکنند، اما گاهی اوقات میتوانند بهطور باورنکردنی خستهکننده باشند. هوش مصنوعی با اعلانهای سادهای که فقط شامل چند کلمه است، میتواند تصاویر چشمگیری را تولید کند که شبیه عکسهای حرفهای و هنری متقاعدکننده در سبکهای مختلف هستند. با این حال، همین درخواست گهگاه باعث ایجاد موجودی وحشتناک یا ارائه نادرست خندهدار میشود.
درخواست های منفی می تواند به کاهش احتمال این خطاها کمک کند، اما پیچیدگی همیشه نمی تواند شما را نجات دهد. حتی متخصصان هوش مصنوعی با موجودات تغییر شکل یافته و صحنه های دنیای ماورایی که نیاز به ساعت های طولانی دستورات تنظیم دقیق یا روتوش تصاویر با یک ویرایشگر عکس سنتی دارند، دست و پنجه نرم می کنند. در حال حاضر، اگر از نزدیک به نواحی مناسب تصویر نگاه کنید، شانس خوبی وجود دارد که بتوانید تشخیص دهید که توسط یک ماشین ساخته شده است یا خیر.
سالاد دستی و توپ انگشتی
توسعه دهندگان هوش مصنوعی در تلاش برای آموزش ابزارهای هوش مصنوعی پیشرفت هایی داشته اند که دست های انسان چگونه باید باشد، اما جای زیادی برای بهبود وجود دارد. اگر انگشتان به طور برجسته بیرون نزنند، به راحتی می توان اشتباهات را از دست داد، اما این یک مشکل دائمی است.
یکی از اولین و بهترین تولیدکنندههای تصویر هوش مصنوعی در دسترس عموم، OpenAI’s Dall-E، این عکسها را از افرادی که دست در دست هم گرفته بودند ایجاد کرد. در نگاه اول، ممکن است خوب به نظر برسد. با بررسی دقیق تر، برخی از مشکلات آشکار می شود. مراقب انگشتان اضافی، ناخن های عجیب و غریب و انگشت های به هم ریخته باشید.
گرفتن های پیچیده و انگشتان درهم پیچیده تر نیز چالش برانگیزتر هستند. تعجب نکنید اگر تصاویر هوش مصنوعی شما با مشکلات کلاسیکی به نام «سالاد دستی» یا «گلوله انگشتی» بازگردد.
متن و نوشته مضطرب
ممکن است انتظار داشته باشید که تولید متن برای رایانه آسان باشد. وقتی تلفن را برمی دارید یا مرورگر را باز می کنید، هر روز شواهدی از کلمات را روی صفحه نمایش می بینید. کامپیوترهای اولیه، برخلاف بهترین کامپیوترهای بازی امروزی، قادر به نمایش هیچ گرافیکی نبودند. همش متن یا اعداد بود.
با این حال نمایش حروف و نمادهای واقعی به عنوان کلمات چاپ شده یا نوشته شده برای یک تولید کننده تصویر هوش مصنوعی به طرز شگفت آوری دشوار است. شاید حل آن مشکلی آسان به نظر برسد، اما اینطور نیست. برنامه نمیتواند فقط متن ساده را پوشش دهد. برای متقاعد کردن، سبک متن، رنگآمیزی، زاویه و پرسپکتیو باید با بقیه صحنه مطابقت داشته باشد.
در مثال، یک تولیدکننده تصویر نسبتاً جدید هوش مصنوعی، لئوناردو AI، تلاش شجاعانهای را با یک بیلبورد قدیمی برای Jack Rabbit Slim’s Diner انجام داد. پس از تلاشهای متعدد، هوش مصنوعی توانست هجی “Jack Rabbit’s” را بنویسد که بسیار نزدیک به پرس و جو است. سبک عکاسی رترو در هر تصویر مشخص بود، اما حروف و کلمات عمدتاً ناقص بودند.
چشم ها آن را ندارند
اغلب گفته می شود که چشم ها پنجره ای به روح هستند. ما آنقدر به تماس چشمی متکی هستیم که می تواند مهمترین جزئیات در ایجاد یک پرتره واقع گرایانه باشد. اما بسیاری از ابزارهای هوش مصنوعی در رندر کردن چشم انسان مشکل دارند.
Bing Image Creator با پسزمینه استودیو و ژست گرفتن برای یک عکس خانوادگی چند نسلی کار شایستهای انجام داد. با این حال، تقریباً هر فردی چشمهای عجیبی دارد که به نظر میرسد توسط بیگانگان به چشم میخورد یا شاید این افراد خندان در حال تبدیل شدن به موجودات فرازمینی هستند.
ابزار مشکل
انسان ها با ابزارها عالی هستند و نه فقط انواع دیجیتالی مانند هوش مصنوعی. ما به سرعت بر هر ابزار فیزیکی در دستمان مسلط می شویم. از سوی دیگر، هوش مصنوعی برای درک چیستی آنها و نحوه استفاده از آنها تلاش می کند.
Midjourney یک تولید کننده تصویر هوش مصنوعی است که پیشرفت فوق العاده ای در حل مشکلات صورت و دست انسان دارد. با این حال، هنگامی که از مکانیک خواسته می شود تا پیچ و مهره را با آچار محکم کند، ابزار کاملاً وجود ندارد. در یک مورد، پنجه ها به دستکش اضافه می شود و در مورد دیگر، یک لامپ به نوعی ظاهر می شود.
قیچی برای ایجاد تصویر بینگ در این نمای نزدیک از موهای کوتاه بسیار پیچیده است. آنها فقط برای یک تصویر باز هستند و هرگز به نظر نمی رسد که در حال برش باشند.
دندان های کابوس
وقتی مردم لبخند می زنند و می خندند، معمولاً تصویر را زیباتر و خنده دار می کند. زمانی که هوش مصنوعی به یک دستور ساده مانند لبخند زدن و خندیدن دو دانشجوی کالج داده میشود، هوش مصنوعی میتواند آن را با ردیفهای دندانهای متعدد و دیگر پیچخوردگیهای عجیب به سوخت کابوس تبدیل کند.
هوش مصنوعی لئوناردو به شما امکان میدهد از بین مدلهای مختلفی انتخاب کنید، و برخی از آنها با دندانها به خوبی عمل میکنند. مدل محبوب Stable Diffusion 2.1 به کمک کمی برای درست کردن دندان های خود نیاز داشت. با برخی پیشنهادات منفی، مشکل حل شد. راه حل های هوش مصنوعی برای این مشکلات تصویری وجود دارد، اما هنوز هم برای به دست آوردن نتایج خوب باید کار کرد.
هنر هوش مصنوعی به سرعت در حال پیشرفت است
در روزهای اولیه هنر هوش مصنوعی، نتایج عجیب و شگفتانگیز بود و زیبایی و وحشت را به همان اندازه ایجاد میکرد. اشکالات با هر به روز رسانی جدید کمتر قابل توجه می شوند و با کمی اصلاح می توان بر بسیاری از مشکلات غلبه کرد.
با بسیاری از ابزارهای هوش مصنوعی در دسترس، آزمایش یک سیستم دیگر آسان است. بسیاری از تولیدکنندگان تصویر هوش مصنوعی به پیامهای منفی یا گزینههای دیگر اجازه میدهند تا الگوریتم را تغییر دهند و نتایج بهتری بگیرند.
ممکن است برای گرفتن یک عکس قابل استفاده چند بار تلاش کنید، به خصوص اگر فوکوس روی صورت یا دست باشد. هنگامی که می خواهید کلمات چاپ شده یا نوشته شده را اضافه کنید، آماده باشید که زمان خود را در ویرایشگر تصویر صرف حذف حروف بی معنی هوش مصنوعی و ترکیب متن صحیح کنید.
خبر خوب این است که بسیاری از تولیدکنندههای تصویر هوش مصنوعی رایگان هستند و مدلهای اشتراک آن نسبتاً ارزان هستند. در عرض یک سال، این مشکلات طولانی مدت می توانند حل شوند و به شما این امکان را می دهند که از تجسم هوش مصنوعی به عنوان یک اثر هنری تمام شده یا به عنوان جایگزینی برای عکس استفاده کنید.
توصیه های سردبیران