آیا تولیدکنندگان ویدیوی هوش مصنوعی رویای سن پدرو را در سر می پرورانند؟ مدونا یکی از اولین پذیرندگان موج بعدی هوش مصنوعی است
هر زمان که مدونا در تور کنسرت خود آهنگ «La Isla Bonita» را در دهه 1980 می خواند، تصاویر متحرکی از ابرهای در حال چرخش غروب خورشید بر روی صفحه نمایش های غول پیکر سالن در پشت سر او پخش می شود.
برای دستیابی به این نگاه اثیری، افسانه پاپ شاخه ای از هوش مصنوعی مولد – ابزار تبدیل متن به ویدئو – هنوز کشف نشده را در آغوش گرفت. چند کلمه تایپ کنید – بگویید “غروب ابری سورئال” یا “آبشار جنگل در سپیده دم” – و یک ویدیو فورا ساخته می شود.
به دنبال رباتهای چت هوش مصنوعی و تولیدکنندههای تصویر ثابت، برخی از علاقهمندان به ویدیوهای هوش مصنوعی میگویند که فناوری در حال ظهور روزی میتواند سرگرمی را متحول کند و به شما امکان میدهد فیلم خود را با داستانها و پایانهای قابل تنظیم انتخاب کنید. اما آنها راه درازی در پیش دارند تا بتوانند این کار را انجام دهند و مشکلات اخلاقی زیادی در این راه دارند.
برای پذیرندگان اولیه مانند مدونا، که مدت ها پیش مرزهای هنر را جابجا کرد، این بیشتر یک آزمایش بود. او نسخه قبلی از تصاویر بصری کنسرت “La Isla Bonita” را رد کرد، که در آن از گرافیک های کامپیوتری معمولی برای برانگیختن حال و هوای گرمسیری استفاده می شد.
ما CGI را امتحان کردیم. ساشا کاسیوها، مدیر محتوای تور تعطیلات مدونا، که تا پایان آوریل ادامه دارد، گفت: «خیلی خسته کننده و شیک به نظر می رسید و او آن را دوست نداشت. و سپس تصمیم گرفتیم هوش مصنوعی را امتحان کنیم.
OpenAI، خالق ChatGPT، زمانی که این شرکت اخیراً Sora را به نمایش گذاشت، ابزار جدیدی که هنوز به صورت عمومی در دسترس نیست، نگاهی اجمالی به فناوری پیشرفته تبدیل متن به ویدئو داشت. تیم مدونا در حال آزمایش محصولی متفاوت از استارتآپ نیویورکی Runway است که با انتشار اولین مدل عمومی متن به ویدیو در مارس گذشته، به پیشگامی در این فناوری کمک کرد. این شرکت نسخه پیشرفته تر “Gen-2” را در ماه ژوئن عرضه کرد.
کریستوبال والنزوئلا، مدیر اجرایی Runway میگوید در حالی که برخی این ابزارها را بهعنوان «دستگاهی جادویی میدانند که شما در یک کلمه تایپ میکنید و به نوعی دقیقاً همان چیزی را که در سر داشتید را صدا میکند»، مؤثرترین رویکردها از سوی متخصصان خلاقی است که به دنبال ارتقای دهههای دیجیتال قدیمی هستند. نرم افزار ویرایشی که قبلاً استفاده می کنند.
او گفت Runway هنوز نمی تواند یک مستند کامل بسازد. اما میتواند به پر کردن ویدیوی پسزمینه یا b-roll کمک کند – نماها و صحنههایی که به بیان داستان کمک میکنند.
والنزوئلا گفت: “شاید یک هفته از کار شما صرفه جویی می کند.” موضوع مشترک بسیاری از موارد استفاده این است که مردم از آن به عنوان راهی برای تقویت یا سرعت بخشیدن به کاری که قبلا می توانستند انجام دهند استفاده می کنند.
مشتریان هدف Runway «شرکتهای اصلی پخش، شرکتهای تولید، شرکتهای پس از تولید، شرکتهای جلوههای بصری، تیمهای بازاریابی، شرکتهای تبلیغاتی هستند. والنزوئلا گفت بسیاری از مردم برای امرار معاش محتوا تولید می کنند.
خطرات در انتظار بدون پادمانهای مؤثر، تولیدکنندگان ویدیوی هوش مصنوعی میتوانند دموکراسیها را با ویدیوهای «عمیق جعلی» متقاعدکننده از چیزهایی که هرگز اتفاق نیفتادهاند، تهدید کنند، یا – همانطور که در حال حاضر با تولیدکنندههای تصویر هوش مصنوعی اتفاق میافتد – اینترنت را با صحنههای پورن جعلی که به نظر میرسد افراد واقعی را به تصویر میکشند و قابل تشخیص هستند، تهدید کنند. چهره ها. تحت فشار تنظیمکنندهها، شرکتهای فناوری بزرگ متعهد شدهاند که نتایج حاصل از هوش مصنوعی را برای کمک به شناسایی واقعی بودن علامتگذاری کنند.
همچنین اختلافات مربوط به حق نسخهبرداری بر سر مجموعههای ویدئویی و تصویری که سیستمهای هوش مصنوعی در آنها آموزش میبینند (نه Runway و نه OpenAI منابع دادههای خود را فاش نمیکنند) و میزان بازتولید غیرمنصفانه آثار دارای علامت تجاری در جریان است. و این نگرانی وجود دارد که در برخی مواقع ماشینهای فیلمسازی جایگزین مشاغل و هنر انسانی شوند.
تا کنون، طولانیترین ویدیوهای تولید شده با هوش مصنوعی همچنان در ثانیه اندازهگیری میشوند و میتوانند شامل حرکات تند و مسائلی مانند دستها و انگشتان دست و پا باشد. الکساندر وایبل، استاد علوم کامپیوتر در دانشگاه کارنگی ملون که از دهه 1970 بر روی هوش مصنوعی تحقیق کرده است، گفت: رفع این مشکل “فقط یک مسئله داده های بیشتر و آموزش بیشتر” است و قدرت محاسباتی که این آموزش به آن بستگی دارد.
وایبل گفت: «اکنون میتوانم بگویم، ویدیویی از خرگوشی با لباس ناپلئون در حال قدم زدن در نیویورک برای من بساز. “می داند نیویورک چه شکلی است، یک خرگوش چگونه است، ناپلئون چگونه است.”
او گفت که تاثیرگذار است، اما هنوز تا ایجاد یک طرح جذاب فاصله دارد.
قبل از انتشار مدل نسل اول خود در سال گذشته، ادعای Runway برای شهرت هوش مصنوعی به عنوان یکی از توسعه دهندگان تولید کننده تصویر Stable Diffusion بود. شرکت دیگری به نام Stability AI مستقر در لندن، از آن زمان توسعه Stable Diffusion را بر عهده گرفت.
فناوری زیربنایی “مدل انتشار” در پشت اکثر مولدهای پیشرو تصویر و ویدئو با هوش مصنوعی با نقشهبرداری نویز یا دادههای تصادفی روی تصاویر کار میکند، به طور موثری یک تصویر اصلی را از بین میبرد و سپس پیشبینی میکند که تصویر جدید چگونه باید باشد. این یک ایده از فیزیک به عاریت گرفته است که می تواند برای توصیف، به عنوان مثال، چگونگی انتشار یک گاز به بیرون استفاده شود.
فیلیپ ایزولا، دانشیار علوم کامپیوتر در MIT گفت: «کاری که مدلهای انتشار انجام میدهند این است که این فرآیند را معکوس میکنند. «آنها به نوعی تصادفی بودن را می گیرند و دوباره آن را در حجم ثابت می کنند. این راهی است که می توان از تصادفی به محتوا رفت. و بنابراین می توانید ویدیوهای تصادفی بسازید.
دانیلا راس، یکی دیگر از استادان MIT که آزمایشگاه علوم کامپیوتر و هوش مصنوعی آن را هدایت می کند، گفت: تولید ویدئو پیچیده تر از تصاویر ثابت است، زیرا باید پویایی های زمانی یا چگونگی تغییر عناصر یک ویدئو در طول زمان و در طول توالی فریم ها را در نظر بگیرد.
روس گفت که منابع محاسباتی مورد نیاز “به طور قابل توجهی بالاتر از تولید تصاویر ثابت است” زیرا “شامل پردازش و تولید فریم های متعدد برای هر ثانیه از ویدئو است.”
این باعث نمیشود که برخی از شرکتهای فناوری ثروتمند از تلاش برای پیشی گرفتن از یکدیگر در نمایش تولید ویدیوی هوش مصنوعی با کیفیت بالاتر در مدت زمان طولانیتر جلوگیری کنند. نیاز به توضیحات مکتوب برای ایجاد یک تصویر تنها آغاز کار بود. گوگل اخیراً پروژه جدیدی به نام Genie را به نمایش گذاشته است که میتواند از آن خواسته شود تا یک عکس یا حتی یک طرح را به «تنوع بینهایت» دنیای بازیهای ویدیویی تبدیل کند که میتوان آنها را کاوش کرد.
آدیتی سینگ، محقق دانشگاه ایالتی کلیولند که بازار متن به ویدئو را مطالعه کرده است، گفت: در آینده نزدیک، ویدیوهای تولید شده توسط هوش مصنوعی احتمالاً در محتوای بازاریابی و آموزشی ظاهر می شوند و جایگزین ارزان تری برای ایجاد فیلم اصلی یا تولید ویدیوهای استوک است. .
زمانی که مدونا برای اولین بار با تیمش در مورد هوش مصنوعی صحبت کرد، “هدف اصلی این نبود، “اوه ببین، این یک ویدیوی هوش مصنوعی است”، کاسیوها، مدیر خلاق گفت.
Kasiuha گفت: “او از من پرسید: “آیا می توانی فقط از یکی از این ابزارهای هوش مصنوعی برای وضوح تصویر استفاده کنی تا مطمئن شوی که به روز و با وضوح بالا به نظر می رسد؟” وقتی شما فناوری جدید و انواع جدیدی از تصاویر را به ارمغان می آورید، دوست دارد.»
فیلم های طولانی تری تولید شده توسط هوش مصنوعی در حال حاضر ساخته می شوند. Runway میزبان جشنواره فیلم هوش مصنوعی سالانه برای نمایش چنین آثاری است. اما اینکه آیا این همان چیزی است که مخاطبان انسانی برای تماشا انتخاب خواهند کرد، باید دید.
وایبل، پروفسور CMU گفت: “من هنوز به مردم اعتقاد دارم.” من هنوز معتقدم که در نهایت این یک همزیستی خواهد بود که در آن شما هوش مصنوعی دریافت می کنید که چیزی را پیشنهاد می کند و یک انسان آن را بهبود می بخشد یا هدایت می کند. یا انسان ها این کار را انجام می دهند و هوش مصنوعی آن را برطرف می کند.»
جوزف بی. فردریک، خبرنگار آسوشیتدپرس در این گزارش مشارکت داشت.
اخبار برتر امروز را بیشتر بخوانید:
Nothing به رهبری Carl Pei آماده است تا گوشی هوشمند میان رده خود، Nothing Phone 2a را در 5 مارس در هند عرضه کند! برخی از جزئیات جالب در این مقاله. اینجا را ببینید
موتو طراحی و ویژگیهای هوش مصنوعی خود را به نمایش گذاشته است و میگوید که به زودی موتورولا X50 Ultra معرفی خواهد شد. به عنوان رقیبی برای Samsung Galaxy S24 تبلیغ می شود. برخی از جزئیات جالب در این مقاله. اینجا را ببینید.
آمریکا مقابل چین! ایالات متحده در بحبوحه نگرانی ها در مورد فناوری چین، با تاکید بر خطرات هوش مصنوعی، سیاست های حفاظت از داده ها را مجددا ارزیابی می کند. آخرین اقدامات رئیس جمهور بایدن با هدف محدود کردن جریان داده های حساس به خارج از کشور برای جلوگیری از جاسوسی و باج خواهی انجام شده است. همه چیز در مورد آن را اینجا بخوانید.
یک چیز دیگر! ما اکنون در کانال های واتس اپ هستیم! ما را در آنجا دنبال کنید تا هیچ به روز رسانی دنیای فناوری را از دست ندهید. برای دنبال کردن کانال واتساپ HT Tech کلیک کنید اینجا برای پیوستن در حال حاضر!