مدل متن به ویدیو OpenAI اذهان مردم را منفجر می کند
آخرین سرمایه گذاری OpenAI در زمینه هوش مصنوعی ممکن است چشمگیرترین آن باشد. این مدل جدید تبدیل متن به ویدئو با هوش مصنوعی که “Sora” نام دارد، به تازگی درهای خود را به روی تعداد محدودی از کاربرانی که می توانند آن را آزمایش کنند، باز کرده است. این شرکت با نمایش چند ویدیوی ساخته شده کاملاً توسط هوش مصنوعی شروع به کار کرد و نتایج نهایی به طرز تکان دهنده ای واقع بینانه است.
OpenAI با بیان اینکه میتواند صحنههای واقعی را بر اساس پیامهای متنی ایجاد کند، سورا را تبلیغ میکند و ویدیوهای به اشتراکگذاشتهشده در وبسایت آن به عنوان اثبات آن عمل میکنند. دستورات توصیفی اما مختصر هستند. من شخصاً فقط برای تعامل با ChatGPT از دستورهای طولانی تر استفاده کرده ام. به عنوان مثال، برای تولید ویدیوی ماموت پشمالوی تصویر بالا، Sora به یک دستور ۶۷ کلمه ای نیاز دارد که حیوانات، محیط اطراف و محل قرارگیری دوربین را توصیف کند.
معرفی سورا، مدل تبدیل متن به ویدیوی ما.
Sora میتواند ویدیوهای حداکثر 60 ثانیهای ایجاد کند که شامل صحنههای بسیار دقیق، حرکت پیچیده دوربین و شخصیتهای متعدد با احساسات واضح است. https://t.co/7j2JN27M3W
اعلان: “زیبا، برفی… pic.twitter.com/ruTEWn87vf
– OpenAI (@OpenAI) 15 فوریه 2024
OpenAI در اعلامیه خود گفت: «Sora میتواند ویدیوهایی به مدت یک دقیقه تولید کند، در حالی که کیفیت بصری و پیروی از درخواستهای کاربر را حفظ میکند. هوش مصنوعی میتواند صحنههای پیچیده پر از شخصیتها، مناظر و حرکت دقیق را ایجاد کند. برای این منظور، OpenAI میگوید که Sora در صورت لزوم بین خطوط را پیشبینی کرده و میخواند.
OpenAI گفت: “این مدل نه تنها آنچه را که کاربر در درخواست درخواست کرده است، بلکه چگونگی وجود آن چیزها در دنیای فیزیکی را نیز درک می کند.” این مدل فقط با شخصیتها، لباسها یا پسزمینهها سروکار ندارد، بلکه «شخصیتهای فریبندهای که احساسات واضح را بیان میکنند» خلق میکند.
Sora همچنین میتواند شکافهای موجود در یک ویدیوی موجود را پر کند یا آن را طولانیتر کند، و همچنین یک ویدیو بر اساس یک تصویر تولید کند، بنابراین همه آن فقط درخواستهای متنی نیست.
در حالی که ویدیوها بهعنوان اسکرین شات خوب به نظر میرسند، اما در حرکت، ذهنافکن هستند. OpenAI طیف وسیعی از ویدئوها را برای نمایش فناوری جدید ارائه کرد، از جمله خیابانهای توکیو سایبرپانک و «فیلمهای تاریخی» کالیفرنیا در طول موج طلا. موارد بیشتری نیز وجود دارد، از جمله نمای نزدیک شدید از چشم انسان. اعلان ها همه چیز را از کارتون گرفته تا تصاویر حیات وحش را پوشش می دهند.
با این حال، سورا برخی از اشتباهات را مرتکب شد. با نگاه دقیقتر مشخص میشود که مثلاً برخی از چهرههای جمعیت سر ندارند یا حرکت عجیبی دارند. حرکت ناهنجار در نگاه اول در برخی از نمونهها خودنمایی میکرد، اما عجیب و غریب بودن کلی نیاز به بازدیدهای متعدد داشت.
ممکن است مدتی طول بکشد تا OpenAI Sora را برای عموم مردم باز کند. در حال حاضر، این مدل توسط تیم های قرمز که خطرات احتمالی را ارزیابی می کنند، آزمایش خواهد شد. برخی از سازندگان نیز میتوانند آزمایش آن را در حالی که هنوز در مراحل اولیه توسعه است، شروع کنند.
هوش مصنوعی هنوز ناقص است، بنابراین انتظار داشتم چیزی بسیار به هم ریخته باشد. چه انتظارات کم باشد و چه توانایی های سورا، من تحت تأثیر قرار می گیرم، اما کمی نگران هم هستم. ما در حال حاضر در دنیایی زندگی می کنیم که در آن تشخیص جعلی از واقعی دشوار است، و اکنون فقط تصاویر نیستند که در معرض خطر هستند، ویدئوها نیز در معرض خطر هستند. با این حال، سورا به سختی اولین مدل تبدیل متن به ویدئویی است که ما دیده ایم، مانند پیکا.
برخی دیگر نیز پرچم را برافراشتند، مانند یوتیوببر محبوب فناوری، مارکز براونلیکه در پاسخ به ویدیوهای سورا توییت کرد که “اگر کمی شما را تحت تاثیر قرار ندهد، هیچ چیز نخواهد شد”.
تک تک این ویدیوها توسط هوش مصنوعی تولید میشوند و اگر این موضوع حداقل کمی شما را آزار ندهد،
آخرین مدل: https://t.co/zkDWU8Be9S
(یادت هست ویل اسمیت اسپاگتی می خورد؟ من خیلی سوال دارم) pic.twitter.com/TQ44wvNlQw
– مارکز براونلی (@MKBHD) 15 فوریه 2024
اگر سورای OpenAI اکنون بسیار خوب است، تصور اینکه در چند سال توسعه و آزمایش بیشتر چه توانایی هایی خواهد داشت، دشوار است. این نوعی از فناوری است که پتانسیل این را دارد که بسیاری از مشاغل را جابجا کند – اما امیدواریم، مانند ChatGPT، در عوض با متخصصان انسانی وجود داشته باشد.
توصیه های سردبیران