کامپیوتر

مدل متن به ویدیو OpenAI اذهان مردم را منفجر می کند

تصویر هوش مصنوعی که دو ماموت را در حال قدم زدن در میان برف، با کوه‌ها و جنگل در پس‌زمینه نشان می‌دهد.
OpenAI

آخرین سرمایه گذاری OpenAI در زمینه هوش مصنوعی ممکن است چشمگیرترین آن باشد. این مدل جدید تبدیل متن به ویدئو با هوش مصنوعی که “Sora” نام دارد، به تازگی درهای خود را به روی تعداد محدودی از کاربرانی که می توانند آن را آزمایش کنند، باز کرده است. این شرکت با نمایش چند ویدیوی ساخته شده کاملاً توسط هوش مصنوعی شروع به کار کرد و نتایج نهایی به طرز تکان دهنده ای واقع بینانه است.

OpenAI با بیان اینکه می‌تواند صحنه‌های واقعی را بر اساس پیام‌های متنی ایجاد کند، سورا را تبلیغ می‌کند و ویدیوهای به اشتراک‌گذاشته‌شده در وب‌سایت آن به عنوان اثبات آن عمل می‌کنند. دستورات توصیفی اما مختصر هستند. من شخصاً فقط برای تعامل با ChatGPT از دستورهای طولانی تر استفاده کرده ام. به عنوان مثال، برای تولید ویدیوی ماموت پشمالوی تصویر بالا، Sora به یک دستور ۶۷ کلمه ای نیاز دارد که حیوانات، محیط اطراف و محل قرارگیری دوربین را توصیف کند.

معرفی سورا، مدل تبدیل متن به ویدیوی ما.

Sora می‌تواند ویدیوهای حداکثر 60 ثانیه‌ای ایجاد کند که شامل صحنه‌های بسیار دقیق، حرکت پیچیده دوربین و شخصیت‌های متعدد با احساسات واضح است. https://t.co/7j2JN27M3W

اعلان: “زیبا، برفی… pic.twitter.com/ruTEWn87vf

– OpenAI (@OpenAI) 15 فوریه 2024

OpenAI در اعلامیه خود گفت: «Sora می‌تواند ویدیوهایی به مدت یک دقیقه تولید کند، در حالی که کیفیت بصری و پیروی از درخواست‌های کاربر را حفظ می‌کند. هوش مصنوعی می‌تواند صحنه‌های پیچیده پر از شخصیت‌ها، مناظر و حرکت دقیق را ایجاد کند. برای این منظور، OpenAI می‌گوید که Sora در صورت لزوم بین خطوط را پیش‌بینی کرده و می‌خواند.

مطلب پیشنهادی:  به نظر نمی رسد رایزن 7000 خیلی ارزان تر شود

OpenAI گفت: “این مدل نه تنها آنچه را که کاربر در درخواست درخواست کرده است، بلکه چگونگی وجود آن چیزها در دنیای فیزیکی را نیز درک می کند.” این مدل فقط با شخصیت‌ها، لباس‌ها یا پس‌زمینه‌ها سروکار ندارد، بلکه «شخصیت‌های فریبنده‌ای که احساسات واضح را بیان می‌کنند» خلق می‌کند.

Sora همچنین می‌تواند شکاف‌های موجود در یک ویدیوی موجود را پر کند یا آن را طولانی‌تر کند، و همچنین یک ویدیو بر اساس یک تصویر تولید کند، بنابراین همه آن فقط درخواست‌های متنی نیست.

در حالی که ویدیوها به‌عنوان اسکرین شات خوب به نظر می‌رسند، اما در حرکت، ذهن‌افکن هستند. OpenAI طیف وسیعی از ویدئوها را برای نمایش فناوری جدید ارائه کرد، از جمله خیابان‌های توکیو سایبرپانک و «فیلم‌های تاریخی» کالیفرنیا در طول موج طلا. موارد بیشتری نیز وجود دارد، از جمله نمای نزدیک شدید از چشم انسان. اعلان ها همه چیز را از کارتون گرفته تا تصاویر حیات وحش را پوشش می دهند.

با این حال، سورا برخی از اشتباهات را مرتکب شد. با نگاه دقیق‌تر مشخص می‌شود که مثلاً برخی از چهره‌های جمعیت سر ندارند یا حرکت عجیبی دارند. حرکت ناهنجار در نگاه اول در برخی از نمونه‌ها خودنمایی می‌کرد، اما عجیب و غریب بودن کلی نیاز به بازدیدهای متعدد داشت.

ممکن است مدتی طول بکشد تا OpenAI Sora را برای عموم مردم باز کند. در حال حاضر، این مدل توسط تیم های قرمز که خطرات احتمالی را ارزیابی می کنند، آزمایش خواهد شد. برخی از سازندگان نیز می‌توانند آزمایش آن را در حالی که هنوز در مراحل اولیه توسعه است، شروع کنند.

مطلب پیشنهادی:  Summer Game Fest 2023: Final Fantasy VII Rebirth Gets Gameplay Trailer، تاریخ انتشار Spider-Man 2 اعلام شد

هوش مصنوعی هنوز ناقص است، بنابراین انتظار داشتم چیزی بسیار به هم ریخته باشد. چه انتظارات کم باشد و چه توانایی های سورا، من تحت تأثیر قرار می گیرم، اما کمی نگران هم هستم. ما در حال حاضر در دنیایی زندگی می کنیم که در آن تشخیص جعلی از واقعی دشوار است، و اکنون فقط تصاویر نیستند که در معرض خطر هستند، ویدئوها نیز در معرض خطر هستند. با این حال، سورا به سختی اولین مدل تبدیل متن به ویدئویی است که ما دیده ایم، مانند پیکا.

برخی دیگر نیز پرچم را برافراشتند، مانند یوتیوب‌بر محبوب فناوری، مارکز براونلیکه در پاسخ به ویدیوهای سورا توییت کرد که “اگر کمی شما را تحت تاثیر قرار ندهد، هیچ چیز نخواهد شد”.

تک تک این ویدیوها توسط هوش مصنوعی تولید می‌شوند و اگر این موضوع حداقل کمی شما را آزار ندهد،

آخرین مدل: https://t.co/zkDWU8Be9S

(یادت هست ویل اسمیت اسپاگتی می خورد؟ من خیلی سوال دارم) pic.twitter.com/TQ44wvNlQw

– مارکز براونلی (@MKBHD) 15 فوریه 2024

اگر سورای OpenAI اکنون بسیار خوب است، تصور اینکه در چند سال توسعه و آزمایش بیشتر چه توانایی هایی خواهد داشت، دشوار است. این نوعی از فناوری است که پتانسیل این را دارد که بسیاری از مشاغل را جابجا کند – اما امیدواریم، مانند ChatGPT، در عوض با متخصصان انسانی وجود داشته باشد.

توصیه های سردبیران






نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا