OpenAI برای شبیه سازی صدا به 15 ثانیه صدا نیاز دارد
در سالهای اخیر، زمان گوش دادن مورد نیاز برای یک قطعه هوش مصنوعی برای شبیهسازی صدای یک نفر کوتاهتر و کوتاهتر شده است.
قبلا چند دقیقه بود، حالا فقط چند ثانیه.
OpenAI، شرکتی که توسط مایکروسافت پشتیبان چت ربات تولید کننده هوش مصنوعی ویروسی ChatGPT است، اخیراً فاش کرده است که فناوری شبیهسازی صدای اختصاصی آن تنها به ۱۵ ثانیه مواد صوتی برای بازتولید صدای دیگران نیاز دارد.
OpenAI در پستی در وبسایت خود، پیشنمایش کوچکی از مدلی به نام Voice Engine را که از اواخر سال ۲۰۲۲ در حال توسعه است، به اشتراک گذاشت.
موتور صوتی با تغذیه حداقل 15 ثانیه از مطالب گفتاری کار می کند. سپس کاربر میتواند متنی را برای ایجاد آنچه OpenAI به عنوان گفتار «احساسی و واقعگرایانه» توصیف میکند، وارد کند که «تقریباً شبیه سخنران اصلی است».
OpenAI اصرار دارد که “رویکردی محتاطانه و آگاهانه برای انتشار گسترده تر به دلیل احتمال سوء استفاده از صدای مصنوعی” اتخاذ می کند و اضافه می کند که می خواهد “گفتگویی را در مورد استقرار مسئولانه صداهای مصنوعی و چگونگی سازگاری جامعه با این قابلیت های جدید آغاز کند.” “”
وی افزود: بر اساس این گفتگوها و نتایج این آزمایشات در مقیاس کوچک، تصمیم آگاهانه تری در مورد اینکه آیا و چگونه این فناوری را در مقیاس اجرا کنیم، خواهیم گرفت.
یکی از سوء استفاده هایی که OpenAI به آن اشاره می کند، کلاهبرداری است که برخی از مجرمان در حال حاضر با استفاده از فناوری مشابهی که مدتی است در دسترس عموم قرار گرفته است، اجرا می کنند. این شامل شبیه سازی یک صدا و سپس تماس با دوست یا خویشاوند آن شخص برای فریب دادن آنها برای تحویل پول نقد از طریق انتقال سیمی است. همچنین نگرانیهایی در مورد نحوه استفاده از چنین فناوری در انتخابات ریاستجمهوری آتی وجود دارد، مسئلهای که با یک رویداد مهم اخیر که در آن یک تماس خودکار با استفاده از صدای پرزیدنت جو بایدن از مردم خواسته بود در انتخابات مقدماتی ایالات متحده رای ندهند، برجسته شد. نیوهمپشایر در ژانویه
نگرانی دیگر این است که چگونه بهبود سریع فناوری بر معیشت صداپیشگان تأثیر می گذارد، زیرا می ترسند به طور فزاینده ای از آنها خواسته شود تا حقوق صدای خود را امضا کنند تا بتوان از هوش مصنوعی برای ایجاد یک نسخه مصنوعی استفاده کرد و احتمالاً جبران چنین قراردادی وجود دارد. بسیار پایین تر از زمانی باشد که از بازیگر خواسته شده بود که کار را شخصاً اجرا کند.
با نگاهی به پیادهسازیهای مثبتتر این فناوری، OpenAI پیشنهاد میکند که میتوان از آن برای ارائه کمک خواندن به غیرخوانندگان و کودکان با استفاده از صداهای طبیعی و عاطفی استفاده کرد که «حجم وسیعتری از سخنرانان را نسبت به صدای از پیش تعیینشده ممکن نشان میدهد». و همچنین ترجمه فوری ویدیوها و پادکست ها، چیزی که Spotify در حال آزمایش است.
همچنین میتوان از آن برای کمک به بیمارانی که بهتدریج به دلیل بیماری صدای خود را از دست میدهند کمک کرد تا با استفاده از صدای خودشان به برقراری ارتباط ادامه دهند.
OpenAI چند نمونه از صداهای تولید شده توسط هوش مصنوعی و صدای مرجع را در وب سایت خود دارد، و ما مطمئن هستیم که شما موافق خواهید بود، آنها بسیار خارق العاده هستند.
توصیه های سردبیران