کامپیوتر

OpenAI برای شبیه سازی صدا به 15 ثانیه صدا نیاز دارد


در سال‌های اخیر، زمان گوش دادن مورد نیاز برای یک قطعه هوش مصنوعی برای شبیه‌سازی صدای یک نفر کوتاه‌تر و کوتاه‌تر شده است.

قبلا چند دقیقه بود، حالا فقط چند ثانیه.

OpenAI، شرکتی که توسط مایکروسافت پشتیبان چت ربات تولید کننده هوش مصنوعی ویروسی ChatGPT است، اخیراً فاش کرده است که فناوری شبیه‌سازی صدای اختصاصی آن تنها به ۱۵ ثانیه مواد صوتی برای بازتولید صدای دیگران نیاز دارد.

OpenAI در پستی در وب‌سایت خود، پیش‌نمایش کوچکی از مدلی به نام Voice Engine را که از اواخر سال ۲۰۲۲ در حال توسعه است، به اشتراک گذاشت.

موتور صوتی با تغذیه حداقل 15 ثانیه از مطالب گفتاری کار می کند. سپس کاربر می‌تواند متنی را برای ایجاد آنچه OpenAI به عنوان گفتار «احساسی و واقع‌گرایانه» توصیف می‌کند، وارد کند که «تقریباً شبیه سخنران اصلی است».

OpenAI اصرار دارد که “رویکردی محتاطانه و آگاهانه برای انتشار گسترده تر به دلیل احتمال سوء استفاده از صدای مصنوعی” اتخاذ می کند و اضافه می کند که می خواهد “گفتگویی را در مورد استقرار مسئولانه صداهای مصنوعی و چگونگی سازگاری جامعه با این قابلیت های جدید آغاز کند.” “”

وی افزود: بر اساس این گفتگوها و نتایج این آزمایشات در مقیاس کوچک، تصمیم آگاهانه تری در مورد اینکه آیا و چگونه این فناوری را در مقیاس اجرا کنیم، خواهیم گرفت.

یکی از سوء استفاده هایی که OpenAI به آن اشاره می کند، کلاهبرداری است که برخی از مجرمان در حال حاضر با استفاده از فناوری مشابهی که مدتی است در دسترس عموم قرار گرفته است، اجرا می کنند. این شامل شبیه سازی یک صدا و سپس تماس با دوست یا خویشاوند آن شخص برای فریب دادن آنها برای تحویل پول نقد از طریق انتقال سیمی است. همچنین نگرانی‌هایی در مورد نحوه استفاده از چنین فناوری در انتخابات ریاست‌جمهوری آتی وجود دارد، مسئله‌ای که با یک رویداد مهم اخیر که در آن یک تماس خودکار با استفاده از صدای پرزیدنت جو بایدن از مردم خواسته بود در انتخابات مقدماتی ایالات متحده رای ندهند، برجسته شد. نیوهمپشایر در ژانویه

مطلب پیشنهادی:  من سه سال است که لپ تاپ های گیمینگ مینی ال ای دی را آزمایش می کنم

نگرانی دیگر این است که چگونه بهبود سریع فناوری بر معیشت صداپیشگان تأثیر می گذارد، زیرا می ترسند به طور فزاینده ای از آنها خواسته شود تا حقوق صدای خود را امضا کنند تا بتوان از هوش مصنوعی برای ایجاد یک نسخه مصنوعی استفاده کرد و احتمالاً جبران چنین قراردادی وجود دارد. بسیار پایین تر از زمانی باشد که از بازیگر خواسته شده بود که کار را شخصاً اجرا کند.

با نگاهی به پیاده‌سازی‌های مثبت‌تر این فناوری، OpenAI پیشنهاد می‌کند که می‌توان از آن برای ارائه کمک خواندن به غیرخوانندگان و کودکان با استفاده از صداهای طبیعی و عاطفی استفاده کرد که «حجم وسیع‌تری از سخنرانان را نسبت به صدای از پیش تعیین‌شده ممکن نشان می‌دهد». و همچنین ترجمه فوری ویدیوها و پادکست ها، چیزی که Spotify در حال آزمایش است.

همچنین می‌توان از آن برای کمک به بیمارانی که به‌تدریج به دلیل بیماری صدای خود را از دست می‌دهند کمک کرد تا با استفاده از صدای خودشان به برقراری ارتباط ادامه دهند.

OpenAI چند نمونه از صداهای تولید شده توسط هوش مصنوعی و صدای مرجع را در وب سایت خود دارد، و ما مطمئن هستیم که شما موافق خواهید بود، آنها بسیار خارق العاده هستند.

توصیه های سردبیران






نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا