تکنولوژی

OpenAI از “موتور صوتی” رونمایی کرد: گفتار انسان را تنها با 15 ثانیه نمونه صوتی تقلید می کند.

OpenAI که به‌خاطر پیشرفت‌های پیشگامانه خود در فناوری هوش مصنوعی با خلاقیت‌هایی مانند Sora، تولیدکننده ویدیوی خود شناخته می‌شود، اکنون «موتور صوتی» را معرفی کرده است، یک ابزار شبیه‌سازی صوتی پیشگام. این مدل صوتی قابل توجه تنها با استفاده از یک نمونه کوتاه 15 ثانیه ای از صدای اصلی می تواند تفاوت های ظریف گفتار انسان، از جمله لحن و الگوهای گفتار منحصر به فرد را به دقت بازتولید کند. علیرغم انتظار مشتاقانه، OpenAI تصمیم گرفته است که این ویژگی جدید را کاملاً مخفی نگه دارد و به نگرانی در مورد سوء استفاده احتمالی و انتشار محتوای جعلی آنلاین اشاره کرده است.

کارایی و دقت قابل توجه

این شرکت در یک پست وبلاگ اخیر گفت: “به طرز باورنکردنی، موتور صوتی ما می تواند صداهای احساسی و واقعی را تنها با استفاده از یک نمونه 15 ثانیه ای ایجاد کند.”

همچنین بخوانید: مایکروسافت و OpenAI پروژه 100 میلیارد دلاری مرکز داده هوش مصنوعی را با ابررایانه Stargate راه اندازی کردند.

موتور صوتی OpenAI در برابر استانداردهای صنعت

در مقابل، پلتفرم‌های صوتی موجود در هوش مصنوعی مانند ElevenLabs معمولاً به نمونه‌های طولانی‌تری نیاز دارند و ابزار شبیه‌سازی صدای فوری آن‌ها حداقل به یک دقیقه صدا برای کار کردن نیاز دارد. تقریباً 10 دقیقه سخنرانی مداوم برای نتایج مطلوب، به ویژه برای خدمات درجه حرفه ای توصیه می شود.

OpenAI قابلیت‌های Voice Engine را از طریق نمایش‌های مختلف نشان داد، از جمله یک مثال متحرک که در آن صدای یک بیمار جوان که به دلیل تومور مغزی توانایی تکلم خود را از دست داده بود، با استفاده از یک ضبط قدیمی‌تر از یک پروژه مدرسه بازتولید شد. این فناوری به او اجازه داد تا با صدای خود ارتباط برقرار کند، دستاوردی که با همکاری با Lifespan، یک سازمان غیرانتفاعی وابسته به دانشکده پزشکی دانشگاه براون، ممکن شد.

مطلب پیشنهادی:  موشک اسپیس ایکس به ایستگاه فضایی بین المللی پرتاب شد. یک خدمه 4 نفره برای ناسا حمل می کند

همچنین بخوانید: iOS 18 در WWDC 2024: ویژگی ها، ارتقاء هوش مصنوعی، تاریخ راه اندازی، دستگاه های پشتیبانی شده و موارد دیگر

علاوه بر این، OpenAI مشارکت با سازمان‌هایی مانند HeyGen را نشان داد که نشان می‌دهد چگونه موتور صوتی ترجمه‌های طبیعی گفتار را از یک زبان به زبان دیگر تسهیل می‌کند.

همچنین بخوانید: اپل ممکن است به زودی “نقشه های توپوگرافی” را در iPhone، Macbook ارائه دهد: چیست و همه جزئیات

طبق گفته OpenAI، Voice Engine در ابتدا در اواخر سال 2022 توسعه یافت و اکنون در صداهای از پیش تعیین شده موجود در API متن به گفتار OpenAI و همچنین ویژگی صوتی و خواندن به گفتار ChatGPT ادغام شده است. با این آخرین پیشرفت ها، این شرکت با احتیاط پیش از عرضه گسترده تر حرکت می کند.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا