OpenAI از “موتور صوتی” رونمایی کرد: گفتار انسان را تنها با 15 ثانیه نمونه صوتی تقلید می کند.
OpenAI که بهخاطر پیشرفتهای پیشگامانه خود در فناوری هوش مصنوعی با خلاقیتهایی مانند Sora، تولیدکننده ویدیوی خود شناخته میشود، اکنون «موتور صوتی» را معرفی کرده است، یک ابزار شبیهسازی صوتی پیشگام. این مدل صوتی قابل توجه تنها با استفاده از یک نمونه کوتاه 15 ثانیه ای از صدای اصلی می تواند تفاوت های ظریف گفتار انسان، از جمله لحن و الگوهای گفتار منحصر به فرد را به دقت بازتولید کند. علیرغم انتظار مشتاقانه، OpenAI تصمیم گرفته است که این ویژگی جدید را کاملاً مخفی نگه دارد و به نگرانی در مورد سوء استفاده احتمالی و انتشار محتوای جعلی آنلاین اشاره کرده است.
کارایی و دقت قابل توجه
این شرکت در یک پست وبلاگ اخیر گفت: “به طرز باورنکردنی، موتور صوتی ما می تواند صداهای احساسی و واقعی را تنها با استفاده از یک نمونه 15 ثانیه ای ایجاد کند.”
همچنین بخوانید: مایکروسافت و OpenAI پروژه 100 میلیارد دلاری مرکز داده هوش مصنوعی را با ابررایانه Stargate راه اندازی کردند.
موتور صوتی OpenAI در برابر استانداردهای صنعت
در مقابل، پلتفرمهای صوتی موجود در هوش مصنوعی مانند ElevenLabs معمولاً به نمونههای طولانیتری نیاز دارند و ابزار شبیهسازی صدای فوری آنها حداقل به یک دقیقه صدا برای کار کردن نیاز دارد. تقریباً 10 دقیقه سخنرانی مداوم برای نتایج مطلوب، به ویژه برای خدمات درجه حرفه ای توصیه می شود.
OpenAI قابلیتهای Voice Engine را از طریق نمایشهای مختلف نشان داد، از جمله یک مثال متحرک که در آن صدای یک بیمار جوان که به دلیل تومور مغزی توانایی تکلم خود را از دست داده بود، با استفاده از یک ضبط قدیمیتر از یک پروژه مدرسه بازتولید شد. این فناوری به او اجازه داد تا با صدای خود ارتباط برقرار کند، دستاوردی که با همکاری با Lifespan، یک سازمان غیرانتفاعی وابسته به دانشکده پزشکی دانشگاه براون، ممکن شد.
همچنین بخوانید: iOS 18 در WWDC 2024: ویژگی ها، ارتقاء هوش مصنوعی، تاریخ راه اندازی، دستگاه های پشتیبانی شده و موارد دیگر
علاوه بر این، OpenAI مشارکت با سازمانهایی مانند HeyGen را نشان داد که نشان میدهد چگونه موتور صوتی ترجمههای طبیعی گفتار را از یک زبان به زبان دیگر تسهیل میکند.
همچنین بخوانید: اپل ممکن است به زودی “نقشه های توپوگرافی” را در iPhone، Macbook ارائه دهد: چیست و همه جزئیات
طبق گفته OpenAI، Voice Engine در ابتدا در اواخر سال 2022 توسعه یافت و اکنون در صداهای از پیش تعیین شده موجود در API متن به گفتار OpenAI و همچنین ویژگی صوتی و خواندن به گفتار ChatGPT ادغام شده است. با این آخرین پیشرفت ها، این شرکت با احتیاط پیش از عرضه گسترده تر حرکت می کند.