Microsoft VALL-E صدای یک نفر را از یک نمونه 3 ثانیه ای شبیه سازی می کند
محققان مایکروسافت اپلیکیشن جدیدی را معرفی کرده اند که از هوش مصنوعی برای تقلید صدای انسان تنها با چند ثانیه آموزش استفاده می کند. سپس می توان از مدل صدا برای برنامه های کاربردی سنتز گفتار استفاده کرد.
محققان در مقاله ای که به صورت آنلاین در arXiv منتشر شده است، نوشتند که این برنامه که VALL-E نام دارد، می تواند برای ترکیب گفتار شخصی شده با کیفیت بالا تنها با یک ضبط سه ثانیه ای از یک بلندگو به عنوان یک پیام صوتی استفاده شود. -دسترسی به آرشیو مقالات پژوهشی
اکنون برنامههایی وجود دارند که میتوانند گفتار را به یک جریان صوتی برش داده و جایگذاری کنند و آن گفتار از متن تایپ شده به صدای گفتاری تبدیل میشود. با این حال، این برنامه باید برای تقلید از صدای انسان آموزش داده شود که ممکن است یک ساعت یا بیشتر طول بکشد.
یکی از نکات قابل توجه در مورد این مدل این است که این کار را در عرض چند ثانیه انجام می دهد. راس روبین، تحلیلگر اصلی در Reticle Research، یک شرکت مشاوره فناوری مصرف کننده در نیویورک، به دیجیتال تو گفت که این بسیار چشمگیر است.
به گفته محققان، VALL-E به طور قابل توجهی از سیستم های پیشرفته تبدیل متن به گفتار (TTS) هم در طبیعی بودن گفتار و هم شباهت گوینده بهتر است.
علاوه بر این، VALL-E می تواند احساسات و محیط آکوستیک گوینده را حفظ کند. بنابراین اگر نمونه گفتاری از طریق تلفن ضبط شده باشد، برای مثال، متنی که از آن صدا استفاده میکند، به نظر میرسد که از طریق تلفن خوانده میشود.
“فوق العاده چشمگیر”
جاکومو میچلی، دانشمند کامپیوتر و خالق وب سایت بحث و گفتگوی بی پایانی که توسط هوش مصنوعی تولید شده است، گفت: VALL-E نسبت به سیستم های پیشرفته قبلی، مانند YourTTS، که در اوایل سال 2022 راه اندازی شد، پیشرفت قابل توجهی دارد. و اسلاوی ژیژک.
Micheli به دیجیتال تو گفت: «چیزی که در مورد VALL-E جالب است نه تنها این واقعیت است که برای شبیهسازی یک صدا تنها به سه ثانیه صدا نیاز دارد، بلکه تا چه حد میتواند با آن صدا، صدای عاطفی و هر نویز پسزمینه مطابقت داشته باشد. ریتو جیوتی، نایب رئیس گروه هوش مصنوعی و اتوماسیون در IDC، یک شرکت تحقیقاتی بازار جهانی، VALL-E را “مهم و فوق العاده چشمگیر” نامید.
جیوتی به دیجیتال تو گفت: «این یک پیشرفت قابل توجه نسبت به مدلهای قبلی است که به دوره آموزشی بسیار طولانیتری برای تولید صدای جدید نیاز داشت.
او افزود: «این هنوز آغاز این فناوری است و انتظار میرود پیشرفتهای بیشتری برای اینکه آن را انسانیتر به نظر برساند».
تقلید عاطفی مورد بحث
برخلاف OpenAI، سازنده ChatGPT، مایکروسافت VALL-E را به روی عموم باز نکرده است، بنابراین سوالاتی در مورد عملکرد آن باقی مانده است. به عنوان مثال، آیا عواملی وجود دارد که می تواند گفتار تولید شده توسط برنامه را کاهش دهد؟
میسلی خاطرنشان کرد: «هرچه قطعه صوتی تولید شده طولانیتر باشد، شانس بیشتری برای شنیدن چیزهایی که کمی عجیبتر به نظر میرسند، بیشتر میشود. کلمات ممکن است در ترکیب گفتار نامشخص، حذف شده یا تکراری باشند.
او افزود: «همچنین ممکن است جابجایی بین ثبت احساسات غیرطبیعی به نظر برسد.
توانایی این اپلیکیشن برای تقلید از احساسات گوینده نیز شکاکان خود را دارد. Mark N. Vena، رئیس و تحلیلگر اصلی در SmartTech Research در سن خوزه، کالیفرنیا، گفت: جالب است که ببینیم این قابلیت چقدر قوی است.
او ادامه داد: «با توجه به محدودیتهای فعلی الگوریتمهای هوش مصنوعی، که به نمونههای صوتی بسیار طولانیتری نیاز دارند، این واقعیت که آنها ادعا میکنند میتواند این کار را تنها با چند ثانیه صدا انجام دهد، سخت است.»
مسائل اخلاقی
کارشناسان کاربردهای مفید VALL-E و همچنین برخی موارد نه چندان مفید را می بینند. جیوتی به ویرایش گفتار و جایگزینی صداپیشگان اشاره کرد. Miceli خاطرنشان کرد که این فناوری می تواند برای ایجاد ابزارهای ویرایش برای پادکست ها، شخصی سازی صدای بلندگوهای هوشمند، و گنجاندن آن در سیستم های پیام رسانی و اتاق چت، بازی های ویدیویی و حتی سیستم های ناوبری استفاده شود.
میسلی افزود: «روی دیگر سکه این است که یک کاربر بدخواه میتواند صدای مثلاً یک سیاستمدار را شبیهسازی کند و آنها را وادار کند چیزهایی بگویند که پوچ یا تحریکآمیز به نظر میرسد، یا به طور کلی اطلاعات نادرست یا تبلیغات منتشر میکند.»
Vena پتانسیل زیادی برای سوء استفاده در این فناوری می بیند اگر به همان خوبی که مایکروسافت ادعا می کند خوب باشد. او گفت: «در سطح خدمات مالی و امنیت، یافتن موارد استفاده توسط بازیگران سرکش که می توانند کارهای واقعاً مضری انجام دهند، کار سختی نیست.
Jyoti همچنین نگرانی های اخلاقی را در اطراف VALL-E می بیند. او توضیح داد: “با پیشرفت فناوری، صدای تولید شده توسط VALL-E و فناوری های مشابه قانع کننده تر می شود.” این دری را به روی تماسهای هرزنامه واقعی باز میکند و صدای افراد واقعی را که قربانی بالقوه میشناسد پخش میکند.»
او افزود: «سیاستمداران و دیگر شخصیتهای عمومی نیز قابل تقلید هستند.
او ادامه داد: «ممکن است نگرانیهای امنیتی بالقوه وجود داشته باشد. برای مثال، برخی از بانکها رمز عبور صوتی را مجاز میدانند، که نگرانیهایی را در مورد سوء استفاده ایجاد میکند. ما میتوانیم انتظار داشته باشیم که یک رقابت تسلیحاتی فزاینده بین محتوای تولید شده توسط هوش مصنوعی و نرمافزار تشخیص هوش مصنوعی برای جلوگیری از سوء استفاده صورت گیرد.
جیوتی اضافه کرد: توجه به این نکته مهم است که VALL-E در حال حاضر در دسترس نیست. به طور کلی، مقررات هوش مصنوعی بسیار مهم است. ما باید ببینیم که مایکروسافت چه اقداماتی را برای تنظیم استفاده از VALL-E انجام می دهد.”
وکلا را وارد کنید
مسائل حقوقی پیرامون این فناوری نیز ممکن است ایجاد شود. مایکل ال تیچ، مدیر هارنس، گفت: «متاسفانه، ممکن است ابزار قانونی فعلی و کافی برای رسیدگی مستقیم به چنین مسائلی وجود نداشته باشد، و در عوض مجموعه ای از قوانین که نحوه استفاده نادرست از فناوری را پوشش می دهد، می تواند برای مهار چنین سوء استفاده ای مورد استفاده قرار گیرد. IP، یک شرکت حقوقی ملی مالکیت معنوی.
وی ادامه داد: «به عنوان مثال، شبیه سازی صدا می تواند منجر به جعل عمیق صدای یک شخص واقعی شود که می تواند برای فریب دادن شنونده به فریب خوردن یا حتی برای تقلید صدای یک نامزد برای انتخابات مورد استفاده قرار گیرد. در حالی که چنین سوء استفادههایی احتمالاً مسائل حقوقی را در زمینههای تقلب، افترا یا قوانین مربوط به اطلاعات نادرست انتخاباتی ایجاد میکند، فقدان قوانین خاص هوش مصنوعی برای رسیدگی به استفاده از خود فناوری وجود دارد.
وی افزود: «علاوه بر این، بسته به اینکه نمونه صدای اصلی چگونه به دست آمده است، ممکن است بر اساس قانون فدرال استراق سمع و قوانین استراق سمع ایالتی اگر نمونه صدا مثلاً از طریق یک خط تلفن به دست آمده باشد، عواقبی در پی خواهد داشت.
Teich خاطرنشان کرد: «در نهایت، اگر قرار باشد چنین شبیهسازی صوتی توسط یک بازیگر دولتی برای خاموش کردن، مشروعیتزدایی، یا کمرنگ کردن صداهای مشروع در استفاده از حقوق آزادی بیان خود استفاده شود، ممکن است در شرایط محدود نگرانیهای متمم اول وجود داشته باشد.»
او گفت: «با تکامل این فناوریها، ممکن است نیاز به قوانین خاصی برای رسیدگی مستقیم به این فناوری و جلوگیری از سوءاستفاده با پیشرفت فناوری و دسترسی بیشتر باشد.»
سرمایه گذاری هوشمندانه
مایکروسافت در هفته های اخیر خبرساز شده است برای هوش مصنوعی. انتظار میرود که امسال فناوری ChatGPT را در موتور جستجوی Bing و احتمالاً برنامههای Office خود قرار دهد. همچنین گزارش شده است که قصد دارد 10 میلیون دلار در OpenAI سرمایه گذاری کند – و اکنون VALL-E.
Bob O’Donnell، بنیانگذار و تحلیلگر اصلی در Technalysis Research، یک شرکت مشاوره و تحقیقات بازار فناوری در فاستر سیتی، کالیفرنیا، گفت: “من فکر می کنم آنها سرمایه گذاری های بسیار هوشمندانه ای انجام می دهند.”
آنها چند سال پیش به OpenAI متصل شدند، بنابراین مدتی در پشت صحنه این موضوع بودند. O’Donnell به دیجیتال تو گفت.
او ادامه داد: «آنها مجبور بودند با گوگل که به هوش مصنوعی معروف است، بازی کنند، اما مایکروسافت در حال انجام برخی حرکات تهاجمی برای پیشرفت است. آنها از محبوبیت و پوشش باورنکردنی که همه این چیزها به دست می آورند، پرش می کنند.”
روبین افزود: «مایکروسافت که در 30 سال گذشته پیشرو در بهرهوری بوده است، میخواهد این برتری را حفظ کرده و گسترش دهد. ممکن است هوش مصنوعی کلید این را نگه دارد.