تکنولوژی

Microsoft VALL-E صدای یک نفر را از یک نمونه 3 ثانیه ای شبیه سازی می کند

محققان مایکروسافت اپلیکیشن جدیدی را معرفی کرده اند که از هوش مصنوعی برای تقلید صدای انسان تنها با چند ثانیه آموزش استفاده می کند. سپس می توان از مدل صدا برای برنامه های کاربردی سنتز گفتار استفاده کرد.

محققان در مقاله ای که به صورت آنلاین در arXiv منتشر شده است، نوشتند که این برنامه که VALL-E نام دارد، می تواند برای ترکیب گفتار شخصی شده با کیفیت بالا تنها با یک ضبط سه ثانیه ای از یک بلندگو به عنوان یک پیام صوتی استفاده شود. -دسترسی به آرشیو مقالات پژوهشی

اکنون برنامه‌هایی وجود دارند که می‌توانند گفتار را به یک جریان صوتی برش داده و جای‌گذاری کنند و آن گفتار از متن تایپ شده به صدای گفتاری تبدیل می‌شود. با این حال، این برنامه باید برای تقلید از صدای انسان آموزش داده شود که ممکن است یک ساعت یا بیشتر طول بکشد.

یکی از نکات قابل توجه در مورد این مدل این است که این کار را در عرض چند ثانیه انجام می دهد. راس روبین، تحلیلگر اصلی در Reticle Research، یک شرکت مشاوره فناوری مصرف کننده در نیویورک، به دیجیتال تو گفت که این بسیار چشمگیر است.

به گفته محققان، VALL-E به طور قابل توجهی از سیستم های پیشرفته تبدیل متن به گفتار (TTS) هم در طبیعی بودن گفتار و هم شباهت گوینده بهتر است.

علاوه بر این، VALL-E می تواند احساسات و محیط آکوستیک گوینده را حفظ کند. بنابراین اگر نمونه گفتاری از طریق تلفن ضبط شده باشد، برای مثال، متنی که از آن صدا استفاده می‌کند، به نظر می‌رسد که از طریق تلفن خوانده می‌شود.

“فوق العاده چشمگیر”

جاکومو میچلی، دانشمند کامپیوتر و خالق وب سایت بحث و گفتگوی بی پایانی که توسط هوش مصنوعی تولید شده است، گفت: VALL-E نسبت به سیستم های پیشرفته قبلی، مانند YourTTS، که در اوایل سال 2022 راه اندازی شد، پیشرفت قابل توجهی دارد. و اسلاوی ژیژک.

Micheli به دیجیتال تو گفت: «چیزی که در مورد VALL-E جالب است نه تنها این واقعیت است که برای شبیه‌سازی یک صدا تنها به سه ثانیه صدا نیاز دارد، بلکه تا چه حد می‌تواند با آن صدا، صدای عاطفی و هر نویز پس‌زمینه مطابقت داشته باشد. ریتو جیوتی، نایب رئیس گروه هوش مصنوعی و اتوماسیون در IDC، یک شرکت تحقیقاتی بازار جهانی، VALL-E را “مهم و فوق العاده چشمگیر” نامید.

مطلب پیشنهادی:  زهره، مشتری، ماه را در 1، 2 مارس تماشا کنید! بدانید چه زمانی، کجا و چگونه یک پیوند سیاره ای را ببینید


جیوتی به دیجیتال تو گفت: «این یک پیشرفت قابل توجه نسبت به مدل‌های قبلی است که به دوره آموزشی بسیار طولانی‌تری برای تولید صدای جدید نیاز داشت.

او افزود: «این هنوز آغاز این فناوری است و انتظار می‌رود پیشرفت‌های بیشتری برای اینکه آن را انسانی‌تر به نظر برساند».

تقلید عاطفی مورد بحث

برخلاف OpenAI، سازنده ChatGPT، مایکروسافت VALL-E را به روی عموم باز نکرده است، بنابراین سوالاتی در مورد عملکرد آن باقی مانده است. به عنوان مثال، آیا عواملی وجود دارد که می تواند گفتار تولید شده توسط برنامه را کاهش دهد؟

میسلی خاطرنشان کرد: «هرچه قطعه صوتی تولید شده طولانی‌تر باشد، شانس بیشتری برای شنیدن چیزهایی که کمی عجیب‌تر به نظر می‌رسند، بیشتر می‌شود. کلمات ممکن است در ترکیب گفتار نامشخص، حذف شده یا تکراری باشند.

او افزود: «همچنین ممکن است جابجایی بین ثبت احساسات غیرطبیعی به نظر برسد.

توانایی این اپلیکیشن برای تقلید از احساسات گوینده نیز شکاکان خود را دارد. Mark N. Vena، رئیس و تحلیلگر اصلی در SmartTech Research در سن خوزه، کالیفرنیا، گفت: جالب است که ببینیم این قابلیت چقدر قوی است.

او ادامه داد: «با توجه به محدودیت‌های فعلی الگوریتم‌های هوش مصنوعی، که به نمونه‌های صوتی بسیار طولانی‌تری نیاز دارند، این واقعیت که آنها ادعا می‌کنند می‌تواند این کار را تنها با چند ثانیه صدا انجام دهد، سخت است.»

مسائل اخلاقی

کارشناسان کاربردهای مفید VALL-E و همچنین برخی موارد نه چندان مفید را می بینند. جیوتی به ویرایش گفتار و جایگزینی صداپیشگان اشاره کرد. Miceli خاطرنشان کرد که این فناوری می تواند برای ایجاد ابزارهای ویرایش برای پادکست ها، شخصی سازی صدای بلندگوهای هوشمند، و گنجاندن آن در سیستم های پیام رسانی و اتاق چت، بازی های ویدیویی و حتی سیستم های ناوبری استفاده شود.

میسلی افزود: «روی دیگر سکه این است که یک کاربر بدخواه می‌تواند صدای مثلاً یک سیاستمدار را شبیه‌سازی کند و آنها را وادار کند چیزهایی بگویند که پوچ یا تحریک‌آمیز به نظر می‌رسد، یا به طور کلی اطلاعات نادرست یا تبلیغات منتشر می‌کند.»

مطلب پیشنهادی:  سهام تسلا (TSLA) پس از هشدار خودروساز برقی ماسک نسبت به کاهش سرعت در سال 2024 سقوط کرد.

Vena پتانسیل زیادی برای سوء استفاده در این فناوری می بیند اگر به همان خوبی که مایکروسافت ادعا می کند خوب باشد. او گفت: «در سطح خدمات مالی و امنیت، یافتن موارد استفاده توسط بازیگران سرکش که می توانند کارهای واقعاً مضری انجام دهند، کار سختی نیست.


Jyoti همچنین نگرانی های اخلاقی را در اطراف VALL-E می بیند. او توضیح داد: “با پیشرفت فناوری، صدای تولید شده توسط VALL-E و فناوری های مشابه قانع کننده تر می شود.” این دری را به روی تماس‌های هرزنامه واقعی باز می‌کند و صدای افراد واقعی را که قربانی بالقوه می‌شناسد پخش می‌کند.»

او افزود: «سیاستمداران و دیگر شخصیت‌های عمومی نیز قابل تقلید هستند.

او ادامه داد: «ممکن است نگرانی‌های امنیتی بالقوه وجود داشته باشد. برای مثال، برخی از بانک‌ها رمز عبور صوتی را مجاز می‌دانند، که نگرانی‌هایی را در مورد سوء استفاده ایجاد می‌کند. ما می‌توانیم انتظار داشته باشیم که یک رقابت تسلیحاتی فزاینده بین محتوای تولید شده توسط هوش مصنوعی و نرم‌افزار تشخیص هوش مصنوعی برای جلوگیری از سوء استفاده صورت گیرد.

جیوتی اضافه کرد: توجه به این نکته مهم است که VALL-E در حال حاضر در دسترس نیست. به طور کلی، مقررات هوش مصنوعی بسیار مهم است. ما باید ببینیم که مایکروسافت چه اقداماتی را برای تنظیم استفاده از VALL-E انجام می دهد.”

وکلا را وارد کنید

مسائل حقوقی پیرامون این فناوری نیز ممکن است ایجاد شود. مایکل ال تیچ، مدیر هارنس، گفت: «متاسفانه، ممکن است ابزار قانونی فعلی و کافی برای رسیدگی مستقیم به چنین مسائلی وجود نداشته باشد، و در عوض مجموعه ای از قوانین که نحوه استفاده نادرست از فناوری را پوشش می دهد، می تواند برای مهار چنین سوء استفاده ای مورد استفاده قرار گیرد. IP، یک شرکت حقوقی ملی مالکیت معنوی.

وی ادامه داد: «به عنوان مثال، شبیه سازی صدا می تواند منجر به جعل عمیق صدای یک شخص واقعی شود که می تواند برای فریب دادن شنونده به فریب خوردن یا حتی برای تقلید صدای یک نامزد برای انتخابات مورد استفاده قرار گیرد. در حالی که چنین سوء استفاده‌هایی احتمالاً مسائل حقوقی را در زمینه‌های تقلب، افترا یا قوانین مربوط به اطلاعات نادرست انتخاباتی ایجاد می‌کند، فقدان قوانین خاص هوش مصنوعی برای رسیدگی به استفاده از خود فناوری وجود دارد.

مطلب پیشنهادی:  طرفداران بیت کوین شکست خورده در حال فکر کردن به پایین بودن بازار هستند


وی افزود: «علاوه بر این، بسته به اینکه نمونه صدای اصلی چگونه به دست آمده است، ممکن است بر اساس قانون فدرال استراق سمع و قوانین استراق سمع ایالتی اگر نمونه صدا مثلاً از طریق یک خط تلفن به دست آمده باشد، عواقبی در پی خواهد داشت.

Teich خاطرنشان کرد: «در نهایت، اگر قرار باشد چنین شبیه‌سازی صوتی توسط یک بازیگر دولتی برای خاموش کردن، مشروعیت‌زدایی، یا کم‌رنگ کردن صداهای مشروع در استفاده از حقوق آزادی بیان خود استفاده شود، ممکن است در شرایط محدود نگرانی‌های متمم اول وجود داشته باشد.»

او گفت: «با تکامل این فناوری‌ها، ممکن است نیاز به قوانین خاصی برای رسیدگی مستقیم به این فناوری و جلوگیری از سوءاستفاده با پیشرفت فناوری و دسترسی بیشتر باشد.»

سرمایه گذاری هوشمندانه

مایکروسافت در هفته های اخیر خبرساز شده است برای هوش مصنوعی. انتظار می‌رود که امسال فناوری ChatGPT را در موتور جستجوی Bing و احتمالاً برنامه‌های Office خود قرار دهد. همچنین گزارش شده است که قصد دارد 10 میلیون دلار در OpenAI سرمایه گذاری کند – و اکنون VALL-E.

Bob O’Donnell، بنیانگذار و تحلیلگر اصلی در Technalysis Research، یک شرکت مشاوره و تحقیقات بازار فناوری در فاستر سیتی، کالیفرنیا، گفت: “من فکر می کنم آنها سرمایه گذاری های بسیار هوشمندانه ای انجام می دهند.”

آنها چند سال پیش به OpenAI متصل شدند، بنابراین مدتی در پشت صحنه این موضوع بودند. O’Donnell به دیجیتال تو گفت.

او ادامه داد: «آنها مجبور بودند با گوگل که به هوش مصنوعی معروف است، بازی کنند، اما مایکروسافت در حال انجام برخی حرکات تهاجمی برای پیشرفت است. آنها از محبوبیت و پوشش باورنکردنی که همه این چیزها به دست می آورند، پرش می کنند.”

روبین افزود: «مایکروسافت که در 30 سال گذشته پیشرو در بهره‌وری بوده است، می‌خواهد این برتری را حفظ کرده و گسترش دهد. ممکن است هوش مصنوعی کلید این را نگه دارد.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا