تکنولوژی

GPT مغرضانه؟ سنگاپور در حال ساخت یک مدل هوش مصنوعی برای «نمایندگی» آسیای جنوب شرقی است

مانند میلیون‌ها نفر در سراسر جهان، آسیای جنوب شرقی در حال آزمایش مدل‌های زبان بزرگی مانند Meta's Llama 2 و Mistral AI هستند – اما در بومی باهاسا اندونزی یا تایلندی. نتیجه معمولاً در زبان انگلیسی بیهوده است.

کارشناسان فناوری هشدار می‌دهند که این آنها را در مضیقه قرار می‌دهد، زیرا هوش مصنوعی مولد آموزش، کار و حکمرانی را در سطح جهانی متحول می‌کند.

ابتکاری به رهبری دولت سنگاپور با هدف رفع عدم تعادل با LLM های جنوب شرقی آسیا، اولین نمونه از خانواده مدل هایی به نام SEA-LION – زبان های جنوب شرقی آسیا در یک شبکه – که به زبان ها و هنجارهای فرهنگی منطقه تدریس می شود. .

Leslie Teo از AI سنگاپور گفت که این مدل منبع باز که بر اساس داده های 11 زبان آسیای جنوب شرقی، از جمله ویتنامی، تایلندی و باهاسا اندونزیایی آموزش دیده است، گزینه ارزان تر و کارآمدتری برای مشاغل، دولت ها و دانشگاه های منطقه است.

او گفت: «آیا می‌خواهیم هر فرد در جنوب شرقی آسیا را مجبور کنیم تا با این دستگاه سازگار شود، یا می‌خواهیم آن را در دسترس‌تر کنیم تا مردم منطقه بتوانند به طور کامل از این فناوری بدون نیاز به صحبت کردن به زبان انگلیسی استفاده کنند؟»

ما در تلاش برای رقابت با LLM های بزرگ نیستیم. تئو، مدیر ارشد محصولات هوش مصنوعی، به بنیاد تامسون رویترز گفت: ما سعی می کنیم آنها را تکمیل کنیم تا بتوانند بهتر از ما عمل کنند.

بیش از 7000 زبان در جهان صحبت می شود. با این حال، LLM ها، از جمله Open AI's GPT-4 و Meta's Llama 2، که برای ساختن سیستم های هوش مصنوعی مانند چت بات ها و سایر ابزارها استفاده می شوند، عمدتاً برای انگلیسی طراحی شده و به زبان انگلیسی تدریس می شوند.

دولت‌ها و شرکت‌های فناوری در تلاش برای پر کردن این شکاف هستند، هند مجموعه‌های داده را به زبان‌های محلی ایجاد می‌کند، یک LLM در امارات متحده عربی که ابزارهای هوش مصنوعی مولد را به زبان عربی تقویت می‌کند و مدل‌های هوش مصنوعی در چین، ژاپن و ویتنام به زبان‌های محلی.

مطلب پیشنهادی:  Perplexity AI، BardAI تا Pi، در اینجا ۴ گزینه برتر ChatGPT وجود دارد که باید امتحان کنید

Nuurianti Jali، استادیار دانشکده ارتباطات دانشگاه ایالتی اوکلاهاما، گفت: این مدل‌ها می‌توانند به جمعیت محلی کمک کنند تا در اقتصاد جهانی هوش مصنوعی که عمدتاً تحت سلطه شرکت‌های فناوری است، مشارکت کنند.

او گفت: «به LLMهای منطقه ای نیز نیاز است زیرا از خوداتکایی فناوری پشتیبانی می کنند. “اتکای کمتر به LLM های غربی می تواند حریم خصوصی بهتری را برای جمعیت محلی فراهم کند و همچنین با منافع ملی یا منطقه ای همسو شود.”

چک کردن و فیلتر کردن

به گفته محققان، مدل‌های زبان چندزبانه، که بر روی متن از چندین زبان به طور همزمان آموزش داده می‌شوند، می‌توانند روابط معنایی و دستوری را بین زبان‌های با منابع بالا که دارای داده‌های بیشتر و زبان‌های کم منبع هستند استنتاج کنند.

این مدل‌ها را می‌توان در برنامه‌های مختلفی از ترجمه گرفته تا ربات‌های گفتگوی خدمات مشتری تا تعدیل محتوا در پلتفرم‌های رسانه‌های اجتماعی که برای شناسایی سخنان نفرت‌انگیز به زبان‌های کم منبع مانند برمه یا آمهری تلاش می‌کنند، استفاده کرد.

به گفته تئو، حدود 13 درصد از داده‌های SEA-LION از زبان‌های آسیای جنوب شرقی می‌آید – بیش از هر LLM بزرگ دیگری. بیش از 9 درصد از داده ها از متن چینی و حدود 63 درصد از زبان انگلیسی است.

تئو در دفتر خود در دانشگاه ملی سنگاپور گفت که مدل‌های زبان چندزبانه اغلب بر روی متن ترجمه شده و سایر داده‌های بی کیفیت که ممکن است دارای خطا باشند، آموزش داده می‌شوند، بنابراین هوش مصنوعی سنگاپور در مورد داده‌های مورد استفاده برای آموزش SEA-LION “مراقب” است.

او گفت: “دوران داده های اولیه گذشته است – بسیاری از موارد موجود در اینترنت اکنون مواد تولید شده توسط LLM هستند، بنابراین ما باید بررسی و فیلتر کنیم.”

مطلب پیشنهادی:  فیس بوک، اینستاگرام و واتس اپ پس از قطعی جهانی صدها هزار کاربر بازگشته اند

او افزود: “ما نمی توانیم کامل باشیم، اما همچنین نمی توانیم هر چیزی را که بد می دانیم حذف کنیم.”

تئو گفت که دولت‌های بیشتری داده‌ها را ارائه می‌کنند و شرکت‌ها در حال آزمایش SEA-LION هستند که به دلیل اندازه کوچک‌تر می‌تواند سریع‌تر به کار گرفته شود و تنظیم دقیق و پذیرش آن ارزان‌تر است.

در شرکت تجارت الکترونیک اندونزیایی توکوپدیا، اکثر تعاملات با مشتری در باهاسا اندونزی است، بنابراین مدل‌هایی با آن تسلط محلی توانایی ما را برای ارتباط با مشتریان و بهبود تجربه آن‌ها بهبود می‌بخشد. علوم پایه.

تعصب داده ها

از آنجایی که بیشتر کشورها و مناطق LLM های خود را می سازند، کارشناسان دیجیتال و حقوق بشر نگران هستند که آنها فقط دیدگاه های غالب بیان شده آنلاین را بازتولید کنند، که می تواند به ویژه در کشورهایی با دولت های اقتدارگرا یا سانسور رسانه ای شدید یا مانند آن بدون جامعه مدنی قوی مشکل ساز باشد.

به عنوان مثال، پلتفرم‌های رسانه‌های اجتماعی چین، اشارات به قیام میدان تیان‌آن‌من و انتقاد از دولت را سانسور کرده‌اند، در حالی که چندین کشور آسیای جنوب شرقی قوانینی را برای محدود کردن محتوا توسط مقامات گمراه‌کننده تصویب کرده‌اند.

جلی گفت: «مدل‌های آموزشی بر روی چنین داده‌هایی خطر تداوم روایت‌های جانبدارانه، جانبدارانه، ناقص و حتی گمراه‌کننده را به همراه دارد.

او گفت: «مدل‌ها ممکن است مسائل مهم اجتماعی-سیاسی مانند نقض حقوق بشر، فساد یا انتقاد درست از نیروهای سیاسی را آشکار نکنند.

به عنوان مثال، در پاسخ به پرسشی در مورد رئیس جمهور سابق اندونزی، سوهارتو، لاما 2 و GPT-4 به سوابق ضعیف حقوق بشری او اشاره کردند، در حالی که پاسخ SEA-LION عمدتاً بر دستاوردهای او متمرکز بود.

آلیا باتیا، تحلیلگر سیاست در مرکز دموکراسی و فناوری، گفت: اگر مدلی فقط بر روی مقالاتی که برای یک دولت مطلوب است آموزش ببیند، آن‌وقت مدل «احتمالاً جهان‌بینی را اتخاذ می‌کند که در آن دولت همه مثبت است و دیدگاه‌های مختلف را کنار می‌گذارد». ، یک سازمان آمریکایی. غیر انتفاعی.

مطلب پیشنهادی:  خبر خوب! ماموریت آرتمیس 1 ناسا به ماه رونق زیادی می گیرد. امروز مستقر شود

او افزود: “مطالب LLM منطقه ای ممکن است تفاوت های زبانی و فرهنگی گویشوران محلی را بهتر منعکس کند، اما ممکن است اطلاعات کمتری در مورد جهان به طور کلی داشته باشند.”

«این خطر واقعی وجود دارد که مدل‌های مورد حمایت دولت، دیدگاه‌های تجدیدنظرطلبانه از تاریخ را القا کنند و ارزش‌های دموکراتیک را تضعیف کنند.

اما به گفته AI سنگاپور، جایگزین – تکیه کامل بر LLM های غربی با “تأثیر نامتناسب” از دموکراسی های غنی، لیبرال و غربی – به معنای تداوم تعصبات مختلف مربوط به ارزش های فرهنگی، باورهای سیاسی و هنجارهای اجتماعی است.

“این LLM ها تعصب بسیار خاصی نسبت به ساحل غربی آمریکا دارند – آنها بسیار بیدار هستند. آنها نماینده ما نیستند.

ما نمی گوییم که دیدگاه ما تنها چشم انداز است – ما فقط سعی می کنیم آن را دوباره متعادل کنیم.

این داستان های برتر را امروز نیز بخوانید:

کوکی ها از هم می پاشند! فایل‌های داده کوچکی که به شرکت‌ها کمک می‌کردند کاربران را در وب دنبال کنند، در حال ناپدید شدن هستند. اما این به معنای بازگشت به حریم خصوصی نیست. برخی از جزئیات جالب در این مقاله. اینجا را ببینید.

متا اتحادیه اروپا را به چالش خواهد کشید! متا روز چهارشنبه اعلام کرد که درخواست اتحادیه اروپا برای پرداخت هزینه‌ها را بر اساس قانون تعدیل محتوا، سلاح قانونی اتحادیه اروپا برای مهار فناوری بزرگ، در دادگاه به چالش می‌کشد. همه چیز در مورد آن را اینجا بخوانید.

مایکروسافت مشاغل بیشتری را کاهش خواهد داد! کمیسیون تجارت فدرال پس از آشکار شدن برنامه‌های مایکروسافت، به دنبال پاسخ‌هایی است که نشان می‌دهد شرکت تحت رهبری ساتیا نادلا قصد دارد 1900 شغل را از اکتیویژن بلیزارد که به تازگی خریداری شده است، کاهش دهد. اینجا شیرجه بزنید

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا