GPT مغرضانه؟ سنگاپور در حال ساخت یک مدل هوش مصنوعی برای «نمایندگی» آسیای جنوب شرقی است
مانند میلیونها نفر در سراسر جهان، آسیای جنوب شرقی در حال آزمایش مدلهای زبان بزرگی مانند Meta's Llama 2 و Mistral AI هستند – اما در بومی باهاسا اندونزی یا تایلندی. نتیجه معمولاً در زبان انگلیسی بیهوده است.
کارشناسان فناوری هشدار میدهند که این آنها را در مضیقه قرار میدهد، زیرا هوش مصنوعی مولد آموزش، کار و حکمرانی را در سطح جهانی متحول میکند.
ابتکاری به رهبری دولت سنگاپور با هدف رفع عدم تعادل با LLM های جنوب شرقی آسیا، اولین نمونه از خانواده مدل هایی به نام SEA-LION – زبان های جنوب شرقی آسیا در یک شبکه – که به زبان ها و هنجارهای فرهنگی منطقه تدریس می شود. .
Leslie Teo از AI سنگاپور گفت که این مدل منبع باز که بر اساس داده های 11 زبان آسیای جنوب شرقی، از جمله ویتنامی، تایلندی و باهاسا اندونزیایی آموزش دیده است، گزینه ارزان تر و کارآمدتری برای مشاغل، دولت ها و دانشگاه های منطقه است.
او گفت: «آیا میخواهیم هر فرد در جنوب شرقی آسیا را مجبور کنیم تا با این دستگاه سازگار شود، یا میخواهیم آن را در دسترستر کنیم تا مردم منطقه بتوانند به طور کامل از این فناوری بدون نیاز به صحبت کردن به زبان انگلیسی استفاده کنند؟»
ما در تلاش برای رقابت با LLM های بزرگ نیستیم. تئو، مدیر ارشد محصولات هوش مصنوعی، به بنیاد تامسون رویترز گفت: ما سعی می کنیم آنها را تکمیل کنیم تا بتوانند بهتر از ما عمل کنند.
بیش از 7000 زبان در جهان صحبت می شود. با این حال، LLM ها، از جمله Open AI's GPT-4 و Meta's Llama 2، که برای ساختن سیستم های هوش مصنوعی مانند چت بات ها و سایر ابزارها استفاده می شوند، عمدتاً برای انگلیسی طراحی شده و به زبان انگلیسی تدریس می شوند.
دولتها و شرکتهای فناوری در تلاش برای پر کردن این شکاف هستند، هند مجموعههای داده را به زبانهای محلی ایجاد میکند، یک LLM در امارات متحده عربی که ابزارهای هوش مصنوعی مولد را به زبان عربی تقویت میکند و مدلهای هوش مصنوعی در چین، ژاپن و ویتنام به زبانهای محلی.
Nuurianti Jali، استادیار دانشکده ارتباطات دانشگاه ایالتی اوکلاهاما، گفت: این مدلها میتوانند به جمعیت محلی کمک کنند تا در اقتصاد جهانی هوش مصنوعی که عمدتاً تحت سلطه شرکتهای فناوری است، مشارکت کنند.
او گفت: «به LLMهای منطقه ای نیز نیاز است زیرا از خوداتکایی فناوری پشتیبانی می کنند. “اتکای کمتر به LLM های غربی می تواند حریم خصوصی بهتری را برای جمعیت محلی فراهم کند و همچنین با منافع ملی یا منطقه ای همسو شود.”
چک کردن و فیلتر کردن
به گفته محققان، مدلهای زبان چندزبانه، که بر روی متن از چندین زبان به طور همزمان آموزش داده میشوند، میتوانند روابط معنایی و دستوری را بین زبانهای با منابع بالا که دارای دادههای بیشتر و زبانهای کم منبع هستند استنتاج کنند.
این مدلها را میتوان در برنامههای مختلفی از ترجمه گرفته تا رباتهای گفتگوی خدمات مشتری تا تعدیل محتوا در پلتفرمهای رسانههای اجتماعی که برای شناسایی سخنان نفرتانگیز به زبانهای کم منبع مانند برمه یا آمهری تلاش میکنند، استفاده کرد.
به گفته تئو، حدود 13 درصد از دادههای SEA-LION از زبانهای آسیای جنوب شرقی میآید – بیش از هر LLM بزرگ دیگری. بیش از 9 درصد از داده ها از متن چینی و حدود 63 درصد از زبان انگلیسی است.
تئو در دفتر خود در دانشگاه ملی سنگاپور گفت که مدلهای زبان چندزبانه اغلب بر روی متن ترجمه شده و سایر دادههای بی کیفیت که ممکن است دارای خطا باشند، آموزش داده میشوند، بنابراین هوش مصنوعی سنگاپور در مورد دادههای مورد استفاده برای آموزش SEA-LION “مراقب” است.
او گفت: “دوران داده های اولیه گذشته است – بسیاری از موارد موجود در اینترنت اکنون مواد تولید شده توسط LLM هستند، بنابراین ما باید بررسی و فیلتر کنیم.”
او افزود: “ما نمی توانیم کامل باشیم، اما همچنین نمی توانیم هر چیزی را که بد می دانیم حذف کنیم.”
تئو گفت که دولتهای بیشتری دادهها را ارائه میکنند و شرکتها در حال آزمایش SEA-LION هستند که به دلیل اندازه کوچکتر میتواند سریعتر به کار گرفته شود و تنظیم دقیق و پذیرش آن ارزانتر است.
در شرکت تجارت الکترونیک اندونزیایی توکوپدیا، اکثر تعاملات با مشتری در باهاسا اندونزی است، بنابراین مدلهایی با آن تسلط محلی توانایی ما را برای ارتباط با مشتریان و بهبود تجربه آنها بهبود میبخشد. علوم پایه.
تعصب داده ها
از آنجایی که بیشتر کشورها و مناطق LLM های خود را می سازند، کارشناسان دیجیتال و حقوق بشر نگران هستند که آنها فقط دیدگاه های غالب بیان شده آنلاین را بازتولید کنند، که می تواند به ویژه در کشورهایی با دولت های اقتدارگرا یا سانسور رسانه ای شدید یا مانند آن بدون جامعه مدنی قوی مشکل ساز باشد.
به عنوان مثال، پلتفرمهای رسانههای اجتماعی چین، اشارات به قیام میدان تیانآنمن و انتقاد از دولت را سانسور کردهاند، در حالی که چندین کشور آسیای جنوب شرقی قوانینی را برای محدود کردن محتوا توسط مقامات گمراهکننده تصویب کردهاند.
جلی گفت: «مدلهای آموزشی بر روی چنین دادههایی خطر تداوم روایتهای جانبدارانه، جانبدارانه، ناقص و حتی گمراهکننده را به همراه دارد.
او گفت: «مدلها ممکن است مسائل مهم اجتماعی-سیاسی مانند نقض حقوق بشر، فساد یا انتقاد درست از نیروهای سیاسی را آشکار نکنند.
به عنوان مثال، در پاسخ به پرسشی در مورد رئیس جمهور سابق اندونزی، سوهارتو، لاما 2 و GPT-4 به سوابق ضعیف حقوق بشری او اشاره کردند، در حالی که پاسخ SEA-LION عمدتاً بر دستاوردهای او متمرکز بود.
آلیا باتیا، تحلیلگر سیاست در مرکز دموکراسی و فناوری، گفت: اگر مدلی فقط بر روی مقالاتی که برای یک دولت مطلوب است آموزش ببیند، آنوقت مدل «احتمالاً جهانبینی را اتخاذ میکند که در آن دولت همه مثبت است و دیدگاههای مختلف را کنار میگذارد». ، یک سازمان آمریکایی. غیر انتفاعی.
او افزود: “مطالب LLM منطقه ای ممکن است تفاوت های زبانی و فرهنگی گویشوران محلی را بهتر منعکس کند، اما ممکن است اطلاعات کمتری در مورد جهان به طور کلی داشته باشند.”
«این خطر واقعی وجود دارد که مدلهای مورد حمایت دولت، دیدگاههای تجدیدنظرطلبانه از تاریخ را القا کنند و ارزشهای دموکراتیک را تضعیف کنند.
اما به گفته AI سنگاپور، جایگزین – تکیه کامل بر LLM های غربی با “تأثیر نامتناسب” از دموکراسی های غنی، لیبرال و غربی – به معنای تداوم تعصبات مختلف مربوط به ارزش های فرهنگی، باورهای سیاسی و هنجارهای اجتماعی است.
“این LLM ها تعصب بسیار خاصی نسبت به ساحل غربی آمریکا دارند – آنها بسیار بیدار هستند. آنها نماینده ما نیستند.
ما نمی گوییم که دیدگاه ما تنها چشم انداز است – ما فقط سعی می کنیم آن را دوباره متعادل کنیم.
این داستان های برتر را امروز نیز بخوانید:
کوکی ها از هم می پاشند! فایلهای داده کوچکی که به شرکتها کمک میکردند کاربران را در وب دنبال کنند، در حال ناپدید شدن هستند. اما این به معنای بازگشت به حریم خصوصی نیست. برخی از جزئیات جالب در این مقاله. اینجا را ببینید.
متا اتحادیه اروپا را به چالش خواهد کشید! متا روز چهارشنبه اعلام کرد که درخواست اتحادیه اروپا برای پرداخت هزینهها را بر اساس قانون تعدیل محتوا، سلاح قانونی اتحادیه اروپا برای مهار فناوری بزرگ، در دادگاه به چالش میکشد. همه چیز در مورد آن را اینجا بخوانید.
مایکروسافت مشاغل بیشتری را کاهش خواهد داد! کمیسیون تجارت فدرال پس از آشکار شدن برنامههای مایکروسافت، به دنبال پاسخهایی است که نشان میدهد شرکت تحت رهبری ساتیا نادلا قصد دارد 1900 شغل را از اکتیویژن بلیزارد که به تازگی خریداری شده است، کاهش دهد. اینجا شیرجه بزنید