متا می خواهد ویکی پدیا را با ارتقاء هوش مصنوعی بارگیری کند
ویکی پدیا مشکل دارد. و متا، فیسبوکی که در سال های نه چندان دور تغییر نام داد، ممکن است پاسخ را داشته باشد.
بیایید یک نسخه پشتیبان تهیه کنیم. ویکیپدیا یکی از بزرگترین پروژههای مشارکتی در تاریخ بشر است، با بیش از 100000 ویراستار انسانی داوطلب که در ساخت و نگهداری یک دایرهالمعارف چندزبانه شگفتانگیز بزرگ متشکل از میلیونها مقاله مشارکت دارند. هر ماه بیش از 17000 مقاله جدید به ویکیپدیا اضافه میشود، در حالی که تنظیمات و اصلاحات دائماً در مجموعه مقالات موجود انجام میشود. محبوب ترین مقالات ویکی هزاران بار ویرایش شده اند که منعکس کننده آخرین تحقیقات، بینش ها و اطلاعات به روز هستند.
چالش، البته، دقت است. وجود ویکیپدیا اثبات مثبتی است بر این که تعداد زیادی از مردم میتوانند گرد هم آیند تا چیزی مثبت خلق کنند. اما برای اینکه مقالههای ویکیپدیا واقعاً مفید باشند، به جای دیواری پر از گرافیتی از ادعاهای بیثبات، باید با حقایق پشتیبانی شوند. اینجاست که نقل قول ها وارد می شوند. ایده – و در بیشتر موارد بسیار خوب کار می کند – این است که کاربران و ویراستاران ویکیپدیا میتوانند حقایق را با افزودن یا کلیک کردن بر پیوندهایی که گزارهها را به منبع آنها ردیابی میکنند، تأیید کنند.
استناد لازم است
مثلاً بگویید، من میخواهم ورودی مقاله ویکیپدیای پرزیدنت باراک اوباما را تأیید کنم که میگوید اوباما در سال 1988 به اروپا و سپس به کنیا سفر کرد، جایی که برای اولین بار با بسیاری از بستگانی که پدر شما هستید ملاقات کرد. تنها کاری که باید انجام دهم این است که به نقلقولهای جمله نگاه کنم، و مطمئناً، سه مرجع جداگانه به کتابها وجود دارد که ظاهراً تأیید میکنند که واقعیت در حال تأیید است.
در مقابل، عبارت «نیاز به استناد» شاید دو جمله مذمومترین در تمام ویکیپدیا باشد، دقیقاً به این دلیل که نشان میدهد هیچ مدرکی وجود ندارد که نویسنده کلماتی را از اتر دیجیتال اختراع نکرده باشد. کلمات “نیاز به استناد” پیوست شده به بیانیه ویکیپدیا، معادل گفتن یک واقعیت در حین نقل قولهای هوایی است.
با این حال، نقل قول ها همه چیز را به ما نمی گویند. اگر بخواهم به شما بگویم که سال گذشته من بیست و سومین روزنامه نگار پردرآمد فناوری در جهان بودم و یک بار حرفه مدلینگ پردرآمد را برای نوشتن مقاله برای دیجیتال تو رها کردم، در نگاه اول قابل قبول به نظر می رسد زیرا لینک هایی برای حمایت از من وجود دارد. توهمات
این واقعیت که لینکها به هیچ وجه حقایق جایگزین من را پشتیبانی نمیکنند، بلکه منجر به صفحات غیرمرتبط در دیجیتال تو میشوند، تنها زمانی آشکار میشود که روی آنها کلیک کنید. برای 99.9 درصد از خوانندگانی که هرگز با من ملاقات نکردهاند، ممکن است این مقاله را با برداشتهای نادرست ترک کنند، که کمترین آن مانع شگفتانگیز کم برای ورود به دنیای مدلینگ است. در دنیای بیش از حد به هم پیوسته ای از اضافه بار اطلاعات، جایی که ما به طور فزاینده ای در مورد چیزی که نیکلاس کار «The Braids» می نامد، سر و صدا می کنیم، وجود استنادها مانند یک پشتوانه واقعی به نظر می رسد.
متا وارد می شود
اما اگر استنادها توسط ویراستاران ویکیپدیا اضافه شوند، چه میشود، حتی اگر به صفحاتی منتهی نشوند که واقعاً ادعاها را پشتیبانی میکنند؟ به عنوان مثال، مقاله اخیر ویکیپدیا در مورد عضو قبیله بلکفیت، جو هیپ، توضیح میدهد که چگونه هیپ اولین بوکسور بومی آمریکایی بود که برای عنوان قهرمانی سنگین وزن جهان WBA مبارزه کرد و به صفحهای مرتبط با وبسایت مرتبط به نظر میرسید. با این حال، صفحه مورد بحث نه از بوکس و نه به جو هیپ اشاره می کند.
در مورد ادعای جو هیپ، واقعیت ویکیپدیا دقیق بود، حتی اگر نقل قول نامناسب بود. صرف نظر از این، به راحتی می توان دید که چگونه می توان از این، عمدا یا غیر این، برای انتشار اطلاعات نادرست استفاده کرد.
اینجاست که متا فکر می کند راهی برای کمک پیدا کرده است. Meta AI (که آزمایشگاه تحقیق و توسعه هوش مصنوعی برای غول رسانه های اجتماعی است) با همکاری با بنیاد ویکی مدیا، اولین مدل یادگیری ماشینی است که می تواند صدها هزار نقل قول را به طور خودکار اسکن کند تا بررسی کند که آیا پشتیبانی می شود یا خیر. ادعاهای مربوطه اگرچه این ربات با اولین ربات مورد استفاده ویکیپدیا فاصله زیادی دارد، اما ممکن است یکی از چشمگیرترینها باشد.
فابیو پترونی، مدیر ارشد فناوری تحقیقاتی تیم FAIR (تحقیقات هوش مصنوعی بنیادی) متا به دیجیتال تو گفت: «فکر میکنم در پایان روز ما را کنجکاوی سوق داد. ما میخواستیم ببینیم محدودیت این فناوری چیست. ما کاملاً مطمئن نبودیم که آیا [this AI] می تواند در این زمینه کاری معنادار انجام دهد. هیچ کس قبلاً سعی نکرده بود چنین کاری انجام دهد [before]”
درک معنی
ابزار جدید متا که با استفاده از مجموعه داده ای متشکل از 4 میلیون استناد ویکی پدیا آموزش دیده است، قادر است اطلاعات مرتبط با یک استناد را به طور موثر تجزیه و تحلیل کند و سپس آن را با شواهد پشتیبان ارجاع دهد. و این فقط مقایسه رشته های متنی نیست.
“چنین جزء وجود دارد، [looking at] پترونی گفت: شباهت واژگانی بین ادعا و منبع، اما این مورد آسان است. «با این مدلها، کاری که ما انجام دادهایم این است که فهرستی از تمام این صفحات وب با تقسیم کردن آنها به قسمتها و ارائه یک نمایش دقیق از هر قسمت ایجاد کردهایم… این یک نمایش کلمه به کلمه از متن نیست. ، اما معنای گذر. این به این معنی است که دو قطعه متن با معانی مشابه در یک موقعیت بسیار نزدیک در فضای n بعدی که همه این قسمتها ذخیره میشوند نشان داده میشوند.
با این حال، به همان اندازه که توانایی تشخیص استنادهای جعلی وجود دارد، پتانسیل این ابزار برای ارائه مراجع بهتر است. این ابزار که به عنوان یک مدل تولید به کار گرفته میشود، میتواند به طور مفید مراجعی را پیشنهاد کند که به بهترین نحو یک نکته خاص را نشان میدهد. اگرچه پترونی در برابر تشبیه آن به یک غلطگیر املای واقعی مقاومت میکند، اشتباهات را یادداشت میکند و پیشرفتهایی را پیشنهاد میکند، اما این یک راه آسان برای فکر کردن در مورد کارهایی است که میتواند انجام دهد.
اما همانطور که پترونی توضیح می دهد، هنوز کارهای زیادی برای انجام دادن قبل از رسیدن به آن نقطه وجود دارد. او گفت: «آنچه ما ساختهایم دلیلی بر مفهوم است. «در حال حاضر واقعاً قابل استفاده نیست. برای اینکه بتوان از آن استفاده کرد، باید شاخص جدیدی داشته باشید که دادههای بسیار بیشتری را نسبت به آنچه که در حال حاضر داریم نمایه میکند. باید دائماً به روز شود و هر روز اطلاعات جدیدی وارد شود.»
این حداقل در تئوری می تواند نه تنها متن بلکه چند رسانه ای را نیز شامل شود. شاید یک مستند معتبر عالی در یوتیوب موجود باشد که سیستم بتواند کاربران را به آن هدایت کند. شاید پاسخ به یک عبارت خاص در یک تصویر در جایی آنلاین پنهان شده باشد.
موضوع کیفیت
چالش های دیگری نیز وجود دارد. حداقل در حال حاضر هرگونه تلاشی برای ارزیابی مستقل کیفیت منابع ذکر شده وجود ندارد. این به خودی خود یک منطقه خاردار است. به عنوان یک مثال ساده، یک اشاره کوتاه و دور ریختنی به یک موضوع در مثلاً، نیویورک تایمز یک نقل قول مرتبط تر و با کیفیت بالا را از یک منبع جامع تر اما کمتر شناخته شده ثابت کنید؟ آیا یک نشریه انبوه باید بالاتر از نشریه غیر انبوه باشد؟
الگوریتم رتبه بندی تریلیون دلاری گوگل – مسلماً معروف ترین الگوریتمی که تا به حال بر اساس استنادها ساخته شده است – این الگوریتم را در مدل خود تعبیه کرده بود و اساساً یک منبع با کیفیت بالا را با منبعی که تعداد پیوندهای ورودی بالایی دارد برابر می کند. در حال حاضر، هوش مصنوعی متا چیزی شبیه به این نیست.
اگر قرار بود این هوش مصنوعی به عنوان یک ابزار موثر عمل کند، باید چیزی شبیه به این داشته باشد. به عنوان یک مثال بسیار واضح از این، تصور کنید که شخصی قصد “اثبات” ظالمانه ترین و مذموم ترین نظر را برای درج در صفحه ویکی پدیا دارد. اگر تنها شواهد مورد نیاز برای تأیید صحت چیزی این است که آیا احساسات مشابه را میتوان در جای دیگر آنلاین یافت، در این صورت تقریباً هر اظهارنظری از نظر فنی میتواند درست باشد – مهم نیست چقدر اشتباه باشد.
“[One area we are interested in] پترونی گفت: در تلاش است تا به صراحت از قابلیت اعتماد منبع، قابلیت اعتماد دامنه الگوبرداری کند. «فکر میکنم ویکیپدیا فهرستی از دامنههایی دارد که قابل اعتماد و دامنههایی هستند که قابل اعتماد محسوب نمیشوند. اما به جای داشتن یک لیست ثابت، خوب است اگر بتوانیم راهی برای تبلیغ آنها به صورت الگوریتمی پیدا کنیم.
توصیه های سردبیران