مایکروسافت ده ها هزار تراشه را در یک ابر رایانه گران قیمت برای OpenAI مونتاژ کرد
زمانی که شرکت مایکروسافت با سرمایه گذاری یک میلیارد دلاری در OpenAI در سال 2019، موافقت کرد که یک ابررایانه عظیم و پیشرفته برای استارتاپ تحقیقاتی هوش مصنوعی بسازد. تنها مشکل: مایکروسافت چیزی شبیه آنچه OpenAI نیاز داشت نداشت، و کاملاً مطمئن نبود که بتواند چیزی به این بزرگی را در سرویس ابری Azure خود بدون شکستن آن بسازد.
OpenAI سعی کرد مجموعهای از برنامههای هوش مصنوعی به نام مدلها را آموزش دهد که مقادیر روزافزونی از دادهها را دریافت میکنند و پارامترهای بیشتر و بیشتری را میآموزند، متغیرهایی که سیستم هوش مصنوعی از طریق آموزش و بازآموزی کشف کرد. این بدان معناست که OpenAI برای مدت طولانی نیاز به دسترسی به خدمات ابر قدرتمند دارد.
برای رویارویی با این چالش، مایکروسافت باید راههایی برای گرد هم آوردن دهها هزار تراشه گرافیکی A100 شرکت انویدیا پیدا میکرد. — اسب کاری برای آموزش مدل های هوش مصنوعی — و تغییر نحوه قرار دادن سرورها در قفسه ها برای جلوگیری از قطع برق. اسکات گاتری، معاون اجرایی مایکروسافت که هدایت ابر و هوش مصنوعی را بر عهده دارد، قیمت مشخصی برای این پروژه در نظر نگرفت، اما گفت که این پروژه «احتمالاً بزرگتر» از چند صد میلیون دلار است.
ما یک معماری سیستمی ساخته ایم که می تواند در مقیاس بسیار بزرگ کار کند و قابل اعتماد باشد. Nidhi Chappell، مدیر کل زیرساخت هوش مصنوعی Azure در مایکروسافت گفت: این به امکان ChatGPT منجر شد. “این یکی از الگوهایی است که از آن بیرون آمده است. تعداد بسیار زیادی وجود خواهد داشت.»
این فناوری به OpenAI اجازه داد تا ChatGPT، چت ربات ویروسی را راهاندازی کند که بیش از 1 میلیون کاربر را ظرف چند روز پس از عرضه عمومی در ماه نوامبر جذب کرد و اکنون به مدلهای تجاری سایر شرکتها، از مدلهایی که توسط بنیانگذار میلیاردر صندوق تامینی کن گریفین اداره میشود، وارد میشود. به خدمات تحویل مواد غذایی Instacart Inc. همانطور که ابزارهای مولد هوش مصنوعی مانند ChatGPT مورد توجه مشاغل و مصرف کنندگان قرار می گیرد، فشار بیشتری بر ارائه دهندگان خدمات ابری مانند مایکروسافت و آمازون وارد می شود. com Inc. و Google’s Alphabet Inc. تا اطمینان حاصل کنند که مراکز داده آنها می توانند قدرت محاسباتی عظیم مورد نیاز را فراهم کنند.
مایکروسافت اکنون از همان مجموعه منابعی که برای OpenAI ایجاد کرده برای آموزش و اجرای مدلهای بزرگ هوش مصنوعی خود، از جمله ربات جدید جستجوی Bing که ماه گذشته رونمایی شد، استفاده میکند. او همچنین سیستم را به مشتریان دیگر می فروشد. این غول نرم افزاری در حال حاضر روی نسل بعدی ابررایانه هوش مصنوعی کار می کند، بخشی از قرارداد توسعه یافته با OpenAI که باعث شد مایکروسافت 10 میلیارد دلار به سرمایه گذاری خود اضافه کند.
“ما آنها را به عنوان یک چیز سفارشی نساختیم — آن را به عنوان یک چیز سفارشی شروع کردیم، اما همیشه آن را به گونه ای ساختیم که آن را تعمیم دهیم تا هرکسی که می خواهد یک مدل زبان بزرگ را آموزش دهد بتواند از همان پیشرفت ها استفاده کند.” گاتری در مصاحبه ای گفت. این واقعاً به ما کمک کرد تا به طور کلی ابر بهتری برای هوش مصنوعی باشیم.»
آموزش یک مدل عظیم هوش مصنوعی به مجموعه بزرگی از GPUهای متصل در یک مکان مانند ابررایانه هوش مصنوعی که توسط مایکروسافت مونتاژ شده است، نیاز دارد. هنگامی که مدل مورد استفاده قرار می گیرد، پاسخ به هر سؤالی که کاربران می پرسند – که استنتاج نامیده می شود – به تنظیمات کمی متفاوت نیاز دارد. مایکروسافت همچنین تراشههای گرافیکی را برای استنتاج استفاده میکند، اما این پردازندهها – صدها هزار نفر از آنها – از نظر جغرافیایی در بیش از 60 منطقه مرکز داده شرکت پراکنده هستند. مایکروسافت روز دوشنبه در یک پست وبلاگی اعلام کرد که این شرکت اکنون آخرین تراشه گرافیکی انویدیا را برای بارهای کاری هوش مصنوعی – H100 – و آخرین نسخه فناوری شبکه Infiniband انویدیا را برای اشتراکگذاری سریعتر داده اضافه میکند.
Bing جدید هنوز در حال پیش نمایش است و مایکروسافت به تدریج کاربران بیشتری را از لیست انتظار اضافه می کند. تیم گاتری جلسات روزانه با حدود دوجین کارمند برگزار می کند که آنها را به نام گروه مکانیکی که ماشین های مسابقه را در اواسط مسابقه تنظیم می کنند، “خدمه پیت” نامیده اند. وظیفه این گروه این است که بفهمد چگونه می توان به سرعت مقادیر بیشتری از ظرفیت محاسباتی را آنلاین کرد و همچنین مشکلات در حال ظهور را برطرف کرد.
“این یک نوع گردهمایی است که به این صورت است، “هی، کسی ایده خوبی دارد، بیایید آن را امروز روی میز بگذاریم، بیایید درباره آن بحث کنیم و آن را کشف کنیم.” خوب، می توانیم چند دقیقه اینجا وقت بگذاریم؟ میشه چند ساعت اصلاح کنیم؟ چند روز؟» گاتری گفت.
یک سرویس ابری به هزاران بخش و عنصر مختلف بستگی دارد – تکههای جداگانه سرورها، لولهها، بتن برای ساختمانها، فلزات و مواد معدنی مختلف – و تاخیر یا کمبود هر یک از اجزا، هر چقدر هم که کوچک باشد، میتواند همه چیز را به همراه داشته باشد. پایین. اخیراً، خدمه گودال مجبور شدند با کمبود سینی کابل – ابزارهای سبد مانندی که کابل های خارج شده از ماشین ها را نگه می دارند، دست و پنجه نرم کنند. بنابراین آنها یک قفسه کابل جدید طراحی کردند که مایکروسافت می تواند خودش آن را بسازد یا جایی برای خرید پیدا کند. گاتری گفت، آنها همچنین روی راههایی کار کردهاند که تا آنجا که ممکن است سرورها را در مراکز داده موجود در سراسر جهان فشرده کنند تا مجبور نباشند منتظر ساختمانهای جدید باشند.
وقتی OpenAI یا Microsoft یک مدل هوش مصنوعی بزرگ را آموزش میدهند، کار به یکباره انجام میشود. بین تمام پردازندههای گرافیکی تقسیم میشود و در زمانهای خاصی واحدها باید با یکدیگر صحبت کنند تا کارهایی را که انجام دادهاند به اشتراک بگذارند. برای ابرکامپیوتر هوش مصنوعی، مایکروسافت باید مطمئن می شد که تجهیزات شبکه ای که ارتباطات بین تمام تراشه ها را مدیریت می کند، می تواند این بار را تحمل کند و باید نرم افزاری را توسعه می داد که بهترین استفاده را از پردازنده های گرافیکی و تجهیزات شبکه داشته باشد. اکنون این شرکت نرم افزاری را ارائه کرده است که به آن اجازه می دهد مدل هایی با ده ها تریلیون پارامتر آموزش دهد.
از آنجایی که همه ماشینها به یکباره روشن میشوند، مایکروسافت باید به این فکر میکرد که کجا قرار گرفتهاند و منابع تغذیه در کجا قرار دارند. گاتری گفت، در غیر این صورت، نسخه مرکز داده را دریافت خواهید کرد که وقتی مایکروویو، توستر و جاروبرقی را همزمان در آشپزخانه روشن می کنید چه اتفاقی می افتد.
آلیستر اسپیرز، مدیر زیرساختهای جهانی Azure، گفت: این شرکت همچنین باید مطمئن میشد که میتواند همه آن ماشینها و تراشهها را خنک کند و از تبخیر، هوای بیرون در آبوهوای سردتر و خنککنندههای باتلاقی با فناوری پیشرفته در آبوهوای گرم استفاده میکرد.
گاتری گفت که مایکروسافت به کار بر روی طراحی سرورها و تراشههای سفارشی و راههای بهینهسازی زنجیره تامین خود برای از بین بردن هرگونه سود در سرعت، کارایی و صرفهجویی در هزینه ادامه خواهد داد.
«مدلی که در حال حاضر دنیا را به طوفان میبرد، بر روی ابررایانهای ساخته شده است که ما چند سال پیش ساختیم. مدلهای جدید بر روی ابرکامپیوتر جدیدی که در حال حاضر در حال آموزش آن هستیم ساخته میشوند، که بسیار بزرگتر است و امکان اصلاح بیشتر را فراهم میکند.»