آینده ای را تصور کنید که در آن هوش مصنوعی در خزانه های شرکتی محبوس نباشد، بلکه در فضای باز، آجر به آجر، توسط جامعه جهانی از نوآوران ساخته شود. جایی که همکاری، نه رقابت، به پیشرفتها دامن میزند، و ملاحظات اخلاقی با عملکرد خام وزن یکسانی دارند. این یک داستان علمی تخیلی نیست، بلکه انقلاب منبع باز است که در قلب توسعه هوش مصنوعی شکل گرفته است. اما Big Tech دستور کار خاص خود را دارد، مدلهای محدود شده را به عنوان منبع باز پنهان میکند و در عین حال تلاش میکند از مزایای یک جامعه واقعاً باز بهرهمند شود.
بیایید لایه های کد را باز کنیم و حقیقت پشت این تلاش ها را آشکار کنیم. این کاوش در آینده هوش مصنوعی منبع باز، «مدعویان» را تشریح کرده و از «واقعیها» در توسعه هوش مصنوعی دفاع میکند تا موتور نوآوری را که نرمافزار منبع باز است، در زیر همه چیز زمزمه میکند. نکته اصلی این است که هوش مصنوعی منبع باز یک پشته داده منبع باز ایجاد می کند.
نیاز
مقاله اخیر ماتئو ونگ در آتلانتیک، هرگز چیزی به نام هوش مصنوعی «باز» وجود نداشت ' روند رو به رشدی را در دانشگاه و جامعه نرم افزاری برای هوش مصنوعی منبع باز واقعی توصیف می کند. ایده این است که مدلهای نسبتاً شفافی ایجاد کنیم که عموم بتوانند آسانتر و ارزانتر از آن استفاده کنند، مطالعه کنند، و بازتولید کنند، و تلاش برای دموکراتیک کردن یک فناوری بسیار متمرکز که ممکن است پتانسیل تغییر کار، پلیس، اوقات فراغت و حتی مذهب را داشته باشد. همان آتلانتیک نشان میدهد که شرکتهای فناوری بزرگ مانند متا در تلاش هستند تا این نیاز را در بازار با «شستشوی باز» محصولات خود برطرف کنند. آنها کیفیت و شهرت مثبت جامعه منبع باز را بدون منبع باز واقعی محصول خود فرض می کنند. اما، هیچ جایگزینی برای چیز واقعی وجود ندارد. این به این دلیل است که نرمافزار منبع باز واقعی، نوآوری و همکاری را هدایت میکند: دو ویژگی که برای پیشبرد مسئولانه با هوش مصنوعی به شدت مورد نیاز است.
مدعیان
LLaMA 2، یک مدل زبان بزرگ است که توسط Meta ایجاد شده است که برای استفاده تحقیقاتی و تجاری رایگان است. برخی از افراد پیشنهاد می کنند که LLaMA 2 منبع باز است. با این حال، متا محدودیت های شدیدی را برای استفاده از مدل خود اعمال کرده است. به عنوان مثال، LLaMA 2 را نمی توان برای بهبود هر مدل زبان بزرگ دیگری استفاده کرد. موضعی که خلاف سنت است مدل نوآوری جمعی خصوصی نرم افزاری باز که افشای رایگان و باز نوآوری را به نفع همه در جامعه نرم افزار ترویج می کند.
متا با عدم اجازه ادغام LLaMA 2 با محصولاتی که 700 میلیون کاربر ماهانه دارند و با فاش نکردن داده هایی که مدل آنها بر روی چه داده هایی آموزش دیده است یا کدی که برای ساخت آن استفاده کرده اند، استفاده از مدل خود را فلج کرد. متا با افشا نکردن، خود را در برابر سوالاتی در مورد سوگیری ذاتی و تبعیض تصادفی باز می کند. یک مدل آموزش دیده بر روی داده های تبعیض آمیز خواهد بود ارائه پاسخ های تبعیض آمیز . بدون اینکه جامعه نرمافزاری به طور کلی قادر به مشاهده کد مورد استفاده برای ساخت مدل برای دیدن اینکه آیا حفاظتی ساخته شده است یا دادههای مورد استفاده برای آموزش آن را مشاهده کند، ما در مورد این سؤالات اخلاقی در تاریکی رها شدهایم. در زمانی که تحقیقات منتشر شده در مورد هوش مصنوعی بیشتر به فکر عملکرد است تا عدالت و احترام به این ابهام به ویژه آزاردهنده است.
آنهایی که واقعی است
هوش مصنوعی میسترال به دلیل مدلهای زبان بزرگ منبع باز خود، به ویژه Mistral 7B و Mixtral 8x7B، به رسمیت شناخته شده است. این شرکت تلاش میکند تا از دسترسی گسترده به مدلهای هوش مصنوعی خود اطمینان حاصل کند، و تشویق به بررسی، اصلاح و استفاده مجدد توسط جامعه نرمافزاری باز است.
vLLM مخفف "وکتوریزه شده با تاخیر کم مدل سرویس دهی" است و یک کتابخانه منبع باز است که به طور خاص برای سرعت بخشیدن و بهینه سازی مدل های زبان بزرگ (LLM) طراحی شده است. این ابزار قدرتمندی است که می تواند عملکرد و قابلیت استفاده LLM ها را به میزان قابل توجهی بهبود بخشد. این امر آن را به یک دارایی ارزشمند برای توسعه دهندگانی تبدیل می کند که بر روی انواع برنامه های هوش مصنوعی کار می کنند، از چت بات ها و دستیاران مجازی گرفته تا تولید محتوا و تولید کد. به طوری که Mistral استفاده از vLLM را به عنوان سرور استنتاج برای مدل های 7B و 8x7B توصیه می کند.
EleutherAI یک آزمایشگاه تحقیقاتی غیرانتفاعی هوش مصنوعی است که از یک سرور Discord برای بحث در مورد GPT-3 به یک سازمان تحقیقاتی غیرانتفاعی پیشرو تبدیل شده است. این گروه به دلیل کار خود در آموزش و ترویج هنجارهای علوم باز در پردازش زبان طبیعی شناخته شده است. آنها مدلهای زبان بزرگ متنباز مختلفی را منتشر کردهاند و در پروژههای تحقیقاتی مرتبط با همترازی هوش مصنوعی و قابلیت تفسیر مشارکت دارند. آنها LM-Harness پروژه احتمالاً ابزار ارزیابی منبع باز پیشرو برای مدل های زبانی است.
فی-2 LLM مایکروسافت است که بیش از وزن خود مشت می کند. این مدل کوچک اما قدرتمند که بر روی ترکیبی از متون مصنوعی و وبسایتهای فیلتر شده آموزش دیده است، در کارهایی مانند پاسخگویی به سؤال، خلاصهنویسی و ترجمه عالی عمل میکند. آنچه واقعاً Phi-2 را متمایز می کند تمرکز آن بر استدلال و درک زبان است که منجر به عملکرد چشمگیر حتی بدون تکنیک های تراز پیشرفته می شود.
بسیاری از مدلهای جاسازی منبع باز مناسب، فضای کلی AI مولد منبع باز را تقویت میکنند. اینها آخرین وضعیت فعلی برای منبع باز هستند و شامل UAE-Large-V1 و چند زبانه-e5-largel .
تعداد بیشتری در این زمینه همیشه در حال رشد وجود دارد. این لیست محدود فقط یک شروع است.
درایوهای منبع باز نوآوری
با پذیرش فلسفه نوآوری باز شدید، شرکتهایی که واقعاً در توسعه نرمافزار متنباز مشارکت میکنند، مفاهیم سنتی مزیت رقابتی را با اذعان به این موضوع به چالش میکشند. همه کدهای خوب یا ایده های عالی در سازمان آنها وجود ندارد . این تغییر از استدلال که نوآوریهای مشترک در اکوسیستم منبع باز منجر به رشد سریعتر بازار میشود و شرکتهای نرمافزاری کوچکتر را با بودجه تحقیق و توسعه محدودتر فراهم میکند. فرصت بهره مندی از سرریزهای تحقیق و توسعه موجود در نرم افزار منبع باز. این به این دلیل است که برخلاف برون سپاری سنتی، نوآوری باز است منابع داخلی را افزایش می دهد با استفاده از هوش جمعی جامعه، بدون کاهش تلاش های تحقیق و توسعه داخلی. به این معنی که شرکتهای نرمافزار متنباز مجبور نیستند بودجههای خود را فدای رهبری فکری و کدنویسی خارج از سازمان خود کنند.
علاوه بر این، شرکتهای نرمافزار متنباز، بهطور استراتژیک، نوآوری را به پیش میبرند انتشار زودهنگام و اغلب کدها با شناخت ماهیت تجمعی فرآیند نوآوری در جامعه نرم افزاری. همه آنها چیزی را می گویند که بسیاری از قبل تشخیص داده اند: نرم افزار منبع باز نوآوری را هدایت می کند.
منبع باز همکاری را تقویت می کند
از طریق شبکه در جامعه نرم افزار منبع باز، کارآفرینان قادر به تحقق اهداف کوتاه مدت و بلند مدت هستند. اهداف سود کوتاه مدت شرکت ها را می سازند و اهداف سود بلند مدت آنها را حفظ می کنند. در عین حال، این تلاش شبکهای خود شبکه را تداوم میبخشد - آن را برای کارآفرین بعدی رشد میدهد. به خوبی شناخته شده است که پلتفرمهای منبع باز دسترسی به کد منبع را فراهم میکنند و توسعهدهندگان را قادر میسازند تا ارتقاها، پلاگینها و سایر نرمافزارها را ایجاد کنند و از آنها بر اساس نیاز خود استفاده کنند. این نوع خاص از همکاری با پذیرش گسترده Kubernetes توسط جامعه نرم افزاری گسترده تر، رونق گرفت. اکنون بیش از هر زمان دیگری، فناوریهای مدرن با اصطکاک بسیار کم با هم کار میکنند و تقریباً در هر کجا میتوانند در عرض چند دقیقه با هم باشند.
شرکتهای فناوری بزرگ این همکاری عمیق ذاتی جامعه متنباز را زمانی که آزادانه چارچوبها، کتابخانهها و زبانهایی را که برای نگهداری و توسعه ابزارهای داخلی ایجاد کردهاند منتشر میکنند، تصدیق میکنند. انجام این کار تعداد توسعه دهندگانی را که قادر به کار بر روی محصولات خود هستند عمیق تر می کند و شروع به تعیین استاندارد برای نحوه عملکرد فناوری های مشابه می کند. همان مقاله آتلانتیک به نقل از مارک زاکربرگ، بنیانگذار متا، میگوید: «ارائه آن برای ما بسیار ارزشمند است، زیرا اکنون همه بهترین توسعهدهندگان در سراسر صنعت از ابزارهایی استفاده میکنند که ما نیز در داخل از آنها استفاده میکنیم».
منبع باز منبع باز ایجاد می کند
اینها عواملی هستند که چرا ما اغلب شاهد هم افزایی بین شرکت های منبع باز هستیم. شرکتهای AI و ML منبع باز به طور طبیعی راهحلهایی را با سایر محصولات منبع باز از محصولات اساسی مانند ذخیرهسازی اشیاء گرفته تا ابزارهای تجسمی توسعه خواهند داد. وقتی یک شرکت منبع باز جلو می رود، همه ما این کار را می کنیم. این رویکرد منسجم و ترکیبی احتمالاً بهترین گزینه ما برای توسعه هوش مصنوعی است که رویکردی انسان محور دارد. این نیروهای طبیعی ذاتی بازار نیاز به هوش مصنوعی منبع باز همراه با کیفیت نرم افزار منبع باز نوآوری و همکاری، پشته داده های AI منبع باز را هدایت می کند.
لطفاً با ارسال ایمیل به ما در این گفتگو و جامعه ما بپیوندید و در آن مشارکت کنید hello@min.io یا در کانال Slack برای ما پیام ارسال کنید.