منذ أوائل عام 2025، غمرتنا مختبرات الذكاء الاصطناعي بالعديد من النماذج الجديدة التي أجد صعوبة في مواكبتها.
لكن الاتجاهات تقول إن لا أحد يهتم! لا يوجد سوى ChatGPT:
كيف ذلك؟
النماذج الجديدة رائعة، لكن تسميتها مُربكة. علاوة على ذلك، لم يعد بالإمكان التمييز بين النماذج بمعايير الأداء. لم تعد عبارة "هذا هو الأفضل، فليستخدمه الجميع" تُجدي نفعًا.
باختصار، هناك العديد من نماذج الذكاء الاصطناعي الرائعة حقًا في السوق، لكن قلة من الناس يستخدمونها بالفعل.
وهذا عار!
سأحاول أن أجد معنى لفوضى التسمية، وأشرح أزمة المعايير، وأشارك النصائح حول كيفية اختيار النموذج المناسب لاحتياجاتك.
لطالما مازح داريو أمودي قائلاً إننا قد نبتكر الذكاء الاصطناعي العام قبل أن نتعلم تسمية نماذجنا بوضوح. جوجل، تقليدياً، هي الرائدة في مجال التشويش:
للإنصاف، يبدو الأمر منطقيًا. كل طراز "أساسي" يحتوي الآن على العديد من التحديثات. لكنها ليست دائمًا ثورية بما يكفي لتبرير كل تحديث كإصدار جديد. من هنا جاءت كل هذه البادئات.
لتبسيط الأمور، قمت بتجميع جدول لأنواع النماذج من المختبرات الرئيسية، وإزالة كل التفاصيل غير الضرورية.
إذن، ما هي هذه الأنواع من النماذج؟
هناك نماذج أساسية ضخمة وقوية. إنها مثيرة للإعجاب، لكنها بطيئة ومكلفة عند تطبيقها على نطاق واسع.
لهذا السبب اخترعنا التقطير : خذ نموذجًا أساسيًا، وقم بتدريب نموذج أكثر إحكاما على إجاباته، وستحصل على نفس القدرات تقريبًا، ولكن بشكل أسرع وأرخص.
هذا أمر بالغ الأهمية لنماذج الاستدلال . يتبع أفضل المؤدين الآن سلاسل استدلال متعددة الخطوات: تخطيط الحل، التنفيذ، والتحقق من النتيجة. فعّال ولكنه مكلف.
هناك أيضًا نماذج متخصصة: نماذج للبحث، ونماذج رخيصة جدًا للمهام البسيطة، أو نماذج لمجالات محددة كالطب والقانون. بالإضافة إلى مجموعة منفصلة للصور والفيديوهات والمقاطع الصوتية. لم أدرج جميعها لتجنب أي لبس. كما تجاهلتُ عمدًا بعض النماذج والمختبرات الأخرى لتبسيطها قدر الإمكان.
في بعض الأحيان، التفاصيل الإضافية تجعل الأمور أسوأ.
أصبح من الصعب اختيار فائز واضح. وقد وصف أندريه كارباثي هذه المسألة مؤخرًا بـ"أزمة تقييم".
ليس من الواضح أي المقاييس يجب النظر إليها الآن. مقياس MMLU قديم، واختبار SWE محدود جدًا. ساحة Chatbots شائعة جدًا لدرجة أن المختبرات تعلمت "اختراقها".
حاليًا، هناك عدة طرق لتقييم النماذج:
فرق 35 نقطة يعني أن النموذج أفضل بنسبة 55% فقط من الوقت.
كما هو الحال في الشطرنج، لا يزال لدى اللاعب صاحب تصنيف ELO الأقل فرصة جيدة للفوز. حتى مع وجود فارق 100 نقطة، يظل النموذج "الأسوأ" متفوقًا في ثلث الحالات.
ومرة أخرى، بعض المهام تُحل بشكل أفضل باستخدام نموذج، والبعض الآخر باستخدام نموذج آخر. اختر نموذجًا أعلى في القائمة، وقد يكون أحد طلباتك العشرة أفضل. أيهما أفضل، وإلى أي مدى؟
من يعلم؟
في غياب خيارات أفضل، يقترح كارباثي الاعتماد على فحص الاهتزازات.
اختبر النماذج بنفسك وحدد أيها يناسبك. من السهل خداع نفسك.
إنه أمر شخصي وعرضة للتحيز، ولكنه عملي.
وهنا نصيحتي الشخصية:
في هذه الأثناء، إذا كنت تنتظر إشارة لتجربة شيء آخر غير ChatGPT، فإليك هذه الإشارة:
بعد ذلك، سأغطي أهم النقاط البارزة في كل نموذج وألخص اختبارات الاهتزاز الخاصة بالأشخاص الآخرين.
إذا أعجبك هذا ولا تريد أن تفوت المقال التالي، اشترك!