paint-brush
الكثير من أنظمة الذكاء الاصطناعي بأسماء سيئة للغاية: كيفية اختيار نموذج الذكاء الاصطناعي المناسب لكبواسطة@lee.aao
824 قراءة٪ s
824 قراءة٪ s

الكثير من أنظمة الذكاء الاصطناعي بأسماء سيئة للغاية: كيفية اختيار نموذج الذكاء الاصطناعي المناسب لك

بواسطة Leo Khomenko4m2025/03/25
Read on Terminal Reader

طويل جدا؛ ليقرأ

لقد غمرتنا مختبرات الذكاء الاصطناعي بنماذج جديدة كثيرة، لدرجة أنني أجد صعوبة في مواكبتها. النماذج الجديدة رائعة، لكن تسميتها مُربكة للغاية. لم يعد بالإمكان التمييز بين النماذج بمعايير الأداء. لم تعد مقولة "هذا الأفضل، فليستخدمه الجميع" تُجدي نفعًا.
featured image - الكثير من أنظمة الذكاء الاصطناعي بأسماء سيئة للغاية: كيفية اختيار نموذج الذكاء الاصطناعي المناسب لك
Leo Khomenko HackerNoon profile picture

منذ أوائل عام 2025، غمرتنا مختبرات الذكاء الاصطناعي بالعديد من النماذج الجديدة التي أجد صعوبة في مواكبتها.


لكن الاتجاهات تقول إن لا أحد يهتم! لا يوجد سوى ChatGPT:


كيف ذلك؟


النماذج الجديدة رائعة، لكن تسميتها مُربكة. علاوة على ذلك، لم يعد بالإمكان التمييز بين النماذج بمعايير الأداء. لم تعد عبارة "هذا هو الأفضل، فليستخدمه الجميع" تُجدي نفعًا.


باختصار، هناك العديد من نماذج الذكاء الاصطناعي الرائعة حقًا في السوق، لكن قلة من الناس يستخدمونها بالفعل.


وهذا عار!


سأحاول أن أجد معنى لفوضى التسمية، وأشرح أزمة المعايير، وأشارك النصائح حول كيفية اختيار النموذج المناسب لاحتياجاتك.

نماذج كثيرة جدًا وأسماء فظيعة

لطالما مازح داريو أمودي قائلاً إننا قد نبتكر الذكاء الاصطناعي العام قبل أن نتعلم تسمية نماذجنا بوضوح. جوجل، تقليدياً، هي الرائدة في مجال التشويش:



للإنصاف، يبدو الأمر منطقيًا. كل طراز "أساسي" يحتوي الآن على العديد من التحديثات. لكنها ليست دائمًا ثورية بما يكفي لتبرير كل تحديث كإصدار جديد. من هنا جاءت كل هذه البادئات.


لتبسيط الأمور، قمت بتجميع جدول لأنواع النماذج من المختبرات الرئيسية، وإزالة كل التفاصيل غير الضرورية.



إذن، ما هي هذه الأنواع من النماذج؟


  1. هناك نماذج أساسية ضخمة وقوية. إنها مثيرة للإعجاب، لكنها بطيئة ومكلفة عند تطبيقها على نطاق واسع.


  2. لهذا السبب اخترعنا التقطير : خذ نموذجًا أساسيًا، وقم بتدريب نموذج أكثر إحكاما على إجاباته، وستحصل على نفس القدرات تقريبًا، ولكن بشكل أسرع وأرخص.


  3. هذا أمر بالغ الأهمية لنماذج الاستدلال . يتبع أفضل المؤدين الآن سلاسل استدلال متعددة الخطوات: تخطيط الحل، التنفيذ، والتحقق من النتيجة. فعّال ولكنه مكلف.


هناك أيضًا نماذج متخصصة: نماذج للبحث، ونماذج رخيصة جدًا للمهام البسيطة، أو نماذج لمجالات محددة كالطب والقانون. بالإضافة إلى مجموعة منفصلة للصور والفيديوهات والمقاطع الصوتية. لم أدرج جميعها لتجنب أي لبس. كما تجاهلتُ عمدًا بعض النماذج والمختبرات الأخرى لتبسيطها قدر الإمكان.


في بعض الأحيان، التفاصيل الإضافية تجعل الأمور أسوأ.

جميع النماذج متساوية بشكل أساسي الآن

أصبح من الصعب اختيار فائز واضح. وقد وصف أندريه كارباثي هذه المسألة مؤخرًا بـ"أزمة تقييم".


ليس من الواضح أي المقاييس يجب النظر إليها الآن. مقياس MMLU قديم، واختبار SWE محدود جدًا. ساحة Chatbots شائعة جدًا لدرجة أن المختبرات تعلمت "اختراقها".



حاليًا، هناك عدة طرق لتقييم النماذج:


  1. تقيس المعايير الضيقة مهاراتٍ محددةً للغاية، مثل برمجة بايثون أو معدلات الهلوسة. لكن النماذج تزداد ذكاءً وتتقن مهامًا أكثر، لذا لم يعد بالإمكان قياس مستواها بمقياس واحد فقط.


  1. تحاول معايير الأداء الشاملة رصد أبعاد متعددة باستخدام مقاييس متعددة. لكن مقارنة جميع هذه النتائج سرعان ما تصبح فوضوية. لاحظ أن الناس يحاولون تحليل مضاعفات هذه المعايير المعقدة. خمسة أو عشرة في كل مرة! نموذج واحد ينجح هنا، وآخر هناك - حظًا سعيدًا في فهمها.

يحتوي LifeBench على ثلاثة مقاييس لكل فئة. وهذا مجرد معيار واحد من بين عشرات المعايير.


  1. ساحة، حيث يُقارن البشر إجابات النماذج عشوائيًا بناءً على تفضيلاتهم الشخصية. تحصل النماذج على تصنيف ELO، مثل لاعبي الشطرنج. كلما فزت أكثر، حصلت على تصنيف ELO أعلى. لكن هذا كان رائعًا حتى اقتربت النماذج من بعضها البعض كثيرًا.


فرق 35 نقطة يعني أن النموذج أفضل بنسبة 55% فقط من الوقت.


كما هو الحال في الشطرنج، لا يزال لدى اللاعب صاحب تصنيف ELO الأقل فرصة جيدة للفوز. حتى مع وجود فارق 100 نقطة، يظل النموذج "الأسوأ" متفوقًا في ثلث الحالات.


ومرة أخرى، بعض المهام تُحل بشكل أفضل باستخدام نموذج، والبعض الآخر باستخدام نموذج آخر. اختر نموذجًا أعلى في القائمة، وقد يكون أحد طلباتك العشرة أفضل. أيهما أفضل، وإلى أي مدى؟


من يعلم؟

إذن، كيف تختار؟

في غياب خيارات أفضل، يقترح كارباثي الاعتماد على فحص الاهتزازات.


اختبر النماذج بنفسك وحدد أيها يناسبك. من السهل خداع نفسك.


إنه أمر شخصي وعرضة للتحيز، ولكنه عملي.


وهنا نصيحتي الشخصية:


  1. إذا كانت المهمة جديدة، فافتح عدة علامات تبويب بنماذج مختلفة وقارن النتائج. ثق بحدسك لتحديد النموذج الذي يتطلب تعديلات أو تحريرات أقل.
  2. إذا كانت المهمة مألوفة بالنسبة لك، استخدم فقط النموذج الأفضل لديك.
  3. انسَ السعي وراء أرقام الأداء القياسية. ركّز على تجربة المستخدم التي تُفضّلها، وامنح الأولوية للاشتراك الذي ترغب بدفعه.
  4. إذا كنت لا تزال ترغب في الحصول على أرقام، فجرّب https://livebench.ai/#/ . يزعم مطوروه أنه يُعالج مشاكل شائعة في معايير التقييم، مثل الاختراق، والتقادم، وضيق النطاق، والذاتية.
  5. بالنسبة لمنشئي المنتجات، إليكم دليل رائع من HuggingFace حول كيفية إعداد معياركم الخاص. https://github.com/huggingface/evaluation-guidebook/


في هذه الأثناء، إذا كنت تنتظر إشارة لتجربة شيء آخر غير ChatGPT، فإليك هذه الإشارة:


https://claude.ai/

https://gemini.google.com/

https://grok.com/

https://chat.deepseek.com/

https://сhаt.openai.сom


بعد ذلك، سأغطي أهم النقاط البارزة في كل نموذج وألخص اختبارات الاهتزاز الخاصة بالأشخاص الآخرين.


إذا أعجبك هذا ولا تريد أن تفوت المقال التالي، اشترك!



هناك المزيد في المستقبل!!