إذا قمت بفحص المعايير الشائعة المستخدمة لقياس أداء LLM، فربما تشعر أن الذكاء الاصطناعي ذكي للغاية.
قد يبدو هذا انطباعًا سطحيًا إلى حد ما؛ ولكن هل الذكاء الاصطناعي أفضل حقًا من الإنسان العادي في المهام المعرفية؟
إن نماذج Frontier مثل o1 من OpenAI وClaude 3.5 Sonnet من Anthropic تعمل بشكل أفضل من البشر الخبراء في عدد من المجالات، بما في ذلك القانون والترميز والرياضيات. لماذا إذن لا يستطيع ChatGPT حل بعض مهام التفكير المكاني البسيطة أو بعض الأسئلة الخادعة السخيفة؟ حسنًا، ما زلنا نتحدث عن "نماذج لغوية كبيرة" - فهي تأخذ طنًا من الحروف وتحاول التنبؤ بالحروف التي يجب إخراجها لاستعلام معين.
لاحظ أنه لم يتم ذكر "التفكير" الفعلي في أي مكان في هذه المعادلة. فالنماذج عبارة عن ببغاوات عشوائية من نوع ما، حيث تحاول استرجاع المعلومات الصحيحة من مجموعة بيانات التدريب الخاصة بها بدلاً من النظر في سؤالك بالفعل. على الأقل، كانت هذه هي الحال حتى أصدرت OpenAI معاينة o1، ولكن المزيد حول هذا لاحقًا.
من بين أولئك الذين بدأوا في التشكيك في معايير LLM الحالية فيما يتعلق بالأهمية مؤلف قناة "AI Explained" الشهيرة على YouTube والتي أنا معجب بها بشدة. لاحظ فيليب (اسم صاحب القناة على YouTube) أن معايير الصناعة القياسية لها نمط واضح من الأسئلة المتاحة للجمهور في الغالب. وهذا يعني أنه ليس فقط يمكن أن تكون هذه الأسئلة الدقيقة جزءًا من مجموعة بيانات التدريب، ولكن بسبب التوحيد القياسي، أصبح من الأسهل على النماذج اكتشاف الأنماط وتطبيقها من بيانات التدريب الإجمالية.
وببساطة، يمكن للباحثين في مجال الذكاء الاصطناعي الذين يبتكرون تقنيات معقدة رائدة أن يجدوا بالتأكيد طريقة لإعطاء نموذجهم الأسئلة والأجوبة ذات الصلة "للتذكر" قبل إجراء المقارنة المعيارية.
بالنظر إلى نتائج النموذج الأول الموجود، o1 من OpenAI، يمكننا أن نستنتج أنه حقق نتائج أعلى من المتوسط في العديد من المجالات المهنية. وهذا صحيح، لكن هذه النتيجة تعتمد على توافر بيانات التدريب ذات الصلة والأمثلة السابقة من تلك المجالات المحددة. لا تفهمني خطأً، فالنماذج الآن مذهلة في تقديم إجابات نموذجية لأسئلة نموذجية، وهذا في حد ذاته مثير للإعجاب بشكل لا يصدق.
ولكن مصطلح "الذكاء الاصطناعي" يشير إلى أكثر من مجرد استرجاع المعلومات؛ إذ ينبغي أن يتضمن الأمر قدراً من التفكير الفعلي. لذا فإن المتابعة المنطقية لجميع الأرقام المثيرة للإعجاب أعلاه هي ما إذا كان هذا "الذكاء الاصطناعي" قادراً على الإجابة على سؤال منطقي صعب. هل يتمتع بأي ذكاء مكاني؟ أو هل يستطيع التنقل بشكل جيد في السيناريوهات الاجتماعية الشائعة؟ والإجابة هي ــ في بعض الأحيان.
على عكس الأسئلة الخاصة بالمجال والتي لها إجابات محددة مسبقًا، فإن المشكلات التي يحلها البشر على أساس يومي غالبًا ما تتطلب فهم السياق بما يتجاوز اللغة الطبيعية (وهو الشيء الوحيد الذي يمتلكه طلاب الماجستير في القانون).
في الأعلى، نجد أعلى الدرجات في اختبار SIMPLE، الذي يطرح أسئلة في امتحان الماجستير في القانون قد يعتبرها الشخص العادي تافهة ولكن النماذج لا تستطيع بالضرورة الإجابة عليها حتى الآن. اعتدنا على رؤية الذكاء الاصطناعي يتفوق على الإنسان العادي في الامتحانات أو الاختبارات المتخصصة، ولكن هنا، فإن أفضل أداء للنموذج هو في الواقع 41.7% فقط (معاينة 01) مقابل 83.7% من الإنسان العادي. يستخدم هذا الاختبار 200 سؤال نصي متعدد الخيارات يركز على التفكير المكاني الزمني والذكاء الاجتماعي والأسئلة الخادعة.
الميزة الأكثر أهمية في هذا المعيار هي أن هذه الأسئلة غير متاحة للعامة، وبالتالي لا تستطيع مختبرات الذكاء الاصطناعي إضافتها إلى بيانات التدريب الخاصة بها. يمكنك معرفة المزيد عن هذا المعيار هنا .
يُظهِر هذا النهج الجديد لقياس أداء ماجستير القانون مدى ابتعاد كل النماذج عن متوسط قدرة التفكير البشري. وكلما أسرعنا في سد هذه الفجوة في الأشهر المقبلة، أصبحت الإجابة "نعم" على عنواننا أكثر حسمًا. وهو مقياس جديد مثير للاهتمام يجب الانتباه إليه إذا كنت متحمسًا ولكن حذرًا بشأن الذكاء الاصطناعي.