السؤال "هل يمكن للطائرات أن تفكر؟" قد تحطم علوم الكمبيوتر منذ أن ألان تيرينغ أعلنت أولًا اختبارها المعروف في عام 1950، الآن، بعد 75 عامًا، حيث أصبحت الذكاء الاصطناعي أكثر تعقيدًا وتكثيفًا في حياتنا اليومية، لم يكن هذا السؤال أكثر ضرورة - أو أكثر صعوبة للاجابة. HackerNoon تم إطلاقها في عصر عندما تستطيع أنظمة الذكاء الاصطناعي كتابة رمز، إنتاج الفن، تشخيص الأمراض، والتفاعل مع المحادثات التي تشعر بشخصية رائعة، ونحن بحاجة إلى طرق أفضل لمعرفة ما يمكن ومهما لا يمكن القيام به هذه الأنظمة. تكنولوجيا تكنولوجيا تكنولوجيا تكنولوجيا لماذا بناء هذا؟ كل أسبوع يأتي نموذجاً جديداً، ومؤشرات جديدة، ومطالب جديدة حول الذكاء الاصطناعي العام، ولكن في ظل كل هذا الصوت، لا يزال سؤالًا هامًا: كيف نعرف حقيقة ما إذا كانت هذه الأنظمة تعمل؟ تقييمات الماجستير التقليدية تقييم القدرة القصيرة - دقة في الأسئلة متعددة الخيارات، والقدرة على تحديد التحديات، أو معدل النجاح في المهام المحددة. هذا هو المكان الذي يأتي اختبار تيرينغ.إلا أن الاختبار تيرينغ هو الاختبارات الديناميكية والتفاعلية التي تتحكم في حدود الذكاء الاصطناعي.إنها لا تسأل فقط "هل يمكن للذكاء الاصطناعي إكمال هذه المهمة؟" ولكن "هل يمكن أن يفعل ذلك بطريقة لا يختلف عنها - أو مقارنة مع - بشري؟". المشكلة هي أن هذه الاختبارات تنتشر عبر المجلات البحثية، المجلات GitHub، المدونات الشركات، والمؤتمرات الأكاديمية. بعضها صارمة ومصممة جيدا. يلغي هذا المشكلة من خلال إنشاء مكتبة متكاملة من اختبارات تقييم الذكاء الاصطناعي من جميع أنحاء الإنترنت، والتي تم إنشاؤها وتوزيعها من قبل HackerNoon. تكنولوجيا تكنولوجيا تكنولوجيا تكنولوجيا ما الذي يجعل اختبار تورينغ فعالًا؟ ليس كل اختبارات تم إنشاؤها متساوية.كما نقوم بتنظيم هذا الكتاب، نحن نبحث عن تقييمات تتوافق مع عدد من المعايير: الشفافية: يجب أن تكون طريقة الاختبار واضحة ومتناسقة، ولا تساعد تقييمات الحجر الأسود التي لا يمكن التحقق بها بشكل مستقل. صارخ: يجب على الاختبار تحدي أنظمة الذكاء الاصطناعي بطرق معقولة، وليس فقط قياس قدرتها على التكيف مع البيانات التدريبية. أهمية: يجب أن تكون القدرات التي يتم اختبارها مهمة بالنسبة إلى التطبيقات في العالم الحقيقي.هل يمكن أن يكتب هذا AI تحليلات قانونية متكاملة؟هل يمكن أن يقوم بتحميل الكود المعقد؟هل يمكن أن يشرح المفاهيم العلمية للطفل عمره 10 سنوات؟ العدالة: يجب على الاختبار التعامل مع أنواع مختلفة من الذكاء و تجنب التناقضات الثقافية أو اللغوية التي ترغب في بعض الأنظمة مقابل الآخرين. التطور: تتكيف أفضل الاختبارات مع تحسين قدرات الذكاء الاصطناعي. ما يهدد GPT-2 قد يكون سهلاً بالنسبة إلى GPT-4, لذلك تحتاج إطاريات التقييم إلى الحد من السرعة. تحليل الوضع في AI في 2025 لدينا أنظمة الذكاء الاصطناعي أكثر قوة من أي وقت مضى، ولكن قدرةنا على تقييمها بشكل معقول لم تتوقف. فكر في التفكير حول المفاهيم مثل "الذكاء الاصطناعي العام" أو "التفكير".الباحثين المختلفين يستخدمون هذه الكلمات للحديث عن الأشياء المختلفة. "AGI" من فريق واحد هو فريق آخر "الذكاء الاصطناعي الصارم مع العلاقات العامة الجيدة". وفي الوقت ذاته، تنمو الأوراق. وتستخدم أنظمة الذكاء الاصطناعي في مجال الرعاية الصحية والتعليم والحقوق والأمن القومي. نحن بحاجة إلى معرفة ليس فقط أن هذه الأنظمة تعمل في بعض الأحيان، ولكن كيف تبدو النتائج، حيث تقع آثارها السلبية، وكيف تبدو حدودها تحت الضغط. عندما يمكن للباحثين بناء على عمل بعضهم البعض - عندما يمكنهم مقارنة النتائج عبر الاختبارات المختلفة والأنظمة المختلفة - فإننا نقدم تقدمًا أسرع نحو فهم ما يجعل الذكاء الاصطناعي قادرًا على القيام به. من المختبرات إلى العالم الحقيقي ليس فقط للباحثين، بل هو: تكنولوجيا تكنولوجيا المطورين الذين يحتاجون إلى تقييم ما إذا كان نظام الذكاء الاصطناعي محددًا مناسبًا لموضوع استخدامهم. هل تحتاج إلى دمج Claude أو GPT-4 في التطبيق الخاص بك؟ ماذا عن بدائل مصدر مفتوح؟ الاختبارات المختلفة تشير إلى نقاط ضعف مختلفة. عندما يطالب الموردون بإنجاز نظامهم "تأثيرًا على مستوى الإنسان"، ماذا يعني ذلك في الواقع؟ ما هي اختباراتهم التي استخدموها؟ كيف تتقاسم هذه النتائج مع أنظمة أخرى؟ بدلا من الاعتماد فقط على التقارير الصحفية للشركة، يمكنهم استكشاف البيانات الإحصائية الحقيقية واكتشاف كيف تعمل الأنظمة المختلفة على الاختبارات المعتمدة. الطلاب بحاجة إلى فهم ليس فقط كيف تعمل أنظمة الذكاء الاصطناعي، ولكن كيف نقيس القدرات والحدود. السياسات التي تقوم بتنفيذها تتنافس مع تنظيم الذكاء الاصطناعي، لا يمكنك السيطرة على ما لا يمكنك قياسه، وتنظيمات تقييم أفضل تؤدي إلى سياسة أفضل. الطريق إلى الأمام ونحن ندعو الباحثين والمطورين والمؤسسات إلى إرسال إطارات التقييم الخاصة بهم والتحليلات تورينغ إلى المجلات. نحن نأمل أن يكون هناك قيمة في إنشاء مخزون مترابط لتطبيقات تقييم الذكاء الاصطناعي. نحن نأمل أن النقاش والتنظيم سيؤدي إلى أنظمة الذكاء الاصطناعي أفضل وأكثر إعلامية حول ما يمكن أن تقوم به هذه الأنظمة. نحن نقدم أيضاً أن المجتمع التكنولوجي – أكثر من 45 ألف كتاب مساعد في HackerNoon و 4 ملايين قراء شهريًا – سيساعدنا في بناء شيء من القيمة لأن في نهاية المطاف، فهم الذكاء الاصطناعي ليس مجرد تحدي تقني. كان اختبار توريغ الأصلي بسيطًا: هل يمكن أن يثبت آلة أن الإنسان هو الإنسان؟ ولكن هذا لم يكن سؤالًا صحيحًا.السؤال الحقيقي كان دائمًا أكثر تعقيدًا: ماذا يعني أن آلة تفكر؟ كيف يمكننا أن نعرف الفرق بين الذكاء الحقيقي والتوازن النموذجي المتطرف؟ وكما أن هذه الأنظمة أصبحت أكثر قدرة، كيف يمكننا التأكد من أنهم يستفيدون من احتياجات الإنسان بدلاً من تمييز السلوك الإنساني؟ ولكن مع TuringTest.tech، نحن نخلق مساحة حيث يمكن للصناعة التعاون في العثور عليها. تشارك في زيارة إذا قمت بتطوير نطاق تقييم الذكاء الاصطناعي، وإجراء اختبار ترينغ، أو تعرف على الاختبارات الهامة التي يجب أن تكون مخصصة، نريد أن نسمع منك. تكنولوجيا تكنولوجيا تكنولوجيا تكنولوجيا إن مستقبل الذكاء الاصطناعي لا يعتمد فقط على بناء أنظمة أكثر ذكاءً، ولكن على فهم الأنظمة التي بناها بالفعل.