「機械は考えることができるか?」という質問は、1950年にアラン・チューリングが最初に有名なテストを提案して以来、コンピュータサイエンスに襲いかかっています。 ハッカースタート インターネットで最も説得力のあるチューリングのテストとAI評価枠組みの1601のカリキュラムをまとめ、AIシステムがコードを書く、芸術を生成し、病気を診断し、驚くほど人間的に感じる会話に参加できる時代には、これらのシステムが何ができるか、何ができないかを理解するより良い方法が必要です。 トゥーリングテスト.Tech トゥーリングテスト.Tech なぜこれを建てるのか。 AI業界は急速に動き始めています. 毎週、新しいモデル、新しいベンチマーク、および人工知能に関する新たな主張をもたらします. しかし、この騒音のなかで、重要な質問はしばしば答えられません: これらのシステムが実際に機能しているかどうかを私たちはどのように知っていますか? 伝統的な基準は、複数の選択の質問における精度、コード化の課題におけるパフォーマンス、あるいは特定のタスクにおける成功率といった狭い能力を測定します。これらの指標は重要ですが、物語全体を語ることはできません。 静的ベンチマークとは異なり、チューリングテストは機械知能の限界を調査するダイナミックでインタラクティブな評価です。 問題は、これらのテストが研究論文、GitHubリポジトリ、企業ブログ、学術会議に散らばっていることです。いくつかは厳格でよく設計されています。 インターネット上のAI評価テストの集中的で検索可能なディレクトリを作成することで、この問題を解決します HackerNoonによって構築され、カウンセリングされています HackerNoon ディレクトリは、テクノロジーをより透明性、アクセシビリティ、そして理解できるようにするための HackerNoonの継続的なコミットメントの一部です。 トゥーリングテスト.Tech トゥーリングテスト.Tech 効果的なチューリングテストとは? すべてのテストが平等に作成されるわけではありません。このディレクトリを編集するにつれて、いくつかの基準を満たす評価を探しています。 透明性:テスト方法は明確で再現可能で、独立して検証できないブラックボックス評価は誰にも役立たない。 厳格さ:テストは実際にAIシステムに有意義な方法で挑戦するべきであり、訓練データに対してパターンマッチする能力を測定するだけではありません。 関連性:テストされる能力は現実世界のアプリケーションにとって重要であるべきである。このAIは一貫した法的分析を書くことができるか?複雑なコードをデバッグできるか?科学的概念を10歳の子供に説明できるか? 公平性:テストは、異なるタイプの知能を考慮し、他のシステムに優先する文化的または言語的偏見を避けるべきである。 進化:AIの能力が向上するにつれて最良のテストが適応する. GPT-2 に挑戦したことは GPT-4 にとって無意味かもしれないので、評価フレームワークはペースをとらなければならない。 2025年のAI評価の状況 AI評価の分野は危機にしているが、これまで以上に強力なAIシステムを持っているが、それらを有意義に評価する能力は維持されていない。 さまざまな研究者がこれらの単語を使用して異なることを意味します。一つのチームの「AGI」は、別のチームの「良いPRを持つ狭いAI」です。 AIシステムは医療、教育、法律、国家安全保障の分野で展開されています。我々は、これらのシステムがしばらく働いているだけでなく、どのように失敗するのか、その盲点がどこにあるのか、そしてそれらの制限が圧力の下でどのようなものかを知る必要があります。 研究者がお互いの仕事に基づいて、さまざまなテストやさまざまなシステムの結果を比較できるようになると、AIが何ができるか、何ができないかを理解するための進歩が速くなります。 研究ラボから現実世界へ AIの研究者だけではなく、それは: トゥーリングテスト.Tech 特定のAIシステムが彼らの使用ケースに適しているかどうかを評価する必要がある開発者。あなたはアプリケーションに Claude または GPT-4 を統合すべきですか? オープンソースの代替案についてはどうですか? 異なるテストは異なる強みと弱みを明らかにします。 ビジネスリーダーはAIの現実からAIのハイプを切り離そうとしているが、サプライヤーが彼らのシステムが「人間レベルのパフォーマンス」を達成すると主張するとき、それは実際には何を意味するのだろうか? 彼らはどのようなテストを使ったのだろうか? その結果は他のシステムとどのように比較されるのだろうか? AI業界をカバーするジャーナリストやアナリストは、企業のプレスリリースに頼るのではなく、実際の評価データを調べ、さまざまなシステムが標準化されたテストでどのように機能するかを見ることができます。 AIについて教える教育者は、AIシステムがどのように機能するかだけでなく、どのようにAIシステムの能力と限界を測定するかを理解する必要があります。 政策立案者はAI規制に取り組んでいます. あなたは測定できないものを規制することはできません. より良い評価フレームワークはより良い政策につながります. 進む道のり 私たちは、研究者、開発者、および組織が評価枠組みとチューリングテストをディレクトリに提出するよう招待しています。 これは、多くの点で、実験です。AI評価手法の中心的なレポジトリを作成することに価値があると賭けています。透明性と標準化は、AIシステムの向上とこれらのシステムが何ができるかについてのより詳しい公衆の議論につながると賭けています。 また、HackerNoonの4万5000人以上の著者と毎月400万人の読者を含むテクノロジーコミュニティが、私たちに価値のあるものを構築するのに役立つだろうと賭けています。 最初のチューリングのテストは単純だった:機械は人間を人間だと説得できるのか?しかし、それは決して正しい質問ではなかった。本当の質問は常により微妙なものであった:機械が考えることを意味するものは何ですか? 真の知能と洗練されたパターン一致の違いをどのように知ることができますか? そして、これらのシステムがより能力を発揮するにつれて、人間の行動を模するのではなく、人間のニーズを満たすことをどのように確保しますか? しかし、TuringTest.tech では、業界がそれらを見つけるために協力できるスペースを作り出しています。 巻き込まれる 訪問 あなたがAI評価フレームワークを開発した、チューリングテストを実施した、または含まれるべき説得力のあるテストを知っているなら、私たちはあなたから聞きたいです。 トゥーリングテスト.Tech トゥーリングテスト.Tech AIの未来は、よりスマートなシステムを構築するだけでなく、私たちがすでに構築したシステムを理解することに依存しています。