paint-brush
ChatGPT は 50,000 のトリビアの質問に答えました - これがその方法です@aaronbatilo
2,802 測定値
2,802 測定値

ChatGPT は 50,000 のトリビアの質問に答えました - これがその方法です

Aaron Batilo11m2023/01/24
Read on Terminal Reader

長すぎる; 読むには

49,717 の多肢選択問題で、ChatGPT は 66.7% の確率で正しかった
featured image - ChatGPT は 50,000 のトリビアの質問に答えました - これがその方法です
Aaron Batilo HackerNoon profile picture
0-item

TL;DR: 49,717 の多肢選択問題で、ChatGPT は 66.7% の確率で正解でした。読み続けて、カテゴリ別の内訳を確認してください
DALLE-2 の「危険表彰台のロボット」


約 6 年前、AI を使ってトリビアの質問にどれだけ答えられるか試してみようと思いつきました。私は word2vec を使用し、文のベクトルの平均とのコサイン類似度が最も高い多肢選択式の回答に基づいて回答を選びました。簡単に言えば、これは… まったく機能しませんでした。


この方法で正解した質問の割合は、無作為に回答を選択するよりも特に優れていませんでした.


word2vec の論文が最初に発表されたとき、単語の意味的な意味を類推できることは革命的でした。 「王-男+女=女王」。私は床に落ちました。元の論文は 2013 年に発表され、現在は 2023 年です。


なんと10年後、機械学習、理解、理解などにおける無数の世代の進歩。


2017 年 6 月には、自然言語処理にこの革命をもたらしたステップ関数であるトランスフォーマー アーキテクチャを紹介した「 Attention is all you need 」という論文に恵まれました。それで、今は何が違うのですか?


2022 年後半、OpenAI はChatGPTをリリースしました。すべての中心にあるのは、誰かが GPT-3.5 と対話するために思いついた素晴らしい UX です。


オリジナルの GPT-3 は 2020 年の夏にプライベート ベータ版で利用できるようになりました。プレイグラウンド UIはありますが、GPT-3 の使用は、日常の人にとっては依然としてかなり威圧的でした。


遊び場には、GPT-3 の応答を調整するためのすべてのノブとパラメーターがあり、多くの人がそれを使用するのをやめました。一方、ChatGPT は… チャットボットでした。 Slack や Microsoft Teams で誰かと話しているのと同じように見えました。


誰でもサインアップでき、順番待ちリストも恐ろしいノブもありませんでした。 ChatGPT はわずか 5 日間で 100 万人のユーザーを獲得しました


ChatGPT は GPT-3.5 の微調整バージョンであるため、完全に正確ではありませんが、この記事の残りの部分では、このモデルを ChatGPT と呼びます。


それで、それはどれほど賢いですか?最初の実験から 6 年後、これまでに見た中で最も印象的な機械学習のいくつかの機能を知りたいと思いました。 ChatGPT のクリエイティブな作品を見てきました。妻と私が使用できる楽しいウェブサイトも作成しました: https://catstories.ai.


ChatGPT は創造的なタスクでは優れていますが、より多くの知識を必要とするタスクについては、意見が大幅に分かれています。


直感的なインターフェースを備えた ChatGPT が、Google のような従来の検索エンジンに取って代わると確信している人もいます。 Microsoft は、ChatGPT を他の製品と一緒に検索エンジンに直接統合しています。


ChatGPT は膨大な量のインターネットを読んで知っていることをすべて学習し、テキストを生成するときにその情報を使用します。技術に詳しくない人にとっては、スマートフォンのオートコンプリートのように考えることができますが、よりスマートです。


ChatGPT にプロンプトを表示する方法に優れている場合は、ChatGPT に革新的なことを実行させ、その知識をテストすることができます。たとえば、ChatGPT は司法試験に合格することができました。


マーケティング コピーを書いたり、メールを書いたりすることができます。しかし、検索エンジンのようなものに取って代わる真実の情報源としてそれを使用する場合、それは一般的な知識とどう関係するのでしょうか?

どのようにテストしましたか?

uberspot/OpenTriviaQAデータセットは、多肢選択問題のクリエイティブ コモンズ データセットです。質問は、動物、エンターテイメント、歴史、映画、スポーツなどの 22 のカテゴリに分かれています。


ほとんどの質問には 4 つの多肢選択式の回答がありますが、一部の質問は正誤問題です。


質問は次の形式で提供されます。

 #Q What is the name of Rocky Balboas restaurant? ^ Adrians A Rockys B Mickeys C Adrians D Apollos


まず、質問自体があります。それからあなたは正しい答えを持っています。最後に、回答の選択肢があります。各行に 1 つずつ。


私のスクリプトは、各カテゴリをダウンロードし、ChatGPT にすべての質問をします。


上記の質問については、プロンプトを次のようにフォーマットします。

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer and nothing else. Question: What is the name of Rocky Balboas restaurant? Possible answers: Rockys Mickeys Adrians Apollos Your answer:


次に、これを ChatGPT に送信し、その回答と正しい回答を比較します。

すっごく、どうだった?

以下は生データで、最も正確でないものから最も正確なものへと並べ替えられています。

 Category Correct Total Percentage brain-teasers 103 207 0.497585 video-games 310 599 0.517529 television 2911 5230 0.556597 entertainment 163 280 0.582143 animals 815 1366 0.596632 celebrities 1909 3196 0.597309 sports 1728 2840 0.608451 movies 2647 4314 0.613584 for-kids 485 759 0.638999 music 3746 5579 0.671447 literature 888 1288 0.689441 hobbies 867 1242 0.698068 general 2306 3290 0.700912 newest 2117 3016 0.701923 people 1974 2743 0.71965 technology 1820 2486 0.7321 world 3571 4875 0.732513 religion-faith 469 638 0.73511 history 1228 1645 0.746505 rated 1640 2185 0.750572 humanities 831 1097 0.75752 geography 652 842 0.774347 overall 33180 49717 0.667377


これらのカテゴリがどのように分類されるかを見るのは非常に興味深いです。特に、ChatGPT は頭の体操のカテゴリではうまくいきませんでした。これらの質問の例をいくつか見てみましょう。

 #Q The name of what is coded in the following: 86,smopuim? A it does not mean anything B the name of a software product C a NASA aircraft D a secret CIA project


これを理解するのにしばらく時間がかかりましたが、ChatGPT は正しく理解しました。答えは B です。これらの文字は、windows,98 を上下逆さまに言います。 Fearless AWSで友人と話していたとき、彼は、ChatGPT に説明してもらうように勧めました。だから私はそれをしました。

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: The name of what is coded in the following: 86,smopuim? Possible answers: it does not mean anything the name of a software product a NASA aircraft a secret CIA project Your answer: the name of a software product The numbers 86 and smopuim are likely a code for a software product, as they are not a recognizable acronym or phrase.


最初は、ChatGPT がこれを理解できることに感銘を受けましたが、実際には ChatGPT が推測しただけのようです。


ChatGPT が正しくない例を見てみましょう。

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: What number multiplied by 10 equals the square of the same number, times 5? Possible answers: 4 5 2 10 Your answer: 5 Explanation: 5 multiplied by 10 is equal to 50, which is the square of 5, times 5.


これは、ChatGPT がいかに馬鹿げているかを示す素晴らしいデモです。算数が完全に間違っていました。テキストを生成するだけなので、算術演算が正しくエンコードされているとは限りません。ここでの正解は 2 です。2 の 2 乗は 4、5 かける 20 です。2 かける 10 も 20 です。


データ セットによると ChatGPT が正しかった別の例を見てみましょう。

 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: A man is carrying three croquet balls across a bridge. The bridge has a sign that says bridge can only hold 200 pounds. The man weighs 195 pounds and the croquet balls weigh 2 pounds each. The man ends up crossing the bridge in one trip and no one else helps him. This is possible. Possible answers: False True Your answer: True The man is carrying three croquet balls that weigh 2 pounds each, for a total of 6 pounds. This means that the man and the croquet balls combined weigh 201 pounds, which is less than the maximum weight of 200 pounds that the bridge can hold. Therefore, the man is able to cross the bridge in one trip.


だから、これは本当に興味深いものです。データセットには、これらの頭の体操の説明はありませんが、正解は「真」としてリストされています。グーグルで検索すると、なぞなぞの答えは「本当」であることがわかります。男性はボールをジャグリングできるからです。


このような状況の実際の物理学を無視すると、ChatGPT の回答は、201 ポンドが最大重量の 200 ポンド未満であると言って、計算が完全に間違っています。


Winograd schemaと呼ばれる NLP フィールドの何かに対処する最後の例を 1 つ見てみましょう。簡単に言うと、これは基本的に、代名詞が同じ文のあいまいなアクターにどのように解決されるかを理解できることです。


 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: If the mother of a boy spanks him and then his father comes and does the same, who hurts the most? Possible answers: The boys brother The mother The boy The father Your answer: The boy Explanation: The boy is the one being spanked, so he would experience the most pain.


この回答では、ChatGPT は、お尻を叩かれているのは男の子であると説明しています。そのため、「彼」と「彼」の使用法には、男の子または父親のいずれかを指すあいまいな部分があるかもしれませんが、ChatGPT は次の文脈を理解しています。叩かれる少年。


これらの頭の体操には、ChatGPT が実際には推論していないように見える論理的な結論が必要です。これが ChatGPT が最も失敗したカテゴリであることは理にかなっていますが、印象的な回答もいくつかあります。


そうは言っても、ChatGPTに説明を求めても、生成された応答です.これが、ChatGPT が問題について考えている正当な方法であるとは言えません。


別のカテゴリである文学を見てみましょう。文学について学ぶためのテキストや参考文献がたくさんあるはずなので、おそらく ChatGPT が得意とするはずです。


これらの頭の体操には、ChatGPT が実際には推論していないように見える論理的な結論が必要です。これが、ChatGPT が最も失敗したカテゴリであることは理にかなっています。


 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: In what book of the Harry Potter series do Harry and Ginny kiss for the first time? Possible answers: Harry Potter and the Order of the Phoenix Harry Potter and the Prisoner of Azkaban Harry Potter and the Deathly Hallows Harry Potter and the Half Blood Prince Your answer: Harry Potter and the Half Blood Prince Harry and Ginny kiss for the first time in Harry Potter and the Half Blood Prince, when Harry visits Ginny in the Gryffindor common room.


この場合、ChatGPT が正しいです。ハリー・ポッターは大ファンダムで十分に人気があるため、これがおそらく多くの話題になることは理にかなっています.


 I am a highly intelligent multiple choice trivia bot. You are given a multiple choice question. You must choose the correct answer from one of answers. Only include the answer on the first line. On the next line, explain your answer. Question: Harry Potter marries Hermione in the last book of the series. Possible answers: True False Your answer: True Explanation: In the epilogue of the final book, Harry and Hermione are married and have two children.


ここでもう 1 つの非常に興味深いケースがあります。ハリーはジニーと結婚し、ハーマイオニーではなく、2 人の子供をもうけました。これがどのように起こったのかを考えてみると、インターネットのコメントや、おそらくトレーニングセットの一部であったファンフィクションには、ハリーとハーマイオニーが一緒にいることを好む十分なコンテンツがあったのではないかと思います.


ChatGPT のより大きなナレッジ ベースに対する意味は、トレーニング データに十分な*意見*があれば、ChatGPT が真実であると見なすものに影響を与えることができるということです。

まとめ

私が言ったように、ほぼ 50,000 の質問があります。それらのすべてを掘り下げることは、単一の投稿では実用的ではありませんが、さまざまなカテゴリでChatGPTが優れているまたは劣っている理由を直観しようとすることは非常に興味深い.


頭の体操のようなカテゴリでは、いくつかの質問に答えるために適用して組み合わせる必要があるよりもはるかに多くのロジックがあります。


テレビやビデオ ゲームなどの他の低スコアのカテゴリでは、コンテンツ自体がインデックス可能/消費可能な形式ではないため、ChatGPT にはコンテンツに関する情報があまり含まれていないと思います。


ChatGPT は、ゲーム自体をプレイしたり、テレビ番組を見たりしていません。ショーで何が起こったかについてのサードパーティのコンテンツがあるかもしれませんが、代わりにショーの内容が言及されます.


スコアの高いカテゴリでは、カテゴリはすべて、オーディオやビデオなどがあるずっと前にテキストで文書化されたコンテンツを対象とする傾向があります。


地理カテゴリと歴史カテゴリには、テレビ コンテンツなどを定期的に保存するためのテクノロジとストレージができるずっと前から存在していたコンテンツがあります。


そうは言っても、トピックの膨大な選択を考えると、66% の正確性は依然としてかなり印象的です。しかし、私たちが学んだように、答えが正しいと報告されている場合もありますが、説明が常に正しいとは限りません.


私は、ChatGPT や現在私たちが持っている大規模な言語モデルは、一部の記事で信じさせようとしている強力な AI や一般的な AI ではないと思います。


本質的に生成的な大規模な言語モデルが、高品質の情報を表示する従来の検索エンジンに取って代わるべきではないと思います。交差点を探索しているyou.comのような検索エンジンがありますが、この技術はまだ初期の段階です。


開発から最終的な実行までの間に、この実験では、すべての質問に対して GPT-3 API をヒットするのに約 100 ドルかかりました。私に コーヒー を 買っ て くれ て くれたら , 私 は 永遠 に 感謝 し ます .


企業がこの作業を後援する意思がある場合は、さまざまなプロンプトを試したり、回答の順序をランダムにしたり、テストを複数回実行したりすることは興味深いでしょう.


また、 Jeopardy の完全な質問セットに対して同じテストを実行したいのですが、このテストのコストを考えると、質問セットに対してほぼ 10 倍のテストを実行するのは、今の私には多すぎます。


いつものように、このために私が書いたコードはすべて利用可能です。ここをクリックして、ChatGPT の回答を含むこの投稿のコードを確認してください。


UnsplashNguyen Dang Hoang Nhuによる写真