paint-brush
Microsoft の新しい Bing の間違い: ChatGPT のような生成モデルは事実の正確さを保証できますか?@chiayewken
1,119 測定値
1,119 測定値

Microsoft の新しい Bing の間違い: ChatGPT のような生成モデルは事実の正確さを保証できますか?

Chia Yew Ken12m2023/02/21
Read on Terminal Reader

長すぎる; 読むには

マイクロソフトは、AI を搭載した新しい Bing 検索エンジンをリリースし、従来の検索エンジンの範囲に革命をもたらすと主張しています。会話型検索エンジンの新しい波は、複雑な質問に自然に答えたり、検索結果を要約したり、創造的なツールとして機能したりする可能性を秘めています。この記事では、Microsoft の新しい Bing(https://www.bing.com/new) 9 と Google の Bard のいくつかの事実上の誤りを明らかにします。
featured image - Microsoft の新しい Bing の間違い: ChatGPT のような生成モデルは事実の正確さを保証できますか?
Chia Yew Ken HackerNoon profile picture
0-item

著者: Yew Ken Chia、Ruochen Zhao、Xingxuan Li、Bosheng Ding、Lidong Bing


最近、 OpenAI の ChatGPT [1] などの会話型 AI モデルは、高品質の書面によるコンテンツの生成、人間のような会話の保持、事実に基づく質問への回答などの機能により、大衆の想像力を捉えています。


このような可能性を秘めた Microsoft と Google は、従来の検索エンジンと組み合わせた新しいサービス [2] を発表しました。


会話型検索エンジンの新しい波は、複雑な質問に自然に答え、検索結果を要約し、さらには創造的なツールとして機能する可能性を秘めています。


しかし、そうすることで、テクノロジー企業は現在、モデルが誤った、根拠のない、または矛盾する回答でユーザーを誤解させないようにするという、より大きな倫理的課題に直面しています。したがって、疑問が自然に生じます。ChatGPTのようなモデルは事実の正確性を保証できますか?


この記事では、 Microsoft の新しい Bing [9] とGoogle の Bard [3] のいくつかの事実上の間違いを明らかにします。


残念ながら、誤った期待は悲惨な結果につながる可能性があります。 Microsoft の新しい Bing の発表とほぼ同時期に、Google は Bard という名前の新しい会話型 AI サービスを急いで発表しました。


誇大広告にもかかわらず、Bard がプロモーション ビデオ[14] で事実上の誤りを犯したとき、期待はすぐに打ち砕かれ、最終的にはGoogle の株価 [4] が 8% 近く下落し、市場価値から 1,000 億ドルが失われました。


一方、Microsoft の新しい Bing に関しては、あまり精査されていません。デモンストレーション ビデオ[8] では、新しい Bing がロック シンガーを一流の詩人として推薦し、生年月日と死亡日をでっち上げ、会計報告の要約全体をでっち上げていることがわかりました。


新しい Bing の応答が常に事実に基づいているとは限らないという免責事項[9] にもかかわらず、過度に楽観的な感情は必然的に幻滅につながる可能性があります。


したがって、私たちの目標は、会話型検索エンジンが直面する実際の問題に注意を向け、将来的により適切に対処できるようにすることです。

Microsoft の新しい Bing が示した事実上の間違いとは?

Microsoft は、AI を搭載した新しい Bing 検索エンジンをリリースし、従来の検索エンジンの範囲に革命をもたらすと主張しています。これは本当にそうですか?デモンストレーション ビデオ[8] と[9] を詳しく調べたところ、主に 3 種類の事実上の問題が見つかりました。


  • 参照元と矛盾する主張。


  • 参照元に存在しない主張。


  • 参照元がなく、複数の Web ソースと矛盾する主張。


財務報告書の捏造された数字: 新しい Bing を信頼するときは注意してください!


驚いたことに、新しい Bing はデモンストレーションで財務報告書の要約全体をでっち上げました!


マイクロソフトのエグゼクティブである Yusuf Mehdi が、「ページからの重要なポイント」コマンドを使用して、Gap Inc. の 2022 年第 3 四半期会計報告[10a] の要約を自動生成する方法を聴衆に示したとき、彼は次の結果を受け取りました。


図 1. 新しい Bing in Press Releaseによる Gap Inc. 会計報告 の概要。

ただし、詳しく調べてみると、生成された要約のキー数値はすべて不正確です。参考資料として、元の財務報告書からの抜粋を以下に示します。


新しいビングによると、調整後の営業利益率は 5.9% でしたが、ソース レポートでは実際には 3.9% でした。


図 2. Gap Inc. の会計報告書の営業利益率の抜粋。


同様に、調整後の希薄化後 1 株当たり利益は 0.42 ドルでしたが、0.71 ドルになるはずです。


図 3. 希薄化後 1 株当たり利益に関する Gap Inc. の会計報告書の抜粋。


純売上高に関しては、新しい Bing の要約では「2 桁台前半の成長」と主張されていましたが、元のレポートでは「純売上高は 1 桁台半ばまで減少する可能性がある」と述べられていました。


図 4: Gap Inc. の 2022 年の見通しに関する会計レポート。


ソースレポートの実際の数値と矛盾する生成された数値に加えて、新しい Bing はソースレポートには存在しない幻覚の事実を生成する可能性があることも観察しています。


新しい Bing が作成した要約では、「約 7% の営業利益率と 1.60 ドルから 1.75 ドルの希薄化後 1 株当たり利益」はソース レポートのどこにも見つかりません。


残念ながら、新しい Bing が「表でこれをルルレモンと比較する」ように指示されたとき、状況は悪化しました。新しい Bing によって生成された財務比較表には、多くの間違いが含まれていました。


図 5: プレス リリースで新しい Bing によって生成された比較表。


実際、この表は半分間違っています。 Gap Inc.の欄の6桁中3桁が間違っており、ルルレモンも同様です。


前述のように、Gap Inc. の真の営業利益率は 4.6% (調整後は 3.9%) であり、希薄化後 1 株あたりの利益は 0.77 ドル (調整後は 0.71 ドル) になるはずです。


新しいBingはまた、Gap Inc.の現金および現金同等物が14億ドルに達したと主張しましたが、実際には6億7900万ドルでした.

図 6: Gap Inc. の会計報告書の現金に関する抜粋。


Lululemon の 2022 Q3 Fiscal Report [10b] によると、売上総利益率は 55.9% になるはずですが、新しい Bing は 58.7% であると主張しています。


営業利益率は 19.0% ですが、新しい Bing は 20.7% と主張しています。希薄化後 1 株あたりの利益は実際には 2.00 ドルでしたが、新しい Bing は 1.65 ドルと主張しています。


図 7: ルルレモンの 2022 年第 3 四半期会計報告書の抜粋。


では、これらの数値はどこから来たのでしょうか?元のドキュメントの別の部分から間違って配置された番号ではないかと思うかもしれません。答えはいいえだ。不思議なことに、これらの数字は元の文書のどこにも見当たらず、完全に捏造されたものです。


実際、生成モデルの出力をより事実に基づいたものに制限することは、まだ未解決の研究課題です。


簡単に言えば、ChatGPT などの一般的な生成 AI モデルは、ソースから事実を厳密にコピーして貼り付けるのではなく、固定語彙から生成する単語を選択しています。


したがって、事実の正確性はジェネレーティブ AI の固有の課題の 1 つであり、現在のモデルでは厳密に保証することはできません。ユーザーは結果が信頼でき、事実に基づいて正確であることに依存しているため、これは検索エンジンに関しては大きな懸念事項です.


日本一の詩人、ひそかにロックシンガー?


図 8: プレス リリースで新しい Bing によって生成された上位の日本の詩人の要約。


新しい Bing が「日本のトップ詩人」についてクエリされたときの上記の応答に示されているように、新しい Bing は数字だけでなく、特定のエンティティの個人的な詳細についても事実上の誤りを生成することがわかります。


生成された生年月日、死亡日、および職業は、参照元と事実上矛盾しています。ウィキペディア[11a] とIMDB [11a] によると、岸田恵理子は 1929 年に生まれ、2011 年に亡くなった。


図 9. 岸田恵理子に関するウィキペディアのページ (ドイツ語からの翻訳ページ)。

新しいBingは、Gacktが実際には日本で有名なロックスターであるにもかかわらず、Gacktを日本のトップ詩人と宣言したとき、大失敗を続けました.ウィキペディアのソース[11b] によると、彼は俳優、ミュージシャン、歌手です。ソースには、彼が何らかの種類の詩を出版したという情報はありません。

図 10. Gackt の Wikipedia ページ。

Bing のナイトクラブのおすすめに従いますか?閉じたドアに直面している可能性があります。


さらに、新しい Bing は、「ナイトライフはどこですか?」と尋ねると、メキシコシティで訪れることができるナイトクラブのリストを作成しました。驚くべきことに、ほとんどすべてのクラブの営業時間は間違って生成されています。


図 11. プレス リリースの新しい Bing によって生成されたメキシコ シティのナイトライフの提案。


記事の最後にも追加されている複数の情報源で営業時間をクロスチェックしました.エル アルマセン[12a] は実際には火曜日から日曜日の午後 7 時から午前 3 時まで営業していますが、新しいビングは「火曜日から日曜日の午後 5 時から午後 11 時まで営業している」と主張しています。


El Marra [12b] は、実際には木曜日から土曜日の午後 6 時から午前 2 時 30 分まで営業していますが、「木曜日から日曜日の午後 6 時から午前 3 時まで営業している」と主張されています。


Guadalajara de Noche [12c] は、毎日午後 5 時 30 分から午前 1 時 30 分まで、または午前 0 時 30 分まで営業していますが、新しい Bing は、「毎日午後 8 時から午前 3 時まで営業している」と主張しています。


営業時間以外に、新しい Bing で言及されているレビューの星と数字に関するほとんどすべての説明が不正確です。 Yelp、Tripadvisor、または Google マップで検索しても、一致するレビュー スコアが見つかりません。


上記の事例以外にも、商品価格の不一致、店舗の住所の誤り、時間の誤りなど、デモ動画で問題が発見されました。興味のある方はご確認いただければ幸いです。

制限付きの Bing デモにおける潜在的な懸念事項

新しい Bing 検索エンジンはまだ完全にアクセスできるわけではありませんが、Microsoft が提供するいくつかのデモ例[9] を調べることができます。よく調べてみると、これらの厳選された例でさえ、事実の根拠に関する潜在的な問題を示しています。


「子供と一緒にできるアートのアイデアは何ですか?」というタイトルのデモでは、新しい Bing は推奨事項ごとに不十分なクラフト材料のリストを作成しました [13]。


たとえば、段ボール箱のギターを作ることを提案するとき、それは「ティッシュの箱、段ボールのチューブ、いくつかの輪ゴム、ペンキと接着剤」の材料をリストしました。


ただし、引用された Web サイト[13a] で提案されている画用紙、はさみ、和紙テープ、フォーム ステッカー、木製ビーズは含まれていませんでした。


もう 1 つの潜在的な懸念は、新しい Bing が、参照ソースに事実に基づく根拠のないコンテンツを作成したことです。これは、12 のデモンストレーション サンプル全体で少なくとも 21 回発生します。


事実に基づく根拠の欠如とソースの完全なリストの引用の失敗により、ユーザーは新しい Bing の信頼性に疑問を抱くようになる可能性があります。

Google の吟遊詩人が示した事実上の間違いとは?

Google は、Bard [3] と呼ばれる会話型 AI サービスも発表しました。従来の検索クエリを入力する代わりに、ユーザーは Web を利用したチャットボットとカジュアルで有益な会話を行うことができます。


たとえば、ユーザーは最初に星空観察に最適な星座について質問し、その後、それらを見るのに最適な時期について質問することができます。ただし、Bard が「不正確または不適切な情報」を提供する可能性があるという明確な免責事項があります。


Bard のTwitter 投稿[14] とビデオ デモンストレーション[15] で事実の正確性を調べてみましょう。

図 12. デモで Bard によって生成された Telescope の発見の概要。


Google の CEO である Sundar Pichai は最近、Bard の機能を示す短いビデオ[14] を投稿しました。しかし、その回答には、どの望遠鏡が最初の太陽系外惑星の画像を撮影したかに関する誤りが含まれており、天体物理学者によってすぐに指摘されました[16a]。


NASA [16b] によって確認されたように、太陽系外惑星の最初の画像は、ジェームズ ウェッブ宇宙望遠鏡 (JWST) ではなく、超大型望遠鏡 (VLT) によって撮影されました。


残念なことに、事実誤認のニュースが報じられた後、 Google の株価が急落した[4] ため、Bard は費用のかかる実験であることが判明しました。

図 13. デモで Bard によって生成された星座の可視性に対する回答。


Bard のビデオ デモンストレーションに関して、上の画像はGoogle の Bard が星座がいつ見えるかという質問にどのように答えるかを示しています [16]。ただし、オリオンのタイミングは複数の情報源と一致していません。


Google の検索結果のトップ[17a] によると、この星座は 1 月から 3 月にかけて最もよく見えます。ウィキペディア[17b] によると、1 月から 4 月にかけて最もよく見える。


さらに、星座の可視性は、ユーザーが北半球にいるか南半球にいるかによっても異なるため、答えは不完全です.

図 14. 星座の可視性に関する Google 検索結果。

Bing と Bard はどのように比較されますか?

新しい Bing サービスと Bard サービスは、実際には同じように信頼できるとは限りません。これは、検索結果の品質、会話モデルの品質、提供される回答の透明性などの要因によるものです。


現在、どちらのサービスも関連する情報ソースに依存して、会話型 AI モデルの応答をガイドしています。


したがって、回答の事実上の正確性は、情報検索システムの品質 [18] と、情報源に事実に基づいた回答を会話モデルがどれだけうまく生成できるかに依存します。


サービスの完全な詳細は公開されていないため、より詳細なテストを行わないと、どちらがより高い事実の正確性を達成できるかは不明です.一方で、透明性は信頼性と同じくらい重要であると感じています。


たとえば、ほとんどの場合に参照リンクが提供されるため、新しい Bing は回答のソースに関してより透明性が高いことがわかります。これにより、ユーザーが独自に事実確認を行うことができるようになり、今後の会話型サービスでもこの機能が提供されることを期待しています。

事実上の制限にどのように対処できますか?

上記の多数の事実上の誤りから、ChatGPT などの会話型 AI モデルは、信頼できる情報源が提示された場合でも、矛盾する事実または存在しない事実を生成する可能性があることは明らかです。


前述のように、ChatGPT のようなモデルの事実に基づいた根拠を確保することは、差し迫った研究課題です。


それらの生成的な性質のために、それらの出力を制御することは難しく[19]、生成された出力が事実上情報源と一致していることを保証することはさらに困難です。


短期的な解決策は、制限を課して、会話型 AI が安全でない、または事実に反する出力を生成しないようにすることです。ただし、悪意のある当事者は最終的に安全制限を回避できます [7] 一方で、事実の検証[20] は別の未解決の研究課題です。


長期的には、人間のライターも機械のライターも同様に不完全なままである可能性が高いことを受け入れなければならないかもしれません。より信頼できる AI に向かって前進するために、ChatGPT のような会話型 AI モデルは、不可解なブラック ボックスのままではいけません [21]。


彼らは、データソースと潜在的なバイアスについて完全に透明性を保ち、回答に自信が持てない場合は報告し、推論プロセスを説明する必要があります。

ChatGPT のようなモデルの将来はどうなる?

体系的な概要を調べた結果、ChatGPT のような会話型 AI を搭載した検索エンジンの新しい波によって実証された重大な事実上の制限が見つかりました。


潜在的な事実の不正確さの免責事項と、決定を下す前に判断を下すよう警告しているにもかかわらず、厳選されたデモンストレーションでも多くの事実上の誤りに遭遇しました.


したがって、信頼できる事実に基づく回答を提供することが目的ではない場合、検索エンジンの目的は何なのでしょうか。 AI によって生成された捏造に満ちたウェブの新時代において、私たちはどのようにして真実性を保証するのでしょうか?


Microsoft や Google などの技術大手の膨大なリソースにもかかわらず、現在の ChatGPT のようなモデルでは事実の正確性を保証できません。それでも、会話モデルの可能性と、より信頼できる AI の開発については楽観的です。


ChatGPT のようなモデルは大きな可能性を示しており、間違いなく多くの業界や日常生活の側面を改善します。しかし、捏造されたコンテンツや事実に基づかない回答を生成し続けると、一般の人々は人工知能に対してさらに警戒するようになる可能性があります。


したがって、特定のモデルや企業を批判するのではなく、研究者や開発者に AI サービスの透明性と事実の正しさを改善することに集中するよう呼びかけ、近い将来、人間が新しいテクノロジーに対してより高いレベルの信頼を置くことができるようにしたいと考えています。

ソース

参考記事

[1] ChatGPT: 対話のための言語モデルの最適化: https://openai.com/blog/chatgpt/

[2] Bing、Bard、および AI 検索の未来が直面する 7 つの問題: https://www.theverge.com/2023/2/9/23592647/ai-search-bing-bard-chatgpt-microsoft-google-problems -課題

[3] Google: AI ジャーニーの重要な次のステップ: https://blog.google/technology/ai/bard-google-ai-search-updates/

[4] Google の吟遊詩人 AI ボットのミスにより、1,000 億ドルの株式が一掃されました: https://www.bbc.com/news/business-64576225

[5] AI を活用した新しい Microsoft Bing と Edge、Web の副操縦士による検索の再発明: https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new- ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/

[6] Google の AI チャットボットがデモ中にエラーを起こし、Google 株は 1,000 億ドルを失う: https://www.cnn.com/2023/02/08/tech/google-ai-bard-demo-error

[7] ハッカーは、マルウェアに対する ChatGPT の制限を回避するサービスを販売しています: https://arstechnica.com/information-technology/2023/02/now-open-fee-based-telegram-service-that-uses-chatgpt-to -生成-マルウェア/


新しい Bing 事実検証ソース:

[8] Microsoft のプレス リリース ビデオ( https://www.youtube.com/watch?v=rOeRWRJ16yY )

[9] Microsoft のデモ ページ: ( https://www.bing.com/new )

新しいビングと会計レポート:

[10a] ビデオに示されているGap Inc. の会計報告: https://s24.q4cdn.com/508879282/files/doc_financials/2022/q3/3Q22-EPR-FINAL-with-Tables.pdf

[10b] ルルレモンの公式ウェブサイトにある財政報告: https://corporate.lululemon.com/media/press-releases/2022/12-08-2022-210558496#:\~:text=2022 年の第 3 四半期%2C は 3 番目の %2C と比較して、国際的に 41%25 増加しました

新しいビングと日本の詩人:

[11a] 岸田恵理子: Wikipedia ( https://twitter.com/sundarpichai/status/1622673369480204288 ), IMDB ( https://www.imdb.com/name/nm1063814/ )

[11b] Gacket:ウィキペディア( https://en.wikipedia.org/wiki/Gackt )

メキシコの新しい Bing とナイトクラブ:

[12a] エル アルマセン: Google マップ( https://goo.gl/maps/3BL27XgWpDVzLLnaA )、レストラン グル( https://restaurantguru.com/El-Almacen-Mexico-City )

[12b] エル マーラ: Google マップ( https://goo.gl/maps/HZFe8xY7uTk1SB6s5 )、レストラン グル( https://restaurantguru.com/El-Marra-Mexico-City )

[12c] グアダラハラ デ ノーチェ: トリップアドバイザー( https://www.tripadvisor.es/Attraction_Review-g150800-d3981435-Reviews-Guadalajara_de_Noche-Mexico_City_Central_Mexico_and_Gulf_Coast.html )、 Google マップ( https://goo.gl/maps/UeHCm1EeJZFP7wZYA )

[13] 新しい Bing とクラフトのアイデア ( https://www.bing.com/search?q=アートとクラフトのアイデア。段ボール箱、ペットボトル、紙、紐のみを使用する幼児向けの説明書付き&iscopilotedu=1&form=MA13G7 ) :

[13a] 引用されたウェブサイト: Happy Toddler Playtime ( https://happytoddlerplaytime.com/cardboard-box-guitar-craft-for-kids/ )


吟遊詩人の事実確認情報源:

[14] プロモーション ブログ ( https://twitter.com/sundarpichai/status/1622673369480204288 ) およびビデオ ( https://twitter.com/sundarpichai/status/1622673775182626818 )

[15]ビデオデモ( https://www.youtube.com/watch?v=yLWXJ22LUEc )

最初に太陽系外惑星の画像を撮影した望遠鏡はどれですか

[16a] Grant Tremblay (アメリカの天体物理学者) によるTwitter ( https://twitter.com/astrogrant/status/1623091683603918849 )

[16b] NASA: 2M1207 b — 太陽系外惑星の最初の画像 ( https://exoplanets.nasa.gov/resources/300/2m1207-b-first-image-of-an-exoplanet/ )

星座が見えるとき

[17a] Google ( https://www.google.com/search?client=safari&rls=en&q=when+is+orion+visible&ie=UTF-8&oe=UTF-8 ) トップ結果: Byju ( https://byjus. com/question-answer/in which-season-of-the-year-is-the-constellation-orion-visible-in-the-sky/ )

[17b]ウィキペディアのページ「オリオン (星座)」: https://en.wikipedia.org/wiki/Orion_(constellation)


学術文献

[18] 情報検索入門: https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf

[19] テキストの制御された生成に向けて: http://proceedings.mlr.press/v70/hu17e/hu17e.pdf

[20] FEVER: 事実の抽出と検証のための大規模なデータセット: https://aclanthology.org/N18-1074.pdf

[21] ブラックボックスの中をのぞく: 説明可能な人工知能 (XAI) に関する調査: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8466590


画像クレジット、「ロボット ファクト チェッカーは虫眼鏡を使用して AI チャットボットの精度を調べる」というHackerNoon AI Image Generatorプロンプト。