最近、ある記事に出会いました。その記事の著者は、2023 年は AI にとって熱狂的な年であり、企業の役員室やメディアで話題となり、株式市場のパフォーマンスを牽引したが、2024 年は探索と発見の年になると主張しています。著者は、AI の現状を「原始スープ」段階に例え、可能性に満ちながらもまだ形が定まっていないと述べ、私たちは AI の探索段階から積極的な活用段階へとあまりにも急いで進み、迅速かつ簡単な結果を追い求めすぎていると主張しています。今こそ、「リセット ボタンを押して」、AI をさらに探索し、意味のある価値創造につなげるべき時です。
この記事は私の心に響き、AI 研究の現在と未来を形作る人々の考えを理解したいという好奇心をかき立てました。より深い洞察を得るために、Portal.ai の CTO 兼共同創設者であり、元 Amazon の AI 研究科学者、Apple の R&D ラボ マネージャーである Mohammad (Hamudi) Naanaa 氏にインタビューしました。私たちの会話は、AI 研究の現状とその次のフロンティア、責任ある倫理的な AI 開発の課題と機会、シャドー AI の潜在的な影響、堅牢な AI 専門知識を構築するために必要なことなど、さまざまなことを掘り下げています。
ぜひ読んでみてください!
私の AI への旅は、大学時代に画期的なAlexNet 論文から始まりました。画像を分類するモデルをトレーニングするというアイデアは、従来のソフトウェアでは実現不可能に思えるほど、驚くべきものでした。この複雑さに刺激を受けて、私はニューラル ネットワークをより深く理解するために AI 研究に没頭しました。画像分類を解決できれば、さらに複雑なデータや問題に取り組み、最終的にはインテリジェンスを構築できるようになるのは時間の問題だという強い直感がありました。私はその旅に参加したいと思いました。
当初、私はコンピューター ビジョンに没頭し、生成 AI、特に GAN と拡散モデルの創造的な可能性に魅了されました。その後、 Transformerの論文による言語モデルの爆発的な増加に注目し、真の人工知能の夢がさらに近づきました。現在、私はテキストと画像の両方で生成 AI のエキサイティングな交差点にいます。
数年経った今でも、私たちは AI の可能性の表面をかすめたに過ぎません。これは非常にホットな話題であり、多くのトレンドが生まれては消え、日々その最先端が形成されています。
このフロンティアにおける顕著な方向性の 1 つは、マルチモーダル性です。世界は単なるテキストではありません。テキスト、画像、音声などを統合したネイティブ マルチモーダル AI には明るい未来があると私は考えています。多くの大手 AI 企業がすでにこれを採用しており、さまざまな入力をサポートする基礎モデルが存在します。
私が大きな期待と興奮を感じているもう 1 つの領域は、エージェントです。これらのシステムには、観察、推論、状態、アクション、および反映を含む完全なフィードバック ループがあります。これらは、今日のほとんどの LLM ベースの AI で見られる「入力 - 出力」パラダイムを超えています。
入力出力トークン マシンなどのトランスフォーマー ベースのアーキテクチャが「真の」インテリジェンスを実現するのに十分であるかどうかについては、議論が続いています。
根本的に新しいアーキテクチャを探求することは、有望ではあるものの、困難な方向性です。ニューラル チューリング マシン (NTM) や差分ニューラル コンピューター (DNC) などのステートフル メモリ ネイティブ アーキテクチャの復活が見られるかもしれません。これにより、トランスフォーマーの欠陥の一部に対処できる可能性があります。
これらすべての進歩はロボット工学に革命をもたらし、予想よりも早くインテリジェントなアシスタントを私たちの日常生活にもたらすでしょう。数年以内、あるいはそれよりも早く、私たちの間で歩き回る最初のロボットを目にすることになるでしょう。
しかし、技術を開発することと、その上に有用な製品を構築することは別のことです。
マルチモーダルなオーディオネイティブ AI の価値は、ユーザーが感情を込めた超パーソナライズされた曲を生成できることです。同じコア技術ですが、適切なパッケージの製品が人々に力を与えます。そして、これが、モデルの信頼性、制御性、堅牢性が向上するにつれて、すぐに多くの研究が行われるようになると見ています。
マルチモーダル AI はすでに、私たちがテクノロジーと関わる方法に革命を起こしています。チャットボットを例に挙げましょう。かつてはウェブサイト上で人々が無視していた単純なテキストベースのツールでしたが、今では新しいデザインの中心となる洗練されたマルチモーダル インターフェースへと進化しています。
マルチモーダル性により、新しいインタラクション パターンが可能になります。たとえば、 DuolingoやKhan Academyなどの教育アプリを考えてみましょう。AI パートナーにテキストを書き込むことで語学力を練習したり、音声会話で発音を改善したり、写真で数式を表示したりすることは、テクノロジーとより自然にインタラクションするまったく新しい方法であり、生産性とエンゲージメントが向上します。
私は、スーパー アプリや新しいオペレーティング システムが登場し、ユーザーがさまざまなアプリを操作せずに指示を出し、結果を受け取ることができる未来を思い描いています。
たとえば、食べ物を注文するためにアイコンやテキストをクリックする代わりに、話したり、身振りをしたり、特定の要素を見たりして、より人間らしいやり取りをすることができます。Humane AI PinやRabbit R1などの早期導入者は有望ですが、予測不可能な点や改善の余地があることも浮き彫りにしています。開発者や AI 研究者として、私たちはこれらの問題に対処する必要がありますが、私はそれが実現できると楽観しています。
マルチモーダル AI システムは、さまざまなコミュニケーション形式間の障壁を打ち破り、テクノロジーとの関わり方に革命を起こすでしょう。私たちはまだインターフェースを構築する新しい方法の探求を始めたばかりですが、すでに 1 つの共通パターンが目立っています。
事前に定義されたインタラクション パターンを持つ既存のシステムが再発明されることになります。
AI の倫理的状況を把握することは複雑ですが、テクノロジーが急速に進化し、その影響がまだ解明されていないため、非常に重要です。偏見や予期しない結果を予測し、軽減する必要があります。
いくつかの課題は、人間の欠陥に関連する倫理的な影響から生じています。たとえば、AI の仲間を作ることを目的としたプロジェクトは、孤独感と戦うのに役立ちます。しかし、人々が現実の交流よりも AI に安らぎを見出すよう促すことで、孤独感を悪化させる可能性もあります。このため、開発者はアプリの影響とその対処方法について疑問を抱くことになります。これは、一見単純なアプリから生じる根本的な疑問のほんの一例に過ぎず、アプリの存在による副作用は言うまでもなく、想像もできない疑問が他にもたくさんあります。
生成された画像内の人物の歴史的表現が歪められるなど、大手テクノロジー企業における最近の事件は、AI技術の急速な進歩に伴う倫理的懸念や予期せぬ結果などの重大な課題を浮き彫りにしています。
簡単な答えはありませんが、オープンソースの LLM 開発 (モデルとトレーニングに使用されたデータの両方を公開する) を通じて透明性を確保し、エンジニアや科学者だけでなく多様なバックグラウンドを持つ人々を巻き込んだ学際的なアプローチを促進することが、これらの課題に対処するための重要なステップであると私は信じています。
これらの質問をすることが唯一の正しいアプローチです。私たちは、構築される最も強力なテクノロジーの未来を形作る責任があります。AI の作成者として、固有のバイアスと潜在的なバイアスを考慮し、それらを軽減する方法を検討する必要があります。
AI の魔法は、それが最も役立つレーザーのように焦点を絞ったユースケースを理解することにあります。Amazon を辞めた後、私は友人のVlad Panchenkoと議論し、AI が人類に利益をもたらすさまざまな方法と将来の姿を思い描きました。しばらくエージェントシステムを構築してきたこと、そしてその知識と成功した連続起業家としての Vlad の経験を組み合わせて、AI エージェントをビジネスに適用する方法について考え始めました。ほとんどの企業は、成功するために必要な一流の CMO や COO、その他の専門家にアクセスできません。AI は、前例のない規模でインテリジェンスへのアクセスを民主化できます。私たちは一緒に、エージェントを互いに結合して通信できる個々のレンガと見なし、複雑なビジネスプロセスを小さな識別可能なタスクに分解することを検討しました。私はその可能性に興奮し、これがPortal AIの誕生につながりました。これは、マーケティングから物流まで、企業の日常業務をサポートするために世界クラスの AI インテリジェンスをもたらし、企業が本当に重要なことに集中できるようにするという信念によって推進されています。
AI は、反復的なタスクを自動化し、意思決定を強化することで、ビジネス管理に革命をもたらす準備ができています。
マーケティング、物流、人事を担当する AI パートナーがいれば、クリエイティブで戦略的な仕事に集中できます。この変革により、専門知識へのアクセスが民主化され、すべてのビジネスがより高いレベルで運営できるようになります。
AI による業務の効率化は、効率性を高めるだけでなく、イノベーションと成長を促進します。
「シャドー AI 」は、意図せず、しばしば隠れて AI が使用されることであり、重大なリスクをもたらします。たとえば、ソーシャル メディアのアルゴリズムを操作するために AI を使用する人々は、AI が悪用される可能性があることを浮き彫りにしています。AI コンテンツがインターネットに溢れる中、完全性とセキュリティを維持することは困難になっています。倫理的な AI 研究は、こうした進展に遅れずについていく必要があり、透明性と堅牢な保護策を推進する必要があります。これらのリスクに対処するには、悪用を防ぐための継続的な警戒と適応戦略が必要です。
私たちは、心に留めて議論し続けなければならないことがたくさんあるこの新しい時代に生きています。
すべてが急速に動き、変化しているのは素晴らしいことです。しかし、それはまた、3 か月以内に、何かが時代遅れになったり、廃れたり、単に時代遅れになったりする可能性がかなり高いことを意味します。これらの迅速な反復サイクルでは、本を読んで最新の情報を把握することは不可能です。
この分野には主要なリーダーや評判の良い情報源が存在するため、彼らをフォローすることで最新情報を入手できます。研究をさらに深く掘り下げるために、私は Reddit や Twitter/X などのプラットフォームで関連するニュースレターやコミュニティを購読しています。もちろん、Reddit でのスレッドの要約には AI を使用しています。
AI の専門知識を身に付けたい人には、複数の道があります。研究者になりたいのであれば、強固な基礎を築いてください。AI は数学に深く根ざしており、トレンドは変化しても基礎となる数学は変わりません。
全体的に、私はハッカソンの大ファンです。これまで何度も参加し、何度か主催してきました。そして、たくさんのプロジェクトを見てきました。ハッカソンは、人々が新しいものの使い方を学ぶのに最適です。エンジニア、プロダクト マネージャー、CEO など、誰にでも 1 つだけお勧めするとしたら、外に出て、何かを作りたいと思っている人々に会い、実際に手を動かして、それを動かしてください。これは、直感を養い、楽しむことができるため、物事を実際に理解するための最良の方法です。好奇心を持ち続けてください。
このインタビューを20年後にぜひ読みたいですね!AIは急速に変化しているため、20年後どころか20か月後に何が起きるかを予測するのは困難です。私たちは今、すべての人間の知性を1つのシステムに統合し、知識への普遍的なアクセスを可能にする初期段階にある、ユニークな瞬間にいます。現在、教育などのリソースは均等に分配されていませんが、AIは多くの点で普遍的なイコライザーとして、ここで大きな影響を与えると信じています。
ロボットについてもう一度触れると、これは現実のものになると思います。私たちのアシスタントとして一緒に暮らし、家事の仕事を全部引き受けてくれるパーソナルロボットが誕生するでしょう。
私たちは、超パーソナライズされた製品、つまり、私たち専用のチューター、コーチ、友人を持つようになるでしょう。これらの存在にはまだ名前さえありませんが、すでに実現しつつあります。
もう一つ私をワクワクさせるのは、研究の加速です。AI と共同開発された初の医薬品や治療法の見通しにワクワクしています。それはなんと美しい世界でしょう。私はより良い未来を強く信じており、その未来を形作るためにできることはすべてやろうと思っています。
そうです!私はレバノンで生まれ、子供の頃にウクライナに移住し、そこで育ちました。ウクライナは私を大きく形作りました。17歳のとき、大学のためにドイツに移り、その後家族もそこに加わり、私のキャリアが始まりました。多様で同じように美しい社会に住み、私はその社会特有の課題と機会について学びました。
AI 研究は現在、英語圏中心の偏りがあり、ほとんどのデータとシステムは英語圏の人々によって、英語圏の人々のために構築されています。AI は普遍的なイコライザーであるべきだと信じ、真に普遍的な AI を構築するには、あらゆる言語に対応し、サポートする必要があります。私は 5 つの言語を話せるので、そのすべてに共感します。私はレバノン人、ウクライナ人、ドイツ人です。私は人間です。これらの経験から、私たちを結びつけるものと私たちをユニークにするものについて、貴重な洞察を得ることができました。この知識は、私のあらゆる取り組みに活かされています。