先週の月曜日、看護師が、私と胎児のバイタルを追跡するためにワイヤレスモニターを試してみたらどうかと提案しました。
「私たちはこの装置を「モニターのモニカ」と呼んでいます!一緒に働くのは夢か、まったくの悪夢のどちらかです」と看護師は私に言いました。
この日は、「Monica」(実際には Novii Wireless Patch System)が非常に好調でした。娘を出産している間、私はワイヤーの邪魔にならずに自由に動くことができました。この技術は、受動的信号取得を利用して、胎児と母体の心臓信号を区別し、子宮収縮を検出します。データはリアルタイム監視のために監視ユニットに無線で送信されます。このシステムは精度を高め、誤報を減らし、分娩中に非常に必要とされる機動性を提供します。
私は、テクノロジーについて文章を書いたり理論化することは別のことですが、その驚くべき機能を直接体験することは、特にデバイスが完璧に機能する場合にはまったく別のことだと考えました。 「基礎モデルはウェアラブルに何を追加できるのでしょうか?」という疑問が生じました。 「Monica」を体験した直後、Google Research と MIT の研究者による最近の論文が私の注意を引きました。 「 Health-LLM: Large Language Models for Health Prediction via Wearable Sensor Data 」と題され、Kim らによって執筆されたこの論文は、健康分野における LLM の応用を掘り下げ、健康予測のためのウェアラブル センサーからのデータの解釈に焦点を当てています。興味深いことに、これらのモデルには、医療記録や医師の診断書からではなく、毎日の歩数、心拍数、睡眠パターンなどを追跡する Fitbits のようなウェアラブル デバイスからデータが供給されています。これは「Monica」に似ています。
この研究では、6 つの公衆衛生データセットにわたって、8 つの最先端の LLM (Med-Alpaca、PMC-Llama、Asclepius、ClinicalCamel、Flan-T5、Palmyra-Med、GPT-3.5、GPT-4) を評価しました。彼らは、精神的健康、活動、代謝、睡眠、心臓の評価に関連する 13 の健康予測タスクについて実験を実施しました。
チームは、ゼロショットおよび少数ショットのプロンプト (最小限の例またはまったく例を使用せずにモデルを教える)、指導の微調整 (モデルを特定のタスクに合わせて調整する)、さらにはパラメーター効率の高い微調整など、さまざまな方法を実験しました。計算効率。
特に興味深いのは、ユーザーのコンテキスト、健康に関する知識、一時的な情報の追加を含む、プロンプト内のコンテキスト強化の有効性です。このアプローチにより、パフォーマンスが最大 23.8% 向上しました。
ヘルスケアは非常にデリケートな分野ですが、人間にとって生成 AI がもたらす潜在的な利点は、特に基礎モデルの力を利用すると計り知れません。 Health-LLM は、ウェアラブルが単なる受動的なトラッカーではなく、プロアクティブな健康保護者となる未来を模索しています。
ヘルスケアにおけるもう 1 つの最近の画期的な論文は、スタンフォード大学と Stability AI 研究者によるもので、 「 CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation 」と題されています。この論文の最も興味深い点は、胸部 X 線の読影用に特別に設計された高度な基礎モデルである CheXagent の開発です。このモデルは、臨床 LLM、特殊なビジョン エンコーダ、およびビジョン言語ブリッジング ネットワークを独自に組み合わせ、複雑な医療画像の解釈において優れたパフォーマンスを発揮します。精度と公平性の評価において既存のモデルを上回るパフォーマンスを発揮するその能力は、医療画像 AI テクノロジーの大きな進歩を示しています。時間を大幅に節約できます。そしてもしかしたら生きているかもしれない。
(生まれたばかりの女の子、リーズン・リールー・ジョイがよろしくお伝えします。私たちは先週 1 週間休暇をとりましたが、現在は順調に回復しており、彼女と 4 人の兄弟がどのようにAI の世界に住み、どのようにナビゲートしていくのかを理解するために AI の世界を探索しています。)
ユージュアル・サスペクツからのニュース ©
サム・アルトマンとOpenAI
- OpenAI は、2 つの新しい埋め込みモデル (text-embedding-3-small および text-embedding-3-large) と、GPT-4 Turbo、GPT-3.5 Turbo、およびテキスト モデレーション モデルの更新バージョンをリリースしました。新しい埋め込みモデルはコンテンツを数値シーケンスとして表現し、クラスタリングや検索などの機械学習タスクを強化します。また、効率性とコスト効率も向上します。
- 一方、サム・アルトマン氏は、新しいチップベンチャーの立ち上げに向けて、裕福な投資家やTSMCのようなチップ製造業者を含む中東の支援者と協議している。この動きは、OpenAIの増大する半導体ニーズに応え、Nvidiaへの依存を減らすことを目的としている。このベンチャーの構造は不明であり、OpenAI の別個の事業体または子会社である可能性があります。
ブラックストーンが介入する
- 別の大手企業も AI 革命に多額の投資を行っています。ブラックストーンは、全米に250億ドルをかけて電力を大量に消費するデータセンターのネットワークを構築している。大手データセンター運営会社QTSを100億ドルで買収した後、ブラックストーンはハイテク大手の増大するデジタルとAIの需要に応える大規模な施設を開発している。これらのプロジェクトは数百万世帯に相当する電力を消費し、コミュニティを再構築し、資源の利用と地域の利益をめぐる議論を引き起こしています。電力供給の逼迫や世論の反発などの課題にもかかわらず、ブラックストーンはこの事業を潜在的に最良の投資の1つとみなしており、AI時代におけるデータインフラストラクチャの重要性と複雑さの増大を示している。
イーロン・マスク、xAI、テスラ
Googleとハグフェイス
- 最近発表されたHugging Face と Google Cloud のパートナーシップは、 AI をよりアクセスしやすくすることを目的としています。 Hugging Face のオープン モデルと Google Cloud テクノロジーの両方を活用し、オープン サイエンスとソースにおける共有イニシアチブに焦点を当てています。目標は、より幅広いユーザーやアプリケーション向けの AI テクノロジーの開発を促進することです。
- 一方、Google Bard は HuggingFace の Chatbot Arena Leaderboard で2 位に上昇し、GPT-4 を追い抜き、コミュニティ主導の LLM ランキングでは GPT-4 Turbo に次ぐものになりました。
最新の研究論文をわかりやすく分類
モデルの圧縮と効率
- SLICEGPT : パフォーマンスを維持しながらパラメータを削除することで大規模な言語モデルを効率的に圧縮する手法→論文を読む
- DeepSeek-Coder : 広範なパラメータ範囲を備えた高性能の多言語コード生成モデルの開発に焦点を当てています→論文を読む
- SPACTOR-T5 : T5 モデルの効率的な事前トレーニング方法を導入し、計算要件を削減→ 論文を読む
- MEDUSA : 複数のデコードヘッドを使用して大規模言語モデル推論を高速化するフレームワーク→論文を読む
LLM の機能と評価
- GPT-4 から Gemini 以降まで: 複数のモダリティにわたる一般化可能性、信頼性、因果関係について MLLM を評価→ 論文を読む
- MaLA-500 : 500以上の言語をサポートする多言語LLMを開発し、言語モデルのアクセシビリティを強化→論文を読む
- 双眼鏡による LLM の発見: 大規模な言語モデルによって生成されたテキストのゼロショット検出方法を紹介します→論文を読む
マルチモーダルかつ特殊なモデル
- マスクされたオートエンコーダーのパッチ依存性を再考する: 画像処理を改善するためにマスクされたオートエンコーダーのデコード メカニズムを検討します→論文を読む
- MM-LLMs : マルチモーダル大規模言語モデルの進歩と機能に関する包括的な調査→論文を読む
- CMMMU : 中国の文脈における大規模複合モデルを評価するためのベンチマークを確立→論文を読む
- SpatialVLM : 高度な空間推論機能で視覚言語モデルを強化→ 論文を読む
AI トレーニングとデータ生成手法
- 普遍的な予測子の学習: ソロモノフ帰納法にアプローチし、普遍的な予測戦略のためのトレーニング ニューラル ネットワークを探索します→論文を読む
- Unitxt : 生成 NLP における柔軟で再現可能なデータ準備のための Python ライブラリ→論文を読む
- GENIE : 大規模な言語モデルを使用して、高品質でコンテンツに基づいた合成データを生成する手法→論文を読む
- MambaByte : 生のバイトから直接学習するトークンフリー言語モデルを調査→論文を読む
- メタプロンプティング: タスクに依存しないスキャフォールディング手法で言語モデルを強化し、パフォーマンスを向上します→論文を読む
- WARM : 強化学習において大規模な言語モデルを人間の好みに合わせるためのアプローチ→論文を読む
言語モデルとロールプレイング
- Small Language Model Meets with Reinforced Vision Vocabulary : 視覚情報を効率的にエンコードするために強化された視覚語彙を統合したコンパクトなモデルを提示します→論文を読む
- 大規模言語モデルはすべての文字の重ね合わせ: 大規模言語モデルを用いたロールプレイング対話手法の開発→論文を読む
- Orion-14B : 会話型アプリケーション向けの多言語大規模言語モデルのコレクションを紹介→論文を読む
他のニュースレターでも