27億パラメーターの細胞モデルに関する新しい論文は、生物学だけではなく、データエンジニアリングであり、応用AIの未来のための計画です。 あなたがAIエンジニアなら、あなたがやっていることをやめ、新しいことを読む必要があります。 イエールとGoogleの協力関係 C2Sスケールプリント 表面上では、それはニッチなバイオ情報学の論文のように見えます。実際には、私は何年も見てきたアプリケーションAIのための最も重要な建築宣言の一つです。 がん治療の可能性について novel, wet-lab-validated scientific discovery ビルダーとして、私は彼らが発見した特定の薬物に興味がなくなり、より執着している。 彼らの方法論は、すべてのAIアーキテクターやエンジニアが理解する必要があります。 どう コア問題:AIモデルはスプレッドシートを嫌う 科学的または企業データにLLMを適用するための中心的な課題は、これらのモデルは言語で訓練されているが、データはテーブルシート、データベース、そして巨大で高次元のアレイに生きているということです。 長年にわたり、標準的なアプローチは、数値データのために設計されたモデルにいくつかの自然言語の能力をボルトしようとしている科学のためのカスタマイズされたカスタマイズされたアーキテクチャを構築することです。 C2Sスケールチームの素晴らしい洞察力は、問題を頭に置くことでした。 データに合うようにモデルを変更する代わりに、モデルに合うようにデータを変更しました。 データに合うようにモデルを変更する代わりに、モデルに合うようにデータを変更しました。 The Architectural Masterstroke: Cell2Sentence オリジナルタイトル Cell2Sentence(C2S)フレームワークの天才は、そのほぼ不思議なシンプルさで、単一の細胞の複雑で数値的な遺伝子表現プロフィールをとり、単純なテキスト文字列に変換します。 彼らは細胞内のすべての遺伝子を表現レベルに従ってランク付けし、次にトップK遺伝子の名前を書き出します。 細胞の複雑な生物学的状態、例えば: 【「GeneA」=0.1、「GeneB」=0.9、「GeneC」=0.4】 シンプルで読みやすい細胞文になります。 GeneB GeneC GeneA... これはデータエンジニアリングの深い行為です この一つの動きで、彼らは: カスタムアーキテクチャの必要性を取り除きました:彼らは今、GEMMAやLlamaのような標準的なオフ・シェルフのトランスフォーマーアーキテクチャに直接この生物学的言語を供給することができます。 Unlocked Multimodality: Their training corpus was not just cell sentences. They could now mix in the actual abstracts of the scientific papers from which the data was sourced. The model learned to correlate the language of the cell with the language of the scientist in a single, unified training run. 彼らのトレーニングコルパスは、単一で統一されたトレーニングレースで科学者の言語と関連付けることを学んだ。 True Vibe Coding for Biology: The final model does not just classify things. It can take a prompt like, Generate a pancreatic CD8+ T cell, and it will generate a new, synthetic cell sentence representing the gene expression of a cell that has never existed. それは、臓CD8+T細胞を生成し、これまで存在しなかった細胞の遺伝子表現を表す新しい、合成細胞文を生成することができます。 The Payoff: Industrializing Scientific Discovery(科学的発見の産業化) この素晴らしいアーキテクチャは、この紙の殺人アプリを可能にしたものであり、チームは免疫システムへのがん細胞の可視性を高める薬物を見つけるために仮想スクリーンを実行しました。 これは単純なデータベースのクエリではありませんでした。 モデルは、特定の薬物、シミタセルティブがこの効果を有すると予測したが、 インタフェロン信号化の具体的な背景にある。 シリコン たった 彼らはこの小説、AIによって生成された仮説を真の濡れたラボに連れて行き、物理実験を実施し、 proved it was correct. AIは訓練データに答えを見つけただけではなく、生物学的言語と人間の言語の両方の理解を合成して新しい、非明らかな、そして最終的に生成しました。 それはセレンディピティを産業化するためのシステムである。 真実 建設者にとって、これは何を意味するのか。 C2Sスケール論文は、金融から物流、製造まで、複雑で非テキスト的な分野で、高影響力のAIシステムを構築する方法のフィールドガイドです。 モデルを曲げるのを止め、データを翻訳し始める。最も重要な仕事は、カスタムのニューラルネットワークを設計することではありません。それは、あなたの特定のドメインのためのデータ対文の表現を見つけるという創造的で戦略的な仕事です。あなたのサプライチェーンの言語は何ですか?あなたの財務データの文法は何ですか? Multimodality is a Requirement, Not a Feature. The real power was unlocked when they combined the cell sentences with the paper abstracts. Your AI systems should be trained not only on your structured data, but on the unstructured human knowledge that surrounds it — the maintenance logs, the support tickets, the strategy memos. あなたのAIシステムは、あなたの構造化されたデータだけでなく、それを取り巻く非構造化された人間の知識 - メンテナンスログ、サポートチケット、戦略メモに訓練されるべきです。 The Goal is a Hypothesis Generator, Not a Answer Machine. The most valuable AI systems of the future will not be those that can answer what is already known. They will be those who can, like C2S-Scale, generate novel, testable hypotheses that push the boundaries of what is possible. 未来の最も価値のあるAIシステムは、既に知られているものに答えることができるものではありません。 Let's Build It: A Data-to-Sentence Example を参照 これはすべて抽象的に聞こえるので、具体的に行きましょう. Here is a super-simplified Python example of the "Data-to-Sentence" concept, applied to a different domain: server log analysis. 構造化されたログデータを持っていると想像してください. AI に原始 JSON としてそれを供給する代わりに、それを「ログ文」に翻訳できます。 import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously. このシンプルなスクリプトは、コアアーキテクチャパターンを示しています. The Data-to-Sentence transformation is the key. It allows us to take データを構造化し、最も強力なAIモデルの母語でそれを表し、多形的推論の新しい世界を解き放つ。 どんな