Un nouveau document sur un modèle cellulaire de 27 milliards de paramètres ne concerne pas seulement la biologie, c'est l'ingénierie des données et un plan pour l'avenir de l'IA appliquée. Si vous êtes un ingénieur de l'IA, vous devez arrêter ce que vous faites et lire le nouveau Une collaboration entre Yale et Google. C2S-Scale Pré-Print En réalité, c’est l’un des manifestations architecturales les plus importantes pour l’IA appliquée que j’ai vues depuis des années.L’équipe a construit un modèle de paramètre 27B qui n’a pas seulement analysé les données biologiques – il a fait un sur une thérapie potentielle du cancer. novel, wet-lab-validated scientific discovery En tant que constructeur, je suis moins intéressé par le médicament spécifique qu'ils ont trouvé et plus obsédé par Leur méthodologie est un ouvrage que chaque architecte et ingénieur de l’IA doit comprendre. Comment Le problème de base: les modèles d'IA détestent les feuilles de calcul Le défi central dans l'application des LLM aux données scientifiques ou d'entreprise est que ces modèles sont formés sur le langage, mais nos données vivent dans des feuilles de calcul, des bases de données et des ensembles massifs et hauts dimensions. Pendant des années, l'approche standard a été de construire des architectures personnalisées et personnalisées pour la science - AI qui essaient de renforcer certaines capacités linguistiques naturelles à un modèle conçu pour les données numériques. L’idée brillante de l’équipe C2S-Scale était de renverser le problème sur sa tête. Au lieu de modifier le modèle pour correspondre aux données, ils ont modifié les données pour correspondre au modèle. Au lieu de modifier le modèle pour correspondre aux données, ils ont modifié les données pour correspondre au modèle. La maîtrise architecturale : Cell2Sentence Le génie du cadre Cell2Sentence (C2S) est sa simplicité presque absurde.Ils prennent le profil d'expression génétique complexe et numérique d'une seule cellule et la transforment en une simple chaîne de texte. Ils classent chaque gène dans la cellule par son niveau d'expression, puis écrivent simplement les noms des gènes K les plus importants dans l'ordre. L'état biologique complexe d'une cellule, comme : {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, ...} Il devient une phrase cellulaire simple et lisible par l'homme : GeneB GeneC GeneA ... Ceci est un acte profond de l'ingénierie des données. Avec ce geste, ils: Eliminé le besoin d'architectures personnalisées: Ils peuvent maintenant nourrir ce langage biologique directement dans une architecture de transformateur standard, hors-chaîne comme Gemma ou Llama. Multimodalité déverrouillée: Leur corps de formation n'était pas seulement des phrases cellulaires. Ils pouvaient maintenant mélanger les abstracts réels des documents scientifiques à partir desquels les données proviennent.Le modèle a appris à corréler le langage de la cellule avec le langage du scientifique dans une seule course de formation unifiée. Enabled True Vibe Coding for Biology: Le modèle final ne classifie pas seulement les choses. Il peut prendre un coup de pouce comme, Générer une cellule T CD8 + pancréatique, et il générera une nouvelle phrase cellulaire synthétique représentant l'expression génétique d'une cellule qui n'a jamais existé. La rémunération : industrialisation de la découverte scientifique Cette architecture brillante est ce qui a permis l'application tueuse du papier.L'équipe a exécuté un écran virtuel pour trouver un médicament qui pourrait augmenter la visibilité d'une cellule cancéreuse au système immunitaire. Ce n'était pas une simple requête de base de données. Le modèle prédit qu'un médicament spécifique, silmitasertib, aurait cet effet, mais dans le contexte spécifique de la signalisation d'interféron. en silicone uniquement Ils ont emmené ce roman, l'hypothèse générée par l'IA dans un véritable laboratoire humide, a mené les expériences physiques, et proved it was correct. C'est le nouveau paradigme.L'IA n'a pas seulement trouvé une réponse dans ses données de formation.Il a synthétisé sa compréhension du langage biologique et du langage humain pour générer un nouveau, non évident et finalement C'est un système pour industrialiser la serendipité. vérité Ce que cela signifie pour les constructeurs Le document C2S-Scale est un guide de terrain sur la façon de construire des systèmes d'IA à haut impact dans n'importe quel domaine complexe et non textuel, de la finance à la logistique à la fabrication. Arrêtez de plier le modèle. Commencez à traduire vos données. Le travail le plus important n'est plus dans la conception d'un réseau neuronal personnalisé. C'est dans le travail créatif et stratégique de trouver une représentation Data-to-Sentence pour votre domaine spécifique. Quel est le langage de votre chaîne d'approvisionnement? Quelle est la grammaire de vos données financières? La multimodalité est une exigence, pas une fonctionnalité.La vraie puissance a été déverrouillée lorsqu'ils ont combiné les phrases cellulaires avec les abstracts papier.Vos systèmes d'IA devraient être formés non seulement sur vos données structurées, mais sur les connaissances humaines non structurées qui l'entourent - les journaux de maintenance, les billets d'assistance, les mémo de stratégie. L’objectif est un générateur d’hypothèses, pas une machine à répondre.Les systèmes d’IA les plus précieux du futur ne seront pas ceux qui pourront répondre à ce qui est déjà connu.Ils seront ceux qui pourront, comme C2S-Scale, générer de nouvelles hypothèses éprouvables qui pousseront les limites de ce qui est possible. Construisons-le : un exemple de données à la phrase Voici un exemple super-simplifié de Python du concept "Data-to-Sentence", appliqué à un domaine différent: server log analysis. Imaginez que vous ayez des données de journaux structurées. Au lieu de les nourrir à une IA comme un JSON brut, nous pouvons le traduire en une « phrase de journaux ». import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously. Ce script simple démontre le modèle architectural de base. La transformation de données à la phrase est la clé. structurés et les représenter dans le langage maternel des modèles d’IA les plus puissants, déverrouillant un nouveau monde de raisonnement multimodal. tout