Un nou paper sobre un model de cèl·lula de 27 mil milions de paràmetres no es tracta només de la biologia, sinó de l'enginyeria de dades i un projecte per al futur de la IA aplicada. Si ets un enginyer d'IA, has d'aturar el que estàs fent i llegir el nou Col·laboració entre Yale i Google. Preprint a escala C2S En realitat, és un dels manifestos arquitectònics més importants per a la IA aplicada que he vist en anys.L'equip va construir un model de paràmetre 27B que no només analitzava dades biològiques, sinó que va fer un sobre una possible teràpia contra el càncer. novel, wet-lab-validated scientific discovery Com a constructor, estic menys interessat en la droga específica que van trobar i més obsessionat amb La seva metodologia és un llibre que cada arquitecte i enginyer d’IA ha de comprendre. Com El problema bàsic: els models d'IA odien els fulls de càlcul El repte central en aplicar els LLM a les dades científiques o empresarials és que aquests models estan entrenats en llenguatge, però les nostres dades viuen en fulls de càlcul, bases de dades i massives matrius d'alta dimensió. Durant anys, l'enfocament estàndard ha estat la construcció d'arquitectures personalitzades i personalitzades per a la ciència - AI que intenten fer servir algunes capacitats de llenguatge natural a un model dissenyat per a dades numèriques. La brillant idea de l'equip C2S-Scale va ser girar el problema sobre el seu cap. En lloc de canviar el model per encaixar les dades, van canviar les dades per encaixar el model. En lloc de canviar el model per encaixar les dades, van canviar les dades per encaixar el model. El màster arquitectònic: Cell2Sentence El geni del marc de Cell2Sentence (C2S) és la seva senzillesa gairebé absurda: prenen el complex perfil d'expressió de gens numèrics d'una sola cèl·lula i la transformen en una simple cadena de text. Classifiquen cada gen a la cèl·lula pel seu nivell d'expressió i després només escriuen els noms dels gens de K més alts en ordre. L'estat biològic complex d'una cèl·lula, com ara: {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, ...} Es converteix en una frase de cèl·lula simple i llegible per a l'home: GeneB GeneC GeneA... Aquest és un acte profund de l'enginyeria de dades. Amb aquest moviment, ells: Eliminat la necessitat d'arquitectures personalitzades: ara poden alimentar aquest llenguatge biològic directament en una arquitectura de Transformer estàndard, fora de la taula com Gemma o Llama. Multimodalitat desbloquejada: El seu cos d'entrenament no era només frases cel·lulars. Ara podien barrejar-se en els abstractes reals dels papers científics dels quals es provenien les dades. El model va aprendre a correlacionar el llenguatge de la cel·la amb el llenguatge del científic en una sola cursa de formació unificada. Activat True Vibe Coding for Biology: El model final no només classifica les coses. pot prendre una crida com, Generar una cèl·lula T CD8 + pancreàtic, i generarà una nova frase de cèl·lula sintètica que representa l'expressió gènica d'una cèl·lula que mai ha existit. El pagament: industrialitzar el descobriment científic L'equip va executar una pantalla virtual per trobar un fàrmac que podria augmentar la visibilitat d'una cèl·lula cancerosa al sistema immunitari. Això no era una simple consulta de base de dades. El model va predir que un medicament específic, silmitasertib, tindria aquest efecte, però en el context específic de la senyalització d'interferons. En silicona Només Van portar aquesta novel·la, la hipòtesi generada per la IA a un veritable laboratori humit, van executar els experiments físics, i proved it was correct. La IA no només va trobar una resposta en les seves dades de formació, sinó que va sintetitzar la seva comprensió tant del llenguatge biològic com del llenguatge humà per generar un nou, no obvi, i en última instància. És un sistema per industrialitzar la serendipitat. veritat Què significa això per als constructors El paper C2S-Scale és una guia de camp per construir sistemes d'IA d'alt impacte en qualsevol domini complex, no textual, des de les finances fins a la logística fins a la fabricació. Deixeu de plegar el model. Comenceu a traduir les vostres dades. El treball més important ja no és dissenyar una xarxa neural personalitzada. És el treball creatiu i estratègic de trobar una representació de dades a sentències per al vostre domini específic. Quin és el llenguatge de la vostra cadena de subministrament? Quina és la gramàtica de les vostres dades financeres? La multimodalitat és un requisit, no una característica. El poder real es va desbloquejar quan van combinar les frases cel·lulars amb els abstractes de paper. Els vostres sistemes d'IA han de ser entrenats no només en les vostres dades estructurades, sinó en el coneixement humà no estructurat que l'envolta: els registres de manteniment, els bitllets de suport, les memòries d'estratègia. Els sistemes d’IA més valuosos del futur no seran els que puguin respondre al que ja es coneix. Seran els que puguin, com la C2S-Scale, generar noves hipòtesis testables que posin els límits del que és possible. Construïm-lo: un exemple de data a sentència Tot això sona abstracte, així que fem-ho concret.Aquí hi ha un exemple de Python super-simplificat del concepte "Data-to-Sentence", aplicat a un domini diferent: server log analysis. En comptes d'alimentar-lo a una IA com un JSON cru, podem traduir-lo en una "sentència de registre". import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously. Aquest senzill guió demostra el patró arquitectònic bàsic. La transformació de dades a sentències és la clau. Estructurar les dades i representar-les en el llenguatge natiu dels models d’IA més potents, desbloquejant un nou món de raonament multimodal. qualsevol