Un nuevo artículo sobre un modelo de células de 27 mil millones de parámetros no es solo sobre la biología, es la ingeniería de datos y un plan para el futuro de la IA aplicada. Si eres un ingeniero de IA, tienes que parar lo que estás haciendo y leer la nueva La colaboración entre Google y Yale. Preprint de escala C2S En realidad, es uno de los más importantes manifiestos arquitectónicos para la IA aplicada que he visto en años.El equipo construyó un modelo de parámetro 27B que no solo analizó los datos biológicos, sino que hizo una sobre una posible terapia contra el cáncer. novel, wet-lab-validated scientific discovery Como constructor, estoy menos interesado en la droga específica que encontraron y más obsesionado con Su metodología es un libro que todo arquitecto e ingeniero de IA necesita entender. Cómo El problema central: los modelos de IA odian las hojas de cálculo El desafío central en la aplicación de los LLM a los datos científicos o empresariales es que estos modelos se entrenan en el lenguaje, pero nuestros datos viven en hojas de cálculo, bases de datos y arreglos masivos y de alta dimensión. Durante años, el enfoque estándar ha sido construir arquitecturas personalizadas, personalizadas para la ciencia - AI que tratan de doblar algunas capacidades de lenguaje natural a un modelo diseñado para datos numéricos. La brillante idea del equipo de C2S-Scale era darle la vuelta al problema. En lugar de cambiar el modelo para que se ajuste a los datos, cambiaron los datos para que se ajusten al modelo. En lugar de cambiar el modelo para que se ajuste a los datos, cambiaron los datos para que se ajusten al modelo. La maestría arquitectónica: Cell2Sentence El genio del marco de Cell2Sentence (C2S) es su sencillez casi absurda: toman el complejo perfil de expresión de genes numéricos de una sola célula y la transforman en una sencilla cadena de texto. Clasifican cada gen en la célula por su nivel de expresión y luego simplemente escriben los nombres de los genes K más altos en orden. El estado biológico complejo de una célula, como: {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, ...} Se convierte en una frase celular simple y legible por el hombre: GeneB GeneC GeneA ... Este es un acto profundo de ingeniería de datos. Con este movimiento, ellos: Eliminado la necesidad de arquitecturas personalizadas: Ahora pueden alimentar este lenguaje biológico directamente en una arquitectura de Transformer estándar, fuera de la estantería como Gemma o Llama. Multimodalidad desbloqueada: Su cuerpo de entrenamiento no era sólo frases celulares. Ahora podían mezclar en los abstractos reales de los artículos científicos de los que se extraían los datos. El modelo aprendió a correlacionar el lenguaje de la célula con el lenguaje del científico en una sola carrera de entrenamiento unificada. Activado True Vibe Coding for Biology: El modelo final no solo clasifica las cosas. puede tomar una prompt como, Generar una célula CD8 + T pancreática, y generará una nueva frase celular sintética que representa la expresión génica de una célula que nunca ha existido. El pago: la industrialización del descubrimiento científico Esta brillante arquitectura es lo que permitió la aplicación asesina del periódico.El equipo ejecutó una pantalla virtual para encontrar un medicamento que podría aumentar la visibilidad de una célula cancerosa al sistema inmunológico. No era una simple consulta de base de datos. El modelo predijo que una droga específica, silmitasertib, tendría este efecto, pero en el contexto específico de la señalización de interferón. En silicona Sólo Trajeron esta novela, la hipótesis generada por IA a un verdadero laboratorio húmedo, ejecutaron los experimentos físicos, y proved it was correct. Este es el nuevo paradigma.La IA no sólo encontró una respuesta en sus datos de entrenamiento.Sintetizó su comprensión del lenguaje biológico y del lenguaje humano para generar un nuevo, no obvio, y en última instancia Es un sistema para industrializar la serendipidad. verdadera Qué significa para los constructores El documento C2S-Scale es una guía de campo para construir sistemas de IA de alto impacto en cualquier dominio complejo y no textual, desde la financiación a la logística hasta la fabricación. Deja de doblar el modelo. Comience a traducir sus datos. El trabajo más importante ya no consiste en diseñar una red neural personalizada. Es en el trabajo creativo y estratégico de encontrar una representación de datos a sentencias para su dominio específico. ¿Cuál es el idioma de su cadena de suministro? ¿Cuál es la gramática de sus datos financieros? La multimodalidad es un requisito, no una característica. El verdadero poder se desbloqueó cuando combinaron las frases celulares con los abstractos de papel. Sus sistemas de IA deben ser entrenados no sólo en sus datos estructurados, sino en el conocimiento humano no estructurado que lo rodea: los registros de mantenimiento, los boletos de apoyo, los memorandos de estrategia. El objetivo es un generador de hipótesis, no una máquina de respuesta.Los sistemas de IA más valiosos del futuro no serán los que puedan responder a lo que ya se conoce. Vamos a construirlo: un ejemplo de datos a sentencia Todo esto suena abstracto, así que hagámoslo concreto.He aquí un ejemplo super-simplificado de Python del concepto "Data-to-Sentence", aplicado a un dominio diferente: server log analysis. Imagínese que tiene datos de registro estructurados. en lugar de alimentarlo a una IA como un JSON crudo, podemos traducirlo en una "frase de registro". import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously. Este simple guión demuestra el patrón arquitectónico central. La transformación de datos a sentencias es la clave. Estructuró los datos y los representó en el lenguaje nativo de los modelos de IA más potentes, desbloqueando un nuevo mundo de razonamiento multimodal. cualquier