O nouă lucrare despre un model de celule cu 27 de miliarde de parametri nu se referă doar la biologie. Dacă sunteți un inginer AI, trebuie să opriți ceea ce faceți și să citiți noul O colaborare între Yale și Google. C2S-Scală Preprint În realitate, este unul dintre cele mai importante manifesturi arhitecturale pentru IA aplicată pe care le-am văzut de-a lungul anilor.Echipa a construit un model de parametri 27B care nu a analizat doar datele biologice – a făcut un Despre o posibilă terapie a cancerului. novel, wet-lab-validated scientific discovery Ca constructor, sunt mai puțin interesat de medicamentul specific pe care l-au găsit și mai obsedat de Metodologia lor este o carte pe care fiecare arhitect și inginer AI trebuie să o înțeleagă. Cum Problema de bază: modelele AI urăsc foile de calcul Provocarea centrală în aplicarea LLM-urilor la datele științifice sau de întreprindere este că aceste modele sunt instruite în limbaj, dar datele noastre trăiesc în foi de calcul, baze de date și arate masive, înalte. De ani de zile, abordarea standard a fost de a construi arhitecturi personalizate, personalizate pentru știință - AI-uri care încearcă să se bazeze pe unele capacități de limbă naturală la un model conceput pentru date numerice. Înțelegerea strălucită a echipei C2S-Scale a fost de a întoarce problema pe cap. În loc să schimbe modelul pentru a se potrivi datelor, au schimbat datele pentru a se potrivi modelului. În loc să schimbe modelul pentru a se potrivi datelor, au schimbat datele pentru a se potrivi modelului. Masterstroke-ul arhitectural: Cell2Sentence Geniul cadrului Cell2Sentence (C2S) este simplitatea sa aproape absurdă.Ei iau profilul complex, numeric de exprimare a genelor al unei singure celule și îl transformă într-un simplu șir de text. Ei clasifică fiecare gen din celulă după nivelul său de expresie și apoi scriu pur și simplu numele genelor de top K în ordine. starea biologică complexă a unei celule, cum ar fi: {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, ...} Devine o propoziție simplă, citibilă de către om: GeneB GeneC GeneA... Acesta este un act profund de inginerie a datelor. Cu această mișcare, ei: Eliminat nevoia de arhitecturi personalizate: Ei pot acum hrăni acest limbaj biologic direct într-o arhitectură Transformer standard, off-the-shelf, cum ar fi Gemma sau Llama. Multimodalitatea deblocată: Corpul lor de instruire nu era doar propoziții de celule. Ei puteau acum să se amestece în abstracte reale ale lucrărilor științifice din care au provenit datele. Activat codificarea True Vibe pentru biologie: Modelul final nu clasifică doar lucrurile. poate lua o promptă ca, Generarea unei celule CD8 + T pancreatice, și va genera o nouă propoziție celulară sintetică care reprezintă expresia genelor unei celule care nu a existat niciodată. The Payoff: Industrializarea descoperirii științifice Această arhitectură strălucită este ceea ce a permis aplicația ucigașă a lucrării.Echipa a rulat un ecran virtual pentru a găsi un medicament care ar putea spori vizibilitatea unei celule canceroase la sistemul imunitar. Aceasta nu a fost o simplă interogare de bază de date. Modelul a prezis că un anumit medicament, silmitasertib, ar avea acest efect, dar în contextul specific al semnalizării interferonului. în silicon numai Ei au luat această ipoteză nouă, generată de IA, într-un adevărat laborator umed, au efectuat experimentele fizice și au proved it was correct. Aceasta este noua paradigmă. AI nu a găsit doar un răspuns în datele sale de instruire. Acesta a sintetizat înțelegerea atât a limbajului biologic, cât și a limbajului uman pentru a genera un nou, non-evident, și în cele din urmă Este un sistem de industrializare a serendipităţii. adevărată Ce înseamnă pentru constructori Documentul C2S-Scale este un ghid de teren pentru a construi sisteme AI de mare impact în orice domeniu complex, non-textual, de la finanțe la logistică până la fabricație. Începeți să vă traduceți datele. Cea mai importantă lucrare nu mai este să proiectați o rețea neurală personalizată. Este în munca creativă, strategică de a găsi o reprezentare date-to-sentence pentru domeniul dvs. specific. Care este limba lanțului dvs. de aprovizionare? Care este gramatica datelor dvs. financiare? Multimodalitatea este o cerință, nu o caracteristică. Puterea reală a fost deblocată atunci când au combinat propozițiile celulare cu abstracte de hârtie. Sistemele dvs. AI ar trebui să fie instruite nu numai pe datele dvs. structurate, ci și pe cunoștințele umane nestructurate care îl înconjoară – jurnalele de întreținere, biletele de asistență, memoarele de strategie. Obiectivul este un generator de ipoteze, nu o mașină de răspuns. Cele mai valoroase sisteme AI ale viitorului nu vor fi cele care pot răspunde la ceea ce este deja cunoscut. Să construim: un exemplu de date-la-sentență Aici este un exemplu super-simplificat de Python al conceptului "Data-to-Sentence", aplicat unui domeniu diferit: server log analysis. Imaginați-vă că aveți date de jurnal structurate.În loc să le hrăniți într-o IA ca un JSON brut, îl putem traduce într-o "pedeapsă de jurnal". import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously. Acest script simplu demonstrează modelul arhitectural de bază. Transformarea date-la-sentență este cheia. ne permite să luăm Structurați datele și reprezentați-le în limba maternă a celor mai puternice modele AI, deschizând o nouă lume a raționamentului multimodal. Orice