د 27 میلیارده پارامتره سیل ماډل په اړه یو نوی کاغذ یوازې د بیولوژۍ په اړه نه دی. دا د ډاټا انجنیرۍ او د غوښتنلیک AI په راتلونکي لپاره د پروپیلن ده. که تاسو د AI انجنیر دی، تاسو باید د هغه څه وکړئ چې تاسو یې وکړئ او د نوي کتابونه وګورئ. د Yale او Google د همکارۍ له امله. د C2S-scale مخکښ په سطحه کې، دا د بیيواوافټیک کاغذ په څیر ښکاري. په واقعیت کې، دا د غوښتنلیک AI لپاره تر ټولو مهم معمارۍ manifestos یو دی چې زه په کلونو کې وګورئ. د ډلې د 27B پارامتر ماډل جوړ کړ چې نه یوازې د بیولوژیکي معلوماتو تحلیل کوي - دا د سرطان احتمالي درملنې په اړه. novel, wet-lab-validated scientific discovery لکه څنګه چې یو جوړونکي، زه د ځانګړي موادو په اړه لږ علاقه مندم چې دوی په پای کې وټاکل او د دې په اړه ډیر مینه لري. دوی روشونه یو کتاب دی چې هر AI معمار او انجنير باید پوه شي. څنګه د اصلي ستونزه: د AI ماډلونه د جدولې څخه نفرت کوي د علومو یا د شرکتونو معلوماتو ته د LLMs غوښتنلیک په مرکز کې ستونزه دا ده چې دا ماډلونه په ژوره کې روزل شوي دي، مګر زموږ معلوماتو په ټابلیټونه، ډاټا بیسونو او عمده، د عالي اندازې لګښتونو کې ژوند کوي. هڅه کول چې د LLM ترلاسه کړي چې د خام scRNA-seq جین بیان مټریکس پوه شي د نارینه ده. د کلونو لپاره، د معياري لارښوونې دی چې د علومو لپاره د ګمرکولو، د ګمرکولو آرکټیکټیکونه جوړ کړي - AI چې د طبيعي زبان وړتیاوې ته د شمیره معلوماتو لپاره ډیزاین شوي ماډل ته وده ورکوي. دا چټک، ارزانه دی، او تاسو د عمده LLM اکوسیستم د لوی اندازه کولو قانونونو او چټک نوښتونو څخه خوندي کړئ. د C2S-Scale ټیم د بریالیتوب په څیر د ستونزو په سر کې ورسیږي. د نمونوي بدلون لپاره د معلوماتو سره مطابقت کوي، دوی د معلوماتو لپاره د نمونوي سره مطابقت کوي. د نمونوي بدلون لپاره د معلوماتو سره مطابقت کوي، دوی د معلوماتو لپاره د نمونوي سره مطابقت کوي. د آرژانتیک Masterstroke: Cell2Sentence د Cell2Sentence (C2S) فریم ورک ژانر دی چې دا تقریبا غیرقانوني ساده دی. دوی د یو واحد سیل د پیچلي، شمېره جین بیان پروفایل لرو او دا په ساده متن لړ بدل کړئ. څنګه؟ دوی په سلول کې د هر ژن له خوا د خپل بیان کچه رامینځته کوي او بیا یوازې د Top-K ژنونو نومونه په ترتیب کې ورسوي. د سیلونو پیچلي بیولوژيکي حالت، لکه: {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, ...} دا یو ساده، انسان-کښته سلګونه وي: د GeneB GeneC GeneA ... دا د ډاټا انجنيرۍ د عمیق عمل دی. د دې یو حرکت سره، دوی: د Custom Architectures اړتيا له لاسه ورکړ: دوی کولی شي اوس په مستقیم ډول د دې بیولوژيکي ژغورۍ ته د معياري، off-the-shelf Transformer آرشیفیتونو لکه Gemma یا Llama ته وده ورکړي. دوی وړیا د ټولو LLM څیړنې ټولنیز ګرځنده کړي. Unlocked Multimodality: دوی د روزنې کورپوس نه یوازې د سلګونه نه وه. دوی اوس کولی شي د علمي کاغذونو په واقعي خلاصو کې مخلوط شي چې د معلوماتو څخه سرچینه شوې وه. د ماډل په یو واحد، یوځای روزنې چلولو کې د سلګونو ژور سره د څیړونکي ژور سره اړیکه ونیسئ. فعال شوی True Vibe Coding for Biology: د پایلې ماډل نه یوازې شیان راټولوي. دا کولی شي په څیر وکارول شي، د پانکریټیک CD8 + T سیل تولید کړي، او دا به د نوي، مصنوعي سیل سټینټ تولید کړي چې د یو سیل چې هیڅکله شتون نلري د جین بیان رامینځته کوي. د پیسو: د علومو کشف صنعتي کول دا ښکلي آرکټیکټوریټ دا دی چې د کاغذ د قاتل اپلیکیشن فعال کړي. د ټیم یو مجازی پرده چمتو کوي چې د درملو په لټه کې وي چې کینسر سیلونو ته د برېښنايي سیسټم ته ښیښه شي. دا یو ساده ډاټا پوښتنه نه وه. دا یو د ماډل پیژندل چې د ځانګړي درمل، silmitasertib، به دا اغیز لري، مګر په ځانګړي توګه د انټرفیرون سیگنال کولو کې. په سیلیکون یوازې دوی د دې رومانیا، AI-generated hypothesis ته په یوه حقیقي لرګيو لابراتوار ته راځي، د فیزیکي تجربو ترسره کړي، او proved it was correct. دا د نوي پیراګرام دی. د AI یوازې په خپل روزنې ډاټا کې ځواب نه لري. دا د بیولوژيکي زبان او د انسان لغت په دوامداره توګه درکوي ترڅو یو نوی، غیر واضح، او په پایله کې د معلوماتو ټوټه. دا د صنعتي serendipity لپاره یو سیستم دی. د حقیقت د جوړونکو لپاره دا څه معنی لري د C2S-Scale کاغذ د لوړ اغیزمن AI سیسټمونه په هر پیچلي، غیر متنیکي ډومین کې جوړولو لپاره د کڅوړې لارښود دی، د مالیې څخه د لوژستیک څخه د تولید لپاره. د نمونوي پرته. د خپل ډاټا ترجمې پیل کړئ. مهم ترین کار د ګمرک نوري شبکې په ډیزاین کې نه دی. دا د خپل ځانګړي ډومین لپاره د ډاټا-په-انټرنټ پیژندل کولو تخلیقی، استراتيجي کار دی. ستاسو د سپارلو د چڼاسکه ژوره دی؟ ستاسو د مالیې ډاټا ګرامرونه څه دي؟ Multimodality ده د اړتیا، نه يو ځانګړتیا. د واقعي قدرت په توګه په ګډه شي کله چې دوی د سلګونه سره د کاغذ د خلاصې. ستاسو د AI سيستمونه باید نه یوازې ستاسو د جوړ شوي معلوماتو، خو د غیر جوړ شوي انسان د معلوماتو په اړه چې دا په منځ کې - د ساتنې روزنې، د ملاتړ ټکټونه، د ستراتیژۍ یادونه. هدف یو hypothesis جنراتور دی، نه یو ځواب ماشین. د راتلونکي ترټولو ارزښتني AI سيستمونه به هغه نه وي چې کولی شي چې څه هم معلوم وي. دوی به هغه وي چې کولی شي، لکه C2S-Scale، د نوي، ازمايښت وړ hypotheses جوړ کړي چې د امکاناتو محدودیتونو ته وده ورکړي. Let's Build It: د معلوماتو په سټینټ کې مثال دلته د "Data-to-Sentence" مفهوم د یو سپر ساده پیتون مثال دی، چې په مختلفو ډومین کې کارول کیږي: server log analysis. تصور وکړئ چې تاسو د پروګرام ډاټا لري. په ځای کې چې دا د یو AI ته د خام JSON په توګه تغذیه کړي، موږ کولی شو دا د "لوګ سټینټ" بدلون وکړي. import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously. دا ساده سکرپٹ د اصلي آرژانتیکي نمونې ډیزاین کوي. د ډاټا-to-Sentence بدلون د کلید دی. دا موږ ته اجازه ورکوي چې جوړ شوي ډاټا او د ټولو قوي AI ماډلونو اصلي ژبه کې رامینځته کړي، د multimodal منطقونو نوي نړۍ ته ونیسئ. هر