מאמר חדש על מודל תאים בעל 27 מיליארד פרמטרים אינו רק על ביולוגיה. אם אתה מהנדס AI, אתה צריך להפסיק את מה שאתה עושה ולקרוא את המאמר החדש זהו שיתוף פעולה בין Google ו-Yale. C2S-Scale תצוגה מוקדמת על פני השטח, זה נראה כמו נייר bioinformatics נישה.במציאות, זהו אחד המפגינים האדריכליים החשובים ביותר עבור AI יישומי ראיתי בשנים האחרונות.הצוות בנה מודל פרמטרים 27B שלא רק לנתח נתונים ביולוגיים - זה עשה על טיפול פוטנציאלי לסרטן. novel, wet-lab-validated scientific discovery כבניין, אני פחות מעוניין בסמים הספציפיים שהם מצאו יותר אובססיבי עם המתודולוגיה שלהם היא ספר שיעורים שכל אדריכל ונדס AI צריך להבין. איך הבעיה העיקרית: מודלים AI שונאים טבליות האתגר המרכזי ביישום LLMs לנתונים מדעיים או ארגוניים הוא כי מודלים אלה מאומנים בשפה, אבל הנתונים שלנו חיים בטבלאות, מסדי נתונים, ומערכות גדולות, בגודל גבוה. במשך שנים, הגישה הסטנדרטית הייתה לבנות ארכיטקטורות מותאמות אישית למדע - AI שמנסים לפרוץ על כמה יכולות שפה טבעית למודל שנועד עבור נתונים מספרים. ההבנה המדהימה של צוות ה- C2S-Scale הייתה להפוך את הבעיה על הראש. במקום לשנות את המודל כדי להתאים את הנתונים, הם שינו את הנתונים כדי להתאים את המודל. במקום לשנות את המודל כדי להתאים את הנתונים, הם שינו את הנתונים כדי להתאים את המודל. תגית: Cell2Sentence הגאון של מסגרת Cell2Sentence (C2S) הוא הפשטות כמעט מגוחכת שלה.הם לוקחים את פרופיל הביטוי הגן המספרי המורכב של תא יחיד ולהפוך אותו לשורה פשוטה של טקסט. הם מסווגים כל גן בתא לפי רמת הביטוי שלו ולאחר מכן פשוט כותבים את שמות הגנים הטובים ביותר ב-K. מצב ביולוגי מורכב של תא, כגון: {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, ...} זה הופך להיות משפט תאים פשוט, אנושי-קריא: GeneB GeneC GeneA ... זהו מעשה עמוק של הנדסת נתונים.עם תנועה אחת זו, הם: הסיר את הצורך בארכיטקטורות מותאמות אישית: הם יכולים עכשיו להאכיל את השפה הביולוגית הזאת ישירות לארכיטקטורה טרנספורמאר סטנדרטית, מחוץ למסגרת כמו ג'ממה או ללאמה. Multimodality Unlocked: קורפוס ההכשרה שלהם לא היה רק משפטים תאים. הם יכולים עכשיו לערבב את הפריטים האמיתיים של המאמרים המדעיים שממנו הופיעו הנתונים.המודל למד לקשר את השפה של התא עם השפה של המדען בתהליך איחוד אחד. אפליקציית True Vibe Coding for Biology: המודל הסופי לא רק מסווג דברים.זה יכול לקחת דחיפה כמו, ליצור תאי CD8 + T הלבלב, וזה יפיק משפט תאים חדש, סינתטי המייצג את הביטוי הגנטי של תא שמעולם לא היה קיים. התשלום: תעשיית גילוי מדעי ארכיטקטורה מרהיבה זו היא מה שהאפשר את האפליקציה הרוצחת של העיתון.הצוות פעל מסך וירטואלי כדי למצוא תרופה שיכולה להגביר את הנראות של תאי סרטן למערכת החיסון. זה לא היה מסד נתונים פשוט, זה היה המודל ציין כי תרופה ספציפית, silmitasertib, תהיה השפעה זו, אבל בהקשר המיוחד של אינטרפרון סינכרון. סיליקון רק הם לקחו את הרומן הזה, היפותזה שנוצרה על ידי AI למעבדה רטובה אמיתית, ביצעו את הניסויים הפיזיים, ו proved it was correct. AI לא רק מצאה תשובה בנתוני האימון שלה.היא סינתזה את ההבנה שלה של שפה ביולוגית ושפה אנושית כדי ליצור חדש, לא ברור, ובסופו של דבר זהו מערכת של תעשיית serendipity. אמת מה זה אומר לבניינים המאמר C2S-Scale הוא מדריך שדה כיצד לבנות מערכות AI בעלות השפעה גבוהה בכל תחום מורכב שאינו טקסט, מהפיננסים ללוגיסטיקה ועד לייצור. הפסיקו לגרד את המודל. התחילו לתרגם את הנתונים שלכם. העבודה החשובה ביותר היא כבר לא לתכנן רשת נוירלית מותאמת אישית. זו העבודה היצירתית והאסטרטגית של מציאת ייצוג נתונים לביטוי עבור התחום הספציפי שלכם. מה השפה של שרשרת האספקה שלכם? המולטימודאליות היא דרישה, לא תכונה.הכוח האמיתי נפתח כאשר הם שילבו את המשפטים של התאים עם הערות נייר.מערכות ה-AI שלך צריכות להיות מאומנות לא רק על הנתונים המאורגנים שלך, אלא על הידע האנושי הלא מאורגן שמקיף אותו – יומני תחזוקה, כרטיסי תמיכה, הודעות אסטרטגיה. המטרה היא גנרטור היפותזה, לא מכונת תשובות.מערכות ה-AI היקפיות ביותר של העתיד לא יהיו אלה שיכולות לענות על מה שכבר ידוע.הן יהיו אלה שיכולות, כמו C2S-Scale, ליצור היפותציות חדשות, ניתנות לבדיקה שמדחיקות את הגבולות של מה שאפשר. בואו נבנה את זה: דוגמה נתונים-אל-משפט כל זה נשמע מופשט, אז בואו נעשה את זה קונקרטי.הנה דוגמה פייטון הפשוטה ביותר של מושג "נתונים לביטוי", מיושם לתחום אחר: server log analysis. דמיינו שיש לכם נתוני יומן מובנים, במקום להזין אותם ל-AI כ-JSON גלם, אנו יכולים לתרגם אותם ל"ביטוי יומן". import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously. התסריט הפשוט הזה מראה את הדפוס האדריכלי הבסיסי.הטרנספורמציה Data-to-Sentence היא המפתח.זה מאפשר לנו לקחת נתונים מאורגנים ומייצגים אותם בשפה המקורית של המודלים החזקים ביותר של AI, פותחים עולם חדש של חשיבה מולטימודלית. כל