27 බිලියන ප්රමාණයේ සෛල ආකෘතිය පිළිබඳ නව ලිපියක් පමණක් ජීව විද් යාව ගැන නොවේ.එය දත්ත ඉංජිනේරු කිරීම සහ ආකෘති AI අනාගතය සඳහා blueprint වේ. ඔබ AI ඉංජිනේරුවෙක් නම්, ඔබ කරන්නේ කුමක්ද යන්න නවත්වන්න සහ නව ලිපිය කියවන්න Yale සහ Google අතර සබඳතාවක් C2S-Skala ප්රදර්ශනය පෘථිවියේ දී, එය bioinformatics පිටපතක් ලෙස පෙනේ. ඇත්ත වශයෙන්ම, එය මම වසර ගණනාවක් තිස්සේ දැක ඇති ප්රයෝජනවත් AI සඳහා වැදගත්ම ආකෘති ප්රකාශයක්. පිළිකාව ප් රතිකාර කිරීමේ හැකියාව ගැන. novel, wet-lab-validated scientific discovery නිර්මාණකරුවෙක් ලෙස, ඔවුන් සොයාගෙන ඇති විශේෂිත ඖෂධයට මම අඩු වශයෙන් උනන්දුවක් දක්වමි. ඔවුන්ගේ ක් රමවේදය සෑම AI ආකෘතියෙකු සහ ඉංජිනේරුවෙකුම තේරුම් ගත යුතු පුහුණු පොතක් වේ. කොහොමද ප්රධාන ගැටලුව: AI ආකෘති පිටුපස වෛර කරයි විද්යාත්මක හෝ ව්යාපාරික දත්ත සඳහා LLM ක්රියාත්මක කිරීමේ ප්රධාන අභියෝගය වන්නේ මෙම ආකෘති භාෂාවෙන් පුහුණු කරන බවයි, නමුත් අපගේ දත්ත සංඛ්යාත, දත්ත බැංකු සහ විශාල, උසස් ප්රමාණ සංඛ්යාත තුළ ජීවත් වේ. වසර ගණනාවක් තිස්සේ, ස්ථාවර ප්රවේශය විද්යාව සඳහා පරිශීලක, පරිශීලක ආකෘති ගොඩනැගීම බවට පත් වී ඇත - ස්වාභාවික භාෂා හැකියාවන් කිහිපයක් සංයුක්ත දත්ත සඳහා නිර්මාණය කරන ලද ආකෘතියට පාවිච්චි කිරීමට උත්සාහ කරන AI. C2S-Scale කණ්ඩායමේ විශිෂ්ට අවබෝධයක් තිබුණේ ප් රශ්නය ඔහුගේ හිස මත වළක්වා ගැනීමයි. දත්ත වලට ගැලපෙන පරිදි ආකෘතිය වෙනස් කිරීම වෙනුවට, ඔවුන් ආකෘතියට ගැලපෙන පරිදි දත්ත වෙනස් කළා. දත්ත වලට ගැලපෙන පරිදි ආකෘතිය වෙනස් කිරීම වෙනුවට, ඔවුන් ආකෘතියට ගැලපෙන පරිදි දත්ත වෙනස් කළා. The Architectural Masterstroke: Cell2Sentence සමාගම Cell2Sentence (C2S) ක්ෂේත් රයේ ප් රසිද්ධිය වන්නේ එහි අසාමාන්ය සරලතාවයයි.ඔවුන් එක් සෛලයක සංකීර්ණ, සංඛ්යාත්මක ජාන ප්රකාශ ප්රවේශය ප්රවේශය ගනිමින් එය සරල පෙළ සංකේතයක් බවට පරිවර්තනය කරයි. ඔවුන් සෛලයේ සෑම ජන් මට්ටමකටම එහි ප්රකාශ මට්ටම අනුව ලියාපදිංචි කර, පසුව ඉහළ K ජන් නාමයන් අංකය අනුව ලිව්වා. සෛලයේ සංකීර්ණ බෞද්ධ තත්ත්වය, වැනි: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 සරල, මිනිසා කියවනු ලබන සෛල ප්රකාශයක් බවට පත් වේ: GeneB GeneC GeneA... මෙය දත්ත ඉංජිනේරු කිරීමේ ගැඹුරු ක් රියාවකි.මේ එක් පියවරකින්, ඔවුන්: Custom Architectures සඳහා අවශ්යතාවය අවලංගු: ඔවුන් දැන් මෙම ජීව විද්යාත්මක භාෂාව සෘජුවම Gemma හෝ Llama වැනි සම්මත, off-the-shelf Transformer ආකෘතියට ලබා ගත හැකිය. Unlocked Multimodality: Their training corpus was not just cell sentences. They could now mix in the actual abstracts of the scientific papers from which the data was sourced.The model learned to correlate the language of the cell with the language of the scientist in a single, unified training run. True Vibe Coding for Biology: The final model does not just classify things.It can take a prompt like, Generate a pancreatic CD8+ T cell, and it will generate a new, synthetic cell sentence representing the gene expression of a cell that has never existed. The Payoff: Scientific Discovery කර්මාන්තශීලී කිරීම මෙම විශිෂ්ට ආකෘතිය මෙම පත්රයේ මිනීමරුවාගේ යෙදුම ක්රියාත්මක කර ඇති දේයි.මේ කණ්ඩායම සජීවී ස්කෑන් ක්රියාත්මක කර ඇති අතර, පිළිකාවක සෛලයේ ආබාධ පද්ධතියට පෙනුම වැඩි කළ හැකි ඖෂධයක් සොයා ගැනීමට හැකි විය. මෙය සරල database query එකක් නොවේ. මෙම ආකෘතිය, විශේෂිත ඖෂධ, silmitasertib, මෙම බලපෑම ඇති බව අනාවැකි, නමුත් අන්තර්ෆෙරෝන් සංඥා කිරීමේ විශේෂාංග සයිටම් විතරක් ඔවුන් මෙම පොත්, AI-generated hypothesis සැබෑ වහල් පර්යේෂණ ශාලාව වෙත ගෙන, භෞතික අත්හදා බැලීම් සිදු, සහ proved it was correct. මෙය නව උදාහරණයකි.AI යනු එහි පුහුණු දත්ත තුළ පිළිතුරක් සොයා ගැනීමට පමණක් නොව, එය නව, අනාවැකි නොවන, සහ අවසානයේ මනුෂ් ය භාෂාව නිර්මාණය කිරීම සඳහා ජීව විද්යාත්මක භාෂාව සහ මානව භාෂාව දෙකම පිළිබඳ තේරුම් සකස් කර ඇත. ඒ කියන්නේ ආකෘති පද්ධතියයි.ඒ කියන්නේ ආකෘති පද්ධතියයි. සැබෑ ඉදිකිරුම්කරුවන් සඳහා මෙය අදහස් කරන්නේ කුමක්ද C2S-Scale පොත යනු මූල්ය, මූල්ය, ලෝජිස්ටික් සිට නිෂ්පාදන දක්වා ඕනෑම සංකීර්ණ, නොමිලේ ක්ෂේත්රයක දී ඉහළ බලපෑම සහිත AI පද්ධති ගොඩනැගීම සඳහා ක්ෂේත්ර මාර්ගෝපදේශයකි. ඔබගේ දත්ත පරිවර්තනය කිරීම ආරම්භ කරන්න. වැදගත්ම කාර්යය තවදුරටත් Custom Neural Network නිර්මාණය කිරීම නොවේ. එය ඔබේ විශේෂාංගය සඳහා Data-to-Sentence ප්රදර්ශනය සොයා ගැනීම සඳහා නිර්මාණශීලී, උපායමාර්ගික කාර්යය වේ. ඔබගේ සැපයුම් ජාලයේ භාෂාව කුමක්ද? ඔබේ මූල්ය දත්තයේ පාඩම කුමක්ද? Multimodality is a Requirement, Not a Feature.The real power was unlocked when they combined the cell sentences with the paper abstracts.Your AI systems should be trained not only on your structured data, but on the unstructured human knowledge that surrounds it—the maintenance logs, the support tickets, the strategy memos. අනාගතයේ වඩාත් වටිනා AI පද්ධති දැනටමත් දන්නා දේට පිළිතුරු දීමට නොහැකි වනු ඇත. Let's Build It: Data-to-Sentence උදාහරණයක් මේ සියල්ල අසාමාන්යයි, එබැවින් අපි එය සංකීර්ණ කරමු. මෙන්න "Data-to-Sentence" ව්යාපෘතිය පිළිබඳ සුපිරි සරල Python උදාහරණයක්, වෙනත් ඩොමේනයට අදාළ වේ: server log analysis. ඔබ ව්යුහගත ලැයිස්තුව දත්ත ඇති බව සිතා බලන්න.අපි එය Raw JSON ලෙස AI වෙත සපයන වෙනුවට, අපි එය "Log ප්රකාශයක්" බවට පරිවර්තනය කළ හැකිය. import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously. මෙම සරල ස්ක් රිප්ටරය මූලික ආකෘති ආකෘති ආකෘති ප්රදර්ශනය කරයි.Data-to-Sentence පරිවර්තනය ප්රධාන වේ. සංයුක්ත දත්ත සහ වඩාත් ශක්තිමත් AI ආකෘති මව් භාෂාවෙන් එය ප්රදර්ශනය, multimodal සාධක නව ලෝකය විවෘත කරයි. ඕනෑම