\ Якщо ви ШІ-інженер, вам потрібно зупинитися і прочитати новий препринт C2S-Scale, створений у співпраці між Єльським університетом і Google.
\ На перший погляд, це виглядає як вузькоспеціалізована стаття з біоінформатики. Насправді, це один із найважливіших архітектурних маніфестів для прикладного ШІ, які я бачив за останні роки. Команда створила модель з 27 мільярдами параметрів, яка не просто аналізувала біологічні дані — вона зробила нове, підтверджене в лабораторії наукове відкриття щодо потенційної терапії раку.
\ Як розробник, я менше зацікавлений у конкретному препараті, який вони знайшли, і більше захоплений тим, як вони його знайшли. Їхня методологія — це посібник, який повинен зрозуміти кожен архітектор і інженер ШІ.
Центральна проблема застосування LLM до наукових чи корпоративних даних полягає в тому, що ці моделі навчаються на мові, але наші дані зберігаються в електронних таблицях, базах даних і масивних багатовимірних масивах. Спроба змусити LLM зрозуміти необроблену матрицю експресії генів scRNA-seq — це кошмар.
\ Протягом років стандартним підходом було створення спеціальних, індивідуальних архітектур для науки — ШІ, які намагаються додати деякі можливості природної мови до моделі, розробленої для числових даних. Це повільно, дорого, і ви втрачаєте переваги масштабних законів і швидких інновацій основної екосистеми LLM.
\ Блискуче розуміння команди C2S-Scale полягало в тому, щоб перевернути проблему з ніг на голову.
Геніальність фреймворку Cell2Sentence (C2S) полягає в його майже абсурдній простоті. Вони беруть складний, числовий профіль експресії генів однієї клітини і перетворюють його на простий рядок тексту.
\ Як? Вони ранжують кожен ген у клітині за рівнем його експресії, а потім просто виписують імена топ-K генів у порядку.
\ Складний біологічний стан клітини, наприклад: \n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}
\ Стає простим, зрозумілим для людини реченням про клітину: \n GeneB GeneC GeneA …
\ Це глибокий акт інженерії даних. Цим одним кроком вони:
Ця блискуча архітектура уможливила головну перевагу статті. Команда провела віртуальний скринінг, щоб знайти препарат, який міг би підвищити видимість ракової клітини для імунної системи.
\ Це не був простий запит до бази даних. Це був експеримент in-silico. Модель передбачила, що конкретний препарат, сілмітасертіб, матиме такий ефект, але лише в конкретному контексті інтерферонової сигналізації.
\ Вони взяли цю нову, згенеровану ШІ гіпотезу до реальної лабораторії, провели фізичні експерименти і довели, що вона правильна.
\ Це нова парадигма. ШІ не просто знайшов відповідь у своїх навчальних даних. Він синтезував своє розуміння як біологічної, так і людської мови, щоб створити новий, неочевидний і, зрештою, істинний фрагмент знань. Це система для індустріалізації випадкових відкриттів.
Стаття C2S-Scale — це польовий посібник з того, як будувати високоефективні системи ШІ в будь-якій складній, нетекстовій галузі, від фінансів до логістики та виробництва.
Все це звучить абстрактно, тому давайте зробимо це конкретним. Ось надспрощений приклад на Python концепції "Дані-в-Речення", застосований до іншої галузі: аналізу серверних логів.
\ Уявіть, що у вас є структуровані дані логів. Замість того, щоб подавати їх в ШІ як необроблений JSON, ми можемо перекласти їх у "речення логу".
import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously.
Цей простий скрипт демонструє основний архітектурний патерн. Трансформація "Дані-в-Речення" є ключовою. Вона дозволяє нам взяти будь-які структуровані дані і представити їх рідною мовою найпотужніших моделей ШІ, відкриваючи новий світ мультимодальних міркувань.

