\ Nếu bạn là một kỹ sư AI, bạn cần dừng những gì đang làm và đọc bản in sơ bộ C2S-Scale mới từ sự hợp tác giữa Yale và Google.
\ Nhìn bề ngoài, nó trông giống như một bài báo về tin sinh học chuyên biệt. Nhưng thực tế, đây là một trong những tuyên ngôn kiến trúc quan trọng nhất về AI ứng dụng mà tôi đã thấy trong nhiều năm qua. Nhóm nghiên cứu đã xây dựng một mô hình 27 tỷ tham số không chỉ phân tích dữ liệu sinh học—mà còn tạo ra một khám phá khoa học mới được xác nhận trong phòng thí nghiệm về một liệu pháp điều trị ung thư tiềm năng.
\ Là một người xây dựng, tôi ít quan tâm đến loại thuốc cụ thể họ tìm thấy và bị ám ảnh nhiều hơn với cách họ tìm thấy nó. Phương pháp của họ là một sổ tay hướng dẫn mà mọi kiến trúc sư và kỹ sư AI cần phải hiểu.
Thách thức chính trong việc áp dụng LLM vào dữ liệu khoa học hoặc doanh nghiệp là các mô hình này được đào tạo trên ngôn ngữ, nhưng dữ liệu của chúng ta nằm trong bảng tính, cơ sở dữ liệu và các mảng đa chiều khổng lồ. Việc cố gắng để một LLM hiểu được ma trận biểu hiện gen scRNA-seq thô là một cơn ác mộng.
\ Trong nhiều năm, cách tiếp cận tiêu chuẩn là xây dựng các kiến trúc tùy chỉnh, đặc biệt cho khoa học - các AI cố gắng gắn thêm một số khả năng ngôn ngữ tự nhiên vào mô hình được thiết kế cho dữ liệu số. Điều này chậm, tốn kém, và bạn bỏ lỡ các quy luật mở rộng quy mô khổng lồ và những đổi mới nhanh chóng của hệ sinh thái LLM chính thống.
\ Cái nhìn sáng suốt tuyệt vời của nhóm C2S-Scale là đảo ngược vấn đề.
Sự thiên tài của khung Cell2Sentence (C2S) là sự đơn giản gần như phi lý của nó. Họ lấy hồ sơ biểu hiện gen số phức tạp của một tế bào đơn lẻ và chuyển đổi nó thành một chuỗi văn bản đơn giản.
\ Làm thế nào? Họ xếp hạng mọi gen trong tế bào theo mức độ biểu hiện của nó và sau đó chỉ viết ra tên của các gen hàng đầu-K theo thứ tự.
\ Trạng thái sinh học phức tạp của một tế bào, như: \n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}
\ Trở thành một câu tế bào đơn giản, dễ đọc: \n GeneB GeneC GeneA …
\ Đây là một hành động sâu sắc của kỹ thuật dữ liệu. Với một bước đi này, họ:
Kiến trúc tuyệt vời này là điều đã cho phép ứng dụng đột phá của bài báo. Nhóm nghiên cứu đã chạy một màn hình ảo để tìm một loại thuốc có thể tăng cường khả năng hiển thị của tế bào ung thư đối với hệ thống miễn dịch.
\ Đây không phải là một truy vấn cơ sở dữ liệu đơn giản. Đó là một thí nghiệm in-silico. Mô hình dự đoán rằng một loại thuốc cụ thể, silmitasertib, sẽ có tác dụng này, nhưng chỉ trong bối cảnh cụ thể của tín hiệu interferon.
\ Họ đã đưa giả thuyết mới được tạo ra bởi AI này đến một phòng thí nghiệm thực tế, tiến hành các thí nghiệm vật lý, và chứng minh nó là chính xác.
\ Đây là mô hình mới. AI không chỉ tìm thấy câu trả lời trong dữ liệu đào tạo của nó. Nó tổng hợp hiểu biết của mình về cả ngôn ngữ sinh học và ngôn ngữ con người để tạo ra một mảnh kiến thức mới, không hiển nhiên, và cuối cùng là đúng. Đó là một hệ thống để công nghiệp hóa sự tình cờ.
Bài báo C2S-Scale là một hướng dẫn thực địa về cách xây dựng các hệ thống AI tác động cao trong bất kỳ lĩnh vực phức tạp, phi văn bản nào, từ tài chính đến hậu cần đến sản xuất.
Tất cả điều này nghe có vẻ trừu tượng, vì vậy hãy làm cho nó cụ thể. Đây là một ví dụ Python siêu đơn giản hóa về khái niệm "Dữ liệu-thành-Câu", áp dụng cho một lĩnh vực khác: phân tích nhật ký máy chủ.
\ Hãy tưởng tượng bạn có dữ liệu nhật ký có cấu trúc. Thay vì cung cấp nó cho một AI dưới dạng JSON thô, chúng ta có thể dịch nó thành một "câu nhật ký."
import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously.
Script đơn giản này minh họa mô hình kiến trúc cốt lõi. Sự chuyển đổi Dữ liệu-thành-Câu là chìa khóa. Nó cho phép chúng


