Một bài báo mới về mô hình tế bào với 27 tỷ tham số không chỉ liên quan đến sinh học. Đó là kỹ thuật dữ liệu và bản thiết kế cho tương lai của AI ứng dụng. Nhóm nghiên cứu đã xây dựng một mô hình 27B tham số đã tạo ra một khám phá khoa học.Một bài báo mới về mô hình tế bào với 27 tỷ tham số không chỉ liên quan đến sinh học. Đó là kỹ thuật dữ liệu và bản thiết kế cho tương lai của AI ứng dụng. Nhóm nghiên cứu đã xây dựng một mô hình 27B tham số đã tạo ra một khám phá khoa học.

Google & Yale Biến Sinh Học Thành Một Ngôn Ngữ Đây Là Lý Do Tại Sao Đó Là Một Game-Changer Cho Các Nhà Phát Triển

Một bài báo mới về mô hình tế bào với 27 tỷ tham số không chỉ là về sinh học. Đó là kỹ thuật dữ liệu và bản thiết kế cho tương lai của AI ứng dụng.

\ Nếu bạn là một kỹ sư AI, bạn cần dừng những gì đang làm và đọc bản in sơ bộ C2S-Scale mới từ sự hợp tác giữa Yale và Google.

\ Nhìn bề ngoài, nó trông giống như một bài báo về tin sinh học chuyên biệt. Nhưng thực tế, đây là một trong những tuyên ngôn kiến trúc quan trọng nhất về AI ứng dụng mà tôi đã thấy trong nhiều năm qua. Nhóm nghiên cứu đã xây dựng một mô hình 27 tỷ tham số không chỉ phân tích dữ liệu sinh học—mà còn tạo ra một khám phá khoa học mới được xác nhận trong phòng thí nghiệm về một liệu pháp điều trị ung thư tiềm năng.

\ Là một người xây dựng, tôi ít quan tâm đến loại thuốc cụ thể họ tìm thấy và bị ám ảnh nhiều hơn với cách họ tìm thấy nó. Phương pháp của họ là một sổ tay hướng dẫn mà mọi kiến trúc sư và kỹ sư AI cần phải hiểu.

Vấn đề cốt lõi: Các mô hình AI ghét bảng tính

Thách thức chính trong việc áp dụng LLM vào dữ liệu khoa học hoặc doanh nghiệp là các mô hình này được đào tạo trên ngôn ngữ, nhưng dữ liệu của chúng ta nằm trong bảng tính, cơ sở dữ liệu và các mảng đa chiều khổng lồ. Việc cố gắng để một LLM hiểu được ma trận biểu hiện gen scRNA-seq thô là một cơn ác mộng.

\ Trong nhiều năm, cách tiếp cận tiêu chuẩn là xây dựng các kiến trúc tùy chỉnh, đặc biệt cho khoa học - các AI cố gắng gắn thêm một số khả năng ngôn ngữ tự nhiên vào mô hình được thiết kế cho dữ liệu số. Điều này chậm, tốn kém, và bạn bỏ lỡ các quy luật mở rộng quy mô khổng lồ và những đổi mới nhanh chóng của hệ sinh thái LLM chính thống.

\ Cái nhìn sáng suốt tuyệt vời của nhóm C2S-Scale là đảo ngược vấn đề.

Bước đột phá về kiến trúc: Cell2Sentence

Sự thiên tài của khung Cell2Sentence (C2S) là sự đơn giản gần như phi lý của nó. Họ lấy hồ sơ biểu hiện gen số phức tạp của một tế bào đơn lẻ và chuyển đổi nó thành một chuỗi văn bản đơn giản.

\ Làm thế nào? Họ xếp hạng mọi gen trong tế bào theo mức độ biểu hiện của nó và sau đó chỉ viết ra tên của các gen hàng đầu-K theo thứ tự.

\ Trạng thái sinh học phức tạp của một tế bào, như: \n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}

\ Trở thành một câu tế bào đơn giản, dễ đọc: \n GeneB GeneC GeneA …

\ Đây là một hành động sâu sắc của kỹ thuật dữ liệu. Với một bước đi này, họ:

  1. Loại bỏ nhu cầu về kiến trúc tùy chỉnh: Họ có thể cung cấp ngôn ngữ sinh học này trực tiếp vào kiến trúc Transformer tiêu chuẩn, sẵn có như Gemma hoặc Llama. Họ được hưởng lợi từ làn sóng của toàn bộ cộng đồng nghiên cứu LLM miễn phí.
  2. Mở khóa đa phương thức: Kho ngữ liệu đào tạo của họ không chỉ là các câu tế bào. Họ có thể kết hợp các tóm tắt thực tế của các bài báo khoa học từ đó dữ liệu được lấy nguồn. Mô hình đã học cách tương quan ngôn ngữ của tế bào với ngôn ngữ của nhà khoa học trong một lần chạy đào tạo thống nhất.
  3. Kích hoạt mã hóa Vibe thực sự cho sinh học: Mô hình cuối cùng không chỉ phân loại mọi thứ. Nó có thể nhận một lời nhắc như, Tạo ra một tế bào T CD8+ tuyến tụy, và nó sẽ tạo ra một câu tế bào tổng hợp mới đại diện cho biểu hiện gen của một tế bào chưa từng tồn tại.

Phần thưởng: Công nghiệp hóa khám phá khoa học

Kiến trúc tuyệt vời này là điều đã cho phép ứng dụng đột phá của bài báo. Nhóm nghiên cứu đã chạy một màn hình ảo để tìm một loại thuốc có thể tăng cường khả năng hiển thị của tế bào ung thư đối với hệ thống miễn dịch.

\ Đây không phải là một truy vấn cơ sở dữ liệu đơn giản. Đó là một thí nghiệm in-silico. Mô hình dự đoán rằng một loại thuốc cụ thể, silmitasertib, sẽ có tác dụng này, nhưng chỉ trong bối cảnh cụ thể của tín hiệu interferon.

\ Họ đã đưa giả thuyết mới được tạo ra bởi AI này đến một phòng thí nghiệm thực tế, tiến hành các thí nghiệm vật lý, và chứng minh nó là chính xác.

\ Đây là mô hình mới. AI không chỉ tìm thấy câu trả lời trong dữ liệu đào tạo của nó. Nó tổng hợp hiểu biết của mình về cả ngôn ngữ sinh học và ngôn ngữ con người để tạo ra một mảnh kiến thức mới, không hiển nhiên, và cuối cùng là đúng. Đó là một hệ thống để công nghiệp hóa sự tình cờ.

Điều này có ý nghĩa gì đối với những người xây dựng

Bài báo C2S-Scale là một hướng dẫn thực địa về cách xây dựng các hệ thống AI tác động cao trong bất kỳ lĩnh vực phức tạp, phi văn bản nào, từ tài chính đến hậu cần đến sản xuất.

  1. Ngừng uốn cong mô hình. Bắt đầu dịch dữ liệu của bạn. Công việc quan trọng nhất không còn là thiết kế một mạng thần kinh tùy chỉnh. Đó là công việc sáng tạo, chiến lược để tìm ra biểu diễn Dữ liệu-thành-Câu cho lĩnh vực cụ thể của bạn. Ngôn ngữ của chuỗi cung ứng của bạn là gì? Ngữ pháp của dữ liệu tài chính của bạn là gì?
  2. Đa phương thức là một yêu cầu, không phải một tính năng. Sức mạnh thực sự được mở khóa khi họ kết hợp các câu tế bào với các tóm tắt bài báo. Các hệ thống AI của bạn nên được đào tạo không chỉ trên dữ liệu có cấu trúc của bạn, mà còn trên kiến thức con người không có cấu trúc xung quanh nó—nhật ký bảo trì, vé hỗ trợ, các bản ghi nhớ chiến lược.
  3. Mục tiêu là một máy tạo giả thuyết, không phải một máy trả lời. Các hệ thống AI có giá trị nhất trong tương lai sẽ không phải là những hệ thống có thể trả lời những gì đã biết. Chúng sẽ là những hệ thống có thể, giống như C2S-Scale, tạo ra các giả thuyết mới, có thể kiểm tra được mở rộng ranh giới của những gì có thể.

Hãy xây dựng nó: Một ví dụ về Dữ liệu-thành-Câu

Tất cả điều này nghe có vẻ trừu tượng, vì vậy hãy làm cho nó cụ thể. Đây là một ví dụ Python siêu đơn giản hóa về khái niệm "Dữ liệu-thành-Câu", áp dụng cho một lĩnh vực khác: phân tích nhật ký máy chủ.

\ Hãy tưởng tượng bạn có dữ liệu nhật ký có cấu trúc. Thay vì cung cấp nó cho một AI dưới dạng JSON thô, chúng ta có thể dịch nó thành một "câu nhật ký."

import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_prompt(log_sentence: str, human_context: str) -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_prompt(log_sentence, human_context) print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously.

Script đơn giản này minh họa mô hình kiến trúc cốt lõi. Sự chuyển đổi Dữ liệu-thành-Câu là chìa khóa. Nó cho phép chúng

Cơ hội thị trường
Logo WHY
Giá WHY(WHY)
$0,00000001529
$0,00000001529$0,00000001529
%0,00
USD
Biểu đồ giá WHY (WHY) theo thời gian thực
Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ service@support.mexc.com để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.