Новая статья о 27-миллиардной параметрической клеточной модели — это не только о биологии. Это инженерия данных и план будущего применения ИИ. Команда создала модель с 27 млрд параметров, которая совершила научное открытие.Новая статья о 27-миллиардной параметрической клеточной модели — это не только о биологии. Это инженерия данных и план будущего применения ИИ. Команда создала модель с 27 млрд параметров, которая совершила научное открытие.

Google и Yale превратили биологию в язык: почему это меняет правила игры для разработчиков

2025/11/22 23:00
6м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Новая статья о клеточной модели с 27 миллиардами параметров — это не просто о биологии. Это инженерия данных и план будущего прикладного ИИ.

\ Если вы инженер ИИ, вам нужно остановиться и прочитать новый препринт C2S-Scale, созданный в результате сотрудничества между Йельским университетом и Google.

\ На первый взгляд, это выглядит как узкоспециализированная статья по биоинформатике. На самом деле, это один из самых важных архитектурных манифестов для прикладного ИИ, которые я видел за последние годы. Команда создала модель с 27 миллиардами параметров, которая не просто анализировала биологические данные — она сделала новое, подтвержденное лабораторными исследованиями научное открытие о потенциальной терапии рака.

\ Как разработчик, я меньше интересуюсь конкретным лекарством, которое они нашли, и больше одержим тем, как они его нашли. Их методология — это руководство, которое должен понять каждый архитектор и инженер ИИ.

Основная проблема: модели ИИ ненавидят электронные таблицы

Центральная проблема применения LLM к научным или корпоративным данным заключается в том, что эти модели обучены на языке, но наши данные хранятся в электронных таблицах, базах данных и массивных многомерных массивах. Попытка заставить LLM понять необработанную матрицу экспрессии генов scRNA-seq — это кошмар.

\ Годами стандартным подходом было создание специальных, индивидуальных архитектур для науки — ИИ, которые пытаются добавить некоторые возможности естественного языка к модели, разработанной для числовых данных. Это медленно, дорого, и вы теряете преимущества массивных законов масштабирования и быстрых инноваций основной экосистемы LLM.

\ Блестящее понимание команды C2S-Scale заключалось в том, чтобы перевернуть проблему с ног на голову.

Архитектурный шедевр: Cell2Sentence

Гениальность фреймворка Cell2Sentence (C2S) заключается в его почти абсурдной простоте. Они берут сложный, числовой профиль экспрессии генов отдельной клетки и преобразуют его в простую строку текста.

\ Как? Они ранжируют каждый ген в клетке по уровню его экспрессии, а затем просто выписывают имена топ-K генов по порядку.

\ Сложное биологическое состояние клетки, например: \n {'GeneA': 0.1, 'GeneB': 0.9, 'GeneC': 0.4, …}

\ Становится простым, понятным для человека предложением о клетке: \n GeneB GeneC GeneA …

\ Это глубокий акт инженерии данных. Одним этим ходом они:

  1. Устранили необходимость в специальных архитектурах: Теперь они могут подавать этот биологический язык непосредственно в стандартную, готовую архитектуру Transformer, такую как Gemma или Llama. Они могут бесплатно использовать волну всего исследовательского сообщества LLM.
  2. Разблокировали мультимодальность: Их обучающий корпус состоял не только из клеточных предложений. Теперь они могли смешивать фактические аннотации научных статей, из которых были получены данные. Модель научилась соотносить язык клетки с языком ученого в едином, унифицированном обучающем запуске.
  3. Обеспечили настоящее вайб-кодирование для биологии: Финальная модель не просто классифицирует вещи. Она может принять запрос вроде Создай поджелудочную CD8+ T-клетку, и она сгенерирует новое, синтетическое клеточное предложение, представляющее экспрессию генов клетки, которой никогда не существовало.

Результат: индустриализация научных открытий

Эта блестящая архитектура позволила создать киллер-приложение статьи. Команда провела виртуальный скрининг, чтобы найти препарат, который мог бы повысить видимость раковой клетки для иммунной системы.

\ Это был не просто запрос к базе данных. Это был эксперимент in-silico. Модель предсказала, что конкретный препарат, силмитасертиб, будет иметь этот эффект, но только в конкретном контексте интерферонового сигналинга.

\ Они взяли эту новую, сгенерированную ИИ гипотезу в реальную лабораторию, провели физические эксперименты и доказали, что она верна.

\ Это новая парадигма. ИИ не просто нашел ответ в своих обучающих данных. Он синтезировал свое понимание как биологического, так и человеческого языка, чтобы создать новый, неочевидный и в конечном итоге истинный фрагмент знания. Это система для индустриализации случайных открытий.

Что это значит для разработчиков

Статья C2S-Scale — это полевое руководство по созданию высокоэффективных систем ИИ в любой сложной, нетекстовой области, от финансов до логистики и производства.

  1. Перестаньте изгибать модель. Начните переводить свои данные. Самая важная работа больше не заключается в разработке специальной нейронной сети. Она заключается в творческой, стратегической работе по поиску представления данных в виде предложений для вашей конкретной области. Каков язык вашей цепочки поставок? Какова грамматика ваших финансовых данных?
  2. Мультимодальность — это требование, а не функция. Реальная мощь была раскрыта, когда они объединили клеточные предложения с аннотациями статей. Ваши системы ИИ должны обучаться не только на ваших структурированных данных, но и на неструктурированных человеческих знаниях, которые их окружают — журналах обслуживания, тикетах поддержки, стратегических записках.
  3. Цель — генератор гипотез, а не машина ответов. Самые ценные системы ИИ будущего будут не те, которые могут ответить на уже известное. Это будут те, которые, как C2S-Scale, могут генерировать новые, проверяемые гипотезы, расширяющие границы возможного.

Давайте построим это: пример преобразования данных в предложения

Все это звучит абстрактно, поэтому давайте сделаем это конкретным. Вот сверхупрощенный пример на Python концепции "Данные-в-Предложение", применяемой к другой области: анализу серверных логов.

\ Представьте, что у вас есть структурированные данные логов. Вместо того, чтобы подавать их в ИИ как необработанный JSON, мы можем перевести их в "предложение лога".

import json def server_log_to_sentence(log_entry: dict) -> str: """ Translates a structured server log dictionary into a human-readable "log sentence". The "grammar" of our sentence is a fixed order of importance: status -> method -> path -> latency -> user_agent """ # Define the order of importance for our "grammar" grammar_order = ['status', 'method', 'path', 'latency_ms', 'user_agent'] sentence_parts = [] for key in grammar_order: value = log_entry.get(key) if value is not None: # We don't just append the value; we give it a semantic prefix # This helps the LLM understand the meaning of each part. sentence_parts.append(f"{key.upper()}_{value}") return " ".join(sentence_parts) def create_multimodal_ -> str: """ Combines the machine-generated "log sentence" with human-provided context to create a rich, multimodal prompt for an LLM. """ prompt = f""" Analyze the following server request. **Human Context:** "{human_context}" **Log Sentence:** "{log_sentence}" Based on both the human context and the log sentence, what is the likely user intent and should we be concerned? """ return prompt # --- Main Execution --- if __name__ == "__main__": # 1. Our raw, structured data (e.g., from a database or log file) raw_log = { "timestamp": "2025-10-26T10:00:05Z", "method": "GET", "path": "/api/v1/user/settings", "status": 403, "latency_ms": 150, "user_agent": "Python-requests/2.25.1" } # 2. Translate the data into the new "language" log_sentence = server_log_to_sentence(raw_log) print("--- Original Structured Data ---") print(json.dumps(raw_log, indent=2)) print("\n--- Translated 'Log Sentence' ---") print(log_sentence) # 3. Combine with human context for a multimodal prompt human_context = "We've been seeing a series of failed API calls from a script, not a browser." final_prompt = create_multimodal_ print("\n--- Final Multimodal Prompt for LLM ---") print(final_prompt) # Now, this final_prompt can be sent to any standard LLM for deep analysis. # The LLM can now reason about both the structured log data (as a sentence) # and the unstructured human observation, simultaneously.

Этот простой скрипт демонстрирует основной архитектурный паттерн. Преобразование данных в предложения — это ключ. Оно позволяет нам взять любые структурированные данные и представить их на родном языке самых мощных моделей ИИ, открывая новый мир мультимодальных рассуждений.

Возможности рынка
Логотип SQUID MEME
SQUID MEME Курс (GAME)
$33.2574
$33.2574$33.2574
-0.27%
USD
График цены SQUID MEME (GAME) в реальном времени

Комбо Кубка мира: Цель на 200x

Комбо Кубка мира: Цель на 200xКомбо Кубка мира: Цель на 200x

До 20 комбо в матчах Кубка мира за 1 ордер

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Джим Крамер заявляет, что пришло время купить одну стремительно растущую акцию космического сектора

Джим Крамер заявляет, что пришло время купить одну стремительно растущую акцию космического сектора

Прогноз выручки AST SpaceMobile на полный 2026 год подтвержден на уровне от 150 млн $ до 200 млн $, что обусловлено в первую очередь партнерами по мобильным сетям и правительством США.
Поделиться
Thestreet2026/07/05 04:00
Newsmax признает провал выставки Трампа, поскольку экспозиции закрыты: «Они что, просто душные коробки?»

Newsmax признает провал выставки Трампа, поскольку экспозиции закрыты: «Они что, просто душные коробки?»

По мере того как аномальная жара продолжает потрясать Большую американскую государственную ярмарку президента Дональда Трампа в Вашингтоне, округ Колумбия, несколько павильонов штатов на этом мероприятии были вынуждены
Поделиться
Rawstory2026/07/05 05:20
Трамп заработал 636 млн $ на токене TRUMP, инвесторы столкнулись с убытками в размере 3,8 млрд $, свидетельствуют данные Nansen

Трамп заработал 636 млн $ на токене TRUMP, инвесторы столкнулись с убытками в размере 3,8 млрд $, свидетельствуют данные Nansen

🚨 Nansen раскрыла, что Трамп заработал 636 млн $ на $TRUMP, а инвесторы потеряли 3,8 млрд $. 💸 Более 65% кошельков, купивших $TRUMP, находятся в убытке.
Поделиться
COINTURK EN2026/07/05 05:57

5 млн $ в позициях SPCX

5 млн $ в позициях SPCX5 млн $ в позициях SPCX

0 комиссия, плечо 100x, ежедн. призы, 7K+ акций/ETF