Я собрал команду из 9 ИИ-агентов, которая проектирует, пишет, тестирует и деплоит других ИИ-агентов. Полный цикл — от пользовательского запроса до production-reЯ собрал команду из 9 ИИ-агентов, которая проектирует, пишет, тестирует и деплоит других ИИ-агентов. Полный цикл — от пользовательского запроса до production-re

9 агентов, 6 моделей, 1 сервер: как собрать ИИ-компанию на open-source в марте 2026

2026/03/13 02:03
16м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Я собрал команду из 9 ИИ-агентов, которая проектирует, пишет, тестирует и деплоит других ИИ-агентов. Полный цикл — от пользовательского запроса до production-ready кода с тестами и security review. Без людей в цикле.

Ниже — конкретика: какие модели, на какие роли, почему именно эти, как они шарят GPU, сколько стоят в гигабайтах и какие бенчмарки реально определяют выбор. С конфигурациями развёртывания от одной RTX 4090 до кластера A100.

TL;DR: 9 логических агентов = 3-4 физических модели. Минимальный сетап — 24 GB VRAM (одна RTX 4090). Полный продакшен — 211 GB (четыре A100). Интерактивный дашборд для визуализации всей системы.


Зачем 9 агентов вместо одного GPT-5

Первый вопрос, который задают: зачем 9 моделей, когда можно одну большую?

Ответ в бенчмарках. У каждой модели есть суперсила — и слабое место:

Модель

Active

Суперсила

Score

Слабость

Kimi K2.5

32B

Кодогенерация (HumanEval)

99.0

Тяжёлая (1T total, ~125 GB), SWE-bench только 76.8

MiniMax M2.5

10B

Real-world баги (SWE-bench)

80.2

Нет данных по reasoning и instruction following

Qwen3.5-397B

17B

Reasoning + инструкции (GPQA / IFEval)

88.4 / 92.6

SWE-bench 76.4 — хорош, но не лучший кодер

DeepSeek V3.2

37B

Универсал (MMLU-Pro + LiveCodeBench + Aider)

85.0 / 83.3 / 74.2

Нет лидерства ни в одном бенчмарке — но топ-5 везде

GLM-4.7

32B

Tool use (tau-bench)

87.4

Заточена под оценку, а не генерацию кода

Qwen2.5-Coder-32B

32B

Локальный кодинг (HumanEval + Aider)

92.7 / 73.7

Dense-модель — нет MoE-экономии, только код

Devstral Small 2

24B

Agenting в реальных кодовых базах

SWE 68.0

24B — слабее на abstract reasoning

Ни одна модель не покрывает всё. Kimi K2.5 — бог HumanEval, но весит 125 GB и посредственно чинит реальные баги. Qwen3.5-397B — лучший reasoning, но не лучший кодер. GLM-4.7 — единственная модель с по-настоящему хорошим tool use — и она вообще не про кодогенерацию. DeepSeek V3.2 — везде в топ-5, но нигде не первый.

Не бывает «лучшей модели». Бывает лучшая модель для конкретной роли. Классическая софтверная команда — это специализация: аналитик не пишет код, тестировщик не проектирует архитектуру. С LLM — то же самое.


Архитектура: от запроса до деплоя

Вот как устроен пайплайн. Пользователь говорит: «Сделай мне агента поддержки, который интегрируется с Jira», и дальше:

User Request │ ▼ [1. Оркестратор] ─── декомпозиция задачи, маршрутизация │ ├──► [2. Аналитик] ─── ARD (Agent Requirement Document) │ │ │ ▼ ├──► [3. Исследователь] ─── Context Package (API, доки, паттерны) │ │ │ ▼ ├──► [4. Архитектор] ─── TDD (Technical Design Document) │ │ │ ▼ ├──► [5. Промпт-инженер] ─── Prompt Package (системный промпт, guardrails, tool configs) │ │ │ ▼ ├──► [6. Билдер] ─── код агента + конфигурации │ │ │ ▼ │ [7. Тестировщик] ─── тесты провалены? │ │ │ │ │ да │ нет │ ▼ ▼ │ [6. Билдер] [8. Критик] ─── «это хорошо сделано?» │ (fix & retry) │ │ ▼ └──────────────► [9. Безопасник] ─── Security Audit │ ▼ Production-ready Agent

Каждый агент коммуницирует через структурированные артефакты (ARD, TDD, Prompt Package), а не через свободный текст. Это критично: передача контекста через free-form текст между агентами — это «испорченный телефон» в квадрате. Артефакты со строгой схемой решают эту проблему.

Два обязательных feedback loop:

  • Builder ↔ Tester: код не считается готовым, пока тесты не пройдены

  • Builder ↔ Critic: тесты могут пройти, но код при этом может быть плохим


9 ролей: детальный маппинг модель → задача

Теперь — самое интересное. Для каждой роли я выбрал модель по принципу: какой бенчмарк критичен для этой роли, и кто в нём лидер.

1. Оркестратор — Qwen3.5-397B (17B active)

Мозг системы. Принимает запрос, декомпозирует на подзадачи, маршрутизирует между агентами, собирает результат.

Критические бенчмарки: GPQA (глубокое рассуждение) и IFEval (точность следования инструкциям).

Почему Qwen3.5-397B: лучший GPQA 88.4% среди всех open-source + лучший IFEval 92.6%. Оркестратор должен точно понимать, что хочет пользователь, и умно решать, кому делегировать. Любая ошибка оркестратора ломает весь пайплайн по цепочке.

397 миллиардов параметров, но благодаря MoE активны только 17B на каждый токен. ~50 GB VRAM в INT4.

Бюджет: QwQ-32B (16 GB) — сильный reasoning при 32B dense.

2. Аналитик требований — Qwen3-8B

Превращает расплывчатый запрос пользователя в структурированный ARD.

Для этой роли не нужен deep reasoning или кодогенерация — нужно хорошо понимать intent и формировать structured output. Qwen3-8B с его thinking/non-thinking mode — оптимальный баланс: достаточно умный для анализа требований, достаточно лёгкий (4 GB), чтобы не отъедать GPU у более требовательных ролей.

3. Исследователь — Qwen3.5-397B (shared с Оркестратором)

Собирает контекст до проектирования: существующие решения, API-документация, reference implementations.

Шарит инстанс с Оркестратором — они никогда не работают одновременно. Оркестратор делегирует и ждёт, пока Исследователь закончит. Ноль дополнительных GPU.

Альтернатива, когда нужен огромный контекст: Llama 4 Scout с окном 10M токенов.

4. Архитектор — DeepSeek V3.2 (37B active, 685B total)

Проектирует систему: компоненты, API, data flow, error handling, выбор фреймворка.

Критические бенчмарки: нужен одновременно и хороший reasoning, и понимание кода.

Почему V3.2: MMLU-Pro 85.0 (широкая эрудиция) + SWE-bench 73.1% (понимает реальные кодовые базы) + LiveCodeBench 83.3. Это единственная модель в топ-5 одновременно по reasoning И coding бенчмаркам. ~85 GB в INT4.

Бюджет: DeepSeek-R1-Distill-Qwen-32B (16 GB) — MATH-500 94.3, CodeForces 1691.

5. Промпт-инженер — Qwen3.5-397B (shared с Оркестратором)

Создаёт системные промпты, guardrails, few-shot examples, tool configurations.

Логика выбора: модель с лучшим IFEval (92.6%) лучше всех понимает, что делает инструкции эффективными. Она знает, как LLM реагируют на формулировки — потому что сама лучше всех им следует. Шарит инстанс с Оркестратором.

6. Билдер — Qwen2.5-Coder-32B (dense)

Пишет код. Много кода. Быстро.

Специализированная coding-модель. HumanEval 92.7% (уровень GPT-4o), Aider 73.7 (polyglot — работает с разными языками и фреймворками). Dense-модель — предсказуемое качество, нет MoE-джиттера.

При INT4 — всего 16 GB. Влезает на одну consumer-карточку.

Бюджет: Qwen2.5-Coder-7B (4 GB) — HumanEval 88.4, бьёт CodeStral-22B.
Перспектива: Qwen3-Coder-Next (3B active, 80B total) — SWE-bench 70.6% при 10 GB.

7. Тестировщик — Devstral Small 2 (24B dense)

Генерирует тесты, ищет edge cases, валидирует acceptance criteria из ARD.

Ключевое: SWE-bench 68.0%. Эта модель обучена на real-world software engineering задачах. Она понимает не изолированные функции, а целые кодовые базы — контексты, зависимости, интеграции. 12 GB в INT4.

Бюджет: Falcon H1R-7B (4 GB) — AIME 83.1% reasoning при 7B. Маленькая, но думает как большая.

8. Критик — GLM-4.7 (32B active, 355B total)

Оценивает результат не по принципу «тесты прошли», а «это хорошо сделано»: качество кода, ясность промптов, надёжность guardrails, соответствие архитектуре.

Критический бенчмарк: tau-bench — оценка качества tool use в реальных сценариях. GLM-4.7: 87.4% — лучший показатель среди всех open-source моделей. Критик должен понимать, как агенты используют инструменты, и оценивать качество этого использования.

44 GB в INT4.

Бюджет: Ministral 14B Reasoning (7 GB) — AIME ~85%, GPQA 71.2.

9. Безопасник — DeepSeek V3.2 (shared с Архитектором)

Prompt injection, утечки данных, избыточные permissions, API key management, adversarial тестирование.

Шарит инстанс с Архитектором — они работают в разных фазах пайплайна (Архитектор до кода, Безопасник после). Широкая база знаний (MMLU-Pro 85.0) + понимание кода = adversarial thinking.

Бюджет: DeepSeek-R1-Qwen3-8B (4 GB) — AIME 87.5% reasoning. Adversarial thinking за 4 гигабайта.


Шаринг инстансов: 9 агентов ≠ 9 GPU

Это, пожалуй, главный архитектурный трюк. Агенты работают последовательно в пайплайне: пока Билдер пишет код, Оркестратор ждёт. Пока Тестировщик проверяет — Билдер свободен.

Модели, которые никогда не работают одновременно, разделяют один инстанс:

Shared-инстанс

Роли

Почему вместе

VRAM

Qwen3.5-397B

Оркестратор, Аналитик, Исследователь, Промпт-инженер

Последовательный пайплайн — оркестратор делегирует и ждёт

50 GB

DeepSeek V3.2

Архитектор, Безопасник

Архитектор работает до кода, Безопасник — после

85 GB

Qwen2.5-Coder-32B

Билдер, запасной Тестировщик

Билдер заканчивает до начала тестирования

16 GB

GLM-4.7

Критик

Единственная модель с хорошим tau-bench

44 GB

Devstral Small 2

Тестировщик

Специализация на реальных кодовых базах

12 GB

Итого: 9 логических агентов → 5 физических инстансов → 207 GB VRAM.

Для бюджетного варианта (3 модели, 5 агентов) — 24 GB. Одна RTX 4090.


Бенчмарки, которые реально определяют выбор

Забудьте про MMLU и HellaSwag — они давно упёрлись в потолок, лидерборды стоят на месте. В 2026 году для агентных систем критичны совсем другие метрики:

Бенчмарк

Что измеряет

Для каких ролей

Почему важен

SWE-bench Verified

Починка реальных багов в реальных GitHub-репозиториях

Builder, Tester, Architect

Единственный бенчмарк, где модель работает с реальным кодом, а не toy-примерами

IFEval

Точность следования сложным инструкциям

Orchestrator, Prompt Engineer

Оркестратор живёт на инструкциях. IFEval < 90% = агент не понимает, что от него хотят

GPQA Diamond

Graduate-level reasoning (физика, химия, биология)

Orchestrator, Architect

Показатель глубины рассуждений. Если модель решает задачи PhD-уровня, она справится с декомпозицией

tau-bench

Качество tool use в реальных (не синтетических) сценариях

Critic, любой агент с tools

Единственный бенчмарк, тестирующий реальное использование инструментов, а не только парсинг JSON

Aider Polyglot

Кодогенерация на разных языках с реальным edit-test циклом

Builder

Измеряет способность модифицировать существующий код, а не писать с нуля

LiveCodeBench

Competitive programming (свежие задачи, без утечки в training data)

Architect, Builder

Чистый тест на reasoning + код, исключает memorization

BFCL v4

Function calling accuracy

Любой агент с API-интеграциями

Стандартный бенчмарк для вызова функций. Лучший open-source: Qwen3.5-122B-A10B (72.2%)

Источники: SWE-bench Verified, LiveBench, Berkeley Function Calling Leaderboard V4, Aider LLM Leaderboards, LMSYS Arena.


MoE: почему frontier-качество стало доступным

Mixture-of-Experts — главное архитектурное изменение, сделавшее этот проект возможным. Объясню на конкретных числах:

Модель

Всего параметров

Активных за токен

Качество

VRAM (INT4)

Qwen3.5-397B

397B

17B

≈ Claude 3.5 Sonnet

50 GB

MiniMax M2.5

230B

10B

SWE-bench 80.2% (лучший open-source)

29 GB

Qwen3-Coder-Next

80B

3B

SWE-bench 70.6%

10 GB

DeepSeek V3.2

685B

37B

MMLU-Pro 85.0, LiveCodeBench 83.3

85 GB

Как это работает: Все 397B параметров загружены в VRAM, но на каждый токен работает маленькая часть — 17B. Это как офис на 400 человек, где над каждой задачей работают 17, но каждый раз — другие 17 специалистов.

Для VRAM это значит: вы платите за хранение всех параметров (VRAM = total params). Но при вычислениях платите за инференс только активных (скорость ≈ dense-модель размера active params).

Для агентной фабрики, где агенты работают последовательно, MoE идеален:

  • VRAM заняты, но один инстанс обслуживает 4 роли

  • Compute на токен — как у 17B-модели, а не 397B

  • Качество — frontier-уровня

Именно MoE позволяет запустить 9 агентов frontier-качества на нескольких GPU.


Open-source vs. API: три технических аргумента

1. Token overhead

Один пользовательский запрос → 20-30x overhead на внутреннюю коммуникацию между агентами. Оркестратор генерирует task description, Аналитик — ARD, Исследователь — Context Package, Архитектор — TDD, и так далее. Каждый артефакт — это сотни и тысячи токенов.

При API-ценах (допустим, $3/M input + $15/M output для frontier-модели) один сложный запрос обходится в $0.50-2.00. При 1000 запросах в день — $500-2000/день. На своём железе — фиксированная стоимость GPU.

2. Latency

Оркестратор на критическом пути каждого запроса. Каждый вызов API — сетевой roundtrip (50-200ms сверху). При 5-10 внутренних вызовах на запрос (Оркестратор → Аналитик → Исследователь → Архитектор → ...) сетевые задержки складываются в 0.5-2 секунды только на накладные расходы. На локальном железе — коммуникация между моделями через UNIX socket или shared memory.

3. Паритет качества

В марте 2026 китайские лабы выпустили open-source модели, которые бьют GPT-4o по большинству бенчмарков:

Метрика

Лучший open-source

Лучший проприетарный

Разрыв

SWE-bench

MiniMax M2.5 80.2%

Claude Opus 4.5 80.9%

0.7%

HumanEval

Kimi K2.5 99.0%

GPT-5.2 98.5%

OS лидирует

GPQA Diamond

Qwen3.5-397B 88.4%

Gemini-3-Pro 89.1%

0.7%

AIME 2025

Kimi K2.5 96.1%

Claude Opus 4.5 97.0%

0.9%

Все модели — MIT или Apache 2.0 лицензия. Qwen (Alibaba), DeepSeek, GLM (Zhipu), Kimi (Moonshot), MiniMax. Зависимость от проприетарных API больше не оправдана разницей в качестве.


Развёртывание: от домашнего GPU до продакшена

Конфигурация A: MVP на одной карточке (1x RTX 4090 / A100)

5 агентов, 3 модели, 24 GB VRAM:

┌─────────────────────────────────────────────────────┐ │ 1x GPU (80 GB) │ │ │ │ ┌────────────────────────┐ VRAM: 16 GB (INT4) │ │ │ QwQ-32B │ Роли: Оркестратор, │ │ │ (32B dense) │ Аналитик, Архитектор │ │ │ │ (shared) │ │ └────────────────────────┘ │ │ │ │ ┌────────────────────────┐ VRAM: 4 GB (INT4) │ │ │ Qwen2.5-Coder-7B │ Роль: Билдер │ │ └────────────────────────┘ │ │ │ │ ┌────────────────────────┐ VRAM: 4 GB (INT4) │ │ │ Falcon H1R-7B │ Роль: Тестировщик │ │ └────────────────────────┘ │ │ │ │ Свободно: ~56 GB (KV cache + headroom) │ └─────────────────────────────────────────────────────┘

Да, 24 гигабайта. RTX 4090. Пять агентов, которые принимают запрос, проектируют, пишут код, тестируют и отдают результат. На видеокарте из игрового компьютера.

Конфигурация B: Quality Team (2x A100 80GB)

7 агентов, 4 модели, 73 GB VRAM:

┌──────────────────────────┐ ┌──────────────────────────┐ │ GPU 1 (80 GB) │ │ GPU 2 (80 GB) │ │ │ │ │ │ Qwen3.5-397B (~50 GB) │ │ Qwen2.5-Coder-32B │ │ → Оркестратор │ │ (16 GB) │ │ → Аналитик │ │ → Билдер │ │ → Промпт-инженер │ │ → Тестировщик (shared) │ │ → Исследователь │ │ → Безопасник (shared) │ │ │ │ │ │ Ministral 14B (~7 GB) │ │ Свободно: ~64 GB │ │ → Критик │ │ │ └──────────────────────────┘ └──────────────────────────┘

Появляется frontier-качество Оркестратора (Qwen3.5-397B вместо QwQ-32B), отдельный Критик и Промпт-инженер.

Конфигурация C: Full Production (4x A100 80GB)

9 агентов, 6 моделей, все «best picks», 211 GB VRAM:

┌──────────────────┐ ┌──────────────────┐ ┌──────────────────┐ ┌──────────────────┐ │ GPU 1 (80GB) │ │ GPU 2 (80GB) │ │ GPU 3 (80GB) │ │ GPU 4 (80GB) │ │ │ │ │ │ │ │ │ │ Qwen3.5-397B │ │ DeepSeek V3.2 │ │ Qwen2.5-Coder │ │ GLM-4.7 │ │ ~50 GB │ │ ~85 GB │ │ -32B ~16 GB │ │ ~44 GB │ │ │ │ │ │ │ │ │ │ Оркестратор │ │ Архитектор │ │ Билдер │ │ Критик │ │ Аналитик │ │ Безопасник │ │ │ │ │ │ Исследователь │ │ │ │ Devstral 24B │ │ Falcon H1R-7B │ │ Промпт-инженер │ │ │ │ ~12 GB │ │ ~4 GB │ │ │ │ │ │ │ │ │ │ │ │ │ │ Тестировщик │ │ Router/Eval │ └──────────────────┘ └──────────────────┘ └──────────────────┘ └──────────────────┘

Каждая роль получает оптимальную модель. Все feedback loops работают с лучшими пиками.


Квантизация: что, чем и зачем

A100 не поддерживает FP8 нативно (в отличие от H100/B200), поэтому INT4 — основной формат.

Роль

Метод

Ядро

Качество vs FP16

Почему

Оркестратор, Критик

AWQ INT4

Marlin

~95%

Quality-critical роли. AWQ даёт +2-3% качества vs GPTQ

Билдер, Тестировщик

GPTQ INT4

Marlin

~93%

Throughput-critical. GPTQ чуть быстрее на генерации

Малые модели (7-14B)

AWQ INT4

~95%

При <14B разница AWQ/GPTQ минимальна

Consumer GPU

GGUF Q4_K_M

llama.cpp

~92%

Через Ollama. Q5_K_M для quality-critical ролей

Marlin kernels — ключевая оптимизация для A100: 10.9x ускорение INT4 инференса. Без Marlin INT4 на A100 работает медленнее, чем FP16 — потому что A100 нативно не оптимизирована под INT4.

Правило: Q5_K_M для Оркестратора/Архитектора/Критика (quality-critical), Q4_K_M для Билдера/Тестировщика (throughput-critical).


Инфраструктура инференса

Движок

Для чего

Рекомендация

SGLang

Агентные нагрузки

RadixAttention переиспользует KV cache между multi-turn вызовами агентов. Лучший выбор для agent factory

vLLM

Общий продакшен

Шире экосистема, стабильнее. Fallback, если SGLang вызывает проблемы

llama.cpp / Ollama

Consumer GPU

GGUF-квантизация. Лучший вариант для разработки и прототипирования на RTX

SGLang особенно важен для агентных систем: его RadixAttention хранит KV cache между multi-turn вызовами агентов. Когда Оркестратор многократно обращается к модели в рамках одной задачи, каждый вызов переиспользует кеш предыдущих — экономия compute до 40-60% на повторных обращениях.

Архитектура деплоя: одна модель на GPU (или MIG-партицию). Не пытайтесь запускать несколько моделей на одном GPU одновременно — тулинг для этого ещё незрел. Неактивные модели — на CPU offload.


Tier S: ландшафт open-source моделей (март 2026)

Для контекста — вот полная картина лидеров, из которых я выбирал:

Модель

Total / Active

Архитектура

Главное достижение

Лицензия

Kimi K2.5

1T / 32B

MoE

HumanEval 99.0, AIME 96.1, MATH 98.0

MIT

MiniMax M2.5

230B / 10B

MoE

SWE-bench 80.2 (лучший open-source)

Open

GLM-5

744B / 40B

MoE

Arena Elo 1451 (топ среди open-source)

MIT

DeepSeek V3.2

685B / 37B

MoE

MMLU-Pro 85.0, LiveCodeBench 83.3, Aider 74.2

MIT

Qwen3.5-397B

397B / 17B

MoE

GPQA 88.4, IFEval 92.6

Apache 2.0

GLM-4.7

355B / 32B

MoE

tau-bench 87.4 (лучший tool use)

Open

DeepSeek-R1

671B / 37B

MoE

MATH-500 97.3, AIME 87.5

MIT

Qwen3-235B

235B / 22B

MoE

AIME 81.5, MMLU-Pro 84.4

Apache 2.0

Все Tier S модели — из китайских лабораторий: Alibaba (Qwen), DeepSeek, Zhipu (GLM), Moonshot (Kimi), MiniMax. Все — MIT или Apache 2.0. Это новая реальность open-source AI.


Принципы проектирования агентной фабрики

Шесть правил, выведенных из исследований Anthropic, MetaGPT, metaswarm и собственных экспериментов:

1. Точное делегирование вместо «разбирайся сам». Каждый агент получает: цель, формат вывода, доступные инструменты, границы задачи. Исследование Anthropic показало, что размытое делегирование — главная причина провала multi-agent систем.

2. Spec-driven, не code-driven. ARD и TDD — первичные артефакты. Код — производный. Если спецификация правильная, код генерируется надёжно. Если спецификация плохая, никакой билдер не спасёт.

3. Обязательные feedback loops. Builder ↔ Tester и Builder ↔ Critic — неотключаемые циклы. «Я написал код, тесты пройдены» — это необходимое, но не достаточное условие качества.

4. Минимальный доступ. Сгенерированные агенты получают только необходимые permissions. Security Auditor — не опциональная роль. Агент с доступом к API и credentials — это высокорисковый артефакт.

5. Fail fast. Если агент не может выполнить задачу — он немедленно сообщает об этом Оркестратору. Никакого «сделаю плохо, но сделаю». Низкокачественный артефакт хуже, чем отсутствие артефакта — он портит всё дальше по цепочке.

6. Сохранение артефактов. Все промежуточные артефакты сохраняются. Это не опция — это обязательное условие. Без этого нет debugging, нет rollback, нет обучения из ошибок.


Интерактивный дашборд

Всё это визуализировано в интерактивном дашборде:

  • RolePanel — 9 ролей, клик для выбора

  • NeuralTopology — визуальная карта связей между агентами

  • ModelMatrix — сортируемая таблица 14+ моделей с бенчмарками, подсветкой рекомендаций

  • ComputePlan — конфигуратор GPU (A100 / H100 / B200): VRAM, bandwidth, стоимость, tokens/sec

Это единственный инструмент, который соединяет все три слоя:

Роль агента → Лучшая open-source модель → Конфигурация GPU

HuggingFace Leaderboard даёт бенчмарки, но не маппинг на роли. CrewAI/LangGraph даёт фреймворки, но не выбор моделей. Этот дашборд отвечает на вопрос, который задаёт каждая команда, строящая агентов: «Какую модель на какую роль? Сколько GPU нужно?»


Слабое место: tool calling

Честно — tool use остаётся самым слабым звеном open-source моделей. Лучший tau-bench: GLM-4.7 с 87.4%. Лучший BFCL v4: Qwen3.5-122B-A10B с 72.2%.

Для продакшена рекомендация: fine-tune на своих tool schemas. Общий function calling — это «знание языка», но ваши конкретные API — это «знание жаргона». Модели быстро учатся на десятках примеров ваших реальных инструментов.


Что из этого следует

Март 2026 — точка перегиба. Собрать свою «ИИ-компанию» стало инженерной задачей на выходные, а не проектом на квартал.

Компоненты есть:

  • Модели — frontier-уровня, MIT-лицензия, все на HuggingFace

  • Инфра — SGLang/vLLM/Ollama, consumer hardware

  • Паттерны — orchestrator-worker, artifact-based communication, feedback loops

  • Экономика — MoE дал frontier-качество за VRAM маленькой модели

Что осталось — собрать. Подобрать правильную модель на каждую роль, как нанять правильного специалиста. Только этот «специалист» стоит 4-50 GB VRAM и работает 24/7 без отпуска.

И самое интересное: эта команда из 9 агентов генерирует других агентов. Вы описываете, что вам нужно, и фабрика проходит полный цикл: требования → архитектура → код → тесты → security review → готовый агент.

Фабрика, которая производит фабрики. На одном сервере.


*Все модели доступны на HuggingFace. Бенчмарки взяты с SWE-bench Verified, LiveBench, BFCL v4, Aider Leaderboards, LMSYS Arena (февраль–март 2026).

Интерактивный дашборд: agent-factory-design.*

Исследования: Anthropic Multi-Agent Systems, MetaGPT (ICLR 2024), metaswarm.

Источник

Возможности рынка
Логотип Ucan fix life in1day
Ucan fix life in1day Курс (1)
$0.0003601
$0.0003601$0.0003601
-4.96%
USD
График цены Ucan fix life in1day (1) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Австралия разрешит выпуск до 762 миллионов литров бензина и дизельного топлива из внутренних резервов

Австралия разрешит выпуск до 762 миллионов литров бензина и дизельного топлива из внутренних резервов

Публикация о том, что Австралия разрешит выпуск до 762 миллионов литров бензина и дизельного топлива из внутренних резервов, появилась на BitcoinEthereumNews.com. Энергетика Австралии
Поделиться
BitcoinEthereumNews2026/03/13 10:15
Мемкоин TRUMP достиг рекордного минимума, поскольку инсайдеры вывели $31,7 млн на Binance

Мемкоин TRUMP достиг рекордного минимума, поскольку инсайдеры вывели $31,7 млн на Binance

Команда токена TRUMP вносит 10 млн токенов на сумму 31,7 млн$ на Binance через кошельки BitGo. Цена обвалилась на 96% от ATH до исторического минимума 2,73$. Инсайдеры держат 80% предложения.
Поделиться
CoinLive2026/03/13 10:28
Рост Биткоина на 8% уже делает сентябрь 2025 года вторым лучшим

Рост Биткоина на 8% уже делает сентябрь 2025 года вторым лучшим

Пост «8% прирост Биткоина уже делает сентябрь 2025 года вторым лучшим» появился на BitcoinEthereumNews.com. Ключевые моменты: Биткоин нарушает сезонные тенденции, добавляя 8%, что делает этот сентябрь лучшим с 2012 года. Сентябрь 2025 года должен увидеть рост на 20%, чтобы стать самым сильным для Биткоина за все время. Волатильность цен BTC находится на уровнях, редко наблюдаемых ранее в необычном бычьем цикле. Биктоин (BTC) вырос в этом сентябре больше, чем в любой год с 2012 года, установив новый рекорд бычьего рынка. Исторические данные о ценах от CoinGlass и BiTBO подтверждают, что при 8% рост Биткоина в сентябре 2025 года является вторым лучшим за все время. Биткоин избегает «Ректембера» с 8% прибыли Сентябрь традиционно является самым слабым месяцем для Биткоина, со средними потерями около 8%. Ежемесячная доходность BTC/USD (скриншот). Источник: CoinGlass В этом году ставки высоки для сезонности цен BTC, поскольку исторические паттерны требуют следующего пика бычьего рынка, а другие рисковые активы устанавливают повторяющиеся новые исторические максимумы. В то время как золото и S&P 500 находятся в стадии определения цены, BTC/USD колебался в течение сентября после установления собственных новых максимумов в предыдущем месяце. Однако даже при «всего лишь» 8% результаты этого сентября в настоящее время достаточны, чтобы сделать его самым сильным для Биткоина за 13 лет. Единственный раз, когда девятый месяц года был более прибыльным для быков Биткоина, был в 2012 году, когда BTC/USD вырос примерно на 19,8%. В прошлом году рост достиг максимума в 7,3%. Ежемесячная доходность BTC/USD. Источник: BiTBO Волатильность цен BTC исчезает Цифры подчеркивают крайне необычный год пика бычьего рынка для Биткоина. Связанное: BTC «учитывает в цене» то, что грядет: 5 вещей, которые нужно знать о Биткоине на этой неделе В отличие от предыдущих бычьих рынков, волатильность цен BTC исчезла в 2025 году, вопреки ожиданиям давних участников рынка, основанным на предыдущих показателях. Данные CoinGlass показывают, что волатильность снизилась до уровней, не наблюдаемых более десятилетия, с особенно резким падением с апреля. Историческая волатильность Биткоина (скриншот). Источник: CoinGlass Тем временем, аналитическая фирма Glassnode подчеркивает...
Поделиться
BitcoinEthereumNews2025/09/18 11:09