Прошёл примерно год с тех пор, как я начал активно использовать Claude Code для разработки, и, как я уже писал, это существенно изменило мои рабочие процессы. ППрошёл примерно год с тех пор, как я начал активно использовать Claude Code для разработки, и, как я уже писал, это существенно изменило мои рабочие процессы. П

[Перевод] Я vs. машина

2026/02/17 18:36
9м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Прошёл примерно год с тех пор, как я начал активно использовать Claude Code для разработки, и, как я уже писал, это существенно изменило мои рабочие процессы. Продуктивность действительно выросла — но в основном по ощущениям, а они у меня примерно такие же надёжные, как мои эстимейты (то есть никакие, и лучше не станут). Так что я решил, что пора проверить своё чутьё абсолютно научно пуленепробиваемым способом (со статистически высокозначимой контрольной группой из меня, себя и моей собственной персоны).

Эксперимент, о котором никто не просил

В голове уже какое-то время крутилось несколько вопросов:

  • Это правда быстрее, чем писать код самому?

  • Какая разница в качестве?

  • Какая реальная разница в стоимости между ручной и агентной разработкой?

  • Сколько бы мой процесс стоил без подписки Claude Max?

  • Позволяет ли хороший цикл обратной связи использовать более дешёвую/слабую модель?

  • Буду ли я когда-нибудь запускать кодинг-модель у себя в подвале?

На работе я крайне редко делаю симуляции прыгающих мячиков или клоны Minecraft (а если бы у меня была ночная подработка помимо укладывания бессонных младенцев — я бы и там этим не занимался), поэтому мне нужен был тестовый кейс чуть ближе к реальной жизни. Когда я начал работать над новым проектом «GraphQL-middleware плюс React-UI», я увидел свой шанс. Архитектура достаточно нестандартная, чтобы посмотреть, как разные модели справятся с вызовом, но при этом близкая к стандартным обучающим данным, чтобы они продвинулись далеко:

  • Кастомная GraphQL схема, объединяющая legacy API

  • GraphQL сервер с резолверами на Effect

  • React клиент для взаимодействия со всем этим добром

Фундамент проекта уже существовал. Это не эксперимент в чистом поле. Задание — добавить страницу управления пользователями на основе React-макета, который навайбкодил наш UX-эксперт. Пригласить новых пользователей по email, сменить им роль, удалить. Звучит просто, но, как всегда, проблема не в написании кода, а в лавировании среди обстоятельств. С одной стороны, legacy API имеет пару белых пятен — например, свойство role на объекте пользователя, которое является просто строкой и не говорит нам, какие роли вообще доступны. С другой стороны, макет очень амбициозный и содержит кучу фич, которые целевой сервис пока даже не поддерживает. Мне хотелось понять, как агент справится с такого рода препятствиями, которые в реальности встречаются чуть чаще, чем надуманные примеры с YouTube при каждом выходе новой модели.

Как замучить 6 AI-агентов (и себя)

Частично ради этого исследования я навайбкодил небольшой инструмент, создающий CLI-интерфейс, не привязанный к конкретному агенту, для одинакового воркфлоу с разными агентами. Он, кстати, оказался очень полезным и за рамками эксперимента — когда доведу до ума, напишу отдельный пост. Суть такая:

  1. Создаю файл TODO.md в корне репозитория.

  2. Запускаю инструмент в режиме plan. Он читает мой TODO-промпт, исследует проект и составляет план.

  3. Делаю ревью плана и даю обратную связь.

  4. Агент обновляет план, итерируем до готовности.

  5. Запускаю инструмент в режиме build, и он проходит по всем пунктам в Ralph-Loop (цикл «делай пока не сделаешь»).

  6. После каждого TODO-пункта прогоняется весь набор тестов, ошибки скармливаются обратно агенту для исправления. Повторять, пока всё не зелёное.

  7. Возвращаюсь к готовому проекту, который возможно делает то, что я ожидаю. Или нет. Тогда — ручное тестирование и код-ревью.

Я добавил в репозиторий довольно обширную документацию по стандартам кода. Чёткие инструкции, какие библиотеки использовать для каких задач, предпочтения по типизации и какие тесты писать. Также в проекте уже были реализованы GraphQL-резолверы на Effect, но ни одной формы (это важно — запомните на потом).

Затем я прогнал одинаковый воркфлоу со следующими конфигурациями агентов:

  • Opus 4.5 с Claude Code на Max Plan: конфигурация, которую я давно использую. С одной стороны — планка ожиданий для сравнения, с другой — хочу понять, насколько Anthropic её субсидирует.

  • GPT Codex 5.2 с OpenCode на OpenCode Zen: в основном чтобы проверить главного конкурента, поскольку сам Codex я раньше не использовал.

  • Opus 4.5 с OpenCode на amazee.ai: чтобы получить «сырую» цену для сравнения с Claude Max.

  • Kimi 2.5 с OpenCode на OpenCode Zen: open-source модель, которую потенциально можно запускать локально.

  • Minimax 2.1 с OpenCode на OpenCode Zen: другая open-source модель, которую потенциально можно запускать локально.

  • Mistral Devstral с OpenCode на La Plateforme: европейский вариант.

  • Philipp 43 с Neovim на Coffee: чтобы установить «золотой стандарт» и сравнить стоимость всех остальных.

Я дал каждой конфигурации шанс решить задачу, включая 2–3 цикла обратной связи, если с первого раза получилось не всё. При этом я намеренно не делал детальное код-ревью, чтобы не перекосить результаты в сторону моей собственной реализации, за которую сел сразу после (а ведь всегда проще, когда ты уже видел все чужие ошибки — классическая предвзятость в духе «Мы переписали приложение на [модный фреймворк] и стало гораздо лучше!»).

После ручного марафона я бегло просмотрел каждую реализацию и заставил Claude сделать детальное сравнение всех версий по следующим метрикам:

  • реализованные фичи

  • структура тестов

  • использование библиотек

  • подход к типизации

  • паттерны оптимистичного UI

Ещё я попросил Claude оценить трудозатраты на доведение каждой версии до архитектурного паритета с моей ручной реализацией. К этой оценке стоит относиться с оговоркой, но это же эстимейт — так что он, вероятно, не хуже моего собственного 🤷‍♂️.

Отчёт об ущербе

Детальный отчёт можно посмотреть здесь, а я просто подведу итоги по самым важным находкам.

Opus 4.5 с Claude Code на Max Plan

Сгенерировал самый большой дифф, но это — несколько неожиданно — не сильно ухудшило качество результата. Ближе всех подошёл к ручной реализации, но не справился с тем, чтобы правильно определить границы фичи, которую бэкенд API пока не поддерживает. Съел около 20% недельного лимита моего $100 Max-плана, что сводится примерно к $4 стоимости AI.

GPT Codex 5.2 с OpenCode на OpenCode Zen

Вот это было весело. Codex написал чрезвычайно короткий и расплывчатый план (около 10% от объёма остальных), и результат поначалу меня поразил. UI — пиксель в пиксель, до мельчайших деталей. И все взаимодействия работали. Я даже написал коллеге в Slack, что гонка окончена, но потом увидел, что сетевых запросов нет 🤯 Он просто полностью пропустил бэкенд/API-часть и засунул всё в React-стейты 🤣. Но — после вежливого намёка, что это не совсем продакшен-реди, как он заявлял — выдал вполне приличную реализацию бэкенда тоже. Общая стоимость токенов составила $10.

Opus 4.5 с OpenCode на amazee.ai

Вне Claude Code модель Anthropic оказалась чуть менее способной. Самая крупная ошибка по сравнению с «официальной» версией — использование регулярок для валидации форм вместо Zod. Общая стоимость на AWS дошла до $20, что даёт нам представление, сколько маркетингового бюджета Anthropic закладывает в Max-план.

Kimi 2.5 с OpenCode на OpenCode Zen

На мой взгляд, это была звезда шоу. Kimi выдал результат почти на уровне Opus, и при этом не является проприетарной моделью. Работал очень медленно по сравнению с другими, но поскольку весь смысл в том, что я не пялюсь в экран, пока он думает, мне без разницы — 15 или 45 минут. Стоимость токенов за задачу — $7, что выше субсидированного Claude Max, но даже ниже Codex по сырым токенам.

Minimax 2.1 с OpenCode на OpenCode Zen

Minimax значительно дешевле Kimi, и именно поэтому я хотел столкнуть их друг с другом. К сожалению, потенциал раскрыть не удалось. Имплементация потребовала гораздо больше циклов обратной связи и исправления тестов, что вылилось в $6 за решение, которое в итоге даже не было на 100% рабочим. Более дешёвая модель не означает автоматически более низкую стоимость. Прямо как с людьми 😈. Но тем временем вышел Minimax 2.5, и я слышал о нём много хорошего. Так что не списывайте их со счетов.

Mistral Devstral с OpenCode на La Plateforme

Devstral, к сожалению, разочаровал. После $30, потраченных на токены, решение всё ещё было далеко от конкурентов. Вот тебе и европейская альтернатива.

Что я узнал (кроме того, что я дорого стою)

Сводка «оценочной общей стоимости»:

Вручную

Claude Max

GPT

Claude AWS

Kimi

MiniMax

Mistral

Время разработчика

14ч

2.5ч

9.5ч

6.5ч

8.5ч

14.5ч

12ч

Стоимость разработчика

$1,400

$250

$950

$650

$850

$1,450

$1,200

Стоимость AI (начальная)

-

$4

$10

$20

$7

$6

$30

Стоимость AI (доработка)

-

~$2

~$5

~$10

~$4

~$3

~$15

Итого

$1,400

$256

$965

$680

$861

$1,459

$1,245

vs Вручную

-

82%

31%

51%

39%

-4%

11%

То, что обе версии Claude оказались на первых местах — вероятно, не совпадение, ведь оценку тоже делал Claude (надо было анонимизировать версии заранее 🤦‍♂️). Также часы разработки на доведение кажутся мне завышенными, но у меня и самого с точностью эстимейтов не очень, так что оставлю как есть. Но несмотря на размытость результатов, эксперимент получился занятным, и я вынес из него несколько уроков. Некоторые были ожидаемы — теперь хотя бы отчасти доказаны, — другие удивили. Вернёмся к исходным вопросам:

  • Это правда быстрее, чем писать код самому? Да.

  • Какая разница в качестве? При правильных рамках качество зачастую даже выше, потому что у меня остаётся больше времени на полировку.

  • Какая реальная разница в стоимости между ручной и агентной разработкой? В зависимости от задачи может быть весьма ощутимой. До 80% экономии — это не шутка.

  • Сколько бы мой процесс стоил без подписки Claude Max? В пять раз дороже, если платить за токены той же модели. Но open-source модели меняют это уравнение.

  • Позволяет ли хороший цикл обратной связи использовать более дешёвую/слабую модель? К сожалению, нет. Я предполагал, что при наличии цикла, который просто перезапускает агента, пока не станет хорошо, можно обменять время выполнения на более мелкие, менее способные модели. Но в итоге потребление токенов существенно растёт, и дешевле не получается.

  • Буду ли я запускать кодинг-модель у себя в подвале? Потенциально. Руки чешутся заказать Framework Desktop, но кто знает, каким будет мир через год. А инвестиция с предполагаемым сроком амортизации в три года — это сейчас слишком долго. Живём в безумные времена.

Но есть ещё один ответ — на вопрос, который я не задавал:

Навыки и документация значительно менее важны, чем существующий код. Все модели отлично справились с созданием GraphQL-резолверов на Effect (которые уже были в кодовой базе), и при этом все полностью проигнорировали мои задокументированные инструкции использовать react-hook-form и Zod для работы с формами. Это значит, что настоящая сила агентной разработки — не в блестящих одноразовых вайб-промптах, за которыми все гонятся. Они могут сработать, но без правильного руководства агент скатится в хаос. Ирония в том, что делать нужно ровно наоборот. Создавать по-настоящему качественные начальные проекты, которые отвечают всем требованиям по качеству, чтобы джинну было что достойно воспроизводить раз за разом. И именно для этого нам по-прежнему нужны инженеры.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Исследование Grayscale видит Aave становящимся mainstream финансовым брендом

Исследование Grayscale видит Aave становящимся mainstream финансовым брендом

Институциональный интерес к протоколу Aave растет. Токен Aave показал положительную динамику сегодня после выхода двух значимых институциональных отчетов, которые дали благоприятную оценку
Поделиться
The Crypto Updates2026/04/11 15:42
YouTime.pro: превращение провала в сфере ухода на €2 миллиарда в масштабируемую инфраструктурную возможность

YouTime.pro: превращение провала в сфере ухода на €2 миллиарда в масштабируемую инфраструктурную возможность

Поскольку правительства по всему миру борются за поддержку быстро стареющего населения, одна структурная слабость в предоставлении услуг на дому остается в значительной степени невидимой и массовой
Поделиться
Techbullion2026/04/11 15:28
Little Pepe ($LILPEPE) приближается к распродаже 13-го этапа, собрав более 28 млн $ по мере приближения даты запуска

Little Pepe ($LILPEPE) приближается к распродаже 13-го этапа, собрав более 28 млн $ по мере приближения даты запуска

Пост Little Pepe ($LILPEPE) приближается к распродаже 13-го этапа с привлечением более 28 000 000 $ по мере приближения даты запуска появился на BitcoinEthereumNews.com. Little Pepe ($LILPEPE
Поделиться
BitcoinEthereumNews2026/04/11 14:55

Генезис USD1: 0% + 12% APR

Генезис USD1: 0% + 12% APRГенезис USD1: 0% + 12% APR

Новые пользователи: Стейкайте и получите до 600% APR