Я тут полез в свою историю промптов за март 2025. Знаете, что нашёл? Промпт на 40 строк, в котором я вручную описывал Claude структуру проекта. Какие файлы где лежат, какие зависимости, где конфиг. Потому что он не мог посмотреть сам.
Год назад. Март 2025. Claude Code - бета, версия 0.2.что-то-там. Ни plan mode, ни субагентов, ни CLAUDE.md, ни skills. Контекст - 200 тысяч токенов, и это считалось нормальным. Codex CLI не существовал. Gemini CLI не существовал. Copilot умел автокомплит и чат в сайдбаре.
А потом прошёл год. И я решил собрать все цифры в одном месте. Потому что когда живёшь внутри этого - не замечаешь. А когда выкладываешь рядом «было → стало» - становится не по себе.
Кто забыл - напоминаю. Кто вытеснил - соболезную.
В марте 2025 главным AI-инструментом для кодинга был GitHub Copilot. Не CLI-агент, не автономная система - автокомплит. Ты пишешь код, он дописывает строчку. Иногда удачно. 1.8 миллиона пользователей. По опросу Stack Overflow (май-июнь 2025), 76% разработчиков «пробовали» AI-ассистент. Пробовали - не «используют каждый день». При этом доверие к точности AI уже тогда падало: с 40% до 29% год к году. Люди пробовали, видели, что оно галлюцинирует - и откладывали.
Claude Code только вышел в бету (февраль 2025). Жил в терминале, мог читать файлы и писать в них. Но - без plan mode, без возможности разбить задачу на шаги, без субагентов. По сути - чат с доступом к ls и cat. Контекст 200K токенов - один средний проект, если впихнуть всё. А если проект большой - ну, вручную описывай, что где лежит.
Cursor существовал, но был другим. Без агентов, без Background Agents. Anysphere - стартап, который ещё даже Series C не поднял.
SWE-bench Verified - основной бенчмарк для кодинг-способностей - показывал 65% для лучших систем. Из 100 реальных баг-фиксов из open-source проектов модель решала 65. Остальные 35 - извини, человек.
А METR в марте 2025 опубликовала ключевое исследование: топовые модели (Claude 3.7 Sonnet) могли автономно работать над задачей ~55 минут. GPT-4, вышедший в марте 2023 - 6 минут. GPT-2 (2019) - 3 секунды. Для понимания масштаба: модели на задачах меньше 4 минут справлялись почти со стопроцентным успехом, а на задачах больше 4 часов - меньше 10%. Потолок автономности - примерно час. Дальше - деградация, галлюцинации, потеря контекста.
Frontier-кодинг стоил $5 за миллион входных токенов, $25 за миллион выходных. Opus-tier. Дорого, медленно, 200K контекст. И это был потолок.
Вот цифра, которая меня зацепила, когда я ковырялся в чейнджлоге Claude Code.
176 обновлений за 2025 год. Три серии версий: v0.2.x (37 релизов), v1.0.x (82 релиза), v2.0.x (57 релизов). Одно обновление каждые два дня. Включая выходные, Рождество, и, видимо, дни рождения сотрудников Anthropic.
Июнь 2025 - тихо добавили plan mode (v1.0.18). Август - /context для визуализации того, что модель реально видит (v1.0.86). Там же OpenAI предложила AGENTS.md как стандарт. Октябрь - skills (v2.0.22). Ноябрь - Opus 4.5, первая модель серии 4.x с 200K контекстом. Декабрь - skills стали открытым стандартом.
А потом 2026.
Февраль - Opus 4.6. Контекст - миллион токенов. Не 200K. Миллион. В пять раз больше, чем год назад. Agent Teams - запуск нескольких агентов на одном репозитории. Auto-memory - Claude помнит между сессиями. HTTP hooks. Dispatch - задачи из любого места.
Март 2026 - 1M контекст по умолчанию для всех пользователей Opus 4.6. Без доплаты.
И это только Claude Code. Один инструмент из шести.
(я изначально хотел писать только про Claude, но когда начал копать остальных - понял, что параллельная история ещё безумнее)
Codex CLI - его не существовало в марте 2025. У OpenAI не было CLI-инструмента для кодинга. За год они выпустили Codex CLI, потом GPT-5.3-Codex (первая модель под real-time кодинг, 1000+ токенов/сек), microvm-песочницу для fire-and-forget автономной работы, субагенты, десктопное приложение. Чейнджлог - десятки апдейтов только за 2026.
Тут, кстати, интересный нюанс про Codex. Как анализатор кода он реально хорош - может быть, даже лучше Claude в некоторых вещах. Ревью, рефакторинг, объяснение сложных систем - GPT-5.4 тут очень сильный. Но когда дело доходит до написания кода... ну, как бы сказать. В слепых тестах (Blake Crosley, 12 раундов) Claude Code побеждает Codex в 67% случаев именно по качеству генерируемого кода. Codex пишет шире - больше файлов, больше строк - но менее хирургически. Если нужна точечная правка в трёх файлах, Claude сделает ровно это. Codex может переписать пять и сломать шестой. На Reddit один чувак описал это как "Claude - хирург, Codex - терапевт с мачете".
Зато Codex за $20/мес - практически безлимитный. Дал задачу, ушёл пить кофе, вернулся - PR готов. Claude Code за $20/мес выдохнется после пары сложных промптов - один запрос сжирает 50-70% пятичасового лимита.
Gemini CLI - аналогично. Google выпустил open-source CLI-агент в 2025, в 2026 добавил skills, generalist agent, Gemini 3.1 Pro. SWE-bench - 80.6%. При цене 12 за миллион токенов. Это в 2-12 раз дешевле Claude Opus. Дёшево. Быстро. Для MVP - идеально. Для тонкой хирургии - бывает неряшлив, несколько Reddit-тредов жалуются на неожиданно большой расход токенов и необходимость повторных промптов.
Copilot CLI - превью в сентябре 2025, GA в феврале 2026. От «подсказки в IDE» до автономного агента с plan mode, субагентами, облачными агентами, и выбором моделей от Anthropic, OpenAI и Google. За полгода.
Пять CLI-агентов за год. Все - или появились с нуля, или трансформировались до неузнаваемости. Это не эволюция. Это кембрийский взрыв.
Cursor пробил $2B ARR в феврале 2026.
$500M ARR в июне 2025. Миллиард - в ноябре. Два миллиарда - в феврале 2026. Удвоение за три месяца. Оценка Anysphere - $29.3 миллиарда. Миллион ежедневных пользователей. Больше половины Fortune 500. Четырёхлетний стартап. Самый быстро растущий SaaS в истории, если верить SaaStr.
Рынок AI раздут, оценки нереальные, все это знают. Но $2B - реальная выручка, а не на салфетке. Люди платят $16/мес за инструмент, который полтора года назад был форком VS Code с AI-подсказками.
А ещё Cursor опубликовал кое-что, от чего у меня волосы на руках встали.
Self-driving codebases - так Cursor назвал своё исследование. Тысячи AI-агентов. Одновременно. На одной кодовой базе. Работали неделю без человека. Написали функциональный веб-браузер с рендерингом.
Конкретные числа: пик - ~1000 агентов одновременно. ~1000 коммитов в час. 10 миллионов вызовов инструментов за неделю. Один большой Linux VM.
Они итерировали через четыре архитектуры координации. Первая - все агенты равны, общий state-файл - развалилось из-за locking contention. Вторая - жёсткие роли (planner → executor → workers → judge) - слишком ригидно. Третья - один executor управляет всем. Четвёртая - рекурсивные планировщики делегируют субпланировщикам и воркерам. Как работает реальная софтверная команда.
Ключевой инсайт: «Allowing some slack means agents can trust that other issues will get fixed by fellow agents soon.» Вместо требования 100% корректности от каждого коммита - небольшой постоянный error rate, который другие агенты быстро чинили. Узким местом стал не AI, а дисковый I/O при одновременной компиляции сотен агентов.
Тысяча агентов написала браузер за неделю без людей. Я перечитал это три раза. Потом пошёл пить чай.
Хотя... нужна ложка дёгтя. AI-код содержит в 1.7 раза больше багов, чем человеческий, по данным CodeRabbit (470 PR: 320 от AI, 150 от людей). Логических ошибок - в 1.75 раза чаще. Проблем с безопасностью - в 2.74 раза. Тысяча агентов написала браузер - но сколько багов в этом браузере? Сколько уязвимостей? Cursor деликатно не уточняет.
Ладно, хватит нарративов. Вот сухое сравнение «было → стало».
SWE-bench Verified (реальные баг-фиксы из open-source):
Март 2025: ~65% (топ)
Март 2026: 80.9% (Claude Opus 4.5 + агентный фреймворк, данные)
Рост: +25% за год
Контекстное окно:
Март 2025: 200K (Claude), 128K (GPT-4), 1M (Gemini - с оговорками)
Март 2026: 1M (Claude Opus 4.6), 1M (GPT-5.4), 1M+ (Gemini 3.1 Pro)
Стоимость frontier-кодинга (за миллион токенов):
Март 2025: $5 вход / $25 выход (Opus)
Март 2026: $0.30 / $1.20 (MiniMax M2.5, SWE-bench 80.2%)
Падение: цена в 16 раз, при росте качества на 23%
Горизонт автономной работы (METR):
2019 (GPT-2): 3 секунды
2023 (GPT-4): 6 минут
2025 (Claude 3.7 Sonnet): 55 минут
2025 (Claude Opus 4.5): ~4 часа
Удвоение: каждые 7 месяцев (общий тренд за 6 лет), каждые 4 месяца (2024-2025)
Пользователи (Stack Overflow):
2024: 76% разработчиков «пробовали»
2025: 84% используют или планируют, 51% - ежедневно
2026: 20M используют ежедневно, 46% кода - с участием AI
MiniMax M2.5 решает SWE-bench на 80.2% за $0.30 за миллион входных. Год назад лучшая модель решала 65% за $5. Качество +23%, цена −94%.
Дарио Амодеи (CEO Anthropic) заявил, что через 3-6 месяцев AI будет писать 90% кода. Инженеры Anthropic «уже не пишут код руками - дают модели написать и редактируют».
Redwood Research разобрались. В среднем по Anthropic AI пишет ~50% строк мёржнутого кода. На отдельных командах - да, 90%. Но это не 10x продуктивность. AI генерирует много дешёвого кода: одноразовые скрипты, бойлерплейт, тесты-заглушки. Процент раздувается, а реальный прирост - 1.5-2x.
Полтора-два икса - огромно. Команда из 5 человек работает как 8-10. Без найма. Но между «работает как 10» и «90% кода от AI» - пропасть в восприятии.
Сэм Альтман обещал, что AI станет «лучшим кодером в мире» к концу 2025. Конец 2025 прошёл. Не стал. Но 80.9% SWE-bench - это крепкий мидл, который работает 24/7 и не просит повышения.
Хотя нет, не мидл. METR в другом своём исследовании показали, что с AI опытные разработчики работали на 19% медленнее - при субъективном ощущении ускорения на 20%. Разрыв между ощущением и реальностью - 39 процентных пунктов. Может, и «90% кода» - тоже ощущение, а не реальность?
Год назад, если бы мне сказали «через 12 месяцев контекст будет миллион, SWE-bench 80%, а Cursor будет стоить $29 миллиардов» - я бы рассмеялся. Так что мои прогнозы, скорее всего, тоже окажутся смешными. Но данные есть данные.
Экстраполируем METR: горизонт задач удваивается каждые 4 месяца. Сейчас - ~4 часа. Через 4 месяца - 8 часов. Через 8 - рабочий день. К марту 2027 - 2-3 рабочих дня. AI-агент получает задачу в пятницу - в понедельник PR ждёт ревью.
Self-driving codebases из эксперимента Cursor станут продуктом. Агенты мёржат PR, раскатывают деплой, мониторят прод, откатывают при ошибках. Человек - архитектор и ревьюер, а не автор кода. Gartner прогнозирует: к 2028 году 33% корпоративного софта включает агентный AI (сейчас <1%). Но при этом - 40% агентных проектов закроются к концу 2027. Стоимость, неясная окупаемость, и - мой любимый пункт - «inadequate risk controls».
Цены продолжат падать. MiniMax уже показал 80% за $0.30. Через год frontier-качество будет стоить копейки. Барьер входа в «AI-кодинг» исчезнет - вопрос не «можешь ли ты себе позволить», а «умеешь ли ты управлять агентами».
Но есть проблема, о которой мало говорят. Если AI будет автономно работать днями - кто проверяет результат? Уже сейчас PR review time у команд с высоким AI-adoption вырос на 91%. AI пишет быстрее, но ревью занимает вдвое больше. Если агент работает три дня - ревью будет на неделю?
AI 2027 - исследование от бывшего сотрудника OpenAI Дэниела Кокотайло и команды из 5 человек с фидбеком от 100+ экспертов. Прогноз: superhuman coder к 2027 - AI-система, которая делает всё, что лучший инженер AGI-компании, но быстрее и дешевле. К 2028 - AI-системы, автоматизирующие AI-исследования. Self-improving loop.
Звучит как фантастика. Но вот уточнение: после проверки на реальных данных 2025-2026 года, прогнозы скорректировали. Прогресс идёт на ~65% от предсказанной скорости. Кокотайло сдвинул свои таймлайны с 2028 на 2029. Так что, может, не 2027, а 2028-2029.
65% от «безумно быстро» - это всё ещё очень быстро.
Представьте 2029 год. Вы - тимлид. У вас «команда» из 20 AI-агентов. Один специализируется на фронте, другой на инфраструктуре, третий на тестах, четвёртый - секурити-ревьюер. Вы пишете спеку на естественном языке, декомпозируете на эпики. Агенты разбирают задачи, пишут код, ревьюят друг друга, гоняют тесты, деплоят в стейджинг. Вы ревьюите итоговые PR и принимаете архитектурные решения.
Cursor уже показал прототип с тысячей агентов. Anthropic делает Agent Teams. OpenAI - Codex App с параллельными агентами. Все идут в одну точку.
Только вот... тут мне вспоминается одна штука, и она меня не отпускает.
Три дня назад я писал про кризис джуниоров. Гарвард отследил 62 миллиона работников в 285 000 компаний: при внедрении AI найм джунов падает на 9-10% за полтора года. Stack Overflow: доля джунов в IT-найме сползла с 15% до 7% за три года. Безработица среди выпускников CS - 6.1%, это больше, чем у филологов.
Все эти красивые сценарии с «20 агентов под управлением тимлида» предполагают, что тимлид существует. Что есть сеньоры, которые понимают архитектуру и могут ревьюить AI-код. Но если мы три года не нанимаем джунов - через 5 лет не будет мидлов, через 8 - сеньоров. CNBC назвал это talent doom cycle.
И вот тут два тренда сталкиваются лоб в лоб. С одной стороны - AI, который каждые 4 месяца удваивает свои возможности. С другой - индустрия, которая перестала выращивать людей, способных этим AI управлять.
Anthropic провели исследование и описали эффект «permanent beginners» - AI сглаживает кривую обучения настолько, что разработчик никогда не строит ментальную мышцу для работы со сложностью. Сеньоры держатся - у них мышца уже есть. А новые разработчики - те, кто учится с AI с первого дня - могут навсегда остаться на уровне «умею промптить, не умею дебажить прод в три ночи».
Может, к 2030 это не будет проблемой. Может, AI научится сам себя рефакторить и дебажить. Но я бы не ставил на это свой продакшен.
Я начинал этот ресёрч с мыслью «найду победителя». Кто лучший AI-кодинг-инструмент в 2026?
Не нашёл.
Claude Code - лучший по качеству кода, но душит лимитами. Codex - отличный аналитик и неограниченный раб, но код пишет грубее. Gemini - дешёвый и быстрый, но неряшливый. Copilot - $10/мес, самый дешёвый вход. Cursor - другая парадигма, IDE, а не терминал, $16/мес.
Самые продуктивные разработчики, по данным Reddit, используют 2-3 инструмента. Copilot для автокомплита (+16-20). Codex для автономки и ревью (+$20). Итого $40-60 за весь стек. Год назад это была бы цена одного инструмента, который умел дописывать строчки.
Хотя, может, победитель и не нужен. Может, гонка - это и есть смысл. Пять CLI-агентов конкурируют, цены падают, качество растёт. Все выигрывают. Пока не проиграют.
Не «AI заменит программистов». Это мы слышим три года. Пока что AI создал больше вакансий AI-инженеров, чем убил вакансий классических разработчиков.
Боюсь скорости. И того, что мы не успеваем осмыслить.
Год назад я вручную описывал AI структуру проекта. Сейчас он сам поднимает 9 субагентов, каждый ревьюит свою часть кода. Cursor гоняет тысячу агентов, которые за неделю пишут браузер. Контекст - ×5. Цена - ÷16. SWE-bench - +25%.
METR удваивает горизонт каждые 4 месяца. Cursor удваивает выручку за три. Anthropic, OpenAI и Google гонят не потому, что могут - а потому, что рынок доказал: разработчики платят. Это не исследование - это гонка вооружений с реальными деньгами.
При этом - Stack Overflow показывает: доверие к AI продолжает падать (29%), 52% разработчиков вообще не пользуются агентами. Между «84% пробовали» и «52% не пользуются» - яма. AI-код содержит в 1.7 раза больше багов. Ревью AI-кода занимает вдвое больше. Мы перестали нанимать людей, которые через 5 лет будут единственными, кто сможет разгребать всё это.
Может, через год всё разрешится. Может, AI научится ревьюить сам себя без слепых пятен. Может, self-driving codebases заработают не как эксперимент, а в проде.
А может - рванёт. Кодовые базы, написанные тысячами агентов, начнут гнить. Чинить их будет некому, потому что джунов не наняли, мидлов не вырастили, а сеньоры выгорели. И вся эта красивая инфраструктура из AI-агентов - упрётся в то, что ни один из них не понимает, зачем этот код вообще существует.
Не знаю. Через год проверим.
UPD: перечитал и заметил, что пишу «через год проверим» третий раз за последние три статьи. Видимо, это мой способ справляться - откладывать понимание на потом. Но цифры не ждут. Между тем как я написал про джунов (16 марта) и сегодня - Cursor выкатил cloud agents, OpenAI выпустил GPT-5.4 mini и nano, а Claude Code обновился дважды. Три дня. Два апдейта. Гонка не останавливается, даже когда ты пишешь статью о гонке.
Кстати, Redwood Research предупредили: Anthropic может не признать ошибку в прогнозах про AGI к 2027 вовремя. Так что все мои экстраполяции - тоже могут быть чушью. Единственный честный прогноз: через год мы будем удивлены. Опять.
Источник


