Самые интересные новости за неделю для практикующих инженеров: вайбкодер случайно получил доступ к 7 000+ пылесосам, вышли Sonnet 4.6 и Gemini 3.1 Pro, Haiku со скиллами обошла Opus без них, Claude Code Security и потеря $1,78 млн из-за кода от Claude.
У меня после прочтения этой новости сразу перед глазами следующая сцена:
Аздуфаль — вайбкодер из Испании, по совместительству директор по AI-стратегии в компании Emerald State — решил научиться управлять роботом-пылесосом геймпадом от PS5. Взял Claude Code, зареверс-инжинерил протокол управления, написал приложение. Всё заработало. Но когда приложение было готово, оказалось, что он может управлять не только своим пылесосом, а ещё 7 000+ устройствами по всему миру.
Произошло это потому, что токен авторизации от одного конкретного пылесоса давал доступ к серверам DJI (да, тех самых DJI — я сам не знал, что они делают пылесосы), и через этот токен можно было получить информацию обо всех устройствах на платформе. Причём в 2016 году у DJI была похожая проблема с дронами: безопасность легко обходилась. По всей видимости, на своих ошибках они не особо учатся.
Отдельно интересно другое: каким образом он занимался реверс-инженирингом? Если попросить модель напрямую помочь со взломом ПО — она откажется. Но, как рассказывают, стоит сказать, что занимаешься этим в исследовательских целях или по заданию профессора — и модель с удовольствием продолжит.
На прошлой неделе состоялись два крупных релиза.
У Sonnet 4.6 появилось контекстное окно в 1 млн токенов (бета) — раньше это было только у Opus. В Claude Code пользователи выбирали 4.6 вместо 4.5 в ~70% случаев. Цена без изменений, повышена устойчивость к prompt injection.
Gemini 3.1 Pro — всё то же самое: бенчмарки выросли на несколько процентных пунктов, снова топ-1 по большинству параметров.
Может, я бы даже не включал эти новости в текущий дайджест, но с хайпом на AI это сделать сложновато. При этом ощущение такое: в плане улучшения самих языковых моделей мы упёрлись в некоторый предел. В масштабе прошлого года изменения были значительные, но я думаю, что через год они будут уже не такими заметными. Сдвиг сейчас происходит в другую сторону — про это следующая новость.
Вот где сейчас реальный сдвиг — в инструментарии, которым пользуется модель. MCP, скиллы — всё это доказывает, что инструменты влияют на результат разительно.
Для тех, кто не в курсе: скиллы — это конкретные инструкции для модели, как решать определённую задачу. Не абстрактный промпт, а прямо пошаговое описание: как вызвать метод, как реализовать сервис, как работать с конкретной технологией.
Исследование провели масштабное: больше 100 экспертов, 86 задач из 11 доменов (не только программирование — медицина, финансы, маркетинг), больше 7000 прогонов на 7 моделях. Каждую задачу тестировали в трёх режимах: без скиллов, со скиллами от самой модели и со скиллами от человека.
Два главных результата. Первый: модели сами для себя не умеют писать скиллы — эффект от человеческих скиллов кратно выше. Второй (это прямо вау): Haiku 4.5 со скиллами обогнала Opus 4.5 без скиллов. Самая маленькая и дешёвая модель Anthropic обошла самую большую — просто за счёт инструкций.
Мы в Amplicode занимаемся разработкой Spring MCP — тулов, которые агент использует для написания кода на Spring сразу по лучшим практикам. Всю экспертизу, которую мы нарабатывали почти десятилетиями, упаковали в MCP-тулы. Бенчмарки планируем опубликовать в ближайшее время, но забегая вперёд — результаты соответствуют тому, что показывает SkillsBench.
Речь про публичные рекламные активности предпринимателей и компаний. Иностранные слова можно использовать без перевода, только если они зарегистрированы как товарный знак или входят в один из четырёх нормативных словарей.
Слово «бэкэнд» в словаре есть, а «фронтэнд» — нет. Вот и думайте :D
В маркетплейсе OpenIDE появились два плагина для Clojure: Clojure LSP и Clojure REPL. До этого уже было больше 400 плагинов, поддерживались Java, Kotlin, Python, Go, JavaScript, TypeScript. Теперь список пополнился, а в этом году планируется ещё и C#.
Я после этой новости полез смотреть, что за язык. Оказалось, в России есть довольно большое комьюнити — в Телеграме больше тысячи человек. Clojure — язык от Рича Хики, где реализован подход транзитивной памяти: всё иммутабельно, но тебе не нужно за этим следить вручную. Из знаковых проектов — база данных Datomic. Если пишете на Clojure — напишите в комментариях, интересно, чем живёте.
Anthropic представили Claude Code Security — инструмент для поиска уязвимостей, встроенный в Claude Code. В отличие от обычных статических анализаторов, которые ищут слитые пароли или устаревшее шифрование, здесь модель смотрит на систему целиком: как двигаются данные, что с ними происходит, и пытается выявить паттерны. При этом система сама себя челленджит — проверяет, что выдвинутое предположение действительно релевантно.
По заявлению Anthropic, с помощью Claude Code 4.6 нашли больше 500 уязвимостей в продакшн-коде открытых проектов. Многие из них оставались в репозиториях долгое время, и никто их не находил.
Попутно наткнулся на материал: физик проанализировала более 100 000 исправленных багов ядра Linux, и больше 20% из них оставались в репозитории дольше 5 лет. Огромная кодовая база, никто не будет вручную перечитывать код, не связанный с текущей задачей. Моделям же — в прикол этим заниматься.
Но складывается ощущение, что цикл замыкается: раньше люди генерировали баги, другие люди фиксили. Сейчас модели генерируют баги — и модели же их фиксят. Вот конкретный пример: DeFi-протокол Moonwell потерял $1,78 млн из-за ошибки в коде, который написал Claude. Баг был тривиальный — отсутствовало умножение при вычислении стоимости криптоактива. Вместо 2 000 долларов система выдавала 2. Те, кто заметили дисконт, за минуты нанесли ущерб почти на 2 млн.
Claude Code Security пока доступен только B2B-клиентам Anthropic.
Двумя неделями ранее OpenAI выпустили GPT 5.3 Codex Spark, которая выдавала больше 1 000 токенов/с.
Для контекста: обычные модели генерируют 60–100 токенов в секунду. А ребята из Taalas разместили нейросеть прямо на чипе с готовыми весами и получили 17 000 токенов/с. Попробовать самостоятельно можно тут: https://chatjimmy.ai
Прямо сейчас это, наверное, экономически нецелесообразно — модели эволюционируют быстро, чип с конкретной нейросетью устареет через месяц. Но сама технология перспективная. Когда модели перестанут сильно развиваться от версии к версии (а я думаю, это произойдёт), такие решения станут очередным толчком. А пока компания нарабатывает техническую экспертизу и клиентскую базу.
Уже сейчас OpenIDE позволяет разрабатывать проекты на Java, Spring, Python, Go, JavaScript и TypeScript! А поддержка Docker и 300+ плагинов доступны абсолютно бесплатно в маркетплейсе. Пробуйте российскую IDE в деле и подписывайтесь на нас в Telegram, чтобы не пропустить свежие обновления и полезные материалы.
Источник


