Это перевод оригинальной статьи Андрея Карпатого.2025 оказался насыщенным годом для больших языковых моделей. Ниже — список лично для меня заметных и немного неЭто перевод оригинальной статьи Андрея Карпатого.2025 оказался насыщенным годом для больших языковых моделей. Ниже — список лично для меня заметных и немного не

[Перевод] 2025: год, когда LLM-ы по-настоящему изменились

2025/12/21 15:31
8м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Это перевод оригинальной статьи Андрея Карпатого.

2025 оказался насыщенным годом для больших языковых моделей. Ниже — список лично для меня заметных и немного неожиданных «смен парадигм». Вещи, которые изменили ландшафт и концептуально запомнились.

1. Reinforcement Learning from Verifiable Rewards (RLVR)

В начале 2025 года стек производства LLM во всех лабораториях выглядел примерно так:

  • Претрейнинг (GPT-2/3, ~2020)

  • Supervised Finetuning (InstructGPT, ~2022)

  • RLHF — обучение с подкреплением на основе человеческой обратной связи (~2022)

Это был устоявшийся, проверенный рецепт для обучения продакшн-моделей. В 2025 году к этому миксу добавился новый большой этап — RLVR, обучение с подкреплением на верифицируемых наградах. Работает это так: модели тренируются на задачах, где можно автоматически проверить правильность ответа — математика, кодовые головоломки и тому подобное. И вот что интересно: в процессе LLM-ы спонтанно вырабатывают стратегии, которые для людей выглядят как «рассуждение». Они учатся разбивать решение на промежуточные шаги, пробовать разные подходы, возвращаться назад и перепроверять себя. В статье DeepSeek R1 много примеров.

Раньше добиться такого поведения было сложно. Непонятно ведь, как должны выглядеть оптимальные цепочки рассуждений для конкретной модели — она сама должна найти то, что работает именно для неё через оптимизацию на награды.

В отличие от SFT и RLHF, которые представляют собой относительно короткие этапы (небольшой дообучение с точки зрения вычислений), RLVR позволяет оптимизировать модель намного дольше — потому что функция награды объективная, её нельзя «обмануть». Оказалось, что RLVR даёт отличное соотношение способностей на доллар затрат, и он сожрал вычислительные ресурсы, изначально планировавшиеся на претрейнинг. Поэтому основной прогресс 2025 года определялся тем, что лаборатории «прожёвывали» накопившийся потенциал этого нового этапа: модели остались примерно такого же размера, но RL-прогоны стали намного длиннее.

И ещё одна уникальная особенность RLVR: появилась новая ручка настройки (со своим законом масштабирования) — можно управлять способностями модели через вычисления на этапе инференса, генерируя более длинные цепочки рассуждений и увеличивая «время на размышление».

OpenAI o1 в конце 2024 года стал первой демонстрацией RLVR-модели. Но именно релиз o3 в начале 2025-го стал точкой перелома — разницу можно было почувствовать интуитивно.

2. Призраки против животных / Рваный интеллект

2025-й — это год, когда я (и, кажется, вся индустрия тоже) впервые по-настоящему прочувствовал «форму» интеллекта LLM. Мы не «выращиваем животных» — мы «призываем духов». Всё в стеке LLM принципиально другое: архитектура нейросети, обучающие данные, алгоритмы, а главное — давление оптимизации. Неудивительно, что мы получаем совершенно иные сущности в пространстве интеллекта, и думать о них в терминах животных — неправильно.

С точки зрения битов супервизии: человеческие нейросети оптимизированы для выживания племени в джунглях, а нейросети LLM оптимизированы для имитации человеческих текстов, сбора наград в математических головоломках и получения лайков от людей на LM Arena.

Поскольку верифицируемые области позволяют применять RLVR, LLM-ы «выстреливают» в способностях вблизи этих областей. В результате их характеристики производительности забавно неровные: они одновременно гениальные полиматы и растерянные, когнитивно ограниченные школьники, которых через секунду можно обмануть джейлбрейком и заставить слить ваши данные.

(Человеческий интеллект — синий, ИИ — красный. Мне нравится эта версия мема (к сожалению, потерял ссылку на оригинальный пост в X) за то, что она показывает: человеческий интеллект тоже рваный, просто по-своему.)

С этим связана моя общая апатия и потеря доверия к бенчмаркам в 2025 году. Проблема в том, что бенчмарки почти по определению — верифицируемые среды, а значит, сразу подвержены RLVR и его более слабым формам через генерацию синтетических данных. В типичном процессе «бенчмарк-максинга» команды в лабораториях неизбежно строят среды, смежные с маленькими карманами пространства эмбеддингов, занятых бенчмарками, и наращивают «рваные выступы», чтобы их покрыть. Тренировка на тестовом наборе — это новая форма искусства.

Как выглядит мир, где все бенчмарки разгромлены, а AGI всё ещё нет?

Подробнее на эту тему я писал здесь:

  • Animals vs. Ghosts

  • Verifiability

  • The Space of Minds

3. Cursor / Новый слой LLM-приложений

Самое примечательное в Cursor (помимо его стремительного взлёта в этом году) — он убедительно показал новый слой «LLM-приложения». Люди начали говорить «Cursor для X». Как я подчеркнул в своём выступлении на Y Combinator в этом году (транскрипт и видео), LLM-приложения вроде Cursor объединяют и оркестрируют вызовы LLM для конкретных вертикалей:

  • Они занимаются «контекстной инженерией»

  • Они оркестрируют несколько вызовов LLM под капотом, связывая их во всё более сложные DAG-и, тщательно балансируя производительность и стоимость

  • Они предоставляют GUI, специфичный для приложения, для человека в цикле

  • Они предлагают «ползунок автономности»

В 2025 году много обсуждали, насколько «толстый» этот новый слой приложений. Захватят ли лаборатории LLM все приложения, или для LLM-приложений есть зелёные пастбища? Лично я думаю, что лаборатории LLM будут выпускать универсально способного выпускника колледжа, а LLM-приложения будут организовывать, дообучать и превращать команды таких выпускников в работающих профессионалов в конкретных вертикалях — поставляя приватные данные, сенсоры, актуаторы и петли обратной связи.

4. Claude Code / ИИ, который живёт на вашем компьютере

Claude Code (CC) стал первой убедительной демонстрацией того, как выглядит LLM-агент — нечто, что в цикле связывает использование инструментов и рассуждения для длительного решения задач. Кроме того, CC примечателен тем, что он работает на вашем компьютере, с вашим приватным окружением, данными и контекстом.

Мне кажется, OpenAI тут ошиблись, потому что сфокусировали усилия по Codex/агентам на облачных деплоях в контейнерах, оркестрируемых из ChatGPT, вместо localhost. И хотя рои агентов в облаке ощущаются как «эндгейм AGI», мы живём в промежуточном мире с достаточно медленным взлётом и рваными способностями, где имеет смысл просто запускать агентов на компьютере, рука об руку с разработчиками и их конкретным сетапом.

CC правильно расставил приоритеты и упаковал это в красивый, минималистичный, убедительный CLI-формат, который изменил то, как выглядит ИИ. Это не просто сайт, на который ты заходишь как в Google. Это маленький дух/призрак, который «живёт» на твоём компьютере. Это новая, отдельная парадигма взаимодействия с ИИ.

5. Вайбкодинг

2025 — год, когда ИИ перешёл порог способностей, необходимый для создания всевозможных впечатляющих программ просто на английском языке, забывая, что код вообще существует. Забавно, что я придумал термин «vibe coding» в этом потоке мыслей в твиттере, совершенно не представляя, как далеко он зайдёт :)

С вайбкодингом программирование больше не зарезервировано строго для высококвалифицированных профессионалов — это то, что может делать кто угодно. В этом смысле это ещё один пример того, о чём я писал в «Power to the people: How LLMs flip the script on technology diffusion»: в отличие от всех предыдущих технологий, обычные люди получают от LLM намного больше пользы, чем профессионалы, корпорации и правительства.

Но вайбкодинг не только наделяет обычных людей способностью подступиться к программированию — он даёт профессионалам возможность писать намного больше (вайбкодированного) софта, который иначе никогда бы не был написан. В nanochat я вайбкодил свой собственный высокоэффективный BPE-токенизатор на Rust вместо того, чтобы адаптировать существующие библиотеки или изучать Rust на таком уровне. Я вайбкодил много проектов в этом году как быстрые демо-приложения чего-то, что хотел чтобы существовало (например, menugen, llm-council, reader3, HN time capsule). И я вайбкодил целые эфемерные приложения просто чтобы найти один баг — а почему бы и нет: код вдруг стал бесплатным, эфемерным, податливым, одноразовым. Вайбкодинг терраформирует софт и изменит должностные обязанности.

6. Nano Banana / GUI для LLM

Google Gemini Nano Banana — одна из самых невероятных, меняющих парадигму моделей 2025 года. В моей картине мира LLM-ы — это следующая большая вычислительная парадигма, похожая на компьютеры 1970-х, 80-х и так далее. Поэтому мы увидим аналогичные виды инноваций по принципиально схожим причинам. Мы увидим эквиваленты персональных компьютеров, микроконтроллеров (когнитивное ядро), интернета (агентов) и так далее.

В частности, в плане UI/UX «чатиться» с LLM — это немного как вводить команды в консоль компьютера в 1980-х. Текст — это сырой/предпочтительный формат данных для компьютеров (и LLM), но это не предпочтительный формат для людей, особенно на входе. Люди на самом деле не любят читать текст — это медленно и требует усилий. Вместо этого люди любят потреблять информацию визуально и пространственно — поэтому GUI и был изобретён в традиционных вычислениях.

Точно так же LLM должны говорить с нами в нашем предпочтительном формате — в изображениях, инфографике, слайдах, досках, анимациях/видео, веб-приложениях и так далее. Ранняя и нынешняя версия этого — конечно, эмодзи и Markdown, которые являются способами «приодеть» и разложить текст визуально для более лёгкого восприятия с заголовками, жирным, курсивом, списками, таблицами и так далее.

Но кто на самом деле построит GUI для LLM? В этой картине мира Nano Banana — первый ранний намёк на то, как это может выглядеть. И важно: дело не только в генерации изображений самой по себе, а в совместной способности, возникающей из генерации текста, генерации изображений и знания о мире, всё переплетённое в весах модели.

Резюме. 2025 был волнующим и немного неожиданным годом для LLM. LLM-ы проявляются как новый вид интеллекта — одновременно намного умнее, чем я ожидал, и намного тупее, чем я ожидал. В любом случае они чрезвычайно полезны, и мне кажется, индустрия не реализовала и близко 10% их потенциала даже при нынешних способностях. Между тем, так много идей, которые можно попробовать, и концептуально область ощущается широко открытой. И как я упомянул в подкасте у Дваркеша ранее в этом году, я одновременно (и на первый взгляд парадоксально) верю, что мы и увидим быстрый, продолжающийся прогресс, и что ещё очень много работы впереди. Пристегнитесь.

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Исследование Белого дома оспаривает запрет доходности стейблкоинов на фоне роста ставок в Сенате по законопроекту CLARITY

Исследование Белого дома оспаривает запрет доходности стейблкоинов на фоне роста ставок в Сенате по законопроекту CLARITY

Исследование Белого дома подрывает аргументы в пользу запрета доходности стейблкоинов, усиливая давление на Сенат по мере интенсификации дебатов о криптополитике, связанных с CLARITY.
Поделиться
coinlineup2026/04/15 22:51
Пакистан разрешает банкам обслуживать лицензированные криптовалютные компании

Пакистан разрешает банкам обслуживать лицензированные криптовалютные компании

Пост «Пакистан разрешает банкам обслуживать лицензированные криптокомпании» появился на BitcoinEthereumNews.com. Пакистан отменяет запрет 2018 года на криптобанкинг для виртуальных компаний, лицензированных PVARA
Поделиться
BitcoinEthereumNews2026/04/16 00:35
Новая глава для инфраструктуры Ethereum

Новая глава для инфраструктуры Ethereum

Новость о новой главе в инфраструктуре Ethereum появилась на BitcoinEthereumNews.com. ETHGas и ether.fi объединили усилия в прорывном проекте на $3 млрд
Поделиться
BitcoinEthereumNews2026/04/16 00:07

Генезис USD1: 0% + 12% APR

Генезис USD1: 0% + 12% APRГенезис USD1: 0% + 12% APR

Новые пользователи: Стейкайте и получите до 600% APR