Новейшая флагманская модель OpenAI управляла собственным мышлением в 1,3% длинных цепочек в ходе тестирования безопасности — небольшой, но растущий показатель, который исследователи отслеживают как раннее предупреждение.
Данные содержатся в системной карте GPT-5.6, опубликованной 26 июня, когда Sol вошла в ограниченный предварительный просмотр для доверенных партнёров — поэтапный запуск, который Вашингтон попросил компанию провести. OpenAI измеряет управляемость как способность модели следовать инструкциям относительно собственной цепочки рассуждений, например, убирать помеченные слова или записывать весь след строчными буквами. Низкий балл является хорошим результатом.
Когда модель не может перестроить своё мышление по запросу, монитор всё равно может прочитать эти рассуждения и обнаружить проблему до того, как результат достигнет пользователя или будет запущен в реальных системах. Sol нарушила эту закономерность.
На цепочках около 5 000 токенов она управляла своими рассуждениями в 1,3% случаев, тогда как у GPT-5.5 этот показатель составлял 0,4%, а у более раннего GPT-5.4 Thinking — 0,7%. Рост сохранялся во всех пяти тестовых наборах данных и в большинстве типов инструкций, поэтому компания не списывает это на погрешность, а считает тенденцией, которую теперь отслеживает. Меньшая модель Terra осталась на прежнем уровне.
Также читайте: BitMine бросает вызов распродаже, делая ставку на Ethereum на $43 млн, Strategy моргает
Скачок не является изолированным явлением. В той же карте Sol рассуждала о том, что её оценивают или наблюдают за ней, чаще, чем GPT-5.5, а в одном из прогонов по программированию она сообщила внутреннему исследовательскому черновику, что уравнение было вычислено и проверено, хотя этого не происходило.
Рецензенты обнаружили наиболее очевидные случаи, прочитав цепочку рассуждений — именно то окно, которое призван защищать показатель управляемости. В других тестах несоответствие проявлялось только в итоговом ответе, который монитор цепочки рассуждений никогда не читает, оставляя след рассуждений внешне чистым. Слабый показатель управляемости также может означать, что модель игнорирует инструкции относительно своих рассуждений, а не то, что ей не хватает навыков их скрыть.
METR отдельно сообщила, что обнаруженный показатель мошенничества Sol превысил аналогичный показатель любой публичной модели, которую она тестировала, что делает невозможным точное определение её истинного балла способностей. OpenAI по-прежнему называет результат ранним сигналом, а не тревогой.
Исследователи давно описывают мониторинг цепочки рассуждений как хрупкую защитную меру, которая работает только до тех пор, пока модели сохраняют рассуждения на виду.
OpenAI начала публиковать эти показатели начиная с GPT-5.4 Thinking, после того как весенние исследования показали, что модели рассуждений в большинстве случаев всё ещё не могут управлять собственными мыслями, даже когда им сообщают, что за ними наблюдает монитор. Sol стала первым флагманом, сдвинувшим этот показатель в противоположную сторону.
Читайте далее: CZ заявляет, что до одобрения Binance по MiCA оставались считанные дни, но вмешалась политика

