Всем привет! Делюсь итогом двухмесячной работы - релизом рейтинга юридического рассуждения больших языковых моделей Lexometrica Ground Truth.
Изначально цель была сугубо практической: требовалось выбрать лучшие модели для LegalTech-проекта "неШемяка!". Но в процессе пришлось столкнуться с фундаментальной проблемой индустрии оценки ИИ - открытые тесты дают сильно искаженную картину. Финальные результаты спроектированного стресс-теста оказались сколь ожидаемыми, столь же и неожиданными.
В этой статье подробно разобрано, как архитектурно выстроен бенчмарк, как велась борьба с test-set leakage, почему написан кастомный пайплайн и какие глобальные и локальные нейросети на самом деле умеют в legal reasoning, а какие - просто генерируют красивый текст.
В computer science до сих пор идут ожесточенные споры: есть ли "внутри" LLM настоящий логический вывод или это лишь сложная иллюзия, построенная на вероятностях токенов. Оставим эти материи Аманде Аскелл с ее "смысловыми ландшафтами" и "сжатыми паттернами знаний" и проф. Ивану Оселедцу. На практике важен другой аспект: может ли модель выстраивать многошаговые цепочки умозаключений (как толковый юрист), или она просто раскидывает тексты по рубрикам.
Долгое время индустрия оценки опиралась на тесты поколения LexGLUE или общие метрики (MMLU). Архитектурно они сводят сложнейшие правовые задачи к множественному выбору или сложной классификации (например, угадать нарушенную статью ЕСПЧ), что редуцирует право до поиска текстовых совпадений.
Далее появились более продвинутые вещи: проект LegalBench на Западе и MERA (Multimodal Evaluation for Russian-language Architectures) у нас. MERA - отличный инфраструктурный стандарт. Но в последние месяцы все открытые платформы накрыл кризис. Как только тестовые датасеты публикуются на GitHub или Hugging Face, происходит неизбежное загрязнение обучающих данных (test-set leakage). Модели парсят эти репозитории и на публичных тестах они выдают блестящие результаты за счет поверхностного semantic matching заученных ответов. Возникает “метрическая иллюзия” интеллекта - ИИ-отличник пасует перед первой же реальной, нестандартной задачей из практики.
Рекомендую на эту тему почитать “Benchmark Data Contamination of Large Language Models: A Survey” [Xu et al., 2024] и “Benchmarking Large Language Models Under Data Contamination: A Survey from Static to Dynamic Evaluation” [Chen et al., 2025], случайное или намеренное попадание тестовых датасетов в pre-training выборку приводит к тому, что LLM демонстрируют банальное заучивание (memorization) вместо заявленных аналитических способностей.
Black Box Rulez
Чтобы измерить реальный zero-shot reasoning, был выбран путь private benchmarks. В академической среде (см. выше) открытые тесты все чаще признаются нерелевантными из-за data contamination или test-set leakage.
Именно поэтому для Lexometrica Ground Truth было сформировано 30 уникальных кейсов на основе сложных правовых коллизий из практики Верховного Суда России. Фактология дел (весь context) была жестко анонимизирована и переписана, чтобы сбить поисковую память нейросетей. Разумеется, никаких публикаций и никаких публичных репозиториев. Благодаря этому тестируемая модель лишается возможности опираться на семантическое сопоставление (semantic matching) заученных текстов и вынуждена применять логику к абсолютно новой жизненной ситуации.
Под капотом бенчмарка
Архитектура, как и у всех, разделена на две независимые фазы:
Run - асинхронные вызовы через litellm (кроме Яндекса и Gigachat). Счетчик на Openrouter крутился как бешенный... 🙂
Score - отдельный этап вычисления метрик, который можно перезапускать без сжигания токенов на повторные API-запросы
Чтобы оцифровать "юридическую логику" взял за основу классическую правовую парадигму многошагового вывода IRAC (Issue, Rule, Application, Conclusion). Адаптировал ее под оценку генеративного ИИ, опираясь на таксономию академического проекта LegalBench.
В результате "юридическое мышление" LLM было декомпозировано на 5 когнитивных векторов:
Issue-spotting (поиск проблемы): способность нейросети выявить скрытые правовые и процессуальные риски в неструктурированной фабуле.
Rule-recall (знание нормы): точное извлечение из весов модели актуальной нормы ГК РФ или позиции Пленума и понимание ее последствий.
Interpretation (толкование): умение ИИ работать с оценочными и неоднозначными формулировками (например, "разумный срок" или "добросовестное поведение").
Rule-application (применение) - ядро теста: способность наложить абстрактную норму на конкретные, запутанные жизненные обстоятельства.
Rule-conclusion (логический вывод): финальный дедуктивный вывод из выстроенной связки норм и фактов.
Как считался Composite Score
Поскольку полагаться исключительно на "судейство" LLM рискованно, была выведена гибридная формула:
composite_score = primary_score_avg (1 - 0.2 safety_paradox_rate) (0.85 + 0.15 citations_ok_rate)
Где:
Primary Score (базовый балл) оценивается по концепции LLM-as-a-Judge. Чтобы модель не оценивала саму себя, судейская коллегия была сформирована из двух независимых арбитров (Claude Opus 4.6 и Gemini 3.1 Pro). После этого проводилась ручная верификация: COALESCE(manual_score, judge_score).
Citations (бонус за цитирование) выявлялся через regex-детекторы. Точная ссылка на статьи НПА давала повышающий коэффициент.
Safety Paradox (штраф за "трусость") детекция гипертрофированной осторожности (over-refusal), когда из-за внутренних фильтров (alignment) модель отвечает: "Я ИИ и не даю юридических советов".
Через пайплайн прошло 10 актуальных моделей: от глобальных флагманов до азиатских open-source систем и отечественных разработок.
Ниже представлен главный рейтинг по итоговой оценке. Полная декомпозиция результатов по отдельным когнитивным векторам доступна в соответствущем разделе проекта Lexometrica: https://lexometrica.com/bench/
Основываясь на представленных данных Lexometrica Ground Truth (март 2026), можно сделать ряд интересных и неочевидных выводов о текущем состоянии ИИ в сфере российского права.
Глобальные флагманы GPT-5.4 Pro и Claude Opus 4.6 играют в собственной лиге, недосягаемой для конкурентов (0.90 и 0.85 Composite Score соответственно).
GPT-5.4 Pro выступает идеальным “судебным аналитиком”: у него абсолютные показатели в поиске скрытых рисков (Issue Spotting: 1.00) и знании норм (Rule Recall: 1.00), а также лучший балл по применению нормы к сложной фабуле (Rule Application: 0.80).
Claude Opus 4.6 показывает себя как превосходный "методолог". При небольшой уступке в применении норм, он обходит GPT в самом тонком векторе - толковании неоднозначных формулировок (Interpretation: 0.90 против 0.75 у GPT).
Модель Gemini 3.1 Pro заняла 3-е место, но ее когнитивный профиль крайне несбалансирован. Она блестяще "помнит" российское право (Rule Recall: 0.99 - уровень GPT и Claude), однако катастрофически проседает на этапе логического вывода (Rule Conclusion: 0.47) и поиска проблем (Issue Spotting: 0.59). Это классический пример модели, которая работает как мощный поисковик по кодексам, но теряет нить рассуждения, когда нужно связать несколько норм с нетипичными фактами из практики ВС РФ. К тому же, у неё проседает точность цитирования (87%).
Китайские модели, особенно Qwen3.5 Plus, демонстрируют удивительный паттерн:
Они обладают выдающимся математико-логическим ядром. Qwen показывает идеальное толкование (Interpretation: 1.00) и превосходный логический вывод (Rule Conclusion: 0.85).
Однако они полностью проваливаются в фактологии российского права (Rule Recall у Qwen всего 0.25, у Kimi - 0.30).
Таким образом, азиатские модели (Qwen, GLM) обладают блестящим потенциалом для LegalTech, но применять их "из коробки" (zero-shot) бессмысленно. Они требуют обязательной интеграции с системами RAG (Retrieval-Augmented Generation), чтобы компенсировать незнание локальных законов.
Российские модели, GigaChat 2 Max и YandexGPT Pro 5.1, пока замыкают рейтинг, однако эти результаты стоит воспринимать скорее как понятную дорожную карту для их дальнейшего развития в области сложного юридического рассуждения.
У GigaChat 2 Max есть хороший потенциал, но пока модель демонстрирует базовый, сдержанный уровень в применении норм (Rule Application: 0.45) и логическом выводе (0.42). Архитектуре явно есть куда расти в плане многошаговой аналитики.
YandexGPT Pro 5.1 пока уступает конкурентам в выявлении рисков (Issue Spotting: 0.13) и логике (0.17). При этом она стала единственной моделью, получившей штраф за Safety Paradox (7%). Это говорит о том, что разработчики сделали ставку на максимальную безопасность. Обратная сторона такого подхода - нейросеть излишне перестраховывается и периодически уклоняется от ответа на легитимные правовые вопросы, выдавая заглушки в духе "Я ИИ и не даю юридических советов".
Если говорить о готовых production-решениях "из коробки" (в режиме zero-shot) на март 2026 года, наиболее надежным выбором остаются GPT-5.4 Pro и Claude Opus 4.6. Однако не следует забывать про комплаенс: деперсонализация, удаления конфиденциальных данных и т. п..
Для задач, где важна экономия или использование open-source, отлично подойдут китайские товарищи (особенно Qwen), но их обязательно нужно интегрировать с RAG-пайплайном, который обеспечит актуальными законодательством и судебной практикой.
Что касается отечественных моделей, перед ними открываются четкие перспективы для дообучения: углубление навыков многошагового рассуждения и поиск более тонкого баланса между корпоративной безопасностью и реальной прикладной пользой.
Отмечу, что тестировались только модели общего назначения (general-purpose), доступные через публичные API. Придет время и для специализированных legal-tech продуктов (например, когда Яндекс выкатит API своего дообученного "Нейроюриста").
Ландшафт меняется стремительно, поэтому Lexometrica Ground Truth будет регулярно обновляться. Интересно наблюдать в динамике, как модели наращивают контекстное окно и, увы, обрастают новыми системными страхами.
Интересно будет услышать мнение, какие из результатов удивили вас. Лично меня сильно расстроил Gemini 3.1 Pro (0.62 балла). Хотя в последних профильных статьях отмечалось, что именно архитектура от Google подвержена катастрофическим сбоям на юридических нюансах локальных юрисдикций (писали про Канаду).
P.S.
У многих возникнет вопрос: а где же небожитель ИИ-Олимпа - o1-pro от OpenAI? Увы, прайс в $600/1m стал надежным барьером на пути безрассудного сжигания токенов. Да и в основе исследования лежала сугубо практическая задача - выбрать рентабельный движок для продукта, а не тестировать пределы "мыслительных" возможностей ИИ.
Никита Поляков
🌐 lexometrica.com | neshemyaka.ru
Источник



Новостной анализ
Поделиться
Поделиться этой статьей
Скопировать ссылкуX (Twitter)LinkedInFacebookEmail
Угроза Трампа заблокировать Конгресс из-за