Купить крипто Рынки Спот Фьючерсы Заработок

Любой, кто пытался прикрутить LLM к реальному продакшену в узком домене (медицина, право, инженерия), проходил стадию отрицания: "Да ладно, сейчас промпт подкруЛюбой, кто пытался прикрутить LLM к реальному продакшену в узком домене (медицина, право, инженерия), проходил стадию отрицания: "Да ладно, сейчас промпт подкру

Почему «голая» GPT не тянет юриспруденцию: разбираем архитектуру китайской LabourLawLLM

Источник: ProBlockChain

2026/01/17 17:37

4м. чтение

Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Любой, кто пытался прикрутить LLM к реальному продакшену в узком домене (медицина, право, инженерия), проходил стадию отрицания: "Да ладно, сейчас промпт подкручу, RAG прикручу — и полетит".

Не полетит. 🙂

На этой неделе (январь 2026 г.) вышел любопытный китайский препринт "Chinese Labor Law Large Language Model Benchmark". Авторы сделали то, до чего у большинства стартапов не доходят руки: вместо написания очередной обертки над OpenAI API, они построили жесткий бенчмарк и доказали, что General-purpose модели сливают специализированным SFT-моделям, как только дело доходит до специфической логики и расчетов. Ниже - разбор статьи с проекцией на мой опыт разработки neshemyaka.ru (Legal AI для оценки исков). Спойлер: китайцы математически подтвердили то, что пришлось выяснять через боль и сжигание токенов.

Суть проблемы: Generalist vs Specialist

Основная гипотеза авторов: большие модели страдают от "размытия" контекста. Когда модель знает всё обо всём, она начинает галлюцинировать в задачах, требующих строгой импликации (если А, то Б, но только при условии В). Для проверки они собрали LabourLawBench - датасет из 12 типов задач по трудовому праву. И это не просто "вопрос-ответ".

Архитектура бенчмарка (можно сказать, feature map для разработчика)

Если вы пилите LegalTech, забирайте этот список как готовое ТЗ. Авторы выделили 12 задач:

Statute Recitation (T1): Точное воспроизведение нормы (Retrieval memory).
Knowledge QA (T2-T3): Классические тесты.
Case-Type Prediction (T4): Классификация (Multi-class classification).
Welfare Compensation Prediction (T5): Самое интересное. Предиктивный расчет компенсаций. Это то место, где LLM традиционно «плывут», пытаясь угадать цифру, а не посчитать её.
NER & Mining (T6-T8): Извлечение сущностей, требований и сути спора.
Statute Prediction (T9-T10): Предсказание применимой статьи (Reasoning).
Case Analysis (T11-T12): Генерация текста решения.

Результаты тестов:

Специализированная модель LabourLawLLM (дообученная на корпусе трудового права) показала лучшие метрики (Rouge-L, F1, Accuracy) по сравнению с базовыми LLaMA, ChatGLM и даже GPT-4 в специфических задачах. Особенно показателен провал дженералистов в T5 (Calculations) и T1 (Citation). GPT-4 может написать красивое эссе, но когда нужно маппить 40 видов китайских социальных выплат на фабулу дела — она ошибается.

Методология оценки: LLM-as-a-Judge

Авторы используют гибридную оценку: для классификации/извлечения - Hard Metrics (Accuracy, F1). Для генерации (Case Analysis) - LLM-as-a-Judge (используют GPT-4 для скоринга ответов других моделей). И такой подход постепенно становится стандартом. В своем проекте я пришел к аналогичной схеме: валидировать юридический "ризонинг" регулярками невозможно. Приходится строить каскад, где "старшая" модель оценивает адекватность "младшей".

Как это бьется с моей практикой

Когда я пилил neshemyaka.ru (сервис первичного скоринга судебных исков), я наступил на те же грабли, что описаны в статье. Ожидание было понятным - User Input -> RAG (простенький, но специализированный в разных доменах) -> LLM -> Score.

В реальности же GPT (да и не только она) выдает очень гладкий, уверенный, но юридически бессмысленный текст. Например, она прекрасно «понимает» эмоцию истца, но пропускает пропущенный срок исковой давности, потому что для неё это просто дата в тексте, а не блокирующий фактор.

После этого пришлось уйти от ушли от монолитного промпта к пайплайну (chain of thought + decomposition), похожему на структуру задач, предложенный в статье:

Pre-processing (NER): Отдельная задача на выделение дат, сумм и требований (аналог T6/T7 из статьи).
Reasoning Layer: Модель не "пишет ответ", а сначала классифицирует тип спора (аналог T4).
Validation: Вместо одной модели работает ансамбль (consensus check). Если GPT, Claude или другая модель расходятся в оценке шансов (например, разброс > 20%), система помечает этот кейс как "неопределенный".

Выводы из статьи

Supervised Fine-Tuning жив, а RAG - не панацея. Если вам нужен специфический формат вывода (например, JSON с разбивкой по 40 видам компенсаций), проще дообучить небольшую модель (7B-13B), чем мучить контекстное окно промптами на 10к токенов.
Decomposition "is a кing". Не пытайтесь решить задачу одним запросом "Будь юристом". Разбивайте её этапы - "Классифицируй", "Найди нормы", "Посчитай", «Сведи».
Бенчмарки решают. Пока у вас нет своего "золотого датасета" (хотя бы 100 размеченных кейсов, или как 600 в статье), вы не разрабатываете AI, вы просто играете в казино с API OpenAI.

P.S. Кому интересна статья - ссылка на arXiv. Код neshemyaka.ru пока не открывал, но сам сервис доступен — можно покидать в него иски и посмотреть, как он "галлюцинирует", но уже весьма уверенно.🙂

Источник

Не пропустите U-Фест с 200 000$

Получите mystery box, 12% APR и подарки на 200$!

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Новости 24/7 в прямом эфире

Еще

Биткоин упал ниже 74 000 долларов после отказа Ирана от мирных переговоров с США.

Автор: Nehal14:39

RAVE обрушился на 98% за два дня, потеряв 6,7 млрд долларов рыночной капитализации, что стало редким событием в истории криптовалют.

Автор: 比特老马13:31

Снижение объемов торгов указывает на возможный потолок для восстановления.

Автор: DEG11:17

ТРАМП поддерживает Закон о прозрачности (CLARITY ACT), нацеленный на стимулирование внедрения криптовалют и укрепление позиции США как мирового лидера в сфере криптоиндустрии.

Автор: Crypto King09:40

Президент Трамп подпишет закон CLARITY. Подчёркнуты потенциальные последствия для биткоина и альткоинов. Участники рынка внимательно следят за развитием ситуации.

Автор: Bitcoin professor09:31

Быстрое чтение

Еще

Цены на криптовалюту

Биткоин

BTC

$74,769.47

$74,769.47$74,769.47

-1.42%

Эфириум

ETH

$2,285.73

$2,285.73$2,285.73

-1.93%

Солана

SOL

$84.52

$84.52$84.52

-2.15%

Рипл

XRP

$1.4137

$1.4137$1.4137

-1.20%

USDCoin

USDC

$0.9995

$0.9995$0.9995

+0.01%

Генезис USD1: 0% + 12% APR

Новые пользователи: Стейкайте и получите до 600% APR

Почему «голая» GPT не тянет юриспруденцию: разбираем архитектуру китайской LabourLawLLM

Вам также может быть интересно

Хакеры выдали себя за команду eth.limo и захватили домен: Разбор инцидента

Индекс доллара США взлетает: рост к безопасным активам выше 98,00 на фоне эскалации напряжённости между США и Ираном

Как расширение для резюмирования видео на YouTube помогает вам экономить время на длинных видео

Популярные новости

Биткоин теряет выходные достижения на фоне давления на перемирие между США и Ираном

Пакт о сотрудничестве AfDB ESM укрепляет финансовую стабильность

IPTV не работает? Пошаговое руководство по устранению всех распространенных проблем

Маркос: Мы вернем домой Залди Ко в соответствии с законом

ПРОВЕРКА ФАКТОВ: Дутерте не будет отправлен в Японию после встречи Марколеты и Фудзики

Новости 24/7 в прямом эфире

Быстрое чтение

BEEG против BONK: какая монета Meme имеет более взрывной потенциал роста в 2026 году?

293 миллиона долларов исчезли за 46 минут: взлом моста Kelp DAO, который нарушил самые большие предположения DeFi

Прогноз цены BEEG на 2026 год: насколько высоко может подняться синий кит в этом году?

BEEG Снижение на 98% по сравнению с ATH - умная ловушка для покупки или стоимости? 2026 Глубокое погружение

Вы пропустили БИГ? Есть ли еще время войти в 2026 году?

Цены на криптовалюту