Купить крипто Рынки Спот ФьючерсыGOLD Сбережения Центр событий

Еще

Проблема: Галлюцинации в инженерных расчетахЯ занимаюсь расчетами строительных конструкций в комплексе SOFiSTiK. Основной инструмент взаимодействия с ним — внутПроблема: Галлюцинации в инженерных расчетахЯ занимаюсь расчетами строительных конструкций в комплексе SOFiSTiK. Основной инструмент взаимодействия с ним — внут

Fine-tuning Qwen-8B под проприетарный синтаксис (CADINP) на одной RTX 3090: опыт инженера-конструктора

Источник: ProBlockChain

2026/01/21 08:38

4м. чтение

RTX$1.503-0.26%

Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Проблема: Галлюцинации в инженерных расчетах

Я занимаюсь расчетами строительных конструкций в комплексе SOFiSTiK. Основной инструмент взаимодействия с ним — внутренний язык CADINP. Это мощный, но старый процедурный язык с жестким синтаксисом: строгая последовательность модулей (AQUA -> SOFIMSHC -> ASE), специфичные команды фиксации узлов и неявные зависимости.

SOTA-модели (ChatGPT-4o, Claude 3.5 Sonnet) справляются с CADINP посредственно. Основные проблемы при генерации кода general-purpose моделями:

Синтаксический шум: Выдумывание несуществующих аргументов функций.
Потеря контекста: Забывают объявить материалы перед их использованием.
Ошибки физики: Игнорирование степеней свободы (например, отсутствие фиксации кручения для 3D-стержней), что приводит к сингулярности матрицы жесткости.

Имея на руках рабочую станцию с NVIDIA RTX 3090 (24 GB), я поставил задачу: дообучить (fine-tune) небольшую открытую LLM, которая понимала бы специфику инженерной логики лучше, чем гиганты от OpenAI.

Стек и железо

GPU: GeForce RTX 3090 (24 GB VRAM).
OS: Windows 11 + WSL2 (Ubuntu).
Фреймворк: Unsloth (для оптимизации памяти и скорости).
Базовая модель: Qwen 2.5 / Qwen 3 (экспериментировал с размерами 7B, 14B, 8B).

Подготовка данных: Chain of Thought

Просто "скармливать" модели мануалы оказалось неэффективным. Модель учила определения, но не логику построения скрипта.
Я собрал датасет из 3500+ пар «Инструкция — Решение», используя подход Chain of Thought (CoT).

Вместо прямой генерации кода я заставил модель сначала формировать блок рассуждений <think>. Это критически важно для инженерных задач.

Пример структуры jsonl (переведено на русский язык для наглядности):

{ "messages": [ {"role": "user", "content": "Смоделируй бетонную балку 6м..."}, {"role": "assistant", "content": "<think>Задача на статику. Нужно определить материал в AQUA, затем геометрию. Внимание: балка в пространстве, необходимо закрепить поворот вокруг оси X.</think>\n+PROG AQUA..."} ] }

Разметка и валидация датасета производилась полуавтоматически с помощью скриптов на Python.

Датасет, собственной персоной

Процесс обучения и борьба с VRAM

Основным вызовом стало ограничение памяти. 24 ГБ VRAM — это пограничное значение для полноценного файнтюнинга даже квантованных моделей, если требуется длинный контекст.

Попытка 1: 14B-модель.
При контексте max_seq_length = 4096 (необходимо для длинных скриптов) я столкнулся с OOM (Out Of Memory). Оверхед WSL и системы съедал около 2-3 ГБ, и батч даже в 1 единицу не влезал.

Попытка 2: 7B-модель (Overfitting).
Обучение на 6 эпох привело к деградации модели. Loss упал до 0.02, модель начала выдавать мусорные токены и перешла на китайский язык (особенность базы Qwen).

Финальная конфигурация:
Я остановился на архитектуре 8B (Qwen 3) с дистилляцией логики DeepSeek.

Гиперпараметры, которые дали стабильный результат:

LoRA Rank/Alpha: 32 / 64 (Агрессивное обучение для лучшего запоминания синтаксиса).
Epochs: 3 (Оптимум для предотвращения оверфиттинга на датасете в 3.5к записей).
Learning Rate: 2e-4 с косинусным планировщиком.
Gradient Accumulation: 8.
- Важный нюанс: Так как физический Batch Size на карте был равен 2, накопление градиента (8 шагов) позволило эмулировать эффективный батч = 16. Это сгладило кривую обучения и сделало модель более "вдумчивой".

Результаты

Модель была квантована в GGUF (q8_0) для инференса через LM Studio.

На тестовых задачах модель демонстрирует способность к самокоррекции через блок <think>.
Пример (сокращенно):

Скрин из LM Studio

Модель корректно расставляет FIX PPMX (фиксация кручения) и соблюдает иерархию модулей. Ошибки случаются (примерно в 10-15% случаев), чаще всего связаны с модулем SOFIMSHA и SOFIMSHC, ответственные за генерацию сетки конечных элементов.

Заключение и планы

На данный момент получился специализированный локальный Copilot, который в узкой доменной области CADINP работает точнее, чем универсальные модели. Проект полностью некоммерческий и открытый (Open Weights).

Где взять:
Модель опубликована на Hugging Face. Там же, в карточке модели (README), я собрал всю необходимую информацию:

Ссылку на скачивание GGUF (q8_0).
Инструкцию по запуску через LM Studio.
Контакты для обратной связи (Телеграм, Discussions) — для тех, кто готов помочь с тестированием.

Планы на v2:
Сейчас я собираю «Red Team» из инженеров для поиска edge-cases — сценариев, где модель ошибается. Если вам интересна тема применения локальных LLM в проектировании, буду рад вашим баг-репортам. Ссылки на каналы связи ищите в описании модели.

Репозиторий проекта:
ссылка

Источник

Возможности рынка

RateX Курс (RTX)

$1.503

$1.503$1.503

0.00%

USD

График цены RateX (RTX) в реальном времени

Не пропустите U-Фест с 200 000$

Получите mystery box, 12% APR и подарки на 200$!

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Блокада Ормузского пролива усиливает опасения по поводу поставок нефти на фоне напряженности между США и Ираном

Статья о блокаде Ормузского пролива, вызывающей опасения по поводу поставок нефти на фоне напряженности между США и Ираном, появилась на BitcoinEthereumNews.com. Ормузский пролив, через который проходит около

BitcoinEthereumNews2026/04/20 00:54

Предварительный обзор: BYD Sealion 7 и BYD Atto 2 EV

BYD PHILIPPINES провела свою крупнейшую на сегодняшний день выставку на недавно завершившемся Манильском международном автосалоне (MIAS), заявив, что продемонстрировала своё "видение электрифицированного

Bworldonline2026/04/20 00:07

Ставки по казначейским векселям и облигациям могут быть смешанными, пока рынок ожидает решения BSP

Доходность по казначейским векселям (T-bills) и казначейским облигациям (T-bonds), которые будут проданы на аукционе на этой неделе, может быть неоднозначной, поскольку участники рынка ожидают решения Центрального банка Филиппин

Bworldonline2026/04/20 00:04

Объединяйтесь для 10 млн USDT

200К$ в золоте и mystery box для ранних участников

Новости 24/7 в прямом эфире

Еще

Сегодня через Ормузский пролив не прошёл ни один нефтяной танкер, что ознаменовало его первую в истории полную блокировку.

Автор: Rockerfeller04:32

OpenClaw интегрируется с Solana и агентскими кошельками, демонстрируя потенциальное сотрудничество внутри экосистемы и технологическую синергию.

Автор: fxnction04:16

Выкуп и сжигание токенов $HYPE на сумму $1,1M, удалено около 26 500 токенов из обращения, что влияет на динамику предложения.

Автор: ryandcrypto03:59

TVL AAVE снизился на 25% после эксплойта KelpDAO.

Автор: TylerD 🧙‍♂️01:13

65% институтов рассматривают криптоактивы, включая биткоин, как инструмент диверсификации.

Автор: Rockerfeller00:55

Быстрое чтение

Еще

Цены на криптовалюту

Биткоин

BTC

$74,703.02

$74,703.02$74,703.02

-1.51%

Эфириум

ETH

$2,284.87

$2,284.87$2,284.87

-1.97%

Солана

SOL

$85.09

$85.09$85.09

-1.49%

Рипл

XRP

$1.4135

$1.4135$1.4135

-1.21%

USDCoin

USDC

$0.9994

$0.9994$0.9994

0.00%

Генезис USD1: 0% + 12% APR

Новые пользователи: Стейкайте и получите до 600% APR

Fine-tuning Qwen-8B под проприетарный синтаксис (CADINP) на одной RTX 3090: опыт инженера-конструктора

Проблема: Галлюцинации в инженерных расчетах

Стек и железо

Подготовка данных: Chain of Thought

Процесс обучения и борьба с VRAM

Результаты

Заключение и планы

Вам также может быть интересно

Блокада Ормузского пролива усиливает опасения по поводу поставок нефти на фоне напряженности между США и Ираном

Предварительный обзор: BYD Sealion 7 и BYD Atto 2 EV

Ставки по казначейским векселям и облигациям могут быть смешанными, пока рынок ожидает решения BSP

Популярные новости

Трамп угрожает Ирану уничтожением, что влияет на переговоры по обогащению урана

Стратегия Uber по беспилотным автомобилям: азартная игра на 10 миллиардов $, меняющая транспорт

Глава Tether публикует оптимистичный пост о Bitcoin на фоне стабилизации цены на уровне $75 000

Администрация Трампа наносит «неисчислимый ущерб» Республиканской партии религиозными заявлениями: аналитик

CTA приказывает BIR возместить Petron 389,5 млн песо акцизных налогов

Новости 24/7 в прямом эфире

Быстрое чтение

Прогноз цены BEEG на 2026 год: насколько высоко может подняться синий кит в этом году?

BEEG Снижение на 98% по сравнению с ATH - умная ловушка для покупки или стоимости? 2026 Глубокое погружение

Вы пропустили БИГ? Есть ли еще время войти в 2026 году?

BEEG в 2026 году: скрытая 10-кратная возможность или ралли уже исчезает?

BEEG Blue Whale (BEEG) Review 2026: рациональная система принятия решений перед покупкой

Цены на криптовалюту