Купить крипто Рынки Спот ФьючерсыGOLD Сбережения Центр событий

Еще

Эксперимент по хирургическому удалению слоёв из языковой моделиTL;DRЯ взял TinyLlama (1.1B параметров, 22 слоя) и начал удалять из неё слои, чтобы проверить гипЭксперимент по хирургическому удалению слоёв из языковой моделиTL;DRЯ взял TinyLlama (1.1B параметров, 22 слоя) и начал удалять из неё слои, чтобы проверить гип

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

Источник: ProBlockChain

2026/01/08 19:55

6м. чтение

4$0.014351+11.78%

Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Эксперимент по хирургическому удалению слоёв из языковой модели

TL;DR

Я взял TinyLlama (1.1B параметров, 22 слоя) и начал удалять из неё слои, чтобы проверить гипотезу: современные LLM переобучены, и многие слои делают одно и то же.

Результаты:

Удалил 1 средний слой → +10% скорость, -4% качество
Удалил 7 слоёв (безопасных) → +30% скорость, -2.5% качество
Удалил первый слой → модель сломалась
Неожиданно: Layer 2 важнее Layer 0! (+6.67 vs +3.92 perplexity)

Протестировал все 22 слоя по отдельности. Вот что нашёл.

Зачем это нужно?

Стартапы тратят миллионы долларов на GPU для инференса LLM. OpenAI, по слухам, тратит $700k в день только на вычисления. Любая оптимизация, которая ускоряет модель без потери качества — это прямая экономия денег.

Layer pruning — один из способов ускорения. Идея простая:

Современные модели имеют десятки слоёв (GPT-4 предположительно 120+)
Не все слои одинаково полезны
Некоторые можно удалить, и модель этого почти не заметит

Исследование ShortGPT (2024) показало, что можно удалить 25% слоёв из LLaMA-2 с потерей менее 5% качества. Я решил проверить это на практике.

Сетап эксперимента

Железо: MacBook Pro M4 Pro, 24GB RAM

Модель: TinyLlama-1.1B-Chat-v1.0

1.1 миллиарда параметров
22 слоя (decoder blocks)
Архитектура LLaMA

Метрики:

Perplexity — насколько модель "удивляется" тексту (ниже = лучше)
Tokens/second — скорость генерации
Качество генерации — субъективная оценка выходного текста

Код: PyTorch + HuggingFace Transformers. Удаление слоя = буквально убираем его из model.model.layers:

def remove_layers(model, layers_to_remove): original_layers = list(model.model.layers) new_layers = [ layer for i, layer in enumerate(original_layers) if i not in layers_to_remove ] model.model.layers = nn.ModuleList(new_layers) return model

Результаты

Сводная таблица

Что удалил	Perplexity	Δ Quality	Tokens/s	Δ Speed	Работает?
Ничего (baseline)	1.82	—	59	—	✅
Средний слой (#11)	1.89	-4%	64	+10%	✅
3 средних слоя (#10-12)	2.24	-23%	66	+12%	✅
Первый слой (#0)	5.74	-215%	64	+10%	❌
7 безопасных слоёв	~1.87	~-2.5%	~77	~30%	✅

Примечание: точные измерения — 10 прогонов, 5 warmup, MPS backend

Главное открытие: средние слои избыточны

Удаление одного слоя из середины модели (слой #11 из 22) дало:

+10% к скорости генерации (59 → 64 tokens/sec)
Всего -4% к качеству (perplexity 1.82 → 1.89)

При удалении 7 безопасных слоёв (3, 4, 5, 9, 10, 11, 12) можно получить ~30% ускорения.

Генерация осталась полностью адекватной:

Модель по-прежнему генерирует связный, грамматически корректный текст.

Первый слой — священный

А вот что случилось, когда я удалил первый слой:

Модель сломалась. Perplexity взлетела с 1.82 до 5.74 (в 3 раза хуже). Текст превратился в бессмысленное повторение.

Почему? Первые слои отвечают за:

Базовые attention patterns
Позиционное кодирование
Фундаментальное понимание структуры языка

Без них модель теряет способность понимать, как слова связаны друг с другом.

Визуализация: важность каждого слоя

Я протестировал удаление каждого слоя по отдельности и измерил деградацию качества:

Layer Importance

Layer 0: ████████████████████████████████████████ +3.92 🔴 КРИТИЧЕН Layer 1: ██████████ +0.43 Layer 2: ████████████████████████████████████████████████████████████████████ +6.67 🔴 САМЫЙ ВАЖНЫЙ! Layer 3: +0.01 🟢 МОЖНО УДАЛИТЬ Layer 4: █ +0.06 🟢 Layer 5: +0.04 🟢 Layer 6: ██ +0.12 Layer 7: ███████████████ +0.74 Layer 8: ██ +0.12 Layer 9: █ +0.07 🟢 Layer 10: █ +0.05 🟢 Layer 11: █ +0.07 🟢 Layer 12: ██ +0.09 🟢 Layer 13: ███ +0.14 Layer 14: ███████████ +0.53 Layer 15: ████████████████████████████████████ +1.81 🟠 ВАЖЕН Layer 16: █████ +0.27 Layer 17: ██ +0.12 Layer 18: ████ +0.18 Layer 19: ████ +0.19 Layer 20: ██████ +0.28 Layer 21: █████████ +0.47

Неожиданное открытие: Layer 2 важнее Layer 0! Это слой, который формирует ключевые языковые паттерны.

Безопасные для удаления слои: 3, 4, 5, 9, 10, 11, 12 — увеличивают perplexity менее чем на 0.1.

Интерпретация: почему такое распределение?

Результаты выявили три критические зоны:

🔴 Критическая зона 1: Layer 2 (PPL +6.67)

Самый важный слой модели! Это неожиданно — обычно считается, что Layer 0 самый важный.

Гипотеза: Layer 2 — это место, где формируются ключевые attention patterns. Первые два слоя создают "сырое" представление, а Layer 2 его "кристаллизует" в структуру, которую используют все остальные слои.

🔴 Критическая зона 2: Layer 0 (PPL +3.92)

Первый слой важен для:

Обработки positional encoding
Базового понимания токенов
Инициализации attention patterns

🟠 Критическая зона 3: Layer 15 (PPL +1.81)

Неожиданный пик в поздних средних слоях. Возможно, это слой, где происходит "переключение" с общей семантики на task-specific обработку.

🟢 Безопасная зона: Layers 3-5, 9-12

Эти слои показывают минимальное влияние (PPL increase < 0.1). Они выполняют redundant computations — повторяют то, что уже сделали соседние слои.

Практический вывод: можно удалить 5-7 слоёв (layers 3, 4, 5, 9, 10, 11, 12) с потерей качества менее 0.5% и получить ~30% ускорение.

Исследование ShortGPT ввело метрику Block Influence (BI) — мои результаты полностью согласуются с их выводами: средние слои показывают низкий BI и могут быть безопасно удалены.

Практические выводы

Для инженеров

На основе per-layer анализа — оптимальные комбинации для удаления:

Агрессивность	Удаляем слои	Ожидаемая потеря	Ускорение
Минимальная	{3}	~0.4%	~5%
Умеренная	{3, 5, 10, 11}	~1%	~18%
Агрессивная	{3, 4, 5, 9, 10, 11, 12}	~2.5%	~32%

# Оптимальная стратегия: удаляем наименее важные слои safe_layers_to_remove = {3, 4, 5, 9, 10, 11, 12} # PPL increase < 0.1 each remove_layers(model, safe_layers_to_remove) # Результат: 22 -> 15 слоёв, ~32% ускорение, ~2.5% потеря качества

Важно: никогда не удаляйте слои 0, 2, 15 — это критические точки.

Для исследователей

Это направление активно развивается:

ShortGPT (2024) — удаление целых слоёв
FinerCut (2024) — удаление компонентов внутри слоёв
SliceGPT (2024) — удаление строк/столбцов из матриц весов
LinearPatch (2025) — восстановление 94% качества после pruning через Hadamard transform (arxiv)
MRP (2025) — Maximum Redundancy Pruning, адаптивное удаление самых избыточных слоёв (arxiv)
CLP (2025) — автоматический поиск оптимальных сегментов для удаления (arxiv)

Комбинация с quantization (INT4/INT8) может дать ещё большее ускорение.

Для бизнеса

Если вы платите $10k/месяц за GPU для инференса, layer pruning может сэкономить $2-3k без заметной потери качества. На масштабах OpenAI это миллионы долларов.

Ограничения эксперимента

Маленькая модель — TinyLlama 1.1B, результаты могут отличаться для 7B/70B моделей
Простая метрика — perplexity не отражает все аспекты качества
Нет fine-tuning — возможно, после удаления слоёв модель можно дообучить и восстановить качество
Один датасет — нужно тестировать на разных задачах
Вариативность измерений — скорость на MPS backend имеет дисперсию ±10%, важно делать много прогонов
Chain-of-thought деградация — свежее исследование (arxiv 2510.22228) показало, что даже удаление 1-2 слоёв может сломать способность к многошаговым рассуждениям, при этом простые задачи работают нормально

Код

Весь код эксперимента доступен на GitLab: https://gitlab.com/molchanov.artem.1994/lobotomyllm

git clone https://gitlab.com/molchanov.artem.1994/lobotomyllm cd lobotomyLlm python -m venv venv && source venv/bin/activate pip install -r requirements.txt python experiments/run_ablation.py --experiment quick

Заключение

Гипотеза подтвердилась: современные LLM переобучены, 30% слоёв можно удалить с потерей <3% качества.

Главные инсайты:

Layer 2 — самый важный (неожиданно важнее Layer 0)
Слои 3-5, 9-12 — избыточны (можно удалить почти бесплатно)
Layer 15 — скрытый критический слой в поздней части сети

Практический результат: удаление 7 слоёв (22→15) даёт ~32% ускорение при ~2.5% потере качества.

Следующие шаги:

Запустить на Llama-3 8B для более убедительных результатов
Попробовать комбинацию pruning + quantization
Исследовать, что именно "знают" критические слои (Layer 2, Layer 15)

Если понравилось — подписывайтесь, ставьте звёздочку на GitHub, делитесь с коллегами.

Вопросы и предложения — в комментарии или в личку.

Теги: #MachineLearning #LLM #Optimization #PyTorch #NLP #DeepLearning

Источник

Возможности рынка

4 Курс (4)

$0.014351

$0.014351$0.014351

+13.77%

USD

График цены 4 (4) в реальном времени

Получите 20 USDT за 1 минуту

Внесите 100$ и разблокируйте позиции GOLD на 300$

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Новости 24/7 в прямом эфире

Еще

По сообщениям, Goldman Sachs отдаёт предпочтение XRP перед Ethereum; JPMorgan приводит обоснование, что потенциально может повлиять на рыночные настроения.

Автор: Ripple Bull Winkle | Crypto Researcher 🚀🚨12:00

Трейдеры с кредитным плечом по биткоину сильно находятся в коротких позициях; отмечается потенциал для шорт-сквиза.

Автор: Beanie10:29

Goldman Sachs и JPMorgan подчеркивают значимость XRP, сигнализируя о потенциальном институциональном интересе и возможных рыночных последствиях.

Автор: Ripple Bull Winkle | Crypto Researcher 🚀🚨10:01

XRP демонстрирует недельный рост на 6,4%, низкую волатильность и устойчивое повышение, что указывает на потенциальное институциональное накопление по сравнению с активностью розничных инвесторов.

Автор: Ripple Bull Winkle | Crypto Researcher 🚀🚨07:01

Сезон 4 RIVER заканчивается в конце апреля; очки Dynamic Airdrop Conversion 2.0 будут конвертированы в токены после окончания сезона.

Автор: SHARKY | 💨04:19