Эксперимент по хирургическому удалению слоёв из языковой моделиTL;DRЯ взял TinyLlama (1.1B параметров, 22 слоя) и начал удалять из неё слои, чтобы проверить гипЭксперимент по хирургическому удалению слоёв из языковой моделиTL;DRЯ взял TinyLlama (1.1B параметров, 22 слоя) и начал удалять из неё слои, чтобы проверить гип

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

2026/01/08 19:55
6м. чтение
Для обратной связи или замечаний по поводу данного контента, свяжитесь с нами по адресу crypto.news@mexc.com

Эксперимент по хирургическому удалению слоёв из языковой модели


TL;DR

Я взял TinyLlama (1.1B параметров, 22 слоя) и начал удалять из неё слои, чтобы проверить гипотезу: современные LLM переобучены, и многие слои делают одно и то же.

Результаты:

  • Удалил 1 средний слой → +10% скорость, -4% качество

  • Удалил 7 слоёв (безопасных) → +30% скорость, -2.5% качество

  • Удалил первый слой → модель сломалась

  • Неожиданно: Layer 2 важнее Layer 0! (+6.67 vs +3.92 perplexity)

Протестировал все 22 слоя по отдельности. Вот что нашёл.


Зачем это нужно?

Стартапы тратят миллионы долларов на GPU для инференса LLM. OpenAI, по слухам, тратит $700k в день только на вычисления. Любая оптимизация, которая ускоряет модель без потери качества — это прямая экономия денег.

Layer pruning — один из способов ускорения. Идея простая:

  1. Современные модели имеют десятки слоёв (GPT-4 предположительно 120+)

  2. Не все слои одинаково полезны

  3. Некоторые можно удалить, и модель этого почти не заметит

Исследование ShortGPT (2024) показало, что можно удалить 25% слоёв из LLaMA-2 с потерей менее 5% качества. Я решил проверить это на практике.


Сетап эксперимента

Железо: MacBook Pro M4 Pro, 24GB RAM

Модель: TinyLlama-1.1B-Chat-v1.0

  • 1.1 миллиарда параметров

  • 22 слоя (decoder blocks)

  • Архитектура LLaMA

Метрики:

  • Perplexity — насколько модель "удивляется" тексту (ниже = лучше)

  • Tokens/second — скорость генерации

  • Качество генерации — субъективная оценка выходного текста

Код: PyTorch + HuggingFace Transformers. Удаление слоя = буквально убираем его из model.model.layers:

def remove_layers(model, layers_to_remove): original_layers = list(model.model.layers) new_layers = [ layer for i, layer in enumerate(original_layers) if i not in layers_to_remove ] model.model.layers = nn.ModuleList(new_layers) return model


Результаты

Сводная таблица

Что удалил

Perplexity

Δ Quality

Tokens/s

Δ Speed

Работает?

Ничего (baseline)

1.82

59

Средний слой (#11)

1.89

-4%

64

+10%

3 средних слоя (#10-12)

2.24

-23%

66

+12%

Первый слой (#0)

5.74

-215%

64

+10%

7 безопасных слоёв

~1.87

~-2.5%

~77

~30%

Примечание: точные измерения — 10 прогонов, 5 warmup, MPS backend

Главное открытие: средние слои избыточны

Удаление одного слоя из середины модели (слой #11 из 22) дало:

  • +10% к скорости генерации (59 → 64 tokens/sec)

  • Всего -4% к качеству (perplexity 1.82 → 1.89)

При удалении 7 безопасных слоёв (3, 4, 5, 9, 10, 11, 12) можно получить ~30% ускорения.

Генерация осталась полностью адекватной:

Модель по-прежнему генерирует связный, грамматически корректный текст.

Первый слой — священный

А вот что случилось, когда я удалил первый слой:

Модель сломалась. Perplexity взлетела с 1.82 до 5.74 (в 3 раза хуже). Текст превратился в бессмысленное повторение.

Почему? Первые слои отвечают за:

  • Базовые attention patterns

  • Позиционное кодирование

  • Фундаментальное понимание структуры языка

Без них модель теряет способность понимать, как слова связаны друг с другом.

Визуализация: важность каждого слоя

Я протестировал удаление каждого слоя по отдельности и измерил деградацию качества:

Layer Importance
Layer Importance

Layer 0: ████████████████████████████████████████ +3.92 🔴 КРИТИЧЕН Layer 1: ██████████ +0.43 Layer 2: ████████████████████████████████████████████████████████████████████ +6.67 🔴 САМЫЙ ВАЖНЫЙ! Layer 3: +0.01 🟢 МОЖНО УДАЛИТЬ Layer 4: █ +0.06 🟢 Layer 5: +0.04 🟢 Layer 6: ██ +0.12 Layer 7: ███████████████ +0.74 Layer 8: ██ +0.12 Layer 9: █ +0.07 🟢 Layer 10: █ +0.05 🟢 Layer 11: █ +0.07 🟢 Layer 12: ██ +0.09 🟢 Layer 13: ███ +0.14 Layer 14: ███████████ +0.53 Layer 15: ████████████████████████████████████ +1.81 🟠 ВАЖЕН Layer 16: █████ +0.27 Layer 17: ██ +0.12 Layer 18: ████ +0.18 Layer 19: ████ +0.19 Layer 20: ██████ +0.28 Layer 21: █████████ +0.47

Неожиданное открытие: Layer 2 важнее Layer 0! Это слой, который формирует ключевые языковые паттерны.

Безопасные для удаления слои: 3, 4, 5, 9, 10, 11, 12 — увеличивают perplexity менее чем на 0.1.


Интерпретация: почему такое распределение?

Результаты выявили три критические зоны:

🔴 Критическая зона 1: Layer 2 (PPL +6.67)

Самый важный слой модели! Это неожиданно — обычно считается, что Layer 0 самый важный.

Гипотеза: Layer 2 — это место, где формируются ключевые attention patterns. Первые два слоя создают "сырое" представление, а Layer 2 его "кристаллизует" в структуру, которую используют все остальные слои.

🔴 Критическая зона 2: Layer 0 (PPL +3.92)

Первый слой важен для:

  • Обработки positional encoding

  • Базового понимания токенов

  • Инициализации attention patterns

🟠 Критическая зона 3: Layer 15 (PPL +1.81)

Неожиданный пик в поздних средних слоях. Возможно, это слой, где происходит "переключение" с общей семантики на task-specific обработку.

🟢 Безопасная зона: Layers 3-5, 9-12

Эти слои показывают минимальное влияние (PPL increase < 0.1). Они выполняют redundant computations — повторяют то, что уже сделали соседние слои.

Практический вывод: можно удалить 5-7 слоёв (layers 3, 4, 5, 9, 10, 11, 12) с потерей качества менее 0.5% и получить ~30% ускорение.

Исследование ShortGPT ввело метрику Block Influence (BI) — мои результаты полностью согласуются с их выводами: средние слои показывают низкий BI и могут быть безопасно удалены.


Практические выводы

Для инженеров

На основе per-layer анализа — оптимальные комбинации для удаления:

Агрессивность

Удаляем слои

Ожидаемая потеря

Ускорение

Минимальная

{3}

~0.4%

~5%

Умеренная

{3, 5, 10, 11}

~1%

~18%

Агрессивная

{3, 4, 5, 9, 10, 11, 12}

~2.5%

~32%

# Оптимальная стратегия: удаляем наименее важные слои safe_layers_to_remove = {3, 4, 5, 9, 10, 11, 12} # PPL increase < 0.1 each remove_layers(model, safe_layers_to_remove) # Результат: 22 -> 15 слоёв, ~32% ускорение, ~2.5% потеря качества

Важно: никогда не удаляйте слои 0, 2, 15 — это критические точки.

Для исследователей

Это направление активно развивается:

  • ShortGPT (2024) — удаление целых слоёв

  • FinerCut (2024) — удаление компонентов внутри слоёв

  • SliceGPT (2024) — удаление строк/столбцов из матриц весов

  • LinearPatch (2025) — восстановление 94% качества после pruning через Hadamard transform (arxiv)

  • MRP (2025) — Maximum Redundancy Pruning, адаптивное удаление самых избыточных слоёв (arxiv)

  • CLP (2025) — автоматический поиск оптимальных сегментов для удаления (arxiv)

Комбинация с quantization (INT4/INT8) может дать ещё большее ускорение.

Для бизнеса

Если вы платите $10k/месяц за GPU для инференса, layer pruning может сэкономить $2-3k без заметной потери качества. На масштабах OpenAI это миллионы долларов.


Ограничения эксперимента

  1. Маленькая модель — TinyLlama 1.1B, результаты могут отличаться для 7B/70B моделей

  2. Простая метрика — perplexity не отражает все аспекты качества

  3. Нет fine-tuning — возможно, после удаления слоёв модель можно дообучить и восстановить качество

  4. Один датасет — нужно тестировать на разных задачах

  5. Вариативность измерений — скорость на MPS backend имеет дисперсию ±10%, важно делать много прогонов

  6. Chain-of-thought деградация — свежее исследование (arxiv 2510.22228) показало, что даже удаление 1-2 слоёв может сломать способность к многошаговым рассуждениям, при этом простые задачи работают нормально


Код

Весь код эксперимента доступен на GitLab: https://gitlab.com/molchanov.artem.1994/lobotomyllm

git clone https://gitlab.com/molchanov.artem.1994/lobotomyllm cd lobotomyLlm python -m venv venv && source venv/bin/activate pip install -r requirements.txt python experiments/run_ablation.py --experiment quick


Заключение

Гипотеза подтвердилась: современные LLM переобучены, 30% слоёв можно удалить с потерей <3% качества.

Главные инсайты:

  1. Layer 2 — самый важный (неожиданно важнее Layer 0)

  2. Слои 3-5, 9-12 — избыточны (можно удалить почти бесплатно)

  3. Layer 15 — скрытый критический слой в поздней части сети

Практический результат: удаление 7 слоёв (22→15) даёт ~32% ускорение при ~2.5% потере качества.

Следующие шаги:

  • Запустить на Llama-3 8B для более убедительных результатов

  • Попробовать комбинацию pruning + quantization

  • Исследовать, что именно "знают" критические слои (Layer 2, Layer 15)


Если понравилось — подписывайтесь, ставьте звёздочку на GitHub, делитесь с коллегами.

Вопросы и предложения — в комментарии или в личку.


Теги: #MachineLearning #LLM #Optimization #PyTorch #NLP #DeepLearning

Источник

Возможности рынка
Логотип 4
4 Курс (4)
$0.014351
$0.014351$0.014351
+13.77%
USD
График цены 4 (4) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

Фонд RWA прогнозирует триллионы активов на блокчейне по мере роста токенизации

Фонд RWA прогнозирует триллионы активов на блокчейне по мере роста токенизации

Токенизация меняет глобальные финансы: акции, недвижимость, облигации и частные кредиты переходят на более быстрые ончейн-рельсы по мере роста рынка RWA.
Поделиться
Blockchainreporter2026/04/18 09:00
Ошеломляющий перевод инвестора мем-коина TRUMP на сумму $6,8 млн в Binance после разрушительной потери $14,6 млн на MELANIA

Ошеломляющий перевод инвестора мем-коина TRUMP на сумму $6,8 млн в Binance после разрушительной потери $14,6 млн на MELANIA

Инвестор мем-коина TRUMP совершил ошеломляющий перевод на $6,8 млн на Binance после разрушительной потери $14,6 млн на MELANIA В драматическом развитии событий на криптовалютном рынке, блокчейн
Поделиться
bitcoinworld2026/04/18 09:15
Данные долгосрочных держателей Bitcoin настораживают: предложение растет, но SOPR остается ниже 1,0

Данные долгосрочных держателей Bitcoin настораживают: предложение растет, но SOPR остается ниже 1,0

Когорта долгосрочных держателей Bitcoin продолжает расширяться, но ключевой показатель прибыльности снова опустился ниже нейтрального уровня, что создает более осторожную оценку структуры рынка
Поделиться
NewsBTC2026/04/18 10:00

Новости 24/7 в прямом эфире

Еще

Генезис USD1: 0% + 12% APR

Генезис USD1: 0% + 12% APRГенезис USD1: 0% + 12% APR

Новые пользователи: Стейкайте и получите до 600% APR