Всем привет! Меня зовут Дмитрий Крупенин, я создаю внутренние и B2B ИТ-решения. Специализируюсь на цифровых продуктах для внутреннего использования в корпорациях.
Сейчас очень активно развиваются продукты и решения с использованием ИИ, однако не всегда удается легко посчитать экономику таких проектов, если мы говорим о необходимости развертывания этих решений внутри. Это может быть необходимо для крупных компаний (особенно банков и биг.теха), где законодательно нельзя отдавать персональные и корпоративные данные в облачные модели ЛЛМ. Хочется разобраться, как посчитать совокупную стоимость владения таким проектом, с учетом инфраструктуры, модели, данных для обучения и т.д. Так как это потребовало довольно объемного изучения предметной области - пришлось разбить материал на несколько статей:
Статья 1: "Специализированное оборудование". Исследовательская статья, как эволюционировали решения для ИИ и почему. LLM-1. Специализированные решения для ИИ-кластеров
Статья 2: "Архитектура ИИ-инфраструктуры: от GPU-кластеров до облачных решений" Комплексный обзор современных подходов к построению инфраструктуры для ИИ. LLM-2. Архитектура ИИ-инфраструктуры: от GPU-кластеров до облачных решений
Статья 3: "Total Cost of Ownership (TCO) для ИИ-проектов: полная методология расчета". Комплексная методология оценки совокупной стоимости владения ИИ-решениями. LLM-3. Total Cost of Ownership (TCO) для ИИ-проектов: полная методология расчета [Вы здесь]
Статья 4: "Аллокация затрат на ИИ: модели распределения и тарификации" Разработка справедливых моделей распределения затрат на ИИ-ресурсы. LLM-4. Аллокация затрат на ИИ-кластер: методология расчета
Статья 5: "Управление ИТ-активами в эпоху ИИ: эволюция ITAM". Адаптация практик управления ИТ-активами под специфику ИИ-решений.LLM-5. Управление ИТ-активами в эпоху ИИ: эволюция ITAM. Адаптация практик управления ИТ-активами под специфику ИИ-решений
Давайте разбираться вместе.
ТСО (Total Cost of Ownership, или на русском - Совокупная стоимость владения) - это ответ на вопрос: «Сколько денег я потрачу на этот актив за весь период, пока буду его использовать?».
Представьте, что вы покупаете автомобиль. Допустим, его цена - 3 млн рублей, но вы будете платить за бензин, замену резины по мере износа и сезонности, техническое обслуживание, страховку и ремонт. Если ездить на этом авто 10 лет, реальная стоимость владения может быть больше 5 млн рублей. Это и есть ТСО - полная стоимость, вся сумма, связанная с эксплуатацией автомобиля, которую вы потратили за все время.
То же самое с ИИ-инфраструктурой. Компания может купить кластеры GPU за $1 млн, но потом платить за электроэнергию, нанимать инженеров для управления, обслуживать оборудование, заменять вышедшие из строя части. За 5 лет полная стоимость может быть $3-4 млн. Поэтому важно понимать какой бюджет на несколько лет будет необходимо выделить, если мы хотим держать у себя GPU кластеры и развивать AI-решения.
Почему ТСО важна для ИИ-проектов?
Показывает скрытые затраты: Первая оценка только через цену покупки GPU обманчива. 60-80% реальных расходов скрыты в операционных затратах. ТСО показывает всю картину целиком.
Сравнивает варианты: Облако кажется дешевле (платишь только за используемое), но за 5 лет может обойтись дороже собственной инфраструктуры вдвое при стабильной нагрузке. ТСО помогает выбрать оптимальный вариант.
Помогает финансам: Финансовые директора видят, на сколько лет нужно амортизировать оборудование. Где можно срезать расходы, когда проект станет прибыльным.
Предотвращает сюрпризы: Без ТСО компания может выделить $1M на GPU, но потом обнаружить, что нужно еще $500K в год на электроэнергию. ТСО эти цифры показывает заранее.
Очень упрощенно ТСО ИТ-актива (например ИТ-системы) считается как стоимость самого актива + влияние ТСО дочерних активов (которые также складываются из ТСО дочерних активов вниз по дереву связей ФРМ (финансово-ресурсной модели). Пример финансово-ресурсной модели для классической ИТ-системы без ИИ может выглядеть так (см.ниже). На схеме видно, что в ТСО ИТ-системы будут вкладываться частички стоимости оборудования на которой она работает, а также стоимость ПО (и более того, стоимость услуг на поддержку и обслуживание в соответствии с контрактами).
Теперь давайте разберемся как будет выглядеть модель для ИИ-систем и решений.
Определение CapEx простыми словами (от англ. Capital Expenditure - капитальные затраты) - это крупные деньги, которые компания тратит один раз на покупку оборудования. Если ТСО-это вся стоимость на весь период, то CapEx - это первый, большой платеж.
Ключевые характеристики CapEx:
Когда платим? Один раз (или несколько больших платежей). Нужно выделить крупный бюджет заранее;
Размер платежа: Большие суммы ($500K - $2M+) Требует одобрения от финдиректора;
Что это? Покупка активов (оборудование, здания, лицензии) Компания чем-то владеет после покупки;
Бухгалтерский учет: Попадает в баланс как актив. Амортизируется (списывается) в течение 3-6 лет;
Налоги: Не влияет прямо на прибыль текущего года. Амортизация потом будет вычитаться из прибыли ежегодно, пока не закончится срок использования;
Срок полезного использования: обычно 3-5 лет (для ИИ-оборудования). GPU теряют эффективность через 2-3 года (в т.ч. потому что выходят новые поколения оборудования гораздо большей производительности).
Пример (упрощенный, дальше по ходу статьи мы рассмотрим более сложную формулу): компания решила купить GPU-кластер. Они тратят деньги в первый же месяц (капитальная инвестиция, цены предложил ИИ, они абстрактные и приведены для понимания расчетов, дальше по ходу статьи мы возьмем реальный пример):
Покупка 8x H100 GPU: $260,000;
Серверы и материнские платы: $40,000;
Система охлаждения: $60,000;
Сетевое оборудование: $30,000;
Монтаж и установка: $10,000.
ИТОГО: CapEx: $400,000 (тратят один раз в начале) Эта сумма $400,000 попадает в баланс компании как актив. Затем каждый год амортизируется: 5-летняя амортизация: $400,000 ÷ 5 = $80,000/год списывается как расход.
Компания платит один раз, но расходы распределяются на 5 лет через амортизацию.
Определение OpEx простыми словами (от англ. Operating Expenditure - операционные затраты) - это регулярные платежи каждый месяц или год на содержание и работу оборудования. Если CapEx-это покупка один раз, то OpEx-это содержание каждый день. Примеры OpEx для ИИ:
Ежемесячный счет за электроэнергию для GPU-кластера: $10,000 - $30,000;
Зарплата инженера (обслуживает инфраструктуру): $5,000 - $15,000 в месяц;
Аренда помещения для дата-центра: $5,000 - $20,000 в месяц;
Облачные услуги (backup, дополнительные вычисления): $3,000 - $10,000 в месяц;
Техническое обслуживание и запасные части: $500 - $2,000 в месяц.
Итого OpEx в месяц для базовой ИИ-системы: $25,000 - $60,000.
Ключевые характеристики OpEx
Когда платим? Каждый месяц, каждый год (регулярно). Постоянные расходы - нужны деньги из выручки.
Размер платежа: обычно меньше, чем CapEx, но часто большой за весь период. За 5 лет OpEx может превысить CapEx в 5-10 раз.
Что это? Содержание и работа активов. Без OpEx оборудование не работает.
Бухгалтерский учет: Вычитается из прибыли сразу в текущем году. Снижает налог на прибыль текущего года.
Налоги: 100% вычитается из налоговой базы. В текущем налоговом периоде.
Предсказуемость: Обычно стабильны (или растут на 5-10%/год). Можно планировать в годовой бюджет.
Пример OpEx для ИИ-проекта
У компании уже есть GPU-кластер (купили за $400K в прошлом году). Теперь каждый месяц они платят ежемесячные расходы (операционные затраты):
Электроэнергия (GPU потребляют 40 кВт × 720 часов): $2,880;
Охлаждение (обычно 40-50% от электроэнергии): $1,440;
Зарплата 1 инженера (обслуживает систему): $10,000;
CUDA лицензии и ПО: $500;
Техническое обслуживание (запасные части): $600;
Облачные backup-сервисы: $1,000.
ИТОГО OpEx в месяц: $16,420 (или ~$197,000 в год)
Эти расходы вычитаются из прибыли компании прямо сейчас. Они не попадают в баланс как активы - они просто списываются как расходы ежемесячно.
Формула простыми словами ТСО = CapEx (один раз) + (OpEx каждый месяц × количество лет полезного использования × 12).
Конкретный пример за 5 лет, используя наш пример выше:
CapEx (один раз в начале): Всё оборудование: $400,000
OpEx (каждый месяц):
В месяц: $16,420;
В год: $197,000;
За 5 лет: $197,000 × 5 = $985,000
ИТОГО ТСО за 5 лет = $ 400,000 + $985,000 = $1,385,000
Компания потратит $1.385 млн за 5 лет на эту ИИ-систему. Из них:
29% ($400K) платили один раз в начале (CapEx);
71% ($985K) платили регулярно каждый месяц (OpEx);
Если бы компания использовала облако вместо собственной инфраструктуры, то:
CapEx: $0;
OpEx в облаке: $30,000-$50,000/месяц (только за GPU);
ТСО облака за 5 лет: $0 + ($40,000 × 12 × 5) = $2,400,000
На on-premise дешевле на $1,015,000 (43% экономия!) за 5 лет. Но только если компания постоянно использует оборудование на 70%+. Если нагрузка переменная (30-50%), облако может быть дешевле (без учета того, что его вообще можно использовать из-за NDA данных, законодательных и регуляторных ограничений и тд.).
Примечание: цифры взяты абстрактные для, которые мы в обнимку с ИИ нарыли в открытых данных. Поэтому доллары. Для точных расчетов необходимо учитывать конкретные суммы по бухгалтерии конкретной компании. Потому что даже тарифы на электроэнергию разных ЦОДов могут отличаться, что уж говорить о закупочных ценах, которые подвержены изменениям и не учитывают скидки/наценки от поставщиков и партнеров. Да, в реальной жизни все сложно и без специализированной системы учета будет туго. Тут обычно используются ITAM решения, например (по одной из первых ссылок в поиске - http://itam2.ru).
Как мы разбирались в прошлой статье архитектура ИИ-решений состоит из 6 слоев. Каждый слой вносит свои затраты в общую совокупною стоимость владения этим решением. Выше этого уже экземпляры Информационных Систем / решений (например dev, tes, prod окружения) и слой самих систем (стоимость которых мы и хотим посчитать в этой статье). Визуализация такой схемы чуть ниже.
ЦОД: физический слой (системы электроснабжения с резервированием, передовые технологии охлаждения для высокоплотных стоек, специализированные корпуса и стойки, а также кабельная инфраструктура для передачи данных и энергии). Слой “infrastructure”.
Сетевой слой (обеспечивает высокоскоростную, низколатентную коммуникацию между вычислительными узлами, системами хранения и внешними сетями). Слой “network”.
Слой хранения данных (обеспечивает масштабируемое, высокопроизводительное хранилище для огромных объемов данных, необходимых для обучения и инференса AI-моделей.). Слой “storage”.
Вычислительный слой (содержит основные процессорные ресурсы для обучения и инференса AI-моделей. Этот слой строится вокруг GPU кластеров как центральных элементов для параллельных вычислений, дополненных CPU серверами для управления и предобработки данных, а также специализированными межсоединениями для высокоскоростного обмена данными между ускорителями.) Слой “hardware”.
Слой виртуализации и оркестрации (абстрагирует базовое оборудование и автоматизирует развертывание, масштабирование и управление AI-приложениями. Этот слой включает контейнеризацию для изоляции рабочих нагрузок, оркестрацию для автоматического управления ресурсами и виртуализацию для запуска приложений.) Слой “virtualization”
Слой управления и мониторинга (Верхний слой обеспечивает непрерывный мониторинг, управление экспериментами и оптимизацию производительности AI-инфраструктуры. Этот слой критичен для поддержания надежности, выявления проблем производительности и обеспечения эффективного использования дорогостоящих ресурсов.) Слой “software”.
Все эти слои требуют покупки составляющих их оборудования и ПО. Кроме того в общую стоимость будут вносить деньги косвенные затраты (стоимость электроэнергии, затраты на охлаждение, зарплаты DevOps/MLOps команды) и скрытые затраты (обслуживание и поддержка оборудования, стоимость незапланированных простоев и будущие затраты на утилизацию оборудования).
Давайте посмотрим как может выглядеть полная формула.
Комплексная методология расчета совокупной стоимости владения ИИ-инфраструктурой базируется на суммировании всех прямых и косвенных затрат на протяжении планируемого горизонта (обычно 3-5 лет для ИИ-проектов).
Детализированная формула для on-premise ИИ-инфраструктуры:
TCO on−premise = I infrastructure + I hardware + I network + I storage + I virtualization + I software +∑ (C power +C cooling +C staff +C maintenance +C license +C upgrade ) + C downtime + C disposal
где:
I infrastructure - инвестиции в сеть, системы охлаждения, дата-центр
I hardware - капитальные затраты на GPU/TPU, серверы, хранилища
I network + I storage + I virtualization - капитальные затраты на сетевое оборудование, хранилища данных и ПО виртуализации и оркестирования
I software - единовременные лицензии и инструменты (управление и мониторинг)
C power - ежегодная стоимость электроэнергии
C cooling - затраты на охлаждение (обычно 40-60% от C power)
C staff - зарплаты DevOps/MLOps команды
C maintenance - обслуживание и поддержка оборудования (3-10% от I hardware )
C license - лицензии на ПО и ежегодные подписки
C upgrade - капитализированные обновления (обычно каждые 2-3 года)
C downtime - стоимость незапланированных простоев
C disposal - затраты на утилизацию оборудования
T - период владения в годах
Скрытые затраты (Hidden Costs) - это денежные расходы, которые компания не учитывает при первоначальном бюджетировании ИИ-проекта, но которые неизбежно возникают в процессе реализации и эксплуатации.
Вопросы с данными, например: (1) Нужно купить обучающий датасет. (2) Данные нужно 3 месяца чистить и подготавливать. (3) Данные надо размечать. (4) Данные могут изменяться со временем (дрейф данных) и модель потеряет в точности. Т.е. их надо снова чистить, удалять дубли, переобучать модель.
Облачные провайдеры взимают за вывод данных из облака. Правила: Вход данных в облако: БЕСПЛАТНО. Хранение в облаке: платишь ($0.02/GB/месяц). Выход из облака: $0.02-0.03/GB ← это самое дорогое. Пример: Компания переходит из AWS в Google Cloud. Нужно вывести 100TB данных. Стоимость: 100TB × $0.023 = $2.3 млн 🤯 На балансе: Не предусмотрено в OpEx. Это сюрприз от провайдера.
ИИ-системы попадают под 152-ФЗ, GDPR, HIPAA, AI Transparency Act и другие регуляции. Это требует специалистов и доп.затрат: (1) Консультирование юристов; (2) Аудиты безопасности и compliance; (3) Реализация требований (шифрование, логирование).
Текучка кадров, затраты на найм, потерянные знания и другие затраты связанные с персоналом.
Часть высоконагруженного оборудования будет выходить из строя и потребует замены (здесь коммутатор, там диски с данными, тут видеокарта). Эти затраты должны быть заложены в общую модель затрат на старте. Поддержка от вендоров оборудования и ПО также обойдется в копеечку.
Итак, допустим нам захотелось организовать работу модели DeepSeek-R1 685B, при этом мы хотим, чтобы она крутилась с использованием GPU, а значит нам потребуется примерно 700 Гб видеопамяти. Нехитрым использованием поисковой системы можно найти готовое решение - систему NVIDIA DGX B200 (8× B200 SXM 180GB, 2× Xeon Platinum 8570, RAM 2TB). Из рекламного буклета видно, что эта сборка объединяет восемь NVIDIA B200 SXM Blackwell через NVLink 5 в единый высокоскоростной кластер, обеспечивая топовую производительность и 1,4 Тб видеопамяти. Имеем жидкостное охлаждение, 2 Тб оперативки, SSD диски. Цена: “всего-то” 95 млн рублей в РФ. Но одного такого “сервера” нам не достаточно. Пойдем по слоям, смотря что нам нужно для полного запуска нашего решения.
Физический слой (системы электроснабжения с резервированием, передовые технологии охлаждения для высокоплотных стоек, специализированные корпуса и стойки, а также кабельную инфраструктуру для передачи данных и энергии). Слой “infrastructure”.
Серверная стойка 150.000 рублей;
Система охлаждения 250.000 рублей;
Распределение питания 60.000 рублей;
ИБП 16кВт 350.000 рублей;
Прочее 90.000 рублей;
Итого инфраструктурный слой: 1 млн рублей.
Сетевой слой (обеспечивает высокоскоростную, низколатентную коммуникацию между вычислительными узлами, системами хранения и внешними сетями). Слой “network”.
Коммутатор NVIDIA SN5600 - 9 млн рублей;
Прочее сетевое оборудование + кабели - 1 млн. рублей;
Итого сетевой слой: 10 млн рублей.
Слой хранения данных (обеспечивает масштабируемое, высокопроизводительное хранилище для огромных объемов данных, необходимых для обучения и инференса AI-моделей.). Слой “storage”.
Основной СХД Pure Storage FlashArray - 50 млн.рублей;
Доп. NVMe SSD Micron 9200 Pro 3.84TB x8 - 1 млн рублей;
Итого: слой СХД 51 млн рублей.
Вычислительный слой тут вроде понятно - берем NVIDIA DGX B200. (95 млн за штуку).
Слой виртуализации и оркестрации (абстрагирует базовое оборудование и автоматизирует развертывание, масштабирование и управление AI-приложениями. Этот слой включает контейнеризацию для изоляции рабочих нагрузок, оркестрацию для автоматического управления ресурсами и виртуализацию для запуска приложений.) Слой “virtualization”
NVIDIA Base Command Управление AI инфраструктурой, оркестрация, мониторинг 45 млн рублей;
Kubernetes Контейнеризация и оркестрация рабочих нагрузок Open Source (бесплатно);
NVIDIA GPU Operator Автоматическая установка драйверов и утилит NVIDIA Open Source (бесплатно);
Итого слой вирутализации: 45 млн рублей.
Слой управления и мониторинга (Верхний слой обеспечивает непрерывный мониторинг, управление экспериментами и оптимизацию производительности AI-инфраструктуры. Этот слой критичен для поддержания надежности, выявления проблем производительности и обеспечения эффективного использования дорогостоящих ресурсов.) Слой “software”.
Prometheus Сбор метрик в реальном времени, time-series БД Open Source;
Grafana Визуализация метрик, dashboards Open Source;
NVIDIA DCGM GPU телеметрия (память, температура, производительность) Встроено в DGX;
ELK Stack Централизованное логирование (Elasticsearch + Kibana) Open Source;
AlertManager Оповещение о проблемах (Slack, Email, PagerDuty) Open Source;
Итого: бесплатно.
Однако наше решение будет работать в “проде” (промышленной среде). А значит нам потребуется во-первых еще один сервак для разработки и тестирования и во-вторых третий сервак для обеспечения резервирования промышленной среды. Ну вот хотим мы Uptime 99.995% например… Получается, что все, что мы посчитали выше - умножаем на 3 =)))
Итого для запуска модельки в продакшен в кровавом энтерпрайзе примерно: 202 млн рублей * 3 = 606 млн рублей. Неплохие такие CAPEX затраты для компании. Как это можно распределить по проектам для которых мы эту модельку запустили, читайте в следующем материале.
P.S.: И да, я знаю, что такое можно сделать на “домашнем” компе за 50.000 рублей. Пруф на Хабре - https://habr.com/ru/articles/877832/ или https://habr.com/ru/articles/876320/ но это не “кровавый энтерпрайз” =)
Источник


