Технология
ИИ без GPU: когда CPU достаточно и что реально работает
Большинство корпоративных задач - классификация документов, извлечение сущностей, локальный RAG, ответы на типовые обращения - закрываются на обычных серверах с CPU. Расскажем, когда CPU достаточно, какие модели подходят, какая ожидаемая скорость и сколько RAM нужно.
- Не нужно строить ЦОД и закупать GPU
- Работает на офисных серверах и виртуальных машинах
- Подходит для импортозамещения инфраструктуры
- Малые квантованные модели + классические алгоритмы
- Прозрачный путь к GPU только когда это действительно нужно
Зачем
Почему CPU-first - это норма для корпоративного ИИ
На рынке закрепилось мнение, что для любого ИИ нужен GPU. Это правда для обучения больших моделей и для high-throughput облачных сервисов. Но для большинства корпоративных задач CPU-инференса достаточно: модель отвечает за секунды, а не за миллисекунды, и обычно этого хватает. Зато инфраструктура становится понятной для ИТ и проходит ИБ без отдельных согласований по GPU-стойкам и охлаждению.
Второй фактор - стоимость владения. GPU-сервер стоит в несколько раз дороже CPU-сервера, требует специальной инфраструктуры (питание, охлаждение, драйверы), сложнее закупается в текущих условиях. CPU-инфраструктура есть у каждой компании. Если задача укладывается в CPU, ее можно запустить на уже имеющемся «железе», а не ждать поставки.
Третий фактор - устойчивость. CPU-серверы менее зависимы от импортных компонентов и проще резервируются. Это критично для регулируемых отраслей и компаний с требованиями к непрерывности работы.
Что работает
Что уверенно работает на CPU
Классические задачи
- Классификация документов и обращений
- Извлечение реквизитов и сущностей (NER)
- Полнотекстовый и векторный поиск
- Разметка тематик и приоритетов
Языковые модели
- Малые LLM до 8B параметров с квантованием
- Эмбеддинги для RAG (sentence-transformers)
- Reranker-модели для уточнения поиска
- Малые предметные модели после дообучения LoRA/QLoRA
Прикладные сценарии
- Локальный RAG по корпоративным документам
- Ассистент по регламентам и инструкциям
- Маршрутизация обращений и тикетов
- Сравнение редакций и поиск отклонений
Что не работает
Что на CPU работает плохо или не работает
Большие LLM на десятки и сотни миллиардов параметров (Llama 70B, GPT-4-уровень) на CPU дают неприемлемую скорость ответа - минуты на запрос - и требуют сотен гигабайт RAM. Если задача действительно требует такого класса модели, нужен GPU или аккуратное переосмысление: возможно, ее можно разбить на этапы, в которых большая модель используется только эпизодически.
Высокая параллельная нагрузка тоже плохо ложится на CPU. Если система должна обслуживать сотни одновременных запросов с латентностью в сотни миллисекунд, GPU становится экономически оправданным. Для типового корпоративного сценария с десятками-сотнями активных пользователей это не релевантно.
Обучение и дообучение моделей лучше выполнять на GPU, даже если потом инференс будет на CPU. Это разовая инфраструктурная задача: GPU можно арендовать на время обучения и не держать постоянно.
Стек
Какие модели и форматы используем
Для CPU-инференса стандартом стал формат GGUF и движок llama.cpp. Это позволяет загружать модели в квантованном виде (4-битное и 5-битное квантование) с минимальной потерей качества. Модель размером 7B параметров в Q4-квантовании занимает 4–5 ГБ RAM и работает на типовом сервере без специальной подготовки.
Для эмбеддингов используем модели семейства sentence-transformers (multilingual-e5, BAAI/bge-m3 и аналогичные русскоязычные), которые быстро работают на CPU и дают качественный векторный поиск. Для классификации и NER подходят дообученные BERT-подобные модели или сами LLM в режиме извлечения.
Финальный стек подбирается под конкретную задачу на этапе аудита. Мы целенаправленно избегаем «модного» стека ради моды и выбираем то, что стабильно работает в продакшене и переживет обновления через год-два.
Когда GPU
В каких случаях все-таки нужен GPU
Объективные показания к GPU
- Большие LLM (30B и выше) в реальном времени
- Сотни одновременных пользователей с латентностью < 1 сек
- Обработка изображений, аудио или видео
- Дообучение и переобучение моделей
Когда GPU не нужен
- Документооборот и юр-документы
- Корпоративная база знаний и регламенты
- Маршрутизация обращений и тикетов
- Большинство сценариев offline RAG
Часто задаваемые вопросы
Частые вопросы про ИИ без GPU
Можно ли запустить LLM на CPU?
Да, и это давно стандартная практика для малых моделей. Формат GGUF и движок llama.cpp позволяют запускать модели до 8B параметров на обычном сервере с 16–32 ГБ RAM. Скорость - несколько токенов в секунду на одно ядро, можно ускорить многопоточностью. Для большинства корпоративных задач этого достаточно.
Какая скорость ответа на CPU?
Зависит от модели и сервера. Для модели 7B в Q4-квантовании на типовом сервере с современным CPU ответ длиной 200–300 токенов формируется за 5–15 секунд. Для эмбеддингов и поиска - десятки миллисекунд. Это приемлемо для большинства корпоративных сценариев, где пользователь не ожидает мгновенной реакции.
Сколько RAM нужно для LLM на CPU?
Малая модель 3B в Q4-квантовании - 2–3 ГБ RAM. Модель 7B - 4–6 ГБ. Модель 13B - 8–10 ГБ. Плюс рабочая память на контекст и параллельные запросы. Для большинства задач достаточно сервера с 32–64 ГБ RAM, включая RAG-индекс и сопутствующие компоненты.
Какие модели лучше всего работают на CPU?
Для русского языка хорошо себя показывают Qwen2.5-7B/14B, Saiga (адаптация Llama под русский), Mistral 7B и его дообученные варианты, а также модели семейства Phi от Microsoft. Конкретный выбор делается под задачу и обновляется со временем - стек моделей меняется быстро.
Что такое квантование LLM?
Квантование - это упрощение точности весов модели с 16-битного представления до 8, 5, 4 или даже 2 бит. В результате модель занимает в 2–8 раз меньше памяти и быстрее работает на CPU. Q4-квантование (4 бита на вес) - стандартный компромисс между качеством и скоростью.
Можно ли запустить ИИ на обычном ноутбуке?
Для разработки и пилотов - да. Современный ноутбук с 16 ГБ RAM справится с моделью 7B в Q4. Это не подходит для продакшена с несколькими пользователями, но удобно для прототипирования. В продакшене мы разворачиваем модель на сервере или виртуальной машине.
Что такое GGUF?
GGUF - формат хранения квантованных моделей, стандарт для CPU-инференса. Модель в GGUF можно загрузить движком llama.cpp без дополнительных конвертаций и запустить с минимальной настройкой. Большинство популярных LLM публикуются в GGUF на Hugging Face.
Что делать, если CPU не справляется?
Сначала оптимизировать: квантование, кэширование частых запросов, уменьшение модели, batch-обработка. Потом - горизонтальное масштабирование (несколько CPU-серверов с балансировкой). И только если этого недостаточно - GPU, и тогда смотрим на его экономическую обоснованность. На практике почти все корпоративные сценарии закрываются без GPU.
Связанные направления
Другие страницы про локальный ИИ, аудит необходимости и развертывание без облака.
Аудит необходимости ИИ
Инженерный аудит за 2–3 недели: где ИИ нужен, где избыточен и какой минимальный локальный прототип имеет смысл.
ИИ для юридических документов
Локальная классификация, извлечение реквизитов, поиск рисков и сравнение редакций договоров без передачи данных в облако.
Локальный RAG
Поисково-ответный контур по корпоративным документам в закрытом контуре, без интернета, с контролем источников.
Заявка
Подобрать стек под CPU для вашей задачи
Опишите задачу - оценим, что можно собрать без GPU и какой ожидать производительности.
Что лучше приложить к заявке
- Какая задача и какой ожидаемый объем запросов.
- Какая инфраструктура доступна (сервера, RAM, виртуализация).
- Есть ли требование локального развертывания.
- Целевая скорость ответа и количество пользователей.