Автономные
интеллектуальные системы

Технология

ИИ без GPU: когда CPU достаточно и что реально работает

Большинство корпоративных задач - классификация документов, извлечение сущностей, локальный RAG, ответы на типовые обращения - закрываются на обычных серверах с CPU. Расскажем, когда CPU достаточно, какие модели подходят, какая ожидаемая скорость и сколько RAM нужно.

  • Не нужно строить ЦОД и закупать GPU
  • Работает на офисных серверах и виртуальных машинах
  • Подходит для импортозамещения инфраструктуры
  • Малые квантованные модели + классические алгоритмы
  • Прозрачный путь к GPU только когда это действительно нужно

Зачем

Почему CPU-first - это норма для корпоративного ИИ

На рынке закрепилось мнение, что для любого ИИ нужен GPU. Это правда для обучения больших моделей и для high-throughput облачных сервисов. Но для большинства корпоративных задач CPU-инференса достаточно: модель отвечает за секунды, а не за миллисекунды, и обычно этого хватает. Зато инфраструктура становится понятной для ИТ и проходит ИБ без отдельных согласований по GPU-стойкам и охлаждению.

Второй фактор - стоимость владения. GPU-сервер стоит в несколько раз дороже CPU-сервера, требует специальной инфраструктуры (питание, охлаждение, драйверы), сложнее закупается в текущих условиях. CPU-инфраструктура есть у каждой компании. Если задача укладывается в CPU, ее можно запустить на уже имеющемся «железе», а не ждать поставки.

Третий фактор - устойчивость. CPU-серверы менее зависимы от импортных компонентов и проще резервируются. Это критично для регулируемых отраслей и компаний с требованиями к непрерывности работы.

Что работает

Что уверенно работает на CPU

Классические задачи

  • Классификация документов и обращений
  • Извлечение реквизитов и сущностей (NER)
  • Полнотекстовый и векторный поиск
  • Разметка тематик и приоритетов

Языковые модели

  • Малые LLM до 8B параметров с квантованием
  • Эмбеддинги для RAG (sentence-transformers)
  • Reranker-модели для уточнения поиска
  • Малые предметные модели после дообучения LoRA/QLoRA

Прикладные сценарии

  • Локальный RAG по корпоративным документам
  • Ассистент по регламентам и инструкциям
  • Маршрутизация обращений и тикетов
  • Сравнение редакций и поиск отклонений

Что не работает

Что на CPU работает плохо или не работает

Большие LLM на десятки и сотни миллиардов параметров (Llama 70B, GPT-4-уровень) на CPU дают неприемлемую скорость ответа - минуты на запрос - и требуют сотен гигабайт RAM. Если задача действительно требует такого класса модели, нужен GPU или аккуратное переосмысление: возможно, ее можно разбить на этапы, в которых большая модель используется только эпизодически.

Высокая параллельная нагрузка тоже плохо ложится на CPU. Если система должна обслуживать сотни одновременных запросов с латентностью в сотни миллисекунд, GPU становится экономически оправданным. Для типового корпоративного сценария с десятками-сотнями активных пользователей это не релевантно.

Обучение и дообучение моделей лучше выполнять на GPU, даже если потом инференс будет на CPU. Это разовая инфраструктурная задача: GPU можно арендовать на время обучения и не держать постоянно.

Стек

Какие модели и форматы используем

Для CPU-инференса стандартом стал формат GGUF и движок llama.cpp. Это позволяет загружать модели в квантованном виде (4-битное и 5-битное квантование) с минимальной потерей качества. Модель размером 7B параметров в Q4-квантовании занимает 4–5 ГБ RAM и работает на типовом сервере без специальной подготовки.

Для эмбеддингов используем модели семейства sentence-transformers (multilingual-e5, BAAI/bge-m3 и аналогичные русскоязычные), которые быстро работают на CPU и дают качественный векторный поиск. Для классификации и NER подходят дообученные BERT-подобные модели или сами LLM в режиме извлечения.

Финальный стек подбирается под конкретную задачу на этапе аудита. Мы целенаправленно избегаем «модного» стека ради моды и выбираем то, что стабильно работает в продакшене и переживет обновления через год-два.

Когда GPU

В каких случаях все-таки нужен GPU

Объективные показания к GPU

  • Большие LLM (30B и выше) в реальном времени
  • Сотни одновременных пользователей с латентностью < 1 сек
  • Обработка изображений, аудио или видео
  • Дообучение и переобучение моделей

Когда GPU не нужен

  • Документооборот и юр-документы
  • Корпоративная база знаний и регламенты
  • Маршрутизация обращений и тикетов
  • Большинство сценариев offline RAG

Часто задаваемые вопросы

Частые вопросы про ИИ без GPU

Можно ли запустить LLM на CPU?

Да, и это давно стандартная практика для малых моделей. Формат GGUF и движок llama.cpp позволяют запускать модели до 8B параметров на обычном сервере с 16–32 ГБ RAM. Скорость - несколько токенов в секунду на одно ядро, можно ускорить многопоточностью. Для большинства корпоративных задач этого достаточно.

Какая скорость ответа на CPU?

Зависит от модели и сервера. Для модели 7B в Q4-квантовании на типовом сервере с современным CPU ответ длиной 200–300 токенов формируется за 5–15 секунд. Для эмбеддингов и поиска - десятки миллисекунд. Это приемлемо для большинства корпоративных сценариев, где пользователь не ожидает мгновенной реакции.

Сколько RAM нужно для LLM на CPU?

Малая модель 3B в Q4-квантовании - 2–3 ГБ RAM. Модель 7B - 4–6 ГБ. Модель 13B - 8–10 ГБ. Плюс рабочая память на контекст и параллельные запросы. Для большинства задач достаточно сервера с 32–64 ГБ RAM, включая RAG-индекс и сопутствующие компоненты.

Какие модели лучше всего работают на CPU?

Для русского языка хорошо себя показывают Qwen2.5-7B/14B, Saiga (адаптация Llama под русский), Mistral 7B и его дообученные варианты, а также модели семейства Phi от Microsoft. Конкретный выбор делается под задачу и обновляется со временем - стек моделей меняется быстро.

Что такое квантование LLM?

Квантование - это упрощение точности весов модели с 16-битного представления до 8, 5, 4 или даже 2 бит. В результате модель занимает в 2–8 раз меньше памяти и быстрее работает на CPU. Q4-квантование (4 бита на вес) - стандартный компромисс между качеством и скоростью.

Можно ли запустить ИИ на обычном ноутбуке?

Для разработки и пилотов - да. Современный ноутбук с 16 ГБ RAM справится с моделью 7B в Q4. Это не подходит для продакшена с несколькими пользователями, но удобно для прототипирования. В продакшене мы разворачиваем модель на сервере или виртуальной машине.

Что такое GGUF?

GGUF - формат хранения квантованных моделей, стандарт для CPU-инференса. Модель в GGUF можно загрузить движком llama.cpp без дополнительных конвертаций и запустить с минимальной настройкой. Большинство популярных LLM публикуются в GGUF на Hugging Face.

Что делать, если CPU не справляется?

Сначала оптимизировать: квантование, кэширование частых запросов, уменьшение модели, batch-обработка. Потом - горизонтальное масштабирование (несколько CPU-серверов с балансировкой). И только если этого недостаточно - GPU, и тогда смотрим на его экономическую обоснованность. На практике почти все корпоративные сценарии закрываются без GPU.

Заявка

Подобрать стек под CPU для вашей задачи

Опишите задачу - оценим, что можно собрать без GPU и какой ожидать производительности.

Что лучше приложить к заявке

  • Какая задача и какой ожидаемый объем запросов.
  • Какая инфраструктура доступна (сервера, RAM, виртуализация).
  • Есть ли требование локального развертывания.
  • Целевая скорость ответа и количество пользователей.