Что такое локальный ИИ и чем он отличается от ChatGPT?

Локальный ИИ - это языковая модель или нейросеть, которая работает внутри инфраструктуры компании, а не в облачном сервисе. В отличие от ChatGPT, Yandex GPT или GigaChat, локальный ИИ не отправляет запросы и документы во внешние API: данные обрабатываются на серверах заказчика, а модель контролируется его ИБ-службой. Такой формат нужен там, где нельзя выносить наружу коммерческую тайну, персональные данные или банковскую тайну.

Сколько стоит внедрение ИИ в компанию?

Стоимость складывается из трех частей: аудита применимости ИИ (2-3 недели), локального прототипа под конкретную задачу и инфраструктуры для запуска. Типовой корпоративный проект без GPU укладывается в бюджет, сопоставимый с внедрением средней B2B-системы. Точная цифра фиксируется только после аудита: мы не называем стоимость до того, как убедились, что ИИ действительно нужен для вашей задачи.

Можно ли запустить нейросеть без GPU и без облака?

Да. Малые языковые модели (SLM) до 8B параметров в квантовании GGUF уверенно работают на обычных CPU-серверах. Для классификации документов, извлечения реквизитов, локального RAG и ответов на типовые обращения этого достаточно. GPU нужен только для больших LLM в реальном времени, высокой параллельной нагрузки и обработки изображений или аудио. Большинство корпоративных задач закрываются на CPU-инфраструктуре, которая уже есть у компании.

С чего начать внедрение ИИ в бизнесе?

Начать нужно не с выбора модели, а с аудита применимости ИИ. Это инженерное заключение, которое показывает, где в вашем процессе действительно нужен ИИ, где достаточно правил и классических алгоритмов, а где ИИ вреден или избыточен. Аудит занимает 2-3 недели и включает карту процесса, baseline без ИИ, предварительную архитектуру и расчет бюджета. Только после этого имеет смысл говорить про пилот или продакшн.

Что такое RAG простыми словами?

RAG (Retrieval-Augmented Generation) - это связка поиска и языковой модели. Пользователь задает вопрос, система сначала ищет ответ во внутренних документах компании, и только потом LLM формулирует ответ на основе найденных фрагментов. Такой подход снимает галлюцинации, дает ссылки на источники и позволяет добавлять новые документы без переобучения модели. Локальный RAG разворачивается внутри контура и работает без интернета.

Можно ли обучить нейросеть на данных своей компании?

Да, для этого используют дообучение (fine-tuning) через LoRA или QLoRA - это адаптация готовой модели под предметную область, стиль ответа и специфическую терминологию. Обычно на CPU дообучаются малые модели 3-8B, а сами данные для дообучения не покидают контур заказчика. В большинстве корпоративных сценариев дообучение комбинируется с локальным RAG: модель отвечает в нужном стиле, а актуальные знания подгружаются через поиск.

Что такое on-premise ИИ и когда он нужен?

On-premise ИИ - это развертывание моделей на серверах заказчика, под управлением его ИТ-службы, без передачи данных во внешние сервисы. Он необходим для банков, госорганизаций, юридических департаментов и любых компаний, работающих с персональными данными, банковской или коммерческой тайной. On-premise упрощает соответствие 152-ФЗ, требованиям ЦБ и внутренним политикам ИБ: оператором данных остается заказчик.

Как автоматизировать обработку документов с помощью ИИ?

Обработка документов через ИИ строится в несколько слоев: сначала правила и регулярные выражения, затем классические классификаторы, только потом малая языковая модель. Локальный ИИ умеет определять тип документа, извлекать реквизиты, сравнивать редакции, находить рисковые формулировки в договорах и маршрутизировать обращения. Работает без GPU, документы не покидают контур компании, а каждый ответ сопровождается ссылкой на исходный фрагмент.

Заменит ли ИИ сотрудников компании?

Нет. Локальный ИИ закрывает рутину - классификацию, извлечение данных, поиск по документам, сравнение редакций, сборку черновых отчетов. Это часть работы, которая сейчас занимает у сотрудников 30-50 % времени. Освободившееся время идет на переговоры, нестандартные кейсы и содержательные решения, где человеческая экспертиза не заменима. В любой критичной системе решение принимает человек, а ИИ выступает аргументом, а не финальным актом.

Как понять, действительно ли компании нужен ИИ?

Компании нужен ИИ, если есть повторяющийся процесс с большим объемом текста или документов, метрики качества, которые можно проверить, и данные для этой проверки. Если же задача решается регулярными выражениями, справочником или улучшением интерфейса, ИИ вреден: он добавляет стоимость, галлюцинации и сложность эксплуатации. Аудит применимости ИИ дает точный ответ по вашей конкретной задаче за 2-3 недели.

ИИ без GPU: когда CPU достаточно и что реально работает

Большинство корпоративных задач - классификация документов, извлечение сущностей, локальный RAG, ответы на типовые обращения - закрываются на обычных серверах с CPU. Расскажем, когда CPU достаточно, какие модели подходят, какая ожидаемая скорость и сколько RAM нужно.

Не нужно строить ЦОД и закупать GPU
Работает на офисных серверах и виртуальных машинах
Подходит для импортозамещения инфраструктуры
Малые квантованные модели + классические алгоритмы
Прозрачный путь к GPU только когда это действительно нужно

Подобрать стек под CPU Что работает, а что нет

Зачем

Почему CPU-first - это норма для корпоративного ИИ

На рынке закрепилось мнение, что для любого ИИ нужен GPU. Это правда для обучения больших моделей и для high-throughput облачных сервисов. Но для большинства корпоративных задач CPU-инференса достаточно: модель отвечает за секунды, а не за миллисекунды, и обычно этого хватает. Зато инфраструктура становится понятной для ИТ и проходит ИБ без отдельных согласований по GPU-стойкам и охлаждению.

Второй фактор - стоимость владения. GPU-сервер стоит в несколько раз дороже CPU-сервера, требует специальной инфраструктуры (питание, охлаждение, драйверы), сложнее закупается в текущих условиях. CPU-инфраструктура есть у каждой компании. Если задача укладывается в CPU, ее можно запустить на уже имеющемся «железе», а не ждать поставки.

Третий фактор - устойчивость. CPU-серверы менее зависимы от импортных компонентов и проще резервируются. Это критично для регулируемых отраслей и компаний с требованиями к непрерывности работы.

Что работает

Что уверенно работает на CPU

Классические задачи

Классификация документов и обращений
Извлечение реквизитов и сущностей (NER)
Полнотекстовый и векторный поиск
Разметка тематик и приоритетов

Языковые модели

Малые LLM до 8B параметров с квантованием
Эмбеддинги для RAG (sentence-transformers)
Reranker-модели для уточнения поиска
Малые предметные модели после дообучения LoRA/QLoRA

Прикладные сценарии

Локальный RAG по корпоративным документам
Ассистент по регламентам и инструкциям
Маршрутизация обращений и тикетов
Сравнение редакций и поиск отклонений

Что не работает

Что на CPU работает плохо или не работает

Большие LLM на десятки и сотни миллиардов параметров (Llama 70B, GPT-4-уровень) на CPU дают неприемлемую скорость ответа - минуты на запрос - и требуют сотен гигабайт RAM. Если задача действительно требует такого класса модели, нужен GPU или аккуратное переосмысление: возможно, ее можно разбить на этапы, в которых большая модель используется только эпизодически.

Высокая параллельная нагрузка тоже плохо ложится на CPU. Если система должна обслуживать сотни одновременных запросов с латентностью в сотни миллисекунд, GPU становится экономически оправданным. Для типового корпоративного сценария с десятками-сотнями активных пользователей это не релевантно.

Обучение и дообучение моделей лучше выполнять на GPU, даже если потом инференс будет на CPU. Это разовая инфраструктурная задача: GPU можно арендовать на время обучения и не держать постоянно.

Стек

Какие модели и форматы используем

Для CPU-инференса стандартом стал формат GGUF и движок llama.cpp. Это позволяет загружать модели в квантованном виде (4-битное и 5-битное квантование) с минимальной потерей качества. Модель размером 7B параметров в Q4-квантовании занимает 4–5 ГБ RAM и работает на типовом сервере без специальной подготовки.

Для эмбеддингов используем модели семейства sentence-transformers (multilingual-e5, BAAI/bge-m3 и аналогичные русскоязычные), которые быстро работают на CPU и дают качественный векторный поиск. Для классификации и NER подходят дообученные BERT-подобные модели или сами LLM в режиме извлечения.

Финальный стек подбирается под конкретную задачу на этапе аудита. Мы целенаправленно избегаем «модного» стека ради моды и выбираем то, что стабильно работает в продакшене и переживет обновления через год-два.

Когда GPU

В каких случаях все-таки нужен GPU

Объективные показания к GPU

Большие LLM (30B и выше) в реальном времени
Сотни одновременных пользователей с латентностью < 1 сек
Обработка изображений, аудио или видео
Дообучение и переобучение моделей

Когда GPU не нужен

Документооборот и юр-документы
Корпоративная база знаний и регламенты
Маршрутизация обращений и тикетов
Большинство сценариев offline RAG

Часто задаваемые вопросы

Частые вопросы про ИИ без GPU

Можно ли запустить LLM на CPU?

Да, и это давно стандартная практика для малых моделей. Формат GGUF и движок llama.cpp позволяют запускать модели до 8B параметров на обычном сервере с 16–32 ГБ RAM. Скорость - несколько токенов в секунду на одно ядро, можно ускорить многопоточностью. Для большинства корпоративных задач этого достаточно.

Какая скорость ответа на CPU?

Зависит от модели и сервера. Для модели 7B в Q4-квантовании на типовом сервере с современным CPU ответ длиной 200–300 токенов формируется за 5–15 секунд. Для эмбеддингов и поиска - десятки миллисекунд. Это приемлемо для большинства корпоративных сценариев, где пользователь не ожидает мгновенной реакции.

Сколько RAM нужно для LLM на CPU?

Малая модель 3B в Q4-квантовании - 2–3 ГБ RAM. Модель 7B - 4–6 ГБ. Модель 13B - 8–10 ГБ. Плюс рабочая память на контекст и параллельные запросы. Для большинства задач достаточно сервера с 32–64 ГБ RAM, включая RAG-индекс и сопутствующие компоненты.

Какие модели лучше всего работают на CPU?

Для русского языка хорошо себя показывают Qwen2.5-7B/14B, Saiga (адаптация Llama под русский), Mistral 7B и его дообученные варианты, а также модели семейства Phi от Microsoft. Конкретный выбор делается под задачу и обновляется со временем - стек моделей меняется быстро.

Что такое квантование LLM?

Квантование - это упрощение точности весов модели с 16-битного представления до 8, 5, 4 или даже 2 бит. В результате модель занимает в 2–8 раз меньше памяти и быстрее работает на CPU. Q4-квантование (4 бита на вес) - стандартный компромисс между качеством и скоростью.

Можно ли запустить ИИ на обычном ноутбуке?

Для разработки и пилотов - да. Современный ноутбук с 16 ГБ RAM справится с моделью 7B в Q4. Это не подходит для продакшена с несколькими пользователями, но удобно для прототипирования. В продакшене мы разворачиваем модель на сервере или виртуальной машине.

Что такое GGUF?

GGUF - формат хранения квантованных моделей, стандарт для CPU-инференса. Модель в GGUF можно загрузить движком llama.cpp без дополнительных конвертаций и запустить с минимальной настройкой. Большинство популярных LLM публикуются в GGUF на Hugging Face.

Что делать, если CPU не справляется?

Сначала оптимизировать: квантование, кэширование частых запросов, уменьшение модели, batch-обработка. Потом - горизонтальное масштабирование (несколько CPU-серверов с балансировкой). И только если этого недостаточно - GPU, и тогда смотрим на его экономическую обоснованность. На практике почти все корпоративные сценарии закрываются без GPU.

Связанные направления

Другие страницы про локальный ИИ, аудит необходимости и развертывание без облака.

Аудит необходимости ИИ

Инженерный аудит за 2–3 недели: где ИИ нужен, где избыточен и какой минимальный локальный прототип имеет смысл.

Перейти

ИИ для юридических документов

Локальная классификация, извлечение реквизитов, поиск рисков и сравнение редакций договоров без передачи данных в облако.

Перейти

Локальный RAG

Поисково-ответный контур по корпоративным документам в закрытом контуре, без интернета, с контролем источников.

Перейти

Заявка

Подобрать стек под CPU для вашей задачи

Опишите задачу - оценим, что можно собрать без GPU и какой ожидать производительности.

Что лучше приложить к заявке

Какая задача и какой ожидаемый объем запросов.
Какая инфраструктура доступна (сервера, RAM, виртуализация).
Есть ли требование локального развертывания.
Целевая скорость ответа и количество пользователей.