Question 1

Что такое RAG простыми словами?

Accepted Answer

RAG - это связка «поиск + языковая модель». Когда пользователь задает вопрос, система сначала ищет ответ в ваших документах, и только потом просит модель сформулировать его на естественном языке. В результате ответ основан на конкретных документах, а не на «общем знании» модели, и сопровождается ссылкой на источник.

Question 2

Чем RAG отличается от обычного ChatGPT?

Accepted Answer

Обычный ChatGPT отвечает из своих весов, не имеет доступа к вашим документам и часто галлюцинирует - выдумывает факты. RAG отвечает строго на основе найденных фрагментов из вашей базы знаний, ссылается на источник, и его поведение можно контролировать (например, отказать в ответе, если ничего релевантного не найдено).

Question 3

Можно ли запустить RAG на CPU без видеокарты?

Accepted Answer

Да. Поиск по векторной базе работает на CPU без проблем. Языковая модель - это вопрос компромисса между скоростью ответа и размером модели. Малые модели (3–8B параметров) с квантованием уверенно работают на CPU за 2–10 секунд на ответ. Для большего числа параллельных пользователей или более сложных моделей подключается GPU.

Question 4

Сколько документов можно загрузить?

Accepted Answer

Для типового сценария - десятки тысяч документов на одном сервере. При шардинге индекса - сотни тысяч страниц. Технологически ограничений практически нет, ограничения возникают по времени переиндексации и доступной оперативной памяти. На этапе аудита считаем нужный объем под ваш сценарий.

Question 5

Как RAG обновляется при изменении документов?

Accepted Answer

Обновление работает по событию или по расписанию. Когда документ добавляется или меняется, система его перечитывает, разбивает на фрагменты и обновляет вектора. Модель при этом не переобучается - это сильное преимущество RAG перед дообучением. Полное обновление индекса занимает минуты-часы в зависимости от объема.

Question 6

Что такое векторная база данных?

Accepted Answer

Это специализированное хранилище, которое умеет искать «по смыслу», а не по совпадению слов. Каждый фрагмент документа представлен числовым вектором длиной несколько сотен значений, и поиск возвращает ближайшие векторы к вектору запроса. На практике используется pgvector (расширение PostgreSQL), Qdrant, Milvus или FAISS-индекс на диске.

Question 7

Можно ли разграничить доступ к документам?

Accepted Answer

Да, и это критично для корпоративного RAG. Документы помечаются ролями или группами доступа, и при поиске фильтруются по правам текущего пользователя. Сотрудник увидит только те фрагменты, к которым у него есть доступ. Это интегрируется с существующей системой управления правами заказчика.

Question 8

Что делать, если RAG не нашел ответ?

Accepted Answer

В правильной архитектуре RAG умеет отказывать: если ни один фрагмент не релевантен запросу, система возвращает «ответ не найден» и предлагает альтернативы (похожие документы, контакт ответственного, переформулировку запроса). Это намного лучше галлюцинации и важно для серьезных корпоративных сценариев.

Локальный RAG: поиск и ответы по корпоративным документам без облака

Что такое RAG и зачем он бизнесу

Чем локальный RAG отличается от облачного ChatGPT-ассистента

Локальный RAG

Облачный ChatGPT-ассистент

Как устроен локальный RAG

Когда RAG, а когда дообучение модели

Объемы и скорость

Сколько документов

Скорость и инфраструктура

Частые вопросы про локальный RAG

Связанные направления

Аудит необходимости ИИ

ИИ для юридических документов

ИИ без GPU: запуск LLM на CPU

Запустить пилот локального RAG

Что лучше приложить к заявке