Перестройка семантического ядра под RAG-системы в 2026 году
В начале этого года я разговаривала с командой, которая больше года выстраивала семантическое ядро для крупного информационного портала. У них всё было «по учебнику»: расширенный список запросов, кластеризация, контент-план, охват интентов.

Этот сценарий я теперь наблюдаю почти на каждом втором интервью. Семантическое ядро, которое мы привыкли собирать по интентам и частотностям, в 2026 году перестало быть достаточным инструментом. Не потому, что ключевые слова вдруг стали неважны, — а потому, что между пользователем и вашим контентом теперь стоит ещё один слой: языковая модель, которая сама решает, кого пригласить к разговору, а кого оставить за кадром. И если раньше мы оптимизировали страницу под алгоритм ранжирования, то теперь — под retrieval-систему, которая отбирает фрагменты для ответа.
Давайте вместе разберёмся, что именно изменилось, как проверить перестройку семантического ядра под RAG-системы — то есть насколько ваше текущее ядро уже готово к работе с retrieval-пайплайном — и что делать, если ответ окажется «не готово».
Что на самом деле изменилось в поиске
Поиск перестал быть списком из десяти синих ссылок. Он стал диалогом, в котором ассистент сам выбирает, кого пригласить к разговору.
За последние пару лет доля запросов, которые заканчиваются без клика — это явление по-прежнему называют «zero-click», — выросла заметно. Часть пользователей получает ответ прямо в интерфейсе ассистента: в AI Overviews в Google, в Алисе в Яндексе, в Perplexity, в ChatGPT Search, в специализированных плагинах для браузеров. Модель собирает несколько источников, формулирует связный ответ и ставит на них маленькие сноски. Если ваш сайт попал в эту выборку — вы получаете брендовые показы, иногда клики, иногда упоминание в голосовом ответе. Если не попал — вас просто нет в разговоре, как будто вас и не существует.
Это и есть ключевой сдвиг: семантическое ядро сегодня работает не только на поисковую машину, но и на retrieval-систему модели. Retrieval-система — это механизм, который вытаскивает релевантные фрагменты из базы документов и подаёт их в контекст языковой модели. Самый распространённый подход сейчас называется RAG — Retrieval-Augmented Generation, генерация ответа с опорой на найденные документы. Модель не придумывает формулировку из головы, а сначала ищет подходящие документы, читает их и уже на их основе строит свой ответ. Звучит просто, но именно здесь контент либо попадает в ответ, либо остаётся за бортом. И именно поэтому старая логика «собрать ключи — написать текст — получить позицию» больше не описывает реальность.
Гибридный поиск: почему одного вектора мало
Чтобы понять, что перестраивать, нужно сначала представить, как RAG-система вообще ищет. Современные поисковые пайплайны — это гибридный поиск: сочетание двух подходов, лексического и векторного. Они работают параллельно, а потом результаты объединяются специальным алгоритмом — чаще всего это RRF, Reciprocal Rank Fusion, метод слияния выдач, в котором документы ранжируются по сумме обратных позиций из обоих списков.
Лексический поиск — это знакомый нам BM25: он ищет точные слова и их формы в документах. Если в вашем тексте есть «семантическое ядро», а в запросе пользователя — «как собрать семантику», он сопоставит эти строки по словарю. Этот слой отвечает за точное совпадение формулировок, имена, цифры, термины.
Векторный поиск устроен совсем иначе. Текст превращается в числовой вектор — эмбеддинг, — который отражает смысл, а не набор слов. Два предложения про «структуру запросов» и «логику подбора ключей» окажутся в векторном пространстве рядом, даже если ни одного общего слова у них нет. Это позволяет модели находить релевантные документы по смыслу, а не по лексике, и доставать то, что никогда не было оптимизировано под точные формулировки.
Из этого следует простой вывод: чтобы ваш контент находился, он должен хорошо работать в обоих режимах одновременно. Лексический слой требует точных формулировок, имён, определений. Векторный — связной структуры, явных ответов на вопросы, развёрнутых объяснений с охватом смежных понятий.
| Что проверяем | Лексический поиск (BM25) | Векторный поиск (эмбеддинги) |
|---|---|---|
| На чём держится | Точные слова и формы | Смысл и семантическая близость |
| Что важно для него | Ключевые термины в заголовках, прямые ответы, имена, цифры | Связный текст с явной структурой, синонимы, развёрнутые объяснения |
| Типичная ошибка контента | Размытые формулировки без точных терминов | Перечисления без объяснений, фрагменты без связного контекста |
| Как проверить | Поиск по точным формулировкам в вашем тексте | Прогон через эмбеддинг-модель: «лежит ли документ рядом с целевыми запросами?» |
Если ваше семантическое ядро собрано только под один из этих слоёв, вы получите просадку в другом. Это, кстати, объясняет многие кейсы, когда сайт в топе по запросу, но не цитируется ассистентом: позиция в выдаче — заслуга лексического слоя, а отсутствие в ответе — провал векторного. Обе метрики нужно трекать раздельно.
Семантическое ядро как карта знаний, а не список слов
Когда я разговариваю с командами, я часто прошу одну и ту же вещь: откройте ваше ядро и расскажите, как вы его собирали. В большинстве случаев ответ звучит так: «выгрузили частотности из Вордстата, прогнали через кластеризатор, разбили по интентам». И всё. Это рабочая схема — для поисковой машины старого типа. Для RAG её уже недостаточно.
Что меняется. Теперь семантическое ядро должно работать в трёх режимах одновременно, иначе оно перестаёт быть полноценным инструментом:
1. Как словарь для контента. Здесь всё по-прежнему: нужны точные формулировки, термины, имена, синонимы, морфология. Это слой для BM25, и сбрасывать его со счетов — большая ошибка.
2. Как карта смыслов. Каждый кластер должен описывать не просто набор запросов, а связанную область знания: какие понятия в неё входят, как они соотносятся, какие вопросы задаёт пользователь внутри, какие у этих вопросов разные уровни глубины. Это слой для эмбеддингов.
3. Как структура для извлечения. Каждый крупный фрагмент контента должен быть спроектирован так, чтобы модель могла «вытащить» из него готовый ответ: явное определение, явный ответ на вопрос, явный список шагов, явная таблица с параметрами. Это слой для самого ответа ассистента — то, что он зачитает пользователю.
Если работал только первый режим — мы получаем ядро для ключей. Если работают все три — мы получаем ядро для retrieval. И второе в 2026 году стоит значительно дороже.
Ядро будущего — это не перечень запросов, а схема того, какие знания вы раскрываете и в каком виде модель сможет их использовать.
Практический сценарий: как проверить и перестроить
Я часто провожу с командами один и тот же мысленный эксперимент: «Откройте ваш самый важный кластер и попробуйте задать ассистенту пять вопросов, на которые ваша страница отвечает». Если ответ модели опирается на ваш сайт — кластер работает на RAG. Если отвечает чужими источниками или галлюцинирует — у вас есть конкретное окно, чтобы перестраивать ядро.
Дальше я предлагаю пройтись по пяти конкретным шагам. Они не универсальны для всех проектов на свете, но хорошо работают как скелет для большинства команд, с которыми я сталкиваюсь.
1. Провести аудит цитирования. Возьмите 15–20 ключевых запросов, по которым вы хотите быть в ответах ассистента. Прогоните их через ChatGPT, Perplexity, AI Overviews, Алису, Claude — все доступные каналы. Запишите, какие источники цитируются, какие фрагменты зачитываются дословно, есть ли среди них ваш сайт, и если есть — в каком контексте. Это даст вам честную картину того, где вы сейчас находитесь — без иллюзий, которые рисуют отчёты по позициям.
2. Переразметить кластеры под смысловые области. Стандартная кластеризация «один кластер = один URL» уходит в прошлое. Группируйте вокруг тем: «что такое», «как выбрать», «сравнение», «ошибки», «пошаговый сценарий». Внутри кластера держите 3–7 связанных понятий и список вопросов, на которые ваш контент отвечает. Это даст вам основу и для лексического поиска, и для эмбеддингов, и для будущей структуры страниц.
3. Спроектировать структуру страницы под извлечение. Это самый недооценённый шаг. На странице должен быть фрагмент, который модель сможет «снять» и вставить в свой ответ без потери смысла. Такой фрагмент — это явное определение в первом абзаце, явный ответ на главный вопрос в начале, явная таблица сравнения, явный нумерованный список шагов. Не нагромождение SEO-текста, а конкретная порция знания, готовая к зачитыванию вслух или к цитированию.
4. Добавить семантические связи между сущностями. RAG-системы хорошо понимают, когда в тексте есть связь «это — то», «состоит из», «отличается от», «используется для», «является частью». Эти отношения легко превращаются в эмбеддинговые связи, и модель увереннее выбирает ваш документ, когда видит явную сеть понятий. Я обычно прошу авторов держать в голове простой чек: «Если убрать со страницы всё лишнее, останется ли связная карточка знания?» — если да, retrieval справится.
5. Настроить мониторинг присутствия в ответах. Это новый уровень аналитики, которого ещё год назад почти ни у кого не было. Раз в месяц прогоняйте свои ключевые вопросы через набор ассистентов и фиксируйте: ваш сайт цитируется, упоминается, отсутствует, или ассистент отвечает неверно. Эта таблица — ваш новый «трекер позиций», только в мире ответов, а не ссылок.
Здесь, кстати, любопытный побочный эффект: бренды из совсем других ниш — например, производители электроники и гаджетов — уже вовсю играют в эту игру. Достаточно посмотреть, как крупные каталоги устройств формируют карточки характеристик именно под retrieval — таблицы, явные ответы на вопрос «чем отличается X от Y», короткие определения, которые легко снимаются моделью. Это не SEO прошлого, это новая гигиена присутствия в диалоге.
E-E-A-T как язык доверия для модели
Отдельно хочется сказать про E-E-A-T, потому что в 2026 году это перестало быть «рекомендацией Google для медицинских сайтов» и стало базовым языком доверия для любых retrieval-систем. E-E-A-T — это опыт, экспертиза, авторитетность, достоверность. Когда модель выбирает, какой из десяти подходящих фрагментов подать в контекст, она опирается не только на смысловое совпадение, но и на сигналы надёжности источника: кто автор, какая у него экспертиза, есть ли у издания репутация, можно ли доверять данным.
Что это значит для семантического ядра на практике:
- У каждой ключевой сущности должен быть автор с понятной экспертизой — не «редакция сайта», а конкретный человек с биографией, публикациями, опытом работы в теме.
- У каждой статьи должны быть явные источники данных, даты обновления, ссылки на первоисточники. Это то, что модель использует, чтобы отличить надёжный документ от сгенерированного.
- У каждой темы должна быть глубина, а не пересказ. Поверхностные статьи на 800 слов без собственного мнения, без данных, без примеров — это антисигнал для retrieval-системы. Она их просто не выберет, даже если они случайно попадут в выдачу.
На что обратить внимание, чтобы не навредить себе
Перестройка семантического ядра под RAG — это не разовой проект, а постоянная практика. И в этой практике есть несколько ловушек, в которые регулярно попадают команды. Я видела их так часто, что вынесу в отдельный список.
- Не пытайтесь обмануть модель плотностью ключей. Мета-теги, перечисления ключей в невидимых блоках, микроразметка ради микроразметки — всё это уже не работает. LLM игнорируют такие сигналы и часто воспринимают их как шум, понижающий доверие к документу.
- Не игнорируйте галлюцинации. Если ассистент отвечает на ваш запрос неправильно — это сигнал, что ваш контент либо плохо структурирован для извлечения, либо закрывает тему не той глубиной. Галлюцинация — это не каприз модели, это пробел в вашем retrieval-окне, и его нужно закрывать, а не ждать.
- Не путайте позицию в выдаче с присутствием в ответе. Это две разные метрики, и они расходятся всё сильнее. Хороший отчёт по SEO в 2026 году должен показывать и то, и другое — желательно на одном дашборде, чтобы команда не выбирала, на что смотреть.
- Не делайте вид, что поиск «умер». Он не умер — он переродился в управление видимостью в диалоге. Это большая разница. Команды, которые приняли это как эволюцию профессии, а не как угрозу, уже выигрывают.
- Не забывайте про человеческий голос. Retrieval хорошо работает с тем, что хорошо читает человек. Живые примеры, реальные сценарии, авторская позиция — это то, что невозможно подделать ключами, и то, что модель охотно цитирует.
Итог: что я бы посоветовала как следующий шаг
Если вы дочитали до этого места, у вас уже есть картинка. Семантическое ядро в 2026 году — это не про «собрать больше ключей». Это про то, чтобы разложить знания вашего проекта по полкам, на которых их сможет найти и использовать языковая модель. Это требует другого мышления — мышления куратора знаний, а не сборщика запросов.
Я обычно предлагаю командам начать с одного кластера. Возьмите тему, которая для вас стратегическая, прогоните её через пять шагов выше, посмотрите результат. Если через месяц регулярного мониторинга ассистенты начнут цитировать ваш сайт по этим запросам — у вас есть рабочий скелет. Дальше его можно раскатывать на остальные кластеры, обогащая карту знаний и углубляя структуру страниц.
Главное — перестать измерять успех только позициями и начать измерять его присутствием в ответах. Это та метрика, которая в 2026 году действительно отражает, насколько ваш контент полезен, доступен и достоин цитирования. Всё остальное — следствие.
Если коротко: ядро перестало быть списком, оно стало схемой знаний. А SEO стало работой куратора, а не оптимизатора. И, честно говоря, мне эта роль нравится гораздо больше — она возвращает профессии то, ради чего мы в неё когда-то пришли: заботу о том, чтобы правильная информация находила своего читателя.