Работа ИИ-краулеров: взаимодействие AI-ботов с сайтом WordPress

Сайты создаются не только для публикации контента, а метаданные настраиваются не для развлечения. Все эти действия работают вместе, чтобы ваши страницы можно было легче найти. На протяжении многих лет поиск Google был основным шлюзом к этой видимости, в значительной степени благодаря своим веб-краулерам.

С конца 1990-х годов Googlebot и другие традиционные сканеры мониторят сайты, извлекают HTML-страницы и индексируют их, чтобы помочь людям найти то, что они ищут. По состоянию на январь 2024 года на Гугл приходилось 63% всего веб-трафика в США, который генерировали 170 ведущих доменов.

Но сейчас, согласно опросу McKinsey, половина клиентов обращается к инструментам ИИ, таким как ChatGPT, Claude, Gemini или Perplexity, для получения мгновенных ответов, и даже Google включает в результаты поиска резюме, сгенерированные искусственным интеллектом, с помощью таких функций, как AI Overviews.

За этими новыми возможностями AI стоит растущий класс ботов, известных как роботы-сканеры ИИ. Если вы управляете сайтом WordPress, понимание того, как эти сканеры получают доступ к контенту и используют его, становится важнее, чем когда-либо.

Что такое ИИ-сканеры

AI-сканеры — это автоматизированные боты, которые сканируют общедоступные веб-страницы, подобно краулерам поисковых систем, но с другой целью. Вместо индексации для традиционного ранжирования, они собирают материал для обучения больших языковых моделей или предоставляют свежую информацию для ответов, сгенерированных ИИ.

В целом, ИИ-краулеры делятся на 2 группы:

  • Обучающие сканеры, такие как GPTBot (OpenAI) и ClaudeBot (Anthropic), собирают данные, чтобы научить большие языковые модели более точно отвечать на вопросы.
  • Сканеры для поиска в реальном времени, такие как ChatGPT-User, получают доступ к веб-проектам в режиме реального времени, когда кто-то задает вопрос, требующий последних данных, например, для проверки описания продукта или чтения документации.

Другие краулеры, например PerplexityBot или AmazonBot, создают собственные индексы или системы, чтобы уменьшить зависимость от сторонних источников. И хотя их цели различаются, у них есть одна общая черта: они извлекают и читают контент с сайтов, таких как ваш.

Как работают роботы-сканеры с ИИ

Когда робот-сканер с искусственным интеллектом посещает сайт, он обычно выполняет следующие действия:

  • Отправляет базовый запрос GET на URL-адрес страницы (без взаимодействия, прокрутки или событий DOM).
  • Извлекает только исходный HTML-код, возвращаемый сервером. Он не ждет загрузки или выполнения клиентского JavaScript.
  • Извлекает все ссылки <a href=””>, <img src=””>, <script src=””> и другие линки на ресурсы, а затем добавляет внутренние (а иногда и внешние) URL-адреса в свою очередь сканирования. Во многих случаях он также натыкается на неработающие ссылки, которые возвращают ошибки 404.
  • Может пытаться извлекать связанные ресурсы, такие как изображения, CSS-файлы или скрипты, но только в виде необработанных ресурсов, а не для рендеринга страницы.
  • Повторяет этот процесс рекурсивно по всем обнаруженным ссылкам, чтобы составить карту сайта.

Как ИИ-сканеры взаимодействуют с сайтами WordPress

WordPress — это платформа с серверным рендерингом. Она использует PHP для генерации полных HTML-страниц перед отправкой их в браузер. Когда сканер посещает сайт ВордПресс, он обычно получает все необходимое (контент, заголовки, метаданные, навигацию) в HTML-ответе.

Эта структура с серверным рендерингом делает большинство проектов WP естественно удобными для краулеров. Будь то Googlebot или AI-сканер, они обычно могут сканировать сайт и легко понимать его контент.

Фактически, легко сканируемый материал — одна из причин, по которой ВордПресс хорошо работает как в традиционных поисковых системах, так и в более новых платформах на базе искусственного интеллекта.

Следует ли разрешать ИИ-сканерам доступ к контенту

ИИ-краулеры уже могут читать большинство сайтов WordPress по умолчанию. Настоящий вопрос заключается в том, к чему вы хотите им предоставить доступ — и как можете контролировать эту видимость.

В настоящее время эта тема активно обсуждается в компаниях, ориентированных на контент. Она затрагивает блог-посты, документацию, лендинги. Фактически, все, что написано для Интернета. Вы, вероятно, слышали такие советы, как «пишите для машин», поскольку платформы искусственного интеллекта все чаще извлекают актуальные данные и в некоторых случаях теперь включают ссылки на источники. Мы все хотим появляться в результатах LLM так же, как желаем быть в результатах поиска Google.

Например, ChatGPT сканирует журналы изменений и связанные страницы и предоставляет краткий ответ с прямыми ссылками на источник.

ИИ-сканеры уже влияют на то, что люди видят, когда задают вопросы в Интернете. И этот охват может иметь значение.

Гильермо Раух, генеральный директор Vercel, в апреле сообщил, что ChatGPT составляет почти 10% новых регистраций в Vercel, по сравнению с менее чем 1% всего 6 месяцев назад. Это демонстрирует, как быстро ИИ-рефералы могут превратиться в значительный канал привлечения клиентов.

Цитата о ChatGPT

AI-сканеры широко распространены. По данным Cloudflare, ИИ-боты посетили около 39% из миллиона самых популярных сайтов, но только около 3% этих ресурсов фактически заблокировали или затруднили этот трафик.

Таким образом, даже если еще не приняли решение, ИИ-сканеры почти наверняка уже посещают ваш сайт.

Следует разрешать или блокировать ИИ-краулеры?

Универсального ответа на этот вопрос нет. Но вот несколько рекомендаций:

  • Блокируйте сканеры на конфиденциальных или малозначимых страницах, таких как /login, /checkout, /admin или дашборды. Они не помогают в поиске информации и только тратят трафик.
  • Разрешите сканеры на «контенте для обнаружения», таком как посты в блогах, документация, страницы продуктов и информация о ценах. Эти разделы чаще всего цитируются в ответах ИИ и привлекают целевой трафик.
  • Примите стратегическое решение в отношении премиального или закрытого контента. Если материал является вашим продуктом (например, новости, исследования, курсы), неограниченный доступ к ИИ может нанести ущерб бизнесу.

Появляются новые инструменты, которые могут помочь. Например, Cloudflare экспериментирует с моделью под названием Pay Per Crawl, которая позволяет владельцам сайтов взимать плату с компаний, занимающихся искусственным интеллектом, за доступ. Она все еще находится в стадии закрытого бета-тестирования. И ее внедрение в реальный мир находится на ранней стадии, но эта идея получила сильную поддержку со стороны крупных издателей, которые хотят иметь больше контроля над тем, как используется их контент.

Другие участники сообщества ПС и маркетинга более осторожны, поскольку блокировка по умолчанию может непреднамеренно снизить видимость в результатах поиска ИИ для сайтов, которые на самом деле хотят быть заметными. На данный момент это скорее многообещающий эксперимент, чем зрелый источник дохода.

До тех пор, пока эти системы не достигнут зрелости, наиболее практичным подходом является выборочная открытость, при которой вы сохраняете возможность сканирования контента, блокируете конфиденциальные области и пересматриваете свои правила по мере развития экосистемы.

Как контролировать доступ ИИ-сканеров к WordPress

Если не нравится, что ИИ-сканеры получают доступ к вашему сайту WP и мониторят его контент, хорошая новость заключается в том, что вы можете вернуть себе контроль.

Далее рассмотрим 3 способа управлять доступом ИИ-краулеров к ВордПресс.

Вариант 1: вручную заблокировать ИИ-сканеры с помощью robots.txt

Ваш файл robots.txt сообщает ботам, какие части сайта им разрешено сканировать. Большинство известных AI-краулеров, таких как GPTBot от OpenAI, Claude-Web от Anthropic и Google-Extended, соблюдают эти правила.

Вы можете полностью заблокировать определенных ботов, предоставить им полный доступ или ограничить его к определенным разделам ресурса. Например, чтобы заблокировать все, можете добавить следующее в файл robots.txt, хотя для большинства сайтов это не рекомендуется:

User-agent: GPTBot
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: Google-Extended
Disallow: /

Чтобы предоставить полный доступ GPTBot от OpenAI:

User-agent: GPTBot 
Disallow:

Чтобы заблокировать только один раздел сайта для GPTBot от OpenAI. Например, страницу входа в систему, где сканеры не приносят никакой пользы:

User-agent: GPTBot
Disallow: /login/

Такая выборочная блокировка имеет ключевое значение. Конфиденциальные маршруты, такие как /login, /checkout или /admin, не способствуют видимости и почти всегда должны быть заблокированы.

С другой стороны, страницы продуктов, обзоры функций или справочный центр — хорошие кандидаты для открытого доступа к сканерам, поскольку они могут привлекать цитирования и рефералы.

Вы можете добавить этот файл robots.txt вручную следующим образом:

  • Используя плагин SEO, такой как Yoast («Инструменты» > «Редактор файлов»).
  • Применяя расширение файлового менеджера, такой как WP File Manager.
  • Или отредактировать robots.txt непосредственно на сервере через FTP.

Вариант 2: использовать лучший плагин WordPress для блокировки ИИ-сканеров в 2026 году

Если неудобно редактировать robots.txt напрямую или просто хотите более быстрый и безопасный способ управления доступом краулеров AI, расширения могут сделать эту работу за вас в несколько кликов. Ниже представлены лучшие плагины WordPress для блокировки ИИ-сканеров в 2026 году.

Raptive Ads

Плагин Raptive Ads для ВордПресс включает встроенную поддержку блокировки ИИ-краулеров:

  • Вы можете выбрать, какие боты блокировать, прямо в настройках плагина.
  • Большинство ИИ-ботов (таких как GPTBot и Claude) заблокированы по умолчанию.
  • Google-Extended не заблокирован по умолчанию, но вы можете установить флажок, если хотите отказаться от обучения AI Google.

Одно из ключевых преимуществ использования этого плагина заключается в том, что блокировка Google-Extended не влияет на ваш рейтинг в Google или видимость в обычных результатах поиска.

Block AI Crawlers

Плагин Block AI Crawlers был создан специально для того, чтобы дать владельцам сайтов WordPress больше контроля над тем, как AI-сканеры взаимодействуют с их контентом. Вот как это работает:

  • Блокирует 75+ известных ИИ-ботов, автоматически добавляя правильные правила Disallow в файл robots.txt сайта.
  • Конфигурация не требуется. Установите плагин, перейдите в «Настройки» > «Чтение» и установите флажок «Блокировать AI-краулеры».
  • Легкий и открытый исходный код, с регулярными обновлениями из GitHub.
  • Разработан для работы «из коробки» на большинстве установок WP.

Плагин Block AI Crawlers — один из самых простых способов защитить сайт от нежелательных ботов с искусственным интеллектом, особенно если не используете продвинутые SEO-расширения.

Вариант 3: используйте блокировщик ИИ-ботов Cloudflare в один клик

Если сайт WordPress использует Cloudflare (а многие используют), вы можете заблокировать десятки известных и неизвестных ботов с искусственным интеллектом одним переключением.

В середине 2024 года Cloudflare запустила специальную функцию AI Scrapers and Crawlers, доступную даже в бесплатном тарифе.

Эта опция не полагается только на robots.txt. Она блокирует ботов на сетевом уровне, даже тех, которые лгут о своей идентичности.

Вы можете включить ее, выполнив следующие действия:

  1. Войдите в свой дашборд Cloudflare.
  2. Перейдите в раздел «Безопасность» > «Настройки».
  3. В разделе «Фильтр по» выберите «Трафик ботов».
  4. Найдите «Режим борьбы с ботами» и включите его.

Блокировщик ИИ сканеров Cloudflare

Если используете платный тариф Cloudflare, у вас есть доступ к режиму «Суперборьба с ботами» — усовершенствованной версии режима «Борьба с ботами» с большей гибкостью. Он основан на той же технологии, но позволяет выбирать, как обрабатывать различные типы трафика, включая обнаружение JavaScript для выявления браузеров, скрытых скрейперов и другого вредоносного трафика.

Например, вместо блокировки всех сканеров можете настроить инструмент так, чтобы он блокировал только «определенно автоматизированный трафик» и разрешал «проверенные боты», такие как сканеры поисковых систем:

Опция блокировщика трафика Cloudflare

Вот и все. Cloudflare автоматически блокирует запросы от ботов с искусственным интеллектом.

Заключение

ИИ-краулеры теперь являются частью того, как люди находят информацию в Интернете. Технология новая, правила еще формируются. Владельцы сайтов решают, какую часть контента они хотят сделать доступной.

Хорошая новость заключается в том, что ресурсы WordPress уже находятся в выгодном положении. Поскольку WP выдает полностью обработанный HTML-код, большинство AI-сканеров могут четко интерпретировать контент без специальной обработки. Настоящее стратегическое решение заключается не в том, могут ли они получить доступ к сайту, а в том, насколько этот доступ помогает вам в достижении целей.

Оцените статью
WPBasic
Добавить комментарий