Проверка доступности сайта для AI-ботов

Анализирует домен целиком: до 6 разнотипных страниц, robots.txt, llms.txt, видимость контента и структурированные данные. Имитирует 7 ИИ-краулеров.

Что важно знать про результаты

Откуда берутся 6 страниц

Сначала ищем sitemap.xml (через robots.txt и стандартные пути), затем выбираем главную плюс по одному представителю из категорий, продуктов, статей и прочих разделов. Если sitemap не найден — берём ссылки с главной.

Бейдж «контент виден боту» — это эвристика

Большинство ИИ-краулеров не запускают JavaScript. Мы анализируем тот HTML, что вернул сервер, считаем количество видимого текста и ищем маркеры SPA (Next.js, React, Vue). На нестандартных стэках, где SSR неполный или используется частичная гидратация, эвристика может ошибаться. Если вердикт «похоже на SPA», а вы уверены в обратном — пришлите URL, посмотрим.

Конфликты политик

Если robots.txt разрешает GPTBot, но WAF возвращает 403 — это рассогласованная политика. Владелец сайта думает, что ИИ его читает, но фактически нет. Мы такие случаи отдельно подсвечиваем.

llms.txt

Новый стандарт от llmstxt.org — текстовый файл в корне сайта, описывающий контент для ИИ. Поддержка не обязательна, но считается признаком зрелого подхода. Если файла нет — мы предлагаем готовый шаблон.