«Докажите, что вы не робот»: все о роботах поисковых систем

22 мар 2021

«Докажите, что вы не робот»: все о роботах поисковых систем

Программы, действующие в поисковых системах — роботы, краулеры, пауки — существуют не сами по себе. Это важная часть механизма индексации сайта и один из ключевых способов указать на его существование во всемирной паутине. А значит, когда вы создаете страницу или работаете над ее оптимизацией, вы должны думать не только о том, какой ее увидит пользователь, но и о том, как она будет считываться ботами.

Поисковые боты — что это?

Программы-краулеры занимаются сканированием и индексацией сайтов. Задача робота — искать сайты, переходить по их страницам с помощью внутренних ссылок, собирать информацию и затем передавать ее на сервера поисковых систем. Это касается и новых, созданных недавно ресурсов, и старых страниц, на которых произошли изменения.

В дальнейшем эта информация, проанализированная и внесенная в базу, будет использоваться при выдаче сайта по запросам в браузере.

Алгоритм работы бота

«Пауки» обрабатывают веб-страницы по определенному алгоритму, который отличается от действий рядового пользователя.

Они переходят на сайт, сканируют первую страницу, сохраняют ее содержимое и переходят на следующую по внутренней ссылке, повторяя операцию. В том случае, если на портал не ведут внешние ссылки (или вы хотите ускорить процесс проверки), можно самостоятельно добавить сайт в очередь для индексирования.

Чтобы упростить и упорядочить работу программы, на сайт добавляются файлы robots.txt и XML Sitemap.

XML-карта сайта – файл формата XML, включающий ссылки на все страницы сайта, которые нужно посещать поисковому роботу. Это особенно важно для многостраничных порталов со сложной структурой, глубокой вложенностью и неоднозначной перелинковкой.

У файла robots.txt другая функция: он управляет действиями бота, ограничивая его посещения или глубину проникновения. Почему это бывает важно — мы поговорим чуть позже.

Основные поисковые роботы

У каждой поисковой системы есть свой набор «пауков», каждый из которых отвечает за ту или иную задачу.

Боты Яндекса

YandexBot – ключевой робот, выполняет индексацию.
YandexImages – работает с изображениями и графикой, добавляет их в индекс.
YandexMobileBot – помогает определить степень адаптации страницы для мобильных устройств.
YandexDirect – сканирует контент ресурсов-партнеров рекламной сети Яндекса.
YandexMetrika – привязан к сервису Яндекс.Метрика.
YandexMarket – то же самое для Яндекс.Маркета.
YandexNews – сканирует новостные материалы для добавления в Яндекс.Новости.
YandexScreenshotBot – работает со скриншотами документов.
YandexMedia – индексатор мультимедийных данных.
YandexVideoParser – робот Яндекс.Видео.
YandexPagechecker – отвечает за микроразметку.
YandexOntoDBAPI – программа-краулер объектного ответа, занимается скачиванием изменяющихся данных.
YandexAccessibilityBot – скачивает загруженные на сайт файлы, чтобы проверить, имеют ли к ним доступ посетители.
YandexSearchShop – работает с файлами формата Yandex Market Language, которые относятся к каталогам товаров.
YaDirectFetcher – собирает страницы, содержащие рекламу, чтобы проверить их доступность для посетителя и проанализировать тематику.
YandexirectDyn – отслеживает динамические баннеры.

Боты Google

Googlebot – ключевой индексатор содержимого страниц для ПК и мобильных устройств.
AdsBot-Google – отслеживает рекламу (и ее качество) на страницах, оптимизированных под ПК.
AdsBot-Google-Mobile – занимается тем же, но для мобильных страниц.
AdsBot-Google-Mobile-Apps – оценивает рекламу в приложениях для Android.
Mediaparnters-Google – собственный бот маркетинговой сети Google AdSense.
APIs-Google – юзер-агент пользователя APIs-Google для отправки пуш-уведомлений.
Googlebot-Video – индексирует видеоматериалы, размещенные в интернете.
Googlebot-Image – индексирует изображения на сайтах.
Googlebot-News – сканирует страницы с новостями и добавляет их в Google Новости.

Как узнать, что сайт посещали роботы?

Узнать, есть ли URL в индексе Яндекса или Google, можно с помощью сервисов Яндекс Вебмастер и Google Search Console соответственно.

Для поиска страницы в индексе Яндекса откройте отчёт «Страницы в поиске» в Яндекс.Вебмастер. Также можно открыть панель управления Вебмастера, перейти на страницу Индексирование, а затем – Статистика обхода. Обновление данных проводится ежедневно, результат будет отображен не позже, чем через 6 часов после посещения робота.

Еще один способ узнать, что поисковый паук посещал сайт – просмотреть логи сервера. Здесь хранится вся информация о тех, кто посещал ресурс: IP-адрес, история просмотра страниц, ответ, полученный на сайте.

Как управлять пауками?

Не всегда свободное перемещение поискового бота по страницам сайта — это хорошо. Есть случаи, когда их можно и нужно ограничивать:

слишком частые визиты могут создать нагрузку на сервер и замедлить работу ресурса;
на странице находится конфиденциальная информация — например, данные пользователей;
на странице находится малополезная информация — как правило, это служебные страницы и дубли.

Для того, чтобы заставить поисковых роботов посетить определенные страницы сайта, существуют специальные сервисы поисковых систем, называемые аддурилками (сленг., сокр. от англ. add url, или добавить адрес сайта).

Например, аддурилка Яндекса.

Добавление важных страниц в аддурилку позволит сократить сроки, необходимые для их индексации.

Хакерские атаки на сайт часто маскируются под визиты «пауков» - поэтому так важно их отслеживать и контролировать. Чтобы проверить, кто именно посещал сайт — настоящий робот поисковой системы или спамеры/хакеры, скопируйте IP-адрес, с которого был сделан запрос к сайту, в логах сервера хостинг-провайдера. Далее проверьте данный IP с помощью специализированного сервиса (например, MyIp). Адрес, указанный в строке IP Reverse DNS (Host), должен совпадать с исходным в логах сервера.

Для управления краулерами используются уже знакомые вам файлы: sitemap.xml и robots.txt.

Теги и в файле sitemap.xml позволяют установить частоту обновления и приоритет каждой страницы (соответственно). Например, для статичной страницы «О компании» можно снизить эти показатели без большого ущерба для продвижения, а вот раздел новостей или каталог товаров лучше индексировать вовремя.
Директива Disallow в файле robots.txt закроет определенные страницы для всех ботов — или только для некоторых из них. Скрывать стоит материалы, которые должны присутствовать на сайте, но могут помешать его SEO-продвижению.
При работе с файлом robots.txt стоит учесть, что закрытые страницы все равно могут попасть в индекс. Полностью исключить такую вероятность поможет метатег robots или доступ к материалам только после аутентификации.

Грамотно выстроенная работа с поисковыми роботами — одна из важных составляющих успешного продвижения вашего сайта в сети Интернет.