Ваше местоположение:
Загрузка...
Программы, действующие в поисковых системах — роботы, краулеры, пауки — существуют не сами по себе. Это важная часть механизма индексации сайта и один из ключевых способов указать на его существование во всемирной паутине. А значит, когда вы создаете страницу или работаете над ее оптимизацией, вы должны думать не только о том, какой ее увидит пользователь, но и о том, как она будет считываться ботами.

Поисковые боты — что это?
Программы-краулеры занимаются сканированием и индексацией сайтов. Задача робота — искать сайты, переходить по их страницам с помощью внутренних ссылок, собирать информацию и затем передавать ее на сервера поисковых систем. Это касается и новых, созданных недавно ресурсов, и старых страниц, на которых произошли изменения.
В дальнейшем эта информация, проанализированная и внесенная в базу, будет использоваться при выдаче сайта по запросам в браузере.
Алгоритм работы бота
«Пауки» обрабатывают веб-страницы по определенному алгоритму, который отличается от действий рядового пользователя.
Они переходят на сайт, сканируют первую страницу, сохраняют ее содержимое и переходят на следующую по внутренней ссылке, повторяя операцию. В том случае, если на портал не ведут внешние ссылки (или вы хотите ускорить процесс проверки), можно самостоятельно добавить сайт в очередь для индексирования.
Чтобы упростить и упорядочить работу программы, на сайт добавляются файлы robots.txt и XML Sitemap.

XML-карта сайта – файл формата XML, включающий ссылки на все страницы сайта, которые нужно посещать поисковому роботу. Это особенно важно для многостраничных порталов со сложной структурой, глубокой вложенностью и неоднозначной перелинковкой.
У файла robots.txt другая функция: он управляет действиями бота, ограничивая его посещения или глубину проникновения. Почему это бывает важно — мы поговорим чуть позже.
Основные поисковые роботы
У каждой поисковой системы есть свой набор «пауков», каждый из которых отвечает за ту или иную задачу.
Боты Яндекса

Боты Google

Как узнать, что сайт посещали роботы?
Узнать, есть ли URL в индексе Яндекса или Google, можно с помощью сервисов Яндекс Вебмастер и Google Search Console соответственно.
Для поиска страницы в индексе Яндекса откройте отчёт «Страницы в поиске» в Яндекс.Вебмастер. Также можно открыть панель управления Вебмастера, перейти на страницу Индексирование, а затем – Статистика обхода. Обновление данных проводится ежедневно, результат будет отображен не позже, чем через 6 часов после посещения робота.
Еще один способ узнать, что поисковый паук посещал сайт – просмотреть логи сервера. Здесь хранится вся информация о тех, кто посещал ресурс: IP-адрес, история просмотра страниц, ответ, полученный на сайте.
Как управлять пауками?

Не всегда свободное перемещение поискового бота по страницам сайта — это хорошо. Есть случаи, когда их можно и нужно ограничивать:
Для того, чтобы заставить поисковых роботов посетить определенные страницы сайта, существуют специальные сервисы поисковых систем, называемые аддурилками (сленг., сокр. от англ. add url, или добавить адрес сайта).
Например, аддурилка Яндекса.
Добавление важных страниц в аддурилку позволит сократить сроки, необходимые для их индексации.
Хакерские атаки на сайт часто маскируются под визиты «пауков» - поэтому так важно их отслеживать и контролировать. Чтобы проверить, кто именно посещал сайт — настоящий робот поисковой системы или спамеры/хакеры, скопируйте IP-адрес, с которого был сделан запрос к сайту, в логах сервера хостинг-провайдера. Далее проверьте данный IP с помощью специализированного сервиса (например, MyIp). Адрес, указанный в строке IP Reverse DNS (Host), должен совпадать с исходным в логах сервера.
Для управления краулерами используются уже знакомые вам файлы: sitemap.xml и robots.txt.
Грамотно выстроенная работа с поисковыми роботами — одна из важных составляющих успешного продвижения вашего сайта в сети Интернет.
