Индексация сайта в Яндексе и Гугле или как составить правильный файл robots.txt для Ucoz, Wordpress, Joomla, DLE
О том, как заработать деньги в интернете, создать сайт и раскрутить его

Индексация сайта в Яндексе и Гугле или как составить правильный файл robots.txt для Ucoz, WordPress, Joomla, DLE

Мы все знаем с чего начинается Родина – «…с картинки в твоём букваре…». А вот с чего начинается сайт в интернете, как webресурс о котором знают и видят? Знают пользователи и видят роботы поисковых систем.

А он начинается совсем не с шаблона сайта, или доменного имени. Сайт начинается с файла robots txt. Именно robots txt, в первую очередь ищет поисковый робот Яндекса или Гугла, чтобы индексация сайта проходила правильно. Если кто помнит недавний скандал, где Яндекс проиндексировал страницы с данными абонентов «Мегафона» и виновата прежде всего оказалась компания «Мегафон», которая не запретила в файле robots.txt поисковому роботу индексировать эти страницы и каталоги. Именно поэтому файл robots.txt очень важен при создании сайта.

Индексация сайта в Яндексе и Гугле или как составить правильный файл robots.txt для Ucoz, WordPress, Joomla, DLE

Почему упор на две поисковые системы Яндекс и Google? Дело в том, что доля остальных поисковиков, по сравнению с этими двумя гигантами интернета, ничтожна мала. Поэтому создание файла robots txt, благодаря которому происходит эффективная индексация сайта в Яндексе и Гугле – одна из основных и важных задач владельца ресурса.

Что собой представляет файл robots.txt для сайта

Файл robots.txt – является обычным текстовым файлом, который составляется при помощи любого текстового редактора (например, Notepad++). Место расположения файла robots.txt вашего сайта – корневая директория сайта. Основное содержание файла robots txt – специальные инструкции для индексирования вашего сайта поисковыми роботами Яндекса и Гугла.


Ускорить индексацию в Яндексе – это важная задача для тех, кто собирается всерьёз заняться монетизацией сайта. Правильный robots.txt для сайта – гарантия того, что вы со временем сможете использовать свой сайт для получения определенного дохода.

Индексация сайта в Яндексе и Гугле или как составить правильный файл robots.txt для Ucoz, WordPress, Joomla, DLE

Зачем инструкции роботам поиска в файле robots.txt

При заходе на ваш сайт поисковый робот ищет в первую очередь файл robots.txt и на основании того, что в нём прописано, приступает к индексации вашего сайта.

В инструкции robots.txt вы либо запрещаете индексацию определенных разделов и страниц своего сайта, либо разрешаете. Плюс вы это можете делать и для конкретных роботов поиска. Например, индексация сайта в Яндексе – разрешена, а индексация сайта в Гугле – закрыта.

Указания для роботов поиска осуществляются при помощи определенных символов. Разделы и страницы, которые вы закрыли от индексации, не попадут в индекс поисковых систем. Что такое индекс?

Индекс является базой данных поисковой системы, в которой хранится набор слов и словосочетаний со всех webресурсов (интернет-страниц).


Эта информации соотносится с адресами тех web ресурсов, на которых она встречается. Информация постоянно пополняется благодаря визитам роботов поиска на сайты. И для того, чтобы ваш сайт по определенным и нужным вам запросам появлялся в выдаче поисковой системы, он должен быть внесен в индекс этой системы.

Правильный robots.txt для сайта позволит вносить в индекс нужные страницы, и убирать дублированный «мусор», который отрицательно сказывается на поисковой выдаче. Проверка robots.txt вашего сайта осуществляется простым способом. В адресной строке браузера вносите следущий url: http://www.yourname.ru/robots.txt. И, вуаля… вы видите, что у вас стандартный файл robots.txt, загруженный при активации вашего движка (CMS). И в зависимости от задач, которые должен решать ваш сайт, вы приступаете к составлению нужного вам и правильного robots.txt

Как составить правильный robots.txt?

Дело в том, что существуют некоторые отличия при индексации сайта роботами поиска Яндекса и Гугла, и их нужно предварительно изучить, перед составлением правильного robots.txt. На сервисах Яндекса и Гугл для вебмастеров существуют разделы для правильного составления robots.txt с учетом требований к сайтам именно этих поисковых систем. Поэтому, прежде, чем приступать к созданию robots.txt для сайта, ознакомьтесь с этими правилами. Скачать готовый файл robots.txt в интернете не составляет особого труда. Материалов для этого в сети уже более, чем достаточно. Но давайте все таки разберем основные настройки robots.txt и посмотрим, что он из себя представляет, так сказать изнутри.

Как правильно настроить robots.txt?

Правильная настройка файла robots.txt зависит от того, как правильно вы будете прописывать директивы для чтения роботом поиска. Что это за директивы? Директивы являются прямым указанием к действию для робота поиска.

Основные директивы для всех роботов: user-agent, disallow, allow в robots.txt. Директива Host понимается только роботом поиска Яндекса.

Спецсимволом «*» обозначают любую последовательность символов далее в адресе.

  • User-agent:* – директива для всех роботов. Если вам необходимо применить это правило, лишь для одного робота, то вместо символа *, нужно указать имя робота, например: User-agent: Yandex Действие данной директивы будет продолжаться до следующей директивы user-agent, если вы желаете прописывать их для отдельных роботов поиска.
  • Disallow – директива запрещающая индексацию. Например: Disallow: /cgi-bin/ — запрещение индексации папки со скриптами, а Disallow: */feed – запрещение индексации фида сайта.
  • Allow – директива разрешающая индексацию. Например: Allow: /wp-content/uploads/ разрешение для индексации папки uploads.
  • Host – директива, которую понимает только робот поиска Яндекса. Эта директива указывает главное зеркало сайта. Например: Host: www.yourdomain.ru или Host: yourdomain.ru Данная директива позволяет устранить дубляж главной страницы вашего сайта в базе индексации дважды. Для поиска Яндекса, данная директива – межсекционная и находит он её, независимо от места расположения в файле robots.txt. В файле robots.txt директива Host должна быть только одна.
  • Sitemap – директива, указывающая путь к файлу sitemaps.xml Например: Sitemap: http:// yourdomain.ru /sitemaps.xml Хотя данная директива и является межсекционной, рекомендуется прописывать её в самом конце, через пустую строку. В этом случае она гарантированно работает для корректного считывания всеми роботами.
  • Стандартные части файла robots txt для сайтов на разных движках (CMS)

    Правильный robots.txt для WordPress

    Индексация сайта в Яндексе и Гугле или как составить правильный файл robots.txt для Ucoz, WordPress, Joomla, DLE

    Затем, при необходимости, по подобию, с использованием необходимых директив robots.txt приступаем к более тонким настройкам файла.

    Как вносить изменения в файл robots.txt? Для этого из корневого каталога вашего сайта, скачиваете на компьютер файл robots.txt. Производите необходимую настройку файла robots.txt в текстовом редакторе и заливаете его обратно в корневой каталог своего сайта.

    Как составить правильный robots.txt для WordPress с тонкими настройками. Что это за тонкие (индивидуальные) настройки? У каждого сайта они могут отличаться, и на паре примеров рассмотрим, как правильно составить файл robots.txt с индивидуальными настройками.

  • У вас активирована функция вывода древовидных комментариев. Поэтому необходимо запретить индексацию их адресов, котрые создаются при нажатии кнопки «Ответить на комментарий»: Disallow: *?replytocom=
  • Запрет индексации архивов. На разных ресурсах страницы архивов формируются с разными адресами, это зависит от формирования url на сайтах, наличия функции ЧПУ. Для того, чтобы узнать, что прописывать в файл robots.txt, откройте архив любого месяца или года. Например: http://yoursait.ru/archives/date/post-1. Значит в файле robots.txt директива должна выглядеть следующим образом Disallow: /archives/date/*
  • Таким же образом закрываем архивы тегов и автора Disallow: /archives/tag или Disallow: /archives/author/. В итоге файл robots.txt для сайта WordPress будет выглядеть следующим образом:
  • Индексация сайта в Яндексе и Гугле или как составить правильный файл robots.txt для Ucoz, WordPress, Joomla, DLE

    Для проверки правильного составления robots.txt необходимо зайти в Webmaster.yandex — настройка индексирования — Анализ robots.txt. Ссылка для проверки файла robots.txt в поисковой системе Гугл https://www.google.com/webmasters/tools/crawl-access?hl=ru&siteUrl=http://site.ru/ — инструменты вебмастера.

    Характерные ошибки при составлении файла robots.txt

    Эти ошибки допускаются, как правило, из-за невнимательного редактирования или изменения файла robots.txt, либо владельцы сайта нарушают Правила индексации роботами поиска Яндекса и Гугла.

    Таблица типичных ошибок при составлении правильного файла robots.txt:

    Индексация сайта в Яндексе и Гугле или как составить правильный файл robots.txt для Ucoz, WordPress, Joomla, DLE

    Если вы не будете допускать при написании файла robots.txt указанных типичных ошибок, то это поможет ускорить индексацию сайта в Яндексе и Гугле.

    Стандартный правильный robots.txt для Ucoz

    Индексация сайта в Яндексе и Гугле или как составить правильный файл robots.txt для Ucoz, WordPress, Joomla, DLE

    Правильный файл robots.txt для DLE

    Индексация сайта в Яндексе и Гугле или как составить правильный файл robots.txt для Ucoz, WordPress, Joomla, DLE

    Правильный robots.txt для Joomla

    Индексация сайта в Яндексе и Гугле или как составить правильный файл robots.txt для Ucoz, WordPress, Joomla, DLE

    Надеемся, что материал статьи поможет вам при составлении правильного файла robots.txt и в ускорении индексации сайта роботами поиска Яндекса и Гугла. Удачи вам в любых начинаниях, думаю в этой статье достаточно пищи для размышления.

    Подписаться по e-mail RSS