Robots.txt — как создать и настроить его правильно для сайта?

Как создать правильный файл robots.txt, настройка, директивы

Файл robots.txt — текстовый файл в формате .txt, ограничивающий поисковым роботам доступ к содержимому на http-сервере. Как определение, Robots.

txt — это стандарт исключений для роботов, который был принят консорциумом W3C 30 января 1994 года, и который добровольно использует большинство поисковых систем. Файл robots.

txt состоит из набора инструкций для поисковых роботов, которые запрещают индексацию определенных файлов, страниц или каталогов на сайте. Рассмотрим описание robots.txt для случая, когда сайт не ограничивает доступ роботам к сайту.

Простой пример robots.txt:

User-agent: *
Allow: /

Здесь роботс полностью разрешает индексацию всего сайта.

Файл robots.txt необходимо загрузить в корневой каталог вашего сайта, чтобы он был доступен по адресу:

ваш_сайт.ru/robots.txt

Для размещения файла robots.txt в корне сайта обычно необходим доступ через FTP. Однако, некоторые системы управления (CMS) дают возможность создать robots.txt непосредственно из панели управления сайтом или через встроенный FTP-менеджер.

Если файл доступен, то вы увидите содержимое robots.txt в браузере.

Для чего нужен robots.txt

Roots.txt для сайта является важным аспектом поисковой оптимизации. Зачем нужен robots.txt? Например, в SEO robots.txt нужен для того, чтобы исключать из индексации страницы, не содержащие полезного контента и многое другое. Как, что, зачем и почему исключается уже было описано в статье про запрет индексации страниц сайта, здесь не будем на этом останавливаться.

Нужен ли файл robots.txt всем сайтам? И да и нет. Если использование robots.txt подразумевает исключение страниц из поиска, то для небольших сайтов с простой структурой и статичными страницами подобные исключения могут быть лишними. Однако, и для небольшого сайта могут быть полезны некоторые директивы robots.

txt, например директива Host или Sitemap, но об этом ниже.

Как создать robots.txt

Поскольку robots.txt — это текстовый файл, и чтобы создать файл robots.txt, можно воспользоваться любым текстовым редактором, например Блокнотом. Как только вы открыли новый текстовый документ, вы уже начали создание robots.

txt, осталось только составить его содержимое, в зависимости от ваших требований, и сохранить в виде текстового файла с названием robots в формате txt. Все просто, и создание файла robots.txt не должно вызвать проблем даже у новичков. О том, как составить robots.

txt и что писать в роботсе на примерах покажу ниже.

Cоздать robots.txt онлайн

Вариант для ленивых — создать роботс онлайн и скачать файл robots.txt уже в готовом виде. Создание robots txt онлайн предлагает множество сервисов, выбор за вами. Главное — четко понимать, что будет запрещено и что разрешено, иначе создание файла robots.txt online может обернуться трагедией, которую потом может быть сложно исправить.

Особенно, если в поиск попадет то, что должно было быть закрытым. Будьте внимательны — проверьте свой файл роботс, прежде чем выгружать его на сайт. Все же пользовательский файл robots.txt точнее отражает структуру ограничений, чем тот, что был сгенерирован автоматически и скачан с другого сайта.

Читайте дальше, чтобы знать, на что обратить особое внимание при редактировании robots.txt.

Редактирование robots.txt

После того, как вам удалось создать файл robots.txt онлайн или своими руками, вы можете редактировать robots.txt. Изменить его содержимое можно как угодно, главное — соблюдать некоторые правила и синтаксис robots.txt.

В процессе работы над сайтом, файл роботс может меняться, и если вы производите редактирование robots.txt, то не забывайте выгружать на сайте обновленную, актуальную версию файла со всем изменениями.

Далее рассмотрим правила настройки файла, чтобы знать, как изменить файл robots.txt и «не нарубить дров».

Правильная настройка robots.txt

Правильная настройка robots.txt позволяет избежать попадания частной информации в результаты поиска крупных поисковых систем. Однако, не стоит забывать, что команды robots.txt не более чем руководство к действию, а не защита

Источник: https://convertmonster.ru/blog/seo-blog/kak-sozdat-pravilnyj-fajl-robots-txt-nastrojka-direktivy/

Использование файла robots.txt — Вебмастер. Помощь

Яндекс поддерживает следующие директивы:

ДирективаЧто делает
User-agent * Указывает на робота, для которого действуют перечисленные в robots.txt правила.
Disallow Запрещает индексирование разделов или отдельных страниц сайта.
Sitemap Указывает путь к файлу Sitemap, который размещен на сайте.
Clean-param Указывает роботу, что URL страницы содержит параметры (например, UTM-метки), которые не нужно учитывать при индексировании.
Allow Разрешает индексирование разделов или отдельных страниц сайта.
Crawl-delay Задает роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.

* Обязательная директива.

Наиболее часто вам могут понадобиться директивы Disallow, Sitemap и Clean-param. Например:

User-agent: * #указываем, для каких роботов установлены директивы
Disallow: /bin/ # запрещает ссылки из «Корзины с товарами».
Disallow: /search/ # запрещает ссылки страниц встроенного на сайте поиска
Disallow: /admin/ # запрещает ссылки из панели администратора
Sitemap: http://example.com/sitemap # указываем роботу на файл sitemap для сайта
Clean-param: ref /some_dir/get_book.pl

Роботы других поисковых систем и сервисов могут иначе интерпретировать эти директивы.

Примечание. Робот учитывает регистр в написании подстрок (имя или путь до файла, имя робота) и не учитывает регистр в названиях директив.

Использование кириллицы запрещено в файле robots.txt и HTTP-заголовках сервера.

Обратите внимание

Для указания имен доменов используйте Punycode. Адреса страниц указывайте в кодировке, соответствующей кодировке текущей структуры сайта.

Пример файла robots.txt:

#Неверно:
User-agent: Yandex
Disallow: /корзина #Верно:
User-agent: Yandex
Disallow: /%D0%BA%D0%BE%D1%80%D0%B7%D0%B8%D0%BD%D0%B0

  1. В текстовом редакторе создайте файл с именем robots.txt и заполните его.
  2. Проверьте файл в Яндекс.Вебмастере.
  3. Положите файл в корневую директорию вашего сайта.

В Яндекс.Вебмастере на странице «Диагностика сайта» возникает ошибка «Сервер отвечает редиректом на запрос /robots.txt»

Чтобы файл robots.txt учитывался роботом, он должен находиться в корневом каталоге сайта и отвечать кодом HTTP 200. Индексирующий робот не поддерживает использование файлов, расположенных на других сайтах.

Проверить ответ сервера и доступность файла robots.txt для робота можно с помощью инструмента Проверка ответа сервера.

Если ваш robots.txt выполняет перенаправление на другой файл robots.txt (например, при переезде сайта), добавьте сайт, который является целью перенаправления, в Яндекс.Вебмастер и подтвердите права на управление сайтом.

Была ли статья полезна?

Предыдущая

Как добавить сайт в поиск

Следующая

Директива User-agent

Источник: https://yandex.ru/support/webmaster/controlling-robot

Правильный robots txt для сайта, инструкция новичкам

Здравствуйте друзья! В статье показано, что такое правильный robots txt для сайта, где он находится, способы создания файла robots, как адаптировать под себя файл robots с другого сайта, как его залить к себе на блог.

Что такое файл robots txt, зачем он нужен и за что он отвечает

Файл robots txt, это текстовый файл, который содержит инструкции для поисковых роботов. Перед обращением к страницам Вашего блога, робот ищет первым делом файл robots, поэтому он так важен.

Файл robots txt это стандарт для исключения индексации роботом тех или иных страниц. От файла robots txt будет зависеть попадание в выдачу Ваших конфиденциальных данных.

Правильный robots txt для сайта поможет в его продвижении, поскольку он является важным инструментов во взаимодействии Вашего сайта и поисковых роботов.

Не зря файл robots txt называют важнейшим инструментом SEO, этот маленький файл напрямую влияет на индексацию страниц сайта и сайта в целом. И наоборот, неправильный robots txt может исключить некоторые страницы, разделы или сайт в целом из поисковой выдачи. В этом случае можно иметь и 1000 статей на блоге, а посетителей на сайте просто не будет, будут чисто случайные прохожие.

На Яндекс вебмастере есть обучающее видео, в котором Яндекс сравнивает файл роботс тхт с коробкой Ваших личных вещей, которые Вы не хотите никому показывать. Чтобы посторонние не заглядывали в эту коробку, Вы её заклеиваете скотчем и пишете на ней – «Не открывать».

Роботы, как воспитанные личности, эту коробку не открывают и другим не смогут рассказать, что там находится.

Если файла robots txt нет, то робот поисковой системы считает, что все файлы доступные, он откроет коробку, всё посмотрит и другим расскажет, что лежит в коробке.

Важно

Чтобы робот не лазил в этот ящик, надо запретить ему туда лазить, делается это с помощью директивы Disallow, что переводится с английского – запретить, а Allow – разрешить.

Это обычный txt файл, который составляется в обычном блокноте или программе NotePad++, файл, который предлагает роботам не индексировать определённые страницы на сайте. Для чего это нужно:

  • правильно составленный файл robots txt не позволяет роботам индексировать всякий мусор и не забивать поисковую выдачу ненужным материалом, а также не плодить дубли страниц, что является очень вредным явлением;
  • не позволяет роботам индексировать информацию, которая нужна для служебного пользования;
  • не позволяет роботам шпионам воровать конфиденциальные данные и использования их для отправки спама.

Это не означает, что мы что-то хотим спрятать от поисковиков, что-то тайное, просто эта информация не несёт ценности ни для поисковиков, ни для посетителей. Например, страница логина, RSS ленты и т.д. Кроме того, файл robots txt указывает зеркало сайта, а также карту сайта.

По умолчанию на сайте, который делается на WordPress, файла robots txt нет. Поэтому нужно создать robots txt файл и залить его в корневую папку Вашего блога, в данной статье мы рассмотрим robots txt для WordPress, его создание, корректировку и заливку на сайт.

Итак, сначала мы узнаем, где находится файл robots txt?

к оглавлению ↑

Где находится robots txt, как увидеть его?

Источник: https://biz-iskun.ru/pravilnyiy-robots-txt-dlya-sayta.html

Настройка файла robots.txt (роботс) для сайта: правила и ошибки

Если вы читаете эту статью — у вас проблема в написании правильного robots.txt. Возможно вы знакомы с основами, видели несколько таких инструкцией для поисковых устройств, знаете принцип составления или же вовсе имеете богатый опыт составления этого файла. Прочитать статью будет полезно и интересно всем.

Сегодня мы рассмотрим правила, ошибки и «хороший тон» составления правильного robots, а так же его коррекцию при использовании популярных CMS. Речь не пойдет об основах. Все элементарные правила создания и корректировки роботс должен знать каждый.

А если вы не знаете их, то вам прямая дорога сначала в Помощь Яндекса, где подробно прочитаете как создать robots.txt. 

Читайте также:  Как стать богатым с нуля в россии: 23 основных правила успешного человека

Так же, если вы ищите как настроить файл robots.txt для переезда с HTTP на HTTPS, то вам сюда — Настройка SSL сертификата

Итак, поехали!

Роботов можно разделить на два отряда: «пауки» и «дятлы».

Пауки ходят по ссылкам сайта, по его структуре, всё глубже и глубже собирая все данные о содержимом сайта. Дятлы же простукивают страницы сайта, проверяя, работают ли эти страницы, видят ли их пользователи, не отдает ли страница 404-ю ошибку.

  Речь в статье пойдет о роботе-пауке, который проходя по внутренним ссылкам руководствуется правилами и запретами прописанными в файле robots.txt.

Ниже я опишу банальные ошибки настройки robots.

txt которые сам видел и расскажу как их можно избежать.

Ошибки составления robots.txt для сайта, которые мы встречали

Перепутанные инструкции

Я имел честь видел на своем опыте много файлов роботс, но бывали и совсем фантастические и невозможные. К примеру:

User-agent: /
 Disallow: Yandex 

Всем же, надеюсь, известно что правильно писать так:

User-agent: Yandex
 Disallow: / 

Указание нескольких правил в одной инструкции

Так же мне улыбнулась удача увидеть в своей жизни данное безобразие:

Disallow: /wp-admin/ /wp-includes/ /wp-feed/ 

В таком случае не понятно как поведет себя тот или иной робот поисковой системы. Один может воспринять данное правило вместе — Disallow: /wp-admin/wp-includes/wp-feed/ , другой взять первое правило (/wp-admin/) или последнее (/wp-feed/), а какой то вовсе не воспримет данную строку. Поэтому не рискуем и пишем правила построчно, в отдельных инструкциях:

Disallow: /wp-admin/  Disallow: /wp-includes/

 Disallow: /wp-feed/

Ошибки в названии файла

Так же на моем веку встречались и совсем экзотичные случаи. Захотел я посмотреть роботс сайта, ввел в строку http://сайт.ru/robots.txt, а мне в ответ кукиш! «Наверное нет файла» — подумал я. Но когда залез в структуру сайта был шокирован! Встречались разные варианты написания:

  • Robots.txt (с заглавной буквы);
  • robot.txt (без s);
  • ROBOTS.TXT (!КАПСОМ!).

Правильно писать естественно «robots.txt».

Пустое значение в User-agent

Очень часто на недоработанных сайтах встречалась следующая конструкция:

User-agent:
 Disallow: 

Для кого она? Не понятно. Единственное из этого понятно, что данный посыл не дошел ни до одного робота. Правильно вписывать имя робота, для кого назначены ниже перечисленные инструкции:

Источник: https://studiof1.ru/blog/audit/nastroyka-pravilnogo-fayla-robotstxt/

Файл robots.txt и мета-тег robots — настройка индексации сайта Яндексом и Гуглом, правильный роботс и его проверка

В этом случае, боты всех поисковых систем должны будут забыть об индексации этой вебстраницы (об этом говорит присутствие noindex в данном мета-теге) и анализе размещенных на ней ссылок (об этом говорит присутствие nofollow — боту запрещается переходить по ссылкам, которые он найдет в этом документе).

Существуют только две пары параметров у метатега robots: [no]index и [no]follow:

  1. Index — указывают, может ли робот проводить индексацию данного документа
  2. Follow — может ли он следовать по ссылкам, найденным в этом документе

Значения по умолчанию (когда этот мета-тег для страницы вообще не прописан) – «index» и «follow». Есть также укороченный вариант написания с использованием «all» и «none», которые обозначают активность обоих параметров или, соответственно, наоборот: all=index,follow и none=noindex,nofollow.

Более подробные объяснения можно найти, например, в хелпе Яндекса:

Для блога на WordPress вы сможете настроить мета-тег Robots, например, с помощью плагина All in One SEO Pack. Если используете другие плагины или другие движки сайта, то гуглите на тему прописывания для нужных страниц meta name=»robots».

Как создать правильный роботс.тхт?

Ну все, с теорией покончено и пора переходить к практике, а именно к составлению оптимальных robots.txt. Как известно, у проектов, созданных на основе какого-либо движка (Joomla, WordPress и др), имеется множество вспомогательных объектов не несущих никакой информативной нагрузки.

Если не запретить индексацию всего этого мусора, то время, отведенное поисковиками на индексацию вашего сайта, будет тратиться на перебор файлов движка (на предмет поиска в них информационной составляющей, т.е. контента).

Но фишка в том, что в большинстве CMS контент хранится не в файликах, а в базе данных, к которой поисковым ботам никак не добраться.

Совет

Полазив по мусорным объектам движка, бот исчерпает отпущенное ему время и уйдет не солоно хлебавши.

Кроме того, следует стремиться к уникальности контента на своем проекте и не следует допускать полного или даже частичного дублирования контента (информационного содержимого). Дублирование может возникнуть в том случае, если один и тот же материал будет доступен по разным адресам (URL).

Яндекс и Гугл, проводя индексацию, обнаружат дубли и, возможно, примут меры к некоторой пессимизации вашего ресурса при их большом количестве (машинные ресурсы стоят дорого, а посему затраты нужно минимизировать). Да, есть еще такая штука, как мета-тэг Canonical.

Замечательный инструмент для борьбы с дублями контента — поисковик просто не будет индексировать страницу, если в Canonical прописан другой урл. Например, для такой страницы https://ktonanovenkogo.ru/page/2 моего блога (страницы с пагинацией) Canonical указывает на https://ktonanovenkogo.ru и никаких проблем с дублированием тайтлов возникнуть не должно.

Но это я отвлекся…

Если ваш проект создан на основе какого-либо движка, то дублирование контента будет иметь место

Источник: https://KtoNaNovenkogo.ru/seo/uluchshaem-indeksaciyu-sajta-poiskovikami-robots-txt-dlya-joomla-smf-wordpress-chast-2.html

Файл robots.txt — шпаргалка для начинающих

Любой человек, тем более тот, который только начинает свой путь вебмастера, не может сделать идеальный сайт для раскрутки в интернете и получения прибыли с него, если не знает предназначения основных файлов движка, который он использует. Однако существуют однотипные файлы, которые используют все CMS — системы.

Один из таких файлов является robots.txt. Именно ему и посвящена данная статья. Здесь мы рассмотрим правильное составление этого файла и расскажем о некоторых нюансах упрощения составления списка запрещенных страниц для собственного сайта.

Что представляют собой файлы robots.txt

Robots.txt – текстовый файл, открываемый обычным блокнотом. Находится он в корневом каталоге любого движка и состоит из списка запрещенных для отображения в поисковой выдаче страниц.

Каждая строка этого файла представляет собой ссылку на запрещенную к индексации поисковыми системами страничку. Иногда приходится запретить к показу несколько однотипных страничек.

Допустим, что у вас на сайте присутствуют теги, которые создаются как отдельная страничка с выдачей. Естественно, поисковым системам незачем отображать эту информацию, так как вы не только задублируете информацию, но и создадите совсем ненужную ссылку в поисковой выдаче.

Для более наглядного понимания стоит привести пример:

Site.com/tags/1 Site.com/tags/2 …

Таких тегов могут быть тысячи, чтобы не дублировать каждый тег новой строкой, можно ввести всего одну строку следующего вида:

Это значит, что в вашем домене будут заблокированы для выдачи в поиске все странички, имеющие в своем адресе фразу «tags» на втором уровне (сразу после доменного имени).

Зачем вообще нужен файл robots.txt

Главная идея этого файла состоит в том, чтобы запретить роботам поисковых систем отображать в поиске странички, которые будут либо дублировать информацию, либо отображать личную информацию пользователей сайта без предварительной регистрации.

Во-первых, это не позволяет получить пользователям интернета личную информацию пользователей ресурса, во-вторых, в поиске будут отображаться только необходимые вам страницы.

Это основные принципы, которыми руководствуются создатели сайтов, редактируя текстовый файл robots. Правильно оформив данный файл, вы позволите поисковым роботам индексировать только качественный контент со своего сайта.

Как проверить правильность файла robots.txt

Проверка на правильность оформления файла robots.txt для поисковых систем – одно из необходимых правил, если вы до этого ни разу не пользовались движком, не знаете всей его структуры или просто хотите лишний раз проверить свои знания, и убедиться в том, что ваш robots.txt правильный.

Источник: https://www.internet-technologies.ru/articles/fayl-robots-txt-shpargalka-dlya-nachinayuschih.html

Что такое и как правильно настроить robots.txt: подробный гайд?

По аналогии с sitemap.xml у многих людей может возникнуть мысль о генераторах. Они есть. Они бесплатно. Они нафиг никому не нужны.

Для примера возьмем генератор PR-CY.

Все, что он делает — подставляет за вас слово «Disallow» и «User-agent». Экономии времени — 0, пользы — 0, смысла использовать — тоже 0.

Ищем смысл онлайн-генераторов robots.txt

Пишем все руками, чаще всего достаточно юзер-агентов «*» и Yandex, остальные используйте при необходимости.

Структура файла robots.

txt имеет следующий вид:

  • Указание робота
    • Директивы для выполнения данным роботом
    • Дополнительные опции
  • Указание робота 2
    • Директивы для выполнения данным роботом
    • Дополнительные опции
  • И т. д.

Порядок следования директив в файле не играет роли, т. к. поисковая система интерпретирует ваши правила в зависимости от длины префикса URL (от коротких к длинным). Для понимания:

  • /catalog — короткий;
  • /catalog/tag/product — длинный.

Также хочу заметить, что важен регистр написания: Catalog, CataloG и catalog — это 3 разных алиаса (псевдонима страницы). Давайте разбирать директивы.Здесь указывается робот, для которого будут актуальны правила, которые описаны ниже.

Чаще всего встречаются записи:

  • User-agent: * (для всех роботов);
  • User-agent: Yandex (конкретно для всех роботов Яндекса).

Я всегда делаю правила для 2 роботов * и Yandex, т. к. ранее были случаи, когда бот Яндекса просто проигнорировал правила в *. С тех пор прошло много времени, но перепроверять сие действие нет желания, проще сделать 2 юзер-агента.

Для Яндекса у нас есть следующие юзер-агенты (если вы решите закрывать страницы именно для конкретного бота, а не всех):

  • YandexBlogs — робот, индексирующий посты и комментарии;
  • YandexBot — основной индексирующий робот;
  • YandexCalendar — робот Яндекс.Календаря;
  • YandexDirect — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы, интерпретирует robots.txt особым образом;
  • YandexDirectDyn — робот генерации динамических баннеров, интерпретирует robots.txt особым образом;
  • YaDirectFetcher — робот Яндекс.Директа, интерпретирует robots.txt особым образом;
  • YandexImages — индексатор Яндекс.Картинок;
  • YandexMarket — робот Яндекс.Маркета;
  • YandexMedia — робот, индексирующий мультимедийные данные;
  • YandexMetrika — робот Яндекс.Метрики;
  • YandexNews — робот Яндекс.Новостей;
  • YandexPagechecker — валидатор микроразметки.

Источник: https://serpstat.com/ru/blog/chto-takoe-robotstxt-i-kak-pravilno-ego-nastroit/

Как создать правильный robots.txt для WordPress

Правильно настроенный  robots.txt  обеспечивает грамотную индексацию нашему сайту, неправильный же может совсем убрать его из обзора поисковиков) Поэтому обязательно нужно уделить этому вопросу должное внимание.

Если вы заметили, что в индексе поисковиков откуда-то обнаруживаются дубликаты ваших постов, или какие-то непонятные страницы, то проблема наверняка именно в robots.txt.

Нередко замечал даже у довольно крупных и раскрученных сайтов и блогов ошибки в данном файлике.

Но прежде чем создавать robots.txt некоторые из вас(новички) могут задаться вопросом – а что собственно это за зверь такой?

Что такое robots.txt и зачем он нужен?

Это обычный txt-файлик, который расположен в корневом каталоге ваше сайта. Главным образом  robots.txt нужен для того, что бы ограничивать доступ поисковиков к некоторым страницам вашего сайта, т.е. что бы они не  индексировались.

Вы скажите, зачем же мне что-то прятать от поисковых роботов, я хочу, что бы мой сайт был в поиске! Однако уверяю вас, практически на любом сайте есть что укрыть от всевидящего ока, особенно сайты на CMS WordPress

Источник: https://ruskweb.ru/osnovyi/sozdat-pravilnyiy-robots-txt.html

Файл Robots.txt

Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно.

Если для данной страницы сайта подходит несколько директив, то робот выбирает последнюю в порядке появления в сортированном списке. Таким образом, порядок следования директив в файле robots.

txt не влияет на использование их роботом. Примеры:

При указании путей директив Allow и Disallow можно использовать спецсимволы * и $, задавая, таким образом, определенные регулярные выражения. Спецсимвол * означает любую (в том числе пустую) последовательность символов. Примеры:

Обратите внимание

Если вы используете описание структуры сайта с помощью файла Sitemap, укажите путь к файлу в качестве параметра директивы sitemap (если файлов несколько, укажите все). Пример:

User-agent: Yandex Allow: / sitemap: https://example.com/site_structure/my_sitemaps1.xml sitemap: https://example.com/site_structure/my_sitemaps2.xml

Директива является межсекционной, поэтому будет использоваться роботом вне зависимости от места в файле robots.txt, где она указана.

Робот запомнит путь к файлу, обработает данные и будет использовать результаты при последующем формировании сессий загрузки.

Директива Crawl-delay

Если сервер сильно нагружен и не успевает отрабатывать запросы робота, воспользуйтесь директивой Crawl-delay. Она позволяет задать поисковому роботу минимальный период времени (в секундах) между окончанием загрузки одной страницы и началом загрузки следующей.

Перед тем, как изменить скорость обхода сайта, выясните к каким именно страницам робот обращается чаще.

  • Проанализируйте логи сервера. Обратитесь к сотруднику, ответственному за сайт, или к хостинг-провайдеру.
  • Посмотрите список URL на странице Индексирование → Статистика обхода в Яндекс.Вебмастере (установите переключатель в положение Все страницы).

Если вы обнаружите, что робот обращается к служебным страницам, запретите их индексирование в файле robots.txt с помощью директивы Disallow. Это поможет снизить количество лишних обращений робота.

Директива Clean-param

Если адреса страниц сайта содержат динамические параметры, которые не влияют на их содержимое (идентификаторы сессий, пользователей, рефереров и т. п.), вы можете описать их с помощью директивы Clean-param.

Робот Яндекса, используя эту директиву, не будет многократно перезагружать дублирующуюся информацию. Таким образом, увеличится эффективность обхода вашего сайта, снизится нагрузка на сервер.

Например, на сайте есть страницы:

www.example.com/some_dir/get_book.pl?ref=site_1&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_2&book_id=123 www.example.com/some_dir/get_book.pl?ref=site_3&book_id=123

Параметр ref используется только для того, чтобы отследить с какого ресурса был сделан запрос и не меняет содержимое, по всем трем адресам будет показана одна и та же страница с книгой book_id=123. Тогда, если указать директиву следующим образом:

User-agent: Yandex Disallow: Clean-param: ref /some_dir/get_book.pl

робот Яндекса сведет все адреса страницы к одному:

www.example.com/some_dir/get_book.pl?book_id=123

Если на сайте доступна такая страница, именно она будет участвовать в результатах поиска.

Синтаксис директивы

Clean-param: p0[&p1&p2&..&pn] [path]

В первом поле через символ & перечисляются параметры, которые роботу не нужно учитывать. Во втором поле указывается префикс пути страниц, для которых нужно применить правило.

Примечание. Директива Clean-Param является межсекционной, поэтому может быть указана в любом месте файла robots.txt. В случае, если директив указано несколько, все они будут учтены роботом.

Префикс может содержать регулярное выражение в формате, аналогичном файлу robots.txt, но с некоторыми ограничениями: можно использовать только символы A-Za-z0-9.-/*_. При этом символ * трактуется так же, как в файле robots.

txt: в конец префикса всегда неявно дописывается символ *. Например:

Clean-param: s /forum/showthread.php

означает, что параметр s будет считаться незначащим для всех URL, которые начинаются с /forum/showthread.php. Второе поле указывать необязательно, в этом случае правило будет применяться для всех страниц сайта.

Регистр учитывается. Действует ограничение на длину правила — 500 символов. Например:

Clean-param: abc /forum/showthread.php Clean-param: sid&sort /forum/*.php Clean-param: someTrash&otherTrash

 Директива HOST

На данный момент Яндекс прекратил поддержку данной директивы.

Правильный robots.txt: настройка

Содержимое файла robots.txt отличается в зависимости от типа сайта (интернет-магазин, блог), используемой CMS, особенностей структуры и ряда других факторов. Поэтому заниматься созданием данного файла для коммерческого сайта, особенно если речь идет о сложном проекте, должен SEO-специалист с достаточным опытом работы.

Неподготовленный человек, скорее всего, не сможет принять правильного решения относительно того, какую часть содержимого лучше закрыть от индексации, а какой позволить появляться в поисковой выдаче.

Правильный Robots.txt пример для WordPress

Источник: https://webmaster-seo.ru/seo/robots-txt/

Как сделать правильный Robots.txt для продвижения сайта

Сегодня я проведу урок как сделать правильный Robots.txt для вашего сайта.

На самом деле этот вопрос по роботсу один из самых популярных среди начинающих сеошников, продвиженцев и интернет-маркетологов. Многие даже считают, что весь смысл продвижения сайта это именно в правильном заполнении robots.txt

Я могу вам ответственно заявить, что robots.txt не является основным фактором при продвижении сайта. По сути robots.txt служит для скрытия от индексирующего робота дублей страниц и ненужных страниц. Это обычно делается по умолчанию и какой то тут важнейшей роли не наблюдается.

Но чтобы вы никогда не сталкивались с подобной проблемой, я поясню что прописывать в роботсе для каждой поисковой системы и для каждого движка. Возьмите это в качестве матчасти и больше не возвращайтесь к данному вопросу. Но вначале нужно изучить все команды которые поддерживает robots.

txt и что это такое вообще.

Robots.txt это текстовый файл который находится в корневой директории сайта и указывает поисковым роботам какие инструкции на сайте нужно сделать. Обычно это инструкции к индексации, запрету индексации, неправильному зазеркаливанию некоторых страниц или разделов сайта.

Команды в robots.txt:
Disallow: / — блокирует доступ ко всему сайту
Disallow: /wp-admin — блокирует доступ к страницам начинающимся с wp-admin
Allow: / — разрешает доступ ко всему сайту
Allow: /wp-admin — разрешает доступ к страницам начинающимся с wp-admin
«*» — спецсимвол обозначающий любой набор символов. Обычно применяется при использовании директив Allow и Disallow.
Sitemap: — директива показывающая поисковому роботу где находится карта сайта. Запомнив один раз адрес карты сайта, в дальнейшем поисковый робот обращается по данному адресу. Пример использования: Sitemap: http://mysite.ru/site_structure/my_sitemaps1.xml
Host: — директива указывающая какое зеркало у ваших сайтов является Главным. Разумеется используется если у вашего сайта есть зеркала. Это были основные команды. Переходим теперь к практике.

Правильный robots.txt для Яндекса

Важно

Обычно всё начинается с указания Юзерагента той поисковой системы для которой вы собираетесь что то прописать в роботсе. Вот юзерагенты Яндекса:

Yandex‘ — все роботы Яндекса

YandexBot‘ — основной индексирующий робот

YandexMedia‘ — робот, индексирующий мультимедийные данные;

YandexImages‘ — индексатор Яндекс.Картинок;

YandexCatalog‘ — «простукивалка» Яндекс.Каталога;

YandexDirect‘ — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса;

YandexBlogs‘ — робот поиска по блогам, индексирующий комментарии постов;

YandexNews‘ — робот Яндекс.Новостей;

YandexPagechecker‘ — робот, обращающийся к странице при валидации микроразметки через форму «Валидатор микроразметки»; Если вы обращаетесь ко всем поисковым роботам Яндекса, то просто в роботсе пишите:

User-agent: YandexBot

Если же вы хотите обратиться только какому то конкретному роботу, то пишите в юзерагенте его название. Вот например как нужно написать, чтобы обратиться к роботу Яндекс.картинок

User-agent: YandexImages

Для чего такое разделение? Ну может вы хотите, чтобы текстовый контент вашего сайта Яндекс индексировал, а картинки не индексировал. Может вы боитесь, что Яндекс проиндексировав ваши картинки отправит их в Яндекс.картинки. А оттуда их сможет скопировать любой желающий.

Но в общем то в большинстве случаев в качестве юзерагента используют только Yandex
Ну а после указания юзерагента всё просто. Указываем какие разделы или страницы нам нужно запретить, а какие разрешить. Вот пример:

___________________________________
User-agent: Yandex

Disallow: /?C=D;O=A Disallow: /?pedofil Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed

Disallow: */comments

_________________________________ Расшифрую что мы делали: Мы заблокировали доступ к страницам сайта роботам Яндекса начинающимся с:

‘?C=D;O=A’ ‘/wp-admin’ ‘cgi-bin’

Т.е. допустим страница сайта site.ru/wp-admin/refsfs не будет проиндексирована.

Запомните, в Интернете как в жизни — Всё что не запрещено, то разрешено. Аналогично и в Роботсе. Если мы чего то не запрещаем индексировать, значит оно разрешено для индексации.

Таким образом не нужно указывать Allow: для каких то разделов или каталогов. Достаточно запретить нужные, а остальные будут разрешены по умолчанию.

Немного отступления( Я в ВУЗе учился на математика. Как то мы сдавали экзамен по Ассемблеру. И вот сиди мы на экзамене. И достаётся одному парню задача. Он решает её по своему, а не как учили, пишет программу, но количество кода в ней в 2 раза больше, но РАБОТАЕТ ТАКЖЕ. Препод ставит ему неуд и говорит — представь если бы так сделал программу для ракеты, сколько лишнего кода нужно было.

Вы учитесь на программистов и одна из ваших основных задач — Достижение простоты и модернизация, а не создание лишних барьеров
Аналогично и со всеми другими командами. Главное отличие при построении роботса для Яндекса это обращание к его юзера-агентам. Если же вы хотите обратиться сразу ко всем поисковым системам, то вместо названия Юзерагента ставите звёздочку ‘*’ Пример.

User-agent: * — обращению абсолютно ко всем поисковым системам

Вот такое обращение встречается в большинстве роботсов в Рунете.

Правильный robots.txt для Гугла

В Гугле как и в Яндексе существуют свои юзера-агенты. Вот их названия и характеристики:

Я думаю вы без труда поймёте какой юзера-агент и за что отвечает. Полная аналогия с Яндексом. В большинстве случаев если хотят обратиться к Гуглу, то обращаются к основному индексирующему роботу:

Источник: http://blogarbik.ru/?p=4241

Файл robots.txt — настройка и директивы robots.txt, запрещаем индексацию страниц

следующее:

Правильные файлы robots.txt для популярных CMS

Пример Robots.txt для WordPress

Ниже вы можете увидеть мой вариант с данного Seo блога.

User-agent: Yandex Disallow: /wp-content/uploads/ Allow: /wp-content/uploads/*/*/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Host: romanus.ru User-agent: * Disallow: /wp-content/uploads/ Allow: /wp-content/uploads/*/*/ Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /template.html Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?s= Sitemap: https://romanus.ru/sitemap.xml

Трэкбэки запрещаю потому что это дублирует кусок статьи в комментах. А если трэкбэков много — вы получите кучу одинаковых комментариев.

Служебные папки и файлы любой CMS я стараюсь я закрываю, т.к. не хочу чтобы они попадали в индекс (хотя поисковики уже и так не берут, но хуже не будет).

Фиды (feed) стоит закрывать, т.к. это частичные либо полные дубли страниц.

Теги закрываем, если мы их не используем или нам лень их оптимизировать.

Примеры для других CMS

Чтобы скачать правильный robots для нужной CMS просто кликните по соответствующей ссылке.

  • Robots.txt для Joomla;
  • Opencart;
  • DLE;
  • Bitrix;

Как проверить корректность работы файла

Анализ robots.txt в Яндекс Вебмастере – тут.

Указываем адрес своего сайта, нажимаем кнопку «Загрузить» (или вписываем его вручную) – бот качает ваш файл. Далее просто указываем нужные нам УРЛы в списке, которые мы хотим проверить и жмем «Проверить».

Смотрим и корректируем, если это нужно.

Популярные вопросы о robots.txt

Как закрыть сайт от индексации?

  • User-agent: Yandex Disallow: / User-agent: * Disallow: /

Как запретить индексацию страницы?

  • User-agent: Yandex Disallow: /page.html User-agent: * Disallow: /page.html

Как запретить индексацию зеркала?

  • Никак. Для этого нужно склеить зеркала 301 редиректом.

Для магазина стоит закрывать cart (корзину)?

У меня сайт без CMS, нужен ли мне robots?

  • Да, чтобы указать Host и Sitemap. Если у вас есть дубли — то исходя из ситуации закрывайте их.

Источник: http://romanus.ru/robots-txt-kak-sostavit-i-nastroit/

Как создать файл robots.txt? Настройка robots.txt для wordpress!

Всем привет!

Сегодня я вам покажу, как создать файл robots.txt для wordpress. Robots.txt является очень важным файлом для сайтов. Этот файл позволяет указать поисковым системам, как правильно нужно индексировать ваш ресурс.

Он является первоочередным файлом для вашего блога, как только тот появился в сети! Отсутствие данного файла или неправильное его составление является распространенной ошибкой среди блоггеров — новичков. Поэтому, если на вашем блоге его нет или настройка robots.txt вызывает у вас сомнение, внимательно изучите данную статью!

Как создать файл robots.txt

Файл robots.txt, так же как и карта сайта (sitemap.xml), предназначен для управления индексацией вашего блога! Задав в файле robots.txt определенные правила для поисковиков, которые мы разберем чуть ниже и, поместив его в корневой каталог, вы сможете правильно управлять индексацией своего ресурса, что очень важно для его успешного продвижения!

Здесь главное четко понимать, что не все файлы, находящиеся в корневом каталоге, должны быть проиндексированы поисковыми системами. Сейчас я вам расскажу об этом более подробно. Если кто не знает, корневой каталог, это основная папка вашего сайта со всем его содержимым. В зависимости от хостинга, это будет или «httpdocs» или «public_html».

Любой блог на wordpress, имеет определенные папки и файлы, обусловленные самим движком, например (wp-admin, wp-includes).

Совет

Так вот, эти папки и файлы не несут никакой ценности ни для читателей, ни для поисковых систем. Они нужны лишь для работы самого движка.

И если их оставить без внимания и не запретить индексацию, то поисковые роботы, зайдя на ваш ресурс, будут индексировать все, что попадется на их пути.

А у них есть определенный лимит! И бывают такие случаи, когда они не успевают проиндексировать нужные вам файлы, занимаясь индексацией не нужных! Плюс ко всему, если не прописать определенные правила, со временем ваш блог обрастет дублированным контентом, что поисковые системы просто ненавидят и жестко наказывают, накладывая на блог различные фильтры. Особенно это касается поисковой системы Яндекс.

Дублями страниц в wordpress в большинстве случаев выступают рубрики, архивы, архивы меток.

Если их не закрыть от индексации, то по мере появления новых страниц, дублированный контент будет распространяться на вашем блоге со стремительной скоростью.

Во избежание всего этого, для wordpress существует очень важный плагин поисковой оптимизации All In One SEO Pack. Который, при правильной его настройке, способен предотвратить все неприятности!

Также, если вы добавляете в корневой каталог какие-то папки с файлами, в которых содержится множество внешних ссылок или скриптов, не забывайте их закрывать от индексации в файле robots.txt. Дальше мы с вами разберем, как это делается.

Настройка robots.txt

Robots.txt является обычным файлом, созданным в текстовом редакторе, например notepad++ и включает в себя несколько важных директив. Первая и самая основная директива User-agent, содержит в себе название поискового робота. Чтобы адресовать User-agent всем поисковым роботам, зашедшим на ваш ресурс, ее следуют прописать таким образом:

User-agent: *

Следующая директива, без которой не обходится не один файл robots.txt, обозначается так: Disallow. Директива Disallow предназначена для запрета определенных папок и файлов и любой правильный robots.txt должен обязательно содержать после User-agent директиву Disallow. Вот простой пример, разрешающий всем поисковым системам индексировать все содержимое вашего ресурса:

User-agent: *
Disallow:

Если к Disallow добавить правый слэш «/»:

User-agent: *
Disallow: /

Вы напротив, запретите всем поисковым системам индексировать ваш сайт. Теперь, что касается не нужных файлов и папок самого движка wordpress. Для запрета индексации поисковыми системами, например всего содержимого папки wp-admin, вам следует прописать следующее:

User-agent: *
Disallow: /wp-admin/

Обратите внимание

Дальше, я вам покажу полноценный и правильный robots.txt для wordpress, рекомендуемый разработчиками, а пока что рассмотрим еще одну важную директиву Host. Директива Host предназначена исключительно для Яндекса.

С какой это радости такие привилегии? Так повелось, что поисковая система Яндекс по статистике имеет наибольший вес в русскоязычном интернете, что является самим собой разумеющимся подстраиваться под ее капризы!

При всем при этом рекомендуется еще, и выделить отдельный блок для Яндекса:

User-agent: Yandex

Во избежание неправильной индексации ресурса, директива Host прописывается только для Яндекса и указывает на основное зеркало вашего ресурса, т.е. по какому адресу будет доступен ваш сайт: www.sait.ru или sait.ru.  Другие поисковые системы не понимают директиву Host! Для Яндекса блок в файле robots.txt должен выглядеть следующим образом:

User-agent: Yandex Disallow:

Host: www.sait.ru

или

User-agent: Yandex Disallow:

Host: sait.ru

В этом случае, во избежание лишних неприятностей, правильнее будет настроить 301 редирект, но о нем я как-нибудь, расскажу в отдельном посте.

, чтобы ничего не пропустить, а пока рассмотрим последнюю директиву, которую должен включать в себя правильный robots.txt для wordpress. Она имеет знакомое вам название, Sitemap.

О ней я более подробно рассказывал в статье «Как сделать карту сайта», ссылка приведена чуть выше.

Директива Sitemap указывает поисковым роботам на месторасположение карты сайта и прописывается отдельно от предыдущих директив и только один раз. Ее понимают все поисковые системы. Вот как это выглядит:

Sitemap: http://blogiseo.ru/sitemap.xml
Sitemap: http://blogiseo.ru/sitemap.xml.gz

Мы с вами рассмотрели основные директивы, которые используются в правильном robots.txt и рекомендуются разработчиками. Больше я не буду вас грузить заумными словами, а покажу конкретный пример правильного файла robots.txt. У меня он выглядит следующим образом:

User-agent: * Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /feed/ Disallow: */feed Disallow: /trackback Disallow: */trackback Disallow: /category/*/* Disallow: */comments Disallow: /*?replytocom Disallow: /*?*

Disallow: /*?

Важно

User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /feed/ Disallow: */feed Disallow: /trackback Disallow: */trackback Disallow: /category/*/* Disallow: */comments Disallow: /*?replytocom Disallow: /*?* Disallow: /*?

Host: blogiseo.ru

Sitemap: http://blogiseo.ru/sitemap.xml Sitemap: http://blogiseo.ru/sitemap.xml.gz

Первоочередное, что необходимо скормить поисковикам для индексации, является контент! При таком раскладе, ваш блог на wordpress будет замечательно себя чувствовать, и что самое важное, правильно и быстро индексироваться. Не одна ваша статья не останется без внимания, и поисковые роботы не будут тратить свое время на ненужный хлам! Если вы сомневаетесь в правильности его составления, можете изучить данный вопрос более подробно .

Также, вы можете сравнить несколько файлов robots.txt на различных блогах имеющих платформу wordpress, все они будут примерно одинаковы! Чтобы посмотреть, как он выглядит на другом ресурсе, достаточно прописать в строке браузера, после доменного имени /robots.txt. И последнее, что я еще не сказал, имя файла должно быть всегда одинаковым и иметь следующий вид:

robots.txt

Никаких заглавных букв быть не должно и на конце не забывайте прописывать «s»! Запомните это! Вот, наверное, и все, что я хотел сегодня вам рассказать. Теперь вам тоже известно, как создать и настроить файл robots.txt. И остается наградить победителей кроссворда.

Победители кроссворда на blogiseo.ru №8

В этот раз кроссворд был немного необычным, но все-таки все справились и оценили его. В дальнейшем время от времени постараюсь изменять правила кроссворда, чтобы было интереснее! Ну а теперь встречаем наших победителей:

Победители кроссворда на blogiseo.ru №8:
1 место — Михаил (pizza-gotova.com) — 200 рублей
2 место — Дмитрий (duke@dukeseo.com) — 100 рублей
3 место — Евгения () — 50 рублей

Молодцы ребята. Поздравляю вас с заслуженной победой и жду ваши кошельки для перевода вознаграждений! На этом я свой пост буду заканчивать. Желаю всем отличного настроения, пока и до новых встреч!

Как вам статья? А у вас на блоге имеется файл robots.txt? Жду ваших комментариев!

С уважением, Николай Коротков

Источник: http://blogiseo.ru/blogovedenie/kak-sozdat-fajl-robots-txt-nastrojka-robots-txt-dlya-wordpress.html

Ссылка на основную публикацию