Файл robots.txt для wordpress (Универсальный для яндекс и гугл)

Тема в разделе "Сайтостроение: общий форум", создана пользователем ROFI, 14 Июнь 2018.

Реклама
  1. ROFI

    ROFI Профессионал

    Сообщения:
    101
    Симпатии:
    16
    Пол:
    Мужской
    Файл robots.txt для wordpress

    О файле robots.txt

    Файл robots.txt это текстовой файл, в котором прописываются правила для поисковых машин для сканирования, а значит индексации папок и файлов сайта. Находится файл robots.txt должен в корневом каталоге сайта. Файл robots.txt наряду с картой сайта Sitemap это основные документы SEO оптимизации блогов сделанных на CMS WordPress.

    Важно! Недопустимо пустые переводы строк между директивами User-agent и Disallow (Allow), а также между директивами Disallow и Allow.

    Важно! URL файла robots.txt чувствителен к регистру.

    На базовой версии файл robots.txt для wordpress выглядит следующим образом:

    User-agent:
    Disallow: /wp-admin/
    Disallow: /wp-includes/

    • User-agent это обращение к поисковикам.
    • звезда, означает, что следующие директивы группы обращены ко всем поисковикам;
    • Директива Disallow запрещает поисковикам индексировать только то, что находится в папках /wp-admin/ и /wp-includes/.
    Файл robots.txt составляется из строк, каждая из которых является отдельной директивой. Директива, а проще говоря, правило, пишется для поисковиков. Весь файл robots.txt пишется по специальному несложному синтаксису.

    Синтаксис файла robots.txt
    Символ ‘#’ назначен для комментариев. Все, что находится после решетки и до первого перевода строки не исполняется и не учитывается поисковиками.

    Первой рабочей директивой файла robots.txt (начало группы) нужно прописывать директиву User-agent. Она показывает к кому поисковику относится следующие за ним директивы;

    Недопустимо пустые переводы строк между директивами User-agent и Disallow (Allow);

    Директива User-agent со звездой , то есть User-agent: *, означает, что правила robots.txt относятся ко всем поисковикам;

    Для главных поисковых роботов Яндекс и Google директивы User-agent файла robots.txt должны выгладить так:

    User-agent: Yandex
    User-agent: Googlebot


    Правила для поисковиков прописываются директивами «Disallow» — запрет или «Allow»-разрешение;

    User-agent: *
    Allow: /cgi-bin
    Disallow: /

    # запрещает скачивать все, кроме страниц
    # начинающихся с '/cgi-bin'

    Пустая Disallow разрешает индексацию всего сайта, Disallow закрытая слеш (/) полностью закрывает сайт от индексации.

    Disallow: / # блокирует доступ ко всему сайту
    Составим Файл robots.txt для wordpresss
    Что же стоит спрятать от поисковиков?

    Разумно спрятать все папки с личной информацией, паролями, логинами и т.п. Это три папки. Директивы выглядят так:

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallw: /wp-includes/

    Все плагины блога, темы, кэш не являются контентной информацией блога, поэтому их тоже спрячем.

    Disallow: /wp-content/plugins/
    Disallow: /wp-content/cache/
    Disallow: /wp-content/themes/

    В SEO продвижении, особенно в структуре WP, важное значение имеет отсутствие повторов (дублирование) контента в зоне одного домена. Дублирование возникает при редактировании материалов, при комментировании, при работе на блоге нескольких авторов, при постоянном упоминании одного автора в представлении к статье (имя автора). Много дублирования в тегах блога. Cтоит спрятать эти папки от поисковиков.

    Если на блоге вы используете SEF ссылки (человекопонятные адреса статей), без знаков вопроса в URL, то можно запретить поисковикам индексировать эти страницы.

    Disallow: /*?*
    Disallow: /*?

    Таким же образом вы можете запретить индексацию любой папки или файла блога. Чтобы запретить индексацию файлов, например .pdf нужно прописать директиву:

    Disallow: /*.pdf
    Спецсимвол звезда ‘*’ означает любую, включая пустую, последовательность символов.

    В файле robots.txt есть одна интересная директива специальная для Яндекс. Это директива Host. С помощью неё вы можете (должны) сообщить Яндекс основной домен (главное зеркало) своего блога. Директив Host в файле должна быть одна. Если внесены несколько директив Host читается первая по списку. Правда, для этого нужно сделать отдельную секцию для “User-agent” для Яндекс.

    User-agent: Yandex
    В файл robots.txt обязательно нужно вставить информацию о своей карте Sitemap
    Карту-сайта нужно генерировать при помощи любого веб-инструмента Sitemap. Он генерирует четыре формата карты-сайта. Один из них, файл формата [.xml], сначала нужно загрузить в корень сайта, а потом включить в файл robots.txt. Если карт-сайта несколько загрузите все. Рекомендую два генератора Sitemap:


    Если вы видите большую загрузку своего сервера, то можно воспользоваться директивой «Crawl-delay». Она задаст время в миллисекундах, между загрузками двух страниц. Добавлять директиву «Crawl-delay» нужно сразу после “User-agent”.

    User-agent: *
    Crawl-delay: 3.5
    # задает таймаут в 3.5 секунды
    Вообще менять файл robots.txt на сайте WordPress это работа творческая. Каждый файл robots.txt должен быть индивидуальным и отвечать вашим личным требованиям к поисковикам.

    Файл robots.txt для wordpress: пример
    Приведу, как мне кажется, разумный Файл robots.txt для wordpress

    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-admin/
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/cache/
    Disallow: /wp-content/themes/
    Disallow: /wp-trackback
    Disallow: /wp-feed
    Disallow: /wp-comments
    Disallow: /category/
    Disallow: /author/
    Disallow: /page/</del>
    Disallow: */trackback
    Disallow: */comments
    Disallow: /*.php
    Sitemap: http:// ваш_сайт. ru/sitemap.xml.gz
    Sitemap: http:// ваш_сайт. ru/sitemap.xml

    User-agent: Yandex
    Disallow: /cgi-bin #блокирует доступ к страницам начинающихся с '/cgi-bin'
    Disallow: /wp-admin/ #блокирует доступ к содержимому папки wp-admin
    Disallow: /wp-includes/
    Disallow: /wp-content/plugins/
    #блокирует содержимое папки plugins в каталоге wp-content
    Disallow: /wp-content/cache/
    Disallow: /wp-content/themes/
    Disallow: /wp-trackback #блокирует доступ к страницам нащинающихся с wp-trackback
    Disallow: /wp-feed
    Disallow: /wp-comments
    Disallow: /category/
    Disallow: /author/
    Disallow: /page/
    Disallow: */trackback
    Disallow: */comments
    Disallow: /*.php
    Host: ваш_сайт.ru
    Sitemap: http:// ваш_сайт /sitemap.xml


    Примечание: 21-03-2018. Яндекс сообщил:

    …мы отказываемся от директивы Host. Теперь эту директиву можно удалять из robots.txt, но важно, чтобы на всех не главных зеркалах вашего сайта теперь стоял 301-й постраничный редирект.

    Пояснения к файлу
    Этот файл robots.txt для wordpress содержит выделенную инструкцию для поисковика Яндекс. В эту часть файла добавлена специальная директива Host, которая читается только ботами Яндекс и определяет основное зеркало сайта. Двух директив Host в файле robots.txt быть не должно.

    В этом примере файла robots.txt закрыто для поисковиков все содержание папок: wp-admin, wp-includes, plugins, cashe, themes, autor, category. Если не хотите закрывать от поисковиков архивы статей, авторов и категории уберите строки (директивы), которые я зачеркнул. Закрыта индексация страниц wordpress («на любителя»). Добавлены карты сайта.

    Приведенный Файл robots.txt является частным и сделан для индивидуальных требований.

    Для альтернативы, приведу другой рекомендованный Файл robots.txt. Рекомендация автора плагина WordPress SEO Plugins (yoast.com).

    User-Agent: *
    Disallow: /wp-content/plugins/

    Повторюсь и выделю, нет уникальных файлов robots.txt. Продумайте, что нужно именно вам закрыть от поисковиков или оставьте файл robots.txt для wordpress по умолчанию. Частые манипуляции с файлом robots.txt, будут лихорадить вашу выдачу в индексе поисковиков.

    Полезные ссылки
    На этом про файл robots.txt для wordpress все!
     

    Понравился пост? Поделись с друзьями!

    Последнее редактирование модератором: 14 Июнь 2018
  2. Семён

    Семён Команда форума АДМИНИСТРАТОР

    Сообщения:
    1,072
    Симпатии:
    145
    Пол:
    Мужской
    Сайт:
    Цитата:
    Вот category я лучше не закрывал бы, хотя некоторые закрывают, но если её норм оптимизировать, можно и трафик получать.
     
Реклама