Избавляемся от дублей страниц с помощью robots.txt

Что такое robots.txt?

Здравствуйте!

В данной статье Вы узнаете как избавлятся от дублей в WordPress. Также, прочитав данный пост, Вы узнаете что такое robots.txt и как его создать.

Robots.txt — это файл предназначанный для того, чтобы предотвращать дубли страниц. А так как в системе управления сайтов WordPress эта проблема очень даже актуальна, создание robots является чуть ли не лучшим способом решения данного недостатка.

Устранение дублей страниц очень важно для сайта, если Вы хотите, чтобы он развивался. Поисковые системы не любят, когда контент повторяется и могут жестко наказать за это, вплоть до наложение на Ваш ресурс фильтров.

Вот и приходит на помощь вышеупомянутый robots.txt. Этот полезный файл запретит к индексации отдельные страницы, которые Вы укажете в нем с пометкой Disallow.

Чтобы внедрить robots на свой блог, нужно с начала создать документ, скопировать мой нижеприведенный файл и сохранить «robots» с расширением «.txt».

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: checho.ru

Sitemap: http://checho.ru/sitemap.xml

Здесь попрошу остановиться и прочитать очень внимательно: в полях Host и Sitemap указываете свой блог и свою карту сайта в формате xml соответственно. Также, хочу отметить, что если ваш домен имеет «www», то в обязательном порядке ставьте их в строке Host перед названием блога. Пример: www.checho.ru

Затем, когда сохранили свой robots.txt загружаете его с помощью FTP-менеджера (о том как заливать файлы на хостинг я рассказывал здесь) в корневую папку веб-сайта, тоо есть файл должен лежать вот по такому адресу checho.ru/robots.txt

Вот в принципе и все, что нужно сделать. Таким образом, поисковые роботы, когда будут заходить на сайт, не возьмуться за индексацию дубликатов страниц, что очень даже хорошо.

Видео-эпилог: очень интересное видео об обмане зрения

2 мысли о “Избавляемся от дублей страниц с помощью robots.txt

  • 27.03.2012 в 21:12
    Permalink

    Спасибо за объяснение, а то человеку не знающему, как я, прочитав задание для третьего этапа — трудно понять, как установить этот Robots.txt. Я думала во время марафона как-то по-подробнее будут объяснять (для таких криворуких, как я , например). Еще раз спасибо.

    Ответить
    • 27.03.2012 в 23:09
      Permalink

      Не за что, обращайтесь=) Я сам тоже пока криворукий

      Ответить

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *