Почему “Яндекс” клеится к моему сайту? Настраиваем robots.txt

Помните пост про поиск и безопасность сайтов в интернете? Я там еще про robots.txt рассказывал. Так вот, сегодняшний пост является логическим продолжением того, но с чисто практическим подходом. В сегодняшнем выпуске жизненная история о том, как при определенных обстоятельствах robots.txt может испортить жизнь веб-мастеру и вообще прикрыть сайт для посетителей из поиска.

Есть такой блог blog.grodno.net - прямой конкурент моего s13.ru. Я ежедневно мониторю выдачу по своему семантическому ядру на предмет подвижек, появления новых игроков и обычно мой и тот блог идут ноздря в ноздрю (последний отстает на несколько позиций). При очередном обходе я заметил, что blog.grodno.net совсем пропал из выдачи (уже как 2 АПа), но вместо него вылез foto.grodno.net, подцепивший на себя по мнению Яндекса все страницы сайтов с поддоменов *.grodno.net.

Хочу заметить, что всплывший сайт до сих пор вообще никак не был представлен в выдаче, т.к. Яндекс считал (и считает) все поддомены *.grodno.net одним сайтом, поэтому в результатах поиска может быть только один проект из десятка.

Реально на ситуацию повлияло всего 2 показателя - наличие в ЯК (в меньшей степени, вообще это единственный сайт в каталоге со всего домена) и правильный robots.txt

Т.к. сегодня пост сугубо практический, то предлагаю перейти к сравнительному анализу.

Взгляните на это:

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-admin
Disallow: /wp-includes
Host: www.blog.grodno.net

И на это:

User-agent: Yandex
Disallow:
Host: foto.grodno.net

User-agent: *
Disallow:

Почуствовали разницу? Предлагаю закрепить. Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции “*”. То есть рекомендуется создавать специальные секции для нестандартных директив, таких как “Host”.

И не смотря на всю популярность Яндекса и лидирующие позиции в Рунете, его роботы относятся к категории “некоторые”.

Так неправильно:

User-agent: *
Disallow: /css/
Host: www.example.com

А вот так – правильно:

User-agent: *
Disallow: /css/

User-agent: Yandex
Disallow: /css/
Host: www.example.com

Такая ситуация может грозить:

  • проектам на бесплатном хостинге с доменами третьего уровня
  • комерческим проектам с разными сайтами отделов, направлений на одном домене

Спонсор месяца - Программа для массовой рассылки писем

P.S. Так, никому в мои роботс тиэксти не лезть - исправлять буду после выходных )))

* * *

На чем лучше зарабатывать? SAPE vs. РСЯ. Переводной пост об искусстве ведения блога - мне понравилось. Пройдусь по друзьям во вне сеошной тематике со схожими со мной интересами - немножко из истории создания Речи Посполитой (внимание, часть материала на белорусском).

Все, долгих выходных и легкого старта в понедельник! Удачи!



Еще по теме можно почитать:

  • “Снежинск” окопался в регионах
  • Указ №60 в действии: заблокирован доступ к витебскому новостному сайту
  • Продвижение сайта на TUT.BY - универсальный рецепт успеха
  • Честный Яндекс. 300 WMR тому, кто угадает тИЦ
  • Яндекс жрет мой моск!


  • Комментариев: 15

    1. ьфтвфкшт пишет:

      а host писать обязательно надо писать?

    2. dze пишет:

      Сначала скажу, что foto.grodno.net - мой проект. А теперь комментарий твоего текста.

      Мне кажется что в описанной ситуации robots.txt тут ни при чем. Если он и играет какую-то роль, то только косвенную… Как все мы знаем, Яндекс по умолчанию не индексирует *.net и не делал этого никогда с сайтами домена grodno.net, кроме blog.grodno.net был удостоен его внимания, о чем собственно позаботился создатель блога. С появлением моего проекта мне пришлось позаботиться об исправлении этой ошибки и Яндекс начал индексировать весь домен. НО. В силу каких-то моральных убеждений поисковый робот Яндекса начал воспринимать все страницы сайтов как некий единый тематический блок. Т.е. и фото гродно и блог гродно и форум гродно = grodno.net На запросы в поиске выдавалась самая релевантная страница всех сайтов и поскольку ссылок было больше на блог гродно, то они и были теми самыми релевантными. Так было всегда. По запросу “Гродно” всегда показывался блог, а по другим, например, “фото гродно” или “форум гродно” показывались другие страницы других сайтов.

      Изменение ситуации - было всего лишь делом времени. На фотоблог появилось больше ссылок, и по некоторым запросом он стал более релевантный. А по некоторым нет.

    3. buster пишет:

      2 ьфтвфкшт

      Нет, не обязательно. Дело в том, что директива “host” - вынужденная мера со стороны Яндекс, - у них явно существуют проблемы с роботом-зеркальщиком и определением основного URL и его алиасов.

      Классическая ситуация - редирект без www на www (Достаточно историю с dmoz.org двухмесячной давности вспомнить) Если по-хорошему, то достаточно в .htaccess пару строк добавить:

      RewriteCond %{HTTP_HOST} ^example\.com$ [NC]
      RewriteRule ^(.*)$ http://www.example.com/$1 [L,R=301]

      В случае же с Яндекс - лучше действительно подстраховаться директивой “host”.

    4. Андрей пишет:

      Может мне в вашу тематику залезть и показать как правильно сайты делать? ;)
      А если по теме: имхо, яндекс требует к себе отдельного отношения во всём, но я почему то не уверен, что с изменением робота исправляется ситуация. Внесение в яндекс-каталог всех домен и поддомен скорее даст больше отдачи. ;)

    5. The end пишет:

      Реально на ситуацию повлияло всего 2 показателя - наличие в ЯК (в меньшей степени, вообще это единственный сайт в каталоге со всего домена) и правильный robots.txt

      Не верно.
      1) Яндекс считает все поддомены grodno.net одним сайтом.
      http://www.yandex.ru/yandsearch?text=grodno.net&clid=21975&surl=grodno.net&surl_manually=true
      Это обычное явление. Соответственно, при поиске выдается один, наиболее релевантный документ из коллекции.

      2) robots.txt НИКАК не влияет на манеру яндекса считать поддомены тем же сайтом, что и основной домен. Это всего лишь(!) рекомендация (даже не команда) для зеркальщика - какое зеркало вбрать главным.

      Как все мы знаем, Яндекс по умолчанию не индексирует *.net

      Ну зачем так сразу - “по умолчанию не индексирует”. Индексирует, просто немного иначе. С год назад приблизительно так яндексоиды и сказали.

    6. Андрей пишет:

      @The end. и как сейчас объяснить яндексу что сайты все разные?

    7. s13 пишет:

      The end, ну сейчас вроде Яндекс индексирует все, но в некоторых случаях у него это получается дико криво.

    8. The end пишет:

      @The end. и как сейчас объяснить яндексу что сайты все разные?

      1) Убедить Яндекс, что grodno.net стоит причислить к списку доменов-исключений, в который включаются географические домены (***.msk.ru, ***.spb.ru и прочие), специальные типы доменов (***.com.ru, ***.pp.ru и другие) и домены бесплатных хостингов (**.H11.ru, ***by.ru и т.п.)
      Вспоминая свою переписку с Яндексом по поводу поддоменов shop.by, могу сказать, что для grodno.net этот вариант малореальный

      2) внести разделы в Я-каталог. Бесплатно - не факт, что возьмут, платно - дорого.

      Не уверен, что в данном случае это вообще нужно. Я бы постарался решить вопрос более тонкой заточкой самих страниц под конкретные запросы. На худой конец - немного ссылок.

      Рекомендую прочитать - про поддмены (правда с точки зрения ТИЦ, но все же): http://www.the-end.name/archives/8 . Писал давно, но все актуально.
      Ну и про попадение в ЯНдекс-каталог: http://www.the-end.name/archives/114

    9. webmaster пишет:

      Всегда стоит указывать директиву host - лишним это не будет, зато в некоторых случаях спасет от непонятной склейки

    10. Банкир пишет:

      Народ может кто знает как обмануть яндекс

    11. SanchezBoy пишет:

      Банкир, в каком сысле? продвижение?

    12. Dmitriy K. пишет:

      обманите Воложа и теоритически вы обманите яндекс

    13. базаваза пишет:

      c13, статья ни о чём.

    14. s13 пишет:

      базаваза, а тебе бы лишь бы ссылку оставить с невменяемым комментом. Хотя должен отдать тебе должное - впервые ссылка без “продам/куплю авто”

    15. Cosmo пишет:

      Про специальные типы доменов (***.com.ru, ***.pp.ru и другие) - а интересно, в чем они специальные? Перед выбором такого домена для своего сайта (http://buddho.org.ru) я анализировал их плюсы и минусы -

      1. бесплатные (если знать, где и как)
      2. есть свой whois
      3. sape и xap их принимают

      Интересно, есть ли у них какой-то существенный недостаток при взаимодействии с поисковиками?

    Оставьте свой отзыв!

    Новости Беларуси

    03.04.2012

    В доменной зоне .by имя можно отобрать практически у любого

    Законодательство Беларуси в свере IT еще настолько сырое, что зияющие дыры игрыют на руку не совсем честным “бизнесменам”. Опустим вопрос заработка, т.к. на сегодняшний день в белорусских реалиях актуален вопрос “опускания”.
    О том, как вас могут опустить с вашим доменом в зоне .by, отобрав его, рассказал на конференции “Деловой Интернет: Гродно” Повалишев Сергей, возглавляющий компанию “Хостер Бай”. […]

    01.04.2012

    MediaBarCamp 2012 наступает!

    3-6 мая 2012 в Литве состоится пятый международный МедиаБарКэмп, посвященный использованию новых возможностей социальных медиа и развитию медиа-активизма среди молодежи. MediaBarCamp организуется Swedish International Liberal Centre, Green Forum, Centerpartiets Internationella Stiftelse, Olof Palme Internattional Center и Беларуской партией “Зелёные”.
    Самое главное, что несмотря на то, что мероприятие в основном организовано для белорусов, принять в нем участие […]

    27.02.2012

    Домены в зоне .by теперь можно регистрировать мгновенно

    С 25 февраля 2012 года в доменной зоне .by значительно упрощены правила регистрации.
    Отныне отменена процедура обязательного согласования с Администратором доменной зоны, которая ранее занимала до пяти дней, также отмена процедура резервирования домена пользователями до его оплаты на срок до 30 дней. Последний факт искусственно закрывал возможность для регистрации интересных имен, породив спекуляции на рынке доменных […]

    05.09.2011

    “Деловой Интернет” стал платным - 5 долларов за участие

    3-4 октября 2011 года в Минске состоится шестая ежегодная конференция “Деловой Интернет-2011“. И впервые конференцию решено сделать платной и без привычного для многих генспонсора - государственного телекоммуникационного монополиста “Белтелекома”. Ожидается значительное просеивание рядов слушателей от школьников и просто прохожих, которых было бы очень много в центре Минска (конференция впервые переехала в самое удачное место для […]

    Реклама

    Новости IT-сферы

    20.01.2012

    В Рунете тестируют убийцу конструкторов-сайтов

    В начале 2000-ых в Рунет пришли конструкторы сайтов, платные и условно-бесплатные, успешные и не очень. По сути с десяток лет все было очень даже спокойно, конкуренция друг с другом на компаниях особо и не сказывалась, а новые плюшки появлялись исключительно за деньги. И вот на сцене появился setup.ru.
    Вы спросите, чем же он так хорош и […]

    19.10.2011

    Нелимитируемые переводы через Яндекс.Деньги возможны через сервис онлайн-идентификации

    Пользователи систем электронных денег теперь смогут проводить платежи на любые суммы, а не на максимально разрешенные антиотмывочным законодательством 15 тыс. руб., как это было до сих пор. Это станет возможным благодаря сервису онлайн-идентификации, запускаемому системой “Яндекс.Деньги” и бюро кредитных историй (БКИ) “Эквифакс кредит сервисиз”. По пути онлайн-идентификации клиентов готовы пойти и другие системы электронных денег […]

    05.10.2011

    За две недели “Яндекс” подешевел на 40%

    Инвесторы посчитали “Яндекс” переоцененным. Из-за небольшой потери поискового рынка России за акцию “Яндекса” дают $18,8, тогда как еще в июле одна акция оценивалась в $38,5.
    В России “Яндекс” впервые за последние годы начал терять долю рынка. В третьем квартале она снизилась всего на 0,5%, но этого хватило, чтобы по итогам минувшей среды акции “Яндекса” подешевели на […]

    08.09.2011

    Инструменты оптимизатора: новый бесплатный сервис проверки Google карт сайта

    В сети появился новый seo-сервис для оптимизаторов - Google Sitemaps Status Checker. Как пояснил Павел Мальто из SEO Research Inc., сервис выполняет только одну, но очень полезную функцию: каждый час проверяет статусы карт сайтов и отправляет на почту уведомление, если Google обнаружит ошибку.

    SEO-сервис будет полезен владельцем сайтов, у которых автоматически геренируются карты сайтов, другими словами, […]

    Ссылки