пятница, 6 февраля 2009 г.

Supplemental-страницы. Закрыть индексацию архива и ярлыков в Блоггере - как и зачем?

Штука такая. Я уже говорил раньше (в ноябре прошлого года) о том, что поисковые машины видят в наших блогах на блоггере больше страниц, чем там на самом деле есть.
И даже объяснял почему так происходит. А именно потому, что за отдельные страницы принимаются страницы по ссылкам из архива и ярлыков (у них же другой адрес).
Но на самом деле, это не очень хорошо. Много страниц в индексе - это приятно, но надо понимать то, что это выходят страницы с дублированным контентом (а это поисковые машины не любят).
И, кроме этого, такая страница может попасть в выдачу выше оригинальной (вряд ли, конечно, но всяко бывает...).
Это совершенно точно - вы можете это проверить сами, зайдя в "Яндекс.вебмастер" или в "Инструменты для веб-мастеров" Google. Там будут лишние страницы именно по ссылкам из ярлыков и архива.
Гугл делит страницы сайта на главные ("main") и дополнительные ("supplemental"). Большое количество дополнительных как-бы снижают качество сайта в глазах поисковика. Кроме этого, тем страницам, которые считаются вспомогательными, сложнее попасть в выдачу!

Соответственно, надо эту ситуацию как-то исправлять. Для этого желательно действовать сразу несколькими способами.
Один из способов - сокращение похожего, повторяющегося или дублированного контента.
А именно такой контент Гугл видит по ссылкам из архива и ярлыков.
Так что надо закрыть "архив сообщений" и "ярлыки" (они же "разделы","рубрики") от индексации.
Я нашёл такой вот способ:
Вначале, как обычно, на всякий случай сохраняем свой шаблон.
Затем в редаторе HTML нашего блога сразу после тега <head> надо вставить следующий код:

<b:if cond='data:blog.pageType == "archive"'><meta content='noindex,follow' name='robots'/></b:if><b:if cond='data:blog.pageType == "index"'><b:if cond='data:blog.url != data:blog.homepageUrl'><meta content='noindex,follow' name='robots'/></b:if></b:if>

И сохранить результат. Затем, чтоб проверить как всё работает - надо открыть какой-нибудь месяц или год "архива" и нажать в браузере "просмотреть исходный код страницы" (такая опция обычно появляестя в выпадающем меню, если кликнуть по странице правой кнопкой мыши - но вы все, я думаю, это давно и прекрасно знаете =).
И там вверху после тега <head> должна быть строка:
<meta content='noindex,follow' name='robots'/> 
Эта же строка должна присутствовать и тогда, когда вы проверяете какой-либо из "ярлыков".
Затем, на всякий случай, откройте главную страницу блога и ещё пару других обычных страниц.
Просмотрите также исходный код на них: там не должно быть этой строки! Если она там есть, значит от индексации стал закрыт весь блог, а это очень плохо, и что-то работает не так.
Но вообще такого случиться не должно.
Скажу честно: я читал хорошие отзывы об этом способе, его уже используют немало людей. Но сам я пока тестирую его - посмотрим что будет через пару дней; хотя вообще все вроде должно быть в порядке.
Ещё раз рекомендую на всякий случай отслеживать индексацию до и после через вышеупомянутые Яндекс.вебмастер и гугловские Инструменты для веб-мастеров.

Это ещё не всё.
Чтобы на сайте было как можно меньше "дополнительных" страниц - крайне желательно ещё вот что:

- активно перелинковывать между собой внутренние страницы блога; в этом, кстати, прекрасно (и автоматически!) помогают ссылки на схожие сообщения в конце поста.
- наличие тематических ссылок с других сайтов, и не только на главную, но и на на другие разные страницы вашего блога; желательно с весомых ресурсов (ну это уж как выйдет);
- может помочь sitemap, но сказанное выше, ИМХО, действеннее.

Способ, того, как убрать из индекса дублированный контент из виджетов я взял у Maxibiz (он, впрочем, тоже признаётся что позаимствовал его). Можете почитать там комменты - возможно найдёте что-нибудь интересное по этому способу.
О supplemental-страницах и борьбе с ними также можно почитать на английском здесь.

UPD: узнать качество сайтов в отношении "дополнительных страниц" можно на сервисе supplemental-calculator.

34 комментария:

  1. Читала аб этом у Дмитрия Наумова, вот сегодня похожая тема у вас.
    Так страшно это делать с моими чайницкими навыками, но ..."Нужно, Федя, нужно!"
    Статья мне понравилась своей доходчивостью и понятностью...Отправляю ее к себе в кладовочку.
    Спасибо...

    ОтветитьУдалить
  2. Отпишитесь о результатах тестирования?

    ОтветитьУдалить
  3. Prokof'evna, не за что!
    [i'm_blogger], - обязательно!

    ОтветитьУдалить
  4. сделал вс как написано, пока все идет хорошо!)

    ОтветитьУдалить
  5. Да у меня тоже. Во всяком случае ничего плохого не заметил пока.

    ОтветитьУдалить
  6. Проверила одну из страниц блога - там оказалась строка эта строка, которой там быть не должно. На первой странице блога этой строки нет, а на второй есть. Как быть? Пока удалила весь код совсем:(

    ОтветитьУдалить
  7. Columb, а какая это "вторая страница блога"?

    ОтветитьУдалить
  8. Melnar Tilromen, которая "Предыдущие":)))Вы написали: "Затем, на всякий случай, откройте главную страницу блога и ещё пару других обычных страниц." На главной странице моего блога этой самой строки, которая не нужна, нет, а на "паре других обычных" есть. Почему так? И как исправить?

    ОтветитьУдалить
  9. Ben Foster, у вас всё в порядке. У меня всё точно так же.
    Главное - что на странице каждого сообщения в отдельности такого кода нет.

    ОтветитьУдалить
  10. Спасибо, применил. Я начинающий и не очень увлечённый блоггер. : )

    ОтветитьУдалить
  11. Всё работает! Спасибо за статью!

    ОтветитьУдалить
  12. А не подскажите где можно просмотреть в каком поиске какие страницы моего ресурса в саплименте, где узнать?
    вот ресурс - http://www.takemoney.org
    Спасибо.

    ОтветитьУдалить
  13. может уже это в Blogger исправлено, но адрес страниц с архива такой же, а ссылки с ярлыков не индексируется т.к. они идут через /search, а индексация /search закрыта в robots.txt

    ОтветитьУдалить
  14. добавляются только ссылки на месяц и на год.
    Еще хочу добавить, что у меня на сайте нет архива, но яндекс все равно находит гораздо больше страниц. По всей видимости архив с этим не связан в любом случае.

    ОтветитьУдалить
  15. кроме того закрывать от индексации архив помоему себе во вред, т.к. он представляет собой карту для поисковиков.
    Пожалуйста, поправьте меня если я не прав.

    ОтветитьУдалить
  16. еще раз пересмотрел, решение действует для ссылок с месяцев архива, года и так помещены в /search, интересно почему так же не сделали для месяцев.

    ОтветитьУдалить
  17. Да я вот до сих пор в саплиметале, на перезопрос хот уже и подал. А если в настройках просто отклучить ПОКАЗЫВАТЬ КАЖДУЮ СТРАНИЦУ ОДЕЛЬНО? может и не прийдётся код прописывать. Я кстати сделал как Вы описали вместе с "Нормальные имена страниц сообщений в Blogger" гугл прожевал всё очень окуратно, очень доволен... Спасибо огромное!

    ОтветитьУдалить
  18. *если в настройках просто отклучить ПОКАЗЫВАТЬ КАЖДУЮ СТРАНИЦУ ОДЕЛЬНО

    FuseSound, попробуйте, я не пробовал. Но мне кажется что это неудобно.

    ОтветитьУдалить
  19. Melnar, скажи, пожалуйста, а в классическом шаблоне код тоже работает?

    ОтветитьУдалить
  20. Анонимный4 мая 2010 г., 9:21

    Яндекс и Google продолжают индексировать архив и ярлыки. Как быть?

    ОтветитьУдалить
  21. Анонимный, странно, конечно что продолжает.
    Но на самом деле я думаю что это не страшно.

    ОтветитьУдалить
  22. После того как изучил WP, блогер меня больше не интересует...

    ОтветитьУдалить
  23. OZ, поздравляю. А что ж ты с блоггеровского профайла отвечаешь?
    Я тоже работал с вордпрессом (на отдельном хостинге есессна, не на бесплатном в смысле), но что-то желания переходить на него не возникло. Несомненно, есть свои плюсы, но для меня по прежнему тут лучше.

    ОтветитьУдалить
  24. Анонимный8 мая 2010 г., 16:08

    Здесь http://www.otvetnemail.ru немного подробней описывали

    ОтветитьУдалить
  25. Этот комментарий был удален автором.

    ОтветитьУдалить
  26. Это просто Google аккаунт. А что касается блоггера, есть и свои плюсы, все зависит от целей использования ;)

    ОтветитьУдалить
  27. meta content='noindex,follow' - это получается, что мы закрыли только от яндекса. А как быть с гуглом? Он ведь тоже не любит дублированый контент!

    ОтветитьУдалить
  28. Сделал всё как написано. Всё получилось. Буду теперь ждать результатов. Интересно как изменится индексация от этого.

    ОтветитьУдалить
  29. Читал об этом в другом месте. Но вот загвоздочка... Блог после этого кода вообще полностью перестаёт ндексироваться. Так что убрал этот код из шаблона.

    ОтветитьУдалить
  30. А зачем Нофоллоу ставить? Если ноидекс стоит, то по сути поиск не будет эти страницы учитывать в выдаче, но ссылки то с них зачем перекрывать?

    ОтветитьУдалить
  31. Всем привет. А почему никто не говорит о простом способе закрытия через роботс тхт? Ярлыки там уже закрыты, а архив закрываем так - Disallow: /*archive.html

    ОтветитьУдалить
    Ответы
    1. заглянул в свой работс.

      У вас перед архиве стоит "*" /*archive.html

      а вот, у меня такой вид:

      User-agent: *
      Disallow: /search

      .....

      Вопрос: Нужно ли мне ставить звёздочку перед "archive.html"

      Удалить