Блоги Blogger и интернет.: Supplemental-страницы. Закрыть индексацию архива и ярлыков в Блоггере

пятница, 6 февраля 2009 г.

Supplemental-страницы. Закрыть индексацию архива и ярлыков в Блоггере - как и зачем?

Штука такая. Я уже говорил раньше (в ноябре прошлого года) о том, что поисковые машины видят в наших блогах на блоггере больше страниц, чем там на самом деле есть.
И даже объяснял почему так происходит. А именно потому, что за отдельные страницы принимаются страницы по ссылкам из архива и ярлыков (у них же другой адрес).
Но на самом деле, это не очень хорошо. Много страниц в индексе - это приятно, но надо понимать то, что это выходят страницы с дублированным контентом (а это поисковые машины не любят).
И, кроме этого, такая страница может попасть в выдачу выше оригинальной (вряд ли, конечно, но всяко бывает...).
Это совершенно точно - вы можете это проверить сами, зайдя в "Яндекс.вебмастер" или в "Инструменты для веб-мастеров" Google. Там будут лишние страницы именно по ссылкам из ярлыков и архива.
Гугл делит страницы сайта на главные ("main") и дополнительные ("supplemental"). Большое количество дополнительных как-бы снижают качество сайта в глазах поисковика. Кроме этого, тем страницам, которые считаются вспомогательными, сложнее попасть в выдачу!

Соответственно, надо эту ситуацию как-то исправлять. Для этого желательно действовать сразу несколькими способами.
Один из способов - сокращение похожего, повторяющегося или дублированного контента.
А именно такой контент Гугл видит по ссылкам из архива и ярлыков.
Так что надо закрыть "архив сообщений" и "ярлыки" (они же "разделы","рубрики") от индексации.
Я нашёл такой вот способ:
Вначале, как обычно, на всякий случай сохраняем свой шаблон.
Затем в редаторе HTML нашего блога сразу после тега <head> надо вставить следующий код:

<b:if cond='data:blog.pageType == "archive"'><meta content='noindex,follow' name='robots'/></b:if><b:if cond='data:blog.pageType == "index"'><b:if cond='data:blog.url != data:blog.homepageUrl'><meta content='noindex,follow' name='robots'/></b:if></b:if>

И сохранить результат. Затем, чтоб проверить как всё работает - надо открыть какой-нибудь месяц или год "архива" и нажать в браузере "просмотреть исходный код страницы" (такая опция обычно появляестя в выпадающем меню, если кликнуть по странице правой кнопкой мыши - но вы все, я думаю, это давно и прекрасно знаете =).
И там вверху после тега <head> должна быть строка:

Эта же строка должна присутствовать и тогда, когда вы проверяете какой-либо из "ярлыков".
Затем, на всякий случай, откройте главную страницу блога и ещё пару других обычных страниц.
Просмотрите также исходный код на них: там не должно быть этой строки! Если она там есть, значит от индексации стал закрыт весь блог, а это очень плохо, и что-то работает не так.
Но вообще такого случиться не должно.
Скажу честно: я читал хорошие отзывы об этом способе, его уже используют немало людей. Но сам я пока тестирую его - посмотрим что будет через пару дней; хотя вообще все вроде должно быть в порядке.
Ещё раз рекомендую на всякий случай отслеживать индексацию до и после через вышеупомянутые Яндекс.вебмастер и гугловские Инструменты для веб-мастеров.

Это ещё не всё.
Чтобы на сайте было как можно меньше "дополнительных" страниц - крайне желательно ещё вот что:

- активно перелинковывать между собой внутренние страницы блога; в этом, кстати, прекрасно (и автоматически!) помогают ссылки на схожие сообщения в конце поста.
- наличие тематических ссылок с других сайтов, и не только на главную, но и на на другие разные страницы вашего блога; желательно с весомых ресурсов (ну это уж как выйдет);
- может помочь sitemap, но сказанное выше, ИМХО, действеннее.

Способ, того, как убрать из индекса дублированный контент из виджетов я взял у Maxibiz (он, впрочем, тоже признаётся что позаимствовал его). Можете почитать там комменты - возможно найдёте что-нибудь интересное по этому способу.
О supplemental-страницах и борьбе с ними также можно почитать на английском здесь.

UPD: узнать качество сайтов в отношении "дополнительных страниц" можно на сервисе supplemental-calculator.

34 комментария:

prokofevna6 февраля 2009 г. в 21:00
Читала аб этом у Дмитрия Наумова, вот сегодня похожая тема у вас.
Так страшно это делать с моими чайницкими навыками, но ..."Нужно, Федя, нужно!"
Статья мне понравилась своей доходчивостью и понятностью...Отправляю ее к себе в кладовочку.
Спасибо...
ОтветитьУдалить
Ответы
alexander6 февраля 2009 г. в 21:59
Отпишитесь о результатах тестирования?
ОтветитьУдалить
Ответы
Melnar Tilromen6 февраля 2009 г. в 22:16
Prokof'evna, не за что!
[i'm_blogger], - обязательно!
ОтветитьУдалить
Ответы
Mr. Dee16 февраля 2009 г. в 11:02
сделал вс как написано, пока все идет хорошо!)
ОтветитьУдалить
Ответы
Melnar Tilromen16 февраля 2009 г. в 16:45
Да у меня тоже. Во всяком случае ничего плохого не заметил пока.
ОтветитьУдалить
Ответы
OMG-BenFoster25 апреля 2009 г. в 09:35
Проверила одну из страниц блога - там оказалась строка эта строка, которой там быть не должно. На первой странице блога этой строки нет, а на второй есть. Как быть? Пока удалила весь код совсем:(
ОтветитьУдалить
Ответы
Melnar Tilromen26 апреля 2009 г. в 22:55
Columb, а какая это "вторая страница блога"?
ОтветитьУдалить
Ответы
OMG-BenFoster4 мая 2009 г. в 12:58
Melnar Tilromen, которая "Предыдущие":)))Вы написали: "Затем, на всякий случай, откройте главную страницу блога и ещё пару других обычных страниц." На главной странице моего блога этой самой строки, которая не нужна, нет, а на "паре других обычных" есть. Почему так? И как исправить?
ОтветитьУдалить
Ответы
Melnar Tilromen4 мая 2009 г. в 21:36
Ben Foster, у вас всё в порядке. У меня всё точно так же.
Главное - что на странице каждого сообщения в отдельности такого кода нет.
ОтветитьУдалить
Ответы
DeXtR9 мая 2009 г. в 14:06
спасибо
ОтветитьУдалить
Ответы
stanislav27 мая 2009 г. в 19:59
Спасибо, применил. Я начинающий и не очень увлечённый блоггер. : )
ОтветитьУдалить
Ответы
SvinoPapka27 июня 2009 г. в 13:34
Всё работает! Спасибо за статью!
ОтветитьУдалить
Ответы
MaxKravt8 сентября 2009 г. в 18:16
А не подскажите где можно просмотреть в каком поиске какие страницы моего ресурса в саплименте, где узнать?
вот ресурс - http://www.takemoney.org
Спасибо.
ОтветитьУдалить
Ответы
OZ1 января 2010 г. в 16:56
может уже это в Blogger исправлено, но адрес страниц с архива такой же, а ссылки с ярлыков не индексируется т.к. они идут через /search, а индексация /search закрыта в robots.txt
ОтветитьУдалить
Ответы
OZ1 января 2010 г. в 17:08
добавляются только ссылки на месяц и на год.
Еще хочу добавить, что у меня на сайте нет архива, но яндекс все равно находит гораздо больше страниц. По всей видимости архив с этим не связан в любом случае.
ОтветитьУдалить
Ответы
OZ1 января 2010 г. в 17:12
кроме того закрывать от индексации архив помоему себе во вред, т.к. он представляет собой карту для поисковиков.
Пожалуйста, поправьте меня если я не прав.
ОтветитьУдалить
Ответы
OZ2 января 2010 г. в 14:32
еще раз пересмотрел, решение действует для ссылок с месяцев архива, года и так помещены в /search, интересно почему так же не сделали для месяцев.
ОтветитьУдалить
Ответы
Анонимный18 января 2010 г. в 13:25
Да я вот до сих пор в саплиметале, на перезопрос хот уже и подал. А если в настройках просто отклучить ПОКАЗЫВАТЬ КАЖДУЮ СТРАНИЦУ ОДЕЛЬНО? может и не прийдётся код прописывать. Я кстати сделал как Вы описали вместе с "Нормальные имена страниц сообщений в Blogger" гугл прожевал всё очень окуратно, очень доволен... Спасибо огромное!
ОтветитьУдалить
Ответы
Unknown18 января 2010 г. в 19:56
*если в настройках просто отклучить ПОКАЗЫВАТЬ КАЖДУЮ СТРАНИЦУ ОДЕЛЬНО

FuseSound, попробуйте, я не пробовал. Но мне кажется что это неудобно.
ОтветитьУдалить
Ответы
Anna14 апреля 2010 г. в 17:23
Melnar, скажи, пожалуйста, а в классическом шаблоне код тоже работает?
ОтветитьУдалить
Ответы
Unknown16 апреля 2010 г. в 12:06
Anna, я не знаю =)
ОтветитьУдалить
Ответы
Анонимный4 мая 2010 г. в 09:21
Яндекс и Google продолжают индексировать архив и ярлыки. Как быть?
ОтветитьУдалить
Ответы
Unknown4 мая 2010 г. в 16:11
Анонимный, странно, конечно что продолжает.
Но на самом деле я думаю что это не страшно.
ОтветитьУдалить
Ответы
OZ7 мая 2010 г. в 21:01
После того как изучил WP, блогер меня больше не интересует...
ОтветитьУдалить
Ответы
Unknown8 мая 2010 г. в 03:24
OZ, поздравляю. А что ж ты с блоггеровского профайла отвечаешь?
Я тоже работал с вордпрессом (на отдельном хостинге есессна, не на бесплатном в смысле), но что-то желания переходить на него не возникло. Несомненно, есть свои плюсы, но для меня по прежнему тут лучше.
ОтветитьУдалить
Ответы
Анонимный8 мая 2010 г. в 16:08
Здесь http://www.otvetnemail.ru немного подробней описывали
ОтветитьУдалить
Ответы
OZ8 мая 2010 г. в 22:58
Этот комментарий был удален автором.
ОтветитьУдалить
Ответы
OZ8 мая 2010 г. в 22:59
Это просто Google аккаунт. А что касается блоггера, есть и свои плюсы, все зависит от целей использования ;)
ОтветитьУдалить
Ответы
Ahimas19 сентября 2010 г. в 10:28
meta content='noindex,follow' - это получается, что мы закрыли только от яндекса. А как быть с гуглом? Он ведь тоже не любит дублированый контент!
ОтветитьУдалить
Ответы
Inzbruk17 ноября 2010 г. в 15:06
Сделал всё как написано. Всё получилось. Буду теперь ждать результатов. Интересно как изменится индексация от этого.
ОтветитьУдалить
Ответы
Анонимный6 февраля 2011 г. в 14:26
Читал об этом в другом месте. Но вот загвоздочка... Блог после этого кода вообще полностью перестаёт ндексироваться. Так что убрал этот код из шаблона.
ОтветитьУдалить
Ответы
!26 июля 2011 г. в 03:00
А зачем Нофоллоу ставить? Если ноидекс стоит, то по сути поиск не будет эти страницы учитывать в выдаче, но ссылки то с них зачем перекрывать?
ОтветитьУдалить
Ответы
Анонимный12 августа 2013 г. в 18:55
Всем привет. А почему никто не говорит о простом способе закрытия через роботс тхт? Ярлыки там уже закрыты, а архив закрываем так - Disallow: /*archive.html
ОтветитьУдалить
Ответы