И даже объяснял почему так происходит. А именно потому, что за отдельные страницы принимаются страницы по ссылкам из архива и ярлыков (у них же другой адрес).
Но на самом деле, это не очень хорошо. Много страниц в индексе - это приятно, но надо понимать то, что это выходят страницы с дублированным контентом (а это поисковые машины не любят).
И, кроме этого, такая страница может попасть в выдачу выше оригинальной (вряд ли, конечно, но всяко бывает...).
Это совершенно точно - вы можете это проверить сами, зайдя в "Яндекс.вебмастер" или в "Инструменты для веб-мастеров" Google. Там будут лишние страницы именно по ссылкам из ярлыков и архива.
Гугл делит страницы сайта на главные ("main") и дополнительные ("supplemental"). Большое количество дополнительных как-бы снижают качество сайта в глазах поисковика. Кроме этого, тем страницам, которые считаются вспомогательными, сложнее попасть в выдачу!
Соответственно, надо эту ситуацию как-то исправлять. Для этого желательно действовать сразу несколькими способами.
Один из способов - сокращение похожего, повторяющегося или дублированного контента.
А именно такой контент Гугл видит по ссылкам из архива и ярлыков.
Так что надо закрыть "архив сообщений" и "ярлыки" (они же "разделы","рубрики") от индексации.
Я нашёл такой вот способ:
Вначале, как обычно, на всякий случай сохраняем свой шаблон.
Затем в редаторе HTML нашего блога сразу после тега <head> надо вставить следующий код:
<b:if cond='data:blog.pageType == "archive"'><meta content='noindex,follow' name='robots'/></b:if><b:if cond='data:blog.pageType == "index"'><b:if cond='data:blog.url != data:blog.homepageUrl'><meta content='noindex,follow' name='robots'/></b:if></b:if>
И сохранить результат. Затем, чтоб проверить как всё работает - надо открыть какой-нибудь месяц или год "архива" и нажать в браузере "просмотреть исходный код страницы" (такая опция обычно появляестя в выпадающем меню, если кликнуть по странице правой кнопкой мыши - но вы все, я думаю, это давно и прекрасно знаете =).
И там вверху после тега <head> должна быть строка:
<meta content='noindex,follow' name='robots'/>
Эта же строка должна присутствовать и тогда, когда вы проверяете какой-либо из "ярлыков". Затем, на всякий случай, откройте главную страницу блога и ещё пару других обычных страниц.
Просмотрите также исходный код на них: там не должно быть этой строки! Если она там есть, значит от индексации стал закрыт весь блог, а это очень плохо, и что-то работает не так.
Но вообще такого случиться не должно.
Скажу честно: я читал хорошие отзывы об этом способе, его уже используют немало людей. Но сам я пока тестирую его - посмотрим что будет через пару дней; хотя вообще все вроде должно быть в порядке.
Ещё раз рекомендую на всякий случай отслеживать индексацию до и после через вышеупомянутые
Это ещё не всё.
Чтобы на сайте было как можно меньше "дополнительных" страниц - крайне желательно ещё вот что:
- активно перелинковывать между собой внутренние страницы блога; в этом, кстати, прекрасно (и автоматически!) помогают ссылки на схожие сообщения в конце поста.
- наличие тематических ссылок с других сайтов, и не только на главную, но и на на другие разные страницы вашего блога; желательно с весомых ресурсов (ну это уж как выйдет);
- может помочь sitemap, но сказанное выше, ИМХО, действеннее.
Способ, того, как убрать из индекса дублированный контент из виджетов я взял у Maxibiz (он, впрочем, тоже признаётся что позаимствовал его). Можете почитать там комменты - возможно найдёте что-нибудь интересное по этому способу.
О supplemental-страницах и борьбе с ними также можно почитать на английском здесь.
UPD: узнать качество сайтов в отношении "дополнительных страниц" можно на сервисе supplemental-calculator.
Читала аб этом у Дмитрия Наумова, вот сегодня похожая тема у вас.
ОтветитьУдалитьТак страшно это делать с моими чайницкими навыками, но ..."Нужно, Федя, нужно!"
Статья мне понравилась своей доходчивостью и понятностью...Отправляю ее к себе в кладовочку.
Спасибо...
Отпишитесь о результатах тестирования?
ОтветитьУдалитьProkof'evna, не за что!
ОтветитьУдалить[i'm_blogger], - обязательно!
сделал вс как написано, пока все идет хорошо!)
ОтветитьУдалитьДа у меня тоже. Во всяком случае ничего плохого не заметил пока.
ОтветитьУдалитьПроверила одну из страниц блога - там оказалась строка эта строка, которой там быть не должно. На первой странице блога этой строки нет, а на второй есть. Как быть? Пока удалила весь код совсем:(
ОтветитьУдалитьColumb, а какая это "вторая страница блога"?
ОтветитьУдалитьMelnar Tilromen, которая "Предыдущие":)))Вы написали: "Затем, на всякий случай, откройте главную страницу блога и ещё пару других обычных страниц." На главной странице моего блога этой самой строки, которая не нужна, нет, а на "паре других обычных" есть. Почему так? И как исправить?
ОтветитьУдалитьBen Foster, у вас всё в порядке. У меня всё точно так же.
ОтветитьУдалитьГлавное - что на странице каждого сообщения в отдельности такого кода нет.
спасибо
ОтветитьУдалитьСпасибо, применил. Я начинающий и не очень увлечённый блоггер. : )
ОтветитьУдалитьВсё работает! Спасибо за статью!
ОтветитьУдалитьА не подскажите где можно просмотреть в каком поиске какие страницы моего ресурса в саплименте, где узнать?
ОтветитьУдалитьвот ресурс - http://www.takemoney.org
Спасибо.
может уже это в Blogger исправлено, но адрес страниц с архива такой же, а ссылки с ярлыков не индексируется т.к. они идут через /search, а индексация /search закрыта в robots.txt
ОтветитьУдалитьдобавляются только ссылки на месяц и на год.
ОтветитьУдалитьЕще хочу добавить, что у меня на сайте нет архива, но яндекс все равно находит гораздо больше страниц. По всей видимости архив с этим не связан в любом случае.
кроме того закрывать от индексации архив помоему себе во вред, т.к. он представляет собой карту для поисковиков.
ОтветитьУдалитьПожалуйста, поправьте меня если я не прав.
еще раз пересмотрел, решение действует для ссылок с месяцев архива, года и так помещены в /search, интересно почему так же не сделали для месяцев.
ОтветитьУдалитьДа я вот до сих пор в саплиметале, на перезопрос хот уже и подал. А если в настройках просто отклучить ПОКАЗЫВАТЬ КАЖДУЮ СТРАНИЦУ ОДЕЛЬНО? может и не прийдётся код прописывать. Я кстати сделал как Вы описали вместе с "Нормальные имена страниц сообщений в Blogger" гугл прожевал всё очень окуратно, очень доволен... Спасибо огромное!
ОтветитьУдалить*если в настройках просто отклучить ПОКАЗЫВАТЬ КАЖДУЮ СТРАНИЦУ ОДЕЛЬНО
ОтветитьУдалитьFuseSound, попробуйте, я не пробовал. Но мне кажется что это неудобно.
Melnar, скажи, пожалуйста, а в классическом шаблоне код тоже работает?
ОтветитьУдалитьAnna, я не знаю =)
ОтветитьУдалитьЯндекс и Google продолжают индексировать архив и ярлыки. Как быть?
ОтветитьУдалитьАнонимный, странно, конечно что продолжает.
ОтветитьУдалитьНо на самом деле я думаю что это не страшно.
После того как изучил WP, блогер меня больше не интересует...
ОтветитьУдалитьOZ, поздравляю. А что ж ты с блоггеровского профайла отвечаешь?
ОтветитьУдалитьЯ тоже работал с вордпрессом (на отдельном хостинге есессна, не на бесплатном в смысле), но что-то желания переходить на него не возникло. Несомненно, есть свои плюсы, но для меня по прежнему тут лучше.
Здесь http://www.otvetnemail.ru немного подробней описывали
ОтветитьУдалитьЭтот комментарий был удален автором.
ОтветитьУдалитьЭто просто Google аккаунт. А что касается блоггера, есть и свои плюсы, все зависит от целей использования ;)
ОтветитьУдалитьmeta content='noindex,follow' - это получается, что мы закрыли только от яндекса. А как быть с гуглом? Он ведь тоже не любит дублированый контент!
ОтветитьУдалитьСделал всё как написано. Всё получилось. Буду теперь ждать результатов. Интересно как изменится индексация от этого.
ОтветитьУдалитьЧитал об этом в другом месте. Но вот загвоздочка... Блог после этого кода вообще полностью перестаёт ндексироваться. Так что убрал этот код из шаблона.
ОтветитьУдалитьА зачем Нофоллоу ставить? Если ноидекс стоит, то по сути поиск не будет эти страницы учитывать в выдаче, но ссылки то с них зачем перекрывать?
ОтветитьУдалитьВсем привет. А почему никто не говорит о простом способе закрытия через роботс тхт? Ярлыки там уже закрыты, а архив закрываем так - Disallow: /*archive.html
ОтветитьУдалитьзаглянул в свой работс.
УдалитьУ вас перед архиве стоит "*" /*archive.html
а вот, у меня такой вид:
User-agent: *
Disallow: /search
.....
Вопрос: Нужно ли мне ставить звёздочку перед "archive.html"