Блог Алексея Гончарова
Не пропустите новые статьи!

Новые статьи блога на Ваш e-mail:

Канал блога на YouTube
Где в мире читают блог
Архивы
Волшебная кнопка

Про robots.txt для Google, картинки и внимательность

robots.txt для google

Всем привет. Здесь я расскажу про robots.txt для Google и то, как это связано с внимательностью. Статья будет полезна всем блогерам и тем, кто собирается им стать. Много букв не будет.

Некоторое время назад в Сети стали появляться мнения, что файл robots.txt, который говорит поисковым роботам что брать, а куда не лезть, перестал работать для роботов Гугла. Мол, он на них не реагирует, все равно он залезет туда, куда ему вздумается и возьмет то, что посчитает нужным, или не нужным.

Да, отчасти это так и есть – паук google ну очень любопытное «создание», которое суёт свои щупальца во все щели доступные и не очень – лезет везде и своим появлением может наделать «шороху» на сайте, создавая дополнительную нагрузку на движок, а как следствие, сервер вашего хостинга. Да, если вы ещё не сталкивались с предупреждениями от хостинга о превышении вами допустимой нагрузки, то считайте, что вам пока повезло.

Но тема снижения нагрузки на сервер и оптимизация блога – это отдельная обширная тема, о которой одной статьёй не отделаться, так что, если интересно, то не пропустите;)

Короче, в прошлой статье я уже упомянул о проблеме исчезновения картинок моего блога в выдаче. Так вот, в продолжение истории, позже я проверял и тот самый robots.txt на предмет запрета индексации картинок и ужаснулся, когда там был запрет – все картинки были запрещены! :shock:   А виной тому был я сам и моя невнимательность. *blush*   Но обо всем по порядку.

Файл robots.txt для Google – каким он должен быть?

О том, как проверить работу robots.txt я уже писал и делал видео – чтобы не повторяться, почитайте и посмотрите эту статью. Принцип тот же, но с поправкой на систему google.

То есть ваш robots.txt нужно проверить уже в Инструментах вебмастера google в разделе Инструмент проверки файла robots.txt. Проверить надо все ссылки, начиная с главной со статьями, страницами и заканчивая ссылками на картинки с вложениями, комментариями и прочими атрибутами блога.

Проблема в проверке заключается в том, что проверять придётся по одной ссылке – пакетом, как у Яндекса, проверить нельзя. Если все в порядке, то ценное должно отдаваться роботу, а мусор и шлак от wordpress-а должно запрещаться роботу к доступу.

Но, каково же было моё удивление, я просто офигел, когда я увидел в google вебмастере, что отдаётся ВСЁ!  :shock:  То есть абсолютно всё, из той ерунды, которую роботам отдавать не стоит – например, постраничная навигация, рубрики, метки, теги и прочий ненужный в выдаче шлак. Конечно, есть специальные роботы, которые лезут именно туда, куда запрещает robots.txt, но речь здесь не о них, а о гиганте Гоше. Получалось, что действительно, robots.txt стал игнорироваться гуглом?…  :scratch:

Но, как говорится, метод научного тыка рулит, вот я и полез тыкать. И натыкал!  :aga:

Оказывается, что у Гугла изменились (когда, не знаю) правила написания директив для robots.txt, вернее их восприятие. И то, что работало раньше – перестало работать вообще, то есть почти ВСЕ старые директивы в файле роботов стали открытыми. Но «ларчик» просто открывался, правда, если знать об этом и знать как.

Оказалось, что стоило добавить один единственный символ в директиву, как она становилась рабочей для робота google.

Поскольку трафик вместе с упоминаниями в социальных сетях  лишними не бывают, а подобной информации в Сети я не встречал (только вопли о том, что google не реагирует на robots.txt), то этот символ я через три дня с момента выхода статьи спрячу под социальный замок. Для моих постоянных читателей он будет виден 3 дня – успевайте прочесть!

Итак, стандартная директива, вроде

Disallow: /page

для робота google открыта и ничего не запрещает. Чтобы сделать её рабочей для google, надо добавить символ, который 

собой обозначает «все символы», то есть звёздочку «*».

Директива будет написана так:

Disallow: */page

Тогда она становится работающей и начинает выполнять свою функцию – запрещать не рекомендовать роботу доступ к страницам постраничной навигации /page в моём примере.

Если не верите, что хорошо, проверьте самостоятельно в Инструменте проверки файла robots.txt Вебмастера Google.  *ok*

Да, там есть интересный нюанс! После внесения вами изменений в файл robots.txt, не забудьте об этом сообщить роботам Google! Для этого нажмите на кнопку Отправить над строкой вставки URL для проверки:

проверить robots.txt

И затем нажмите на кнопку Отправить во всплывшем окошке:

отправить robots.txt в google

чтобы Google узнал про ваш обновленный файл роботов – после отправки и обновления страницы вы увидите метку даты и времени получения с размером вашего обновленного robots.txt.

Вроде, все просто.  *yess*

Про robots.txt для Google, исчезновение картинок и внимательность.

Этот раздел статьи вам тоже может пригодиться. Ибо не факт, что такой же проблемы после изменения не будет и у вас.

До описанного в этой статье «исследования», у меня в файле роботов была директива, которая должна была закрывать от самих роботов архивы блога. Выглядела она так:

Disallow: /201*

Это подразумевало, что все ссылки, имевшие в себе цифры 201 попадали под запрет доступа. То есть все архивы за годы ведения блога роботам не должны были отдаваться 2011, 2012, 2013 и т.д.

И вот тут я не проверил внимательно ссылки на картинки.   *blush* Потому, что директива, написанная по-новому, стала запрещать уже и их, ведь ссылка на любую картинку в wordpress-е имеет вид: http://site.ru/wp-content/uploads/2012/05/kartinka.jpg, например. Вот и получалось, что новая директива с тем самым единственным символом запретила доступ ко всем картинкам блога. :-(   Вот так из-за невнимательности я выбросил из индекса все картинки своего сайта – не повторяйте моих ошибок!

Стоит ли говорить, что тот самый единственный символ я налепил везде «для надежности» для всех роботов, включая Яндекс, чем потерял картинки и у него тоже.  *bums*

Позже, после осознания ошибки, я убрал эту директиву совсем, так как в коде страниц архивов у меня выводится строка

<meta name=”robots” content=”noindex,follow” />

которая сама по себе уже говорит роботам не брать их в индекс.

На момент написания этой статьи картинки уже практически вернулись в поиск, но факт исчезновения остаётся, как ни крути! Проверить наличие картинок в поиске, можно также как и проверяется индексация сайта целиком, но уже в разделе поиска по картинкам у каждого поисковика, это на всякий случай, если кто-то не ещё в курсе.

Вот такая чехарда получилась у меня с файлом роботов robots.txt для Google и картинками. Будьте внимательны и проверяйте всё!

Если вы дочитали до этого места, то убедиться в изменениях моего robots.txt вы можете здесь. Полностью его копировать себе я вам не рекомендую *ne-a*  , так как у вас своя тема сайта, своя структура ссылок и прочее, так что вам мой файл роботов может только навредить. Здесь надо подходить индивидуально, внимательно и вдумчиво.

Надеюсь, суть изменений в файле robots.txt для Google я разъяснил. Спасибо, что дочитали.  *spasibo*

Про «много букв не будет» – увы, не получилось.  *pardon*

А это видео Солнечного затмения, которое было недавно – так, для разнообразия. Кстати, снято оно только на фотик безо всяких приспособлений – взгляните!  ;)

С уважением, Алексей Гончаров.

Пройдись по кнопочкам, расскажи о статье друзьям - это к деньгам!

Новые статьи блога на Ваш e-mail:

2 комментария: Про robots.txt для Google, картинки и внимательность

  • А зачем же закрывать метки, если из них можно сделать категории?
    Да и гугл все равно залезет везде в поисках новых ресурсов.

    • А пусть будет! Рубрики уже есть. :-P А Гугл, файл роботов, вообще и так игнорирует – он лазит везде, где ему вздумается. *secret*

Оставить комментарий

Ваш email не будет опубликован. Обязательные поля отмечены *

:) 
*hi* 
;) 
:-( 
:good: 
:aga: 
*blush* 
:negative: 
:yahoo: 
B-) 
*bravo* 
*klass* 
:shock: 
:-)) 
Больше смайлов!..
 
Обменник.ws » Автоматический обмен Webmoney