Блог Алексея Гончарова
Не пропустите новые статьи!

Новые статьи блога на Ваш e-mail:

Канал блога на YouTube
Группа блога на vk.com
Где в мире читают блог
Архивы
Волшебная кнопка

Что такое файл robots.txt, как его проверить и настроить, видео.

файл robots txtЗдравствуйте, друзья! Сегодня речь пойдет о маленькой, но важной штучке в индексации сайта – одном файлике, от которого может зависеть судьба всего сайта целиком. Это файл robots.txt, который очень влияет на сайт и его индексацию.

Файл крохотный, размером всего несколько сотен байт, но от того, как он у вас работает и как составлен, зависит то, как будет видеться ваш сайт в поиске и то, будет ли он там вообще. Как говорится, мал золотник, да дорог! В нашем случае – очень и очень дорог.

Если хотите узнать что это такое за штуковина этот robots.txt и что это за файл с технической стороны вопроса, то можете почитать в Википедии – подробно описано. Есть даже сайты, специально созданные для того, чтобы разжевать до состояния проглатывания информацию про этот файл, как например, сайт robotstxt.org.ru и его оригинальна версия на английском языке www.robotstxt.org. Можете полюбопытствовать, но моя задача в этой статье не заваливать вас технической ерундой, выносящей мозг наружу, а всё пояснить про этот файл просто и без зауми.

Начнём немного издалека, как говорится, с поцелуя в затылок! :-))  Итак, все начинается с роботов, а куда же без них, родимых в Интернете? Если вы уже читали словарь сео-терминов, то знаете, что они, роботы, есть везде и одновременно нигде. То есть они одновременно уходят и не уходят со страниц любого сайта (если с ним все в порядке, конечно), живут на нем. А пищей для них, является информация, которую они с удовольствием поглощают и складывают в свои «желудки» – поисковую базу – индекс. Так вот, поскольку они всегда голодны и ненасытны до этой самой информации, то жутко любопытны и старательны в её поиске в самых укромных уголках Сети и любого сайта. И вот тут мы подходим к самой важной части – миссии файла для роботов – robots.txt.

Что делает файл robots.txt?

На любом сайте есть места, которые должны быть скрыты от обозрения и недоступны широкой публике. Например, это служебная информация с паролями, логинами, данными администратора сайта, списком файлов и прочими подобными вещами. Если такие места будут доступны, то безопасность вашего творения будет под сильной угрозой, так как всё то, что будут знать поисковые роботы, смогут узнать и обычные посетители, знай они секреты поиска.

Так вот самой важной задачей этого файла для роботов и является закрытие от поиска служебных разделов сайта. Это своего рода заглушка для роботов – Ты туда не ходи, ты сюда ходи! Первое, ну или одно из первых, на что они «смотрят» при входе на сайт – это именно на robots.txt и на то, что в нем написано. Для них это как карта допуска на уровни сайта. Нет карты – всё открыто, есть карта – открыто всё, что в ней не закрыто.

Именно по такому принципу строятся правила для роботов. В файле прописывается только то, что им нужно запретить искать и находить. Если что-то не написано, то это разрешено по умолчанию. А отсюда вытекает еще одно предназначение этого «золотника».

Из-за любопытства и природной способности к поиску, роботы могут находить копии контента на сайте – его дубли. Вроде, а чего тут плохого? А плохо это потому, что дубли роботам не нравятся. Для них это, как раздражающий фактор. Если таких факторов много, то им может не понравиться и весь ваш сайт целиком и полностью со всеми вытекающими отсюда последствиями.

Потому второе предназначение файла robots.txt – это сокрытие дублей страниц сайта от поисковых роботов и показ им только оригиналов статей и записей. Кстати, если тут допущены ошибки при составлении правил в этом файле, то сайт запросто может вылететь из индекса.

robots txt

Откуда берутся дубли? Всё зависит конкретно от каждого сайта, его архитектуры, его движка (CMS – системы управления контентом) и его шаблона, применительно к wordpress. В каждом сайте будут свои нюансы. Если сайт написан на wordpress, то к нему не подойдет файл роботов от Joomla, например и наоборот. Этот момент нужно понимать сразу. Поскольку речь идет о сайтах, работающих на wordpress-е, то и говорить будем о них.

Тут дубли появляются от самого движка и принципов его работы. Поскольку движок блоггерский, то один вариант дублей – это ссылка на статью и ссылка на статью с предложением читать её полностью или далее. Сама ссылка одна и та же, но во втором варианте с «хвостиком» #more –для робота это уже другая ссылка, а значит дубль основной ссылки.

Второй вариант – ссылки на статьи и ссылки на рубрики с этими же статьями. И там и там ссылки – еда, ням-ням! :aga:  Но в рубриках получаются дубли – не ням-ням *ne-a*  И так далее – метки от перелинковки статей, комментарии, ответы на комментарии, постраничная навигация, архивы, карты сайта и прочее.

В идеале, в индекс должны попадать только статьи блога и ничего больше. Задача правильного файла для ботов – «скормить» им только статьи и страницы без дублирования «еды».

Где взять на свой сайт такой файл, чтобы не заморачиваться с каждым правилом? Ответ прост до безобразия: позаимствовать чужой! Но не просто так, а подправив его под свой сайт. Где взять и как? Ну, например, сервис-анализатор www.dinews.ru/seo/ при анализе показывает робо-файл сайта, если он у него имеется. Например, у сайта vk.com, он же социальная сеть Вконтакте, его просто НЕТ! :shock:  А значит всё, что там находится, может быть найдено и использовано против любого, кто там зарегистрирован. Вот вам и конфиденциальность в сети – гы *hi-hi*  Ой, отвлёкся, сори  *pardon*

Берёте похожий сайт с похожим движком, который хорошо индексируется, копируете его ссылку в dinews.ru и получаете почти готовый robots.txt. Или ещё проще: дописываете к адресу сайта /robots.txt, чтобы получилось так: http://имя-сайта.ru/robots.txt.

Теперь нужно только исправить последние строки на имена своего сайта. Можете хоть с моего сайта взять. Но обязательно его нужно отредактировать под ваш сайт, так как что-то может пойти не так. Вообще, рекомендую вам почитать про этот файл в разделе помощи Яндекса и перед тем, как загружать его на ваш сервер обязательно проверить на работоспособность. А как сделать проверку, смотрите в видео, которое я специально записал для наглядности.

Но учтите, что у вас все ссылки и создаваемые для них правила будут свои, как и те страницы, которые надо исключить – не копируйте то, что я показал в видео, учитывайте особенность вашего сайта! При сохранении нового файла кодировку выбирайте UTF-8 ту, которая была в исходном файле.

Самое приятное в этом то, что сделать настройку и проверку нужно всего один раз для вашего сайта – сделать, забыть и больше к этому вопросу не возвращаться. Но при условии, что вы не поменяете движок и архитектуру сайта, конечно же.

Надеюсь, после статьи и видео у вас будет свой файл robots.txt и не будет дублей. А равно будет меньше вопросов с ним связанных. Если остались вопросы пожелания – задавайте в комментариях к статье. Благодарности, подписки на новые статьи и нажатия по социальным кнопочкам принимаются в неограниченных количествах, и приветствуются с радостью :) Хорошей вам индексации!  ;)

Пройдись по кнопочкам, расскажи о статье друзьям - это к деньгам!

Новые статьи блога на Ваш e-mail:

25 комментариев: Что такое файл robots.txt, как его проверить и настроить, видео.

  • Алексей, решила после комментария проверить снова свой файл роботс и он уже заработал, зря я вас побеспокоила. Видимо понадобилось время, что бы он настроился, да и поздно было. Уж простите! А теперь у меня уже есть возможность проверить его и по вашему видео его проанализировать. Спасибо за ваши труды! ;)

  • Добрый вечер, Алексей! Вчера из поиска попала на ваш сайт. Просмотрела и статью, и видео. Да, вы очень интересно всё это преподали, в особенности мне понравилось, как именно вы объяснили в видео. Но до этого я пока ещё не дошла, но непременно к этому вернусь. А сначала у меня такой вопрос, я всегда брала предложенный на уроках файл robots.txt или уже сформированный, потому как не понимала, как он должен работать и время от времени его приходилось менять, и вот недавно мне Яндекс Вебмастер сообщает, что у меня отсутствует XML Sitemap, а я знаю, что он у меня есть от плагина Yoast SEO. Пошла проверила – да есть, но почему-то Яндекс его не видит. Пошла к файловому менеджеру на хостинге, зашла в свой роботс и проверила – да действительно тот что в роботсе прописанный Sitemap не работает! Решила скорректировать, не работает, решила найти у кого либо новый файл, старый удалила, новый загрузила, прописала свой домен, сохранила, пошла проверить – опять не работает, и главное при проверке в браузере показывается, тот что я удалила! Можете ли вы, Алексей, что либо мне подсказать? С уважением, Раиса. ;)

  • Леша, еще раз воспользовалась твоими советами. Все очень доступно и разжевано, расчитано на среднестатистического “чайника”. :good: :good:

  • На моем сайте был неправильный робот.тхт, в результате чего реклама от Гугля не везде показывалась. Алексей мне подсказал, где в этом файле кроются ошибки, что лучше и как лучше все исправить, где что поменять. После исправления ошибок буквально через 2-3 дня реклама стала везде показываться.

    Я очень благодарна Алексею за помощь и консультацию в редактировании файла robots.txt.

  • А я ничего не поняла. Где его брать? Ну хотя бы даже ваш? куда копировать? Создавать текстовый файл в виндоуз или что?

  • Алексей, спасибо за подробнейшее объяснение и видео, что есть огромный труд. Все очень подробно и с анализом чего можно ожидать от неверно настроенного роботс.Ждем дальнейших статей.

  • Спасибо Валерий! Полезно и нужно. Сайт существует 4 месяца без файла robots.txt. Буду делать по вашим урокам.

  • Спасибо за нужную информацию. Благодаря Вашему видео, я переделала свой robots.txt , надеюсь мне это поможет в продвижении моего сайта. Сообщила своим друзьям о Вашем сайте. Удачи Вам и здоровья! А так же побольше подобной информации для нас!

  • Я и видео посмотрел, и на Яндексе прочитал статью, и на robotstxt.org.ru, и Вики. Информация во многом противоречивая. И на свои вопросы, я ответа не нашёл. Завтра поищу ещё по инету, думаю, что разберусь. Всего доброго.

    • Валерий, файл robots.txt составляется индивидуально под каждый сайт и под каждый шаблон. но суть его общая – исключить выдачу роботам дублей одинаковых страниц сайта, так как дубли негативно влияют на индексацию и продвижение сайта.

      • Алексей, я это понимаю. Просто хочу разобраться, что означает каждая строчка.

  • Алексей, спасибо за столь подробное объяснение. Изложенный материал жизненно важен для любого сайта. Но у меня есть несколько вопросов.
    Как прописать директиву для исключения из индексации ссылки на статью с предложением читать её полностью или далее (с окончанием типа #more-111) ? Ведь то, что находится после знака #, расценивается роботом как комментарий.
    Что означают следующие директивы:
    Disallow: /*?*
    Disallow: /?s=
    Disallow: /201*
    Disallow: */*/feed/*/
    Disallow: */feed
    Disallow: /feed/
    Disallow: /trackback
    Disallow: */trackback
    Disallow: */*/trackback

    • Валерий, отвечаю – никак. О каждой директиве почитайте подробнее у Яндекса, в статье и в видео есть ссылка, а если коротко, то каждая директива запрещает к индексированию определенный пункт, например Disallow: /201* – архивы, Disallow: */feed – RSS-фид.

  • Пока убрала строчку Crawl-delay: 4. Но нужно разбираться досканально, потому что у меня все везде РАЗРЕШЕН.

  • Спасибо, Алексей. Статья и видео подробные и понятные. Пробовала установить этот файл с разным содержанием, но подошел именно ваш. И благодаря видео я поняла, как можно сделать его под свой сайт. Еще раз спасибо.

  • Спасибо еще раз за подробное видео. Сегодня нашла время поработать со своим файлом робот.тхт на основе вашего видео. Многое прояснилось…:-)

  • Спасибо! Очень полезная и нужная статья. Главное, все понятно. Все сделала согласно уроку и все получилось! Еще раз спасибо.

  • Спасибо за статью, особенно за качественное и полезное видео. 9 марта сего года Яндекс сообщил о новых правилах обработки директив Allow и Disallow в файлах robots.txt В вашем файле robots.txt эти изменения учитываются?

    • Спасибо, Валентина. Правила учитывают взаимодействия противоречивых директив в файле – разрешающих Allow и запрещающих – Disallow. Суть этих новых правил состоит в том, чтобы при использовании обеих на одной странице отдать предпочтение той, у которой длиннее префикс URL и которая стоит последней в списке директив. При противоречии равных директив отдать предпочтение разрешающей – Allow. Самый простой вариант использования директив – это использовать один их тип. В моем случае это запрет всего лишнего для индексации. Чего и вам желаю.

Оставить комментарий

Ваш email не будет опубликован. Обязательные поля отмечены *

:) 
*hi* 
;) 
:-( 
:good: 
:aga: 
*blush* 
:negative: 
:yahoo: 
B-) 
*bravo* 
*klass* 
:shock: 
:-)) 
Больше смайлов!..
 
Обменник.ws » Автоматический обмен Webmoney