robots.txt


Авторы сайта: О humans.txt

Сегодня я бы хотел поговорить об авторах сайта. Представим ситуацию, думаю часто такое бывает, вам понравился сайт, и теперь вы хотите узнать кто его сделал, кто участвовал в разработке: верстал, рисовал дизайн, кодировал и т.д.

В общем, мы должны знать своих героев. :) Можно разместить ссылки на каждого, разместить код и т.д. Но можно использовать humans.txt.

    Что такое humans.txt ?

что такое humans txt

Это идея знакомства с людьми, которые создают или принимают участие в создании сайта. Это текстовый файл, который содержит информацию о веб-разработчиках, сеошниках, дизайнерах (в общем всех) и тем, кому мы бы хотели сказать спасибо. Что-то типа титров в фильме. :)

Группа разработчиков решила решить проблему знакомства с разработчиками и пользователями сайта через создания текстового файла с названием humans (по аналогии с robots.txt).

Интересен и слоган:

логотип humans.txt

Мы люди, не машины.

Обязанности.

Вы, конечно, не обязаны это делать. Это на добровольной основе.

Стандарты.

Для robots.txt есть свой стиль написания, для humans такого нету. Но разработчики предлагают придерживаться следующего написания файла:

/* TEAM */

Your title (роль в проекте): Твоё имя.
Site (Как найти): электронная почта, ссылка на форму обратной связи, т.д.
Twitter: твой ник на твитере.
Location (Местоположение): Город, Страна.

/* THANKS */

Name (Имя): имя или адрес сайта

/* SITE */

Last update (Обновлено): YYYY/MM/DD
Standards (Стандарты): HTML5, CSS3,..
Components (Компоненты): Modernizr, jQuery, etc.
Software (Программное обеспечение): ПО, использованное для разработки

Кто использует?

Из сайтов на русском, кто использует данный файл:

– шаблон html5boilerplate, т.н. «пуленепробиваемый»;

– http://css-tricks.ru;

– http://zotovstudio.com;

– http://conjugate.it

Думается таких не мало :) Можете также взглянуть на моем сайте – www.gtalk.kz/humans.txt. Также может вы видели иконку в самом низу блога.

Как добавить humans.txt ?

Для этого просто закачайте в корневую папку своего сайта и поставьте ссылку в head :

<link type="text/plain" rel="author" href="http://site.kz/humans.txt" />

Я вот решил, теперь на свои сайты добавлять такой файл. Почему для роботов есть, а для людей нету? :)

А вы добавляете humans.txt ? Если нет то почему? Предлагаю обсудить.

с/у УтБ

__

Вы красива и мечтаете стать моделью? Агентству требуются модели на выставку (презентацию). Не пропустите!

Интересно, когда я также хорошо освою фотошоп :)

WordPress – cms мечты: описание, знакомство и особенности

Приветствую всех на своем блоге.  Ну, вот и написал статью о wordpress, предназначенную для начинающих веб-мастеров, а также для систематизации знаний более менее опытных. Я расскажу о cms, особенностях, которые мне по душе и как произвести базовые настройки.

Начнем с оглавления в виде картинки. Будем идти по этому пути.

Оглавление.

Оглавление по знакомству с wordpress

взято с codex.wordpress.org

Что такое блог?

Блог (англ. blog, от web log — интернет-журнал событий, интернет-дневник, онлайн-дневник) — веб-сайт, основное содержимое которого — регулярно добавляемые записи (посты), содержащие текст, изображения или мультимедиа. Для блогов характерны недлинные записи временной значимости, отсортированные в обратном хронологическом порядке (последняя запись сверху). Отличия блога от традиционного дневника обусловливаются средой: блоги обычно публичны и предполагают сторонних читателей, которые могут вступить в публичную полемику с автором (в комментарии к блогозаписи или своих блогах).

Людей, ведущих блог, называют блогерами. Совокупность всех блогов Сети принято называть блогосферой.

Для блогов характерна возможность публикации отзывов (комментариев, «комментов») посетителями. Она делает блоги средой сетевого общения, имеющей ряд преимуществ перед электронной почтой, группами новостей, веб-форумами и чатами.

Под блогами также понимаются персональные сайты, которые состоят в основном из личных записей владельца блога и комментариев пользователей к этим записям.

Первым блогом считается страница Тима Бернерса-Ли, где он, начиная с 1992 г., публиковал новости. Более широкое рас­пространение блоги получили с 1996 г. В августе 1999 г. компью­терная компания Pyra Labs из Сан-Франциско открыла сайт Blogger.com, который стал первой бесплатной блоговой службой.

В настоящее время особенность блогов заключается не только в структуре записей, но и в простоте добавления новых записей. Пользователь просто обращается к веб-серверу, прохо­дит процесс идентификации пользователя, после чего он добавляет новую запись к своей коллекции. Сервер представляет инфор­мацию как последовательность сообщений, помещая в самом верху самые свежие сообщения. Структура коллекции напоми­нает привычную последовательную структуру дневника или журнала.

Не достаточно информации? Читатайте подробнее на Wikipedia [1]

Вам нравится блоггинг?

Нет
На нет и суда нет.

Да - читайте далее.

Что такое wordpress ?

 «КОД — ЭТО ПОЭЗИЯ»

Wordpress главная страница

[table "0" not found /]

Определение “WordPress”

Определение с Wikipedia
WordPress — система управления содержимым сайта (CMS) с открытым исходным кодом, распространяемая под GNU GPL. Написана на PHP, в качестве базы данных использует MySQL. Сфера применения — от блогов до достаточно сложных новостных ресурсов и даже интернет-магазинов. Встроенная система «тем» и «плагинов» вместе с удачной архитектурой позволяет конструировать практически любые проекты. WordPress выпущен под лицензией GPL версии 2. [3] 
Определение с Codex WordPress
WordPress - это мощная платформа для персонального блоггинга. Она содержит отличный набор возможностей для того, чтобы максимально упростить процесс создания онлайн-публикаций, сделать его приятным и удобным. Мы с гордостью представляем вам свободно распространяемую, соответствующую стандартам, быструю, легкую и бесплатную платформу для персонального блоггинга с практичными настройками и свойствами по умолчанию и с чрезвычайно гибким и настраиваемым ядром. [4] 

WordPress - это средство блоггинга в интернете, т.е. блог или сайт. [Мое]

WordPress выпущен под лицензией GPL.

Посредством данной платформы веб-мастерами создаются сайты/блоги, основное применение системы –  автономные блоги. Уровень сложности и внешний вид сайта на вордпресс зависит от прямоты рук разработчика  и полета мысли веб-дизайнера. :) О стандартном функционале пойдет речь далее. А посмотреть wordpress в действии можно, так как вы уже это сделали, ведь вы читаете данную статью на моем wordpress блоге. Вот еще примеры сайтов, сделанные на wordpress:

transmission

Сайт пример на wordpress

На сайт

2 Kulerbox.co.za – портфолио

пример сайтов на wordpress

На сайт

3 e-xtnd.it (интернет-магазин)

пример сайта на wordpress

На сайт

4 ifelse

пример сайтов на wordpress

На сайт

5 thepixel.com/blog

пример сайта на вордпресс

На сайт

Также вы можете прогуглить еще примеров по запросам: «лучшие сайты на wordpress», «сайты на вордпресс примеры» и т.д.

Особенности WordPress

В современном мире сложно удивить какими-то особенностями той или иной cms. Но всегда найдутся те, кому что-то не нравится и/или не устраивает.

Основные особенности читайте в статье из codex wordpress [5]

Я же расскажу, что лично меня радует в данной системы и являются тем «весом», который перевешивает при выборе.

1 Установка

Я уже писал про установку вордпресс, еще и в картинках [6]. Именно этот процесс мне нравится. Если вы устанавливали ее, то понимаете о чем речь. Весь процесс установки занимает пару минут.

2 Настройка WordPress

Одна из сильных сторон cms. Данные «движение» также должны уже быть отработаны и занимать несколько минут.

Давайте, я расскажу, как я провожу базовую настройку wordpress. Чтобы произвести настройки необходимо авторизоваться в админке –  site.kz/wp-admin.php 

Общие настройки (Настройки -> Общие)

Покажу визуально:

общие настройки wordpress

Заголовок сайта (1) – отображается в title, название вашего сайта;

Краткое описание (2) – описание сайта в description. Не используется, если вы установили seo плагин (например, All in Seo);

Адресс WordPress (url) и Адресс блога (url) - обычно одинаковые. Впишите url сайта, в зависимости от того какой вариант вы выбрали с www или без www. (по мне так www будет лучше)

Адрес email –  почтовый адрес администратора, с него же будут приходить уведомления пользователям;

Членствоставите галочку, если хотите разрешить всем регистрироваться;

Роль нового пользователя - группа зарегистрированных пользователей.

Подписчик (Subscriber) —может только читать, комментировать и получать уведомления от администрации.

Участник (Contributor) — может создавать новые статьи и редактировать их, но они не публикуются сразу, для этого необходим следующий уровень доступа.

Автор (Author) — может создавать новые записи и редактировать их, но только свои.

Редактор (Editor) — может редактировать всё содержание сайта и создавать новые записи.

Администратор (Administrator) — может всё. ;)

Настойки чтения (Настройки -> Чтение)

На главной странице отображать – обычно я тут ничего не меняю, вывод последних ваших записей (1), можно поэкспериментировать и сделать страницу приветствия (2) или нестандартный вывод.

настройки чтения wordpress

Установите лимит вывода последних записей (3), обычно 7-10, в зависимости от вида сайта.

В RSS-лентах отображать последние (4)  -сколько необходимо выводить записей в rss ленте, где я вывожу весь текст (5), можно также анонс (6). Об этом поподробнее я писал в статье «Как оформить rss ленту сайта».

Кодировка (7) страниц и rss-ленты обычно utf-8.

Настройка приватности (Настройка -> Приватность)

Обычно при установке данный параметр уже выбран. Но все же проверить стоит, что параметр выбран на « Разрешить поисковым машинам индексировать сайт». 

Настройки «постоянных ссылок» (Настройка -> Постоянные ссылки (ЧПУ))

Данная настройка ЧПУ (человекопонятные урл [7] )  у каждого настроена по своему, и каждый говорит о правильности свой точки зрения.

Советую выбрать, любую из приведенных, кроме:

http://www.gtalk.kz/?p=123

http://www.gtalk.kz/archives/123

Так как в них никакой смысловой нагрузки + для поисковиков красивые чпу приятнее.

Произвольная структура -позволяет выбрать свой вариант. У меня выбран вариант:

/%category%/%postname%.html

Где %category% – название категории;

%postname% – вывод названия статьи. А html просто для красоты. Можно и вывести просто:

/%category%/%postname%

Вывод категории и название статьи не только красивый url, но и навигация для сайта. С ссылками типа ?р=123 не понятно и не удобно.

Внимание: плагины кэширования, такие как «wp-supercache», нормально работают только при включенных «красивых чпу», т. е. если вы оставили шаблон ссылок «по умолчанию», то кэширование будет работать некорректно.

После основных настроек самой cms, переходим к другим настройкам.

Плагины Вордпресс

Подробно описывать все плагины не реально, но ранее в записи «Самые необходимые плагины WordPress» я перечислил плагины, которые я использую.

Хочу только добавить, что некоторые из указанных я удалил, и добавил еще парочку [8]:

Breadcrumb NavXT – вывод хлебных крошек – навигационная цепочка:

Для вывода плагина в файле  single.php  вашей темы добавьте:

<div class=”class”><?php if(function_exists('bcn_display')) { bcn_display(); } ?></div>

А также плагины Список страниц [9] , Шорткоды и  WP Super Cache.

Robots.txt

Переходим к настройкам robots.txt, как создать данный файл и нужно ли закрывать теги от индексирования, я писал.

Для просмотра моего рабочего файла:

http://gtalk.kz/robots.txt

Если вам необходим другой тип robots, просто найдите хороший аналог своего сайта на вордпресс и к названию сайта добавьте  /robots.txt  и изучайте.

Файл htaccess

Настройка файла .htaccess (обязательно с точкой впереди) достаточно сложна, поэтому экспериментировать не следует с ним, так как сайт может быть недоступен из-за неправильных настроек.  Для настроек у меня есть специальная Шпаргалка, так как все запомнить не реально. :)

Минимальные добавления в файл .htaccess, которые я делаю – это 301 редирект с www домена на без www (либо наоборот). Вот примеры:

1 Редирект со страниц сайта без WWW на страницы с WWW:

 RewriteEngine On
 RewriteCond %{HTTP_HOST} ^site\.ru$ [NC]
 RewriteCond %{REQUEST_URI} !^/robots.*
 RewriteRule ^(.*)$ http://www.site.kz/$1 [R=301,L] 

2 Редирект со страниц сайта с WWW на страницы без WWW

 RewriteEngine On
 RewriteCond %{HTTP_HOST} ^www\.site\.ru$ [NC]
 RewriteCond %{REQUEST_URI} !^/robots.*
 RewriteRule ^(.*)$ http://site.kz/$1 [R=301,L] 

Подробнее о работающих вариантах 301 редиректа [10]

Теперь можно перейти и к склейки доменов.

Склейка доменов

Обычно я делаю это сразу, так как для этого поисковикам требуется определенное время, а для яндекса порой и месяцы.

О том как склеить домены с помощью Яндекс.Вебмастре, Google Webmaster и robots.txt.

Вот в принципе, все мои базовые настройки. :)

3 Seo оптимизация .

Обычно многие cms не приспособлены к поисковикам (хотя таких все меньше) и для них пишут отдельные дополнения. WordPress наоборот же имеет достаточный функционал (при чем легкий в настройках) для seo настройки (чпу и т.д.). Поэтому, наверное, блоги сеошников на вордпресс, или случайность?))

4 Поддержка и сообщество

футболки wordpressтолстовка wordpress

Не маловажный фактор. У WordPress очень сильная поддержка на русском. Если у вас какие-то проблемы, то вы всегда можете обратиться на форумы поддержки пользователей:

Официальный форум поддержки [11]

WordPress – форум поддержки пользователей | русский ВордПресс [12]

Форум по WordPress – Maxsite [13]

Учитывая, большую популярность у вас не будет труда заказть сайт  или помочь с настройками, просто обратитесь к фрилансерам.

5 Шаблоны WordPress

Действительно шаблоны достойно быть сильной стороной cms. Тысячи бесплатных шаблонов на русском и английском языках. При чем, локализация не занимает особых усилий.

Русские шаблоны WordPress. [14]

Русские темы Вордпресс [15]

Еще бесплатные шаблоны [16]

Более того создание собственного шаблона не составить особых усилий, при должно уровне html и css.

6 Бесплатность – Open Source

Последний мой фактор, выбора водпресса. Конечно, кто же не любит халяву?

wordpress - my dream

Совершенно бесплатно вы можете скачать cms и использовать в своих коварных целях. :)

Скачать WordPress 3.4.2

Актуальная версия на WordPress Россия. [17]

Перед установкой

Конечно, чтобы установить и радоваться своему сайту, необходимо выбрать хостинг, на котором ваш wordpress запуститься (обычно почти на всех). Вот необходимые параметры:

  • PHP version 5.2.4 или выше
  • MySQL version 5.0 или выше
  • (Необязательно (требуется для режима Multisite)) Модуль Apache mod_rewrite (для красивых адресов, называемых постоянными ссылками)

Вот и все. Надеюсь вам понравилась моя статья на конкурс от TM, специализирующаяся на шаблонах WordPress и webmasters, форум о том, как создать сайт.

Не забудьте меня поддержать в конкурсе через социальные кнопки. ;)

с/у УтБ

Нужно ли закрывать теги от индексирования?

Часто в просторах интернета встречаю такой вопрос: стоит ли закрывать теги/метки от индексации поисковиками? Одни говорят, конечно, стоит, так как идет дубликат контента, искусственное увеличение страниц, из-за чего можно получить бан (чаще от Яндекса); другая же часть народа в интернете говорит, что нет, мол повтора фактически нет, т. к. по тегам выводятся разные посты и только анонс и т.д. и т.п.

Многие советуют, не опираясь на факты, или на опыт. Вот отсюда и появляется все больше и больше вопросов.

А давайте теперь подумаем трезвой головой. :)

быть или не быть: индексировать метки поисковиками или нет

  1. Если у Вас 1000 меток, то ждите «подарочек» от поисковиков, :) если честно это не то, что поисковикам плохо станет, но и пользователь вряд ли обрадуется.
  2. Взгляните на топовых блогеров. Видите сколько у них меток)) А проверить закрыты ли теги от индексации самым простым способом можно: к домену добавьте /robots.txt и почитайте, что там есть. А как читать robots.txt  я писал ранее в статье Внутренняя оптимизация создание robots.txt. Предварительно посмотрите url меток: tags/metki; Читаем файл robots.txt: Disallow: /tags – закрыты теги и т. д.
  3. Используйте теги с умом: не пишите одноразовые теги, не задумываясь для чего они. По тегам пользователь ищет похожие записи: какого буде удивление, при клике на любой тег, будет 1 запись.
  4. Добавляйте теги по необходимости, не стоит сразу добавить 100 меток, а потом сидеть и выбирать из существующих, пусть рост будет естественным.
  5. Подумайте, возможно Вы сможете обойтись вообще без меток.
  6. Если у Вас отличный контент (да, да опять про уникальность контента) Вы можете спать спокойно, главное, ничего не испортить ;)

По сути, ставить индексацию, либо убирать ее дело каждого, но подытоживая можно с уверенностью сказать, что на личном (standalone) блоге, метки не стоит закрывать от индексации. У меня, например, тег Вконтакте, очень неплохие позиции набирает ;)

Ну, чтоб мне окончательно поверили, приведу примеры: Старик Глобатор http://shakin.ru/robots.txt – метки индексируют поисковики (меток 75);  Блог Димок http://blog.diimok.ru/robots.txt .- индексация разноцветным тегам открыта (не смог посчитать, но тоже много)

Думаю, прочитанная информация была Вам полезна. Не забудьте поделиться с друзьями ;)

с/у УтБ

На десерт сегодня развлечение детей сварщика :)

Склейка доменов на Яндекс.Вебмастер и на Google webmaster + robots.txt

Склейка доменов. Вы, наверное, тоже часто слышали это словосочетание?! В этой статье давайте разберем что такое склейка домена, как можно склеить домены, и что нам предлагают сервис вебмастер от яндекса и google. У Яндекса раньше не было данной настройки, но российская компания не стоит на месте ;) .

Скорее всего Вы замечали, что у сайтов существует не один домен, а например 2,3: site1.kz, site2.kz, и т. д. По сути доменов много, но сайт то один, но как то об этом надо сообщить поисковикам! Для поисковиков домены gtalk.kz и www.gtalk.kz также различны. Теперь думаю понимаете, что склейка необходима. Склеив домены, учет статистик, пузомерок и т. д. будет вестись как для единого сайта, что конечно же нам и требуется.

Лучше же при запуске своего сайта, сделать склейку доменов, чтоб поисковики сразу определили, что да как. Кстати, данная операция и занимает n-ное количество времени.

Сегодня мы научимся определять главное зеркало/основной домен в настройках поисковиков Яндекс и гугл, и с помощью файла robots.txt . Подробнее об основном домене можно почитать справке google , а также в центре помощи Яндекса.

Давайте уже приступим к настройкам. Кстати, Вы должны предварительно быть зарегистрированы в Яндекс и google, что надеюсь Вы уже давно сделали ;)

Настройка основного домена в google webmasters

Перейдите в google.com/webmasters/и войдите в свой сайт. Конечно, сайт предварительно должен быть добавлен!

Выберите (как показано на рисунке) Конфигурация сайта >Настройки.настройка склейки доменов google

И выбираем предпочтительный домен, т. е. основной. Нажимаем сохранить и все :) можете радоваться.

Настройка главного зеркала в Яндекс вебмастере

Как я упоминал выше, ранее у Яндекса не было такой настройки в вебмастере. Но она появилась, поэтому про следующий метод можно забыть, что не может не радовать ;).настройка склейки доменов яндекс

Пройдите по ссылке в вебмастер, выберите сайт. Далее переходим (см. рисунок) Настройки индексации >Гавное зеркало. Аналогично гуглу выбираем необходимый нам домен и жмем сохранить/ изменить.

Кстати, если вам необходимо сделать перевод с английского на русский или другой язык, то онлайн переводчик Яндекса -поможет вам с переводом.

Настройка директории host в robots.txt под yandex

Данный метод по сути устарел, т. к. был предназначен для склейки доменов под поисковик яндекса. Теперь мы можем настроить все через Вебмастер легко и просто. Но все же стоит упомянуть как это делается.

Находим/создаем файл robots.txt. Вписываем в него Host: gtalk.kz либо Host: www.gtalk.kz в зависимости от выбора основного зеркала. Добавить его можно после всех правил разрешений и запретов. Подробнее о том, как составить файл robots.txt я уже писал, а также приводил примеры реальных robots.txt.

Все вопросы как всегда Вы можете задать в комментариях, либо написать мне.

с/у УтБ

на десерт сегодня КВН, все они оттуда ;)

Совет№3 Внутренняя оптимизация: создание robots.txt

Этой статьей я хочу обратить Ваше внимание на внутреннюю оптимизацию сайта. Да, да. В погоне за PR и ТиЦ многие разработчики забывает об этом важном пункте в продвижении своего сайта. Плюсом внутренней оптимизации является ее «одноразовость» некоторых пунктов. Настроив, вначале своего пути по просторам интернета, можно будет о них забыть ;) И так, начнем с казалось бы не заметного txt файла в основной директории wordpress’a – robots.txt (да, да обязательно с маленькой буквы!)
После написания где-то половины текста по каналу Вести 24 передали сообщение, о том, что в Яндаксе в открытом доступе можно узнать конфиденциальную информацию о пользователях ряда интернет-магазинов. Пользователи могли, например, узнать адрес проживания пользователя. В Яндекс ответили, что мол случился сбой, а сайтам рекомендуется пересмотреть свой robots.txt файл, т.к. при правильной настройки подобного случая не произошло бы :)

Наверное, я не открою Америку сказав, что для индексации Вашего сайта очень важен файл robots.txt В двух словах для чего этот файл: управление индексацией Вашего сайта. Так теперь языком эльфов)) Файл robots.txt специально создан для поисковых ботов, которые индексируют сайты. В файл записаны правила сканирования Вашего блога/сайта, т.е. robots.txt  «говорит» ботам, где можно индексировать сайт. Например, зачем googlebot’у знать информацию административного отдела? Или формы входа? В первую очередь бот ищет данный txt файл, и прочитав его действует в рамках Ваших условий, а точнее запретов.

Для запрета индексации в Яндексе и Гугле одной единственной страницы, удобно использовать мета-тег Robots. Файл robots.txt предназначен для настройки глобальной индексации.

В общем, хватит ходить около темы, приступим к составлению и обзору robots.txt

Внимание! Администрация предупреждает, не бывает идеальных robots.txt файлов! Для каждого проекта необходим индивидуальный подход!

Совет: если Ваш сайт на WordPress или другой CMS, то в принципе сильных различий в robots.txt у сайтов нет. Вы можете оценить файлы своих конкурентов и релевантных по теме Вашему сайту/блогу, добавив к домену /robots.txt Например, мой robots файл можно посмотреть по ссылке – gtalk.kz/robots.txt Но будьте придельно внимательны!

Правила составления robots.txt

Если Вы когда-нибудь открывали файл, то наверное догадываетесь как его составить.

Общая схема следующая:

Кому адресовано правило
Хотя бы одно правило
Пустая строка

Или

<поле>:<пробел><значение><пробел>
<поле>:<пробел><значение><пробел>

Или

User-agent: *
Disallow: /

Теперь подробнее. В первую очередь необходимо выбрать, кому предназначено правило. Выполнение данной функции осуществляется директивой User-agent. После данного поля идет название бота, либо «*» – следующие правила для всех ботов. Неполный список поисковиков и названия их ботов:

Google       http://www.google.com     Googlebot

Yahoo!       http://www.yahoo.com     Slurp или Yahoo! Slurp

AOL             http://www.aol.com           Slurp

MSN            http://www.msn.com         MSNBot

Live            http://www.live.com           MSNBot

Ask              http://www.ask.com           Teoma

Яндекс      http://www.ya.ru                 Yandex

Рамблер   http://www.rambler.ru     StackRambler

Мэйл.ру    http://mail.ru                       Mail.Ru

Aport           http://www.aport.ru         Aport

 

Disallow – запрет индексирования файла, директории и т.д. Противоположной инструкцией disallow является allow (понимают не все боты!) – googlebot понимает, Yandex – нет.

Думаю, по примеру все встанет на свои места:

  • Запретить  всем ботам индексировать сайт. Полное закрытие сайта от поисковиков.
      • User-agent: *
        Disallow: /
  • Индексировать весь сайт. Противоположность пункту 1
      • User-agent: *
        Disallow:
  • Индексировать сайт может только googlebot, запрещаем Яндексу
      • User-agent: googlebot
        Disallow:User-agent: Yandex
        Disallow: /

Между правилами для разных ботов оставляйте пустую строку!

  • Закрыть директории от всех ботов: wp-includes, wp-admin и файл wp-login.php в основной директории сайта.
      • User-agent: *
        Disallow: /wp-includes/
        Disallow: /wp-admin/
        Disallow: / wp-login.php
  • Запрет индексации директории «trackback», а так же все файлы и директории, начинающиеся с символами «trackback»
      • User-agent: *
        Disallow: /trackback
  • Запрет индексации файлов начинающихся с символов feed и имеют разный путь к файлу и/или директории:
      • User-agent: *
        Disallow: */ feed

Символ «*» означает любую (в том числе пустую) последовательность символов.

Директива Host поддерживается только Яндексом и сообщает роботу о том, какое из двух зеркал сайта главное – с www или без. Используется для склеивания доменов. Формат записи:

Обычно пишут, что Так неправильно:

User-agent: *
Disallow: /css/
Host: www.example.com

А вот так – правильно: (добавлять в правилах для Яндекса)

User-agent: *
Disallow: /css/

User-agent: Yandex
Disallow: /css/
Host: www.example.com

Я бы так не сказал, yandex все же находит параметр Host. Но лучше не экспериментировать на работающем сайте))

Адрес сайта для директивы Host указывается БЕЗ http://.

И на последок, изучения инструкций. Обязательно добавьте Sitemap. Оформление происходит следующим образом:

User-agent: *
Disallow:

User-agent: Yandex
Disallow: /

Sitemap: http://gtalk.kz/sitemap.xml

Также советую:

    1. Не писать комментарии в файле robots.txt:
      1. Disallow: /wp-content/ #а здесь комментарий, к чему?
    2. Соблюдайте стиль! Не пишите лишнего! Используйте вместо USER-AGENT: GOOGLEBOT такой вариант: User-agent: googlebot
    3. По стандарту инструкция Disallow является обязательной.
    4. Не добавляйте правило, если не уверены в нем!
    5. Форму записи Disallow: gtalk  – Yandex не понимает.
    6. Следите за символами!
      1. Удаление из индекса файл с именем gtalk и соответствующей директории
        User-agent: *
        Disallow:  /gtalk
      1. Удаление из индекса директории gtalk
        User-agent: *
        Disallow:  /gtalk/

Ну и теперь Вам не составит труда разобраться в приведенных примерах ниже.

Теперь рассмотрим несколько реальных robots.txt

Обзор моего robots.txt файла.

Думаю понятно, что необходимо закрыть индексацию от мусора, поисковикам это не к чему. Например, админка, динамические страницы(/*?*), трекбеки и т.д. Естественно, добавил Host после правил для Яндекс бота, это необязательно, но я за красоту и чистоту кода:) и ссылка Sitemap для лучшей индексации сайта ;) Также я добавил Allow для моих картинок. Думаю индексировать картинки все же стоит.

User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: /*?*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Allow: /wp-content/uploads/

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: /*?*
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Allow: /wp-content/uploads/
Host: gtalk.kz

Sitemap: http://gtalk.kz/sitemap.xml

Файл robots.txt для joomla

Думаю, прочитав все вышеописанное, Вы сможете разобраться здесь, считайте это домашним заданием;)

Стандартный файл joomla

В принципе очень неплохо продумали разработчики, учитывая, что в WordPresse robots.txt вообще отсутствует))

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

Но все же я не удержался и внес изменения.

Мой вариант для joomla:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: gtalk.kz

Sitemap: http://gtalk.kz/тут_зависит_от_компонента.xml

По возможности добавьте еще один sitemap. Советую использовать компонет Xmap – наверное, одно из самых популярных.

 Обратите свое внимание!

Полезная информация: http://robotstxt.org.ru/

http://robotstxt.org.ru/robotstxterrors – часто встречающиеся ошибки!

Обзор robot.txt файлов блоггеров.

Теперь небольшой поучительный обзор. Бытует такое мнение, что robots.txt похоже у многих, поэтому достаточно скопировать и все. Давайте посмотрим ;) Все блоги/сайты на платформе WordPress.

Блог Вайлдомэна – wildo.ru
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Allow: /wp-content/uploads/

Не мне ему советовать, но я бы пересмотрел политику файла robots.txt, или это сделано специально))
Чувак просто забил на Яшу, либо сделал это по другому, кто знает. Один из не многих, кто пользуется Allow, и открыл доступ к картинкам своего блога.

Следующий файл меня особо порабовал:

Блог Терехова.

User-agent: * Disallow: Sitemap: http://www.terehoff.com/sitemap.xml.gz

Да, да, друзья, в одну строку. В принципе, ставить весь сайт на индексацию вряд ли разумно, не советую делать Вам так, и согласитесь так выглядит куда приятней:

User-agent: *
Disallow:

Sitemap: http://www.terehoff.com/sitemap.xml.gz
Sitemap: http://www.terehoff.com/sitemap.xml

Следующий пример блога Димокса – dimox.name
Что отсюда нужно вынести для себя? Например, строчка 7: Disallow: /download-manager.php – запрет на сканирования файла download-manager.php, отвечает этот файл за скачивания с блога Димокса. Что значит Disallow: /jexr/ честно не в курсе. Но похоже там какие-то важные, либо личные файлы:)

User-agent: *
Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /download-manager.php
Disallow: /*comment-page-*
Disallow: /*&cp=*
Disallow: /jexr/

User-Agent: Yandex
Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /download-manager.php
Disallow: /*comment-page-*
Disallow: /*&cp=*
Disallow: /jexr/
Host: dimox.name

Sitemap: http://dimox.name/sitemap.xml

Ну и в конце для закрепления, что такое хорошо и что такое плохо в примерах :)

Неправильно Правильно 
ROBOTS.TXTRobots.txtrobot.txt robots.txt
http://gtalk.kz/wp-include/robots.txt

http://ftp.gtalk.kz/robots.txt

http://gtalk.kz/Robots.txt

http://gtalk.kz/robots.txt

http://www.gtalk.kz/robots.txt

http://gtalk.kz:80/robots.txt

User-agent: /
Disallow: Yandex
User-agent: Yandex
Disallow: /
User-agent: /
Disallow: Yandex, *
User-agent: *
Disallow: /User-agent: Yandex
Disallow: /
Disallow: /js/ /css/ /images/ Disallow: /js/
Disallow: /css/
Disallow: /images/
Host: http://www.gtalk.kz/ Host: www.gtalk.kz
(только для Yandex’a)