В этом разделе описаны директивы, относящиеся к процессу индексирования через стандартный источник webds. Если какая-либо директива отсутствует в конфигурационном файле, для соответствующих параметров будут использованы указанные значения по умолчанию.
Механизм индексирования с получением новых ссылок из ранее проиндексированных документов ("сетевой паук") работает, только если определены атрибуты link, и в качестве ссылок используются значения этих атрибутов.
Конфигурационный файл индексатора
Пример
a)
b)
c)
d)
<DataSrc id="webds">
Name : myname
<Webds>
...
</Webds>
</DataSrc>
Конфигурационный файл источника webds
Директивы, определяющие области индексирования
Индексатор начинает свою работу с получения начального списка URL документов, подлежащих индексированию, поэтому необходимо, чтобы список начальных URL был явно задан в ключе StartUrls или чтобы присутствовала хотя бы одна из секций IndexedArea.
| Директива |
Описание |
Значение |
|
StartUrls
|
Задает один или несколько URL документов, с которых индексатор начинает индексирование (указывать начальный префикс “http://” необязательно).
Если в секциях IndexedArea и директиве DefaultAreaOptions не указано по-другому, будет реализовано следующее поведение по умолчанию. URL других документов, кроме указанных, будут получены в результате распознавания гипертекстовых ссылок в тексте уже проиндексированных документов. Будут проиндексированы только документы из тех же веб-страниц, в которых лежат указанные начальные URL, и документы из подчиненных страниц. Содержимое документов будет получено по протоколу HTTP, кодировка документов будет распознана автоматически. При переиндексировании будут повторно индексироваться только новые и изменившиеся документы, а недоступные (удаленные) документы будут удалены из индекса.
|
Значение по умолчанию: не задан. |
|
Пример 1:
StartUrls : www.host.name/
Будут проиндексированы все документы сайта http://www.host.name, на которые можно перейти с главной страницы по гипертекстовым ссылкам за один или несколько "кликов". Данная конфигурация полностью эквивалентна следующей (см. IndexedArea):
<IndexedArea>
HttpPrefix : www.host.name/
</IndexedArea>
Пример 2:
StartUrls : www.host.name/docs/doc.html
Будут проиндексированы все документы в каталоге http://www.host.name/docs/, на которые можно перейти с документа http://www.host.name/docs/doc.html. Документы, URL-ы которых начинаются не с http://www.host.name/docs/, проиндексированы не будут.
Пример 3:
StartUrls : http://www.host.name/news/, www.host.name/conference/conf.html
Будут проиндексированы документы, URL-ы которых начинаются с http://www.host.name/news/ или с http://www.host.name/conference/, и на которые можно перейти за один или несколько "кликов" хотя бы с одной из страниц http://www.host.name/news/ или http://www.host.name/conference/conf.html.
|
|
IgnoreCGIParameters
|
Определяет один или несколько CGI параметров, которые будут игнорироваться индексатором при обходе.
Директива позволяет игнорировать часто меняющиеся параметры в URL, не влияющие на контент страницы. Обычно это сессионные параметры.
|
Значение по умолчанию: не заданы. |
|
Пример:
IgnoreCGIParameters : id sid
При индексировании документов из всех полученных URL будут предварительно удаляться параметры id и sid.
http://somehost/somepath/somescript?id=someid¶m1=value1&sid=12343454567
Для такого URL будут удалены параметры id и sid, в результате чего индексатор получит URL:
http://somehost/somepath/somescript?param1=value1
|
|
DisallowFollow
|
Запрещает индексатору обходить страницы сайта, URL которых содержит подстроку, удовлетворяющие заданному регулярному выражению. |
Значение по умолчанию: не задан. |
|
Примеры:
! Исключать из обхода индексатором файлы _index.html,
! _index.htm, default.html и default.htm
DisallowFollow : /(_index|default)[.]htm[l]?
! Исключать из обхода индексатором скрипт /lists/showfolder.asp, если
! первым в списке cgi-параметров идет параметр с именем fid
DisallowFollow : /lists/showfolder.asp[?]fid=.*
|
|
AllowFollow
|
Определяет индексатору правила обхода сайта через регулярное выражение. Обходиться будут только те документы, URL которых содержит подстроку, удовлетворяющую этому регулярному выражению. |
Значение по умолчанию: не задан. |
|
Примеры:
! обходить индексатором файлы только из архивов за 1990-1999 годы и
! из каталога archives
AllowFollow : /(199[0-9]|archive)/
! обходить индексатором файлы только из тех каталогов, имя
! которых состоит из 4-х цифр
AllowFollow : /([0-9]{4})/
|
|
DisallowIndex
|
Запрещает индексировать страницы сайта, URL которых содержит подстроку, удовлетворяющую заданному регулярному выражению. Такие URL будут обходиться индексатором с целью получения новых URL для дальнейшего обхода, но не будут индексироваться. |
Значение по умолчанию: не задан. |
|
Примеры:
! Исключать из индексирования файлы _index.html,
! _index.htm, default.html и default.htm
DisallowIndex : /(_index|default)[.]htm[l]?
! Исключать из индексирования скрипт /lists/showfolder.asp, если
! первым в списке cgi-параметров идет параметр с именем fid
DisallowIndex : /lists/showfolder.asp[?]fid=.*
|
|
AllowIndex
|
Определяет правила индексирования сайта через регулярное выражение. Проиндексированы будут только те документы, URL которых содержит подстроку, удовлетворяющую этому регулярному выражению. |
Значение по умолчанию: не задан. |
|
Примеры:
! проиндексировать файлы только из архивов за 1990-1999 годы и
! из каталога archives
AllowIndex : /(199[0-9]|archive)/
! проиндексировать файлы только из тех каталогов, имя
! которых состоит из 4-х цифр
AllowIndex : /([0-9]{4})/
|
|
DefaultHttpPrefix
|
Задает префикс URL по умолчанию, относительно которого может быть задан аргумент директивы HttpPrefix в секциях IndexedArea. Дает возможность задавать относительные URL в секциях IndexedArea. |
Значение по умолчанию: http://127.0.0.1/. |
|
Пример:
DefaultHttpPrefix : myhost.ru
|
|
DefaultAreaOptions
|
Задает значение по умолчанию, которое будет использоваться в директиве Options в секции IndexedArea. Это же значение задает способ индексирования при использовании директивы StartUrls, если определяемые ею веб-страницы не входят в дерево, определенное в секциях IndexedArea.
Аргументы этой директивы описаны в разделе Options.
|
Значение по умолчанию: use_content_type update. |
|
Пример:
DefaultAreaOptions : windows-1251
|
|
IpMask
|
Определяет индексатору диапазон IP-адресов, разрешенных для обхода.
Позволяет решить задачу индексации всех сайтов в пределах заданного диапазона IP-адресов, если на эти сайты индексатору удалось найти ссылки. Отменяет ограничения, определенные директивой HttpPrefix (если определена в секции IndexedArea).
|
|
|
Пример:
IpMask : 192.168.[1-10].* 10.*.*.* 192.*.*.1
В примере показано, как задать индексатору обход IP-адресов, начинающихся на 192.168 с третьим числом от 1 до 10 включительно и произвольным четвертым числом, начинающихся на 10 и начинающихся на 192 и заканчивающихся числом 1.
|
Конфигурация области индексирования (Секция <IndexedArea>)
Секция IndexedArea задает область индексирования. В секции Webds может быть указано несколько секций IndexedArea.
Секция IndexedArea может иметь атрибут inherited. Значение атрибута, равное "no", отменяет наследование значений директив и поисковых атрибутов.
Пример:
В приведенной конфигурации вторая секция наследует значение "theme1" поискового атрибута group от предыдущей области индексирования.
Чтобы этого не происходило, используйте:
| Директива |
Описание |
Значение |
|
HttpPrefix
|
Префикс URL документов, абсолютный или относительно пути, заданного в DefaultHttpPrefix. Все документы, имеющие данный префикс, индексируются по правилам, указанным в Options. Если указан относительный путь, изменение директивы DefaultHttpPrefix при переиндексировании не вызывает переиндексирования данной области индексирования. |
|
|
Пример:
<IndexedArea>
HttpPrefix : /
</IndexedArea>
|
|
FilePrefix
|
Локальный путь, соответствующий значению HttpPrefix. Дает возможность получать содержимое документов с помощью чтения файлов. Должен быть указан абсолютный путь или путь относительно рабочего каталога индексатора. Обязательно наличие директивы HttpPrefix либо DefaultHttpPrefix. |
Значение по умолчанию: не задан. |
|
Пример:
<IndexedArea>
HttpPrefix : www.myhost.ru/
FilePrefix : C:\Inetpub\wwwroot
</IndexedArea>
|
|
Options
|
Параметры индексирования документов в данной области индексирования.
Параметры индексирования сначала наследуются от области индексирования верхнего уровня, если такая есть, или от значения директивы DefaultAreaOptions, или от значения по умолчанию, а затем дополняются параметрами, указанными в данной директиве.
Аргументы этой директивы описаны в разделе Директива Options.
|
Значение по умолчанию: не задан. |
|
Пример:
<IndexedArea>
HttpPrefix : /
FilePrefix : C:\Inetpub\wwwroot
Options : windows-1251
</IndexedArea>
|
|
AllowFollow
|
Директивы имеют ту же семантику, что и для секции webds. |
|
AllowIndex
|
|
DisallowFollow
|
|
DisallowIndex
|
|
IpMask
|
Директива Options
В этом разделе описаны аргументы директивы Options, которая может встречаться в секции IndexedArea, а также директивы DefaultAreaOptions из главной секции конфигурационного файла источника. С помощью аргументов директивы Options можно задать следующие параметры областей индексирования.
| Аргумент |
Описание |
|
Режим индексирования поддоменов
|
|
IndexSubdomains
|
Сообщает индексатору о необходимости индексировать поддомены стартового домена. Эта опция отменяет ограничение, накладываемое параметром StartUrls или HttpPrefix. В результате будут проиндексированы все документы домена и всех поддоменов, доступные из стартового URL.
|
|
Режим получения URL документа
|
|
NoUrlCaseFold
|
Считать URL документов регистрозависимыми, в соответствии со стандартом. |
|
UrlCaseFold
|
Получать URL документов регистро-независимыми, например, при индексировании документов с веб-серверов под Windows. |
|
IndexFollow
|
Индексировать документы и распознавать гипертекстовые ссылки для получения URL-ов новых документов. |
|
IndexNofollow
|
Индексировать документы, но не распознавать гипертекстовые ссылки для получения URL-ов новых документов. |
|
NoindexFollow
|
Не индексировать документы, но просматривать их и распознавать находящиеся в них гипертекстовые ссылки для получения URL-ов новых документов. |
|
UseDirectUrls
|
Сообщает индексатору о необходимости сохранять в индекс прямую ссылку на документ. По умолчанию в индекс сохраняется ссылка на сохраненную копию документа. Этот параметр нужно использовать, если предполагается переход пользователя на сайт со страницы с результатами поиска. По умолчанию параметр отключен. |
|
Режим использования мета-тега robots
|
|
AllowMetaRobots
|
Учитывать при индексировании содержимое мета-тега robots. Подробнее об этом написано в разделе Мета-тег robots. Используется по умолчанию. |
|
IgnoreMetaRobots
|
Игнорировать мета-тег robots. |
|
Режим получения содержимого документа
|
|
GetHttp:configid
|
Получать содержимое документов с помощью HTTP-протокола, посылая заголовки, сконфигурированные в секции HttpOptions, имеющей идентификатор configid. Данный идентификатор определяет значение атрибута name секции HttpOptions в текущем конфигурационном файле. Этот аргумент используется только в секции IndexedArea. |
|
Режим обновления индекса
|
|
При первом индексировании все документы считаются новыми. Рассмотрим повторное индексирование с использованием существующего индекса. Имеющиеся в нем документы будут называться старыми, остальные индексируемые документы - новыми. Старые документы можно разделить на три группы - изменившиеся, неизменившиеся и недоступные. Изменившимся считается документ, текущее время модификации которого больше, чем время модификации во время предыдущего индексирования. Недоступными считаются документы, если попытка получить их содержимое по URL, известному от предыдущего индексирования, заканчивается неудачей. Остальные документы считаются неизменившимися. Старые документы можно удалять из индекса, переиндексировать или оставлять в индексе без переиндексирования.
|
| <режим обновления> |
Использовать один из указанных ниже в таблице режимов обновления. |
| Для удобства наиболее часто встречающиеся режимы обновления индекса можно задать с помощью аргументов: |
|
Update
|
Убирать из индекса данные о недоступных документах и индексировать заново новые и изменившиеся документы, не индексировать неизменившиеся документы. Эквивалентен заданию indnew, indmod, skipold, remmiss.
Используется по умолчанию.
|
|
Reindex
|
Убирать из индекса недоступные документы и индексировать заново все существующие, независимо от того, изменились ли они со времени предыдущего индексирования.
Эквивалентен заданию indnew, indmod, indold, remmiss.
|
|
Noremove
|
Индексировать документы в данной области индексирования, но не убирать из индекса недоступные документы. Этот флаг полезен при индексировании временно недоступных документов.
Эквивалентен заданию indnew, indmod, skipold, skipmiss.
|
|
Addonly
|
Убирать из индекса удаленные документы и индексировать заново только новые документы, проиндексированные ранее документы не переиндексировать, даже если время их изменения увеличилось.
Эквивалентен заданию indnew, skipmod, skipold, remmiss.
|
|
Noindex
|
Не индексировать документы из данной области индексирования, убирать из индекса все ранее проиндексированные документы из этой области.
Эквивалентен заданию skipnew, remmod, remold, remmiss.
|
|
Skip
|
Не индексировать документы из данной области индексирования, но сохранить в индексе ранее проиндексированные документы из этой области.
Эквивалентен заданию skipnew, skipmod, skipold, skipmiss.
|
| При получении содержимого документов через HTTP-соединение можно использовать следующие аргументы: |
|
SkipDisconnected
|
Не удалять из индекса документы, принадлежащие веб-серверу, с которым не удалось установить HTTP-соединение. Это более слабый вариант Noremove, действующий только для недоступных веб-серверов. |
|
RemoveDisconnected
|
Удалять из индекса документы, принадлежащие веб-серверу, с которым не удалось установить HTTP-соединение. |
|
Reconnect
|
В случае обрыва HTTP-соединения с веб-сервером пытаться установить его для каждого последующего документа. |
|
Кодировка символов, используемая в документах
|
|
recognize
|
Всегда распознавать кодировку символов автоматически.
Используется по умолчанию.
|
|
use_content_type
|
В случае документов, получаемых по протоколу HTTP, считать кодировкой документа значение, указанное в заголовке Content-Type. Если заголовок отсутствует или в нем не указана кодировка, распознавать кодировку с помощью анализа текста документа. |
| <значение кодировки> |
Использовать одно из указанных ниже в таблице кодировок значений. |
|
Обнаружение границ предложений и абзацев на основе пунктуации
|
|
AllowPunctBreaks
|
Разрешить распознавание границ предложений и абзацев по знакам пунктуации - точкам, пробелам, переводам строк и т.п. Используется по умолчанию. |
|
IgnorePunctBreaks
|
Границами предложений и абзацев считать только теги, разбивающие абзац в языке разметки или заданные в конфигурации парсера. Никакие естественные границы (например, точка+пробел+Большая_буква или два перевода строки и абзацный отступ внутри тега <pre> в HTML) не разбивают предложений и абзацев. Однако следует учитывать, что максимальная длина предложения ограничена, поэтому слишком длинные предложения все равно будут разбиты на несколько частей. |
|
Набор атрибутов документа
|
| Set <имя>=<значение> |
Включить область индексирования в раздел. |
| Unset <имя>=<значение> |
Исключить область индексирования из раздела. |
|
Указанные аргументы позволяют задать поисковые документные атрибуты типа LITERAL, дополнительно к атрибутам, назначаемым парсером во время индексирования документа. Использование данных аргументов позволяет включить документы в определенные тематические разделы на основании структуры веб-страниц, в которых находятся документы. Альтернативно, во время индексирования документы могут получить поисковые документные атрибуты в соответствии с их содержанием. См. обсуждение в разделе Документы, зоны и атрибуты.
Строка имя=значение не должна включать пробелы. Чтобы удалить для данной области индексирования все унаследованные атрибуты, используйте атрибут inherited секции IndexedArea.
Пример:
<IndexedArea inherited="no">
|
Режимы обновления индекса
Следующая таблица представляет значения аргументов, задающие соответствующий режим обновления.
| Тип документа |
Индексировать |
Не индексировать, оставить |
Не индексировать, удалить |
| Новый |
indnew
|
skipnew
|
|
| Изменившийся |
indmod
|
skipmod
|
remmod
|
| Неизменившийся |
indold
|
skipold
|
remold
|
| Недоступный |
|
skipmiss
|
remmiss
|
Кодировка символов, используемая в документах
В таблице приведены обозначения, используемые при принудительном задании кодировки.
| Кодировка |
Обозначение |
| WinCyrillic |
windows-1251, cp1251 |
| MacCyrillic |
MacCyrillic, MacRussian |
| DOSCyrillic |
IBM855 или cp855 |
| DOSCyrillicRussian |
IBM866, cp866 |
| ISOLatinCyrillic |
ISO-8859-5, iso-ir-144 |
| WinLatin1 |
windows-1252, cp1252 |
| WinLatin2 |
windows-1250, cp1250 |
| KOI8R |
KOI8-R, csKOI8R |
| ISO8859_2 |
iso-2, iso_8859-2 |
| UTF8 |
utf8, utf-8 |
Конфигурация HTTP-запросов (Секция <HttpOptions>)
При обращении к веб-серверу индексатор передает ему HTTP-запрос, который по умолчанию выглядит следующим образом:
GET _относительный_урл_документа_ HTTP/1.1
Host: _имя_хоста_с_которого_запрашивается_документ_
Connection: Keep-Alive
From: N/A
User-Agent: Yandex.Server/_номер_версии_Yandex.Server_
Accept: text/html _или_ text/plain
Accept-Language: ru; q=1.0, *; q=0.01
If-Modified-Since: _дата_модификации_при_последнем_индексировании_
Последний заголовок посылается при повторном индексировании, если документ уже был проиндексирован ранее, а в опциях настройки источника указано "переиндексировать, только если документ изменился".
Иногда требуется модифицировать посылаемые по умолчанию заголовки или добавить новые заголовки. Так, например, для сайтов, требующих авторизации, HTTP-запрос должен содержать дополнительную информацию о полномочиях пользователя. Также бывает нужно использовать прокси-сервер или установить время задержки между запросами, чтобы не загружать веб-сервер.
Имеется гибкий механизм настройки HTTP-запросов. Эта настройка может быть различной для разных областей индексирования. Каждая настройка запоминается либо в секции <HttpOptions> конфигурационного файла источника и имеет идентифицирующий атрибут name, либо задается как подсекция <IndexedArea>. Значение атрибута name указывается для каждой области индексирования в директиве Options секций IndexedArea конфигурационного файла источника.
Секция <HttpOptions> состоит из необязательных директив Timeout, Delay и ProxyUrl и двух необязательных секций Headers и Authorization.
| Директива |
Описание |
Значение |
|
Директивы основной секции
|
|
Timeout
|
Максимальное время ожидания ответа веб-сервера в секундах. |
Значение по умолчанию: 150. |
|
Delay
|
Время задержки перед запросом следующего документа в микросекундах. Директива необходима для уменьшения нагрузки на сервер, время индексирования при этом, естественно, увеличивается. |
Значение по умолчанию: 0. |
|
ProxyUrl
|
Позволяет использовать в HTTP-запросе указанный прокси-сервер. Директива должна определять полный URL прокси-сервера, начинающийся с http и содержащий номер порта, если он отличается от 80. |
Значение по умолчанию: не задан. |
Если указан прокси-сервер, запрос GET _относительный_урл_документа_ HTTP/1.1
Host: _имя_хоста_с_которого_запрашивается_документ_
будет заменен на GET _абсолютный_урл_документа_ HTTP/1.1
и HTTP-соединение будет устанавливаться с прокси-сервером, а не хостом, на котором расположен документ. Прокси-серверы, требующие отдельной авторизации со стороны пользователя, не поддерживаются в данной версии. |
|
Позволяет задавать любые HTTP-заголовки в формате
В этом примере будет добавлен HTTP-заголовок с именем Имя и значением Значение.
Правила хорошего тона при индексировании независимых ресурсов требуют задания HTTP-заголовков: User-Agent, который содержит идентифицирующую информацию о программе-клиенте, пославшей запрос, и From, который должен содержать электронный адрес администратора программы-клиента в формате, определенном в RFC 822.
Если ключи User-Agent и/или From отсутствуют, будут посланы заголовки по умолчанию, указанные выше.
Кроме того, всегда будут посланы заголовки Connection и, если необходимо, If-Modified-Since, поэтому их не следует указывать в данной секции.
|
|
Секция Authorization
|
| Носит вспомогательный характер и позволяет удобным способом добавлять HTTP-заголовок Authorization, обеспечивающий проверку полномочий клиента на доступ к данным по схеме BASIC. В секцию входят следующие директивы: |
|
UserName
|
Имя пользователя. |
|
UserPassword
|
Пароль пользователя. |
|
Имя и пароль кодируются по base64.
Например, комбинация следующих ключей в секции Authorization
<Authorization>
UserName : yandex
UserPassword : asdf12345
</Authorization>
эквивалентна заданию директивы
<Headers>
Authorization : Basic eXNpdGU6YXNkZjEyMzQ1
</Headers>
в секции Headers и приведет к включению соответствующего HTTP-заголовка.
|
Пример
Ниже приведен отрывок из конфигурационного файла источника, задающий конфигурацию HTTP-запросов при индексировании хоста www.host.ru.
Примеры настройки источника
Пример
<Webds>
! Начальная ссылка
StartUrls : www.company.ru/
</Webds>
Правила индексирования, не описываемые в конфигурационном файле
Исключение частей HTML-файлов из индексирования
Часто встречаются ситуации, когда необходимо исключить из индексирования не весь документ целиком, а только его часть. Добиться этого можно, немного подправив HTML-код страницы. Весь текст, размещенный между тегами <NOINDEX> и </NOINDEX>, будет исключен из индексирования. Использование этих тегов никак не отразится на внешнем виде Web-страницы, т.к. они не являются стандартными для языка HTML и будут просто проигнорированы браузером.
Файл robots.txt
При индексировании документов по протоколу HTTP Яндекс.Сервер поддерживает стандарт исключений для роботов. В соответствии с этим стандартом, правила, управляющие поведением поискового робота, должны располагаться в файле /robots.txt, лежащем в корне Web-сервера.
Детальное описание спецификации файла можно прочитать, например, по адресу: http://www.citforum.ru/internet/search/rbtspec.shtml.
В простейшем виде (разрешено все, кроме каталога скриптов) файл robots.txt выглядит следующим образом:
User-Agent: *
Disallow: /cgi-bin/
Если нужно, чтобы Яндекс.Сервер при индексировании вашего сайта не учитывал общие правила для поисковых роботов, модифицируйте robots.txt, добавив специальное правило для User-Agent, заданного при конфигурировании HTTP-запросов.
Например, в следующем примере каталог скриптов закрывается от всех роботов, кроме робота MyYandexServer, которому открыто все.
User-Agent: *
Disallow: /cgi-bin/
User-Agent: MyYandexServer
Disallow:
При написании robots.txt обратите внимание на следующие часто встречающиеся ошибки.
Строка с полем User-Agent является обязательной и должна предшествовать строкам с полем Disallow. Так, приведенный ниже файл robots.txt не запрещает ничего:
Disallow: /cgi-bin
Disallow: /forum
Пустые строки в файле robots.txt являются значимыми, они разделяют записи, относящиеся к разным роботам. Например, в следующем фрагменте файла robots.txt строка "Disallow: /forum" игнорируется, поскольку перед ней нет строки с полем User-Agent.
User-Agent: *
Disallow: /cgi-bin
Disallow: /forum
Строка с полем Disallow может запретить индексирование документов только с одним префиксом. Для запрета нескольких префиксов нужно написать несколько строк.
Например, нижеприведенный файл запрещает индексирование документов, начинающихся с "/cgi-bin /forum", которых, скорее всего, не существует (а не документов с префиксами "/cgi-bin" и "/forum").
User-Agent: *
Disallow: /cgi-bin /forum
В строках с полем Disallow записываются не абсолютные, а относительные префиксы.
То есть файл:
User-Agent: *
Disallow: www.myhost.ru/cgi-bin
запрещает, например, индексирование документа http://www.myhost.ru/www.myhost.ru/cgi-bin/counter.cgi, но НЕ запрещает индексирование документа http://www.myhost.ru/cgi-bin/counter.cgi.
В строках с полем Disallow указываются именно префиксы, а не что-нибудь еще.
Так, файл:
User-Agent: *
Disallow: *
запрещает индексирование документов, начинающихся с символа * (которых в природе не существует), и сильно отличается от файла:
User-Agent: *
Disallow: /
который запрещает индексирование всего сайта.
Мета-тег robots
При индексировании html-документов Яндекс.Сервер учитывает содержимое мета-тега robots, что позволяет запретить роботу индексировать какую-то страницу или следовать по ссылкам, содержащимся на ней.
Значение этого тега может состоять из следующих директив, разделенных запятыми:
| Директива |
Назначение |
|
index
|
Страница может быть проиндексирована. |
|
noindex
|
Страница не должна индексироваться. |
|
follow
|
Следовать по ссылкам, содержащимся на странице. |
|
nofollow
|
Не следовать по ссылкам, содержащимся на странице. |
|
all
|
index,follow (по умолчанию). |
|
none
|
noindex,nofollow. |
Пример 1. Не индексировать страницу, но собрать с нее все ссылки на другие страницы:
<meta name="robots" content="noindex,follow">
Пример 2. Проиндексировать страницу, но не следовать по ссылкам, расположенным на ней:
<meta name="robots" content="index,nofollow">
Пример 3. Не индексировать страницу и не следовать по ссылкам, расположенным на ней:
<meta name="robots" content="noindex,nofollow">
Мета-тег robots имеет более высокий приоритет, чем настройки индексатора или директивы управления, заданные в файле robots.txt.
Т.е., если например директивы управления в файле robots.txt разрешают индексировать все файлы в каталоге, то блокирующий мета-тег <meta name="robots" content="noindex,nofollow"> может запретить индексирование страницы, находящейся в этом каталоге.

Нельзя указывать повторяющиеся или конфликтующие директивы, например:
<meta name="robots" content="index,noindex,nofollow,follow,follow">
Если вы не хотите учитывать мета-тег robots, задайте в настройках директиву Options со значением IgnoreMetaRobots.