|
| ||||||||||||||||||||||
← Ctrl предыдущаяследующая Ctrl → Алгоритм работы индексатораИндексные файлыВ процессе выполнения запроса поисковая система читает заранее подготовленные индексные файлы, поэтому, чтобы попасть в результаты поиска, документ должен быть предварительно проиндексирован. Все индексные файлы одной коллекции располагаются в одном каталоге, по умолчанию это ./workindex. Индексные файлы разных коллекций всегда располагаются в разных каталогах. Набор индексных файлов в одном каталоге в дальнейшем будет называться индексом. Имена индексных файлов начинаются одинаково префиксом index. Для каждого слова в документе запоминается его позиция в виде идентификатора документа, номера предложения и номера слова в предложении. Список таких троек (словопозиций) хранится в файлах indexinv и indexkey. В этих же файлах хранятся зоны и атрибуты документов, используемые при поиске по зонам и атрибутам (например, html-заголовок или подпись к картинке), а также некоторая служебная информация. Кроме того, в файлах indexarc и indexdir по умолчанию сохраняется текст документов без элементов форматирования. Эта информация используется при поиске, если требуется получать отрывки текста документа, содержащие найденные слова. Наконец, могут быть созданы необязательные файлы indexatr и indexaof, которые содержат информацию о группировочных атрибутах документов. Наличие этих файлов позволяет группировать и сортировать найденные документы по значению атрибута. URL и содержимое документаКаждый проиндексированный документ характеризуется уникальным URL (Uniform Resource Locator). В процессе своей работы индексатор обращается к источникам данных, чтобы получить URL и содержимое индексируемого документа. В качестве URL документа источник данных предоставляет произвольную текстовую строку, уникально идентифицирующих документ в этом источнике. Пользователю поискового сервиса показывается модифицированный URL с префиксом http, соответствующий скрипту поискового сервиса или ссылке на веб-сервер, предоставленной источником данных. Область индексирования - это множество документов, индексируемых единым образом. Каждый источник данных может включать одну или несколько областей индексирования. Области индексирования обычно задаются префиксом URL, то есть все документы, URL которых начинается с заданного префикса, принадлежат одной области индексирования. Области индексирования могут быть вложенными. В этом случае область индексирования, заданная более длинным префиксом, наследует все свойства "родительской" области, если они явно не переопределены. Все свойства областей индексирования, то есть параметры индексирования соответствующих документов, задаются в конфигурационном файле источника данных. В комплект поставки входят источники данных для файловой системы, веб-страниц и баз данных, доступных через ODBC. Описание протокола для модуля связи с источником данных входит в состав данной документации, поэтому такие модули могут быть разработаны независимыми поставщиками для произвольных источников данных. |
| Работайте в Яндексе |
© 2008—2012 «Яндекс»
|