ВебмастерМетрикаВиджетыРекламная сетьДиректПоиск для сайтаAPI
Войти

Руководство по установке и эксплуатации

В формате PDF

Алгоритм работы индексатора

Индексные файлы

В процессе выполнения запроса поисковая система читает заранее подготовленные индексные файлы, поэтому, чтобы попасть в результаты поиска, документ должен быть предварительно проиндексирован.

Все индексные файлы одной коллекции располагаются в одном каталоге, по умолчанию это ./workindex.

Индексные файлы разных коллекций всегда располагаются в разных каталогах.

Набор индексных файлов в одном каталоге в дальнейшем будет называться индексом. Имена индексных файлов начинаются одинаково префиксом index.

Для каждого слова в документе запоминается его позиция в виде идентификатора документа, номера предложения и номера слова в предложении. Список таких троек (словопозиций) хранится в файлах indexinv и indexkey. В этих же файлах хранятся зоны и атрибуты документов, используемые при поиске по зонам и атрибутам (например, html-заголовок или подпись к картинке), а также некоторая служебная информация. Кроме того, в файлах indexarc и indexdir по умолчанию сохраняется текст документов без элементов форматирования. Эта информация используется при поиске, если требуется получать отрывки текста документа, содержащие найденные слова. Наконец, могут быть созданы необязательные файлы indexatr и indexaof, которые содержат информацию о группировочных атрибутах документов. Наличие этих файлов позволяет группировать и сортировать найденные документы по значению атрибута.

URL и содержимое документа

Каждый проиндексированный документ характеризуется уникальным URL (Uniform Resource Locator). В процессе своей работы индексатор обращается к источникам данных, чтобы получить URL и содержимое индексируемого документа. В качестве URL документа источник данных предоставляет произвольную текстовую строку, уникально идентифицирующих документ в этом источнике.

Пользователю поискового сервиса показывается модифицированный URL с префиксом http, соответствующий скрипту поискового сервиса или ссылке на веб-сервер, предоставленной источником данных.

Область индексирования - это множество документов, индексируемых единым образом. Каждый источник данных может включать одну или несколько областей индексирования.

Области индексирования обычно задаются префиксом URL, то есть все документы, URL которых начинается с заданного префикса, принадлежат одной области индексирования.

Области индексирования могут быть вложенными. В этом случае область индексирования, заданная более длинным префиксом, наследует все свойства "родительской" области, если они явно не переопределены.

Все свойства областей индексирования, то есть параметры индексирования соответствующих документов, задаются в конфигурационном файле источника данных.

В комплект поставки входят источники данных для файловой системы, веб-страниц и баз данных, доступных через ODBC. Описание протокола для модуля связи с источником данных входит в состав данной документации, поэтому такие модули могут быть разработаны независимыми поставщиками для произвольных источников данных.