ВебмастерМетрикаВиджетыРекламная сетьДиректПоиск для сайтаAPI
Войти

Руководство по установке и эксплуатации

В формате PDF

Программа printkeys

Индексные файлы

В результате индексирования каждому документу приписывается уникальное число - внутренний идентификатор документа, а содержимое и свойства документа запоминаются в индексных файлах indexkey и indexinv.

Все слова, встречающиеся в массиве индексируемых документов, а также поисковые атрибуты и зоны запоминаются в файле indexkey и в дальнейшем называются ключами.

Для каждого ключа в файле indexinv запоминается список словопозиций, или просто позиций. Каждая позиция включает внутренний идентификатор документа, номер предложения, в котором встретился ключ, номер слова в предложении, а также некоторый вес, назначенный данной позиции интерпретатором документного формата.

Служебная программа printkeys позволяет представить эту информацию в текстовом виде, пригодном для чтения или дальнейшей обработки программами-скриптами.

Параметры командной строки

Вызов программы printkeys осуществляется следующим образом:

printkeys [-0|1] [-k key] [-e] [-p] [-w|x|l|i|f]  [-s] [-m] [-c] [-t] [-o output]  indexkey indexinv

Здесь в квадратных скобках указаны необязательные параметры.

Параметр Описание
Формат индекса
-0

Индексный файл является порцией индекса, созданной во временном каталоге в процессе работы индексатора. В этом случае число позиций не выводится.

-1

Индексный файл является полным индексом, полученным после слияния порций и готовым для работы поискового сервера.

Значение по умолчанию: -1.

Формат выводимых ключей
-k keyprefix

Выводить только ключи, начинающиеся с указанной подстроки.

По умолчанию выводятся все ключи.

-e

Выводить ключи в том виде, как они хранятся в индексе (все буквы строчные; если слово начинается с прописной буквы, в конце слова прибавляется символ со значением "1").

По умолчанию, ключи преобразуются к нужному регистру.

-p

Выводить смещение в файле indexinv до начала записи с упакованными позициями, соответствующими ключу.

По умолчанию смещение не выводится.

Формат выводимых позиций
-w

Выводить позиции в формате "\t[D.S.W.R]\n".

D, S, W и R - соответственно идентификатор документа, номер предложения, номер слова в предложении и вес позиции в десятичном формате.

-x

Выводить позиции в формате "\tP\n", где P - восьмибайтовое число в шестнадцатеричном формате.

Идентификатор документа, номер предложения, номер слова в предложении и вес позиции занимают в этом числе определенное число бит, которое может зависеть от версии индексатора.

-l

Выводить позиции в формате "\tD\tL\n".

D - идентификатор документа, L - число в десятичном формате, в котором запакованы номер предложения, номер слова в предложении и вес позиции.

-i Выводить только внутренние идентификаторы документа в формате "\tD\n", где D - идентификатор документа в десятичном формате.
-f

Выводить слово позиции в формате "\t[D.S.W.R.F]\n".

D, S, W, R и F - соответственно идентификатор документа, номер предложения, номер слова в предложении, вес позиции в десятичном формате и номер словоформы в данном ключе.

-s Выводить статистику по словоформам.
-c

При выводе ключей показывать словоформы.

Если опция отсутствует, показывать леммы.

Параметры ввода-вывода
-o filename

Выводить информацию в filename.

По умолчанию вывод осуществляется в stdout.

-t Использовать символ табуляции в качестве разделителя полей.
-m

При чтении индекса использовать мапирование.

По умолчанию используется последовательное чтение.

Имеет смысл, только если указан один из параметров -w, -i, -l, -x.

Индекс
indexkey

Путь к файлу с ключами.

Обязательный параметр.

indexinv

Путь к файлу с позициями.

Обязательный параметр.