Индексные файлы
В результате индексирования каждому документу приписывается уникальное число - внутренний идентификатор документа, а содержимое и свойства документа запоминаются в индексных файлах indexkey и indexinv.
Все слова, встречающиеся в массиве индексируемых документов, а также поисковые атрибуты и зоны запоминаются в файле indexkey и в дальнейшем называются ключами.
Для каждого ключа в файле indexinv запоминается список словопозиций, или просто позиций. Каждая позиция включает внутренний идентификатор документа, номер предложения, в котором встретился ключ, номер слова в предложении, а также некоторый вес, назначенный данной позиции интерпретатором документного формата.
Служебная программа printkeys позволяет представить эту информацию в текстовом виде, пригодном для чтения или дальнейшей обработки программами-скриптами.
Параметры командной строки
Вызов программы printkeys осуществляется следующим образом:
printkeys [-0|1] [-k key] [-e] [-p] [-w|x|l|i|f] [-s] [-m] [-c] [-t] [-o output] indexkey indexinv
Здесь в квадратных скобках указаны необязательные параметры.
| Параметр |
Описание |
|
Формат индекса
|
|
-0
|
Индексный файл является порцией индекса, созданной во временном каталоге в процессе работы индексатора. В этом случае число позиций не выводится.
|
|
-1
|
Индексный файл является полным индексом, полученным после слияния порций и готовым для работы поискового сервера.
Значение по умолчанию: -1.
|
|
Формат выводимых ключей
|
| -k keyprefix |
Выводить только ключи, начинающиеся с указанной подстроки.
По умолчанию выводятся все ключи.
|
|
-e
|
Выводить ключи в том виде, как они хранятся в индексе (все буквы строчные; если слово начинается с прописной буквы, в конце слова прибавляется символ со значением "1").
По умолчанию, ключи преобразуются к нужному регистру.
|
|
-p
|
Выводить смещение в файле indexinv до начала записи с упакованными позициями, соответствующими ключу.
По умолчанию смещение не выводится.
|
|
Формат выводимых позиций
|
|
-w
|
Выводить позиции в формате "\t[D.S.W.R]\n".
D, S, W и R - соответственно идентификатор документа, номер предложения, номер слова в предложении и вес позиции в десятичном формате.
|
|
-x
|
Выводить позиции в формате "\tP\n", где P - восьмибайтовое число в шестнадцатеричном формате.
Идентификатор документа, номер предложения, номер слова в предложении и вес позиции занимают в этом числе определенное число бит, которое может зависеть от версии индексатора.
|
|
-l
|
Выводить позиции в формате "\tD\tL\n".
D - идентификатор документа, L - число в десятичном формате, в котором запакованы номер предложения, номер слова в предложении и вес позиции.
|
|
-i
|
Выводить только внутренние идентификаторы документа в формате "\tD\n", где D - идентификатор документа в десятичном формате. |
|
-f
|
Выводить слово позиции в формате "\t[D.S.W.R.F]\n".
D, S, W, R и F - соответственно идентификатор документа, номер предложения, номер слова в предложении, вес позиции в десятичном формате и номер словоформы в данном ключе.
|
|
-s
|
Выводить статистику по словоформам. |
|
-c
|
При выводе ключей показывать словоформы.
Если опция отсутствует, показывать леммы.
|
|
Параметры ввода-вывода
|
| -o filename |
Выводить информацию в filename.
По умолчанию вывод осуществляется в stdout.
|
|
-t
|
Использовать символ табуляции в качестве разделителя полей. |
|
-m
|
При чтении индекса использовать мапирование.
По умолчанию используется последовательное чтение.
Имеет смысл, только если указан один из параметров -w, -i, -l, -x.
|
|
Индекс
|
|
indexkey
|
Путь к файлу с ключами.
Обязательный параметр.
|
|
indexinv
|
Путь к файлу с позициями.
Обязательный параметр.
|