|
| ||||||||||||||||||||||
← Ctrl предыдущаяследующая Ctrl → Конфигурация XML-парсера
Конфигурационный файл XML-парсераПримерПроектирование конфигурации XML-парсераВ процессе разработки конфигурации XML-парсера рекомендуется придерживаться тех же основных шагов, что подробно описаны в разделе Проектирование конфигурации HTML-парсера:
Синтаксис конфигурационного файлаОписание дополнительных настроек XML-парсера размещается в отдельном файле. При этом в секции DocFormat конфигурационного файла индексатора нужно задать путь к файлу конфигурации парсера (путь к файлу указывается через директиву Config). Вся конфигурация парсера должна быть размещена внутри секции <XmlParser>. Эта секция включает одну или несколько подсекций <DOCTYPE>, каждая из которых определяет конфигурацию, относящуюся к заданному типу XML-документов и включает, в свою очередь, подсекции <Zones>, <Attributes> и <TextFlags>. Определение типов XML-документовПравила интерпретации каждого типа XML-документов описываются в отдельной секции <DOCTYPE>. Каждая такая секция может иметь атрибуты public, system и root. Анализ значений этих атрибутов позволяет установить соответствие между данным XML-документом и нужными настройками парсера. Сначала анализируется атрибут public, который, в случае своего наличия, содержит подстроку, содержащуюся в значении одноименного атрибута элемента <DOCTYPE> XML-документа. Если соответствие не найдено, аналогичный анализ проводится для атрибутов system. Если соответствие опять не найдено (это может случиться, в частности, если элемент <DOCTYPE> отсутствует в XML-документе), сравнивается значение атрибута root секции <DOCTYPE> конфигурационного файла и имени корневого элемента XML-документа. Если ни одна из секций <DOCTYPE> конфигурационного файла, имеющая атрибуты, не соответствует XML-документу, будет использована конфигурация, описанная в секции без атрибутов. Если секция <DOCTYPE> без атрибутов отсутствует, будет использована конфигурация, описанная в разделе Конфигурация по умолчанию. Директивы секции <DOCTYPE>LocalDTD - необязательная директива. Определяет локальный файл DTD, который будет использоваться парсером вместо внешнего, в случае, если он указан в элементе <DOCTYPE> XML-документа. Конфигурирование поисковых зонПримерФормальные правила описания зон можно представить следующим набором выражений: где:
Имя поисковой зоны не может совпадать с одним из зарезервированных имен "doc", "empty", "any". Вместо имени XML-элемента допустимо использовать символ "_" (подчеркивание), который означает любой XML-элемент. Если символ "_" употреблен вместо имени поисковой зоны, это значит, что имя поисковой зоны совпадает с именем XML-элемента. Конфигурирование поисковых атрибутовПримерФормальные правила описания поисковых атрибутов можно представить следующим набором выражений: где:
Символ "_" (подчеркивание) вместо имени XML-элемента или XML-атрибута обозначает любой элемент или атрибут. Если символ "_" задан вместо имени поискового атрибута, имя поискового атрибута будет совпадать с именем XML-атрибута. Конфигурирование правил обработки текстаПримерФормальные правила обработки текста можно представить следующим набором выражений: где:
Символ "_" (подчеркивание) вместо имени XML-элемента обозначает любой элемент. Флажки обработки текста
![]() Чтобы у найденного документа было определено свойство "заголовок документа", необходимо, чтобы в настройках парсера была определена зона title с флагом обработки текста BREAK_PARAGRAPH и документ содержал не менее одного предложения в этой зоне. Конфигурация по умолчаниюНиже приведен пример конфигурационного файла для XML-парсера. Данная настройка соответствует поведению по умолчанию - она будет использоваться в случае, если дополнительная конфигурация парсера не указана. ПримерПример конфигурации XML-парсераИндексирование WAP-ресурсовНиже приведен пример секции <DOCTYPE>, которая может быть использована при индексировании WML-документов (см. http://www.wapforum.org/DTD/wml12.dtd). Пример |
| Работайте в Яндексе |
© 2008—2012 «Яндекс»
|