ВебмастерМетрикаВиджетыРекламная сетьДиректПоиск для сайтаAPI
Войти

Руководство по установке и эксплуатации

В формате PDF

Парсеры (анализаторы содержимого документа)

Парсер представляет собой встроенный модуль, анализирующий содержимое индексируемых документов.

Основная задача парсера - выделить из документа нужный для индексирования текст. Текст, выделяемый парсером, может быть помечен как принадлежащий определенной зоне документа, или как имеющий определенные свойства (атрибуты). На основании элементов форматирования документа парсер может указать границы предложений и абзацев, а также вес данного отрывка текста.

В состав Яндекс.Сервера входят HTML- и XML-парсеры, каждый из которых предназначен для анализа документов соответствующего типа. Кроме того, данные парсеры распознают документы наиболее распространенных типов: txt, pdf, rtf, doc, xls, ppt, odt, swf, mpeg и т.д. Полный список поддерживаемых медиа-типов приведен в таблице Медиа-типы документов.

Яндекс.Сервер поставляется с уже настроенными парсерами. При необходимости, любой из парсеров парсер может быть настроен дополнительно.

Для дополнительной настройки парсера необходимо:

  1. Определить коллекцию документов, для которой требуется изменить стандартные настройки парсера.
  2. Определить тип парсера (HTML или XML), настройки которого требуется изменить.
  3. В соответствующей секции Collection задать подсекцию DocFormat, в которой определить тип конфигурируемого парсера и путь к его конфигурационному файлу.
  4. Разработать конфигурационный файл парсера.

Подробная информация о настройках парсеров размещена в разделах Конфигурация HTML-парсера и Конфигурация XML-парсера.

Медиа-типы документов

Тип/подтип (MimeType) Возможность настройки
text/html есть
text/plain -
audio/mpeg -
text/xml есть
application/pdf -
text/rtf -
application/msword -
application/x-shockwave-flash -
application/vnd.ms-excel -
application/vnd.ms-powerpoint -
application/xhtml+xml -
application/vnd.openxmlformats-officedocument.wordprocessingml.document -
application/vnd.openxmlformats-officedocument.spreadsheetml.sheet -
application/vnd.openxmlformats-officedocument.presentationml.presentation -
application/vnd.oasis.opendocument.text -
application/vnd.oasis.opendocument.presentation -
application/vnd.oasis.opendocument.spreadsheet -
application/vnd.oasis.opendocument.graphics -