|
| ||||||||||||||||||||||
← Ctrl предыдущаяследующая Ctrl → Парсеры (анализаторы содержимого документа)Парсер представляет собой встроенный модуль, анализирующий содержимое индексируемых документов. Основная задача парсера - выделить из документа нужный для индексирования текст. Текст, выделяемый парсером, может быть помечен как принадлежащий определенной зоне документа, или как имеющий определенные свойства (атрибуты). На основании элементов форматирования документа парсер может указать границы предложений и абзацев, а также вес данного отрывка текста. В состав Яндекс.Сервера входят HTML- и XML-парсеры, каждый из которых предназначен для анализа документов соответствующего типа. Кроме того, данные парсеры распознают документы наиболее распространенных типов: txt, pdf, rtf, doc, xls, ppt, odt, swf, mpeg и т.д. Полный список поддерживаемых медиа-типов приведен в таблице Медиа-типы документов. Яндекс.Сервер поставляется с уже настроенными парсерами. При необходимости, любой из парсеров парсер может быть настроен дополнительно. Для дополнительной настройки парсера необходимо:
Подробная информация о настройках парсеров размещена в разделах Конфигурация HTML-парсера и Конфигурация XML-парсера. Медиа-типы документов
|
| Работайте в Яндексе |
© 2008—2012 «Яндекс»
|