Индексирование файлов PDF

Создание индексов и управление ими в файлах PDF

Можно уменьшить затрачиваемое на поиск большого файла PDF время путем встраивания индекса слов документа. Acrobat производит поиск по индексу значительно быстрей, чем по документу. Встроенный индекс включается в распространяемые копии файлов PDF. Поиск по файлам PDF со встроенными индексами происходит точно так же, как если бы индексов не было, — никаких дополнительных шагов не требуется.

Примечание.

Начиная с выпуска Acrobat и Acrobat Reader за декабрь 2018 г. для поиска по PDF больше не используется встроенный индекс. Если вы все же хотите использовать индексы для поиска, смотрите статью Включение встроенных индексов в PDF для поиска.

Добавление индекса в файл PDF

  1. В документе, открытом в Acrobat, выберите Инструменты > Индекс.

    На дополнительной панели инструментов отобразится набор инструментов «Индекс».

  2. На дополнительной панели инструментов выберите Управление встроенным индексом.

  3. В диалоговом окне «Управление встроенным индексом» нажмите Встроить индекс.

  4. Прочитайте появившиеся сообщения и нажмите OK.

    Примечание.

    В Outlook и Lotus Notes есть возможность встраивания индекса при преобразовании в PDF сообщений электронной почты или папок. Особенно это рекомендуется для папок, содержащих много сообщений электронной почты.

Обновление или удаление встроенного индекса в документе PDF

  1. Выберите Инструменты > Индекс.

    На дополнительной панели инструментов отобразится набор инструментов «Индекс».

  2. На дополнительной панели инструментов выберите Управление встроенным индексом.

  3. Нажмите Обновить индекс или Удалить индекс.

О функции «Каталог» (Acrobat Pro)

Можно сделать определенную группу документов PDF каталогом и создать общий индекс для всех входящих в него документов. Индекс позволяет гораздо быстрее осуществлять процедуру поиска определенных данных в каталогизированных документах PDF.

Индекс можно поместить вместе с документами PDF в коллекцию файлов, распространяемую на компакт-диске.

Каталогизировать можно документы, написанные латинскими, китайскими, японскими или корейскими символами. Каталогизируемыми элементами могут быть: текст документа, комментарии, закладки, поля форм, теги, метаданные объектов или документа, вложения, сведения о документе, цифровые подписи, метаданные изображений XIF (расширенный формат файлов-изображений) и пользовательские свойства документа.

Подготовка документов PDF к индексации (Acrobat Pro)

Сначала необходимо создать папку, в которой будут храниться индексируемые файлы PDF. Все файлы PDF должны содержать данные содержимого и электронных свойств, таких как ссылки, закладки и поля форм. Если индексируемые файлы содержат сканированные документы, убедитесь, что текст этих документов распознан и может быть использован при поиске. Для повышения производительности поиска разбейте длинные документы на небольшие документы размером с одну главу. Для улучшения поиска к свойствам документа можно добавить соответствующие сведения.

Перед индексированием коллекции документов важно установить структуру документа на диске или томе сетевого сервера и проверить имена межплатформенных файлов. Имена файлов могут оказаться урезанными, а межплатформенный поиск вследствие этого — затруднительным. Чтобы избежать этой проблемы, следуйте дальнейшим указаниям.

  • Переименуйте файлы, папки и индексы в соответствии с соглашением об именовании файлов в MS-DOS (восемь или менее символов, за которыми следует файловое расширение из трех символов). Это тем более необходимо сделать, если планируется поставлять коллекцию документов вместе с индексом на компакт-диске формата ISO 9660.

  • Удалите из имен файлов и папок символы расширенного набора, например символы ударений или неанглийские символы. (Шрифт, используемый функцией «Каталог», не поддерживает коды символов с 133 по 159.)

  • Не используйте папки с глубоким уровнем вложения или с длиной пути к файлу, превышающей 256 символов, в индексах, которые будут использоваться для Mac OS.

  • При использовании Mac OS на сервере OS/2 LAN настройте IBM® LAN Server Macintosh (LSM) так, чтобы использовались имена файлов MS-DOS, или индексируйте только тома FAT. (Тома HPFS [High Performance File System] могут содержать длинные неизвлекаемые имена файлов).

    Если структура документа включает в себя подпапки, не предназначенные для индексирования, их можно исключить из процесса индексирования.

Добавление метаданных к свойствам документа (Acrobat Pro)

Чтобы облегчить поиск документа PDF, в свойства документа можно добавить сведения о файле, называемые метаданными (свойства открытого в настоящий момент документа PDF можно просмотреть, выбрав меню Файл > Свойства и перейдя на вкладку Описание).

При добавлении данных в свойства документа придерживайтесь следующих рекомендаций:

  • Используйте информативный заголовок в поле «Заголовок». Имя файла документа должно отображаться в диалоговом окне Результаты поиска.

  • Для информации подобного рода всегда используйте одно и то же поле. Например, не рекомендуется добавлять важный термин в поле Тема для одного документа и тот же термин в поле Ключевые слова для другого документа.

  • Используйте единообразные, согласованные термины для одинаковых данных. Например, не рекомендуется использовать слово биология для одних документов и термин наука о жизни для других.

  • Заполняйте поле Автор — это поможет определить ответственных за создание и ведение документа. Например, автором документа, посвященного стратегии найма сотрудников, может быть отдел по работе с персоналом.

  • Если вы используете номера для обозначения различных частей документа, добавьте их в качестве ключевых слов. Например, добавление в ключевые слова doc#=m234 может обозначать определенный документ из нескольких сотен документов на заданную тематику.

  • Для классификации документов по типу используйте поля Тема и Ключевые слова либо по отдельности, либо в сочетании друг с другом. Например, для одного документа в поле «Тема» можно указать отчет о состоянии, а в поле «Ключевые слова» внести слова ежемесячный или еженедельный.

    Если у вас уже есть опыт работы с документами Adobe PDF, то при создании индекса можно определить пользовательские поля, например Тип документа, Номер документа и Идентификатор документа. Выполнять эти действия рекомендуется только опытным пользователям, они не описываются в справке по Acrobat.

Создание индекса для коллекции (Acrobat Pro)

При построении нового индекса Acrobat создает файл с расширением .pdx и новую вспомогательную папку, в которой содержится один или несколько файлов с расширением .idx. IDX-файлы содержат записи индекса. Все эти файлы должны быть доступны пользователям, которые хотят осуществлять поиск по индексу.

  1. Выберите Инструменты > Индекс.

    На дополнительной панели инструментов отобразится набор инструментов «Индекс».

  2. На дополнительной панели инструментов выберите Полнотекстовый индекс с каталогом.

    Отобразится диалоговое окно «Каталог».

  3. В диалоговом окне Каталог нажмите Создать индекс.

    Появится диалоговое окно «Новое определение индекса».

    Новые определения индекса в Acrobat
    Диалоговое окно «Новое определение индекса».

  4. В поле Заголовок индекса введите имя файла индекса.

  5. В поле Описание индекса введите несколько слов, описывающих тип индекса и его назначение.

  6. Нажмите кнопку Параметры и выберите дополнительные параметры, которые необходимо применить к индексу. Затем нажмите кнопку ОК.

    Диалоговое окно «Параметры» в Acrobat
    В диалоговом окне «Параметры» можно указать дополнительные параметры для нового индекса.

  7. В области Включить эти каталоги нажмите кнопку Добавить, выберите папку, содержащую некоторые или все файлы PDF для индексирования, и затем нажмите кнопку ОК. Чтобы добавить другие папки, повторите этот шаг.

    Примечание.

    В процесс индексирования будут включены все подпапки выбранной папки. Если не планируется перемещать индекс или любые элементы коллекции документов, к данному списку можно добавлять папки, расположенные на разных серверах или дисковых накопителях.

  8. В области Исключить эти папки нажмите кнопку Добавить и выберите любую вложенную папку, содержащую файлы PDF, которые необходимо исключить из процесса индексирования. Нажмите кнопку OK и при необходимости повторите действия.

  9. Просмотрите выбранные папки. Для внесения изменений в список включаемых и исключаемых из индексирования папок выберите папку, которую вы хотите удалить, и нажмите кнопку Удалить.

  10. Нажмите кнопку Создать и укажите местоположение файла индекса. Нажмите кнопку Сохранить и затем выполните следующие действия.

    • Нажмите кнопку Закрыть по окончании процесса индексирования.

    • Нажмите кнопку Остановить для отмены процесса индексирования.

    Примечание.

    При остановке процесса индексирования возобновить тот же сеанс индексирования нельзя, однако повторять все предварительные действия уже не нужно. Выбранные параметры и папки сохраняются. Можно выполнить команду «Открыть индекс», выбрать частично завершенный индекс и исправить его.

    Примечание.

    Если при использовании параметров «Включить эти папки» и «Исключить эти папки» длинные имена путей окажутся усеченными, наведите указатель на символ многоточия (...) и подождите, пока не появится подсказка, отображающая полный путь к включенной или исключенной папке.

Диалоговое окно «Параметры индексирования»

Не включать числа

При выборе этого параметра из индекса исключаются все числа, входящие в текст документа. Исключение из индекса чисел может существенно сократить размер индекса и ускорить поиск.

Добавлять идентификаторы к файлам Adobe PDF версии 1.0

Этот параметр устанавливается, если коллекция документов содержит файлы PDF, созданные в программе Acrobat версии ниже 2.0, в которых идентификаторы не добавлялись автоматически. Идентификаторы необходимы, когда длинные имена файлов в Mac OS сокращаются при их переводе в имена файлов DOS. Программа Acrobat 2.0 и более поздних версий автоматически добавляет эти идентификаторы.

Не предупреждать об измененных документах в процессе поиска

Если этот параметр не выбран, при поиске в документах, изменившихся с момента последнего построения индекса, появляется соответствующее сообщение.

Заказные свойства

Этот параметр используется для включения в индекс пользовательских свойств документа. Индексируются только пользовательские свойства документа, уже существующие в индексируемых документах PDF. Введите свойство, сделайте выбор в меню «Тип» и затем нажмите кнопку «Добавить». Эти свойства появляются в качестве параметров поиска в меню дополнительных критериев поиска окна Поиск в PDF при поиске в итоговом индексе. Например, если ввести пользовательское свойство Имя документа и определить его в меню «Тип» как строковое, то при поиске в индексе можно осуществлять поиск по этому пользовательскому свойству, выбрав в меню Использовать дополнительные критерии параметр Имя документа.

Примечание.

При создании в приложении Microsoft Office пользовательских полей, для которых в приложении PDFMaker установлен параметр «Преобразование сведений о документе», поля будут преобразовываться для любых создаваемых PDF-файлов.  

Поля XMP

Этот параметр используется для включения пользовательских полей XMP. Пользовательские поля XMP индексируются и отображаются во всплывающих меню дополнительных критериев поиска для включения в поиск по выбранным индексам.

Исключения

Этот параметр используется для исключения отдельных слов (максимум 500) из результатов поиска по индексу. Введите слово, нажмите кнопку «Добавить». При необходимости повторите это действие. Исключение слов может привести к уменьшению размеров индекса на 10–15%. Стоп-слово может содержать до 128 символов и является чувствительным к регистру.

Примечание.

Чтобы пользователи напрасно не вводили поисковые запросы, содержащие эти слова, список неиндексируемых слов приведен в файле Readme каталога.

Теги структуры

Этот параметр используется для обеспечения возможности поиска по узлам тегов в документах, имеющих тегированную логическую структуру.

Примечание.

Параметры «Заказные свойства», «Исключения» и «Теги структуры» применяются только к текущему индексу. Чтобы применить эти параметры для всех создаваемых индексов, можно изменить настройки по умолчанию для пользовательских полей, стоп-слов и тегов в панели «Каталог» диалогового окна «Установки».  

Файлы Readme каталога (Acrobat Pro)

Зачастую хорошим решением оказывается создать отдельный файл Readme и поместить его в папку с индексом. В файле Readme могут содержаться полезные сведения об индексе, например, следующие:

  • Типы индексируемых документов.

  • Поддерживаемые параметры поиска.

  • Контактные данные (имя, номер телефона) лица, которое может ответить на интересующие вопросы.

  • Список чисел или слов, исключаемых из индекса.

  • Список папок, содержащих документы, которые включены в индекс, построенный в локальной сети, или список документов, которые включены в индекс, построенный по отдельному диску. Сюда можно также включить краткое описание содержимого каждой папки или документа.

  • Список значений по каждому документу, если заполнены поля «Сведения о документе».

    Если каталог содержит очень большое число документов, в файл Readme можно включить таблицу, описывающую значения, присвоенные каждому документу. Эта таблица может входить в состав файла Readme, либо ее можно сохранить в отдельном документе. При разработке индекса эту таблицу можно использовать для сохранения согласованности.

Изменение индекса (Acrobat Pro)

Существующий индекс можно обновить, перестроить или удалить.

  1. Выберите Инструменты > Индекс.

    На дополнительной панели инструментов отобразится набор инструментов «Индекс».

  2. На дополнительной панели инструментов выберите Полнотекстовый индекс с каталогом.

    Отобразится диалоговое окно «Каталог».

  3. В диалоговом окне Каталог нажмите Открыть индекс.

  4. Найдите и выберите файл определения индекса (PDX), затем нажмите кнопку Открыть.

  5. Если индекс был создан в программе Acrobat версии 5.0 или более ранней, для создания индекса выберите команду Создать копию (не перезаписывая поверх более ранней версии) или команду Заменить старый индекс, чтобы записать новый индекс поверх старого.

  6. В диалоговом окне Определение индекса внесите необходимые изменения, затем выберите действие, которое хотите выполнить в Acrobat:

    Создать

    Создает новый IDX-файл с существующими данными и обновляет его, добавляя новые элементы и отмечая измененные или устаревшие элементы как недействительные. Если количество таких изменений велико или если часто выполнять такие изменения, вместо создания нового индекса, время поиска может увеличиться.

    Перестроить

    Создает новый индекс, переписывая существующую индексную папку и все ее содержимое (то есть IDX-файлы).

    Очистить

    Удаляет содержимое индекса (IDX-файлы), не удаляя сам индексный файл (PDX).

Установки каталога (Acrobat Pro)

Можно задать установки индексирования, которые будут применяться глобально ко всем создаваемым впоследствии индексам. Некоторые из этих установок можно переопределить для конкретного индекса, выбрав для него новые параметры во время построения индекса.

В диалоговом окне Установки в разделе Категории выберите Каталог. Многие параметры совпадают с теми, которые были описаны для процесса построения индекса.

Примечание.

Параметр «Принудительная совместимость с ISO 9660 для папок» полезно использовать, если при подготовке документов для индексирования нет необходимости менять длинные имена документов PDF на имена файлов MS-DOS. Тем не менее имена папок должны быть преобразованы в стандарт именования файлов MS-DOS (8 символов или меньше), даже если такое преобразование не является необходимым для имен файлов.

Обновления индекса по расписанию (Acrobat Pro)

Используйте функцию каталога и пакетный файл каталога PDX (.bpdx) для определения, когда и как часто автоматически создавать, создавать заново, обновлять и очищать индекс. Файл BPDX представляет собой текстовый файл, содержащий список флагов и путей к индексному файлу каталога в зависимости от используемой платформы. Для отображения файла BPDX в Acrobat можно использовать такие приложения, как Назначенные задания в Windows. Acrobat повторно создает индекс в соответствии с флагами в файле BPDX.

Примечание.

Чтобы использовать файлы BPDX, в диалоговом окне «Установки» в подразделе «Каталог» выберите «Разрешить запуск пакетных файлов каталога (.bpdx)».

Перемещение коллекций и их индексов (Acrobat Pro)

Разработанную и протестированную на локальном жестком диске индексированную коллекцию документов можно затем переместить в виде законченной коллекции на сетевой сервер или диск. Определение индекса содержит относительные пути от файла определения индекса (PDX) к папкам, содержащим индексированные документы. Если эти относительные пути не изменятся, перестраивать индекс после перемещения коллекции документов не потребуется. Если файл PDX и папки, содержащие индексированные документы, расположены в одной папке, сохранение относительного пути достигается простым перемещением этой папки.

Если относительный путь изменится, то после перемещения индексированной коллекции документов необходимо создать новый индекс. Однако в любом случае можно использовать исходный файл PDX. Чтобы использовать исходный файл PDX, вначале следует переместить индексированные документы. Затем необходимо скопировать PDX-файл в папку, в которой планируется создать новый индекс, и при необходимости изменить списки включенных или исключенных папок и подпапок.

Если индекс располагается на сетевом диске или сервере отдельно от любой части файлов коллекции, то перемещение либо коллекции, либо индекса приведет к повреждению индекса. Если коллекция документов перемещается в другое сетевое местоположение или на компакт-диск, индекс для нее необходимо создавать и строить в том же месте, куда перемещается коллекция.

 Adobe

Получайте помощь быстрее и проще

Новый пользователь?

Adobe MAX 2024

Adobe MAX
— творческая конференция

С 14 по 16 октября очно в Майами-Бич и онлайн

Adobe MAX

Творческая конференция

С 14 по 16 октября очно в Майами-Бич и онлайн

Adobe MAX 2024

Adobe MAX
— творческая конференция

С 14 по 16 октября очно в Майами-Бич и онлайн

Adobe MAX

Творческая конференция

С 14 по 16 октября очно в Майами-Бич и онлайн