среда, 10 февраля 2016 г.

Какую версию формата PDF/A лучше выбрать для отсканированных документов?


26 января 2016 года на международном форуме (листе рассылки) специалистов по управлению документами RECMGMT-L прошёл интересный обмен мнениями по поводу использования формата PDF/A, см. https://lists.ufl.edu/cgi-bin/wa?A2=ind1601D&L=RECMGMT-L&P=R2000&D=0  . Поскольку наши специалисты тоже начали обращать внимание на этот формат и его разновидности, думаю, им это тоже будет интересно. Сообщения незначительно сокращены и в некоторых случаях объединены.
Специалист по управлению документами и информацией Джессика Фейрчайлд (Jessica Fairchild), работающая в региональном управлении аэропортов округа Сан-Диего (штат Калифорния, США), задала коллегам следующий вопрос:
«Есть ли у кого-нибудь опыт успешного преобразования отсканированного документа в PDF/A-1a? Большинство прочитанных мною материалов наводит на мысль о том, что отсканированные документы могут быть успешно преобразованы лишь в PDf/A-1b. Буду благодарна за любую информацию.

У нас нет требований, предписывающих использование именно версии 1а для отсканированных документов. Мне, однако, в литературе встретились высказывания о том, что это предпочтительный вариант, если его удастся реализовать. Для нашей группы я рекомендую использовать версию 1b для отсканированных документов и 1а для преобразования в PDF/A изначально-электронных документов.»
Первым Джессике ответил Крис Каплингер (Chris Caplinger), президент и основатель компании RecordLion, Inc.:
«Формат PDF/A-1a не очень хорошо подходит для отсканированных документов, поскольку предполагает форматированный документ. Версия 1а – это «тегированный PDF», рассчитанный на работу с текстом. Если Вы планируете использовать распознавание (OCR) для того, чтобы превратить PDF обратно в структурированный текст, то, думаю, Вы можете использовать версию 1а. В противном случае лучше применять версию 1b.»
Несколько в иную плоскость разговор перевёл вице-президент по вопросам управления документами Корпорации по экономическому развитию города Нью-Йорка (New York City Economic Development Corporation) Фредерик Гревин (Frederic J.  Grevin):
«Джессика, для изначально-электронных документов Вы могли бы рекомендовать формат PDF/A-2u (специфицированный стандартом ISO 19005-2 2011) вместо PDF/A-1a. Подробности Вы можете найти в статье в Википедии, см. https://en.wikipedia.org/wiki/PDF/A .

А как Вы проверяете соответствие спецификациям результата преобразования в PDF/A?»
Мой комментарий: Фред упоминает международный стандарт ISO 19005-2:2011 «Управление контентом – Электронный файловый формат для долговременной сохранности – Часть 2: Применение ISO 32000-1 (PDF/A-2)» (Document management - Electronic document file format for long-term preservation - Part 2: Use of ISO 32000-1 (PDF/A-2)), см.
http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=50655 и https://www.iso.org/obp/ui/#iso:std:iso:19005:-2:ed-1:v1:en . Стандарт устанавливает три уровня соответствия (2a, 2b и 2u), первые два из которых аналогичны уровням 1a и 1b для PDF/A-1, а третий по сути дела представляет собой уровень 2b, с дополнительным требованием о том, что все символы текста документа имеют соответствие в Unicode.

На вопрос Фреда Гревина Джессика ответила следующее:
«Сейчас я использую инструмент Preflight, встроенный в Adobe Acrobat X Pro. Сталкивались ли Вы с проблемами с надежностью проверки? Для нас это первый опыт использования PDF/A, и мы сосредоточили внимание на создании внутренних стандартов для отсканированных электронных копий протоколов и резолюций нашего Совета директоров. В конечном итоге мы расширим эту практику и потребуем использования PDF/A для других документов, которые подлежат длительному хранению.

Мне, определенно, следует более детально изучить этот вопрос, и я  благодарна за сведения о более новом варианте формата. Я обратила внимание на то, что существует ещё один стандарт PDF/А-3, поддерживающий одну дополнительную возможность - встроенные файлы. Есть ли серьёзные причины того, что Вы не используете эту версию?

Кроме того, я была бы очень признательна за ссылки на любые ресурсы, которые Вы или другие коллеги считаете полезными при принятии решений, касающихся выбора форматов для длительного хранения.»
Завершил (пока что) разговор ещё один ответ Фреда Гревина:
Джессика писала: «Сейчас я использую инструмент Preflight, встроенный в Adobe Acrobat X Pro. Сталкивались  ли Вы с проблемами с надежностью проверки?»

Мы столкнулись с массой проблем при преобразовании с использованием Adobe Acrobat X Pro. Я настоятельно призываю Вас сделать одно из двух:
Что касается проверки на соответствие спецификациям формата PDF/A, то существует такого рода программное обеспечение других разработчиков, которое можно использовать вместо (или вместе) с инструментом Preflight в Adobe Acrobat.

Список решений (несколько устаревший, составленный в 2011 году) есть на веб-сайте Ассоциации PDF ((PDF Association), см. http://www.pdfa.org/2011/08/validating-pdfa/ .

Фонд «открытая сохранность» (Open Preservation Foundation) разрабатывает решение veraPDF (в настоящее время текущей является версия 0.8), см. http://openpreservation.org/news/verapdf-0-8-now-available/ .

Ряд интересных материалов по проверке на соответствие спецификациям формата Вы найдёте на перечисленных ниже сайтах:
  • Дафф Джонсон (Duff Johnson) «Зачем нужна проверка соответствия спецификациям?» (Why Validation?, видео), см. http://www.pdfa.org/video/duff-johnson-why-validation/

  • Александра Эттлер (Alexandra Oettler) «Проверка: Это действительно PDF/A?»  (Validation: Is it really PDF/A?), пост на сайте Ассоциации PDF от 7 февраля 2013 года, см. http://www.pdfa.org/2013/02/validation/

  • «Баварский отчет о точности проверок на соответствие спецификациям PDF/A» (Bavaria Report on PDF/A Validation Accuracy), PDFlib, 2009 г., http://www.pdflib.com/fileadmin/pdflib/pdf/pdfa/2009-05-04-Bavaria-report-on-PDFA-validation-accuracy.pdf 

  • Борис Дубров (Boris Doubrov) «Как veraPDF осуществляет проверку на соответствие спецификациям PDF/A» (How veraPDF does PDF/A validation), пост от 19 мая 2015 года,  см. http://www.pdfa.org/2015/05/how-verapdf-does-pdfa-validation/

  • Имеется также ряд сделанных на проведенной Ассоциацией PDF Технической конференции по PDF 2015 года видеозаписей докладов по валидации PDF-файлов, см. http://www.pdfa.org/2015/12/video-recordings-from-the-pdf-technical-conference-2015/ . См., в частности, доклады Бориса Дуброва «Автоматизация контроля качества при создании и проверке PDF-файлов» и «Авторитетная валидация PDF/A: Почему разработчикам следует обратить на это внимание? (совместно с Даффом Джонсоном).
Если Вы конвертируете САПР-чертежи или ГИС-файлы, то можете рассмотреть возможность использования варианта формата PDF/E (E означает «инженерный») вместо PDF/A, поскольку он имеет ряд особенностей, помогающих сохранять чертежи и рисунки. «Стандарт ISO 24517 (PDF/ E – в настоящее время действует ISO 24517-1:2008 – Н.Х.) был создан для удовлетворения потребностей организаций, которым нужно надежно создавать, обмениваться и анализировать техническую документацию» ( https://en.wikipedia.org/wiki/PDF/E ).

Джессика также писала: «Я обратила внимание на то, что существует ещё один стандарт PDF/А-3, поддерживающий одну дополнительную возможность - встроенные файлы. Есть ли серьёзные причины того, что Вы не используете эту версию?»

Лично я избегал бы PDF/A-3, как чумы: это продукт, который по моему, не слишком скромному мнению, был разработан для целей, по сути дела не являющихся «архивными» (замечу, что люди из подготовившей его рабочей группы 171-го технического комитета ИСО со мной не согласны).

Полное раскрытие информации о себе: я являюсь членом американской делегации («Технической консультативной группы» - Technical Advisory Group, TAG), принимающей участие в работе технического комитета TC 171, отвечающего – в числе многих других проектов – за дальнейшее развитие системы форматов PDF (за исключением PDF/T , PDF/V и PDF/X, которыми занимаются другие организации).
Источник: лист рассылки RECMGMT-L
https://lists.ufl.edu/cgi-bin/wa?A2=ind1601D&L=RECMGMT-L&P=R2000&D=0
https://lists.ufl.edu/cgi-bin/wa?S2=RECMGMT-L&D=0&q=PDF%2FA+-+Scanned+Documents&0=S&s=&f=&a=&b=

1 комментарий: