26 января 2016 года на международном форуме (листе рассылки) специалистов по управлению документами RECMGMT-L прошёл интересный обмен мнениями по поводу использования формата PDF/A, см. https://lists.ufl.edu/cgi-bin/wa?A2=ind1601D&L=RECMGMT-L&P=R2000&D=0 . Поскольку наши специалисты тоже начали обращать внимание на этот формат и его разновидности, думаю, им это тоже будет интересно. Сообщения незначительно сокращены и в некоторых случаях объединены.
Специалист по управлению документами и информацией Джессика Фейрчайлд (Jessica Fairchild), работающая в региональном управлении аэропортов округа Сан-Диего (штат Калифорния, США), задала коллегам следующий вопрос:
«Есть ли у кого-нибудь опыт успешного преобразования отсканированного документа в PDF/A-1a? Большинство прочитанных мною материалов наводит на мысль о том, что отсканированные документы могут быть успешно преобразованы лишь в PDf/A-1b. Буду благодарна за любую информацию.Первым Джессике ответил Крис Каплингер (Chris Caplinger), президент и основатель компании RecordLion, Inc.:
У нас нет требований, предписывающих использование именно версии 1а для отсканированных документов. Мне, однако, в литературе встретились высказывания о том, что это предпочтительный вариант, если его удастся реализовать. Для нашей группы я рекомендую использовать версию 1b для отсканированных документов и 1а для преобразования в PDF/A изначально-электронных документов.»
«Формат PDF/A-1a не очень хорошо подходит для отсканированных документов, поскольку предполагает форматированный документ. Версия 1а – это «тегированный PDF», рассчитанный на работу с текстом. Если Вы планируете использовать распознавание (OCR) для того, чтобы превратить PDF обратно в структурированный текст, то, думаю, Вы можете использовать версию 1а. В противном случае лучше применять версию 1b.»Несколько в иную плоскость разговор перевёл вице-президент по вопросам управления документами Корпорации по экономическому развитию города Нью-Йорка (New York City Economic Development Corporation) Фредерик Гревин (Frederic J. Grevin):
«Джессика, для изначально-электронных документов Вы могли бы рекомендовать формат PDF/A-2u (специфицированный стандартом ISO 19005-2 2011) вместо PDF/A-1a. Подробности Вы можете найти в статье в Википедии, см. https://en.wikipedia.org/wiki/PDF/A .Мой комментарий: Фред упоминает международный стандарт ISO 19005-2:2011 «Управление контентом – Электронный файловый формат для долговременной сохранности – Часть 2: Применение ISO 32000-1 (PDF/A-2)» (Document management - Electronic document file format for long-term preservation - Part 2: Use of ISO 32000-1 (PDF/A-2)), см.
А как Вы проверяете соответствие спецификациям результата преобразования в PDF/A?»
http://www.iso.org/iso/home/store/catalogue_tc/catalogue_detail.htm?csnumber=50655 и https://www.iso.org/obp/ui/#iso:std:iso:19005:-2:ed-1:v1:en . Стандарт устанавливает три уровня соответствия (2a, 2b и 2u), первые два из которых аналогичны уровням 1a и 1b для PDF/A-1, а третий по сути дела представляет собой уровень 2b, с дополнительным требованием о том, что все символы текста документа имеют соответствие в Unicode.
На вопрос Фреда Гревина Джессика ответила следующее:
«Сейчас я использую инструмент Preflight, встроенный в Adobe Acrobat X Pro. Сталкивались ли Вы с проблемами с надежностью проверки? Для нас это первый опыт использования PDF/A, и мы сосредоточили внимание на создании внутренних стандартов для отсканированных электронных копий протоколов и резолюций нашего Совета директоров. В конечном итоге мы расширим эту практику и потребуем использования PDF/A для других документов, которые подлежат длительному хранению.Завершил (пока что) разговор ещё один ответ Фреда Гревина:
Мне, определенно, следует более детально изучить этот вопрос, и я благодарна за сведения о более новом варианте формата. Я обратила внимание на то, что существует ещё один стандарт PDF/А-3, поддерживающий одну дополнительную возможность - встроенные файлы. Есть ли серьёзные причины того, что Вы не используете эту версию?
Кроме того, я была бы очень признательна за ссылки на любые ресурсы, которые Вы или другие коллеги считаете полезными при принятии решений, касающихся выбора форматов для длительного хранения.»
Джессика писала: «Сейчас я использую инструмент Preflight, встроенный в Adobe Acrobat X Pro. Сталкивались ли Вы с проблемами с надежностью проверки?»Источник: лист рассылки RECMGMT-L
Мы столкнулись с массой проблем при преобразовании с использованием Adobe Acrobat X Pro. Я настоятельно призываю Вас сделать одно из двух:
Что касается проверки на соответствие спецификациям формата PDF/A, то существует такого рода программное обеспечение других разработчиков, которое можно использовать вместо (или вместе) с инструментом Preflight в Adobe Acrobat.
- Либо обновиться до текущей версии этого ПО (Adobe Acrobat Pro DC),
- Либо подумать о приобретении специализированного конвертора в PDF/A, например, такого, как pdfaPilot фирмы Callas Software, см. https://www.callassoftware.com/en/products/pdfapilot/?type=product&product=pdfapilotdesktop
Список решений (несколько устаревший, составленный в 2011 году) есть на веб-сайте Ассоциации PDF ((PDF Association), см. http://www.pdfa.org/2011/08/validating-pdfa/ .
Фонд «открытая сохранность» (Open Preservation Foundation) разрабатывает решение veraPDF (в настоящее время текущей является версия 0.8), см. http://openpreservation.org/news/verapdf-0-8-now-available/ .
Ряд интересных материалов по проверке на соответствие спецификациям формата Вы найдёте на перечисленных ниже сайтах:
Если Вы конвертируете САПР-чертежи или ГИС-файлы, то можете рассмотреть возможность использования варианта формата PDF/E (E означает «инженерный») вместо PDF/A, поскольку он имеет ряд особенностей, помогающих сохранять чертежи и рисунки. «Стандарт ISO 24517 (PDF/ E – в настоящее время действует ISO 24517-1:2008 – Н.Х.) был создан для удовлетворения потребностей организаций, которым нужно надежно создавать, обмениваться и анализировать техническую документацию» ( https://en.wikipedia.org/wiki/PDF/E ).
- Дафф Джонсон (Duff Johnson) «Зачем нужна проверка соответствия спецификациям?» (Why Validation?, видео), см. http://www.pdfa.org/video/duff-johnson-why-validation/
- Александра Эттлер (Alexandra Oettler) «Проверка: Это действительно PDF/A?» (Validation: Is it really PDF/A?), пост на сайте Ассоциации PDF от 7 февраля 2013 года, см. http://www.pdfa.org/2013/02/validation/
- «Баварский отчет о точности проверок на соответствие спецификациям PDF/A» (Bavaria Report on PDF/A Validation Accuracy), PDFlib, 2009 г., http://www.pdflib.com/fileadmin/pdflib/pdf/pdfa/2009-05-04-Bavaria-report-on-PDFA-validation-accuracy.pdf
- Борис Дубров (Boris Doubrov) «Как veraPDF осуществляет проверку на соответствие спецификациям PDF/A» (How veraPDF does PDF/A validation), пост от 19 мая 2015 года, см. http://www.pdfa.org/2015/05/how-verapdf-does-pdfa-validation/
- Имеется также ряд сделанных на проведенной Ассоциацией PDF Технической конференции по PDF 2015 года видеозаписей докладов по валидации PDF-файлов, см. http://www.pdfa.org/2015/12/video-recordings-from-the-pdf-technical-conference-2015/ . См., в частности, доклады Бориса Дуброва «Автоматизация контроля качества при создании и проверке PDF-файлов» и «Авторитетная валидация PDF/A: Почему разработчикам следует обратить на это внимание? (совместно с Даффом Джонсоном).
Джессика также писала: «Я обратила внимание на то, что существует ещё один стандарт PDF/А-3, поддерживающий одну дополнительную возможность - встроенные файлы. Есть ли серьёзные причины того, что Вы не используете эту версию?»
Лично я избегал бы PDF/A-3, как чумы: это продукт, который по моему, не слишком скромному мнению, был разработан для целей, по сути дела не являющихся «архивными» (замечу, что люди из подготовившей его рабочей группы 171-го технического комитета ИСО со мной не согласны).
Полное раскрытие информации о себе: я являюсь членом американской делегации («Технической консультативной группы» - Technical Advisory Group, TAG), принимающей участие в работе технического комитета TC 171, отвечающего – в числе многих других проектов – за дальнейшее развитие системы форматов PDF (за исключением PDF/T , PDF/V и PDF/X, которыми занимаются другие организации).
https://lists.ufl.edu/cgi-bin/wa?A2=ind1601D&L=RECMGMT-L&P=R2000&D=0
https://lists.ufl.edu/cgi-bin/wa?S2=RECMGMT-L&D=0&q=PDF%2FA+-+Scanned+Documents&0=S&s=&f=&a=&b=
Полезнная информация. Наташа - спасибо !
ОтветитьУдалить