четверг, 4 сентября 2014 г.

Когда (не) нужно мигрировать с формата PDF на PDF/A


Заметка специалиста Королевской Библиотеки Голландии (Koninklijke Bibliotheek) по электронной сохранности Йохана ван дер Книйфа (Johan van der Knijff) была опубликована 27 августа 2014 года на сайте фонда «Открытые планеты» (Open Planets Foundation).

Хорошо известно, что PDF-документы могут содержать элементы и механизмы, чреватые рисками при обеспечения долговременной сохранности (на эту тему см., например, https://web.archive.org/web/20130515073645/http://libraries.stackexchange.com/questions/964/what-preservation-risks-are-associated-with-the-pdf-file-format и http://wiki.opf-labs.org/display/TR/Portable+Document+Format ). Миграцию существующих PDF-файлов в формат PDF/A иногда продвигают в качестве стратегии смягчения этих рисков. Преимущества такого подхода, однако, часто весьма сомнительны, и процесс миграции сам по себе может быть довольно рискованной операцией. Поскольку мне часто задают вопросы по этой теме, я подумал, что имеет смысл коротко изложить свою позицию.

PDF/A – это профиль

Во-первых, важно подчеркнуть, что каждый из стандартов формата PDF/A (A-1, A-2 и A-3) на самом деле всего лишь профиль (вариант) использования «полного» формата PDF. Если говорить более подробно, то PDF/A-1 представляет собой подмножество формата PDF версии 1.4, в то время, как PDF/A-2 и PDF/A-3 основаны на версии формата PDF 1.7, зафиксированной в стандарте ISO 32000. Общим у этих профилей является то, что они запрещают некоторые функциональные возможности (например, мультимедийные элементы, шифрование, интерактивный контент), допускаемые в «обычном» формате PDF. Кроме того, они сужают выбор способов реализации ряда других функциональных возможностей - например, требуя, чтобы все шрифты были встроенными (embedded). Это иллюстрирует приведенная ниже диаграмма, показывающая соотношение наборов функциональных возможностей упомянутых разновидностей формата PDF.


Видно, что формат PDF/A-1 является подмножеством формата PDF 1.4, который, в свою очередь, является подмножеством PDF 1.7. Форматы PDF A/2 и PDF A/3 (показанные вместе, чтобы не усложнять диаграмму) представляют собой подмножества формата PDF 1.7 и включают все функциональные возможности формата PDF A/1.

Имея это в виду, нетрудно увидеть, что миграция произвольного PDF-файла в формат PDF/A легко может привести к проблемам.

Потери и изменения в процессе миграции

Предположим, что у нас имеется PDF-файл, содержащий видеоклип. Такая возможность запрещена в PDF/A, поэтому миграция в PDF/A просто приведет к потере мультимедийного контента. Ещё одним примером могут служить шрифты: в PDF/A документе все шрифты должен быть встроенными. Но что произойдёт в случае, если в исходном PDF-файле используются внешние (невстроенные) шрифты, недоступные на том компьютере, на котором выполняется миграция? Прекратит ли инструмент миграции обработку файла с выдачей предупреждения, или же молча будет использовать какой-то альтернативный (возможно, аналогичный по параметрам) шрифт? Как это проверить?

Сложность структуры и последствия имеющихся ошибок

Кроме того, такого рода миграции, как правило, включают полную повторную обработку внутренней структуры PDF-файла. Сложность данного формата означает наличие большого потенциала для того, чтобы в ходе процесса миграции что-то пошло не так – особенно в случае, когда исходный PDF-файл содержит неочевидные ошибки, и в этом случае риск потери информации вполне реален (даже если исходный документ прекрасно отображается программой просмотра). Так как у нас практически нет инструментов для обнаружения подобных ошибок (т.е. нет достаточно надежных программ, проверяющих структуру PDF-файлов), то обработка таких ситуаций может оказаться непростым делом. Некоторые дополнительные соображения можно найти в публикации по адресу http://web.archive.org/web/20130605142355/http://libraries.stackexchange.com/questions/1117/converting-invalid-pdfs-or-not-for-digital-preservation  (контекст там несколько отличается, но риски похожи).

Оцифрованные и изначально-электронные документы

Ещё одним фактором, который в ряде случаев потребуется принять во внимание, является происхождение исходных PDF-файлов. Если PDF-файлы были первоначально созданы в рамках проекта оцифровки (например, отсканированные книги), то такие PDF-файлы, как правило, не более чем оболочка для набора графических образов, возможно, дополненного слоем распознанного текста. Миграция таких PDF-файлов в формат PDF/A довольно проста, так как исходные файлы вряд ли будут содержать какие-либо объекты, использование которых не разрешено в PDF/A. Одновременно это также означает и ограниченность отдачи от миграции таких файлов в формат PDF/A, так как исходные PDF-файлы изначально не были проблемными!

Потенциальные преимущества формата PDF/A может быть более очевидными в отношении многих видов изначально-электронного контента. В то же время, по причинам, перечисленным в предыдущем разделе, миграция в этом случае является более сложным делом, и есть масса всего другого, что может пойти не так (некоторые дополнительные соображения см. также здесь: http://qanda.digipres.org/19/what-are-the-benefits-and-risks-of-using-the-pdf-a-file-format?show=21#a21 ).

Выводы

Хотя идея миграции PDF-документов в формат PDF/A может казаться чрезвычайно привлекательной, делать это на практике на самом деле довольно рискованно, и такая миграция легко может привести к непреднамеренной потере данных. Более того, риски возрастают с увеличением числа недружественных в плане электронной сохранности особенностей, и это означает, что миграцию, скорее всего, успешно пройдут те исходные PDF-файлы, с которыми с самого начала не было проблем – и это ставит под сомнение саму цель преобразования в формат PDF/A. В конкретных случаях миграция в PDF/A может оказаться разумным подходом, но при этом ожидаемую отдачу следует тщательно сопоставить с рисками. В отсутствие стабильных, общепринятых инструментов для оценки качества PDF-файлов (как исходных, так и полученных в результате миграции), также представляется разумным всегда сохранять исходные PDF-файлы.

Йохан ван дер Книйф (Johan van der Knijff)

Мой комментарий: С моей точки зрения, голландский специалист несколько сгущает краски. Риск неудачной миграции есть всегда, поэтому в серьёзных проектах обязательно предусматривается тщательный контроль качества и принятие, в случае необходимости, корректирующих мер. Но ван дер Книйф совершенно прав в том, что всегда, начиная проект миграции, полезно оценивать риски (в том числе экспериментально), и сопоставлять ожидаемую на длительном интервале времени отдачу с затратами и рисками.

Как мне кажется, нашим специалистам особенно полезно познакомиться с соображениями голландского коллеги именно сейчас, когда в Минкомсвязи зародилась идея сделать формат PDF/A стандартным для наших органов государственной власти.

Источник: сайт Open Planets Foundation
http://www.openplanetsfoundation.org/blogs/2014-08-27-when-not-migrate-pdf-pdfa

10 комментариев:

  1. Она не зародилась, это важное решение уже достигнуто, как результат работы экспертного совета! Вы в экспертном совете? :)

    ОтветитьУдалить
    Ответы
    1. Раз уж Вы лучше меня всё знаете, зачем спрашиваете? :)

      Удалить
  2. Более того, важное решение достигнуто и уже опубликовано, в том числе на сайте самого МКС. Новость написана ужасно, собственно как и все то, что делается в данной конторе...Вопрос: так члены экспертного совета сами знают какие решения они принимают? :) Это похоже на конкурсные комиссии, от лица ее членов ставят баллы, они про это знать не знают(?), но баллы все до сотых равны, как под копирку, потому что победитель уже заранее определен и "пасется" там годами. Видели такое в протоколах того же МКС?

    ОтветитьУдалить
    Ответы
    1. Те, кого всерьёз интересует деятельность Экспертного совета по вопросам совершенствования электронного документооборота в органах государственной власти, знают, что «основная модель заседания Совета - моделируемая председателем Совета дискуссия, направленная на сбор мнений и выработку консенсусных рекомендаций. Рекомендации Совета оформляются протоколом заседания Совета, который подписывают председатель Совета или заместитель председателя Совета, проводивший данное заседание, и секретарь Совета» (см. http://base.consultant.ru/cons/cgi/online.cgi?req=doc;base=EXP;n=561474 ).

      У экспертов разные, часто противоположные точки зрения, и участие в работе Совета позволяет им донести своё мнение до Министерства. Лично я считаю такую возможность важной и нужной.

      Окончательное решение (с учетом мнения экспертов или без него) принимается Министерством – иначе и быть не должно, т.к. именно органы государственной власти несут ответственность за принятые решения и их последствия.

      Удалить
    2. Тогда несколько вопросов:
      1. Так зачем Вы написали свои "было бы полезно ознакомиться" после(!) того как "важное решение было достигнуто"?
      2. Вы лично откуда узнали у "важном достигнутом решении" из публикации на сайте МКС, или из "консенсусных рекомендаций", которые были выработаны Советом?
      3. Ваше личное мнение какое?

      Смотрите в чем штука. Есть Совет, в него входят конкретные(!) личности, специалисты с конкретным местом работы, у них есть "даже" ФИО :) Эти специалисты участвуя в Совете что-то рекомендуют, но видно МКС "с высокой колокольни" (частенько они даже не зовут Совет, например для обсуждения конкурса об очередной нац.платформе СЭД). А потом МКС принимает очередное "важное решение", и "прикрывается" Советом.

      Вот цитата "Экспертный совет по вопросам совершенствования электронного документооборота в органах государственной власти, организованный Минкомсвязью России, определил формат электронного документа..."

      Наталья, так кто определил формат? Совет или МКС? Вам не надоело участвовать в этом фарсе? :)

      Удалить
    3. 1. Это «достигнутое решение», во-первых, официально не оформлено, и, во-вторых, ещё двадцать раз может быть пересмотрено :)

      2. Из публикации на сайте МКС. Протокола заседания я пока ещё не получала.

      3. Я за последние 24 часа дала, наверное, штук пять интервью. Вот некоторые ссылки:
      http://mskit.ru/news/n170914/
      http://d-russia.ru/ekspertnyj-sovet-minkomsvyazi-rekomendoval-pdfa-v-kachestve-formata-elektronnogo-dokumenta-dlya-mezhvedomstvennogo-dokumentooborota.html
      http://gov.cnews.ru/top/2014/09/02/pdfa_stanovitsya_oficialnym_formatom_mezhvedomstvennogo_dokumentooborota_584680

      4. Формат определит уполномоченный федеральный орган исполнительной власти или Правительство. Мнение экспертов совещательное.

      5. Я буду и впредь участвовать в работе совета, пока представители Министерства готовы будут меня выслушивать. Это нормальные люди, которым свойственен здоровый консерватизм, и я никогда не рассчитывала переубедить их за одно 5-минутное выступление. У меня есть опыт удачного продвижения своих идей, и в ряде случаев клиенту требовалось более пяти лет на то, чтобы ими проникнуться :)

      Удалить
    4. Спасибо за ответ! 5 лет...за это время IT-технологии 2 раза устаревают, поэтому пока в МКС сидят "со здоровым консерватизмом" к технологиям и здоровым аппетитом к "роспилу" - все будет как есть. Не будем же мы с вами анализировать открытые конкурсы за последние 2 года, суммы и победителей (часто связанны между собой, друг другу "отдают" работы, а фактические исполнители все те же лица) по ним, правда? Этим пусть прокуратура займется! :)

      Смотрите, через пару лет придет новый министр, и также как текущий заявит, что мы дескать эти решения не принимали, единственного исполнителя не назначали, и этот формат хранения данных не выбирали, формат выбрал "прошлый" МКС и Совет...и все ФИО этого Совета (про формат как пример просто :)), а мы "НОВАЯ СОВРЕМЕННАЯ КОМАНДА" сейчас сделаем все как надо, только увеличить надо ЗП мне и моим заместителям в 10 раз, а на любой вопрос уже есть супер-ответ "Мы над этим работаем...!" :)

      P.S. По п.2....просто нет слов, "отличный" совещательный орган! Надеюсь члены Совета не для самопиара и маркетинга своих компаний входят в орган, который правда все равно "ничего не решает"...

      Удалить
    5. Знаете, можно сидеть и ныть сложа ручки, а можно делать то, что в твоих силах, и надеяться, что твои усилия зря не пропадут - каждый сам делает свой выбор. Я вижу, что страна – несмотря на все сложности – идёт вперед и кое в чём даже выбивается в мировые лидеры. Я вижу, что мои усилия тоже приносят определенные плоды. Мне этого достаточно :)

      По поводу п.2 Вы совершенно напрасно пыль подымаете – я просто была в отпуске :)

      Удалить
  3. Ну страна действительно идет вперед, правда не совсем вперед, а скорее налево (на запад). Чиновники и счета там свои открывают, и недвижимость прикупают, и дети их там живут, да и десантников туда "завозят (по блуждать так сказать). Но не это вопросы данной темы, и даже не мировое лидерство (знаю один рейтинг, мы там между Пакистаном и Бангладешем) ..., предлагаю вернуться к теме :)

    1. А где можно получить побольше информации о данном Совете, составе (в приказе многие "по согласованию"), повестках будущих встреч (за 15 дней вроде готовится), протоколах состоявшихся встреч?

    А как же действующие "Электронное правительство", "СМЭВ", "МЭДО" обходятся без регламентированного формата обмена эл.документами?

    Я о чем намекаю: десятки гос.органов (может и больше), услыша клич власти "все идем в электронный документооборот", ломанулись и оцифровали свои бумажные документы в различные форматы (у кого на что фантазии хватило) - заплатили бюджетными деньгами. И тут новость вдруг, формат-то не тот, нужен то PDF/A. Еще конкурсы откроют, проведут конверсию (тут и ГОСТ по данному процессу "поспевает")? :)

    Вопрос риторический, а вот организация масштабного проекта поражает своей некомпетентностью, у Вас какое мнение?

    2. Правильно ли сначала сотни миллионов бюджетных денег вложить в ИС, а потом форматы обмена утверждать? :)
    3. Совет участвует в разработке требований к "описание XML-файла с метаданными"? Какие-то сроки определены? Это примете для основы http://www.eos.ru/upload/pk6/files/Proekt_GOST_ELMes.pdf?


    ОтветитьУдалить
  4. 1. В Министерстве связи и массовых коммуникаций

    СМЭВ, МЭДО и не обходятся без форматов :) - И не нужно по поводу PDF/A раньше времени нагонять волну – это ещё не принятое решение, касающееся только МЭДО

    2. Форматы раньше утверждались, утверждаются и будут утверждаться. Можете посмотреть в любой справочно-правовой системе и убедиться. По поводу миллионов см. п.2

    3. Рекомендую более внимательно прочитать новость Минкомсвязи. Там не упоминается, что Совет участвует в разработке требований к «описание XML-файла с метаданными». Так что с вопросами нужно обращаться в Минкомсвязь.

    ОтветитьУдалить