пятница, 23 декабря 2022 г.

ИСО: Планируется открыть новый проект разработки стандарта по обеспечению долговременной сохранности текстовых документов

В декабре 2022 года сайт Международной организации по стандартизации (ИСО) сообщил о начале голосования по вопросу открытия нового проекта ISO/NP 20271-1 «Управление контентом - Эталонная модель для обеспечения долговременной сохранности текстовых документов - Часть 1: Основные положения» (Document management - Reference model for long-term preservation of text documents - Part 1: Fundamentals), см. https://isotc.iso.org/livelink/eb3/part/cib/ballotAction.do?method=doView&id=475773 . Голосование национальных органов по стандартизации – членов ИСО продлится до 2 марта 2023 года.

Это лишь первая из четырёх частей стандарта «Управление контентом - Эталонная модель для обеспечения долговременной сохранности текстовых документов», разработать который предложила Южная Корея. Если проект будет одобрен, работать над ним будет технический подкомитет TC171/SC2 «Файловые форматы для электронного контента, системы управления контентом и аутентичность информации» (Document file formats, EDMS systems and authenticity of information).

Предварительно планируется, что стандарт ISO 20271 будет включать следующие части:

  • Часть 1: Основные положения (Fundamentals). В данной части будут сформулированы основные положения, на базе которых решается задача обеспечения долговременной сохранности текстовых документов, а именно:

    • Концепция текстовых документов,

    • Элементы текстовых документов,

    • Компоненты текстовых документов.

  • Часть 2: Требования (Requirements). В данной части будут установлены требования и описаны существенные свойства, такие как открытость, самоописание, использование встроенных шрифтов, внутреннее устройство и т.д., которыми должны обладать текстовые документы, пригодные для долговременного сохранения.

  • Часть 3: Реализация (Implementation). В данной части будут представлены эталонные модели текстовых документов, пригодных для долговременного сохранения:

    • Логическая модель визуальной, семантической и структурной иерархии,

    • Физическая модель файлового формата.

  • Часть 4: Оценка соответствия (Conformity assessment). В данной части будут представлены:

    • Модель оценки соответствия,

    • Критерии оценки существующих и предлагаемых форматов текстовых документов.

В обосновании первой части стандарта отмечается:

«Настоящий документ определяет концептуальные основы для текстовых документов, пригодных для долговременного сохранения, включая концепцию, элементы и компоненты текстовых документов.

… Для обеспечения долговременной сохранности текстовых документов, созданные в таких файловых форматах, как ODT, DOC, RTF и т.д., они обычно преобразуются в формат PDF/A.

Однако, поскольку файловый формат PDF изначально разрабатывался как формат для печати, будет сохранена только визуальная информация, не включающая такие элементы форматирования, как заголовки, таблицы и т.д., что может привести к утрате уникальных характеристик текстового документа (например, таких элементов контента, как форматирование в несколько столбцов, диаграммы, скрытые описания, контекстная информация, метаданные) в процессе преобразования текстового документа в формат PDF.

Мой комментарий: Авторы данного обоснования явно недооценивают возможности не то что «полного» формата PDF, но даже его «архивного» подмножества PDF/A с сильно урезанными функциональными возможностями…

По этой причине текстовые документы, содержащие информацию, которую необходимо подвергнуть синтаксическому анализу и/или обработать программно, следует сохранять в исходном файловом формате без проведения конверсии.

Однако, когда встаёт вопрос об обеспечении долговременной сохранности во времени самих текстовых документов, могут возникнуть трудности с сохранением их первоначальных характеристик и решением проблемы технологического устаревания, по перечисленным ниже причинам:

  • Визуальное представление элементов контента и шрифтов текстовых документов может изменяться в зависимости от программного обеспечения, поэтому даже при использовании одного и того же файла текстовой документ может выглядеть по-разному;

  • Некоторые текстовые документы могут не включать метаданные. Даже в случае включения метаданных, их может быть недостаточно для правильного представления соответствующей контекстной информации.

В этой связи многие страны и учреждения пытались найти способы отбора надлежащих файловых форматов для текстовых документов длительного срока хранения. В их числе были, например, Библиотека Конгресса США, британская Служба данных по искусству и гуманитарным наукам (Arts and Humanities Data Service, AHDS), британская Коалиция по электронной сохранности (Digital Preservation Coalition, DPC) и Британская библиотека. Тем не менее, решать эту проблему по-прежнему сложно по следующим причинам:

  • Элементы, состав и компоненты пригодных для долговременного сохранения текстовых документов несколько неконкретны и недостаточно чётко определены;

  • Трудно обеспечить уверенность в возможности сохранения первоначальных характеристик текстовых документов с течением времени и в решении проблемы технологического устаревания;

  • Нет ни эталонных моделей, ни моделей оценки для пригодных для долговременного сохранения текстовых документов.

С целью решения данной проблемы, предлагаемый к разработке документ будет содержать рекомендации по обеспечению долговременной сохранности текстовых документов стандартизированным образом, отвечая при этом на следующие вопросы:

  • Какие элементы и компоненты необходимы для обеспечения долговременной сохранности текстовых документов?

  • Каковы требования в отношении долговременной сохранности текстовых документов?

  • Каковы логические эталонные модели (для визуального, семантического и структурного уровней) и физические эталонные модели (спецификации формата) для обеспечения долговременной сохранности текстовых документов?

  • Как проводить оценку соответствия текстовых документов на предмет надёжного обеспечения их долговременной сохранности?

От усилий по стандартизации в данной области можно ожидать следующего:

  • Предоставление указаний по доработке и оценке существующих файловых форматов текстовых документов на предмет их пригодности для долговременного сохранения;

  • Использование рекомендаций стандарта в качестве критериев выбора файловых форматов, пригодных для обеспечения долговременной сохранности текстовых документов;

  • Использование рекомендаций стандарта для разработки архивных информационных систем, ECM-систем и/или систем управления документами и т.д., с целью повышения пригодности к использованию текстовых документов.»

Мой комментарий: Данный проект вызывает у меня большие сомнения. Обеспечением долговременной сохранности электронной информации люди занимаются с 1960-х годов, в этом вопросе накоплен огромный опыт – но до сих пор никому не приходило в голову разрабатывать некие «эталонные модели», в том числе и перечисленным в обосновании авторитетным учреждениям!

Не уверена, что будет легко дать ответ даже на вопрос о том, что же такое «текстовой документ» - допустимы ли в нём мультимедийные вставки? Входят ли в их число сообщения электронной почты, электронные таблицы, презентации, веб-страницы? Относятся ли к ним структурированные документы в формате XML? Из вспомогательных источников следует, что под текстовым документом в проекте понимается только обогащённый форматированный текст (возможно, с картинками и таблицами), при этом электронные таблицы и презентации этим понятием не охватываются…

По меньше мере наивна подразумеваемая идея о том, что можно придумать какой-то замечательный «окончательный» формат – на практике форматы выбираются под решение деловых задач (а не для того, чтобы ублажать архивистов), и по мере развития информационных технологий неизбежно появляются и будут появляться новые форматы, поддерживающие новые функциональные возможности.

Кроме того, документы во многих приложениях не являются самодостаточными, и большие объёмы метаданных о них содержатся в информационных системах, отдельно от файлов документов. Соответственно, в этом случае нет нужды перегружать метаданными файловый формат.

До сих пор технический подкомитет TC171/SC2 хорошо показал себя только в разработке стандартов для формата PDF; попытки выпускать стандарты по иной тематике в последние годы были не слишком удачными. Не хотелось бы, чтобы новый проект пополнил число этих неудач …

Источник: сайт ИСО
https://isotc.iso.org/livelink/eb3/part/cib/ballotAction.do?method=doView&id=475773

Комментариев нет:

Отправить комментарий