Это лишь первая из четырёх частей стандарта «Управление контентом - Эталонная модель для обеспечения долговременной сохранности текстовых документов», разработать который предложила Южная Корея. Если проект будет одобрен, работать над ним будет технический подкомитет TC171/SC2 «Файловые форматы для электронного контента, системы управления контентом и аутентичность информации» (Document file formats, EDMS systems and authenticity of information).
Предварительно планируется, что стандарт ISO 20271 будет включать следующие части:
- Часть 1: Основные положения (Fundamentals). В данной части будут сформулированы основные положения, на базе которых решается задача обеспечения долговременной сохранности текстовых документов, а именно:
- Концепция текстовых документов,
- Элементы текстовых документов,
- Компоненты текстовых документов.
- Часть 2: Требования (Requirements). В данной части будут установлены требования и описаны существенные свойства, такие как открытость, самоописание, использование встроенных шрифтов, внутреннее устройство и т.д., которыми должны обладать текстовые документы, пригодные для долговременного сохранения.
- Часть 3: Реализация (Implementation). В данной части будут представлены эталонные модели текстовых документов, пригодных для долговременного сохранения:
- Логическая модель визуальной, семантической и структурной иерархии,
- Физическая модель файлового формата.
- Часть 4: Оценка соответствия (Conformity assessment). В данной части будут представлены:
- Модель оценки соответствия,
- Критерии оценки существующих и предлагаемых форматов текстовых документов.
В обосновании первой части стандарта отмечается:
«Настоящий документ определяет концептуальные основы для текстовых документов, пригодных для долговременного сохранения, включая концепцию, элементы и компоненты текстовых документов.
… Для обеспечения долговременной сохранности текстовых документов, созданные в таких файловых форматах, как ODT, DOC, RTF и т.д., они обычно преобразуются в формат PDF/A.
Однако, поскольку файловый формат PDF изначально разрабатывался как формат для печати, будет сохранена только визуальная информация, не включающая такие элементы форматирования, как заголовки, таблицы и т.д., что может привести к утрате уникальных характеристик текстового документа (например, таких элементов контента, как форматирование в несколько столбцов, диаграммы, скрытые описания, контекстная информация, метаданные) в процессе преобразования текстового документа в формат PDF.
Мой комментарий: Авторы данного обоснования явно недооценивают возможности не то что «полного» формата PDF, но даже его «архивного» подмножества PDF/A с сильно урезанными функциональными возможностями…
По этой причине текстовые документы, содержащие информацию, которую необходимо подвергнуть синтаксическому анализу и/или обработать программно, следует сохранять в исходном файловом формате без проведения конверсии.
Однако, когда встаёт вопрос об обеспечении долговременной сохранности во времени самих текстовых документов, могут возникнуть трудности с сохранением их первоначальных характеристик и решением проблемы технологического устаревания, по перечисленным ниже причинам:
- Визуальное представление элементов контента и шрифтов текстовых документов может изменяться в зависимости от программного обеспечения, поэтому даже при использовании одного и того же файла текстовой документ может выглядеть по-разному;
- Некоторые текстовые документы могут не включать метаданные. Даже в случае включения метаданных, их может быть недостаточно для правильного представления соответствующей контекстной информации.
В этой связи многие страны и учреждения пытались найти способы отбора надлежащих файловых форматов для текстовых документов длительного срока хранения. В их числе были, например, Библиотека Конгресса США, британская Служба данных по искусству и гуманитарным наукам (Arts and Humanities Data Service, AHDS), британская Коалиция по электронной сохранности (Digital Preservation Coalition, DPC) и Британская библиотека. Тем не менее, решать эту проблему по-прежнему сложно по следующим причинам:
- Элементы, состав и компоненты пригодных для долговременного сохранения текстовых документов несколько неконкретны и недостаточно чётко определены;
- Трудно обеспечить уверенность в возможности сохранения первоначальных характеристик текстовых документов с течением времени и в решении проблемы технологического устаревания;
- Нет ни эталонных моделей, ни моделей оценки для пригодных для долговременного сохранения текстовых документов.
С целью решения данной проблемы, предлагаемый к разработке документ будет содержать рекомендации по обеспечению долговременной сохранности текстовых документов стандартизированным образом, отвечая при этом на следующие вопросы:
- Какие элементы и компоненты необходимы для обеспечения долговременной сохранности текстовых документов?
- Каковы требования в отношении долговременной сохранности текстовых документов?
- Каковы логические эталонные модели (для визуального, семантического и структурного уровней) и физические эталонные модели (спецификации формата) для обеспечения долговременной сохранности текстовых документов?
- Как проводить оценку соответствия текстовых документов на предмет надёжного обеспечения их долговременной сохранности?
От усилий по стандартизации в данной области можно ожидать следующего:
- Предоставление указаний по доработке и оценке существующих файловых форматов текстовых документов на предмет их пригодности для долговременного сохранения;
- Использование рекомендаций стандарта в качестве критериев выбора файловых форматов, пригодных для обеспечения долговременной сохранности текстовых документов;
- Использование рекомендаций стандарта для разработки архивных информационных систем, ECM-систем и/или систем управления документами и т.д., с целью повышения пригодности к использованию текстовых документов.»
Мой комментарий: Данный проект вызывает у меня большие сомнения. Обеспечением долговременной сохранности электронной информации люди занимаются с 1960-х годов, в этом вопросе накоплен огромный опыт – но до сих пор никому не приходило в голову разрабатывать некие «эталонные модели», в том числе и перечисленным в обосновании авторитетным учреждениям!
Не уверена, что будет легко дать ответ даже на вопрос о том, что же такое «текстовой документ» - допустимы ли в нём мультимедийные вставки? Входят ли в их число сообщения электронной почты, электронные таблицы, презентации, веб-страницы? Относятся ли к ним структурированные документы в формате XML? Из вспомогательных источников следует, что под текстовым документом в проекте понимается только обогащённый форматированный текст (возможно, с картинками и таблицами), при этом электронные таблицы и презентации этим понятием не охватываются…
По меньше мере наивна подразумеваемая идея о том, что можно придумать какой-то замечательный «окончательный» формат – на практике форматы выбираются под решение деловых задач (а не для того, чтобы ублажать архивистов), и по мере развития информационных технологий неизбежно появляются и будут появляться новые форматы, поддерживающие новые функциональные возможности.
Кроме того, документы во многих приложениях не являются самодостаточными, и большие объёмы метаданных о них содержатся в информационных системах, отдельно от файлов документов. Соответственно, в этом случае нет нужды перегружать метаданными файловый формат.
До сих пор технический подкомитет TC171/SC2 хорошо показал себя только в разработке стандартов для формата PDF; попытки выпускать стандарты по иной тематике в последние годы были не слишком удачными. Не хотелось бы, чтобы новый проект пополнил число этих неудач …
Источник: сайт ИСО
https://isotc.iso.org/livelink/eb3/part/cib/ballotAction.do?method=doView&id=475773
Комментариев нет:
Отправить комментарий