пятница, 28 июня 2019 г.

ИСО: Спецификации самодостаточного контейнерного формата SIRF для хранения информации


В конце мая 2019 года сайт Международной организации по стандартизации (ИСО) сообщил о публикации нового стандарта ISO/IEC 23681:2019 «Информационные технологии – Спецификации самодостаточного формата для хранения информации SIRF» (Information technology - Self-contained Information Retention Format (SIRF) Specification) объёмом 44 страницы, см. https://www.iso.org/standard/76648.html и https://www.iso.org/obp/ui/#!iso:std:76648:en .

Стандарт разработан Объединённым техническим комитетом ИСО/МЭК JTC1 «Информационные технологии» (Information technology).

Во вводной части документа, в частности, сказано следующее:
«Во многих организациях в настоящее время требуется в неопределённо длительной перспективе сохранять и поддерживать доступ к большим объёмам цифрового контента. Для исполнения законодательно-нормативных требований и в связи с правовыми проблемами требуется обеспечивать долговременную сохранность архивов электронной почты, медицинских документов и сведений о правах интеллектуальной собственности.

Веб-сервисы и приложения конкурируют друг с другом как средства обеспечения хранения, организации и коллективного использования фотографий, видеоматериалов и других продуктов творческой деятельности. Да и на многие другие хранилища фиксированного контента возлагается задача сбора и предоставления доступа к научным данным, знаниям, библиотекам, фильмам и музыке. При решении этих задач ключевой проблемой является создание нейтральных по отношению к поставщикам контейнеров хранения, которые возможно будет интерпретировать по прошествии времени.

Архивисты и специалисты по управлению документами, имеющие дело с физическими объектами, такими, как материалы разного рода, документы и т.д., избегают обработки каждого объекта по отдельности. Вместо этого они формируют группу объектов, которые каким-то образом взаимосвязаны - по характеру использования, по связи с каким-то конкретным событием, по времени и т.д. - и затем обрабатывают всю группу как единое целое. Сама группа может называться серией, коллекцией, фондом или, в некоторых случаях, документацией или группой документов.

После того, как группа сформирована, архивист помещает её в физический контейнер (например, в папку с делами или в короб стандартных размеров), присваивает контейнеру имя и регистрационный номер и помещает контейнер в известное место. Информация о группе включается в ярлык, который физически прикрепляется к контейнеру, а также в научно-справочный аппарат, такой, как онлайн-каталог, который организован по определённой схеме и содержит названия групп, их местоположение, объём и краткое описание содержания.

В настоящем стандарте предлагается подход к обеспечению долговременной сохранности цифрового контента, в рамках которого используются процессы архивного дела, тем самым помогая архивистам по-прежнему чувствовать себя комфортно уже в цифровой среде.

Чтобы сделать эту стратегию возможной, одной из первоочередных потребностей является создание электронного эквивалента физического контейнера – архивного короба или папки с делами - который определяет группу и который может быть снабжён стандартным описанием в определенном формате, способствую поиску и извлечению данных, когда в этом возникнет необходимость.

Предполагается, что роль такого аналога должен играть самодостаточный формат для хранения информации (Self-contained Information Retention Format, SIRF) – это формат контейнера хранения для набора подлежащих долговременному сохранению объектов, который также содержит каталог с метаданными, относящимися как ко всему содержимому контейнера, так и к отдельным объектам и их взаимосвязям.

Данный логический контейнер упрощает и повышает эффективность выполнения многих процессов, которые нужны для предотвращения угроз цифровому контенту. В свою очередь, более простые и эффективные процессы обеспечения долговременной сохранности делают сохранение цифрового контента в целом более масштабируемым и менее затратным делом.

Компоненты формата SIRF, варианты использования и функциональные требования к нему были перечислены в публикации Международной ассоциации индустрии сетевого хранения данных (Storage Networking Industry Association, SNIA, http://www.snia.org/ ) под названием «Варианты применения и функциональные требования к формату SIRF» (Self-contained Information Retention Format (SIRF) Use Cases and Functional Requirements, версия 0.5a, сентябрь 2010 года), см. https://www.snia.org/sites/default/files/SIRF_Use_Cases_V05a_DRAFT.pdf . Позднее они были более детально описаны в публикации группы авторов «На пути к самодостаточному формату для хранения информации SIRF» (Towards SIRF: Self-contained Information Retention Format, см. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.397.8547&rep=rep1&type=pdf ).

Настоящий стандарт делает ещё один шаг вперёд и детализирует состав метаданных, категорий и элементов в каталоге контейнера. В нём также описывается, как логический формат SIRF реализуется («сериализуется») в виде контейнеров хранения в облаке и контейнеров на основе лент. С облачной реализацией SIRF экспериментирует хранилище объектов OpenStack Swift, и соответствующее представление предлагается в качестве открытого источника в рамках инициативы OpenSIRF (см. http://github.com/opensirf ).

Создание и ведение SIRF-каталога требует выполнения вычислений с интенсивным использованием данных для различных сохраняемых объектов, включая проверки неизменности и преобразования данных. Эта задача может эффективно решаться при помощи вычислительных модулей-«сторлетов» (storlets),  рядом с местом хранения данных. Преимущества использования стортлетов включают уменьшенную потребность в пропускной способности (уменьшается количество байтов, передаваемых по глобальной сети), повышенную безопасность (снижаются риски утечки чувствительных данных), сокращение затрат (уменьшаются потребности в инфраструктуре на стороне клиента) и поддержку соответствия законодательно-нормативным и иным требованиям (за счёт улучшения отслеживания происхождения данных).

Стортлет-механизм (см. «Механизм Storlet для выполнения биомедицинских процессов в системе хранения», Storlet Engine for Executing Biomedical Processes within the Storage System, https://pdfs.semanticscholar.org/78a6/b5ffd573819623ab735b8de01246bdfdf342.pdf ) - это механизм поддержки таких стортлет-вычислений в безопасных «песочницах» (sandboxes) в системе хранения, и он может использоваться для создания и обслуживания SIRF-контейнеров.»
Содержание документа следующее:
Предисловие
Введение
1. Область применения
2. Нормативные ссылки
3. Термины и определения
4. Деловое обоснование
5. Обзор спецификаций
6. Метаданные контейнера (Container Information Metadata)
7. Метаданные сохраняемых объектов (Object Information Metadata)
8. Сериализация для интерфейса CDMI (Cloud Data Management Interface – «Интерфейс управления данными в облаках», описан в стандарте ISO/IEC 17826:2016 – Н.Х.) ассоциации SNIA
9. Сериализация для  формата LTFS (от Linear Tape File System, описан в стандарте  ISO/IEC 20919:2016 – Н.Х.) ассоциации SNIA
10. Сериализация для OpenStack Swift (масштабируемая система хранения с избыточностью, разработанная в рамках инициативы OpenStack; см. также https://en.wikipedia.org/wiki/OpenStack#Object_storage_(Swift)Н.Х.)
11. Пример варианта применения
Приложение A: XML-схема для SIRF-каталога
Приложение B: Образец XML-каталога
Приложение C: Образец JSON-каталога
Библиография
Мой комментарий: Это ещё один документ, посвященный вопросу конструирования контейнеров для передачи информации и документов на архивное хранение. Я рекомендую коллегам из Росархива и ВНИИДАД обратить на него внимание – в нём есть немало полезных идей, которыми они могут воспользоваться для превращения своей собственной «теории контейнеров» на полутора страничках во что-то приличное :)

Источник: сайт ИСО
https://www.iso.org/standard/76648.html 
https://www.iso.org/obp/ui/#!iso:std:76648:en
http://www.doc88.com/p-2149912837399.html

Комментариев нет:

Отправить комментарий