В бурлящем море цифровой трансформации есть один вопрос, актуальность которого постепенно нарастает: Что произойдёт с нашей электронно-цифровой информацией через 5, 10 или 50 лет? По мере того, как организации производят всё больше контента - от электронных писем и баз данных до ИИ-моделей, аудиовизуальных материалов и инженерных 3D-файлов - многие осознают критически-важный факт: данные не являются долговечными по умолчанию. Если не предпринимать соответствующих действий, то сегодняшние документы рискуют превратиться в завтрашний нечитаемый шум.
Итак, добро пожаловать в мир обеспечения долговременной сохранности электронных материалов (электронной сохранности)!
Что такое электронная сохранность?
По своей сути «электронная сохранность» (digital preservation) представляет собой практику обеспечения долговременной доступности имеющего непреходящую ценность электронно-цифрового контента. При этом речь идет не о хранении файлов в «холодном хранилище» или их складировании в облаке, а о поддержании аутентичности, пригодности к использованию, целостности и доступности электронных материалов с течением времени и в условиях технологических изменений. Смотрите на обеспечение электронной сохранности как сохранение для будущего знаний, доказательств и памяти, на которые полагаются общество, сообщества и организации.
Почему настало время позаботиться об электронной сохранности
За последние несколько лет обеспечение электронной сохранности превратилось из предмета профессионального интереса архивистов и библиотекарей в стратегическую деловую задачу, и вот почему:
- Объёмы данных стремительно увеличиваются, при этом одновременно усиливается и «хрупкость» форматов. Проприетарные системы, меняющиеся стандарты файловых форматов и изменяющиеся платформы означают, что созданные сегодня файлы могут не открыться завтра.
- Искусственный интеллект (ИИ) создает новые категории контента, долговременную сохранность которого необходимо обеспечить: это обученные модели, обучающие данные, метаданные, журналы принятия решений и т.д.
- Финансовый и юридический сектора производят высокоценные электронные документы, которые совершенно необходимы для исполнения законодательно-нормативных требований и обеспечения непрерывности оперативной деловой деятельности.
- Средства массовой информации, издательства и вещательные организации в отсутствие надлежащих стратегий обеспечения электронной сохранности сталкиваются с рисками утраты уникальных культурных ценностей.
- Научные и образовательные учреждения полагаются на воспроизводимость результатов исследований, для обеспечения которой требуется сохранение данных, кода и контекста.
- Архивы и государственные учреждения обязаны сохранять память о функционировании современных демократий в условиях изначально-электронной среды.
Короче говоря, в электронной сохранности заинтересованы все, от государственных учреждений и банков до музеев и научно-исследовательских центров.
Лидерами усилий по обеспечению электронной сохранности являются следующие
шесть отраслей:
- Инженерное и промышленное проектирование: САПР-файлы, результаты моделирования и журналы обслуживания оборудования должны храниться десятилетиями. Многие из них существуют в проприетарных форматах, которые быстро устаревают. Дальновидные компании переходят на нейтральные форматы, такие как STEP или 3D PDF, и встраивают рабочие процессы обеспечения долговременной сохранности в управление жизненным циклом продуктов.
- Здравоохранение и геномика: Электронные медицинские документы, изображения для целей диагностики и последовательности генов имеют критически-важное значение для медицинского ухода за пациентами, для правовой защиты и для будущих медицинских исследований. Усилия по обеспечению сохранности включают в себя использование хранилищ, поддерживающих богатые метаданные; соблюдение таких стандартов как ISO 21547; и деидентификацию (анонимизацию) данных, предназначенных для долговременного повторного использования.
Мой комментарий: Здесь упоминаются технические спецификации ISO/TS 21547:2010 «Информатика в здравоохранении – Требования по безопасности к архивированию электронных медицинских документов – Принципы» (Health informatics - Security requirements for archiving of electronic health records – Principles), см. https://www.iso.org/standard/44479.html и https://www.iso.org/obp/ui/en/#!iso:std:44479:en . В России данный документ не адаптировался. - ИИ и машинное обучение: Долговременное сохранение обученных моделей необходимо для обеспечения прозрачности, исполнения законодательно-нормативных требований и повторного использования. В состав подлежащих сохранению материалов входят исходные коды, конвейеры обработки данных, весовые коэффициенты моделей и среды выполнения. Без сохранения всего этого мы теряем возможность провести аудит и/или объяснить принимаемые в автоматизированном режиме решения.
- Финансовые и юридические услуги: Истории транзакций, контракты и документы, подтверждающие исполнение законодательно-нормативных требований, всё больше становятся электронными. Они должны оставаться проверяемыми и доступными спустя длительное время после того, как исчезнут технологии, использовавшиеся для их создания. Для обеспечения долговечности всё чаще используются модели доверия на основе технологий блокчейна и стандарта ISO 19005 (PDF/A).
- Архивы культурного наследия и СМИ: Аудиовизуальный контент, в состав которого входят материалы начиная от оцифрованных произведений искусства и до изначально цифровых фильмов и устных историй, уязвим к деградации носителей и сбоям оборудования. Решающее значение в этих ситуациях имеет использование таких стандартов, как ISO/IEC 12246, и широкое применение стандартов METS, PREMIS и FFV1.
Мой комментарий: Здесь упомянут стандарт ISO/IEC 12246:1993 «Информационные технологии - Кассеты с 8-мм магнитной лентой для записи с использованием формата с двойным азимутом для обмена информацией - Запись с винтовой разверткой» (Information technology - 8 mm wide magnetic tape cartridge dual azimuth format for information interchange - Helical scan recording).
METS и PREMIS – стандарты метаданных; FFV1 – спецификации видеокодека FF Video Codec 1, описанные в документе IETF RFC 9043, см. https://datatracker.ietf.org/doc/rfc9043/ - Научные исследования и высшее образование: Воспроизведение результатов исследований и их анализ в долгосрочной перспективе зависят от сохранённых наборов данных, программных сред, лабораторных журналов и научной переписки. Учреждения инвестируют в хранилища, соответствующие принципу FAIR (буквально «справедливые» - в данном случае является сокращением от слов Findability, Accessibility, Interoperability, Reusability – отыскиваемость, доступность, интероперабельность и повторное использование – Н.Х.), и внедряют стандарт ISO 20652 в сфере курирования электронно-цифровых материалов.
Мой комментарий: Здесь упоминается стандарт ISO 20652:2006 (CCSDS 651.0-B-1:2004) «Системы передачи данных и информации о космическом пространстве – Взаимодействие производителя информации с архивом – Типовой стандарт взаимодействия» (Space data and information transfer systems - Producer-archive interface - Methodology abstract standard), см. https://www.iso.org/standard/39577.html и https://www.iso.org/obp/ui/en/#!iso:std:39577:en .
(Окончание следует)
Эндрю Поттер (Andrew Potter)
Источник: сайт Substack
https://substack.com/inbox/post/162897558
Комментариев нет:
Отправить комментарий