Статья Ричарда Лехейна (Richard Lehane), электронного архивиста Управления государственных документов штата Новый Южный Уэльс, была опубликована 28 июля 2014 года на сайте Управления, посвящённом инициативе «Выдержать проверку временем – защитить наше электронное будущее» (Future Proof – Protecting our digital future).
Фото: Denise Carbonell
Прямо сейчас группа «Электронного архива» Управления государственных документов австралийского штата Новый Южный Уэльс переходит от проектной работы над созданием электронного архива к его эксплуатации в штатном режиме. В рамках этого перехода мы публикуем наши методологию и процедуры, открываем доступ общественности к электронным архивам посредством пилотных проектов и приглашаем органы исполнительной власти штата налаживать с нами контакты для того, чтобы инициировать проекты миграции. Мы намерены в максимальной степени делиться информацией о нашем подходе к обеспечению сохранности электронного контента и о поддерживающих его инструментах и технологиях. В данном сообщении описываются некоторые из принятых нами ключевых технологических решений.
Вероятно, основной отличительной чертой используемого Управлением подхода к обеспечению сохранности электронных документационных систем является его гибкость. Вместо создания охватывающей все процессы от начала до конца тесно интегрированной системы с фиксированными правилами архивации электронных объектов, мы на основе проектного подхода разработали методологию, которая, по нашему мнению, применима для проведения миграции в электронный архив любой государственной документационной системы. В интересах поддержки такого открытого подхода к электронной архивации, мы предпочтительно использовали небольшие, простые и гибкие инструменты, которые можно использовать совместно для достижения целей различных проектов миграции.
Хранение
Весь контент Электронного архива - данные и метаданные - хранится в промасштабированной сетевой системе хранения данных (Network Attached Storage, NAS) EMC Isilon ( http://russia.emc.com/storage/isilon/isilon.htm ). Преимущество этой системы в том, что она позволяет абстрагироваться от таких вопросов управления хранилищами, как целостность потока битов, безопасности, масштабируемость, резервное копирование и восстановление в случае катастроф. Поскольку она внешне выглядит как простая сетевая файловая система, мы получаем все эти возможности, не будучи привязанным к определенному способу хранения файлов (например, к системе управления электронными активами или к системе хранения с контентной адресацией).
Такой «непредубеждённый» характер файловой системы хранения может быть как благословением, так и проклятием. В отсутствие структурированного подхода файловые системы могут стать сильно захламленными. Для организации файловой системы Электронного архива мы использовали протокол Pairtrees for Object Storage ( https://confluence.ucop.edu/display/Curation/PairTree - в рамках данного протокола группа файлов может быть ассоциирована с идентификатором, который отображается в файловой системе как дерево поддиректорий с именами максимум из двух букв – Н.Х.), разработанный Электронной библиотекой Калифорнии (California Digital Library) . Этот протокол включает схему создания для индивидуальных электронных объектов уникальных иерархических структур папок на основе глобально-уникальных идентификаторов (UUID).
В этих уникальных папках мы храним оригинальные электронные объекты, все их дополнительные версии (созданных для целей обеспечения долговременной сохранности или для удобства доступа), извлеченный текст, метаданные и изображения для предварительного просмотра в соответствии с очень простой схемой, показанной на этом изображении.
Метаданные
Одним из основных файлов, которые мы храним вместе электронным объектом, является файл метаданных с именем "metadata.json". Этот файл содержит:
- Оригинальные метаданные, поступившие вместе с электронным объектом;
- Дополнительные метаданные, которые были созданы автоматически или вручную в целях дальнейшего описания электронных объектов;
- Ссылки на поддерживаемую Управлением государственных документов модель государственного аппарата штата во времени (это записи в нашем основном каталоге, см. http://search.records.nsw.gov.au/ ). Эти ссылки обеспечивают контекст для сохраняемых в Электронном архиве документных систем и помогают отыскивать информацию;
- Ссылки на правила доступа и решения судьбы документов (уничтожения либо передачи на архивное хранение), выпущенные Управлением;
- Метаданные, нужные для обеспечения долговременной сохранности, процессные метаданные и метаданные, фиксирующие сведения о последовательности ответственного хранения.
Отражая открытость нашего общего подхода, схема этих файлов метаданных сама является открытой: с течением времени она может обновляться, чтобы охватить разнообразные оригинальные метаданные, поступающие в результате выполнения различных проектов. Эту эволюционирующую схему мы называем реестром метаданных ( http://www.records.nsw.gov.au/digitalarchives/metadata/ ). Реестр метаданных включает пользовательский интерфейс, а также очень простой служебный интерфейс, который представляет собой просто JSON-схему ( http://json-schema.org/ ), хранящуюся в публичном Git-репозитории ( см. https://github.com/srnsw/metadata ). Реестр обновляется просто путем внесения изменений в данные, находящиеся в этом хранилище.
Одна из проблем, присущих эволюционирующей схеме метаданных, связана с её хранением в базе данных с тем, чтобы её можно было использовать для выполнения запросов и подготовки отчетов. Большинство реляционных баз данных, поддерживающих язык запросов SQL, рассчитаны на работу с фиксированной, редко меняющейся схемой. Именно поэтому мы используем документно-ориентированную базу данных MongoDB ( http://www.mongodb.org/ ) разряда NoSQL (трактуется как «не совсем SQL» или «не SQL» - Н.Х.) в качестве вторичного хранилища для метаданных (в качестве первичного средства хранения метаданных используются файлы metadata.json на диске). MongoDB поддерживает хранение материалов вроде JSON-документов с динамической схемой и отлично подходит для наших нужд. Мы используем её в сочетании с поисковым сервером Apache Solr ( http://lucene.apache.org/solr/ ), поддерживающим полнотекстовой поисковый индекс и фасетный поиск по контенту Электронного архива.
Действия по обеспечению долговременной сохранности
Наш подход к выполнению действий, необходимых для обеспечения долговременной сохранности сродни подходу к метаданным: он контролируемый, но гибкий. У нас имеется «Реестр путей обеспечения сохранности» (preservation pathways registry, http://www.records.nsw.gov.au/digitalarchives/pathways ), который, как и реестр метаданных, может с течением времени обновляться с тем, чтобы отразить различные решения по обеспечению сохранности, принятые в ходе различных проектов. При выполнении проектов миграции мы оцениваем риски для долговременной сохранности и требования по доступу к файловым форматам, охватываемым этим проектом. Если принимается решение о преобразовании в иной файловый формат, то оно документируется в реестре путей обеспечения сохранности. Для однозначной идентификации файловых форматов мы используем поддерживаемый Национальными Архивами Великобритании реестр файловых форматов PRONOM ( http://apps.nationalarchives.gov.uk/PRONOM/Default.aspx ) и инструмент DROID ( http://www.nationalarchives.gov.uk/information-management/manage-information/policy-process/digital-continuity/file-profiling-tool-droid/ ). В зависимости от потребностей различных проектов, мы используем дополнительные инструменты, такие как Apache Tika ( http://tika.apache.org/ - инструмент контент-анализа, способный извлекать метаданные и контент из различных объектов – Н.Х.) и Exiftool ( http://www.sno.phy.queensu.ca/~phil/exiftool/ - инструмент для чтения и модификации метаинформации из файлов разнообразных форматов – Н.Х.) для более детального определения свойств электронных объектов.
Проекты миграции
Везде, где это было возможно, мы использовали существующие средства, а не создавали свои собственные. В рамках проектов миграции в электронный архив для управления рабочими процессами (workflow), планирования задач и поддержки коллективной работы мы используем систему Basecamp ( https://basecamp.com/ ). С каждым завершенным проектом увеличиваются наши знания и растет пул повторно используемых решений и практики. Помимо ведения реестров метаданных и путей обеспечения сохранности, мы сохраняем информацию о том, как мы преодолевали конкретные проблемы обеспечения долговременной сохранности, какие полезные инструменты и прочие ресурсы нашли, в вики-системе Confluence ( https://www.atlassian.com/software/confluence ). Для управления самостоятельно разработанным кодом мы используем JIRA ( https://www.atlassian.com/software/jira ) - также продукт фирмы Atlassian, и мы все свои наработки, насколько это возможно, выкладываем на Github ( https://github.com/srnsw/ ).
Ричард Лехейн (Richard Lehane)
Источник: сайт архивно-документационной службы штата Новый Южный Уэльс, Австралия
http://futureproof.records.nsw.gov.au/how-we-do-digital-archiving-at-state-records-nsw/
Одна из проблем, присущих эволюционирующей схеме метаданных, связана с её хранением в базе данных с тем, чтобы её можно было использовать для выполнения запросов и подготовки отчетов. Большинство реляционных баз данных, поддерживающих язык запросов SQL, рассчитаны на работу с фиксированной, редко меняющейся схемой. Именно поэтому мы используем документно-ориентированную базу данных MongoDB ( http://www.mongodb.org/ ) разряда NoSQL (трактуется как «не совсем SQL» или «не SQL» - Н.Х.) в качестве вторичного хранилища для метаданных (в качестве первичного средства хранения метаданных используются файлы metadata.json на диске). MongoDB поддерживает хранение материалов вроде JSON-документов с динамической схемой и отлично подходит для наших нужд. Мы используем её в сочетании с поисковым сервером Apache Solr ( http://lucene.apache.org/solr/ ), поддерживающим полнотекстовой поисковый индекс и фасетный поиск по контенту Электронного архива.
Действия по обеспечению долговременной сохранности
Наш подход к выполнению действий, необходимых для обеспечения долговременной сохранности сродни подходу к метаданным: он контролируемый, но гибкий. У нас имеется «Реестр путей обеспечения сохранности» (preservation pathways registry, http://www.records.nsw.gov.au/digitalarchives/pathways ), который, как и реестр метаданных, может с течением времени обновляться с тем, чтобы отразить различные решения по обеспечению сохранности, принятые в ходе различных проектов. При выполнении проектов миграции мы оцениваем риски для долговременной сохранности и требования по доступу к файловым форматам, охватываемым этим проектом. Если принимается решение о преобразовании в иной файловый формат, то оно документируется в реестре путей обеспечения сохранности. Для однозначной идентификации файловых форматов мы используем поддерживаемый Национальными Архивами Великобритании реестр файловых форматов PRONOM ( http://apps.nationalarchives.gov.uk/PRONOM/Default.aspx ) и инструмент DROID ( http://www.nationalarchives.gov.uk/information-management/manage-information/policy-process/digital-continuity/file-profiling-tool-droid/ ). В зависимости от потребностей различных проектов, мы используем дополнительные инструменты, такие как Apache Tika ( http://tika.apache.org/ - инструмент контент-анализа, способный извлекать метаданные и контент из различных объектов – Н.Х.) и Exiftool ( http://www.sno.phy.queensu.ca/~phil/exiftool/ - инструмент для чтения и модификации метаинформации из файлов разнообразных форматов – Н.Х.) для более детального определения свойств электронных объектов.
Проекты миграции
Везде, где это было возможно, мы использовали существующие средства, а не создавали свои собственные. В рамках проектов миграции в электронный архив для управления рабочими процессами (workflow), планирования задач и поддержки коллективной работы мы используем систему Basecamp ( https://basecamp.com/ ). С каждым завершенным проектом увеличиваются наши знания и растет пул повторно используемых решений и практики. Помимо ведения реестров метаданных и путей обеспечения сохранности, мы сохраняем информацию о том, как мы преодолевали конкретные проблемы обеспечения долговременной сохранности, какие полезные инструменты и прочие ресурсы нашли, в вики-системе Confluence ( https://www.atlassian.com/software/confluence ). Для управления самостоятельно разработанным кодом мы используем JIRA ( https://www.atlassian.com/software/jira ) - также продукт фирмы Atlassian, и мы все свои наработки, насколько это возможно, выкладываем на Github ( https://github.com/srnsw/ ).
Ричард Лехейн (Richard Lehane)
Источник: сайт архивно-документационной службы штата Новый Южный Уэльс, Австралия
http://futureproof.records.nsw.gov.au/how-we-do-digital-archiving-at-state-records-nsw/
Вобще-то молодцы! Есть настойчивое желание более детально изучить их опыт.
ОтветитьУдалить