четверг, 19 апреля 2018 г.

Электронная архивация: Семь столпов метаданных


Данная заметка Мэтью Хильярда (Matthew Hillyard) была опубликована 14 марта 2018 года на блоге Национальных Архивов Великобритании

Две основные проблемы, стоящие перед Национальными Архивами Великобритании в электронную эпоху - это
  • Необходимость предоставить новые способы доступа к электронным архивным документам;

  • Желание сделать возможным компьютерный анализ электронных архивных документов.
Как мы обсуждали в нашем недавнем посте в блоге ( http://blog.nationalarchives.gov.uk/blog/modelling-digital-archival-data/ , русский перевод см. https://rusrim.blogspot.ru/2018/02/blog-post_6.html - Н.Х.), нам сейчас требуется модель, описывающая наши документы как данные.

Будут непрерывно увеличиваться объёмы оригинального электронного контента – представляющего собой «голос правительства», если угодно, - который нам нужно будет обрабатывать, индексировать, анализировать и обсчитывать. Но у нас также будет и вся контекстуальная электронная информация, связанная с созданием, распространением и курированием этого контента во времени - другими словами, все его метаданные.

Когда мы недавно попытались смоделировать, что могут представлять собой эти метаданные, мы решили использовать как можно более беспристрастный подход, сосредоточив внимание на характеристиках и происхождении (provenance) метаданных, вместо, возможно, более привычного подхода категоризации метаданных по их функциям. Это было сделано преднамеренно: ведь не только один и тот же элемент метаданных может выполнять несколько функций, но в будущем у наших метаданных могут появиться новые функции, которые мы сегодня даже не можем предсказать. Мы также рассматриваем такой подход к осмыслению метаданных как архивный по своей природе. Архивисты традиционно всегда очень сильно интересовались происхождением их коллекций (т.е. тем, откуда взялись исторические документы, и кто их создал). В настоящее время происхождение метаданных имеет не менее важное значение.

В нашей работе над моделью мы к настоящему времени выделили, как мы это неформально называем, «семь столпов метаданных». Мы дали им следующие названия: «унаследованные» (legacy), «первичные» (primary), «вторичные» (secondary), «дополнительные» (supplementary), «производные» (derived), «контроля и управления» (control) и «мета-метаданные» (meta). Рассмотрим каждый вид по отдельности:

1. Унаследованные метаданные

С точки зрения Национальных Архивов, это те контекстуальные метаданные, которые были созданы до того, как документы были переданы нам на хранение. Это может быть, например, журнал аудита, отражающий авторство документа по мере его прохождения через создавшее его ведомство; или же контекст документа, когда тот хранится в первичной файловой системе или системе управления контентом. В более широком смысле унаследованные метаданные могут даже включать современную корпоративную историю создавшего документ ведомства.

2. Первичные метаданные

Это атрибуты, внутренне присущие электронному объекту (даже если они фиксируются отдельно от него каким-либо структурированным способом): например, имя файла, расширение, тип файла, формат, размер, размеры изображения, разрешение, дата / время создания / последнего доступа / последней модификации, автор, редактор и т.д. Иногда первичные атрибуты могут иметь внешнее по отношению к электронному объекту происхождение, но затем становятся неотделимыми от него, - например, геокодирование, вычисленное цифровой камерой и хранящееся в метаданных EXIF графических образов.

3. Вторичные метаданные

В эту группу входят те атрибуты электронного объекта, которые вручную (или автоматически) создаются официальной организацией, а затем хранятся отдельно от объекта в каком-либо контролируемом формате. Это основа хорошей архивной практики, и здесь возможен один из следующих вариантов:
  • Описательная информация, такая как ссылки для цитирования, описание или диапазон охватываемых дат;

  • Системная информация, такая как идентификаторы, ключи сортировки, машиночитаемые даты;

  • Сведения о местоположении - о папке с файлами, диске, томе или о программе навигации по файловой системе;

  • Информация о доступе, такая, как сведения о закрытии / раскрытии, ограничения на использование, правовой статус, авторские права и стоимость;

  • Информация аудита, такая как происхождение, история, сведения о передаче, изменениях, редактировании или замещении;

  • Справочная информация, такая, как семантические ассоциации, внутренние ссылки и гиперссылки (URI/URL).
4. Дополнительные метаданные

Национальные Архивы под дополнительными метаданными понимают сведения об электронном объекте, добавленные (вручную или автоматически) третьей стороной, не являющейся частью официального государственного органа или организации. Эти метаданные сейчас хранятся (и могут поддерживаться) Национальными Архивами отдельно от электронных объектов каким-либо организованным образом в целях их более широкого использования. Примеры такого рода сведений могут быть расширенное описание, предлагаемые исправления, комментарий и/или история, дополнительный тег или аннотация. Такая информация может поступать от пользователей по их собственной инициативе, или же может создаваться в результате целенаправленного краудсорсингового проекта.

5. Производные метаданные

Это связанные с электронным объектом атрибуты, которые являются результатом какого-либо программного анализа или алгоритмических вычислений. Такая информация хранится в структурированном формате; вероятно, периодически обновляется и используется в приложениях для улучшения их функциональности. Типичным примером могут служить бинарные индексы, на основе которых функционирует поисковая система. Среди других примеров производных метаданных можно назвать расширенные контекстные ссылки и описательные теги, полученные с помощью тематического моделирования (topic modeling, см. https://en.wikipedia.org/wiki/Topic_model - в сфере машинного обучения и обработки текстов на естественных языках, под этим термином понимается статистическая модель, позволяющая выявлять абстрактные «темы» в наборе документов – Н.Х.); статистические данные для совокупности документов, рассчитанные в локальном или глобальном контексте; отслеживание тенденций посредством мониторинга использования данных; а также присвоение рейтингов вероятности или доверия.

6. Метаданные контроля и управления

Как предполагает их название, это электронная информация, которая используется для управления электронным объектом, например, путем обеспечения его соответствия международным стандартам в плане формата, структуры и/или контента. Это может быть схема или онтология, или же это могут быть сведения о правах пользователей на доступ, первоначально установленных для файла. К метаданным контроля и управления можно отнести соответствующие наборы инструкций, определяющих представление объекта при различных обстоятельствах (например, стилевые таблицы). Наконец, это может быть какой-то прикладной код, без которого сам электронный объект фактически не может быть использован.

7. Мета-метаданные

И, наконец, мы даже выделили категорию «мета-метаданных» - метаданных, которые описывают метаданные! Метаданные не обязательно являются фиксированными; они могут быть подвержены изменениям и - в интересах обеспечения прозрачности и понимания контекста и временных рамок – документирование таких изменений было бы хорошей практикой. Соответственно, у метаданных могут быть версии, они могут быть снабжены отметками времени или подписаны (инструментами или лицами, установившими или изменившими значения метаданных). Мы полагаем, что становится все более необходимым учитывать неопределенность и вероятность в метаданных, особенно тогда, когда эти метаданные создаются уже не квалифицированной человеческой рукой; «мета-метаданные» - это средство документирования такого рода неопределённости.

И, говоря о неопределённости, следует отметить, что, несмотря на все наши усилия, мы не считаем эти семь категорий метаданных взаимоисключающими. Неизбежно существуют ситуации, когда, в зависимости от обстоятельств, метаданные более естественно относить то к одной, то к другой категории. Возьмем, например, сведения геокодирования в данных EXIF: их, в принципе, можно отнести к «производным» метаданным, поскольку они вычисляются автоматически; но их включение в состав встроенных метаданных электронного графического изображения во время захвата делает их более похожими на «первичные» метаданные, как логически, так и физически.

Тем не менее, мы надеемся, что преимущества декомпозиции метаданных таким образом станут явными, когда дело дойдёт до обработки неизбежного цунами электронного контента, порождаемого электронной эпохой. Нам потребуются всё более и более автоматизированные способы контекстуализации этого контента - и чем лучше дифференцированы наши метаданные, тем легче будет решать эту задачу. Описание может принимать различные формы, но будет всё важнее иметь возможность различать созданные людьми официальные описания от неофициальных, а описания, созданные автоматически на основе утвержденных алгоритмом, от тех, что были созданы с применением недоверенных алгоритмов.

В нашем предыдущем посте в блоге мы упоминали «Электронную стратегию» (Digital Strategy) Национальных Архивов и включили в него наше наглядно представление о четырех направлениях, посредством которых электронный архив может быть полезен своим клиентам: это обеспечение долговременной сохранности (Preserve), контекстуализация (Contextualise), представление (Present) и обеспечение возможности использования (Enable use). На этот раз мы включаем в наш пост диаграмму, которая отражает переход электронного документа из создавшего его государственного ведомства, через электронный архив, на повторное использование общественностью. Этот континуум, как мы надеемся, поможет наглядно показать, каким образом семь столпов метаданных задействованы в этих четырех направлениях получения отдачи:


Переход электронного документа из создавшего его государственного ведомства, через электронный архив, на повторное использование общественностью

Нас очень порадовало то, что после нашего предыдущего поста с нами связался ряд коллег из разных уголков мира. Пожалуйста, продолжайте оставаться на связи; мы стремимся учиться и делиться своим опытом с другими людьми, сталкивающимися с аналогичными проблемами. Если вы начали думать о своих документах как о данных, или если у Вас есть близкие интересы, мы были бы рады с Вами связаться. Пожалуйста, напишите комментарий под этим постом или же пошлите его на электронный адрес discovery@nationalarchives.gov.uk .

Мэтью Хильярд (Matthew Hillyard)

Источник: блог Национальных Архивов Великобритании
http://blog.nationalarchives.gov.uk/blog/digital-archiving-seven-pillars-metadata/

Комментариев нет:

Отправить комментарий