вторник, 30 октября 2018 г.

Великобритания: Создание модели архивных данных - взгляд со стороны


Заметка Аннабель Бейнс (Annabel Baynes – на фото) специалиста по разработке программного обеспечения Национальных Архивов Великобритании (The National Archives, TNA) была опубликована на сайте TNA 17 октября 2018 года.

В течение последних нескольких месяцев мы работали над моделью архивных данных с целью сделать ее достаточно гибкой, чтобы её можно было использовать для наших собственных потенциальных будущих потребностей и сделать доступной для всех наших пользователей - см. наши предыдущие посты «Моделирование наших электронных архивных данных» (Modelling our digital archival data,  https://blog.nationalarchives.gov.uk/blog/modelling-digital-archival-data/ , перевод на русский язык см. http://rusrim.blogspot.com/2018/02/blog-post_6.html - Н.Х.) и «Электронная архивация: семь столпов метаданных» (Digital archiving: the seven pillars of metadata, https://blog.nationalarchives.gov.uk/blog/digital-archiving-seven-pillars-metadata/ , перевод на русский язык см. https://rusrim.blogspot.com/2018/04/blog-post_19.html - Н.Х.).

В этом проекте участвовала разнородная группа сотрудников организации, начиная от ряда ведущих экспертов в предметной области и заканчивая простыми людьми вроде меня. Я начала свою работу в качестве стажёра примерно год назад. У меня не было никаких предварительных знаний или понимания того, как будет работать архив, поэтому с самого начала я посвятила массу своего времени изучению архивной терминологии и концепций. Эти знания оказались полезными при разработке модели наших архивных данных, и это позволило мне привнести в проект свежий взгляд и видение, отдающее приоритет цифровым технологиям.

Сейчас мы находимся в такой точке работы, где благодаря коллективным усилиям и итеративному процессу наша модель вызрела в солидный первоначальной проект документа.

Рис.1. Первоначальный проект модели данных

Лично я не считаю, что эта наша первая итерация модели (на рис.1) уже достаточно гибкая и доступная; и в последние несколько месяцев я сама столкнулась с рядом проблем:
  • Трудности с пониманием архивной терминологии и понятий (таких, например, как «набор документов» и «серия») влияют на доступность для тех, кто еще не привык к архивам;

  • Глубокие и негибкие корни физической архивной структуры влияют на всё, что мы делаем, даже на наши электронные продукты.
Чтобы «разложить по полочкам» первую проблему, мне нужно поделиться некоторыми из используемых Национальными Архивами терминов, которые оказались для меня трудными, и тем, как я их сейчас понимаю:
Коллекция (collection) - это искусственно созданная подборка материалов / документов, основанная на категоризации, которую архивист считает значимой. (сравните российские определения, см. http://www.ciscra.org/mat/mat/term/2219 - Н.Х.)

Набор (set) / Серия (series) - это массив материалов / документов, управление которыми обычно осуществляется исходя из их естественного происхождения (provenance - см. ниже) от создателя документов.

Происхождение (provenance) - организация, из которой происходят документы, и причина их создания (сравните с определением здесь: http://www.ciscra.org/mat/mat/term/2782 - Н.Х.)

Документ (record) / Информационный объект. материал (document) - объект, важный с точки зрения архивного дела.  

Дело (file) – объект, представляющий собой группу собранных вместе документов
Во-первых, хотя слово «происхождение» не обязательно сразу узнаваемо для непрофессионала, однако стоящая за ним концепция в целом понятна. Словарь (имеется в виду словарь типа Оксфордского, см, например, здесь: https://en.oxforddictionaries.com/definition/provenance - Н.Х.) определяет этот термин как «место происхождения или самая ранняя известная история чего-либо», - поэтому, по сути, он отражает взаимосвязь между вещами и местами.

Во-вторых, «архивное» определение слова «file» (в значении «дело» - Н.Х.) сейчас очень отличается от его общераспространенного понимания. Это может быть связано с участившимся использованием данного слова в качестве ссылки на цифровые файлы (такие, например, как текстовой документ или PDF-файл), а не на «контейнер», содержащий набор документов. В этой связи термин «file» должен быть зарезервирован прежде всего для использования в его общепринятом смысле, а не для ставшей теперь малоупотребительной архивной трактовки.

Как и в ситуации с приведенными выше двумя терминами, я считаю, что исключение из нашей модели понятий «коллекция», «серия» и «набор документов» в определенной степени облегчит понимание богатства имеющейся у нас информации. Когда я впервые начала пользоваться онлайн-каталогом Национальных Архивов «Открытие» (Discovery, http://discovery.nationalarchives.gov.uk/ ), я сильно путалась из-за этих терминов ; они просто неинтуитивны в мире, где люди привыкли искать нужную им информацию (с помощью Google и другие современных поисковых служб) по ключевым словам, а не указывая близкие термины и контексты.

Но каким словом заменить «серию»? Возможно, если бы мы, - как это делают упомянутые современные службы поиска, - допустили бы естественную группировку документов в соответствии с их взаимосвязями с рядом контекстуальных элементов (происхождение, время, люди, контент, форма, тема и т.д.), это помогло бы пользователям более эффективно понимать документы.

Всё это прекрасно сочетается со второй проблемой, с которой я столкнулась, - жесткой хваткой, которой «бумажные» методы архивации держат нашу нынешнюю концептуальную модель. Если мы удалим очень физическое понятие «коллекции» или «набора» как места хранения документов, во что превратится документ? И как он может быть отсортирован?

Если мы изолируем как самостоятельные отдельные элементы сущности «документ», «происхождение», «время», «люди», «контент», «форма» и «тема», нам не нужно будет устанавливать такое же наследование или иерархию. Документы будут представлять собой самостоятельные объекты данных (конечно же, со связями с другими документами), тем самым давая пользователям возможность получать доступ к нашим данным гораздо более «цифровым по умолчанию» способом.

Мой комментарий: Жаль, что в Национальных Архивах Великобритании девушке никто не подсказал, что при таком подходе чрезвычайно легко – случайно или умышленно – совершенно иначе, неверно интерпретировать документы и сделать огромное количество «великих открытий».

Мы можем пойти еще дальше в деле концептуализации, и разделить «документ» на
  • Физическое / цифровое воплощение документа.

    Пример: электронный файл (например, DOC), содержащий пять страниц в формате Microsoft Word Document

  • Концептуальную идею документа.

    Пример: знание того, что этот Word-документ является инструкцией «Выдача пособий лицам, ищущим работу» (Job Seeker’s Allowance Interventions), раздел 7: «Отсутствие отдела рынка труда» -  и всего следующего из этого контекста.
В интересах использования доступной терминологии, фактические воплощения документа можно называть «файлами» в соответствии с общеупотребительным толкованием слова «файл». Концептуальную идею документа мы можем и далее называть «документом», который отражает архивное значение «файла».

Если мы избавимся от всех ограничений «физического короба» («коллекция» / «серия» / «набор документов») в отношении наших цифровых данных, у нас останется ряд важных контекстуальных элементов:
  • документы
  • файлы
  • люди
  • места
  • события
  • органы / организации
  • функции / задачи
  • форматы
Например, элементы: копия завещания Шекспира на пергаменте – архивный код ER1/49/4 («документ»), Стратфорд-на-Эйвоне («место») и «Фонд родины Шекспира» (The Shakespeare Birthplace Trust) («орган») фактически существуют независимо друг от друга, при этом существуют важные контекстуальные взаимосвязи между ними, предполагающие, что одно следует из другого.

Таким образом, мы имеем «стартовую точку» из восьми сущностей для включения в первую итерацию модели; это может измениться по мере её применения, - но, тем не менее, это достаточно общая отправная точка.

В данном примере применения предлагаемой мной модели Вы можете увидеть, как, путем включения в модель обязательных сущностей, документу могут быть приданы как контекст, так и форма.

Связи будут самой богатой и разнообразной частью графа, поскольку - отражая реальную жизнь – они представляют собой контекстуальные связи между всеми сущностями. Естественно, что, связывая сущности посредством правдивого представления их взаимосвязей, мы можем раскрывать и исследовать неявные «серии», не имея при этом необходимости навязывать цифровым носителям информации унаследованную от физических документов концепцию «набора» (как своего рода «ящика» или системы размещения документов в дела).

Отчасти вопреки интуиции, для того, чтобы эта модель была максимально расширяемой и гибкой, эти взаимосвязи не стоит явным образом описывать до тех пор, пока дело не дойдёт до внедрения модели – и их, вероятно, будет слишком много, чтобы спланировать эту работу!

Богатый, детальный контекст, который обеспечивают эти взаимосвязи, будет способствовать исполнению естественно сформулированных языковых запросов, а не только тех, которые касаются названия или описания документа. Если кому-то нужно будет найти все документы о конкретном событии, в определенном диапазоне дат, связанных с конкретным человеком, то будет возможность эффективно запросить эту информацию.

Надеюсь, это поможет людям отыскать и понять те документы, на которые они хотят взглянуть; с этим вопросом тесно связана кандидатская диссертация, работа над которой в настоящее время проводится в Национальных Архивах с тем, чтобы получить представление о том, как «пользователи представляют себе устройство электронных архивов». По ходу этой работы изучается понимание нашими пользователями понятий, которые вводятся архивами.

Наконец, в ходе изучения концепции и понятий меня заинтересовал вопрос о том, достаточно делаем для выполнения нашего долга по обеспечению доступа общественности в плане нашей терминологии / концептуальной структуры. Должны ли мы рассматривать это как возможность выявить «бумажные» основы, на которых мы построили наш онлайн-каталог, и преобразовать их таким образом, чтобы получить более понятный, «цифровой по умолчанию» инструмент поиска?

Аннабель Бейнс (Annabel Baynes)

Мой комментарий: Больше всего меня заинтриговало то, что Национальные Архивы Великобритании сочли полезным разместить этот пост на своём блоге, в который абы что не попадает. Понятно, что некоторые идеи автора весьма спорны; но также ясно и то, что электронные архивы будущего неизбежно будут очень отличаться от традиционных архивов, и британцы, надо отдать им должное, активно ищут новые решения, с учетом меняющихся привычек и запросов своих пользователей.

Источник: Блог Национальных Архивов Великобритании
https://blog.nationalarchives.gov.uk/blog/modelling-archival-data-outsiders-perspective/

Комментариев нет:

Отправка комментария