Заметка Аннабель Бейнс (Annabel Baynes – на фото) специалиста по разработке программного обеспечения Национальных Архивов Великобритании (The National Archives, TNA) была опубликована на сайте TNA 17 октября 2018 года.
В течение последних нескольких месяцев мы работали над моделью архивных данных с целью сделать ее достаточно гибкой, чтобы её можно было использовать для наших собственных потенциальных будущих потребностей и сделать доступной для всех наших пользователей - см. наши предыдущие посты «Моделирование наших электронных архивных данных» (Modelling our digital archival data, https://blog.nationalarchives.gov.uk/blog/modelling-digital-archival-data/ , перевод на русский язык см. http://rusrim.blogspot.com/2018/02/blog-post_6.html - Н.Х.) и «Электронная архивация: семь столпов метаданных» (Digital archiving: the seven pillars of metadata, https://blog.nationalarchives.gov.uk/blog/digital-archiving-seven-pillars-metadata/ , перевод на русский язык см. https://rusrim.blogspot.com/2018/04/blog-post_19.html - Н.Х.).
В этом проекте участвовала разнородная группа сотрудников организации, начиная от ряда ведущих экспертов в предметной области и заканчивая простыми людьми вроде меня. Я начала свою работу в качестве стажёра примерно год назад. У меня не было никаких предварительных знаний или понимания того, как будет работать архив, поэтому с самого начала я посвятила массу своего времени изучению архивной терминологии и концепций. Эти знания оказались полезными при разработке модели наших архивных данных, и это позволило мне привнести в проект свежий взгляд и видение, отдающее приоритет цифровым технологиям.
Сейчас мы находимся в такой точке работы, где благодаря коллективным усилиям и итеративному процессу наша модель вызрела в солидный первоначальной проект документа.
Рис.1. Первоначальный проект модели данных
Лично я не считаю, что эта наша первая итерация модели (на рис.1) уже достаточно гибкая и доступная; и в последние несколько месяцев я сама столкнулась с рядом проблем:
- Трудности с пониманием архивной терминологии и понятий (таких, например, как «набор документов» и «серия») влияют на доступность для тех, кто еще не привык к архивам;
- Глубокие и негибкие корни физической архивной структуры влияют на всё, что мы делаем, даже на наши электронные продукты.
Коллекция (collection) - это искусственно созданная подборка материалов / документов, основанная на категоризации, которую архивист считает значимой. (сравните российские определения, см. http://www.ciscra.org/mat/mat/term/2219 - Н.Х.)Во-первых, хотя слово «происхождение» не обязательно сразу узнаваемо для непрофессионала, однако стоящая за ним концепция в целом понятна. Словарь (имеется в виду словарь типа Оксфордского, см, например, здесь: https://en.oxforddictionaries.com/definition/provenance - Н.Х.) определяет этот термин как «место происхождения или самая ранняя известная история чего-либо», - поэтому, по сути, он отражает взаимосвязь между вещами и местами.
Набор (set) / Серия (series) - это массив материалов / документов, управление которыми обычно осуществляется исходя из их естественного происхождения (provenance - см. ниже) от создателя документов.
Происхождение (provenance) - организация, из которой происходят документы, и причина их создания (сравните с определением здесь: http://www.ciscra.org/mat/mat/term/2782 - Н.Х.)
Документ (record) / Информационный объект. материал (document) - объект, важный с точки зрения архивного дела.
Дело (file) – объект, представляющий собой группу собранных вместе документов
Во-вторых, «архивное» определение слова «file» (в значении «дело» - Н.Х.) сейчас очень отличается от его общераспространенного понимания. Это может быть связано с участившимся использованием данного слова в качестве ссылки на цифровые файлы (такие, например, как текстовой документ или PDF-файл), а не на «контейнер», содержащий набор документов. В этой связи термин «file» должен быть зарезервирован прежде всего для использования в его общепринятом смысле, а не для ставшей теперь малоупотребительной архивной трактовки.
Как и в ситуации с приведенными выше двумя терминами, я считаю, что исключение из нашей модели понятий «коллекция», «серия» и «набор документов» в определенной степени облегчит понимание богатства имеющейся у нас информации. Когда я впервые начала пользоваться онлайн-каталогом Национальных Архивов «Открытие» (Discovery, http://discovery.nationalarchives.gov.uk/ ), я сильно путалась из-за этих терминов ; они просто неинтуитивны в мире, где люди привыкли искать нужную им информацию (с помощью Google и другие современных поисковых служб) по ключевым словам, а не указывая близкие термины и контексты.
Но каким словом заменить «серию»? Возможно, если бы мы, - как это делают упомянутые современные службы поиска, - допустили бы естественную группировку документов в соответствии с их взаимосвязями с рядом контекстуальных элементов (происхождение, время, люди, контент, форма, тема и т.д.), это помогло бы пользователям более эффективно понимать документы.
Всё это прекрасно сочетается со второй проблемой, с которой я столкнулась, - жесткой хваткой, которой «бумажные» методы архивации держат нашу нынешнюю концептуальную модель. Если мы удалим очень физическое понятие «коллекции» или «набора» как места хранения документов, во что превратится документ? И как он может быть отсортирован?
Если мы изолируем как самостоятельные отдельные элементы сущности «документ», «происхождение», «время», «люди», «контент», «форма» и «тема», нам не нужно будет устанавливать такое же наследование или иерархию. Документы будут представлять собой самостоятельные объекты данных (конечно же, со связями с другими документами), тем самым давая пользователям возможность получать доступ к нашим данным гораздо более «цифровым по умолчанию» способом.
Мой комментарий: Жаль, что в Национальных Архивах Великобритании девушке никто не подсказал, что при таком подходе чрезвычайно легко – случайно или умышленно – совершенно иначе, неверно интерпретировать документы и сделать огромное количество «великих открытий».
Мы можем пойти еще дальше в деле концептуализации, и разделить «документ» на
- Физическое / цифровое воплощение документа.
Пример: электронный файл (например, DOC), содержащий пять страниц в формате Microsoft Word Document - Концептуальную идею документа.
Пример: знание того, что этот Word-документ является инструкцией «Выдача пособий лицам, ищущим работу» (Job Seeker’s Allowance Interventions), раздел 7: «Отсутствие отдела рынка труда» - и всего следующего из этого контекста.
Если мы избавимся от всех ограничений «физического короба» («коллекция» / «серия» / «набор документов») в отношении наших цифровых данных, у нас останется ряд важных контекстуальных элементов:
- документы
- файлы
- люди
- места
- события
- органы / организации
- функции / задачи
- форматы
Таким образом, мы имеем «стартовую точку» из восьми сущностей для включения в первую итерацию модели; это может измениться по мере её применения, - но, тем не менее, это достаточно общая отправная точка.
В данном примере применения предлагаемой мной модели Вы можете увидеть, как, путем включения в модель обязательных сущностей, документу могут быть приданы как контекст, так и форма.
Связи будут самой богатой и разнообразной частью графа, поскольку - отражая реальную жизнь – они представляют собой контекстуальные связи между всеми сущностями. Естественно, что, связывая сущности посредством правдивого представления их взаимосвязей, мы можем раскрывать и исследовать неявные «серии», не имея при этом необходимости навязывать цифровым носителям информации унаследованную от физических документов концепцию «набора» (как своего рода «ящика» или системы размещения документов в дела).
Отчасти вопреки интуиции, для того, чтобы эта модель была максимально расширяемой и гибкой, эти взаимосвязи не стоит явным образом описывать до тех пор, пока дело не дойдёт до внедрения модели – и их, вероятно, будет слишком много, чтобы спланировать эту работу!
Богатый, детальный контекст, который обеспечивают эти взаимосвязи, будет способствовать исполнению естественно сформулированных языковых запросов, а не только тех, которые касаются названия или описания документа. Если кому-то нужно будет найти все документы о конкретном событии, в определенном диапазоне дат, связанных с конкретным человеком, то будет возможность эффективно запросить эту информацию.
Надеюсь, это поможет людям отыскать и понять те документы, на которые они хотят взглянуть; с этим вопросом тесно связана кандидатская диссертация, работа над которой в настоящее время проводится в Национальных Архивах с тем, чтобы получить представление о том, как «пользователи представляют себе устройство электронных архивов». По ходу этой работы изучается понимание нашими пользователями понятий, которые вводятся архивами.
Наконец, в ходе изучения концепции и понятий меня заинтересовал вопрос о том, достаточно делаем для выполнения нашего долга по обеспечению доступа общественности в плане нашей терминологии / концептуальной структуры. Должны ли мы рассматривать это как возможность выявить «бумажные» основы, на которых мы построили наш онлайн-каталог, и преобразовать их таким образом, чтобы получить более понятный, «цифровой по умолчанию» инструмент поиска?
Аннабель Бейнс (Annabel Baynes)
Мой комментарий: Больше всего меня заинтриговало то, что Национальные Архивы Великобритании сочли полезным разместить этот пост на своём блоге, в который абы что не попадает. Понятно, что некоторые идеи автора весьма спорны; но также ясно и то, что электронные архивы будущего неизбежно будут очень отличаться от традиционных архивов, и британцы, надо отдать им должное, активно ищут новые решения, с учетом меняющихся привычек и запросов своих пользователей.
Источник: Блог Национальных Архивов Великобритании
https://blog.nationalarchives.gov.uk/blog/modelling-archival-data-outsiders-perspective/
Комментариев нет:
Отправить комментарий