среда, 5 августа 2020 г.

ePADD: Архивирование электронных писем с помощью инструмента с открытым исходным кодом


Данная заметка помощника директора отдела специальных коллекций и университетских архивов Библиотек Стэнфордского университета Глин Эдвардс (Glynn Edwards – на фото) была опубликована 13 июня 2020 года на блоге Международного совета архивов ( https://blog-ica.org/ ) в рамках серии постов, приуроченных к Международной неделе архивов и международному дню архивов.

Около десяти лет тому назад архивисты Стэнфордского университета (Stanford University) выделили электронную почту как один из наиболее важных форматов, долговременную сохранность и доступность которых для исследователей необходимо обеспечить. Мы изучили положение дел в этой области и обнаружили, что во всех предыдущих проектах основное внимание уделялось обеспечению сохранности, а не поиску, раскрытию или доступу. Очень удачным оказалось то, в 2011 году мы встретились с Судхендрой Хангалом (Sudheendra Hangal), в то время аспирантом факультета компьютерных наук Стэнфордского университета, который создал программу под названием MUSE ( https://mobisocial.stanford.edu/muse/ ) в качестве инструмента просмотра личного архива электронной почты. Программа предлагала функциональные возможности, которых не было где-либо ещё, и она давала нам возможность анализировать изображения и текст на предмет наличия в них чувствительного контента. Открытие доступа исследователям к материалам из архивов электронной почты могло осуществляться через отдельную систему в нашем читальном зале.

Идея дальнейшей разработки этого программного обеспечения с целью создания более надежного инструмента с открытым исходным кодом захватила нас всех. Вместе с Судхендрой мы подготовили нашу первую заявку на грант Национальной комиссии по историческим публикациям и документам (National Historical Publications and Records Commission, NHPRC – через неё финансируется публикация исторические документы, выдаются гранты на обеспечение сохранности, доступа и на оцифровку архивов и т.д. – Н.Х.), см. https://library.stanford.edu/projects/epadd/development/nhprc-phase-1 ). Спустя два года, в 2015 году, мы выпустили базовый прототип решения ePADD (от «Email: Process Appraise Discover Deliver» - «Электронная почта: Обработка, экспертиза ценности, поиск, предоставление доступа»). Наши главные цели заключались в том, чтобы получить возможность выявлять персональные данные и чувствительные материалы, а также обеспечить большую гибкость в плане стратегий поиска. Ещё одной важной задачей было создание сайта для поиска материалов, где мы исходили из предпосылки о том, что для того, чтобы исследователи могли найти нужный им контент, нам необходимо опубликовать метаданные.

После этого мы получили грант от Института музейно-библиотечных услуг (Institute of Museum and Library Services, IMLS, https://www.imls.gov/  - независимый орган правительства США, оказывающий поддержку музеям и библиотекам всех видов – Н.Х.) на 2015-2018 годы (см. https://library.stanford.edu/projects/epadd/about/imls-phase-2 ) - для продолжения разработок и для расширения сообщества пользователей. Что касается модуля онлайн-поиска, то нам нужно было заверить доноров, а также директоров наших библиотек, что будут опубликованы только описательные метаданные. Это требование соблюдается в нашей текущей версии (7.2), которая доступна через сайт GitHub.

В этом году мы получили грант Фонда Эндрю Меллона (Andrew W. Mellon Foundation, https://library.stanford.edu/projects/epadd/about/andrew-w-mellon-foundation-phase-3 ) и снова договорились о сотрудничестве с библиотекой Гарвардского университета о дальнейшем развитии решения. Наша главная цель - переработать функцию анализа присоединённых файлов, поскольку она основана на технологии Adobe Flash, которая перестанет поддерживаться в декабре 2020 года. Нарождающееся решение заключается в создании панели для просмотра и анализа всех вложений, использующей Apache Tika для визуализации простого текста для многих распространенных текстовых типов файлов.

Также ставится задача во взаимодействии с нашими партнерами разработать функциональные требования для включения в ePADD действий по обеспечению долговременной сохранности, которые сделают возможным экспорт в долговременные хранилища. Мы пришли к этой стратегии после нескольких месяцев встреч, направленных на обеспечение интероперабельности между ePADD и решением EAS Гарвардского университета ( https://wiki.harvard.edu/confluence/display/LibraryStaffDoc/2.+Overview+of+EASi ). В эти усилия теперь также вовлечены сотрудники университета Манчестера ( https://rylandscollections.com/2020/02/05/introducing-epadd-for-email-archives-at-the-university-of-manchester/ ), которые самостоятельно работали с ePADD в прошлом году. Наше сотрудничество с этими двумя учреждениями было великолепно плодотворным и конструктивным, в результате были разработаны планы будущей работы по обеспечению долговременной сохранности электронной почты и расширению поддержки в ePADD дополнительных языков.

В этом году работать в проекте развития ePADD было весьма интересно. Вместо личных встреч с нашими партнерами и разработчиками, которые продолжались в течение нескольких дней, мы сейчас полагаемся на более частые виртуальные встречи – развернуть полностью виртуальный проект оказалось гораздо проще, чем предполагалось.

Глин Эдвардс (Glynn Edwards)

Источник: блог МСА
https://blog-ica.org/2020/06/13/epadd-archiving-emails-with-an-open-source-tool/

Комментариев нет:

Отправить комментарий