четверг, 10 декабря 2020 г.

Обеспечение «интегрированности» в интегрированных IPS-решениях для обеспечения долговременной сохранности

Данная заметка Питера Мэя (Peter May – на фото) была опубликована 18 августа 2020 года на блоге фонда «Открытая сохранность» (Open Preservation Foundation, OPF).

На 16-й международной конференции по обеспечению долговременной сохранности электронных объектов iPRES 2019 (о ней см. также мои посты https://rusrim.blogspot.com/2019/07/16-ipres-2019-16-20-2019.html , https://rusrim.blogspot.com/2019/07/ipres-2019.html и http://rusrim.blogspot.com/2019/12/ipres-2019.html - Н.Х.) я представил доклад (см. https://osf.io/2rbcj/ ) о нашем проекте «Интегрированный инструментальный набор для обеспечения долговременной сохранности» (Integrated Preservation Suite,  IPS, https://www.bl.uk/projects/integrated-preservation-suite ).

В докладе описан осуществляемый нами в течение нескольких лет внутренний проект по разработке управляемого через центральный веб-интерфейс набора сервисов для планирования деятельности по обеспечению долговременной сохранности в больших масштабах. В число основных компонентов входят:

  • база знаний технической информации о форматах файлов и программном обеспечении (реализованная в виде графовой базы данных на платформе Neo4J);

  • репозиторий программного обеспечения для обеспечения долговременной сохранности, способного отображать материалы наших электронных коллекций; и

  • хранилище документов для хранения политик, планов обеспечения долговременной сохранности и иной документации, имеющей отношение к обеспечению долговременной сохранности.

Архитектурная диаграмма, показывающая функции (поиск, курирование, наблюдение, планирование, управление плагинами) «рабочей станции по обеспечению долговременной сохранности» (Preservation Workbench), а также другие основные компоненты интегрированного IPS-решения.

Высокоуровневая архитектура IPS-решения

На момент моего доклада в 2019 году, мы работали над внутренним релизом решения, поддерживавшим две основные функции:

  • начальную функцию планирования деятельности по обеспечению долговременной сохранности на основе веб-формы; и

  • страницу поиска для поиска информации о программном обеспечении и файловых форматах.

Эти функции были показаны в проведенной мною на конференции демонстрации, но они на более ранний, неуправляемый импорт данных в базу знаний.

С тех пор – преодолевая в том числе неудобства, связанные с мерами против пандемии Covid19 - мы прилагаем большие усилия для того, чтобы довести до конца процесс курирования базы знаний с целью совершенствования «сквозного» импорта данных. В частности, мы хотим избежать дублирования записей; импортированные данные об уже зафиксированном в базе знаний файловом формате должны связываться с основной записью в базе об этом формате. На приведенной ниже диаграмме приведена схема реализованного нами процесса.


Адаптер источника данных (data source adapter) анализирует источник данных (например, веб-страницу), структурирует информацию в соответствии с нашей моделью данных и добавляет «узлы данных» в базу данных промежуточной зоны (staging area). Специалист, используя «рабочую станцию по обеспечению долговременной сохранности» (IPS Workbench), переносит данные из промежуточной зоны в базу знаний. Этот специалист контролируют, какие узлы данных промежуточной базы добавляются как новые узлы базы знаний, какие - объединяются с уже существующими узлами, а какие удаляются; с этой целью адаптер курирования (curation adapter) реализует логику управления данными. После завершения процесса у нас будет обновленная, курированная база знаний.

Процесс курирования базы знаний IPS-решения

Чтобы такой процесс курирования заработал, нам сначала пришлось расширить возможности нашей библиотеки управления данными (Data Management Library, DML) – Python-библиотеки, используемой адаптером курирования для связи с базой знаний, и позволяющей ему находить, добавлять и обновлять узлы и взаимосвязи в графе. DML-библиотека должна была показывать, какие узлы были успешно добавлены / обновлены. После этого нам пришлось модифицировать адаптер курирования с тем, чтобы удалять успешно отобранные элементы из промежуточной области после того, как они были скопированы в базу знаний. Затем нам пришлось реализовать прикладной RESTful API-интерфейс курирования для управления адаптером курирования и предоставления обратной связи пользовательскому интерфейсу «рабочей станции» (Workbench). В настоящее время мы завершаем обновление пользовательского интерфейса «рабочей станции» для использования API-интерфейса курирования, после чего перейдем к его тестированию!

Еще одной важной областью совершенствования является интеграция репозитория программного обеспечения с результатами поиска, полученными программным обеспечением «рабочей станции». Мы хотим обеспечить возможность отыскания используемого для целей долговременной сохранности программного обеспечения и его скачивания через «рабочую станцию» (а не отдельно через репозиторий программного обеспечения). Для этого потребовалось разработать API-интерфейс для репозитория программного обеспечения, а также адаптера репозитория, реализующий этот API-интерфейс. Мы также усовершенствовали модель данных базы знаний для захвата сведений о программном обеспечении, включенном в репозиторий программного обеспечения. Сейчас эта функциональная возможность у нас на базовом уровне уже работает, что дает возможность «рабочей станции» сообщать о соответствующем программном обеспечении для долговременной сохранности и выдавать ссылки для его скачивания.

Пользовательский интерфейс IPS-решения, который в данном случае дает активную гиперссылку на программное обеспечение JHOVE.

Как только эти усилия будут доведены до конца, на следующем этапе разработки мы займёмся совершенствованием процесса планирования деятельности по обеспечению долговременной сохранности, с тем, чтобы более эффективно использовать базу знаний. Как, например, улучшить процесс подбора вариантов для плана по обеспечению сохранности на основе сведений об особенностях коллекции, рисках, файловых форматах и о программном обеспечении? Мы также постараемся разработать новые адаптеры для источников данных, улучшить существующие, и начать наполнять нашу базу знаний тщательно контролируемым образом. Не пропустите наши будущие вебинары о достигнутом нами прогрессе!

Питер Мэй (Peter May)

Источник: блог фонда «Открытая сохранность»
https://openpreservation.org/blogs/putting-the-i-in-ips/

Комментариев нет:

Отправка комментария