Показаны сообщения с ярлыком связанные данные. Показать все сообщения
Показаны сообщения с ярлыком связанные данные. Показать все сообщения

среда, 7 сентября 2022 г.

«Концепция обеспечения электронной сохранности» Национальных Архивов США начинает работать как связанный открытый набор данных

Данная статья Виктории Макки (Victoria Macchi) и Анджелы Тудико (Angela Tudico) была опубликована на сайте Национальных Архивов США (NARA) 25 августа 2022 года.


Новое оборудование в компьютерном зале «Сандия» (Sandia), принадлежащем Национальному управлению ядерной безопасности Министерства энергетики США, 1983 год. Национальные Архивы США поддерживают базу данных, содержащую сведения о том, как обеспечивать долговременную сохранность материалов в 684 файловых форматах, некоторые из которых поступили на хранение в ходе первых передач электронных документов на постоянное архивное хранение 50 лет тому назад (адрес в Онлайн-каталоге Национальных Архивов США: https://catalog.archives.gov/id/75471761 ).

Начиная с 25 августа 2022 года, Национальные Архивы США (National Archives and Records Administration, NARA) делают свою Концепцию обеспечения электронной сохранности (Digital Preservation Framework) доступной в виде связанного открытого набора данных (см. https://www.archives.gov/preservation/digital-preservation/linked-data ) – это первый такой опыт для NARA.

Набор данных, предназначенный для обмена материалами исследований Национальных Архивов со специалистами в области электронной сохранности по всему миру, расширяет возможности доступа к информации, которая ранее была доступна только через портал GitHub (см.  https://github.com/usnationalarchives/digital-preservation ). Связанные открытые данные (Linked Open Data) - это метод публикации данных в машиночитаемом виде, который позволяет связывать и обогащать их с помощью ссылок на непосредственно взаимосвязанные ресурсы, опубликованные другими организациями.

Концепция обеспечения электронной сохранности (Digital Preservation Framework) описывает передовые методы обеспечения долговременной сохранности для 684 файловых форматов, некоторые из которых поступили на хранение в ходе первых передач электронных документов на постоянное архивное хранение 50 лет тому назад.

В состав сведений включена оценка уровня риска для определенных типов файлов, вместе с отмеченными наградами предложениями группы Национальных Архивов по обеспечению долговременной сохранности электронных материалов относительно того, как обращаться, например, с файлами чертежей, изготовленных в определенной системе автоматизированного проектирования (САПР) начала 1990-х годов (см.  https://ndsa.org/2020/11/12/ndsa-announces-winners-of-2020-innovation-awards.html ).

«Если я – специалист по управлению документами, и в одном из подразделений федерального органа исполнительной власти, в котором я работаю, имеются документы, которыми нужно управлять, прежде чем передать их на постоянное архивное хранение в Национальные Архивы в соответствии с указаниями по срокам хранения и действиям по их истечении; и если некоторые из них представлены в необычных файловых форматах, не охватываемых Руководством по передаче документов в Национальные Архивы США (NARA Transfer Guidance), то использование Концепции - наилучший способ получить наши рекомендации о том, что можно сделать для обеспечения сохранности этих документов», - поясняет директор Национальных Архивов по вопросам электронной сохранности г-жа Лесли Джонстон (Leslie Johnston).

Общественность может использовать связанные данные тремя способами:

  • Скачивать полностью планы поддержки файловых форматов в составе Концепции обеспечения электронной сохранности, а также поддерживающую документацию, необходимую для работы с наборами данных, доступных в виде связанных открытых данных в формате RDF Turtle (ttl);

  • Просматривать полный список файловых форматов, чтобы найти файл связанных открытых данных формата Open Data RDF Turtle для плана обеспечения долговременной сохранности для конкретного файлового формата. Некоторые форматы описаны одновременно в нескольких категориях документов;

  • Просматривать списки форматов по категориям документов.

Запуск связанного открытого набора данных является кульминацией пяти лет исследований и сотрудничества как в рамках Национальных Архивов США, так и с аналогичными учреждениями. Он будет обновляться ежеквартально, чтобы отслеживать появление новых форматов и идти в ногу с эволюционирующими стандартами обеспечения долговременной сохранности электронных материалов. Старший специалист по электронной сохранности Элизабет Инглэнд (Elizabeth England) из отдела электронной сохранности NARA выполнила техническую работу по созданию версии Концепции обеспечения электронной сохранности в виде связанных данных; а группа электронной сохранности Управления инноваций (Office of Innovation) развернула среду для публичного доступа.

«Я горжусь усердной работой этих двух групп по продвижению миссии Национальных Архивов, заключающейся в расширении публичного доступа не только к нашим документам, но и к материалам наших исследований», - отметила исполняющая обязанности Архивиста США (руководителя Национальных Архивов США – Н.Х.) Дебра Стейдел Уолл (Debra Steidel Wall). «Их приверженность повышению прозрачности и обеспечению долговременной сохранности электронных материалов позволит специалистам во всём мире совершенствовать осуществляемое ими управление документами».

С запуском этого проекта, Национальные Архивы присоединяются к другим близким по роду деятельности учреждениям, таким как Библиотека Конгресса США (см. https://www.loc.gov/preservation/resources/rfs/?mc_cid=b39e13fe9e&mc_eid=6aa4dd35d0 ) в плане предоставления такого ресурса.

«Таким образом Национальные Архивы по-серьёзному присоединяются к сообществу связанных данных», - сказала Джонстон, которая вместе с восемью своими коллегами на протяжении нескольких лет исследований разрабатывала наборы данных.

Людям, далёким от области обеспечения электронной сохранности, может быть сложно понять ценность этих наборов данных. Но Джонстон хочет, чтобы общественность осознавала, какие усилия требуются для обеспечения, например, того, чтобы файлы, администрации президента, созданные в 2022 году, оставались доступными на протяжении предстоящий десятилетий.

«Мы выкладываем ресурс, который вписывается в более широкий набор международных ресурсов, таких как вики по вопросам электронной сохранности (Wikidata for Digital Preservation, https://www.wikidata.org/wiki/Wikidata:Main_Page  - каталог файловых форматов – Н.Х.)», - отмечает Джонстон. «Это означает, что Вы можете найти соответствующую информацию изо всех авторитетных источников и воспользоваться теми знаниями, которые мы и другие исследователи накопили о сотнях форматов, а также нашими рекомендациями относительно того, что следует делать с ними для поддержания доступности».

Важность ресурса в виде связанных данных по сравнению с ранее выпущенной версией Концепции обеспечения электронной сохранности на портале GitHub (см. https://github.com/usnationalarchives/digital-preservation ) заключается в том, что этот ресурс можно интегрировать в различные существующие ресурсы профессионального сообщества; заинтересованные пользователи могут изучать информацию из авторитетных источников, поддерживающих аналогичные наборы данных.

Запущенный в 2019 году репозиторий на портале GitHub (см. https://github.com/usnationalarchives/digital-preservation ) останется активным и будет постоянно обновляться.

С ростом объёмов изначально-электронных документов и в связи с приближающимся крайним сроком перехода на электронные документы (согласно Директиве OMB M-19-21, https://www.archives.gov/files/records-mgmt/policy/m-19-21-transition-to-federal-records.pdf ), область обеспечения электронной сохранности приобретает всё большее значение и привлекает всё большее число специалистов, что повышает потребность в документированных стандартах и наилучших практиках.

В 2020 году группа Национальных Архивов по электронной сохранности получила награду американского «Национального альянса попечения об электронных материалах» (National Digital Stewardship Alliance, NDSA – см. https://www.archives.gov/press/press-releases/2021/nr21-11 ) за Концепцию обеспечения электронной сохранности Национальных Архивов США, которая стала фундаментом для запуска этого связанного открытого набора данных.

Вклад в международную коллекцию ресурсов для обеспечения электронной сохранности способствует выполнению целей Национальных Архивов по продвижению лидерства и прозрачности в управлении документами, и расширяет сферу охвата исследований, проводимых по всему миру.

Дополнительную информацию о усилиях Национальных Архивов США по обеспечению долговременной сохранности электронных материалов можно найти на сайте https://www.archives.gov/ .

Виктория Макки (Victoria Macchi) и Анджела Тудико (Angela Tudico)

Источник: сайт NARA
https://www.archives.gov/news/articles/digital-preservation-linked

воскресенье, 9 февраля 2014 г.

Три словаря «связанных данных» опубликованы как рекомендации консорциума W3C


Данная заметка была опубликована 16 января 2014 года на сайте Консорциума Всемирной паутины W3C (The World Wide Web Consortium, http://www.w3.org/ - международного сообщества, разрабатывающего открытые стандарты, обеспечивающие развитие интернета в долговременной перспективе).   

16 января 2014 года были опубликованы три рекомендации консорциума W3C, направленные на повышение совместимости (интероперабельности) данных, в первую очередь государственных данных. Каждая из рекомендаций определяет RDF-словарь (набор свойств и классов) для передачи информации определенного вида:
  • Словарь каталога данных DCAT (Data Catalog (DCAT) Vocabulary, http://www.w3.org/TR/2014/REC-vocab-dcat-20140116/ ) используется для предоставления информации об имеющихся источниках данных. При описании источников данных с помощью DCAT становится проще создавать высококачественные интегрированные и настроенные под нужды потребителей (кастомизированные) каталоги, включающие записи, полученные от различных поставщиков. Многие национальные порталы данных уже используют DCAT.

  • RDF-словарь Куба данных (RDF Data Cube Vocabulary, http://www.w3.org/TR/2014/REC-vocab-data-cube-20140116/  ) вводит в область связанных данных (linked data) модель «куба данных», лежащую в основе SDMX (популярного стандарта ИСО по обмену статистическими данными и метаданными ISO 17369:2013 Statistical data and metadata exchange (SDMX)). Этот словарь поддерживает публикацию статистических и других регулярно собираемых данных, таких, как данные измерений, и их последующую интеграцию и анализ с помощью инструментов на основе RDF (Resource Description Framework – правила описания ресурсов, сформулированные в официальной рекомендации консорциума W3C для семантических моделей веб-данных. См. также http://ru.wikipedia.org/wiki/Resource_Description_Framework  – Н.Х.).

  • Онтология организации (Organization Ontology, http://www.w3.org/TR/2014/REC-vocab-org-20140116/ ) предоставляет собой мощный и гибкий словарь для выражения официальных взаимоотношений и ролей внутри организации. Словарь способствует интероперабельности инструментов, используемых при управлении кадрами, и будет также  поддерживать появляющееся сейчас «социально-осведомленное» программное обеспечение (socially-aware software – ещё не устоявшийся термин, который, можно, например, трактовать как программное обеспечение, учитывающее и эксплуатирующее специфические особенности современной электронной среды, такие как социальные сети, многочисленные подключенные пользовательские устройства и т.д. – Н.Х.).
Все три словари были разработаны Рабочей группой по государственным связанным данным (Government Linked Data Working Group), однако они применимы и вне рамок государственных данных. Каждый документ содержит раздел о внедрении (Implementation Report), в котором можно найти ссылки на источники и сведения о программном обеспечении, в котором эти словари применяются.

Источник: сайт консорциума W3C
http://www.w3.org/blog/news/archives/3591