По мнению Национального вычислительного центра системы высшего образования Франции (Centre Informatique National de l’Enseignement Supérieur, CINES, https://www.cines.fr/ ), обеспечение долговременной сохранности электронных документов заключается в сохранении документа и содержащейся в нём информации (как их физического, так и интеллектуального аспектов) в течение очень длительного времени таким образом, чтобы он постоянно был доступен и понятен. Это предполагает борьбу с рядом угроз, таких как устаревание оборудование, устаревание программного обеспечения, устаревание файловых формата и утрата возможности понять смысл содержания (см. https://www.cines.fr/archivage/un-concept-des-problematiques/ ).
К этому добавляется проблема экспоненциального роста объемов научных данных. В связи с этим вопрос обеспечения долговременной сохранности этих цифровых данных начинает серьёзно беспокоить научно-исследовательские организации. Что нам делать с этими данными, для хранения которых требуется много места? Следует ли нам сохранить их или удалить? На данный вопрос нет простого ответа, и он, в свою очередь, порождает ряд других вопросов. В этом посте мы предлагаем неисчерпывающий перечень проблемных вопросов, связанных с архивированием научно-исследовательских данных.
Понятно, что в долгосрочной перспективе невозможно сохранить абсолютно все данные, полученные в ходе исследований. Но как отбирать данные на архивное хранение? Кто обладает достаточным опытом для того, чтобы определить, представляют ли конкретные данные долгосрочный научный / исторический интерес? Одним из возможных вариантов могло бы быть сохранение только данных, относящихся к публикациям, а также тех, на которые распространяется законодательно-нормативные требования в отношении сроков хранения. Но не потеряем ли мы при таком подходе значительную часть научного наследия?
Далее, стаёт вопрос о том, почему мы хотим сохранить конкретные данные. Что побуждает нас к этому – правовые вопросы (исполнение законодательно-нормативных и иных установленных требований в отношении сроков хранения, сохранение на случай судебных разбирательств и т.п.), вопросы обеспечения целостности и воспроизводимости научных исследований, повторного использования данных, сохранения в качестве культурно-исторического наследия и ввиду исторической ценности данных (в качестве свидетельств научной деятельности учреждения в определённое время)? Ответ на этот вопрос влияет на способ архивирования данных (выбор формата, уровня безопасности, уровня доступности и т.д.). Данный вопрос приводит к следующему: сколь долго следует хранить данные исследований?
Одним из ключевых факторов для сохранения возможность понимать контент файлов является описание заархивированных данных, а также документация, отражающая контекст их создания. Однако кто несёт ответственность за описание и документацию? Работа по их созданию и поддержанию требует больших трудозатрат и должна осуществляться производителями данных, то есть учёными и исследователями. Однако в настоящее время эта деятельность не ценится, и у исследователей не так много времени, которое они могли бы выделить на неё. Далее, встаёт вопрос о том, следует ли сохранять связь между данными исследований и описывающими контекст материалами (такими как электронный лабораторный журнал, план управления данными, проектная и кадровая документация и т. д.)? И если да, то каким образом?
Также возникает вопрос о том, в какой момент времени следует проводить захват подлежащих сохранению данных. К архивным службам обычно обращаются тогда, когда лаборатория закрывается или исследователь уходит на пенсию, и это часто бывает слишком поздно: архивист в одиночку не в состоянии ни реорганизовать накопившиеся за годы «цифровые отложения», ни задокументировать их, не имея опыта и знаний производителей данных. Так когда же лучше всего архивировать данные – делать это регулярно, по окончании научно-исследовательского проекта, или как-либо иначе?
Наконец, встает технический вопрос: какой инструмент использовать для архивирования этих данных? Можем ли мы доверить обеспечение долговременной сохранности данных хранилищам данных ( https://openscience.pasteur.fr/2021/01/15/les-entrepots-de-donnees/ )? Трудность заключается в том, что основная цель этих хранилищ - облегчить распространение и выявление научных данных; большинство из них не предназначены для обеспечения их жизнестойкости. Бывает и так, что хранилища данных, которые не всегда реализуют стратегии, позволяющие избежать утраты данных, просто исчезают ( https://openscience.pasteur.fr/2023/11/27/disparition-de-certains-entrepots-de-donnees-quel-impact-sur-lacces-aux-donnees/ ). Кроме того, наличие множества хранилищ данных приводит к рассредоточению данных и зачастую к потере взаимосвязей между ними и элементами описания контекста. Так не следует ли нам использовать один и тот же инструмент для архивирования как данных исследований, так и описывающих контекст документов? Разве мы не должны архивировать всю производимую лабораторией информацию и документацию в одном месте?
Все эти вопросы являются сложными, и на данный момент на них нет однозначных ответов. Тем не менее, ключевую роль в обеспечении долговременной сохранности данных играет применение ряда передовых методов и подходов:
- Применение передовых методы организации / систематизации, именования и описания файлов, облегчающих поиск, извлечение и понимание данных (как это сделать, мы объясняем здесь: https://openscience.pasteur.fr/2021/04/12/comment-organiser-et-nommer-ses-donnees/ );
- Предпочтительное использование открытым, стандартизированным либо широко применяемых файловых форматов, для которых меньше риски морального устаревания;
- Разработка и реализация плана управления данными - например плана управления данными организации ( https://openscience.pasteur.fr/2023/02/02/comment-rediger-un-plan-de-gestion-des-donnees-pour-son-entite-de-recherche/ ) с тем, чтобы коллективно продумать вопросы управления и обеспечения сохранности данных, а также договориться о той передовой практике, которую следует принять на вооружение.
Источник: блог Института Пастера
https://openscience.pasteur.fr/2024/01/18/les-problematiques-liees-a-larchivage-des-donnees-de-la-recherche/
Комментариев нет:
Отправить комментарий