вторник, 20 февраля 2024 г.

Проблемы, связанные с архивированием научно-исследовательских данных

Данная заметка была опубликована 18 января 2024 года на блоге ( https://openscience.pasteur.fr/ ) Института Пастера (Institut Pasteur, о нём см. https://ru.wikipedia.org/wiki/Институт_Пастера ) - французского частного некоммерческого научного института в Париже, занимающегося исследованиями в области биологии, микроорганизмов, инфекционных заболеваний и вакцин.

По мнению Национального вычислительного центра системы высшего образования Франции (Centre Informatique National de l’Enseignement Supérieur, CINES, https://www.cines.fr/ ), обеспечение долговременной сохранности электронных документов заключается в сохранении документа и содержащейся в нём информации (как их физического, так и интеллектуального аспектов) в течение очень длительного времени таким образом, чтобы он постоянно был доступен и понятен. Это предполагает борьбу с рядом угроз, таких как устаревание оборудование, устаревание программного обеспечения, устаревание файловых формата и утрата возможности понять смысл содержания (см. https://www.cines.fr/archivage/un-concept-des-problematiques/ ).

К этому добавляется проблема экспоненциального роста объемов научных данных. В связи с этим вопрос обеспечения долговременной сохранности этих цифровых данных начинает серьёзно беспокоить научно-исследовательские организации. Что нам делать с этими данными, для хранения которых требуется много места? Следует ли нам сохранить их или удалить? На данный вопрос нет простого ответа, и он, в свою очередь, порождает ряд других вопросов. В этом посте мы предлагаем неисчерпывающий перечень проблемных вопросов, связанных с архивированием научно-исследовательских данных.

Понятно, что в долгосрочной перспективе невозможно сохранить абсолютно все данные, полученные в ходе исследований. Но как отбирать данные на архивное хранение? Кто обладает достаточным опытом для того, чтобы определить, представляют ли конкретные данные долгосрочный научный / исторический интерес? Одним из возможных вариантов могло бы быть сохранение только данных, относящихся к публикациям, а также тех, на которые распространяется законодательно-нормативные требования в отношении сроков хранения. Но не потеряем ли мы при таком подходе значительную часть научного наследия?

Далее, стаёт вопрос о том, почему мы хотим сохранить конкретные данные. Что побуждает нас к этому – правовые вопросы (исполнение законодательно-нормативных и иных установленных требований в отношении сроков хранения, сохранение на случай судебных разбирательств и т.п.), вопросы обеспечения целостности и воспроизводимости научных исследований, повторного использования данных, сохранения в качестве культурно-исторического наследия и ввиду исторической ценности данных (в качестве свидетельств научной деятельности учреждения в определённое время)? Ответ на этот вопрос влияет на способ архивирования данных (выбор формата, уровня безопасности, уровня доступности и т.д.). Данный вопрос приводит к следующему: сколь долго следует хранить данные исследований?

Одним из ключевых факторов для сохранения возможность понимать контент файлов является описание заархивированных данных, а также документация, отражающая контекст их создания. Однако кто несёт ответственность за описание и документацию? Работа по их созданию и поддержанию требует больших трудозатрат и должна осуществляться производителями данных, то есть учёными и исследователями. Однако в настоящее время эта деятельность не ценится, и у исследователей не так много времени, которое они могли бы выделить на неё. Далее, встаёт вопрос о том, следует ли сохранять связь между данными исследований и описывающими контекст материалами (такими как электронный лабораторный журнал, план управления данными, проектная и кадровая документация и т. д.)? И если да, то каким образом?

Также возникает вопрос о том, в какой момент времени следует проводить захват подлежащих сохранению данных. К архивным службам обычно обращаются тогда, когда лаборатория закрывается или исследователь уходит на пенсию, и это часто бывает слишком поздно: архивист в одиночку не в состоянии ни реорганизовать накопившиеся за годы «цифровые отложения», ни задокументировать их, не имея опыта и знаний производителей данных. Так когда же лучше всего архивировать данные – делать это регулярно, по окончании научно-исследовательского проекта, или как-либо иначе?

Наконец, встает технический вопрос: какой инструмент использовать для архивирования этих данных? Можем ли мы доверить обеспечение долговременной сохранности данных хранилищам данных ( https://openscience.pasteur.fr/2021/01/15/les-entrepots-de-donnees/ )? Трудность заключается в том, что основная цель этих хранилищ - облегчить распространение и выявление научных данных; большинство из них не предназначены для обеспечения их жизнестойкости. Бывает и так, что хранилища данных, которые не всегда реализуют стратегии, позволяющие избежать утраты данных, просто исчезают ( https://openscience.pasteur.fr/2023/11/27/disparition-de-certains-entrepots-de-donnees-quel-impact-sur-lacces-aux-donnees/ ). Кроме того, наличие множества хранилищ данных приводит к рассредоточению данных и зачастую к потере взаимосвязей между ними и элементами описания контекста. Так не следует ли нам использовать один и тот же инструмент для архивирования как данных исследований, так и описывающих контекст документов? Разве мы не должны архивировать всю производимую лабораторией информацию и документацию в одном месте?

Все эти вопросы являются сложными, и на данный момент на них нет однозначных ответов. Тем не менее, ключевую роль в обеспечении долговременной сохранности данных играет применение ряда передовых методов и подходов:

  • Применение передовых методы организации / систематизации, именования и описания файлов, облегчающих поиск, извлечение и понимание данных (как это сделать, мы объясняем здесь:  https://openscience.pasteur.fr/2021/04/12/comment-organiser-et-nommer-ses-donnees/ );

  • Предпочтительное использование открытым, стандартизированным либо широко применяемых файловых форматов, для которых меньше риски морального устаревания;

  • Разработка и реализация плана управления данными - например плана управления данными организации ( https://openscience.pasteur.fr/2023/02/02/comment-rediger-un-plan-de-gestion-des-donnees-pour-son-entite-de-recherche/ ) с тем, чтобы коллективно продумать вопросы управления и обеспечения сохранности данных, а также договориться о той передовой практике, которую следует принять на вооружение.

Источник: блог Института Пастера
https://openscience.pasteur.fr/2024/01/18/les-problematiques-liees-a-larchivage-des-donnees-de-la-recherche/

Комментариев нет:

Отправить комментарий