Данный пост руководителя проекта обеспечения долговременной сохранности данных в сфере физики высоких энергий в Европейской организации по ядерным исследованиям ЦЕРН (CERN) Джеми Шиерса (Jamie Shiers – на фото) был опубликован 20 ноября 2018 года на блоге британской Коалиции по электронной сохранности (Digital Preservation Coalition, DPC) среди материалов, приуроченных к Международному дню электронной сохранности, который отмечался 29 ноября 2018 года (см. https://dpconline.org/blog/idpd ).
С первых дней планирования Большого адронного коллайдера (Large Hadron Collider, LHC) было понятно, что он будет производить беспрецедентные объемы данных. По мере того, как мы завершаем второй многолетний цикл исследований (Run2) на коллайдере, объём архива данных CERN перешёл отметку в 300 петабайт. Большой адронный коллайдер с момента рестарта и начала третьего многолетнего цикла Run3 в 2021 году, включая его запланированные модификации, такие как «LHC на высокой светимости» (High Luminosity LHC), будет продолжать получать данные ещё в течение одного-двух десятилетий (так что общий срок производства данных от начала до конца составит 3 десятилетия).
Все эти данные – полученные в прошлом, получаемые сейчас и будущие - должны быть сохранены, по крайней мере, в течение всего периода проведения экспериментов на коллайдере, а, возможно, и дольше.
Для сравнения, данные, полученные на использовавшемся ранее Большом электронно-позитронном коллайдере (Large Electron Positron collider, LEP) в период с 1989 по 2000 год по-прежнему сохраняются и повторно используются, спустя два десятилетия после окончания экспериментов и три десятилетия после запуска LEP. (До сих пор на основе этих данных выпускаются научные публикации, и имеются серьезные научные аргументы в пользу того, чтобы сохранять возможность сопоставления результатов, полученных в ходе четырёх проведенных экспериментов).
Если в начале работы LEP-коллайдера, который размещался в том же туннеле, где сейчас находится Большой адронный коллайдер LHC, ответственность за управление ленточным хранилищем данных лежали на самих экспериментаторах (пусть даже сами носители хранились централизованно), то ко времени пуска LHC мы перешли на использование централизованно управляемого роботизированного ленточного хранилища большой емкости. С начала века LHC и всем другим текущим экспериментам была предложена услуга обеспечения «сохранности битов» - сведения к минимуму, хотя и не полного исключения пусть даже мельчайших случаев потери или порчи данных.
Сохранение битов необходимо, но его далеко недостаточно для обеспечения осмысленного повторного использования данных даже по истечении коротких периодов времени. На основе новаторских работ Исследовательской группы по долгосрочному анализу в физике высоких энергий (Study Group for Long-Term Analysis in High Energy Physics), более известной как DPHEP, в рамках обновления в 2012-2013 году Европейской стратегии для физики элементарных частиц (European Strategy for Particle Physics – для которой также уже пришло время пересмотра) был предложен ряд стратегий. Сама группа DPHEP был создана около десяти лет назад, первоначально в Немецкой лаборатории электронного синхротрона - Deutsches Elektronen-Synchrotron laboratory (DESY) в Гамбурге. Группа быстро выросла, охватить все основные лаборатории физики высоких энергий по всему миру.
Эти стратегии включали не только «сохранение битов», но и хорошо зарекомендовавшие себя сервисы хранения и обеспечения долговременной сохранности документации (также известные как «цифровые библиотеки»), а также революционный подход к обеспечению сохранности не только программного обеспечения, необходимого для обработки и (повторного) использования данных, но и той среды, в которой это программное обеспечение использовалось и в условиях которой оно было проверено. В настоящее время в рамках деятельности по сохранению данных в физике высоких энергий существует широкий консенсус относительно того, что это те три столпа, на которых держатся наши сервисы сохранения данных.
Такого рода услуги в настоящее время предлагаются в режиме промышленной эксплуатации уже в течение нескольких лет и считаются зрелыми и стабильными.
Тем не менее, работа на этом не останавливается и в настоящее время предпринимаются масштабные усилия по захвату всех данных и «знаний», необходимых для повторения в будущем повторного анализа данных. Это дополняется регулярной публикацией подмножеств «открытых данных» на основе экспериментов на Большом адроном коллайдере и других установках - вместе с необходимыми для повторного использования данных программным обеспечением, средой и документацией.
Хотя мало кто в своё время рискнул бы предположить, что данные LEP-коллайдера будут всё ещё существовать в пригодном для использования виде спустя три десятилетия после первых экспериментов, сегодня именно этого ожидают - и даже требуют – в отношении данных Большого адронного коллайдера LHC, несмотря на то, что объём данных LHC уже почти на 3 порядка превышает объём данных LEP-коллайдера (который составляет примерно 100 терабайт для каждого из 4 проведенных экспериментов, включая первичные необработанные данные), и может возрасти ещё, пожалуй, в сотни раз - до десятков экзобайт в конце 2030-х годов!
Джеми Шиерс (Jamie Shiers)
Источник: блог Коалиции по электронной сохранности
https://dpconline.org/blog/idpd/already-10-years-of-lhc-data-preservation
Комментариев нет:
Отправить комментарий