четверг, 13 декабря 2018 г.

(Уже) 10 лет проекту сохранения данных Большого адронного коллайдера


Данный пост руководителя проекта обеспечения долговременной сохранности данных в сфере физики высоких энергий в Европейской организации по ядерным исследованиям ЦЕРН (CERN) Джеми Шиерса (Jamie Shiers – на фото) был опубликован 20 ноября 2018 года на блоге британской Коалиции по электронной сохранности (Digital Preservation Coalition, DPC) среди материалов, приуроченных к Международному дню электронной сохранности, который отмечался 29 ноября 2018 года (см. https://dpconline.org/blog/idpd ).
   
С первых дней планирования Большого адронного коллайдера (Large Hadron Collider, LHC) было понятно, что он будет производить беспрецедентные объемы данных. По мере того, как мы завершаем второй многолетний цикл исследований (Run2) на коллайдере, объём архива данных CERN перешёл отметку в 300 петабайт. Большой адронный коллайдер с момента рестарта и начала третьего многолетнего цикла Run3 в 2021 году, включая его запланированные модификации, такие как «LHC на высокой светимости» (High Luminosity LHC), будет продолжать получать данные ещё в течение одного-двух десятилетий (так что общий срок производства данных от начала до конца составит 3 десятилетия).

Все эти данные – полученные в прошлом, получаемые сейчас и будущие - должны быть сохранены, по крайней мере, в течение всего периода проведения экспериментов на коллайдере, а, возможно, и дольше.

Для сравнения, данные, полученные на использовавшемся ранее Большом электронно-позитронном коллайдере (Large Electron Positron collider, LEP) в период с 1989 по 2000 год по-прежнему сохраняются и повторно используются, спустя два десятилетия после окончания экспериментов и три десятилетия после запуска LEP. (До сих пор на основе этих данных выпускаются научные публикации, и имеются серьезные научные аргументы в пользу того, чтобы сохранять возможность сопоставления результатов, полученных в ходе четырёх проведенных экспериментов).

Если в начале работы LEP-коллайдера, который размещался в том же туннеле, где сейчас находится Большой адронный коллайдер LHC, ответственность за управление ленточным хранилищем данных лежали на самих экспериментаторах (пусть даже сами носители хранились централизованно), то ко времени пуска LHC мы перешли на использование централизованно управляемого роботизированного ленточного хранилища большой емкости. С начала века LHC и всем другим текущим экспериментам была предложена услуга обеспечения «сохранности битов» - сведения к минимуму, хотя и не полного исключения пусть даже мельчайших случаев потери или порчи данных.

Сохранение битов необходимо, но его далеко недостаточно для обеспечения осмысленного повторного использования данных даже по истечении коротких периодов времени. На основе новаторских работ Исследовательской группы по долгосрочному анализу в физике высоких энергий (Study Group for Long-Term Analysis in High Energy Physics), более известной как DPHEP, в рамках обновления в 2012-2013 году Европейской стратегии для физики элементарных частиц (European Strategy for Particle Physics – для которой также уже пришло время пересмотра) был предложен ряд стратегий. Сама группа DPHEP был создана около десяти лет назад, первоначально в Немецкой лаборатории электронного синхротрона - Deutsches Elektronen-Synchrotron laboratory (DESY) в Гамбурге. Группа быстро выросла, охватить все основные лаборатории физики высоких энергий по всему миру.

Эти стратегии включали не только «сохранение битов», но и хорошо зарекомендовавшие себя сервисы хранения и обеспечения долговременной сохранности документации (также известные как «цифровые библиотеки»), а также революционный подход к обеспечению сохранности не только программного обеспечения, необходимого для обработки и (повторного) использования данных, но и той среды, в которой это программное обеспечение использовалось и в условиях которой оно было проверено. В настоящее время в рамках деятельности по сохранению данных в физике высоких энергий существует широкий консенсус относительно того, что это те три столпа, на которых держатся наши сервисы сохранения данных.

Такого рода услуги в настоящее время предлагаются в режиме промышленной эксплуатации уже в течение нескольких лет и считаются зрелыми и стабильными.

Тем не менее, работа на этом не останавливается и в настоящее время предпринимаются масштабные усилия по захвату всех данных и «знаний», необходимых для повторения в будущем повторного анализа данных. Это дополняется регулярной публикацией подмножеств «открытых данных» на основе экспериментов на Большом адроном коллайдере и других установках - вместе с необходимыми для повторного использования данных программным обеспечением, средой и документацией.

Хотя мало кто в своё время рискнул бы предположить, что данные LEP-коллайдера будут всё ещё существовать в пригодном для использования виде спустя три десятилетия после первых экспериментов, сегодня именно этого ожидают - и даже требуют – в отношении данных Большого адронного коллайдера LHC, несмотря на то, что объём данных LHC уже почти на 3 порядка превышает объём данных LEP-коллайдера (который составляет примерно 100 терабайт для каждого из 4 проведенных экспериментов, включая первичные необработанные данные), и может возрасти ещё, пожалуй, в сотни раз - до десятков экзобайт в конце 2030-х годов!

Джеми Шиерс (Jamie Shiers)

Источник: блог Коалиции по электронной сохранности
https://dpconline.org/blog/idpd/already-10-years-of-lhc-data-preservation

Конференция ВНИИДАД: Доклад директора филиала Национального архива Финляндии


На XXV Международной научно-практической конференции «Документация в информационном обществе: задачи архивоведения и документоведения в условиях цифровой экономики» выступало большое количество зарубежных представителей архивной отрасли.

Очень интересным – и отчасти даже провокационным для людей с классическим архивным образованием - был доклад директора филиала Национального Архива Финляндии в городе Турку Вели-Матти Пуссинена (Veli-Matti Pussinen) «Актуальные направления деятельности Национального Архива Финляндии», в котором тот рассказал о планах финских архивистов проводить широкомасштабную замещающую оцифровку поступающих на государственное архивное хранение современных офисных документов, ценность которых заключается главным образом в содержащейся в них информации. Предполагается, что это, с одной стороны, позволит Финляндии не строить новых архивохранилищ для бумажных документов, а с другой – даст возможность более эффективно использовать архивные материалы.


Видеозапись доклада доступна по адресу: https://www.youtube.com/watch?v=pDBIrlUDapA



Источник: YouTube
https://www.youtube.com/watch?v=pDBIrlUDapA

среда, 12 декабря 2018 г.

Национальные Архивы США стремятся встроить стандарты управления электронными документами в практику федеральных органов, а не «прикрутить» их как декорацию


Данная заметка исполнительного директора «Сеть федеральных новостей» (Federal News Network) Джейсона Миллера (Jason Miller - на фото) была опубликована 26 ноября 2018 года на сайте FederalNewsNetwork.com. Она представляет собой стенограмму радиопрограммы, которую можно прослушать по адресу https://federalnewsnetwork.com/big-data/2018/11/federal-records-digitization-deadline-now-nearly-a-year-away/

Декабрь 2019 года уже не кажется столь уж далеким.

Это крайний срок, первоначально установленный в 2016 году, к которому федеральные органы исполнительной власти обязаны перейти на управление всеми документами постоянного срока хранения в электронном виде с тем, чтобы впоследствии передать их на архивное хранение в Национальные Архивы США (NARA) в электронном формате.

По словам старшего аналитика Национальных Архивов по вопросам управления электронными документами Кортни Андерсон (Courtney Anderson – на фото), Национальные Архивы оказывают помощь федеральным органам в рамках своей «Федеральной инициативы по модернизации управления электронными документами» (Federal Electronic Records Modernization Initiative, FERMI, https://records-express.blogs.archives.gov/tag/fermi/ , о ней см также пост на моём блоге: https://rusrim.blogspot.com/2018/06/fermi.html - Н.Х.), чтобы те смогли своевременно выполнить это требование.

«Цель этой инициативы заключается в том, чтобы помочь федеральным органам исполнительной власти более легко получать услуги и решения для управления электронными документами. Мы работаем над этим с октября 2015 года, и когда мы начинали этот проект, мы спросили федеральные органы, что они хотели бы получить от нас. Очень часто нам говорили, что Национальные Архивы хорошо справляются с той частью своей работы, когда посредством своих политик и руководств они говорят федеральным органам, что тем следует делать, - однако этим органам нужна дополнительная помощь в плане того, как выполнять эти требования, им нужны практичные инструменты для управления своими электронными документами», - отметила Андерсон в недавнем интервью, данном в ходе мероприятия, которое совместно проводили Американский совет по технологиям (American Council for Technology, ACT – некоммерческая образовательная организация, помогающая государственным органам эффективно приобретать и использовать ИТ-ресурсы) и созданный им Отраслевой консультационный совет (Industry Advisory Council, IAC – организует совместную работу руководителей организаций отрасли и государственных органов по ИТ-проблемам, представляющим интерес для государства).

«В рамках инициативы FERMI мы использовали два пути. Первый – сотрудничество с отделов общих служб и по вопросам повышения их эффективности Управления общих служб правительства США (U.S. General Services Administration, GSA) по вопросу оказания общих услуг и в совете по стандартам деловой деятельности. В этом совете мы являемся лидером разработки стандартов управления электронными документами. Мы подготовили стандарты на основе «Федеральной интегрированной деловой концепции» (Federal Integrated Business Framework, FIBF, https://www.ussm.gov/fibf/ ), с тем, чтобы включить управление электронными документами в состав общих сервисов».

Андерсон подчеркнула, что благодаря разработке стандартов для электронных документов, у федеральных ведомств будет меньше проблем с управлением финансовыми, кадровыми и иными административными документами.

Это также означает, что при переходе федеральных органов на использование общих служб и сервисов (см. https://federalnewsnetwork.com/agency-oversight/2018/08/nara-move-to-digital-records-does-not-get-cheaper-but-easier-to-manage/ ) для управления кадровыми, финансовыми или зарплатными документами, стандарты управления электронными документами будут «встроены» в соответствующие системы.

«Мы сотрудничали с GSA, когда те вышли с инициативой системы New Pay (облачного решения, предназначенного для управления зарплатными документами – Н.Х.), чтобы включить в технические спецификации системы требования к управлению документами», - отметила Андерсон. «Мы стремимся встроить управление документами непосредственно в сервисы, чтобы Вам не нужно было искать отдельный инструмент для этой цели».

И вот здесь появляется второй путь, по которому вместе идут NARA и GSA. Эти два федеральных ведомства добились введения новой специальной статьи для услуг и решений для управления электронными документами (Special Item Number, SIN) в Перечень 36 (это перечень закупаемых через GSA офисных решений, решений для сканирования и управления документами, см. https://www.gsa.gov/portal/content/101046 - Н.Х.)., в которой федеральные органы исполнительной власти смогут найти конкретные инструменты, если те им понадобятся.

Мой комментарий: У американской системы государственных закупок имеется следующая особенность. Существует Управление общих служб правительства (GSA), организующее эффективную и экономную поддержку деятельности федеральных государственных органов. Оно от имени федерального правительства в целом заключает с поставщиками типовые контракты (GSA Schedule Contracts, или GSA Schedules), содержащие предварительно согласованные цену, условия поставки, гарантии и ряд других условий. Такие контракты обычно заключаются с большими скидками. Поставщик получает отдачу вследствие того, что ведомства просто выбирают нужный контракт из соответствующего Перечня и обговаривают недостающие условия контракта напрямую с поставщиком, не проводя тендеров. Ряд ведомств заключает только такие контракты. Большинство типовых контрактов являются многосторонними (Multiple Award Schedules, MAS) – в этом случает GSA заключает типовой контракт на одну и ту же услугу сразу с рядом поставщиков, у каждого из которых может быть своя цена. 36-й Перечень многосторонних типовых контрактов (Multiple Award Schedule 36) - это перечень закупаемых через GSA офисных решений, решений для сканирования и управления документами, см. https://www.gsa.gov/portal/content/101046  .

При определении требований для новой «специальной статьи», GSA и NARA полагались на экспертов.

«Мы начали с анализа всех законов, нормативных актов, руководств, политик и международных стандартов, имеющих отношение к управлению электронными документами, и собрали всё это в один документ, организованный в соответствии с этапами жизненного цикла документа», - рассказывает Андерсон. «Затем была сформирована рабочая группа по требованиям, состоящая из представителей ряда федеральных органов исполнительной власти. Мы также получили очень много замечаний и предложений от руководителей и специалистов служб управления документами федеральных ведомств, которые были использованы для совершенствования этих универсальные требований и показали нам, где у нас были пробелы».

Андерсон сообщила о том, что Национальные Архивы разработали варианты применения (кейсы – Н.Х.) ( https://federalnewsnetwork.com/federal-drive/2010/09/nara-has-tips-for-managing-modern-records/ ) для документов различных типов, чтобы помочь федеральным органам лучше применять стандарты и инструменты.

Эти усилия помогли федеральным ведомствам выдерживать сроки в ходе подготовки к исполнению установленных требований при наступлении в декабре 2019 года контрольного срока. В августе 2018 года Национальные Архивы сообщили ( https://federalnewsnetwork.com/agency-oversight/201https://federalnewsnetwork.com/agency-oversight/2018/08/nara-most-agencies-on-track-to-transition-from-paper-to-digital-records/ ), что 97% федеральных органов исполнительной власти уверены, что они всё исполнят в срок.

Национальные Архивы также работают сейчас над ещё двумя вариантами применения, которые помогут федеральным органам лучше управлять своими документами. По словам Андерсон, в центре внимания там будут документы в социальных сетях ( https://federalnewsnetwork.com/hearings-oversight/2017/03/rise-tweets-self-deleting-encrypted-messages-concern-lawmakers/ ) – это вариант применения проходит заключительные этапы утверждения в NARA, и будет ещё вариант применения для веб-сайтов.

«Это обеспечит применение к соответствующим материалам мер и средств управления документами. Если установлено, что выложенные в социальных сетях материалы являются документами, то нужно найти способ захватить их», - говорит Андерсон. «Сейчас советом по стандартам деловой деятельности рассматриваются варианты применения для электронных сообщений. И как только это рассмотрение завершится и пройдёт согласование в Административно-бюджетном управлении (OMB), мы продолжим работу над вариантами для социальных сетей, так что уже где-то этой зимой мы представим их на публичное обсуждение».

В следующем году, по словам Андерсон, Национальные Архивы сосредоточат своё внимание на ряде областей, включая расширение сотрудничества с GSA по инструментам и сервисам, включаемым в Перечень 36.

«Еще одна важная часть работы NARA, - это стандарты оцифровки, помогающие помочь достичь цели контрольного срока 2019 года, а также цели, намеченной Национальными Архивами на 2022 год – прекратить приём на архивное хранение от федеральных органов исполнительной власти бумажных документов постоянного срока хранения», - отмечает Андерсон. «Мы планируем включить соответствующие решения и услуги в Перечень 36, с тем, чтобы появились поставщики, самостоятельно декларирующие, что они также соответствуют и стандартам оцифровки NARA».

Джейсон Миллер (Jason Miller)

Мой комментарий: Я с нетерпением буду ждать стандартов оцифровки, которые подготовят Национальные Архивы США. Очень интересно будет сравнить их подходы и рекомендации с тем, что сейчас готовится в недрах Росархива.

Источник: сайт FederalNewsNetwork.com
https://federalnewsnetwork.com/big-data/2018/11/federal-records-digitization-deadline-now-nearly-a-year-away/

вторник, 11 декабря 2018 г.

Мое выступление на конференции «Управление документами в цифровой экономике»


5 декабря 2018 года в Историко-архивном институте РГГУ прошла научно-практическая конференция «Управление документами в цифровой экономике». Главным организатором конференции выступила кафедра автоматизированных систем документационного обеспечения управления факультета документоведения и технотронных архивов ИАИ РГГУ.

На конференции я выступила с докладом «Организация хранения электронных документов как самое слабое звено национального проекта «Цифровая экономика»», в котором дала оценку текущего состояния вопроса и тех рисков, с которыми связано невнимание к вопросам управления электронными документами и их длительного и постоянного хранения.

Национальный проект «Цифровая экономика» постепенно набирает обороты, и в рамках практически всех законодательных инициатив планируется расширить сферу применения электронных документов. Соответственно, встаёт вопрос об организации их последующего хранения, в том числе длительного. Рабочие группы начинают интересоваться тем, что им может предложить отечественное архивоведение, и с грустью убеждаются, что наработок немного, а из тех, что есть,  мало что можно применить на практике :(

Видеозапись доклада доступна по адресу: https://www.youtube.com/watch?v=T5GpW-4ruy0



Презентация к докладу выложена на сайте GoogleDocs, см.: https://docs.google.com/presentation/d/1oVChJ7ipLDPtElVvXbjpvjilzdbdya0gsxKF4lOMKSw/edit?usp=sharing


Источник: YouTube / Google Диск
https://www.youtube.com/watch?v=T5GpW-4ruy0
https://docs.google.com/presentation/d/1oVChJ7ipLDPtElVvXbjpvjilzdbdya0gsxKF4lOMKSw/edit?usp=sharing