Мой комментарий: В своём посте Энди Поттер кратко изложил содержание заметки, опубликованной 6 ноября 2024 года на англоязычном сайте «Обеспечение электронной сохранности в Национальной библиотеке Норвегии» (Digital preservation at the National Library of Norway), который ведёт отдел обеспечение долговременной сохранности электронных материалов Национальной библиотеки, см. https://digitalpreservation-blog.nb.no/blog/2024-11-04-checksums/
«Начиная с 2007 года Национальная библиотека Норвегии использует SAM-FS (которая также известна как иерархическая система хранения Oracle HSM) в качестве системы для долгосрочного хранения и архивирования больших объемов данных. Сейчас в этой системе хранится 14 петабайт данных (1 петабайт = 1000 терабайт), и вскоре система достигнет конца своего жизненного цикла.
В 2022 году Национальная библиотека приняла решила заменить SAM-FS более современным решением для обеспечения долговременной сохранности электронных материалов. Это новое решение основано на разработанном своими силами программном обеспечении под названием DPS (Digital Preservation Services – «сервисы для обеспечения долговременной сохранности») и использует IBM-HPSS в качестве базовой системы для хранения данных.
В течение последних 10 лет Национальная библиотека использовала контрольные суммы в качестве метода проверки целостности сохранённых данных. В данном контексте контрольная сумма - это вычисляемое хеш-значение, которое используется для верификации того, что файл данных не подвергался каким-либо изменениям. В число распространённых алгоритмов расчёта контрольных сумм (хешей) входят алгоритмы MD5, SHA-1, SHA-256 и SHA-512. Национальная библиотека использует алгоритм MD5.
Многие из наиболее старых файлов, хранимых в SAM-FS, были сохранены без контрольных сумм. Поскольку все файлы в SAM-FS хранятся в трёх экземплярах, то можно сказать, что в отсутствие сопровождающей контрольной суммы эти три экземпляра существуют независимо друг от друга. Если бы между экземплярами возникло расхождение, то у нас не было бы исходной контрольной суммы для проведения верификации.
Мой комментарий: В отсутствие контрольной суммы (хеша), в случае расхождения, скорее всего, применяется метод кворумирования – если один экземпляр отличается от двух других, то верными признаются два одинаковых экземпляра. В качестве альтернативы, если успешно открывается программой просмотра только какой-либо конкретный экземпляр, то именно его могут признать верным.
Было решено, что в рамках процесса миграции данных из SAM-FS в новую систему DPS следует вычислить и сохранить контрольные суммы для всех файлов, у которых их ещё не было.»
Мой комментарий: Говоря о проблемах, норвежские специалисты отметили:
«Каким образом, в отсутствие возможности проверки на основе контрольных сумм, мы могли обеспечить, что файлы, передаваемые из SAM-FS в DPS, были точно такими же, какими они были изначально заархивированы? Самым старым файлам было более 20 лет, и с течением времени они до пяти раз проходили миграцию на новое оборудование / платформы.
Какой из трех экземпляров файла, хранящихся в SAM-FS, следовало выбрать в качестве отправной точки для миграции? Как мы могли установить, что это был «правильный файл», не читая и не сравнивая все три экземпляра? Чтение и сравнение всех трёх экземпляров было сочтено сложным подходом, поскольку это включало чтение и обработку многих петабайт данных в той же инфраструктуре, которая также использовалась для повседневных операций.»
Результаты и уроки миграции описаны следующим образом:
«Ни у одного из 16 миллионов файлов в наборе данных объемом 2,5 петабайта не было выявлено расхождений в контрольных суммах. Данный метод обеспечения аутентичности файлов в системе DPS после миграции был затратным по времени и ресурсоёмким, но для нас он оказался эффективным.
Ещё один опыт, который мы получили, заключался в том, что техническим системам хранения можно доверять, когда речь идёт предотвращении изменений в потоке составляющих файлы битов с течением времени. Мы проверили контрольную сумму 16 миллионов файлов, которые прошли до пяти миграций в течение за 20 лет, не обнаружив никаких следов изменений в потоке битов ни одного из файлов.»
Источник: сайт LinkedIn / сайт «Обеспечение электронной сохранности в Национальной библиотеке Норвегии»
https://www.linkedin.com/feed/update/urn:li:activity:7259944282210332672
https://digitalpreservation-blog.nb.no/blog/2024-11-04-checksums/
Комментариев нет:
Отправить комментарий