вторник, 16 июня 2020 г.

Анализ рекомендаций Международного союза электросвязи Y.3604 по обеспечению долговременной сохранности больших данных


Как я уже рассказывала, в феврале 2020 года Международный союз электросвязи (МСЭ - International Telecommunications Union, ITU) опубликовал Рекомендации ITU-T Y.3604 «Большие данные – Обзор и требования по обеспечению долговременной сохранности данных» (Big data - Overview and requirements for data preservation) объёмом 20 страниц, см. https://www.itu.int/rec/T-REC-Y.3604-202002-I , прямая ссылка на PDF-файл https://www.itu.int/rec/dologin_pub.asp?lang=e&id=T-REC-Y.3604-202002-I!!PDF-E

Главная слабость данного документа, с моей точки зрения, заключается в том, что в нём не поднимаются сложные высокоуровневые вопросы, такие, например, как следующие:
  • Зачем вообще тратить силы и средства на сохранение того, что многие (и не совсем уж неоправданно) считают колоссальной и динамично изменяющейся «цифровой помойкой»? В каком контексте это может быть оправдано с правовой, экономической и исторической точек зрения? Не проще ли, в каких-то случаях, при необходимости просто собрать данные заново?

  • Нужно ли одновременно сохранять алгоритмы и средства обработки больших данных, с тем, чтобы обеспечить воспроизводимость результатов анализа больших данных?  Нужно ли сохранять пользовательский интерфейс (look and feel), использовавшийся при анализе больших данных?

  • С точки зрения моих собственных профессиональных интересов, что можно считать документами и историческими документами в рамках экосистемы больших данных?

  • Как проводить экспертизу ценности и отбор больших данных на длительное и постоянное хранение?

  • Нужно ли сохранять какое-то одно (например, последнее) состояние больших данных, или нужно делать «снимки» в различные моменты времени?
Замечу, что такого рода вопросы активно обсуждаются в сообществах, занимающихся вопросами долговременной сохранности баз данных и/или научных данных.

Авторы документа предпочли пропустить вопросы стратегического плана и, приняв необходимость сохранения больших данных как данность, сразу перешли к обсуждению соответствующих политик и процедур.

Понятие «долговременной сохранности больших данных» определяется в документе следующим образом:
3.2.1 Обеспечение долговременной сохранности больших данных (big data preservation): Сочетание политик, стратегий и мероприятий, разработанных поставщиком услуг больших данных (big data service provider, BDSP) для обеспечения того, чтобы имеющая постоянную ценность электронная информация оставалась доступной и пригодной для использования в экосистеме больших данных.

Примечание: Экосистема больших данных определяет необходимые действия для ролей, предоставляющих и потребляющих услуги больших данных, а также отношения между ролями (см. Рекомендации ITU-T Y.3600).
В разделе 6.2.1 «Проблемы обеспечения долговременной сохранности больших данных» авторы документа, к сожалению, тоже «глубоко копать» не стали, сведя вопрос к чисто техническим аспектам больших данных. Полный текст данного подраздела следующий:
Характерные особенности больших данных (см. п.6.1 Рекомендаций ITU-T Y.3600) создают следующие проблемы при обеспечении долговременной сохранности больших данных:
  • Объёмность (volume): данное свойство отражает объёмы собранных, сохраненных, проанализированных и визуализированных данных, которые необходимо обработать с помощью технологий больших данных. Данное свойство создаёт проблемы:

    • масштабирования хранилищ данных; а также

    • определения подлежащих сохранению данных.

    Примечание: Даже данные, которые напрямую не используются, могут предоставлять ценность косвенно, например, в рамках аналитики. В этой связи может быть сложнее принять решение о том, что сохранять и когда предпринять действия по обеспечению сохранности больших объёмов данных.

  • Многообразие (variety): Данное свойство отражает то, что с помощью технологий больших данных обрабатываются различные типы и форматам данных. Для каждого типа данных может потребоваться программно-аппаратная среда для их отображения. Данное свойство создаёт проблемы:

    • сохранения как носителей информации, так и контекста их использования.

  • Темпы сбора и обработки (velocity): Данное свойство отражает то, насколько быстро осуществляется сбор данных и их обработка с помощью технологий больших данных для получения ожидаемых результатов. С точки зрения обеспечения долговременной сохранности больших данных это означает, что:

    • деятельность по обеспечению долговременной сохранности должна стать более автоматизированной.
В документе в подразделе 6.2.2 предлагаются следующие «стратегии» обеспечения долговременной сохранности больших данных:
  • Автоматизированные операции: Операции в рамках обеспечения долговременной сохранности больших данных включают отбор и подготовку данных к сохранению, сохранение и извлечение сохраненных данных. Ввиду огромных объемов и темпов создания больших данных, BDSP-поставщики услуг больших данных должны осуществлять эти операции и взаимодействие между ними в автоматическом режиме для достижения более высокой эффективности;

  • Поддержка гибкой политики обеспечения долговременной сохранности данных: Сохранение больших данных должно быть процессом, направляемым политикой. Какие данные должны быть сохранены, какой тип носителя информации должен использоваться и сколь долго сохранённые данные должны храниться - всё это примеры вопросов, которые должны решаться гибкими политиками обеспечения сохранности данных. Обеспечение сохранности больших данных на основе политик может помочь BDSP-поставщикам преодолеть проблемы, связанные с объемностью и темпами создания больших данных;

  • Лёгкое масштабирование и использование иерархического хранения данных: Огромные объемы данных требуют большего места для их хранения. Исходя из баланса экономичности и эффективности хранения данных, BDSP-поставщикам желательно использовать иерархическую систему хранения данных, и каждый уровень этой системы должен легко масштабироваться.
Я поставила слово «стратегии» в кавычки, поскольку ничего стратегического в этих рекомендациях нет, это на самом деле способы реализации высокоуровневых стратегий…

В документе также есть небольшой раздел 6.3, посвящённый категориям сохраняемых данных, который ниже приведен полностью:
Ниже приведены различные категории данных в сфере обеспечения долговременной сохранности больших данных:
  • Данные контента: относится к подлежащим сохранению необработанным данным;

  • Метаданные: данные о данных или элементах данных, возможно, включающие соответствующие описания данных, а также сведения о правах собственности на данные, путях и правах доступа и об изменчивости данных (volatility). Общая концепция метаданных и их использования в экосистеме больших данных описана в Рекомендациях ITU-T Y.3603. Для поддержки долговременной сохранности больших данных необходимы следующие типы информации:

    • Описательная информация (representation information): описывает структуру и семантику данных контента (см. пункт 8.2.3 Рекомендаций ITU-T Y.3603). Она также включает в себя иную информацию, которая может потребоваться для понимания данных контента, например, программное обеспечение и алгоритмы и т.д.;

    • Справочно-поисковая информация (reference information): включает сведения о доступе к данным контента и средствах классификации и поиска (например, тематические категории и ключевые слова) (см. пункт 8.2.3 Рекомендаций ITU-T Y.3603);

    • Сведения о происхождении (provenance information): документируют историю данных контента (см. пункт 8.2.6 Рекомендаций ITU-T Y.3603);

    • Информация для контроля целостности (fixity information): обеспечивает проверку целостности данных с целью защиты данных контента от недокументированных изменений;

    • Информация о правах доступа (access rights information): содержит сведения об условия доступа к данным контента (см. пункт 8.2.3 Рекомендаций ITU-T Y.3603).

  • Данные о правилах (rule data): данные, относящиеся к установленным BDSP-поставщиком услуг больших данных правилам, которые следует использовать и соблюдать при выполнении действий по обеспечению сохранности больших данных.

    Репрезентативный набор правил обеспечения долговременной сохранности больших данных включает в себя правила отбора на сохранение, определяющие, сохранность каких типов данных должна быть обеспечения BDSP-поставщиком; указания по сроках хранения, устанавливающие сроки хранения данных BDSP-поставщиком; и правила хранения подлежащих длительному хранению данных, определяющие, на каких уровнях иерархической системы хранения должны храниться эти данные, и при каких условиях они должны быть мигрированы на другие уровни системы хранения, и т.д.

    Примечание: Например, для автоматизации процесса отбора данных на сохранение, BDSP-поставщик может установить правило отбора, указывающее, какие типы данных подлежат сохранению. Параметрами этого правила могут быть тип данных, объём данных, ключевые слова в имени файла и т.д.
Честно скажу, у меня двоякое чувство по поводу этого документа.

С одной стороны, замечательно, что солидная международная организация взялась писать стандарт по очень редко обсуждаемому вопросу долговременной сохранности больших данных – и ничего глупого в документе нет, все рекомендации достаточно разумные.

С другой стороны, хотелось бы видеть в первую очередь обсуждение высокоуровневых проблем, которые даже не нужно «изобретать» - они описаны в существующих публикациях по вопросам обеспечения долговременной сохранности и архивного хранения баз данных и научных данных.

Источник: сайт МСЭ
https://www.itu.int/rec/dologin_pub.asp?lang=e&id=T-REC-Y.3604-202002-I!!PDF-E&type=items 

Комментариев нет:

Отправить комментарий