Как я уже рассказывала, в феврале 2020 года Международный союз электросвязи (МСЭ - International Telecommunications Union, ITU) опубликовал Рекомендации ITU-T Y.3604 «Большие данные – Обзор и требования по обеспечению долговременной сохранности данных» (Big data - Overview and requirements for data preservation) объёмом 20 страниц, см. https://www.itu.int/rec/T-REC-Y.3604-202002-I , прямая ссылка на PDF-файл https://www.itu.int/rec/dologin_pub.asp?lang=e&id=T-REC-Y.3604-202002-I!!PDF-E
Главная слабость данного документа, с моей точки зрения, заключается в том, что в нём не поднимаются сложные высокоуровневые вопросы, такие, например, как следующие:
- Зачем вообще тратить силы и средства на сохранение того, что многие (и не совсем уж неоправданно) считают колоссальной и динамично изменяющейся «цифровой помойкой»? В каком контексте это может быть оправдано с правовой, экономической и исторической точек зрения? Не проще ли, в каких-то случаях, при необходимости просто собрать данные заново?
- Нужно ли одновременно сохранять алгоритмы и средства обработки больших данных, с тем, чтобы обеспечить воспроизводимость результатов анализа больших данных? Нужно ли сохранять пользовательский интерфейс (look and feel), использовавшийся при анализе больших данных?
- С точки зрения моих собственных профессиональных интересов, что можно считать документами и историческими документами в рамках экосистемы больших данных?
- Как проводить экспертизу ценности и отбор больших данных на длительное и постоянное хранение?
- Нужно ли сохранять какое-то одно (например, последнее) состояние больших данных, или нужно делать «снимки» в различные моменты времени?
Авторы документа предпочли пропустить вопросы стратегического плана и, приняв необходимость сохранения больших данных как данность, сразу перешли к обсуждению соответствующих политик и процедур.
Понятие «долговременной сохранности больших данных» определяется в документе следующим образом:
3.2.1 Обеспечение долговременной сохранности больших данных (big data preservation): Сочетание политик, стратегий и мероприятий, разработанных поставщиком услуг больших данных (big data service provider, BDSP) для обеспечения того, чтобы имеющая постоянную ценность электронная информация оставалась доступной и пригодной для использования в экосистеме больших данных.В разделе 6.2.1 «Проблемы обеспечения долговременной сохранности больших данных» авторы документа, к сожалению, тоже «глубоко копать» не стали, сведя вопрос к чисто техническим аспектам больших данных. Полный текст данного подраздела следующий:
Примечание: Экосистема больших данных определяет необходимые действия для ролей, предоставляющих и потребляющих услуги больших данных, а также отношения между ролями (см. Рекомендации ITU-T Y.3600).
Характерные особенности больших данных (см. п.6.1 Рекомендаций ITU-T Y.3600) создают следующие проблемы при обеспечении долговременной сохранности больших данных:В документе в подразделе 6.2.2 предлагаются следующие «стратегии» обеспечения долговременной сохранности больших данных:
- Объёмность (volume): данное свойство отражает объёмы собранных, сохраненных, проанализированных и визуализированных данных, которые необходимо обработать с помощью технологий больших данных. Данное свойство создаёт проблемы:
- масштабирования хранилищ данных; а также
- определения подлежащих сохранению данных.
Примечание: Даже данные, которые напрямую не используются, могут предоставлять ценность косвенно, например, в рамках аналитики. В этой связи может быть сложнее принять решение о том, что сохранять и когда предпринять действия по обеспечению сохранности больших объёмов данных.
- Многообразие (variety): Данное свойство отражает то, что с помощью технологий больших данных обрабатываются различные типы и форматам данных. Для каждого типа данных может потребоваться программно-аппаратная среда для их отображения. Данное свойство создаёт проблемы:
- сохранения как носителей информации, так и контекста их использования.
- Темпы сбора и обработки (velocity): Данное свойство отражает то, насколько быстро осуществляется сбор данных и их обработка с помощью технологий больших данных для получения ожидаемых результатов. С точки зрения обеспечения долговременной сохранности больших данных это означает, что:
- деятельность по обеспечению долговременной сохранности должна стать более автоматизированной.
Я поставила слово «стратегии» в кавычки, поскольку ничего стратегического в этих рекомендациях нет, это на самом деле способы реализации высокоуровневых стратегий…
- Автоматизированные операции: Операции в рамках обеспечения долговременной сохранности больших данных включают отбор и подготовку данных к сохранению, сохранение и извлечение сохраненных данных. Ввиду огромных объемов и темпов создания больших данных, BDSP-поставщики услуг больших данных должны осуществлять эти операции и взаимодействие между ними в автоматическом режиме для достижения более высокой эффективности;
- Поддержка гибкой политики обеспечения долговременной сохранности данных: Сохранение больших данных должно быть процессом, направляемым политикой. Какие данные должны быть сохранены, какой тип носителя информации должен использоваться и сколь долго сохранённые данные должны храниться - всё это примеры вопросов, которые должны решаться гибкими политиками обеспечения сохранности данных. Обеспечение сохранности больших данных на основе политик может помочь BDSP-поставщикам преодолеть проблемы, связанные с объемностью и темпами создания больших данных;
- Лёгкое масштабирование и использование иерархического хранения данных: Огромные объемы данных требуют большего места для их хранения. Исходя из баланса экономичности и эффективности хранения данных, BDSP-поставщикам желательно использовать иерархическую систему хранения данных, и каждый уровень этой системы должен легко масштабироваться.
В документе также есть небольшой раздел 6.3, посвящённый категориям сохраняемых данных, который ниже приведен полностью:
Ниже приведены различные категории данных в сфере обеспечения долговременной сохранности больших данных:Честно скажу, у меня двоякое чувство по поводу этого документа.
- Данные контента: относится к подлежащим сохранению необработанным данным;
- Метаданные: данные о данных или элементах данных, возможно, включающие соответствующие описания данных, а также сведения о правах собственности на данные, путях и правах доступа и об изменчивости данных (volatility). Общая концепция метаданных и их использования в экосистеме больших данных описана в Рекомендациях ITU-T Y.3603. Для поддержки долговременной сохранности больших данных необходимы следующие типы информации:
- Описательная информация (representation information): описывает структуру и семантику данных контента (см. пункт 8.2.3 Рекомендаций ITU-T Y.3603). Она также включает в себя иную информацию, которая может потребоваться для понимания данных контента, например, программное обеспечение и алгоритмы и т.д.;
- Справочно-поисковая информация (reference information): включает сведения о доступе к данным контента и средствах классификации и поиска (например, тематические категории и ключевые слова) (см. пункт 8.2.3 Рекомендаций ITU-T Y.3603);
- Сведения о происхождении (provenance information): документируют историю данных контента (см. пункт 8.2.6 Рекомендаций ITU-T Y.3603);
- Информация для контроля целостности (fixity information): обеспечивает проверку целостности данных с целью защиты данных контента от недокументированных изменений;
- Информация о правах доступа (access rights information): содержит сведения об условия доступа к данным контента (см. пункт 8.2.3 Рекомендаций ITU-T Y.3603).
- Данные о правилах (rule data): данные, относящиеся к установленным BDSP-поставщиком услуг больших данных правилам, которые следует использовать и соблюдать при выполнении действий по обеспечению сохранности больших данных.
Репрезентативный набор правил обеспечения долговременной сохранности больших данных включает в себя правила отбора на сохранение, определяющие, сохранность каких типов данных должна быть обеспечения BDSP-поставщиком; указания по сроках хранения, устанавливающие сроки хранения данных BDSP-поставщиком; и правила хранения подлежащих длительному хранению данных, определяющие, на каких уровнях иерархической системы хранения должны храниться эти данные, и при каких условиях они должны быть мигрированы на другие уровни системы хранения, и т.д.
Примечание: Например, для автоматизации процесса отбора данных на сохранение, BDSP-поставщик может установить правило отбора, указывающее, какие типы данных подлежат сохранению. Параметрами этого правила могут быть тип данных, объём данных, ключевые слова в имени файла и т.д.
С одной стороны, замечательно, что солидная международная организация взялась писать стандарт по очень редко обсуждаемому вопросу долговременной сохранности больших данных – и ничего глупого в документе нет, все рекомендации достаточно разумные.
С другой стороны, хотелось бы видеть в первую очередь обсуждение высокоуровневых проблем, которые даже не нужно «изобретать» - они описаны в существующих публикациях по вопросам обеспечения долговременной сохранности и архивного хранения баз данных и научных данных.
Источник: сайт МСЭ
https://www.itu.int/rec/dologin_pub.asp?lang=e&id=T-REC-Y.3604-202002-I!!PDF-E&type=items
Комментариев нет:
Отправить комментарий