Кто не идёт вперед, тот идёт назад: Анализ рекомендаций Международного союза электросвязи Y.3604 по обеспечению долговременной сохранности больших данных

вторник, 16 июня 2020 г.

Анализ рекомендаций Международного союза электросвязи Y.3604 по обеспечению долговременной сохранности больших данных

Как я уже рассказывала, в феврале 2020 года Международный союз электросвязи (МСЭ - International Telecommunications Union, ITU) опубликовал Рекомендации ITU-T Y.3604 «Большие данные – Обзор и требования по обеспечению долговременной сохранности данных» (Big data - Overview and requirements for data preservation) объёмом 20 страниц, см. https://www.itu.int/rec/T-REC-Y.3604-202002-I , прямая ссылка на PDF-файл https://www.itu.int/rec/dologin_pub.asp?lang=e&id=T-REC-Y.3604-202002-I!!PDF-E

Главная слабость данного документа, с моей точки зрения, заключается в том, что в нём не поднимаются сложные высокоуровневые вопросы, такие, например, как следующие:

Зачем вообще тратить силы и средства на сохранение того, что многие (и не совсем уж неоправданно) считают колоссальной и динамично изменяющейся «цифровой помойкой»? В каком контексте это может быть оправдано с правовой, экономической и исторической точек зрения? Не проще ли, в каких-то случаях, при необходимости просто собрать данные заново?

Нужно ли одновременно сохранять алгоритмы и средства обработки больших данных, с тем, чтобы обеспечить воспроизводимость результатов анализа больших данных? Нужно ли сохранять пользовательский интерфейс (look and feel), использовавшийся при анализе больших данных?

С точки зрения моих собственных профессиональных интересов, что можно считать документами и историческими документами в рамках экосистемы больших данных?

Как проводить экспертизу ценности и отбор больших данных на длительное и постоянное хранение?

Нужно ли сохранять какое-то одно (например, последнее) состояние больших данных, или нужно делать «снимки» в различные моменты времени?

Замечу, что такого рода вопросы активно обсуждаются в сообществах, занимающихся вопросами долговременной сохранности баз данных и/или научных данных.

Авторы документа предпочли пропустить вопросы стратегического плана и, приняв необходимость сохранения больших данных как данность, сразу перешли к обсуждению соответствующих политик и процедур.

Понятие «долговременной сохранности больших данных» определяется в документе следующим образом:

3.2.1 Обеспечение долговременной сохранности больших данных (big data preservation): Сочетание политик, стратегий и мероприятий, разработанных поставщиком услуг больших данных (big data service provider, BDSP) для обеспечения того, чтобы имеющая постоянную ценность электронная информация оставалась доступной и пригодной для использования в экосистеме больших данных.

Примечание: Экосистема больших данных определяет необходимые действия для ролей, предоставляющих и потребляющих услуги больших данных, а также отношения между ролями (см. Рекомендации ITU-T Y.3600).

В разделе 6.2.1 «Проблемы обеспечения долговременной сохранности больших данных» авторы документа, к сожалению, тоже «глубоко копать» не стали, сведя вопрос к чисто техническим аспектам больших данных. Полный текст данного подраздела следующий:

Характерные особенности больших данных (см. п.6.1 Рекомендаций ITU-T Y.3600) создают следующие проблемы при обеспечении долговременной сохранности больших данных:

Объёмность (volume): данное свойство отражает объёмы собранных, сохраненных, проанализированных и визуализированных данных, которые необходимо обработать с помощью технологий больших данных. Данное свойство создаёт проблемы:

масштабирования хранилищ данных; а также

определения подлежащих сохранению данных.

Примечание: Даже данные, которые напрямую не используются, могут предоставлять ценность косвенно, например, в рамках аналитики. В этой связи может быть сложнее принять решение о том, что сохранять и когда предпринять действия по обеспечению сохранности больших объёмов данных.

Многообразие (variety): Данное свойство отражает то, что с помощью технологий больших данных обрабатываются различные типы и форматам данных. Для каждого типа данных может потребоваться программно-аппаратная среда для их отображения. Данное свойство создаёт проблемы:

сохранения как носителей информации, так и контекста их использования.

Темпы сбора и обработки (velocity): Данное свойство отражает то, насколько быстро осуществляется сбор данных и их обработка с помощью технологий больших данных для получения ожидаемых результатов. С точки зрения обеспечения долговременной сохранности больших данных это означает, что:

деятельность по обеспечению долговременной сохранности должна стать более автоматизированной.

В документе в подразделе 6.2.2 предлагаются следующие «стратегии» обеспечения долговременной сохранности больших данных:

Автоматизированные операции: Операции в рамках обеспечения долговременной сохранности больших данных включают отбор и подготовку данных к сохранению, сохранение и извлечение сохраненных данных. Ввиду огромных объемов и темпов создания больших данных, BDSP-поставщики услуг больших данных должны осуществлять эти операции и взаимодействие между ними в автоматическом режиме для достижения более высокой эффективности;

Поддержка гибкой политики обеспечения долговременной сохранности данных: Сохранение больших данных должно быть процессом, направляемым политикой. Какие данные должны быть сохранены, какой тип носителя информации должен использоваться и сколь долго сохранённые данные должны храниться - всё это примеры вопросов, которые должны решаться гибкими политиками обеспечения сохранности данных. Обеспечение сохранности больших данных на основе политик может помочь BDSP-поставщикам преодолеть проблемы, связанные с объемностью и темпами создания больших данных;

Лёгкое масштабирование и использование иерархического хранения данных: Огромные объемы данных требуют большего места для их хранения. Исходя из баланса экономичности и эффективности хранения данных, BDSP-поставщикам желательно использовать иерархическую систему хранения данных, и каждый уровень этой системы должен легко масштабироваться.

Я поставила слово «стратегии» в кавычки, поскольку ничего стратегического в этих рекомендациях нет, это на самом деле способы реализации высокоуровневых стратегий…

В документе также есть небольшой раздел 6.3, посвящённый категориям сохраняемых данных, который ниже приведен полностью:

Ниже приведены различные категории данных в сфере обеспечения долговременной сохранности больших данных:

Данные контента: относится к подлежащим сохранению необработанным данным;

Метаданные: данные о данных или элементах данных, возможно, включающие соответствующие описания данных, а также сведения о правах собственности на данные, путях и правах доступа и об изменчивости данных (volatility). Общая концепция метаданных и их использования в экосистеме больших данных описана в Рекомендациях ITU-T Y.3603. Для поддержки долговременной сохранности больших данных необходимы следующие типы информации:

Описательная информация (representation information): описывает структуру и семантику данных контента (см. пункт 8.2.3 Рекомендаций ITU-T Y.3603). Она также включает в себя иную информацию, которая может потребоваться для понимания данных контента, например, программное обеспечение и алгоритмы и т.д.;

Справочно-поисковая информация (reference information): включает сведения о доступе к данным контента и средствах классификации и поиска (например, тематические категории и ключевые слова) (см. пункт 8.2.3 Рекомендаций ITU-T Y.3603);

Сведения о происхождении (provenance information): документируют историю данных контента (см. пункт 8.2.6 Рекомендаций ITU-T Y.3603);

Информация для контроля целостности (fixity information): обеспечивает проверку целостности данных с целью защиты данных контента от недокументированных изменений;

Информация о правах доступа (access rights information): содержит сведения об условия доступа к данным контента (см. пункт 8.2.3 Рекомендаций ITU-T Y.3603).

Данные о правилах (rule data): данные, относящиеся к установленным BDSP-поставщиком услуг больших данных правилам, которые следует использовать и соблюдать при выполнении действий по обеспечению сохранности больших данных.

Репрезентативный набор правил обеспечения долговременной сохранности больших данных включает в себя правила отбора на сохранение, определяющие, сохранность каких типов данных должна быть обеспечения BDSP-поставщиком; указания по сроках хранения, устанавливающие сроки хранения данных BDSP-поставщиком; и правила хранения подлежащих длительному хранению данных, определяющие, на каких уровнях иерархической системы хранения должны храниться эти данные, и при каких условиях они должны быть мигрированы на другие уровни системы хранения, и т.д.

Примечание: Например, для автоматизации процесса отбора данных на сохранение, BDSP-поставщик может установить правило отбора, указывающее, какие типы данных подлежат сохранению. Параметрами этого правила могут быть тип данных, объём данных, ключевые слова в имени файла и т.д.

Честно скажу, у меня двоякое чувство по поводу этого документа.

С одной стороны, замечательно, что солидная международная организация взялась писать стандарт по очень редко обсуждаемому вопросу долговременной сохранности больших данных – и ничего глупого в документе нет, все рекомендации достаточно разумные.

С другой стороны, хотелось бы видеть в первую очередь обсуждение высокоуровневых проблем, которые даже не нужно «изобретать» - они описаны в существующих публикациях по вопросам обеспечения долговременной сохранности и архивного хранения баз данных и научных данных.

Источник: сайт МСЭ
https://www.itu.int/rec/dologin_pub.asp?lang=e&id=T-REC-Y.3604-202002-I!!PDF-E&type=items

Кто не идёт вперед, тот идёт назад

вторник, 16 июня 2020 г.

Анализ рекомендаций Международного союза электросвязи Y.3604 по обеспечению долговременной сохранности больших данных

Комментариев нет:

Отправить комментарий

Dr Natasha Khramtsovsky

Обо мне: Наташа Храмцовская / Dr Natasha Khramtsovsky

Поиск по блогу / Search this blog

Искать по блогу / Search this blog 2

Архив блога / Blog Archives

Используйте теги / Click the tags!

География моих читателей (RU)

Постоянные читатели

Кто не идёт вперед, тот идёт назад

вторник, 16 июня 2020 г.

Анализ рекомендаций Международного союза электросвязи Y.3604 по обеспечению долговременной сохранности больших данных

Комментариев нет:

Отправить комментарий

Dr Natasha Khramtsovsky

Обо мне: Наташа Храмцовская / Dr Natasha Khramtsovsky

Поиск по блогу / Search this blog

Искать по блогу / Search this blog 2

Архив блога / Blog Archives

Используйте теги / Click the tags!

География моих читателей (RU)

Постоянные читатели

вторник, 16 июня 2020 г.