четверг, 11 апреля 2024 г.

Понимание «слоя данных» специалистами по управлению документами, и куда нас приведёт такой подход, если мы его примем

Данный пост австралийского специалиста в области управления документами и информацией Карла Мелроуза (Karl Melrose – на фото) был опубликован 26 февраля 2024 года на его блоге Meta-IRM (Мета-управление информацией и документами).

Мы, специалисты по управлению документами, в глубине души чувствует себя некомфортно, когда нам приходится иметь дело с данными. Это факт. Сама мысль о том, что мы не в состоянии с чем-либо справиться, является анафемой для тысяч лет практики.

Однако это не должно быть так сложно. Нам просто нужно думать на уровне «параграфов», а не «документов». У нас есть много таких «параграфов», которые сами по себе точно отражают факты - так, как они понимались в определенные моменты времени:

  • Иногда нам нужен «параграф», информирующий о месте жительства кого-либо;

  • Иногда нам нужен «параграф», в котором рассказывается, на что у людей может быть аллергия.

Мой комментарий: Когда Карл Мелроуз говорит о «параграфах», он имеет в виду структурированное представление документов (примером служат XML-документы), когда четко выделяются уникальные данные, и эти данные отделяются от контекста.

Огромное преимущество данных перед нами заключается в том, что они решили самую большую проблему, с которой мы сталкиваемся — проблему слишком большого количества информации.

Что бы ни говорилось о том, что мы «тонем в данных» - проблема бесконечно хуже, когда мы тонем в документах, потому что в таком случае, когда кому-то нужна информация, мы должны предоставить документ целиком – даже если сотруднику нужен только адрес и сведения об аллергии, которые напечатаны на страницах соответственно 23 и 112 двух отдельных документов.

Суть данных заключается в «предоставлении» людям нужных им «параграфов», а не всего документа.

Волшебство заключается в том, чтобы обеспечить понимание происхождения (provenance) этих «параграфов», чтобы была уверенность в надёжности этой информации и в возможности положиться на неё в своей деловой деятельности – специалисты по управлению данными называют эти сведения «родословной» (lineage); и этот подход работает, когда всё сделано как следует – однако надёжность (точно так же, как и «происхождение», и «авторитетные документы») часто принимается на веру.

Если чего у нет у нас в управлении документами, но есть у данных - так это статистика. И когда деловые организации используют недостоверную статистику, дела по-крупному идут плохо - в то время, как при использовании не заслуживающих полного доверия документов ущерб имеет тенденцию быть несколько более локализованным.

У нас [специалистов по управлению документами – Н.Х.] могут возникать проблемы с компоновкой данных, поскольку для нас привычно мыслить функционально, и когда мы смотрим на несколько таких «параграфов», нам сложно ориентироваться в них так же, как в цельном документе - если они не были созданы в ходе одной и той же транзакции в рамках одного и того же вида деловой деятельности.

В результате, когда мы начинаем управлять тем процессом, о котором большинство из нас больше всего думает, - процессом уничтожения, мы не до конца понимает, что именно нам следует уничтожать.

Простая причина этого заключается в том, что мы по-прежнему воспринимаем перечни видов документов с указанием сроков хранения как модель экспертизы ценности. Однако они ею не являются.

Перечни - это инструмент из той эпохи, когда мы знали, что потребность в созданных в результате транзакции документах будет сохраняться в течение определенного периода времени, поскольку у них было только одно применение. В концепции перечней подразумевается, что транзакция представляет собой нечто цельное, и что мы должны сохранять в течение установленных сроков, а затем уничтожать, когда это необходимо, все материалы по ней целиком.

Фрэнк Апворд (Frank Upward - австралийский специалист, создатель теории континуума документов – Н.Х.) и его коллеги увидели эту проблему (которая наиболее наглядно проявляется при работе с данными), когда разрабатывали модель континуума документов.

К сожалению, большинство из нас [специалистов по управлению документами – Н.Х.] до сих пор не восприняло такой образ мышления, поэтому мы хотим иметь нечто такое, что представляет собой всю транзакцию целиком, что мы можем принять на ответственное хранение и в конечном итоге уничтожить – а если не существует такой цельной «вещи», которая представляет всю транзакцию целиком, то мы даже не знаем, что нам думать о жизненном цикле, потому что мы все ещё мыслим в понятиях «доказательств и материальной ответственности», а не «ценности».

Сотрудники хотят, чтобы информация, которая им требуется (и только она) была надёжным образом доставлена им тогда, когда она им понадобится.

Использование документов приводит к масштабному избыточному предоставлению информации – и в этом нет ничего хорошего.

Типичный документ содержит массу информации, которая никому не нужна.

Типичное поле в базе данных содержит именно те данные, которые необходимы для описания того, что кому-то нужно знать, - и на уровне качества, адекватном задаче, которую сотруднику предстоит выполнить с данными.

Когда мы используем отдельные поля данных и объединяем их в документ, мы можем предоставить сотрудникам именно то, что они хотят, и тогда, когда они этого хотят – надежным образом.

Мой комментарий: Карл опять уходит в крайности; а на самом деле как у традиционных, так и у структурированных документов есть свои ниши. Когда мы осуществляем однотипную обработку информации и хорошо понимаем происхождение и контекст данных, нам часто вполне достаточно одних этих данных. Однако если мы получаем нестандартный документ, особенно если он поступает из другого подразделения или внешней организации, нам, возможно, придётся сначала разобраться с контекстом – и здесь одних только полей в базе данных будет, скорее всего, недостаточно! Да и отстаивать свои позиции в ходе судебных разбирательств пока что обычно удобнее с использованием традиционных документов …

Защита персональных данных снова даёт нам возможность блеснуть, потому что здесь снова имеют значение идея транзакции и деловой цели для данных этой транзакции - но это последний вздох модели жизненного цикла, ориентированной на документы и транзакции.

Будущее будет намного боле компактным - документы будут уже не «объектами» и не базами данных; они будут представлять собой потоки данных (вероятно, графовых данных), которые мы будем компоновать и перекомпоновывать по мере того, как взаимосвязи между объектами будут раскрывать их ценность, - и по ходу мы будем «обрезать ветки», которые не представляют никакой ценности.

Мой комментарий: Ключевой особенностью документа является его фиксированность и неизменность – чтобы информацию можно было надёжно воспроизводить, поэтому просто некие «потоки данных» никогда документами не будут, и эти данные сначала придётся захватить и сохранить.

Я надеюсь, что специалисты по управлению документами сумеют адаптироваться к этому будущему, - но первое, что нам нужно сделать, это разобраться в «компонуемой» природе данных-как-документов, и в том, что это означает для того, как мы определяем ценность, управляем, раскрываем, компонуем, перекомпоновываем и уничтожаем данные, которые мы храним и которые нужны нашим организациям.

Карл Мелроуз (Karl Melrose)

Источник: блог Meta-IRM
https://metairm.substack.com/p/understanding-the-data-layer-for

Комментариев нет:

Отправить комментарий