среда, 19 февраля 2020 г.

Управление документами до и после ИИ-революции, часть 3


(Окончание, предыдущую часть см. https://rusrim.blogspot.com/2020/02/2_18.html )

Характер управления документами после ИИ-революции

Исходя из предыдущей истории управления документами, можно сделать ряд прогнозов относительно того, как управление документами будет трансформироваться вследствие ИИ-революции и адаптироваться к ней:
  • Управление документами / стратегическое (полномасштабное) управление информацией станет наукой о данных, контролируя алгоритмы, применяющие к документам и информации правила классификации и/или установления сроков хранения и доступа.

  • Моментом, когда можно будет сказать, что полномасштабное управление информацией вступило в эпоху искусственного интеллекта, - будет тот момент времени, начиная с которого правила доступа и сроки хранения будут назначаться агрегациям, по которым документы будут распределяться алгоритмом машинного обучения.

  • С точки зрения алгоритма, всё является данными. Если в наборе данных имеются закономерности, алгоритм может выявить эти закономерности и использовать эти знания для проведения различий. Машины в своих действиях уже не будут опираться только на высокоструктурированные метаданные. Алгоритмы способны выявлять закономерности в данных любого вида, как структурированных, так и неструктурированных.

  • Организации будут по-прежнему поддерживать многочисленные базы данных. Некоторые алгоритмы, возможно, смогут использовать данные из одной базы данных для управления данными в другой базе данных (например, можно использовать информацию, взятую из должностных инструкций в базе данных для управления кадрами, для того, чтобы помочь алгоритмам выявлять важные деловые электронные письма в системе электронной почты).

  • Объем и скорость производства документов и данных будут продолжать расти, поскольку ИИ-алгоритмы не только помогают управлять контентом, но также и сами его создают (например, посредством автоматических ответов или автоматических чат-ботов).

  • Алгоритмы, подобно людям, обычно лучше понимают данные, когда рассматривают их в контексте создавшего их приложения. Электронную почту лучше всего анализировать в системах электронной почты или в репозиториях, способных копировать структуру и функциональные возможности систем электронной почты. Больше нет необходимости перемещать контент из одной структурированной базы данных (такой как система электронной почты) в другую систему.

  • У организаций появится техническая возможность поддерживать одну общую структуру / схему организации документов. Однако эта мечта, вероятно, останется ускользающей вследствие того факта, что данные, созданные в рамках структурированного набора данных, обычно гораздо более осмыслены и управляемы в структуре этого набора данных, чем вне его. Всё чаще алгоритмы будут использоваться для того, чтобы сделать управляемыми данные непосредственно в рамках соответствующего набора данных, вместо того, чтобы вырывать их из исходного набора данных для последующего управления посредством альтернативной структуры.

  • Искусственный интеллект приносит с собой ряд возможностей, которых у людей прежде никогда не было. Это, например, возможность реструктурировать всю систему документов с тем, чтобы обеспечить применение правил доступа и сроков хранения к совершенно иному набору агрегаций, чем те, которые существовали на тот момент, когда отдельные сотрудники создавали или получали документацию. Осмысление того, следует ли (и если да, как и когда) использовать эту возможность, будет вызовом для профессионального сообщества специалистов по управлению документами.
Мой комментарий: Автор предлагает целый ряд интересных прогнозов, несомненно, заслуживающих внимания и обсуждения. В то же время не могу не отметить что он, как типичный ИТ-специалист, плохо осознаёт тот факт, что управление документами неразрывно связано с законодательством и правоприменением (самая пока что машинно-недружественная сфера человеческой деятельности), а также с поддержкой основной деловой деятельности организации. Джеймс Лепен также мало задумывается о фундаментальных архивных принципах, на которых держится как доверие к архивным документам, так и обеспечение прозрачности и подотчётности.

Кроме того, он, судя по всему, наивно верит, что новые решения полностью заменят старые и всегда будут работать лучше. На самом деле всё будет не совсем так – точно так же, как появление «больших данных» скорее добавило новые возможности в арсенал специалистов, не отменив и не заменив традиционно высококачественные, целевым образом собираемые «малые данные». Температуру по-прежнему проще и точнее мерять градусником, а не извлекать путём обработки гигабайт данных об окружающей среде :)

Я считаю, что нас ожидает мир, в котором ИИ будет во всех смыслах сосуществовать с людьми, и, соответственно, для управления документами будет использоваться смесь старых и новых технологий. Одной из основных проблем для нашей профессии как раз опеспечение интероперабельности всех этих технологий.

Выводы

Управление документами в эпоху доминирования структурированных данных

Рост значения структурированных данных бросает вызов теории управления документами. Эта теория, по большей части, основана на предположении, что большинство документов (включая переписку и другие виды документации) создаётся как самостоятельные объекты (неструктурированные данные), которые перемещаются независимо от какой-либо структуры и которые, следовательно, в определённый момент времени необходимо интегрировать в некую структуру.

Эту теорию необходимо усовершенствовать, сделав её способной адаптироваться к реальной жизни, в которой со времени цифровой революции даже переписка создаётся и распространяется в рамках структурированной базы данных. В такой обновлённой теории будет снижен акцент на создание документных структур, в которые должны быть включены документы (поскольку большинство документов, включая всю переписку по электронной почте, создаётся в базе данных, уже имеющей структуру и схему). Вместо этого оно должна подчеркнуть важность создания защитимой (в случае судебных споров и расследований – Н.Х.), прагматичной и последовательной основы для применения правил доступа и сроков хранения в различных структурах и схемах разнообразных наборов данных, используемых организациями.

ИИ и возможность реструктурировать и ре-агрегировать целые документные системы

Наиболее далеко идущее изменение, связанное с ИИ-революцией, заключается в том, что способность реорганизовать все элементы в документной системе впервые не зависит от исходной схемы метаданных этой системы. Теоретически служба управления документами / полномасштабного управления информацией будет иметь возможность использовать любую соответствующую логику классификации (т.е. любую схему классификации, которая имеет какое-либо отношение к содержимому документной системы) для перегруппировки контента в документной системе. Служба сможет применять правила доступа и сроки хранения, назначая их этим новым агрегациям. Ре-агрегация может быть проведена в любой момент существования системы (это означает, что документ может быть перепривязан к новой агрегации для целей управления через одну секунду, день, месяц, год, десятилетие или век после его создания или получения.

Мой комментарий: Меня пугает та неимоверная лёгкость, с которой автор говорит о реструктуризации документов, не осознавая правовых последствий подобных операций, риска утраты целостности и аутентичности и, как следствие, юридической значимости и доказательной силы документов. Не знаю, в курсе ли автор таких фундаментальных принципов архивного дела, как уважение фондов и первоначального порядка, принципа происхождения - но его идеи идут вразрез с ними.

В конце 2000-х годов во многом похожая идея высказывалась в куда более грамотной форме. А именно, сегодня документы в большинстве решений обычно хранятся в реляционной базе данных и какого-то их «физического» упорядочения не существует. Документальный массив в принципе может быть показан различным пользователям по-разному, с учётом их потребностей (и некоторые решения уже это поддерживают). Представление определяется настройками документной системы, опираясь на имеющиеся метаданные (которые могут использоваться для привязки документа к определенному элементу в структуре представления). Все такие представления независимы, сами рассматриваются как документы и подлежат сохранению – в первую очередь те, посредством которых устанавливались сроки хранения и правила доступа. В этом плане правильнее говорить не о реструктуризации, а о создании нового представления. Документы в таком случае не перепривязываются, а привязываются – независимо от предыдущих привязок – к структуре нового представления.

Это ставит теорией и практикой управления документами два фундаментальных вопроса:
  • Каковы последствия способности переклассифицировать, ре-агрегировать и/или перемаркировать все элементы в документной системе для профессии, целью которой традиционно было создание и поддержание режимов управления информацией на основе предсказуемых прав доступа и предсказуемых правил определения сроков хранения, которые применялись к предсказуемым агрегациям документов?

    Мой комментарий: Одним из главнейших признаков документа является фиксированность его формы, содержания и контекста. Последнее предполагает и, говоря словами автора, предсказуемость состава и порядка документов в агрегациях документов. Применение непредсказуемых агрегаций поставит под сомнение возможность рассматривать входящие в них материалы как полноценные документы, пригодные для отстаивания интересов владельца и других заинтересованных сторон.

  • Каковы последствия возможности назначать правила доступа и сроки хранения для агрегаций, которые не существовали тогда, когда документы были изначально созданы, и которые создатели / получатели документов не предполагали использовать их для назначения таких правил?

    Мой комментарий: Я не вижу в этом проблемы при условии, что новые агрегации будут поддерживаться не вместо старых, а параллельно с ними, как альтернативные формы представления одного и того же документального массива. В конце концов, существующая практика экспертизы ценности позволяет пересматривать (в том числе выборочно) сроки хранения определенных документов с учётом изменений законодательства, деловых потребностей, вторичных функций документа и т.д.
Чтобы поставить эти вопросы более конкретно, давайте подумаем о них в связи с электронной почтой – великой нерешённой проблемой управления документами, возникшей в результате цифровой революции.

В системах электронной почты переписка группируется в учётные записи электронной почты, и правила доступа применяются к переписке через эти учётные записи. Искусственный интеллект открывает три варианта назначения правил доступа и сроков хранения для электронных писем:
  • Игнорировать существующую структуру / схему – обходить учетные записи. ИИ используется в этом случае для перегруппировки почтовой переписки (например, путем применения корпоративной системы классификации документов), так что права доступа и / или сроки хранения далее определяются не через учётные записи электронной почты, а вместо этого через классификационную схему для документов.

    Мой комментарий:
    Автор не в курсе того, что установление сроков хранения в зависимости от принадлежности учётной записи – это не более чем аварийный подход, рекомендуемый тогда, когда нет никаких возможностей навести порядок в накопившейся электронной переписке согласно традиционным правилам управлении документами и архивного дела. Нормальный подход предполагает установление сроков хранения в зависимости от особенностей деловой деятельности, к которой относятся документы, вне зависимости от учётной записи.

  • Придерживаться существующей структуры / схемы - сделать учетные записи электронной почты управляемыми: ИИ используется для того, чтобы сделать учётные записи электронной почты более управляемыми посредством выявления тривиальных, личных и высокочувствительных электронных писем в учётных записях электронной почты.

  • Использовать существующую структуру и схему в качестве отправной точки – расширить функциональные возможности учётных записей электронной почты, а затем выйти за их рамки: ИИ используется для классификации электронных писем в учётных записях электронной почты по видам деловой деятельности, однако учётные записи электронной почты продолжают использоваться в качестве основного способа группировки при установлении прав доступа. По мере привыкания людей к тому, что классификацию их электронной почты осуществляют машины в соответствии с видами деловой деятельности, им может быть предоставлена возможность открытия доступа избранным коллегам к переписке по определённым видам деятельности из их учетных записей электронной почты.
Мой комментарий: С моей точки зрения, все три варианта очень сомнительные, как с точки зрения управления документами, так и с точки зрения информационной безопасности и защиты персональных данных.

Первый подход связан с высоким риском, второй – даёт низкую отдачу. Третий подход позволяет получить отдачу отдельным пользователям учётных записей электронной почты и их коллегам посредством осуществления постепенных изменений.

Нам следует искать подходы к внедрению ИИ, которые Дейв Сноуден (Dave Snowden) мог бы отнести к разряду «подходов с некатастрофическими неудачами» (safe-fail,  https://cognitive-edge.com/blog/safe-fail-or-fail-safe/ - это подходы, когда признается, что, с учётом существующих неопределённостей и рисков, придётся на каких-то этапах экспериментировать, и часть экспериментов закончится неудачами, из которых будут извлечены соответствующие уроки. Важно лишь, чтобы такие неудачи не влекли за собой катастрофических последствий – Н.Х.). При использовании таких подходов классификация на основе машинного обучения сначала вводится параллельно с существующими структурами (или внутри них), а затем, по мере роста доверия к процессу машинного обучения, постепенно начинают оказывать всё большее влияние на назначение правил доступа и сроков хранения.

Теоретические положения и пояснения, приведенные в данной статье, были разработаны мною в ходе моего докторского исследовательского проекта в университете Лафборо (Loughborough University), в котором архивная политика в отношении электронной почты рассматривалась с реалистической точки зрения. Подготовленная по материалам этого проекта статья «Защитимое удаление государственной электронной почты» (The defensible deletion of government email) была опубликована в журнале «Управление документами» (Records Management Journal) в марте 2019 года, см. https://www.emerald.com/insight/content/doi/10.1108/RMJ-09-2018-0036/full/html . Версия этой публикации для открытого доступа выложена в цифровом репозитории университета Лафборо по адресу https://repository.lboro.ac.uk/articles/The_defensible_deletion_of_government_email/9505238 .

Джеймс Лепен (James Lappin)

Источник: блог «Thinking Records»
https://thinkingrecords.co.uk/2020/01/30/records-management-before-and-after-the-ai-revolution/

Комментариев нет:

Отправить комментарий