среда, 8 октября 2025 г.

Интуитивные соображения об управлении документами для специалистов по аналитике данных

Данный пост известного британского консультанта и педагога в области управления документами Джеймса Лепена (James Lappin - на фото) был опубликован 4 сентября 2025 года на его блоге «Thinking Records» (Думая о документах).

Методы аналитики данных (также известна как «наука о данных» - data science) могут применяться в любой области (медицине, психологии, маркетинге, бейсболе, управлении документами и т.д.). Для эффективного использования методов аналитики данных необходимо сочетание:

  • хорошего интуитивного представления о том, как работают эти методы;

  • хорошего интуитивного представления о той области, в которой они применяются.

Представьте, что Вы работаете вместе с аналитиком данных над проектом по использованию методов аналитики данных для определённой цели управления документами и применительно к определённому набору контента. Вам может понадобиться его интуиция в области аналитики данных, а ему - Ваша интуиция в области управления документами.

Оба набора таких интуитивных представлений будут субъективными. Не существует двух таких аналитиков данным или двух специалистов по управлению документами, у которых были бы полностью одинаковые интуитивные представления в своих областях - но это не делает их менее ценными. Ваши интуитивные соображения не только даст Вашему коллеге представление о Вашей дисциплине, но и представление о том, как Вы мыслите, что для Вас важно и с какой точки зрения Вы будете рассматривать проблемную ситуацию.

Интуитивные представления об аналитике данных

Вспомните все методы аналитики данных, о которых вы слышали: линейная регрессия, классификация, кластеризация, тематическое моделирование, сопоставление регулярных выражений, извлечение сущностей, графовые алгоритмы, языковое моделирование и т.д. Каждый из них реализуется алгоритмом, написанным на каком-либо языке программирования. В основе каждого из них лежит определённая комбинация чистой математики, статистики, теории вероятностей и/или логики.

На лекциях или в подкастах можно услышать, как аналитики данных обсуждают такие методы, делясь своими интуитивными представлениями о них – например, о том, что:

  • Алгоритмы кластеризации могут назначать точкам данных (клиентам, документам, свойствам, бейсболистам и т.д.) определённые позиции в многомерном виртуальном пространстве. При этом эти алгоритмы могут кластеризовать (группировать в кластеры) точки данных со схожими характеристиками (покупатели со схожей историей покупок, слушатели со схожими музыкальными вкусами, бейсболисты со схожими способностями и т.д.).

  • Графовые алгоритмы могут устанавливать связи между людьми, объектами и темами. Например, используя в качестве входных данных систему электронной почты и систему управления документами организации, такие алгоритмы могут для любого конечного пользователя выявить, с кем он чаще всего общался, по каким темам и в связи с какими документами.

  • Большие языковые модели обладают статистическим пониманием того, как функционирует каждый язык, с которым они столкнулись. Они понимают, насколько часто слова встречаются в языке, как часто они встречаются в сочетании с другими словами, и как наличие одного слова или словосочетания влияет на вероятность появления любого другого слова или словосочетания. Таким образом, они могут с высокой степенью вероятности дать хороший ответ на любой вопрос по любой теме, при условии, что им была предоставлена достаточная релевантная информация в процессе обучения или в момент задания вопроса.

Возможно, когда-нибудь Вам потребуется внести свой вклад в обсуждение вопроса о том, какие методы аналитики данных следует использовать в Вашей проблемной ситуации. Если у Вас имеется достаточно хорошее интуитивное понимание этих методов, Вы сможете это сделать, даже не разбираясь в лежащей в их основе математике или коде.

Интуитивные представления об управлении документами

Чтобы максимально повысить отдачу от аналитики данных (и от специалистов-аналитиков данных) при решении задач управления документами, нам [архивистам и специалистам по управлению документами – Н.Х.], - как на уровне отдельных специалистов, так и на уровне профессии в целом, - важно передать наши интуитивные представления об области управления документами.

Мы можем начать с формулирования некоторых общих интуитивных представлений о документах, справедливых для любой эпохи. Лучшим источником для этого является архивная наука, содержащая набор такого рода представлений, который складывался на протяжении более чем столетия (многие полагают, что архивное дело зародилось в 1898 году, когда было опубликовано так называемое «голландское руководство» - о нём см. мой пост http://rusrim.blogspot.com/2013/11/2_28.html - Н.Х.).

Наиболее важными я считаю следующие интуитивные представления архивной науки:

  • Документы возникают в процессе деятельности людей - в информационном обществе документы подобны воде: они жизненно важны и при этом распространены повсеместно, а не являются чем-то особенным или необычным.

  • У документов имеется жизненный цикл - настройка прав доступа и назначение сроков хранения в момент создания помогают обеспечить предсказуемое и эффективное управление документами на протяжении всего срока их существования.

    Мой комментарий:
    Как мои читатели могли видеть из целого ряда постов на блоге, сейчас ряд специалистов считает концепцию жизненного цикла устаревшей и пытается взамен неё продвигать концепцию континуума документов. «Правда жизни», однако, заключается в том, что есть документы, особенности существования которых хорошо укладываются в модель жизненного цикла (например, организационно-распорядительные документы), - и есть такие документы, которые в эту модель не вписываются (например, научно-техническая документация).

  • Удобнее действовать на самом высоком (с точки зрения практичности) уровне группировки контента - Работа с группами контента, а не с отдельными его элементами, помогает обеспечить сохранение контекста ключевых документов и сообщений. Это также естественный способ масштабирования типичного для архивного дела и управления документами видения.

    Мой комментарий:
    Иными словами, это рекомендация, по возможности, управлять документами и контентом на уровне (если брать в качестве примера архив) фондов, затем групп дел, затем дел – а не на уровне отдельных документов.

  • Устанавливаемые для контента сроки хранения и действия по их истечении зависят от характера деятельности, в ходе которой контент был создан - Мы ценим документы в зависимости от важности той деятельности, в ходе которой они были созданы. Наспех написанное сообщение, созданное в ходе деятельности, которая всё ещё оказывает на нас влияние, вероятно, будет более ценным, чем прекрасно написанный отчёт о работе, воздействие которой было кратковременным.

  • Необходимо обеспечивать сохранность как контента, так и контекста - Представьте, что у Вас имеются ключевые документы по определённой деятельности (стратегия, проект, политика, контракт, итоговый отчёт и т.д.), но при этом нет рутинных документов/сообщений, с помощью велась работа, которая в итоге позволила достигнуть поставленной цели. В таком случае Ваши возможности понимать, подвергать сомнению, защищать, опровергать или оценивать эти ключевые документы будут ограничены.

    Мой комментарий:
    Знание контекста означает знание обстоятельств, в которых осуществлялась определённая деятельность, её взаимосвязей с миссией и основными задачами организации, с иными видами деятельности и т.д. Сохранение рабочих материалов и переписки – лишь один из способов сохранения контекста, при этом далеко не всегда оправданный или оптимальный.

  • Следует уважать первоначальный порядок, в котором создавался контент – На это будет оказывать влияние архитектура систем, используемых сотрудниками для выполнения и документирования своей работы. Изменяя «задним числом» порядок/структуру набора документов, Вы рискуете создать ложное представление о том, как эта работа была выполнена. Также есть риск того, что станет невозможным установление того, кто и что именно знал, и когда – а это вопросы, которые часто лежат в основе любого исследования или расследования.

    Мой комментарий:
    Принцип уважения первоначального порядка имел и имеет большое значение в физических архивах, в которых проведение переупорядочения массива документов зачастую оказывается невозможным либо чрезвычайно затратным. С электронными документами, однако, ситуация может быть совершенно иная – и на самом деле в большинстве реальных информационных систем документы хранятся не строго упорядоченно, а вперемешку в базе данных; и тот порядок, которое видит пользователь, формируется компьютером на основе имеющихся метаданных. Для электронных документов принцип уважения первоначального порядка следует трактовать как сохранение возможности представить контент в том порядке, в котором он создавался (иными словами, должны создаваться и сохраняться необходимые для такого упорядочения метаданные).

Эти интуитивные представления в целом применимы к документам на любом этапе прогресса используемых человеком технологий. Они были сформулированы в бумажную эпоху, но в равной степени применимы как к предшествующей ей эпохе пергамента (когда работающие в моей стране клерки создавали документы на овечьих шкурах), так и к пришедшей к ней на смену цифровой эпохе.

Эти интуитивные представления общего характера, однако, являются лишь отправной точкой. Нам следует на их основе строить дополнительные интуитивные представления, чтобы сформировать набор представлений, специфических для нашей эпохи, - с тем, чтобы лучше и более обоснованно применять подходы аналитики данных в нашей предметной области.

Значительная часть цифрового контента, созданного за последние двадцать пять лет организациями в таких странах, как Великобритания, в настоящее время существует в виде:

  • унаследованных хранилищ на общих дисках (файлообменники);

  • хранилищ SharePoint;

  • хранилищ электронной почты.

Было бы полезно сформулировать интуитивные представления о структуре и характере контента в этих распространённых типах хранилищ. В особенности было бы полезно сформулировать такие соображения по следующим вопросам:

  • как устроен жизненный цикл документов в таком хранилище;

  • что представляет собой первоначальный порядок / первоначальная структура контента в хранилище (и как наилучшим образом учитывать этот порядок при принятии решений в ходе проведении анализа и экспертизы документов);

  • как распределяется по хранилищу контент, который имеет постоянную ценность;

  • как распределяется по хранилищу контент, не имеющий какой-либо ценности.

Некоторыми своими интуитивными соображениями по этим вопросам я поделюсь в своих последующих постах.

Джеймс Лепен (James Lappin)

Источник: блог «Thinking Records» (Думая о документах)
https://thinkingrecords.co.uk/2025/09/04/intuitions-about-records-management-for-data-scientists/ 

Комментариев нет:

Отправить комментарий