пятница, 17 марта 2017 г.

США: Категоризация «серых» данных


Данный материал подготовлен на основе постов вице-президента по маркетингу американской компании Archive360 Билла Толсона (Bill Tolson – на фото), опубликованных на сайте компании 20 и 27 октября 2016 года. Публикуется с небольшими сокращениями.

Недавно я провел вебинар для Ассоциации административных работников юридических фирм и отделов (Association of Legal Administrators, https://www.alanet.org/ ) под названием «Полномасштабное управление информацией завтрашнего дня» (Tomorrow’s Information Governance). Один из заданных мне вопросов был об определении того, что такое на самом деле «серые» данные, какие из них следует сохранить, а какие реально не имеющие никакой ценности данные следует уничтожить. Мне этот вопрос показался очень интересным, и я посвятил ему эту статью.

Под «серыми», или, иначе, малоиспользуемыми (low-touch) данными я понимаю те из неструктурированных данных, которыми располагает организация, у которых либо нет владельца (данные уволившихся сотрудников), либо те, в отношении которых отсутствуют как законодательно-нормативные требованиями по срокам хранения и распоряжения по приостановке уничтожения ввиду судебных исков (litigation hold), или же не имеющие очевидной ценности для деловой деятельности. Это определение практически идентично определению не имеющих ценности, ненужных данных. Тем не менее, определяющим фактором, отличающим серых данные от бесполезных, является то, что для серых данных по-прежнему потенциально существуют причины, оправдывающие их сохранение организацией. Можно привести следующие примеры:
  • Данные бывших сотрудников, которые имеют ценность для нынешних сотрудников (например, отчеты, презентации и т.д.);

  • Стареющие, но пока ещё официально не «оприходованные» данные (unreferenced data), принадлежащие нынешним сотрудникам;

  • Определенные унаследованные архивы;

  • Данные, подлежащие очень длительному хранению во исполнение законодательно-нормативных требований  (например, данные кадровой и юридической служб, отдела продаж и т.д.);

  • Старые наборы данных, подготовленные во исполнение обязательств по э-раскрытию (обязательному представлению другим сторонам в судебных спорах либо контролирующим и следственным органам относящейся к делу информации – Н.Х.)

  • Корпоративная история.
Определение ценности данных

В своих предыдущих постах на блоге (см. http://blog.archive360.com/valuing-grey-data ) я уже упоминал опрос, проведенный в 2012 году Советом по исполнению законодательно-нормативных требований, управлению и надзору (Compliance, Governance and Oversight Council, CGOC, http://www.cgoc.com/  - это ассоциация, объединяющая на данный момент свыше 3400 юристов, ИТ-специалистов, специалистов по управлению документами и информацией из частных компаний и государственных органов - Н.Х.). Согласно результатам опроса, корпоративные данные можно разделить на следующие категории (см. рис.1);
  • 1% - подпадают под запреты на уничтожение и запросы на э-раскрытие,

  • 5% - хранятся во исполнение законодательно-нормативных требований,

  • 25% - имеют определенную деловую ценность.
Рис.1 Классификация корпоративных данных

Остаются 69% корпоративных данных, которые считаются бесполезными и являются кандидатами на юридически защитимое уничтожение. Мы, однако, установили, что значительная часть (30-39%  от общего объёма корпоративных данных – в разных постах автор дает различные цифры – Н.Х.) этих бесполезных данных на самом деле не совсем бесполезна, и эти данные следует по различным причинам сохранять (как, например, данные бывших сотрудников). Некоторые компании в настоящее время хранят данные бывших сотрудников в течение определенного периода времени на основе срока исковой давности в своей юрисдикции, на тот случай, если через несколько лет вдруг будет подан иск о незаконном увольнении с работы.

Вопрос, который мне задали во время вебинара, как раз касался тех 69% корпоративных данных, которые CGOC классифицировал как потенциально бесполезные. Фактически есть два подхода к выявлению серых данных в этом массиве:
  • Отфильтровать всех данные, действительно не имеющие какой-либо ценности, либо

  • Отфильтровать всех «серые» данные.
На практике заниматься поиском очевидно ненужных данных, и только этим – не лучший способ выполнения такого рода проектов. Вы можете предварительно определить типы очевидно ненужных данных и заняться их поиском ... например, поиском всех системных файлов или всех файлов старше десяти лет, однако при таком подходе, с одной стороны, будет не затронуто большое количество бесполезных файлов, а с другой – будет риск уничтожить в действительности «серые» данные, которые стоило бы сохранить.

Сначала разобраться с очевидными вещами

Возвращаясь к результатам опроса CGOC, Вы должны быть в состоянии быстро определить, какие данные подлежат сохранению в силу законодательно-нормативных требований, подпадают под запреты на уничтожение или же имеют очевидную деловую ценность – исходя из того, как Ваша организация в целом осуществляет обработку данных. Сложным является процесс отделения «серых» данных от бесполезных. Позвольте мне теперь пояснить, почему один только отбор очевидно ненужных данных - не лучшая практика.

Для того, чтобы начать процесс отсева ненужного, сначала следует сфокусировать внимание на очевидно бесполезных файлах, например, таких, как следующие:
  • Дублетные файлы: В организации на общих дисках, в хранилищах документов и в PST-файлах электронной почты может лежать большое количество дубликатов;

  • Версии документов: Может существовать несколько версий документа, на основе которых готовилась его окончательная редакция. Версии, как правило, связаны с изменениями структуры документа, редакционными правками, введением дополнительного контента и комментариями. При экспертизе ценности встает вопрос о том, нужно ли их сохранять, и в большинстве случаев для стареющих файлов ответ будет отрицательным;

  • Старые резервные копии: Резервные копии как рабочих станций, так и серверов / систем хранения по истечении определенного периода времени почти всегда бесполезны. Задайте себе следующий вопрос; что я мог бы сделать с резервной копией электронной почты семилетней давности? На деле резервные копии служат для восстановления работоспособности систем после чрезвычайных происшествий,   и они должны храниться лишь в течение коротких периодов времени (порядка, например, 3-х месяцев), в противном же случае они становятся бесполезными;

  • Старые системные файлы и отчеты: Опять-таки, какую ценность может иметь системный отчет, сформированный 3 года тому назад?

  • Не связанные с деловой деятельностью или имеющие личный характер аудио- и видеофайлы, которые могут занимать много места в корпоративных системах хранения данных. Разошлите по электронной почте извещение своим сотрудникам о том, что им дается, скажем, 2 недели на то, чтобы забрать эти файлы из корпоративных систем; и что по истечении этого периода все такие файлы будут уничтожены.
Это далеко не исчерпывающий список, однако Вы, наверное, общую идею поняли. Действуйте с точки зрения здравого смысла.

Менее очевидные вещи

Дальнейшим этапом является разработка политики выявления среди подавляющего большинства неструктурированных данных организации тех «серых» данных, которые по-прежнему заслуживают сохранения. После уничтожения очевидно ненужных материалов, следующим шагом является проведение отсева на основании других критериев, таких как:
  • Дата последнего доступа: Если данные новые или относительно новые, то они без сомнения принадлежат нынешним сотрудникам и сохраняется высокая вероятность обращения к ним (см. мой пост о жизненном цикле серых данных, http://blog.archive360.com/the-lifecycle-of-grey-data ). Никогда не является хорошей стратегией удаление относительно нового контента без ведома владельца. Сотрудники могут потратить огромное количество рабочего времени на поиск файла, который, как они точно знают, они создали месяц тому назад.

  • Конкретные хранители: Компаниям следует подготовить перечень тех сотрудников, чьи данные никогда не будут проходить отбор и удаляться. Это могут быть, например, генеральный директор, глава юридической службы, а также конкретные инженеры,  создающие интеллектуальную собственность. Делается это как для юридических целей, так и в интересах сохранения корпоративной истории. (Такого рода подход сейчас широко внедряется в государственных органах США при управлении электронной почтой. Его, однако, скорее следует считать аварийной мерой – просто нет ни сил, ни средств, ни кадров для проведения надлежащей экспертизы ценности огромных объёмов электронной переписки. Подобный подход в условиях США позволяет устранить одни риски, но создает другие – в частности, риски избыточно длительного сохранения потенциально опасной для организации информации, а также несанкционированного раскрытия персональных данных соответствующего должностного лица – Н.Х.).

  • Бывшие сотрудники: Данные уволившихся сотрудников, такие, как содержимое почтовой учетной записи и архива электронной почты, содержимое файловой системы, облачные данные, а также данные с их рабочих станций следует собрать и сохранять в течение периода времени, установленного корпоративными  юристами. Эти данные могут быть пригодится, например, в случае, если впоследствии сотрудник подаст судебный иск, обвинив компанию в неправомерном увольнении. Проще всего такие данные собрать непосредственно в момент ухода сотрудника из компании или вскоре после этого.

  • Бесхозный контент: В редких случаях у файлов данных не будет легко определяемого автора. В этом случае ценность контента может быть определена путем анализа по ключевым словам.

  • PST-файлы электронной почты: Опять же, иногда может быть трудно определить, кому принадлежат конкретные PST-файлы. Анализ содержимого PST-файла (если он не защищен паролем) может помочь Вам быстро установить его владельца.
Перечисленное выше – это наиболее перспективные направления отбора и отсева, но может быть и много других, в зависимости от специфики деятельности организации.

Следующий шаг после категоризации – организация хранения

Что же следует делать с серыми данными после того, как Вы закончили процесс фильтрации / категоризации? Очевидно, что Вы начали процесс с целью их сохранить. Встаёт вопрос: как долго и где?

Вам следует разработать политику обращения с серыми данными. Во-первых, установите максимальные сроки хранения - например, на основе срока исковой давности в Вашей юрисдикции для подачи бывшими сотрудниками судебных исков о неправомерном увольнении.

Во-вторых, создайте защищенное хранилище низкой стоимости, которым можно управлять и по которому, при необходимости, можно вести поиск. Это хранилище должно иметь функциональные возможности для установления и отслеживания сроков хранения, а также для установления и снятия запретов на уничтожение, с тем, чтобы в конечном итоге серые данные могли быть уничтожены.

Билл Толсон (Bill Tolson)

Источник: сайт компании Archive360
http://blog.archive360.com/categorizing-grey-data-part-1
http://blog.archive360.com/categorizing-grey-data-part-2

1 комментарий:

  1. Статья умная - точнее, видно автор грамотный архивист с большой практикой. Приятно читать.

    *
    Одно - "НО":

    Его мысль - "разработка политики выявления среди подавляющего большинства неструктурированных данных организации тех «серых» данных, которые по-прежнему заслуживают сохранения" - так и остается тайной, которую невозможно выразить словами.
    Как именно разработать? Как понять - что именно будет заслуживать интерес лет через 10, 50 или 100 ??
    Эта трудность и есть основание стремления к обработке "всего"(впрок), боязнь "не прогадать".

    ОтветитьУдалить