четверг, 19 июня 2014 г.

Джеймс Лепен: Автоклассификация – будут ли поставщики облачных услуг первыми, кто её реализует? Часть 1


Данная заметка известного британского консультанта и педагога в области управления документами Джеймса Лепена (James Lappin) была опубликована на его блоге «Thinking Records» (Думая о документах) 30 мая 2014 года.

Нетрудно предсказать, что аналитика данных (data analytics), автоматическая классификация и облачные вычисления будут оказывать всё большее влияние на управление документами. Большой вопрос заключается в том, будут ли эти три тенденции действовать совместно или по отдельности.

Мне кажется, что они дадут наиболее сильный эффект при использовании в комбинации - когда поставщик облачных вычислений применяет средства аналитики к контенту, хранимому им от имени и по поручению многочисленных клиентов, для автоклассификации контента для каждого клиента.

Давайте взглянем на каждое из этих явлений в отдельности, а затем посмотрим, что происходит, когда они приходят совместно.

Аналитика данных

Аналитика представляет собой процесс выявления машинами повторяющихся особенностей (patterns) в контенте / данных / метаданных с целью их понимания и получения выводов (insights), которые могут предназначаться для дальнейшего использования и выполнения на их основе действий как людьми, так и машинами.

Средствами аналитики можно обрабатывать наборы данных любого размера, однако наибольшую отдачу они дают при обработке больших наборов данных.

Мой комментарий: Джеймс Лепен – очень умный человек, однако, насколько мне известно, личного опыта аналитической обработки данных у него нет. Видимо, этим и объясняется его наивное заблуждение. На практике огромное значение имеет качество данных, а колоссальные по объёму «электронные помойки» обычно куда менее полезны для анализа, чем компактные высококачественные наборы собранных по продуманной методике, с учетом изучаемого вопроса, и тщательно проверенных данных. Данная ошибка вообще очень распространена среди энтузиастов «больших данных» :)

Когда люди говорят о больших данных, они на самом деле говорят об аналитике. Именно большие данные делают аналитику эффективной, а аналитика делает осмысленными затраты на большие данные.

Текущее использование аналитики в управлении документами

Использование аналитики в сфере управления документами все еще находится в зачаточном состоянии.

Есть целый ряд инструментов (Nuix, HP Control Point, Active Navigation и др.), предлагающих аналитические «контрольные панели» (dashboards), отображающие выводы, сделанные по результатам просмотра и анализа содержимого общих дисков, SharePoint-систем, серверов электронной почты и других используемых организацией систем. Эти данные позволяют администратору выявлять дубликаты, документы, подпадающие под судебные запреты на уничтожение, а также избыточную, устаревшую и малоценную документацию (redundant outdated and trivial documentation, сокращённо ROT т.е. «гниль»), и т.д..

Специалисты по управлению документами и специалисты по полномасштабному управлению информацией (information governance managers) – если они вообще используют аналитику - применяют эти инструменты для обработки унаследованных данных (legacy data). Средства контент-аналитики используются для снижения потребного места на общих дисках, для подготовки общих дисков к миграции, или для исполнения судебного запрета на уничтожение документов и информации (legal hold) в масштабе нескольких хранилищ, и т.д. Все это хорошо и полезно; но это означает, что:
  • Мы используем средства аналитики применительно к контенту с минимальной потенциальной ценностью (старые материалы на общих дисках), а не к потенциально самому ценному (тому, который был создан или получен сегодня);

  • Мы используем аналитику для сокращения затрат на хранение ненужных документов, а не для повышения доступности и увеличения масштабов использования ценного контента;

  • У нас очень слабая обратная связь в плане точности анализа, поскольку решение о том, что какой-то контент является тривиальным / личным / важным принимается в такой момент времени, когда оно слабо влияет на сотрудников организации (и, следовательно, они или не заметят сделанных ошибок, или не придадут им значения).
Автоклассификация

Автоклассификация является одним из видов аналитики, в котором алгоритмы и/или правила применяются для отнесения электронного объекта (документа, сообщения электронной почты и т.д.) к определенной классификационной категории (или для помещения в дело/папку, для присвоения тега) на основе его содержания, метаданных и/или контекста его использования.

Автоклассификация становится стандартной функциональной возможностью в продуктах, предлагаемых поставщиками решений для архивации электронной почты (Recommind) , для контент-аналитики (Nuix и HP Autonomy), и для управления корпоративным контентом (IBM и Open Text).

Есть реальные возможности для применения автоклассификации, но чтобы их использовать, мы должны преодолеть два барьера:
  • Барьер недоверия - организации в настоящее время неохотно используют автоклассификацию для принятия решений, которые повлияют на доступность и сохранность части контента;

  • Барьер обучения – на «обучение» системы автоклассификации, чтобы та «понимала» категории, по которым Вы хотите классифицировать контент, нужно время.
Преодоление барьера недоверия

Представьте, что Вы - руководитель среднего звена. В Вашу учетную запись электронной почты каждый день поступает две сотни сообщений электронной почты – одни из них «безобидные», в то время как другие могут содержать конфиденциальные или срочные сведения. Персонального помощника у Вас нет. Доверите ли Вы системе автоклассификации раз в день поработать над вашей учетной записью и назначить категории для новых сообщений электронной почты – в результате чего какие-то из этих сообщений станут видимыми или отыскиваемыми коллегами, а некоторым из них будет установлен сравнительно короткий срок хранения?

Два поставщика решений (HP и Nuix) сообщили мне, что клиенты по-прежнему неохотно доверяют алгоритмической автоклассификации принятие в отношении контента решений, изменяющих его доступность и сроки хранения. Клиенты куда охотнее доверяют автоклассификации в ситуациях, когда решения принимаются на основе четко установленных правил (типа: «если электронная почта была послана с адреса, который заканчивается на @companyname.com, то назначить ему категорию Y»), чем они доверяют решениям на основе чтения и алгоритмической обработки контента и метаданных. Однако организации вряд ли сможет вручную сформулировать достаточное количество правил для «движка» системы автоклассификации, дающее возможность принимать решения на основе правил по каждому сообщению электронной почты, полученной каждым человеком в организации.

Весь смысл автоматической классификации заключается в изменении доступности и сроков хранения контента, особенно контента электронных почтовых систем. Целями использования автоклассификации применительно к электронной почте могут быть:
  • Предотвратить ситуации, когда важные электронные письма оседают в почтовых ящиках одного-двух человек и оказываются недоступными для других сотрудников организации;

  • Предотвратить уничтожение важных электронных писем, когда спустя полгода / два года / шесть лет после увольнения сотрудника организация удаляет его учетную запись электронной почты.
Путь к повышению доверия к автоклассификации лежит через:
  • Повышение прозрачности – сотрудникам даётся возможность видеть, как выполняется классификацию любого конкретного сообщения электронной почты, кто в итоге сможет получить к нему доступ, и почему система отнесла его к определенной категории;

  • Право выбора – сотрудникам даётся возможность влиять на решения, принимаемые системой автоклассификации. Им сообщается о результатах категоризации сообщений до того, как соответствующие решения «вступят в силу», и предоставляется возможность отменить, предотвратить или изменить классификацию;

  • Наличие последствий – принимаемые в результате автоклассификации решения должна оказывать какое-то влияние с точки зрения доступности и сроков хранения, в противном случае сотрудники не станут ничего делать для того, чтобы предотвратить или исправить ошибки категоризации;

  • Согласованность – ничто так не укрепляет доверие, как предсказуемость и повседневное использование. Убедитесь, что результатом автоклассификации является группировка электронных писем / документов, на которые имеются ссылки / подписка / которые всплыли в результатах поиска и т.д. Это не только позволит быстрее выявлять ошибки, но и означает получение организацией отдачи от автоклассификации как в области коллективной работы и взаимодействия, так и в области управления информацией.
Здесь отчасти наблюдается ситуация типа «курица и яйцо»:
  • Для того, чтобы организации стала доверять автоклассификации, нужно, чтобы конечные пользователи постоянно взаимодействовали с результатами автоклассификации, создавая тем самым петлю обратной связи, позволяющей движку системы автоклассификации обучаться на основе поведения и реакции конечных пользователей .....

  • ... А для того, чтобы добиться такого уровня взаимодействия, система автоклассификации должна работать с наиболее актуальным и, следовательно, наиболее рискованным контентом.
Это означает, что для преодоления барьера недоверия мы также должны преодолеть барьер обучения системы, с тем, чтобы движок автоклассификации работал достаточно точно для того, чтобы организации могла её использовать.

Мой комментарий: Я бы обратила внимание на два «подводных камня», связанных с автоклассификацией.

Во-первых, правила автоклассификации следует каким-то образом задокументировать и поддерживать соответствующие документы в актуальном состоянии. Следует помнить, что, с точки зрения суда, использование средств автоклассификации не снимает с организации ответственности за обеспечение сохранности документов. В то же время суд обычно менее жёстко относится к нарушениям в результате исполнения внутренних нормативных документов, чем к нарушениям, причиной которых стала самодеятельность сотрудников.

Во-вторых, как в своё время неоднократно убедились те, кто проектировал и использовал системы искусственного интеллекта, экспертные системы и т.п., системы такого рода могут оказаться неустойчивыми – небольшие изменения или дополнения в правилах и алгоритмах, или же неудачно проведенное дополнительное обучение системы могут привести к тому, что система будет в разное время принимать различные решения в отношении однотипных документов, и вообще может начать «вести себя». Это может создать проблемы в случае, если придётся выяснять, кто несёт ответственность за решения, в результате которых организация понесла ущерб или не выполнила законодательно-нормативные требования.

Отмечу, что в настоящее время в США, где огромной проблемой является отбор и представление в суд (э-раскрытие) относящихся к делу электронных документов, и только их, сейчас активно осваивается использовании в ходе э-раскрытия систем автоклассификации – но на основе договоренностей между спорящими сторонами.

(Окончание следует, см. http://rusrim.blogspot.ru/2014/06/2_20.html )

Джеймс Лепен (James Lappin)

Источник: блог «Thinking Records»
http://thinkingrecords.co.uk/2014/05/30/auto-classification-will-cloud-vendors-get-there-first/ 

Комментариев нет:

Отправить комментарий