(Окончание, начало см. http://rusrim.blogspot.ru/2014/06/1_19.html )
Преодоление барьера обучения системы
Движок системы автоклассификации должен «понять» смысл категорий / тегов / папок, по которым организация хочет распределять контент. Сейчас стандартным способом решения это задачи является обучающего набора документов для каждой категории. Это отнимает много времени, особенно если Ваша классификация очень детальная.
Для того, чтобы автоклассификация была жизнеспособной в ряде крупных секторов экономики, нужно, чтобы она могла работать, не требуя от организации подготовки обучающего набора документов для каждого узла / категории используемой ею классификационной схемы.
Есть два способа обойтись без обучающих наборов. Первый – воспользоваться результатами обучения, проведенного в других организациях того же сектора. Если один местный орган власти Великобритания, штат или округ США или округа или провинция Канады обучит свою систему автоклассификации работать со своей схемой классификации документов, то, теоретически, эта обученная система может быть использована любым другим органом местной власти / округом / штатом / провинцией. В результате для таких секторов может появиться стимул для перехода на единые системы классификации, используемые в масштабах всего сектора.
Второй способ - использовать аналитику данных, чтобы задействовать контекстуальную информацию, которая не присутствует в самих документах и их метаданных. В идеале система автоклассификации будет иметь доступ к результатам аналитической информации о каждом сотруднике организации. Она будет знать:
- к какой группе принадлежат сотрудники,
- за что эта группа отвечает,
- какие виды деятельности (проекты, заказы на обслуживание, взаимоотношения) выполняет эта группа;
- где они обычно хранят свои документы;
- с кем они обычно переписываются.
Система автоклассификации будет использовать эту информацию для того, чтобы сужать выбор категорий для каждого документа / сообщения электронной почты, созданного или полученного сотрудником.
Есть возможность использовать аналитику данных для обучения системы автоматической классификации, и, следовательно, для устранения необходимости в обучающих наборах документов. Я не вижу причин для того, чтобы это не сработало, при условии, что используемые аналитическими инструментами наборы данных будут достаточно большими и актуальными.
Мой комментарий: Прекрасно понимая, что появление приличных систем автоклассификации открывает целый ряд интереснейших новых возможностей, не могу не отметить следующее: для того, чтобы обеспечить порядок в документах и иметь возможность быстро отыскать все (а не часть) документов по нужному вопросу, нет более эффективного способа, чем раскладка документов по рубрикам хорошо продуманной классификационной схемы сразу же после их создания или получения. Отторжение, которое столь часто вызывает этот подход, не столько связано с его какой-то особенно большой трудоёмкостью, сколько с неподготовленностью сотрудников, не понимающих, что небольшие дополнительные трудозатраты сегодня позволяют избежать куда более существенных затрат завтра (в том числе и на замечательные средства аналитики данных :)).
Из этого следует, что в условиях Вашей организации лучше всего будут работать системы автоклассификации тех поставщиков, которые:
Есть возможность использовать аналитику данных для обучения системы автоматической классификации, и, следовательно, для устранения необходимости в обучающих наборах документов. Я не вижу причин для того, чтобы это не сработало, при условии, что используемые аналитическими инструментами наборы данных будут достаточно большими и актуальными.
Мой комментарий: Прекрасно понимая, что появление приличных систем автоклассификации открывает целый ряд интереснейших новых возможностей, не могу не отметить следующее: для того, чтобы обеспечить порядок в документах и иметь возможность быстро отыскать все (а не часть) документов по нужному вопросу, нет более эффективного способа, чем раскладка документов по рубрикам хорошо продуманной классификационной схемы сразу же после их создания или получения. Отторжение, которое столь часто вызывает этот подход, не столько связано с его какой-то особенно большой трудоёмкостью, сколько с неподготовленностью сотрудников, не понимающих, что небольшие дополнительные трудозатраты сегодня позволяют избежать куда более существенных затрат завтра (в том числе и на замечательные средства аналитики данных :)).
Из этого следует, что в условиях Вашей организации лучше всего будут работать системы автоклассификации тех поставщиков, которые:
- Имеют доступ к данным, полученным на основе анализа контента других организаций, действующих в том же секторе, что и Вы;
- Имеют доступ к максимально широкому кругу данных Вашей организации - в том числе к электронной почтовой переписке, данным из социальных сетей, протоколам поиска данных и результатам контент-анализа таких хранилищ документированной информации, как SharePoint и общие диски.
Какая же категория поставщиков будет иметь доступ ко всем этим данным? Поставщики облачных услуг.
Облако меняет правила игры
На прошлой неделе на конференции IRMS-2014 (о ней см. http://rusrim.blogspot.ru/2014/02/blog-post_27.html - Н.Х.) я встретил Шерил Маккиннон (Cheryl McKinnon). Она рассказала мне, что существует облачный сервис архивации электронной почты под названием ZL, которые рекомендует своим клиентам не удалять даже тривиальные сообщения, объясняя это тем, что аналитика данных лучше работает на более полном наборе электронных писем.
Для какого применения аналитики могли бы пригодиться тривиальные сообщения электронной почты? Шерил привела в качестве примера компанию, которая хочет иметь возможность предсказать, будет ли новый персонал отдела продаж высокопроизводительным, или же нет. Аналитические инструменты могут быть использованы для обработки электронной переписки имеющегося персонала отдела продаж с целью выявления устойчивых закономерностей общения, коррелирующих с высокой производительностью. Затем компания может таким же образом проанализировать переписку новых сотрудников и посмотреть, проявятся ли в ней подобные закономерности. При таком анализе тривиальные сообщения электронной почты могут быть столь же хорошим индикатором таких закономерностей, как и важные сообщения.
Аналитика данных становится всепроникающей, её использование повлияет на все сферы жизни и деятельности. Как следствие, все больше и больше данных будет храниться для «скармливания» средствам аналитики. Всепроникающий характер анализа данных означает, что как поставщики облачных услуг (в данном случае ZL), так и их клиенты будут заинтересованы в сохранении бесполезных в прочих отношениях данных.
Мой комментарий: В то же время потребители облачных услуг могут быть заинтересованы в скорейшем уничтожении всех лишних данных как раз для того, чтобы противодействовать несанкционированному использованию аналитики данных, следствием чего может стать утечка секретной информации.
Поставщики облачных вычислений будут собирать всё больше и больше данных, отражающих внутреннюю деятельность всё большего и большего числа организаций. Это потенциально дает им возможность обучать и совершенствовать инструменты контент-аналитики на материалах широкого спектра организаций, взамен предоставляя своим клиентам функциональные возможности автоклассификации как часть своих облачных услуг.
Можно предсказать, что:
Облако меняет правила игры
На прошлой неделе на конференции IRMS-2014 (о ней см. http://rusrim.blogspot.ru/2014/02/blog-post_27.html - Н.Х.) я встретил Шерил Маккиннон (Cheryl McKinnon). Она рассказала мне, что существует облачный сервис архивации электронной почты под названием ZL, которые рекомендует своим клиентам не удалять даже тривиальные сообщения, объясняя это тем, что аналитика данных лучше работает на более полном наборе электронных писем.
Для какого применения аналитики могли бы пригодиться тривиальные сообщения электронной почты? Шерил привела в качестве примера компанию, которая хочет иметь возможность предсказать, будет ли новый персонал отдела продаж высокопроизводительным, или же нет. Аналитические инструменты могут быть использованы для обработки электронной переписки имеющегося персонала отдела продаж с целью выявления устойчивых закономерностей общения, коррелирующих с высокой производительностью. Затем компания может таким же образом проанализировать переписку новых сотрудников и посмотреть, проявятся ли в ней подобные закономерности. При таком анализе тривиальные сообщения электронной почты могут быть столь же хорошим индикатором таких закономерностей, как и важные сообщения.
Аналитика данных становится всепроникающей, её использование повлияет на все сферы жизни и деятельности. Как следствие, все больше и больше данных будет храниться для «скармливания» средствам аналитики. Всепроникающий характер анализа данных означает, что как поставщики облачных услуг (в данном случае ZL), так и их клиенты будут заинтересованы в сохранении бесполезных в прочих отношениях данных.
Мой комментарий: В то же время потребители облачных услуг могут быть заинтересованы в скорейшем уничтожении всех лишних данных как раз для того, чтобы противодействовать несанкционированному использованию аналитики данных, следствием чего может стать утечка секретной информации.
Поставщики облачных вычислений будут собирать всё больше и больше данных, отражающих внутреннюю деятельность всё большего и большего числа организаций. Это потенциально дает им возможность обучать и совершенствовать инструменты контент-аналитики на материалах широкого спектра организаций, взамен предоставляя своим клиентам функциональные возможности автоклассификации как часть своих облачных услуг.
Можно предсказать, что:
- Взаимоотношения между организацией и её поставщиком облачных услуг будут совершенно иными, чем взаимоотношения между организацией и поставщиком решений, развёрнутых на её территории;
- Поведение поставщиков облачных вычислений будет отличаться от поведения поставщиков традиционных решений – например, Microsoft как поставщик Office 365 будет вести себя совершенно по-иному, чем Microsoft как поставщик устанавливаемых на площадке организации решений SharePoint и Exchange.
Давайте подумаем о стратегии компании Microsoft. У неё имеются:
- Ведущее необлачное программное решение для хранения электронной почты (MS Exchange);
- Ведущее необлачное программное решение для хранения контента (MS SharePoint);
- Ведущий необлачный офисный пакет программ (MS Office).
В необлачном мире Microsoft продавала эти продукты по отдельности. В рамках своей облачной услуги компания объединила их в один пакет (Office 365), и за использование этого комбинированного пакета берет меньшую плату, чем ожидаемая расценка за использование каждого из этих трех продуктов по отдельности. Компания также объявила о планах интеграции в Office 365 корпоративных социальных инструментов через решение «Кодовое название Осло» (codename Oslo), которое будет использовать аналитические данные о том, кто с кем взаимодействует, для персонализации потоков контента (Microsoft называют это «Офис-графом» (Office graph), что является кивком в сторону имеющегося в Facebook «социального графа»).
О чём нам говорят действия Microsoft? Они говорят нам, что бизнес-модель компании для Office 365 отличается от их бизнес-модели для необлачных программных продуктов:
О чём нам говорят действия Microsoft? Они говорят нам, что бизнес-модель компании для Office 365 отличается от их бизнес-модели для необлачных программных продуктов:
- В необлачном мире Microsoft стремилась убедить покупателя приобрести более дорогой товар - заставляя существующих клиентов покупать у них все больше и больше различных программных пакетов. Каждый из программных продуктов имел свой собственный бренд.
- В облачном мире Microsoft стремится дать клиентам сразу все свои основные продукты, с тем, чтобы получить от каждого клиента максимум контента и, следовательно, иметь больше возможностей для аналитики данных каждого клиента. Компания даже готова отказаться от такого бренда, как "SharePoint" в пользу единого бренда «Office 365» для облачного пакета.
Так сколько же пройдёт времени, прежде чем Microsoft станет использовать результаты анализа контента его многочисленных клиентов для обогащения метаданных, для развития возможностей поиска и для автоклассификации контента каждого из клиентов?
Вопросы, встающие перед Национальными Архивами США
Национальные Архивы США (NARA) недавно опубликовали для публичного обсуждения свой отчет ( http://blogs.archives.gov/records-express/files/2014/03/Automated-Electronic-Records-Management-Report-and-Plan_3.6.14_finaldraft.pdf , см. также http://rusrim.blogspot.ru/2014/03/blog-post_5185.html - Н.Х.) об автоматизированном управлении электронными документами. Этот доклад был подготовлен во исполнение задачи, поставленной перед ними в соответствии с президентской директивой по управлению документами (о ней см. также http://rusrim.blogspot.ru/2012/08/i_27.html - Н.Х.) - найти способы, помогающие федеральному правительству США автоматизировать управление документами.
Отчет NARA дает хорошее описание автокатегоризации, хотя оно и основана на предположении, что движок такой системы требует для работы пакетов обучающих материалов. В отчете признается, что «необходимые инвестиции [в автокатегоризацию] могут оказаться непосильными для небольших органов исполнительной власти, однако облачные услуги такого рода могут оказаться в пределах досягаемости для многих» (стр. 13).
Национальные Архивы признают здесь, что поставщики облачных услуг скорее сделают автоклассификацию доступной для многих государственных органов, чем те сумеют сами развить аналогичные возможности. В результате ставится ряд фундаментальных вопросов:
Вопросы, встающие перед Национальными Архивами США
Национальные Архивы США (NARA) недавно опубликовали для публичного обсуждения свой отчет ( http://blogs.archives.gov/records-express/files/2014/03/Automated-Electronic-Records-Management-Report-and-Plan_3.6.14_finaldraft.pdf , см. также http://rusrim.blogspot.ru/2014/03/blog-post_5185.html - Н.Х.) об автоматизированном управлении электронными документами. Этот доклад был подготовлен во исполнение задачи, поставленной перед ними в соответствии с президентской директивой по управлению документами (о ней см. также http://rusrim.blogspot.ru/2012/08/i_27.html - Н.Х.) - найти способы, помогающие федеральному правительству США автоматизировать управление документами.
Отчет NARA дает хорошее описание автокатегоризации, хотя оно и основана на предположении, что движок такой системы требует для работы пакетов обучающих материалов. В отчете признается, что «необходимые инвестиции [в автокатегоризацию] могут оказаться непосильными для небольших органов исполнительной власти, однако облачные услуги такого рода могут оказаться в пределах досягаемости для многих» (стр. 13).
Национальные Архивы признают здесь, что поставщики облачных услуг скорее сделают автоклассификацию доступной для многих государственных органов, чем те сумеют сами развить аналогичные возможности. В результате ставится ряд фундаментальных вопросов:
- Готово ли федеральное правительство позволить поставщикам облачных вычислений, таким, как Microsoft, использовать аналитику данных для автоклассификации федеральных электронных писем и документов? - или
- Предпочитает ли оно, чтобы каждый отдельный федеральный орган исполнительной власти развил свои собственные возможности? – или
- Считает ли оно, что федеральным органам исполнительной власти нужно объединиться с тем, чтобы развить соответствующие возможности для всего государственного сектора в целом?
В связи с автоклассификацией возникают также очень серьёзные проблемы в сфере безопасности и управления информацией:
- С точки зрения безопасности и управления информацией, явно предпочтительным является вариант, при котором у каждого государственного органа имеются собственные возможности для аналитики, поскольку и облачный вариант, вариант общей для государственных органов услуги создают слишком большую концентрацию данных и сведений о функционировании федеральной администрации США;
- Однако с точки зрения «больших данных» / аналитики данных, облачный вариант и вариант общегосударственной услуги лучше, потому что они создают большую базу данных, на основе которой можно принимать более обоснованные решения в ходе автоклассификации.
Джеймс Лепен (James Lappin)
Источник: блог «Thinking Records»
http://thinkingrecords.co.uk/2014/05/30/auto-classification-will-cloud-vendors-get-there-first/
Источник: блог «Thinking Records»
http://thinkingrecords.co.uk/2014/05/30/auto-classification-will-cloud-vendors-get-there-first/
Комментариев нет:
Отправить комментарий