(Продолжение, начало см. http://rusrim.blogspot.ru/2015/08/1.html )
Второй пост Джона Исазы и Тома Рединга из этой серии был опубликован 31 июля 2015 года.
Начнем с того, что нет такой «волшебной кнопки», одно нажатие которой позволило бы выполнить отнимающую много времени трудозатратную категоризацию информации в системах обработки структурированных данных. Это связано со следующими проблемами, связанными со структурированными данными:
Второй пост Джона Исазы и Тома Рединга из этой серии был опубликован 31 июля 2015 года.
Начнем с того, что нет такой «волшебной кнопки», одно нажатие которой позволило бы выполнить отнимающую много времени трудозатратную категоризацию информации в системах обработки структурированных данных. Это связано со следующими проблемами, связанными со структурированными данными:
- Среди структурированных данных непропорционально большой процент составляют «тёмные данные» (Dark Data) и «большие данные» (Big Data). Например, один из наших глобальных клиентов развернут SAP-систему для одного из своих дивизионов, и через нескольких месяцев был большой всплеск объемов данных. Клиент назвал его «эффектом хоккейной клюшки» на диаграмме роста, см. приведенную справа диаграмму.
- Сравнительно несложно выделить документированную информацию, отделив её от всех прочих не-документов и данных. Это связано с тем, что не имеющие характера документов данные могут лишь временно использоваться для деловых целей, в отличие от «документов», которые предписаны и регламентированы.
- В отношении структурированных данных сложно применять бизнес-правила, поскольку правила могут быть неодинаковыми от системы к системе, например, в Oracle/SAP, IBM/DB2, HP и в ином подобного программном обеспечении на основе баз данных.
- Недостаточна степень осознания условий, необходимых для защитимого уничтожения структурированных данных, что отчасти является следствием предыдущего пункта, но также подпитывается отсутствием должного понимания законодательно-нормативных требований и боязнью правовых последствий.
- «Право быть забытым» должно стать важным фактором, стимулирующим защитимое уничтожение структурированных данных – особенно данных в Интернете. Как американские, так и зарубежные требования по уничтожению данных означают, что Вы уже не можете сохранять все данные просто потому, что хранение стоит дешево.
Помимо приведенных выше высокоуровневых соображений, имеется ряд отрезвляющих статистических данных, помогающих обосновать необходимость тратить время и силы на решение этой проблемы. Например, объёмы информации за период с 2011 по 2015 год увеличились в четыре раза. По состоянию на 2013 год, для того, чтобы найти полезную информацию, деловым пользователям IBM (см. https://www-950.ibm.com/events/wwe/iod/iod2013cms.nsf/download/k391f39fc6f9e6f9e1421c7da63e/$FILE/IOD2013_ELG-3233.pdf - Н.Х.) приходилось «переплывать»:
- 5,2 миллиардов документов, из которых 1,5 миллиарда были старше 3 лет;
- 40,1 миллиардов записей в прикладных программах.
Ожидалось, что к концу 2015 года эти цифры увеличатся соответственно на 3 миллиарда. документов и более 50 миллиардов, что замедлит работу наших сотрудников и систем – и составят:
- 8,4 миллиарда документов, 60% из которых старше 3 лет, а 1,5 миллиарда - старше 6 лет;
- 92,7 миллиарда записей в прикладных программах.
- В 2013 году объёмы резервного копирования в 12 раз превышали объемы создаваемых документов и информации, поэтому хранились 72,4 миллиарда документов (35 петабайт);
- В 2015 году объёмы раздуются до 118 миллиардов документов и 57 петабайт резервных копий.
- К концу 2015 года объём записей в «боевых» базах данных более чем удвоится – с 40,1 до 92,7 миллиардов;
- Общие объёмы записей в наших системах к концу 2015 года увеличатся до 564,3 миллиардов – это двукратный рост по сравнению с 2013 годом и десятикратный по сравнению с 2011 годом, следствием чего являются значительные проблемы, связанные с приложениями, инфраструктурой, качеством данных, безопасностью и оперативной деятельностью.
Наконец, с точки зрения электронного раскрытия информации в случае судебных споров и расследований, в настоящее время затраты оцениваются в 8,14 долларов за каждый документ. Таким образом, имеющиеся 67,2 миллиарда документов представляют собой связанный с э-раскрытием финансовый риск в размере 547,1 миллиарда долларов.
- 1% от величины этого риска составляет сумма в 5,4 миллиарда долларов, резервируемая компанией на незапланированные расходы;
- В 2015 году объем документов подскочит до 109,7 миллиардов, а величина риска до 768,1 миллиарда долларов; э-раскрытие в объёме 1% обойдётся в 7,3 миллиарда долларов, при условии, что удельные затраты на э-раскрытие ежегодно будут снижаться на 10%.
- Поскольку сфера э-раскрытия продолжает расширяться, то имеющиеся на руках 92 миллиарда записей в базах данных также могут вступить в игру;
- Весьма вероятны ошибки с приостановлением уничтожения подлежащих раскрытию документов и информации, а также рост затрат времени на сбор и обработку подобных объёмов данных;
- В экстремальных случаях э-раскрытия под давлением государственных органов, истребование огромных объёмов документов и очень высокие ожидания в отношении скорости реагирования приводят к колоссальным расходам за счет акционеров компании.
Сайт «Решения для полномасштабного управления информацией» (Information Governance Solutions) хотел бы выразить признательность и поблагодарить компанию IBM, предоставившую большинство использованных в посте данных.
(Продолжение следует)
Джон Исаза (John Isaza) и Том Рединг (Tom Reding)
Источник: сайт Information Governance Solutions
http://www.infogovsolutions.com/defensible-disposition-of-structured-data-2/
Комментариев нет:
Отправить комментарий