Данная заметка Гленна Хампфри (Glenn Humphries – на фото), координатора проекта «Электронные архивы штата» (Digital State Archives), была опубликована 20 марта 2018 года на сайте Управления государственных документов австралийского штата Новый Южный Уэльс, посвящённом инициативе «Выдержать проверку временем – защитить наше электронное будущее» (Future Proof – Protecting our digital future).
Мотивация
В 2017 году группа электронных архивов государственных архивов австралийского штата Новый Южный Уэльс начала исследовать применение машинного обучения/самообучения (machine learning) для управления документами. Первым результатом этого проекта стала опубликованная на блоге Future Proof аналитическая статья (см. https://futureproof.records.nsw.gov.au/machine-learning-and-records-management/ , перевод на русский язык здесь: https://rusrim.blogspot.ru/2017/09/blog-post_29.html - Н.Х.), в которой изучалось современное положение дел в этой сфере (на что способна технология и как она используется в управлении документами). Один из основных выводов этого отчета заключался в том, что, хотя машинное обучение потенциально способно улучшить работу по классификации и уничтожению/передаче электронных документов, масштабы её использования на практике очень малы, особенно в Новом Южном Уэльсе. В целях содействия её внедрению мы взяли на себя обязательство выполнить ряд внутренних и внешних пилотных проектов с целью дальнейшего изучения машинного обучения и демонстрации его возможностей в области управления документами.
Предлагаемое описание примера из практики документирует внутренний пилотный проект, который группа электронных архивов выполнила в ноябре-декабре 2017 года. Цель проекта заключалась в применении коробочного программного обеспечения для технологии машинного обучения для решения задачи классификации массива неструктурированных данных, в соответствии с положениями перечня документов с указанием сроков хранения и действий по их истечении. Результаты данного пилотного проекта в декабре 2017 года были представлены на «Форуме специалистов по управлению документами» (Records Managers Forum) (об этом я упоминала здесь: https://rusrim.blogspot.ru/2018/01/2017.html - Н.Х.).
Предварительная подготовка
Ограниченность ресурсов была одним из ограничений внутреннего пилотного проекта: не было бюджета, но (к счастью) нам выделили выпускника вуза по направлению ИКТ, имевшего недавний университетский опыт в области машинного обучения. Ввиду этого при подборе подходящих для использования в пилотном проекте технологий мы искали недорогие коробочные решения.
Первым из опробованных продуктов были облачные сервисы искусственного интеллекта (AI и Cognitive Services) в составе системы Microsoft Azure. Эта платформа имеет заранее встроенные алгоритмы и классификаторы, а также весьма удобный интерфейс - Machine Learning workbench («рабочий стол машинного обучения»).
Хотя данный вариант выглядел очень многообещающим, нам в конечном итоге пришлось от него отказаться из-за неопределенностей, связанных со сроками хранения и управлением загруженными на платформу данными (подробнее об этом см. здесь: https://rusrim.blogspot.ru/2018/02/blog-post_12.html - Н.Х.).
Хотя многие сервисы Microsoft Azure доступны локально в Новом Южном Уэльсе, сервисы искусственного интеллекта доступны только на серверах за пределами штата. Это означало для нас необходимость провести оценку риска с тем, чтобы удовлетворить требования, установленные в «Типовых правилах перемещения документов за пределы штата Новый Южный Уэльс для хранения и поддержки поставщиками услуг, располагающимися за пределами штата» (GA35, Transferring records out of NSW for storage with and maintenance by service providers based outside of the State, https://www.records.nsw.gov.au/node/649 ).
В число ключевых элементов такой оценки входили обеспечение того, чтобы хранящиеся в сервисе документы управлялись в соответствии с Законом о государственных документах штата (State Records Act) и стандартами штата; а также проверка договорных механизмов с целью обеспечения сохранения за штатом прав собственности и возврата всех документов по завершении проекта (см. руководство «Хранение государственных документов штата у поставщиков услуг за пределами Нового Южного Уэльса» - Storage of State Records with service providers outside of NSW, https://www.records.nsw.gov.au/node/521 ).
На момент проведения нами оценки риска, Центр доверия (Trust Center) фирмы Microsoft включил в условия использования интеллектуальных сервисов особые положения, которые ограничивали способность клиентов контролировать срок хранения и уничтожение загруженных на платформу данных. Поскольку в рамках внутреннего пилотного проекта предусматривалось использование массива закрытых для публики документов, переданных на гранение в архивы штата, и поскольку временные рамки нашего проекта не позволяли провести более детальную оценку риска, - мы решили отказаться от использования каких-либо облачных решений и вместо этого стали искать подходящее коробочное программное обеспечение, которое могло бы работать на локальных серверах.
Следует отметить, что фирма Microsoft недавно объявила об изменениях в условиях использования интеллектуальных услуг, в результате чего были убраны многие «особые» положения, и оценка риска, если бы она была проведена сегодня, могла бы дать более благоприятные результаты.
Учитывая поставленное нами ограничение в части использования для пилотного проекта локального решения, мы быстро остановились на решении Scikit-learn (см. https://en.wikipedia.org/wiki/Scikit-learn#Overview ) - бесплатной библиотеки с открытым исходным кодом для языка программирования Python, предназначенной для решения задач машинного обучения. Это простой и доступный набор инструментов, которые, как и Cognitive Services, включают в себя готовые средства классификации и алгоритмы. Нам повезло в том, что для работы с моделью у нас имелся компьютер с мощным процессором, большой оперативной памятью и SSD-диском
Методология
Цель проекта
Цель внутреннего пилотного проекта заключалась в том, чтобы протестировать алгоритмы машинного обучения на массиве документов, для которых мы перед этим вручную провели отбор на постоянное хранение и на уничтожение в соответствии с перечнем. С какой точностью мы могли бы ту же работу по классификации документов проделать в автоматическом режиме?
Массив документов
Документы, которые были выбраны для использования в рамках внутреннего пилотного проекта, были переданы в электронный архив штата в 2016 году одним из департаментов центрального правительства штата. Необычность данного массива документов заключалась в том, что он сохранял полную корпоративную структуру папок, извлеченную из решения Objective. В общей сложности данный массив содержит 30 гигабайт данных в 7561 папках, в которых находится 42,6 тысяч файлов.
В момент передачи в архив из массива не были удалены документы временного срока хранения (обычно мы требуем, чтобы нам передавались только документы, подлежащие постоянному архивному хранению). Совместно с департаментом мы вручную провели экспертизу ценности документов и их отбор на постоянное хранение или уничтожение (на уровне папок) в соответствии с типовым перечнем GA28 с указанием сроков хранения и действий по их истечении для административных документов (General Retention and Disposal Authority Administrative Records). Результатом этой ручной экспертизы папок стала передача в архив штата на постоянное хранение в общей сложности 12 тысяч файлов.
Для внутреннего пилотного проекта были рассмотрены следующие варианты:
- Использовать при тестировании все виды документов, которые, согласно GA28, подлежат передаче на постоянное государственное хранение (их всего 75). Папки, содержимое которых в число таких классов не попадает, оставить неклассифицированными;
- Использовать при тестировании только виды документов, которые, согласно GA28, подлежат передаче на постоянное государственное хранение и которые были отобраны в ходе ручной экспертизы ценности (всего 23). Папки, которые не соответствуют этим классам, исключить из тестового массива;
- Использовать при тестировании все статьи перечня GA28 (всего 686), выполнить полную проверку всех папок;
- Провести предварительную обработку массива документов, удалив из него все папки, охватываемые «Обычной административной практикой» (Normal Administrative Practice, NAP), например, дубликаты и неофициальные / частные документы.
Суммарные сведения о массиве документов
- Полный массив – 42653 файлов
- Подпадает под NAP – 25643 файлов
- Включены в корпоративную номенклатуру дел – 17307 файлов
- Подлежат передаче на постоянное хранение – 12369 файлов
- Подлежат передаче на постоянное хранение, формат допускает извлечение текста (т.е. применимы в составе обучающей выборки) – 8784 файлов
Гленн Хампфри (Glenn Humphries), координатор проекта «Электронные архивы штата» (Digital State Archives)
Источник: сайт архивно-документационной службы штата Новый Южный Уэльс, Австралия
https://futureproof.records.nsw.gov.au/case-study-internal-pilot-machine-learning-and-records-management/
Комментариев нет:
Отправить комментарий