понедельник, 2 апреля 2018 г.

Штат Новый Южный Уэльс, Австралия: Пилотный проект применения машинного обучения в интересах управления документами, часть 1


Данная заметка Гленна Хампфри (Glenn Humphries – на фото), координатора проекта «Электронные архивы штата» (Digital State Archives), была опубликована 20 марта 2018 года на сайте Управления государственных документов австралийского штата Новый Южный Уэльс, посвящённом инициативе «Выдержать проверку временем – защитить наше электронное будущее» (Future Proof – Protecting our digital future).

Мотивация

В 2017 году группа электронных архивов государственных архивов австралийского штата Новый Южный Уэльс начала исследовать применение машинного обучения/самообучения (machine learning) для управления документами. Первым результатом этого проекта стала опубликованная на блоге Future Proof аналитическая статья (см. https://futureproof.records.nsw.gov.au/machine-learning-and-records-management/ , перевод на русский язык здесь: https://rusrim.blogspot.ru/2017/09/blog-post_29.html - Н.Х.), в которой изучалось современное положение дел в этой сфере (на что способна технология и как она используется в управлении документами). Один из основных выводов этого отчета заключался в том, что, хотя машинное обучение потенциально способно улучшить работу по классификации и уничтожению/передаче электронных документов, масштабы её использования на практике очень малы, особенно в Новом Южном Уэльсе. В целях содействия её внедрению мы взяли на себя обязательство выполнить ряд внутренних и внешних пилотных проектов с целью дальнейшего изучения машинного обучения и демонстрации его возможностей в области управления документами.

Предлагаемое описание примера из практики документирует внутренний пилотный проект, который группа электронных архивов выполнила в ноябре-декабре 2017 года. Цель проекта заключалась в применении коробочного программного обеспечения для технологии машинного обучения для решения задачи классификации массива неструктурированных данных, в соответствии с положениями перечня документов с указанием сроков хранения и действий по их истечении. Результаты данного пилотного проекта в декабре 2017 года были представлены на «Форуме специалистов по управлению документами» (Records Managers Forum) (об этом я упоминала здесь: https://rusrim.blogspot.ru/2018/01/2017.html - Н.Х.).

Предварительная подготовка

Ограниченность ресурсов была одним из ограничений внутреннего пилотного проекта: не было бюджета, но (к счастью) нам выделили выпускника вуза по направлению ИКТ, имевшего недавний университетский опыт в области машинного обучения. Ввиду этого при подборе подходящих для использования в пилотном проекте технологий мы искали недорогие коробочные решения.

Первым из опробованных продуктов были облачные сервисы искусственного интеллекта (AI и Cognitive Services) в составе системы Microsoft Azure. Эта платформа имеет заранее встроенные алгоритмы и классификаторы, а также весьма удобный интерфейс - Machine Learning workbench («рабочий стол машинного обучения»).

Хотя данный вариант выглядел очень многообещающим, нам в конечном итоге пришлось от него отказаться из-за неопределенностей, связанных со сроками хранения и управлением загруженными на платформу данными (подробнее об этом см. здесь: https://rusrim.blogspot.ru/2018/02/blog-post_12.html - Н.Х.).

Хотя многие сервисы Microsoft Azure доступны локально в Новом Южном Уэльсе, сервисы искусственного интеллекта доступны только на серверах за пределами штата. Это означало для нас необходимость провести оценку риска с тем, чтобы удовлетворить требования, установленные в «Типовых правилах перемещения документов за пределы штата Новый Южный Уэльс для хранения и поддержки поставщиками услуг, располагающимися за пределами штата» (GA35, Transferring records out of NSW for storage with and maintenance by service providers based outside of the State, https://www.records.nsw.gov.au/node/649 ).

В число ключевых элементов такой оценки входили обеспечение того, чтобы хранящиеся в сервисе документы управлялись в соответствии с Законом о государственных документах штата (State Records Act) и стандартами штата; а также проверка договорных механизмов с целью обеспечения сохранения за штатом прав собственности и возврата всех документов по завершении проекта (см. руководство «Хранение государственных документов штата у поставщиков услуг за пределами Нового Южного Уэльса» - Storage of State Records with service providers outside of NSW, https://www.records.nsw.gov.au/node/521 ).

На момент проведения нами оценки риска, Центр доверия (Trust Center) фирмы Microsoft включил в условия использования интеллектуальных сервисов особые положения, которые ограничивали способность клиентов контролировать срок хранения и уничтожение загруженных на платформу данных. Поскольку в рамках внутреннего пилотного проекта предусматривалось использование массива закрытых для публики документов, переданных на гранение в архивы штата, и поскольку временные рамки нашего проекта не позволяли провести более детальную оценку риска, - мы решили отказаться от использования каких-либо облачных решений и вместо этого стали искать подходящее коробочное программное обеспечение, которое могло бы работать на локальных серверах.

Следует отметить, что фирма Microsoft недавно объявила об изменениях в условиях использования интеллектуальных услуг, в результате чего были убраны многие «особые» положения, и оценка риска, если бы она была проведена сегодня, могла бы дать более благоприятные результаты.

Учитывая поставленное нами ограничение в части использования для пилотного проекта локального решения, мы быстро остановились на решении Scikit-learn (см. https://en.wikipedia.org/wiki/Scikit-learn#Overview ) - бесплатной библиотеки с открытым исходным кодом для языка программирования Python, предназначенной для решения задач машинного обучения. Это простой и доступный набор инструментов, которые, как и Cognitive Services, включают в себя готовые средства классификации и алгоритмы. Нам повезло в том, что для работы с моделью у нас имелся компьютер с мощным процессором, большой оперативной памятью и SSD-диском

Методология

Цель проекта

Цель внутреннего пилотного проекта заключалась в том, чтобы протестировать алгоритмы машинного обучения на массиве документов, для которых мы перед этим вручную провели отбор на постоянное хранение и на уничтожение в соответствии с перечнем. С какой точностью мы могли бы ту же работу по классификации документов проделать в автоматическом режиме?

Массив документов

Документы, которые были выбраны для использования в рамках внутреннего пилотного проекта, были переданы в электронный архив штата в 2016 году одним из департаментов центрального правительства штата. Необычность данного массива документов заключалась в том, что он сохранял полную корпоративную структуру папок, извлеченную из решения Objective. В общей сложности данный массив содержит 30 гигабайт данных в 7561 папках, в которых находится 42,6 тысяч файлов.

В момент передачи в архив из массива не были удалены документы временного срока хранения (обычно мы требуем, чтобы нам передавались только документы, подлежащие постоянному архивному хранению). Совместно с департаментом мы вручную провели экспертизу ценности документов и их отбор на постоянное хранение или уничтожение (на уровне папок) в соответствии с типовым перечнем GA28 с указанием сроков хранения и действий по их истечении для административных документов (General Retention and Disposal Authority Administrative Records). Результатом этой ручной экспертизы папок стала передача в архив штата на постоянное хранение в общей сложности 12 тысяч файлов.

Для внутреннего пилотного проекта были рассмотрены следующие варианты:
  • Использовать при тестировании все виды документов, которые, согласно GA28, подлежат передаче на постоянное государственное хранение (их всего 75). Папки, содержимое которых в число таких классов не попадает, оставить неклассифицированными;

  • Использовать при тестировании только виды документов, которые, согласно GA28, подлежат передаче на постоянное государственное хранение и которые были отобраны в ходе ручной экспертизы ценности (всего 23). Папки, которые не соответствуют этим классам, исключить из тестового массива;

  • Использовать при тестировании все статьи перечня GA28 (всего 686), выполнить полную проверку всех папок;

  • Провести предварительную обработку массива документов, удалив из него все папки, охватываемые «Обычной административной практикой» (Normal Administrative Practice, NAP), например, дубликаты и неофициальные / частные документы.
В итоге было принято решение предварительно обработать массив документов, удалить все папки, охватываемые NAP, и использовать подмножество из 12 тысяч файлов, соответствующих 23 статьям перечня GA28, которые по итогам ручной экспертизы были отнесены к документам постоянного хранения. Дальнейшая подготовительная работа с тестовой выборкой включала перенос классификации уровня папок на уровень отдельных файлов, что было сделано вручную.

Суммарные сведения о массиве документов
  • Полный массив – 42653 файлов

  • Подпадает под NAP – 25643 файлов

  • Включены в корпоративную номенклатуру дел – 17307 файлов

  • Подлежат передаче на постоянное хранение – 12369 файлов

  • Подлежат передаче на постоянное хранение, формат допускает извлечение текста (т.е. применимы в составе обучающей выборки) – 8784 файлов
(Окончание следует, см. http://rusrim.blogspot.ru/2018/04/2.html )

Гленн Хампфри (Glenn Humphries), координатор проекта «Электронные архивы штата» (Digital State Archives)

Источник: сайт архивно-документационной службы штата Новый Южный Уэльс, Австралия
https://futureproof.records.nsw.gov.au/case-study-internal-pilot-machine-learning-and-records-management/

Комментариев нет:

Отправка комментария