понедельник, 7 мая 2018 г.

Штат Новый Южный Уэльс, Австралия: Использование автоклассификации для классификации неупорядоченных документов


Данная заметка Шошаны Бут (Shoshana Booth) была опубликована 18 апреля 2018 года на сайте Управления государственных документов австралийского штата Новый Южный Уэльс, посвящённом инициативе «Выдержать проверку временем – защитить наше электронное будущее» (Future Proof – Protecting our digital future).

На прошлой неделе члены Группы по внедрению электронных технологий (Digital Implementers Group) с удовольствием выслушали доклад одного из своих членов, посвящённый автоматической классификации.

По завершении контракта с поставщиком услуг, орган исполнительной власти штата получил документы по обслуживанию недвижимости, которые этот поставщик создавал и которыми управлял в течение десяти лет. Массив документов включал свыше 400 тысяч электронных документов, распределенных по 31 тысяче папок, в структуре глубиной до 14 уровней. Многие документы не имели систематически сформированных названий и/или не соответствовали собственной классификационной схеме для документов этого органа. Ввиду предстоящего перехода к новому поставщику услуг документы необходимо было мигрировать и классифицировать в течение нескольких месяцев.

Поскольку объем и сроки реализации этого проекта миграции исключали возможность использования ручной классификации, представилась прекрасная возможность для того, чтобы опробовать автоклассификацию.

Как работала система автоматической классификации

Проектная группа решила воспользоваться инвестициями, сделанными в систему управления электронными документами TRIM (фактически стандартное решение, широко используемое в австралийских органах власти – Н.Х.) и попробовать в работе модуль автоматической классификации. Обоснованием такого подхода послужило то, что дешевле было приобрести модуль автоматической классификации TRIM, чем закупить новую систему, поскольку в таком случае требовалось лишь модернизировать существующую систему.

Использованное группой решение для автоматической классификации включало три компонента. Сначала программа оптического распознавания текста (OCR) преобразовывала графические образы в читаемый текст. После этого файлы индексировались с использованием сервера индексирования контента, а затем передавались на обработку в модуль автоматической классификации.

Хотя OCR-компонент проекта работал медленно и был ресурсоемким, были веские деловые основания для его использования, поскольку он сделал возможным полнотекстовой поиск по всем документам.

Гибкий непрерывный процесс уточнения ключевых слов

Точность работы системы автоматической классификации зависела от выбора ключевых слов. Если в документе выявлялся набор определенных ключевых слов, то система помещала его в соответствующую рубрику классификационной схемы.

Первоначально проектная группа позволила программе автоматической классификации самостоятельно выявить ключевые слова, характерных для каждой категории документов. Этот подход успеха не принёс, поскольку модуль выделил множество неизвестных и «мусорных» ключевых слов. Тогда специалисты предметной области вручную ввели ключевые слова, которые они ожидали увидеть в документах каждой из категорий. Это была самая ресурсоемкая часть проекта, и наиболее важная для ее успеха. Уточнение ключевых слов, обработка новых документов, изучение результатов с последующим уточнением ключевых слов представляли собой гибкий непрерывный процесс.

Результаты

На этапе тестирования в систему было загружено 5-7 тысяч документов, автоматическая классификация которых была выполнена менее чем за два часа - однако этот показатель изменится, поскольку группа собирается реализовать массовую загрузку. Основные затраты времени в данном процессе были связаны с работой компонента распознавания текста, который первоначально был узким местом всего процесса обработки.

Основные уроки

«Неплохо, но не идеально»

Один из участников заседания задал вопрос о рисках положительной классификации материалов, которые на самом деле не были документами не являлись. Из-за ограниченности проекта по времени выполнявшая его группа не могла провести окончательную экспертизу документов и предпочла перестраховаться, допустив захват материалов, не имеющих документного статуса.

Результаты проекта автоматической классификации были оценены как «неплохие, но не идеальные». Признание того, что результаты всегда будут несовершенными, стало одним из основных уроков, извлеченных из опыта данного проекта.

Выбор ключевых слов имеет решающее значение

Успех автоклассификации зависел от выбора и установления веса ключевых слов. В категории «Уборка» (Cleaning) 95% документов были правильно автоклассифицированы. Это объясняется тем, что многие ключевые слова были специфическими именно для этой категории. Показатели для других категорий были не столь хорошими, как правило, из-за того, что одни и те же ключевые слова встречались в документах нескольких категорий. Проектная группа убедилась в том, что системы автоматической классификации не работают без предварительной настройки, и что точная классификация выполняется только в случае удачного выбора ключевых слов, характерных для каждой из категорий.

Важность хорошего делового обоснования проекта

Один из членов проектной группы объяснил, что их система автоматической классификации работает лучше всего, если приходится иметь дело с неупорядоченным массивом документов. Они пришли к выводу о том, что, ввиду затрат значительных ресурсов на трудоемких этапах проекта, необходимо иметь хорошее деловое обоснование проекта. Затраты было бы трудно оправдать, если бы не большие объемы неупорядоченных документов.

Нужно просвещать заинтересованные стороны с тем, чтобы избежать необоснованных ожиданий

Заинтересованные стороны часто хотели знать, насколько хорошо система автоклассификации будет классифицировать документы (например, будет ли она правильно классифицировать 9 из 10 документов?). Из-за множества непостоянных факторов, влияющих на работу системы, и вследствие зависимости от фактического содержания обрабатываемых документов, дать ответ на этот вопрос было невозможно. Ввиду эти факторов важно объяснить заинтересованным сторонам особенности процессов, которые Вы применяете, и позаботиться о том, чтобы те не ожидали слишком многого. Первоначально проектная группа оценила, что система будет правильно классифицировать 50% документов, хотя сейчас при тестировании системы обеспечиваются более высокие показатели.

Что дальше?

Проектная группа видит ряд других возможных приложений для системы. Одна из идей заключается в интеграции системы автоклассификации с процедурами непосредственного обслуживания клиентов. Например, система может автоматически классифицировать обычные формы, заполняемые при оказании деловых услуг, по мере их сохранения в системе.

Думая о будущем, участники заседания обсудили вопрос о том, может ли автоматическая классификация сделать ненужными специалистов по управлению документами. Некоторые коллеги считают, что эффект может оказаться прямо противоположным, поскольку автоматическая классификация позволит специалистам по управлению документами больше сосредоточиться на таких аспектах своей работы, как разработка стандартов и процедур, планирование программ, вместо выполнения ручных операций по проведению миграции и отбору документов на постоянное хранение и на уничтожение.

Шошана Бут (Shoshana Booth)

Фото: Matthew Paulson

Источник: сайт архивно-документационной службы штата Новый Южный Уэльс, Австралия
https://futureproof.records.nsw.gov.au/using-auto-classification-to-classify-unmanaged-records/

Комментариев нет:

Отправить комментарий