среда, 20 марта 2024 г.

Кабинет министров Великобритании: Применение искусственного интеллекта для управления документами

Данная заметка главы отдела по управлению документами, информацией и знаниями Кабинета министров Великобритании (Cabinet Office) Дэвида Каннинга (David Canning – на фото) была опубликована 10 марта 2024 года в социальной сети LinkedIn.

Искусственный интеллект пришел в управление документами!

Моя команда в Кабинете министров опубликовала методологию и алгоритмическую модель, которые мы разработали для сортировки больших объемов цифровой информации с целью её отбора на архивное хранение либо уничтожение.

«Стандарт алгоритмической прозрачности документирования» (Algorithmic Transparency Recording Standard) - это новая инициатива Центрального управления цифровых технологий и данных (Central Digital and Data Office), направленная на обеспечение прозрачности в тех случаях, когда государственные органы используют алгоритмические технологии для принятия решений машиной вместо человека.

Насколько мне известно, такое делается впервые в области управления документами, и это стало возможным благодаря великолепной команде специалистов по обработке данных и разработчиков.

Дэвид Каннинг (David Canning)

Мой комментарий: Дэвид приложил к своему посту ссылку на страницу веб-сайта Кабинета министров Великобритании под названием «Кабинет министров: Автоматизированный анализ электронных документов», см. https://www.gov.uk/algorithmic-transparency-records/cabinet-office-automated-digital-document-review , опубликованную 29 февраля 2024 года. На ней, в частности, говорится следующее:

Алгоритм, помогающий выявлять электронные документы, имеющие долговременную историческую ценность, а также цифровые информационные активы, не имеющие долговременной ценности.

Описание:

Государственные министерства и ведомства производят огромные объемы цифровой информации. Эту информацию необходимо разделить на документы, которые подлежат сохранению в качестве официальных документов; и на информацию, которую следует уничтожить, поскольку она является избыточной, устаревшей, тривиальной или эфемерной по своей природе, или же ввиду истечения срока её хранения. Важно, чтобы государственные органы были способны выявлять и отбирать ценную информацию для сохранения в качестве исторической документации, во исполнение требований Закона о государственных документах 1958 года (Public Records Act 1958).

При решении этой задачи анализирующим документы специалистам-экспертам приходится просматривать большие объемы неорганизованной унаследованной цифровой информации, с тем, чтобы выявить как ту информацию, что должна быть сохранена в качестве исторических документов, так и ту, что должна быть необратимым образом уничтожена.

Предлагаемый алгоритм является частью методологии проведения уничтожения либо передачи на архивное хранение цифровой информации, позволяющей быстро проводить экспертизу больших объёмов цифровой информации, - что в противном случае было бы чрезвычайно обременительной и затратной задачей, выполняемой человеком с использованием традиционных методов экспертизы. Алгоритм сортирует информацию, используя сочетание результатов классификации / категоризации информации и анализа языковых шаблонов/ключевых слов. Результаты анализа затем можно визуализировать, помогая сотрудникам-людям принимать решения о том, какую информацию следует сохранить.

Операторы-люди дают инструкции выполняющему алгоритм программному обеспечению, и могут проанализировать и пересмотреть предлагаемые им действия перед их подтверждением и исполнением. Они также могут повторно запустить процесс экспертизы, используя измененный набор параметров.

Процесс уничтожения предусматривает запуск соответствующей команды оператором-человеком (возможно, обрабатывая весь массив информации) в соответствии с предложенными алгоритмом рекомендациями. Диаграмма в разделе 3 иллюстрирует этапы фильтрации, входящие в состав процесса уничтожения/передачи, а сам алгоритм описан в разделе 2.»

Устройство алгоритма

Когда алгоритм применяется в отношении набора электронных документов, те классифицируются по следующим категориям (см схему диаграмму ниже):


Модель принятия решений

  • По расширениям имени файла, файлы подразделяются на:

    • Файлы с расширениями, для которых более вероятен отбор на сохранение;

    • Файлы с расширениями, для которых более вероятен отбор на уничтожение;

    • Файлы с расширениями, для которых возможно индексирование (т.е. их можно прочитать);

    • Файлы с расширениями, для которых индексирование невозможно;

  • Материалы, лексические единицы в которых указывают на их историческую ценность.

  • Материалы, лексические единицы в которых указывают на то, что это избыточная, устаревшая и/или тривиальная информация (redundant, outdated and trivial information, ROT).

  • Материалы, лексические единицы в которых указывают как на возможную историческую ценность, так и на возможную принадлежность к категории избыточной, устаревшей и/или тривиальной информации.

Чтобы проиллюстрировать, как эти параметры вписываются в структуру алгоритма, на приведенной выше диаграмме показано, какое место занимает каждая из шести возможных категорий, и как классификация по расширению имён файлов приводит к тому, что файлы обрабатываются по-разному.

Содержание документа следующее:

Обзор
Право собственности и ответственность
Описание и обоснование
Процессы принятия решений
Технические характеристики и данные
Риски, меры по их смягчению и оценка воздействия

Источник: сайт LinkedIn / сайт Кабинета министров Великобритании
https://www.linkedin.com/posts/david-canning-amirms-cipp-e-7aa3462b_cabinet-office-automated-digital-document-activity-7172526240661250048-dqie
https://www.gov.uk/algorithmic-transparency-records/cabinet-office-automated-digital-document-review

Комментариев нет:

Отправить комментарий