Искусственный интеллект пришел в управление документами!
Моя команда в Кабинете министров опубликовала методологию и алгоритмическую модель, которые мы разработали для сортировки больших объемов цифровой информации с целью её отбора на архивное хранение либо уничтожение.
«Стандарт алгоритмической прозрачности документирования» (Algorithmic Transparency Recording Standard) - это новая инициатива Центрального управления цифровых технологий и данных (Central Digital and Data Office), направленная на обеспечение прозрачности в тех случаях, когда государственные органы используют алгоритмические технологии для принятия решений машиной вместо человека.
Насколько мне известно, такое делается впервые в области управления документами, и это стало возможным благодаря великолепной команде специалистов по обработке данных и разработчиков.
Дэвид Каннинг (David Canning)
Мой комментарий: Дэвид приложил к своему посту ссылку на страницу веб-сайта Кабинета министров Великобритании под названием «Кабинет министров: Автоматизированный анализ электронных документов», см. https://www.gov.uk/algorithmic-transparency-records/cabinet-office-automated-digital-document-review , опубликованную 29 февраля 2024 года. На ней, в частности, говорится следующее:
Алгоритм, помогающий выявлять электронные документы, имеющие долговременную историческую ценность, а также цифровые информационные активы, не имеющие долговременной ценности.
Описание:
Государственные министерства и ведомства производят огромные объемы цифровой информации. Эту информацию необходимо разделить на документы, которые подлежат сохранению в качестве официальных документов; и на информацию, которую следует уничтожить, поскольку она является избыточной, устаревшей, тривиальной или эфемерной по своей природе, или же ввиду истечения срока её хранения. Важно, чтобы государственные органы были способны выявлять и отбирать ценную информацию для сохранения в качестве исторической документации, во исполнение требований Закона о государственных документах 1958 года (Public Records Act 1958).
При решении этой задачи анализирующим документы специалистам-экспертам приходится просматривать большие объемы неорганизованной унаследованной цифровой информации, с тем, чтобы выявить как ту информацию, что должна быть сохранена в качестве исторических документов, так и ту, что должна быть необратимым образом уничтожена.
Предлагаемый алгоритм является частью методологии проведения уничтожения либо передачи на архивное хранение цифровой информации, позволяющей быстро проводить экспертизу больших объёмов цифровой информации, - что в противном случае было бы чрезвычайно обременительной и затратной задачей, выполняемой человеком с использованием традиционных методов экспертизы. Алгоритм сортирует информацию, используя сочетание результатов классификации / категоризации информации и анализа языковых шаблонов/ключевых слов. Результаты анализа затем можно визуализировать, помогая сотрудникам-людям принимать решения о том, какую информацию следует сохранить.
Операторы-люди дают инструкции выполняющему алгоритм программному обеспечению, и могут проанализировать и пересмотреть предлагаемые им действия перед их подтверждением и исполнением. Они также могут повторно запустить процесс экспертизы, используя измененный набор параметров.
Процесс уничтожения предусматривает запуск соответствующей команды оператором-человеком (возможно, обрабатывая весь массив информации) в соответствии с предложенными алгоритмом рекомендациями. Диаграмма в разделе 3 иллюстрирует этапы фильтрации, входящие в состав процесса уничтожения/передачи, а сам алгоритм описан в разделе 2.»
Устройство алгоритма
Когда алгоритм применяется в отношении набора электронных документов, те классифицируются по следующим категориям (см схему диаграмму ниже):
- По расширениям имени файла, файлы подразделяются на:
- Файлы с расширениями, для которых более вероятен отбор на сохранение;
- Файлы с расширениями, для которых более вероятен отбор на уничтожение;
- Файлы с расширениями, для которых возможно индексирование (т.е. их можно прочитать);
- Файлы с расширениями, для которых индексирование невозможно;
- Материалы, лексические единицы в которых указывают на их историческую ценность.
- Материалы, лексические единицы в которых указывают на то, что это избыточная, устаревшая и/или тривиальная информация (redundant, outdated and trivial information, ROT).
- Материалы, лексические единицы в которых указывают как на возможную историческую ценность, так и на возможную принадлежность к категории избыточной, устаревшей и/или тривиальной информации.
Чтобы проиллюстрировать, как эти параметры вписываются в структуру алгоритма, на приведенной выше диаграмме показано, какое место занимает каждая из шести возможных категорий, и как классификация по расширению имён файлов приводит к тому, что файлы обрабатываются по-разному.
Содержание документа следующее:
Обзор
Право собственности и ответственность
Описание и обоснование
Процессы принятия решений
Технические характеристики и данные
Риски, меры по их смягчению и оценка воздействия
Источник: сайт LinkedIn / сайт Кабинета министров Великобритании
https://www.linkedin.com/posts/david-canning-amirms-cipp-e-7aa3462b_cabinet-office-automated-digital-document-activity-7172526240661250048-dqie
https://www.gov.uk/algorithmic-transparency-records/cabinet-office-automated-digital-document-review
Комментариев нет:
Отправить комментарий