(Окончание, начало см. http://rusrim.blogspot.com/2025/12/1_01767617145.html )
Цифровая трансформация и проблемы экспертизы ценности
Распространение и хрупкость электронных документов
Цифровые технологии кардинально увеличили объемы документов, и одновременно проявилась хрупкость этих документов ввиду быстрого морального устаревания технологий. В материалах международного проекта InterPARES подчеркивается, что аутентичность (свойство соответствия документа заявленным в нём характеристикам) и целостность (полнота и неизменность документа) зависят от идентичности документа (его создателя, даты, адресата, классификационного кода и т.д.) и от контекста его создания. Цифровые документы могут потерять доказательную ценность, если их метаданные неполны или же если имеющееся аппаратное и программное обеспечение неспособно их прочитать.
По мнению Иствуда (Eastwood), технологическое устаревание и хрупкость носителей информации означают, что архивисты не могут откладывать проведение экспертизы ценности; они должны оценивать аутентичность, идентичность и возможность обеспечения долговременной сохранности документов в то время, пока те всё ещё находятся в активных системах. Иствуд далее отмечает, что цифровые объекты должны иметь достаточную идентифицирующую информацию и контекст с тем, чтобы решение об их уничтожении либо передаче на архивное хранение могло быть принято на ранней стадии. Таким образом, экспертиза ценности превращается из проводимого на конечной стадии процесса в упреждающее вмешательство в течение активного периода существования документов.
Одновременное принятие решений по отбору на хранение и по мерам по обеспечению сохранности
В рекомендации «Приобретение и экспертиза ценности» (Acquisition and Appraisal, https://www.dpconline.org/handbook/organisational-activities/acquisition-and-appraisal ) британской Коалиции по электронной сохранности (Digital Preservation Coalition, DPC – речь идёт о главе в «Справочнике по вопросам электронной сохранности» (Digital Preservation Handbook), https://www.dpconline.org/handbook , мой пост о котором см. здесь: http://rusrim.blogspot.com/2015/11/blog-post_12.html - Н.Х.) объясняется, что в цифровой среде решения о создании и отборе документов имеют немедленные последствия для деятельности по обеспечению долговременной сохранности, поскольку доступ к цифровым ресурсам может быть быстро утрачен.
В отличие от коллекций печатных изданий, где решения по отбору и по обеспечению сохранности могут приниматься с промежутком в десятилетия, в случае цифровых коллекций такие решения необходимо принимать одновременно, поскольку в отсутствие непрерывного управления ими электронные документы могут стать недоступными или быть испорчены. В «Руководстве» подчёркивается, что точная документация и контекстные метаданные имеют решающее значение; без адекватной документации сохранение цифрового объекта может оказаться малоцелесообразным, даже если его технически возможно сохранить. В «Руководстве» рекомендуется разрабатывать политики, обеспечивающие баланс между ценностью изначально-электронных объектов и затратами на их долгосрочное сохранение и управление правами. Организациям следует выявлять высокоценные электронные объекты и устанавливать им соответствующие сроки хранения, одновременно прилагая ограниченные усилия для обеспечения долговременной сохранности менее ценных материалов
Актуальность принципов обеспечения долговременной сохранности в цифровом мире
В разделе 6.4 «Актуальность обеспечения долговременной сохранности в цифровом мире» (The Relevance of Preservation in a Digital World, см. https://www.nedcc.org/free-resources/preservation-leaflets/6.-reformatting/6.4-the-relevance-of-preservation-in-a-digital-world – раздел в брошюре 6 «Изменение формата» (Reformatting)) Северо-восточного центра консервации документов (North East Document Conservation Center, NEDCC, штат Массачусетс, США) утверждается, что такие принципы обеспечения долговременной сохранности, как принципы долговечности, выбора, качества, целостности и доступности, остаются крайне важными, но должны быть переосмыслены в цифровом контексте.
Сканирование бумажных документов в электронные форматы не исключает необходимости в ответственной работе по обеспечению долговременной сохранности. Напротив, учреждения должны строго придерживаться стратегий смягчения рисков, поскольку риск утраты высок, а бюджеты ограничены.
В брошюре отмечается, что цели обеспечения сохранности расширились: цифровые технологии используются для защиты оригиналов посредством создания суррогатов для доступа; для представления оригиналов с помощью систем высокого разрешения, захватывающих полную информацию; и для выхода за рамки возможностей оригиналов посредством выявления деталей, невидимых в физическом объекте.
Эффективное управление деятельностью по обеспечению электронной сохранности требует выделения ресурсов и признания того, что суждения о ценности, электронных объектов. В брошюре утверждается, что лидерство в области обеспечения электронной сохранности должно быть общей задачей для исполнителей целого ряда ролей; при этом архивисты должны определить, какие аспекты цифровых технологий они могут контролировать, а какие нет. Фундаментальные концепции долговечности, выбора, качества, целостности и доступа продолжают направлять выбор приоритетов.
Цифровая трансформация государственных органов и обязательные требования политик
Современная государственная политика подчёркивает неотложность цифровой трансформации. Так, директор по управлению документами (Chief Records Officer, CRO) Национальных Архивов США в своём посте на блоге в 2024 году отметил, что совместные меморандумы M-19-21 и M-23-07 Административно-бюджетного управления администрации США (Office of Management and Budget, OMB) и Национальных Архивов США предписывают федеральным органам исполнительной власти США управлять документами в электронном виде и устанавливают 30 июня 2024 года как крайний срок для государственных органов, к которому они должны перейти на ведение своих документов в электроном виде в максимально возможном объёме.
В полностью электронном правительстве документы создаются, используются и хранятся в электронном виде, а те из них, что подлежат постоянному архивному хранению, передаются в Национальные Архивы США в электронном виде. В посте содержится предупреждение о том, что распечатывание электронных документов с целью подписания собственноручными «мокрыми» подписями и/или с целью их использования в унаследованных бумажных рабочих процессах – это неэффективный подход, который создаёт риски потери информации; федеральные органы исполнительной власти должны перейти на полностью электронно-цифровые рабочие процессы и провести конверсию аналоговых документов до истечения крайнего срока. Это нормативное требование является наглядным примером того, как сегодня политики диктуют необходимость создания документов в электронном виде и требует проведения архивной экспертизы ценности с тем, чтобы решать проблемы с цифровыми форматами и метаданными прямо «в источнике».
Разработка жизнеспособных программ обеспечения электронной сохранности
В более раннем посте на блоге Национальных Архивов подробно рассказывалось о том, как архивное ведомство разработало программу обеспечения электронной сохранности, обеспечивающую доступность электронных документов «для всех и навсегда».
В 2018 году Национальные Архивы внедрили облачную систему ERA 2.0, которая модернизирует обработку, хранение и обеспечение долговременной сохранности изначально-электронных и оцифрованных документов. Национальные Архивы создало Группу по электронной сохранности (Digital Preservation Group), в которую вошли представители подразделений, занимающихся ответственным хранением документов, ИТ-службы, юридической службы и службы обеспечения доступа, с целью разработки политик, анализа пробелов и публикации стратегии обеспечения электронной сохранности.
Стратегия, которая затем была обновлена в 2022 году, включает оценку рисков, определение форматов файлов и публикацию концепции электронной сохранности в виде связанных открытых данных. Постоянно идущая экспертиза ценности и межведомственное сотрудничество крайне важны, поскольку обеспечение электронной сохранности - это командная работа, сочетающая в себе технологии и человеческий опыт. Данный пример демонстрирует, что для жизнеспособного обеспечения электронной сохранности необходимы координация усилий подразделений и служб организации, политик, обучения и инфраструктуры - всех факторов, влияющих на решения в ходе экспертизы ценности в цифровую эпоху.
Электронная экспертиза ценности на практике: Практический опыт
Примеры из реальной практики иллюстрируют, как электронная экспертиза ценности адаптируется к реальным условиям. В описании практики муниципального колледжа, подготовленном Джефом Хатом (Geof Huth) для Общества американских архивистов (Society of American Archivists, SAA), рассказывается, как архивист проводил отбор на сохранение и на уничтожение подверженных риску электронных документов, вёл мониторинг социальных сетей с целью сбора мнений студентов, анализировал съёмные носители и общие диски, проводил сканирование и захват веб-сайтов и учетных записей электронной почты, загружал материалы для управления курсами обучения и планировал передачу материалов на архивное хранение, - несмотря на отсутствие системы управления цифровыми активами.
Архивист игнорировал устаревшие правила, отдавал приоритет подверженным риску изначально-электронным материалам и контенту в социальных сетях и налаживал отношения с заинтересованными сторонами с целью способствования непрерывного идущему процессу передачи материалов на архивное хранение. Этот пример подчеркивает необходимость использования при экспертизе ценности гибких критериев и стратегий отбора, а также необходимость сотрудничества при проведении электронной экспертизы ценности.
Новые и нарождающиеся тенденции: Экспертиза ценности в контексте ИИ и больших данных
Архивные документы как данные и устаревание традиционной экспертизы ценности
Искусственный интеллект трансформирует архивные рабочие процессы. В проведенном в 2021 году исследовании, изучавшем применение ИИ в архивном деле, отмечалось, что цифровая трансформация превращает архивные документы в данные, и что «ручные» экспертиза ценности, отбор и просмотр становятся нежизнеспособными. Авторы отмечали, что по мере оцифровки архивных коллекций и накопления изначально-электронных документов архивистам приходится полагаться на компьютерных агентов и оказываемую ими помощь в проведении экспертизы ценности и отбора.
В исследовании подчеркивалось, что традиционные методы экспертизы ценности устаревают и что требуются новые человеко-машинные инструменты и методы анализа архивных материалов как данных. Внедрение ИИ оказывает давление на такие архивные концепции, как происхождение, аутентичность и первоначальный порядок, провоцируя дискуссии об их актуальности. Интеграция системной функциональной лингвистики и теории графов способна обогатить анализ происхождения и помочь архивистам ориентироваться в сложных цифровых взаимосвязях. Также утверждается, что архивисты должны стать «хозяевами данных», уделяя особое внимание повествованию и контексту, в то время, как алгоритмы возьмут на себя выполнение многих рутинных задач. Для этого требуются создание новых профессиональных групп и междисциплинарное образование, сочетающего архивную науку с ИТ-компетенциями.
Инструменты и принципы проведения экспертизы ценности с помощью машины
В том же исследовании анализировались эксперименты в области использования машинного обучения и обработки естественного языка в интересах проведения экспертизы ценности. Эксперименты Веллино (Vellino) с подборками электронных писем показали, что автоматические классификаторы могут воспроизводить решения экспертов при выявлении электронных писем, имеющих либо не имеющих ценность.
По мнению Ли (Lee), цифровая криминалистика, обработка естественного языка и машинное обучение способны обеспечить более эффективную поддержку экспертизы ценности, поэтому требуются дальнейшие исследования в этой области.
Хатчинсон (Hutchinson) анализировал такие инструменты, как ePADD, BitCurator NLP и ArchExtract, выявляя принципы проектирования - удобство использования, интероперабельность, гибкость, итеративность и настраиваемость - для интеграции инструментов обработки естественного языка в архивные рабочие процессы.
Шабу (Shabou) сообщил о прототипе, который сочетает в себе нисходящий концептуальный подход проведения экспертизы ценности с восходящим интеллектуальным анализом данных и распознаванием именованных сущностей для идентификации и извлечения корпоративных данных для своевременного их удаления либо передачи на архивное хранение.
Эти эксперименты демонстрируют, что ИИ способен помочь в отборе важных электронных документов, в отборе неструктурированных данных и в автоматизации экспертизы на предмет конфиденциальности, - хотя для этого требуются высококачественные обучающие данные, экспертные знания в предметной области и итеративный процесс разработки.
Управление чувствительной информацией и извлечение метаданных
Обработка чувствительной (конфиденциальной) информации является весьма актуальной проблемой. В упомянутом исследовании отмечалось, что федеральные органы стремятся избегать преждевременного раскрытия информации, одновременно исполняя запросы на основании закона о свободе доступа к государственной информации. Такие инструменты, как ePADD, используются для проверки электронной почты на наличие конфиденциального контента. Исследователи подчеркивали, что степень конфиденциальности зависит от контекста, и призывали использовать анализ контекста для принятия взвешенных решений.
Автоматическая классификация и машинное обучение могут помочь в проведении отбора на хранение и на уничтожение, но при этом архивисты должны осуществлять надзор и обеспечить справедливость принимаемых решений. ИИ также играет роль в извлечении метаданных: такие инструменты, как Transkribus, выполняют распознавание рукописного и печатного текста в оцифрованных материалах, делая возможными индексацию по содержанию и поиск по сущностям. ИИ, способствуя извлечение контента, даёт архивам возможность дополнять традиционное упорядочивание на основе происхождении возможностью доступа по сущностям и темам.
(Остальное — в платном доступе)
Эндрю Поттер (Andrew Potter)
Источник: сайт Substack
https://metaarchivist.substack.com/p/from-fonds-to-data
вторник, 16 декабря 2025 г.
От фондов к данным: Переосмысление архивной экспертизы ценности на основе формального анализа, часть 2
Подписаться на:
Комментарии к сообщению (Atom)

Комментариев нет:
Отправить комментарий