вторник, 13 января 2026 г.

Отслеживание трансформаций: Документы, оцифровка и формы интерпретации, часть 2

(Окончание, начало см. https://rusrim.blogspot.com/2026/01/1_0274904401.html )

Оцифровка как соучастие в создании

Один из наиболее интересных разделов статьи посвящен внедрению автоматизированного распознавания текста (automated text recognition, ATR). Сотрудники NIOD использовали платформу Transkribus (программное решение для распознавания рукописного текста, в котором используются ИИ-технологии в т.ч. машинное обучение – Н.Х.) для создания транскрипций (расшифровок), качество которых порой превосходило возможности человека – но иногда имела место и фальсификация целых строк текста.

Ван Ланге и Кейзер рассматривают эти результаты работы алгоритмов не как ошибки, которые нужно ликвидировать, а как дополнительные «следы» в процессе непрерывной трансформации документа. При такой трактовке компьютер становится ещё одним действующим лицом в биографии документа – не являющимся человеком соавтором, чьё влияние необходимо документировать и интерпретировать.

Мой комментарий: Такое впечатление, что авторы смотрят на документы как на произведения живописи – искажение (или, говоря политически корректно, создание производного произведения на основе) известной картины можно рассматриваться как вид творчества. Однако изменение смысла и контекста документа – это фальсификация документа, и, как говорится, «таких соавторов нам не нужно»!

Авторы могли бы высказать свою мысль иначе: при больших объёмах распознавания текстов проведение верификации результатов может оказаться сложным или невозможным – и в таком случае пользоваться этими результатами всё равно можно (в основном для поиска), но с соответствующими оговорками; и имеет смысл документировать, как и когда такие расшифровки были созданы, и были ли они использованы для обучения моделей ИИ. При этом инструмент распознавания никаким «соавтором», конечно, не является – он выполняет функции инструмента конверсии документа в новый формат.


Авторы предлагают практичный подход: встраивать сведения о происхождении данных, о версиях моделей и о метриках ошибок непосредственно в архивные метаданные. Речь идёт не о недоверии к технологиям, а о том, чтобы сделать их роль видимой. Данный подход согласуется с нарождающимися идеями о цифровой архивной грамотности – о понимании того, что любой набор данных несёт на себе «отпечаток» выбора и решений, принятых как людьми, так и техническими инструментами.

Эго-документы и хранители семейных документов

Представленные авторами статьи примеры - паспорт молодого голландца, превращённый в семейный памятный альбом, и набор любовных писем, впоследствии расширенный и превращённый потомками в цифровую компиляцию, - иллюстрируют, как документы могут трансформироваться из «бюрократических» форм в личные артефакты и обратно.

Эти трансформации напоминают нам о том, что хранители личных архивов - семьи, дарители и даже архивисты-любители и историки-любители - участвуют в управлении документами как создатели интерпретаций/осмыслений, а не просто как источники. Ценность документа как свидетельства/доказательства столь же сильно зависит от этих последующих интерпретаций, как и от первоначального акта его создания.

Мой комментарий: Говорить, что ценность документа как свидетельства зависит от позднейших интерпретаций – с моей точки зрения, ставить телегу впереди лошади. Первичен документ, который должен сохраняться в неизменном виде, и происхождение и контекст которого должны быть известны. Интерпретаций же может быть сколько угодно – и как раз осмысленность этих интерпретаций всегда будет необходимо доказывать. Если сам по себе первичный документ (или комплекс таких документов, в случае массовых источников) ничего из себя не представляет, то и «интерпретировать» будет нечего …

Что это означает для практики

Авторы статьи воздерживаются от предписывания какой-то одной модели управления документами. Вместо этого они показывают, что любая модель – модель континуума документов, модель жизненного цикла или гибридная - должна учитывать социальные и технические реалии практики. Внедрение модели на практике становится в меньшей степени вопросом исполнения предписанных требований, и в большей – вопросом осмысления.

Здесь намечается несколько тем для обсуждения:

  • Оцифровка равнозначна созданию. Каждый цифровой суррогат - это новый документ со своим собственным происхождением.

    Мой комментарий:
    С этим я не соглашусь. Оцифровка – создание верной копии существующего документа, иными словами – процесс конверсии, а не создания (будь то «с нуля» или «по мотивам»). Сведения о происхождении цифровых суррогатов будут представлять собой сведения о происхождении оригинала, дополненные сведениями о процессе создания суррогата и его последующего использования и курирования.

  • Документирование процессов само по себе является формой деятельности по обеспечению долговременной сохранности. Метаданные о контексте – отвечающие на вопросы «кто», «как» и «почему» - столь же важны, как и контент.

  • Прозрачность способствует укреплению доверия. Документирование алгоритмических вмешательств и вмешательств со стороны человека способствует ответственному и подотчётному проведению исследований.

  • Крайне важен междисциплинарный подход. Архивисты, историки и ИТ-специалисты разделяют ответственность за формирование и интерпретацию цифровых коллекций.

  • Образование имеет значение. Цифровую архивную грамотность следует считать основополагающей компетенцией для всех, кто работает с ретро-оцифрованными или изначально электронными источниками.

Нейтральная территория, общее пространство

Ценность статьи «Отслеживание трансформаций …» заключается в отказе авторов от поддержки какой-то одной модели управления документами по сравнению с другими. Вместо этого дискуссия переводится в практическую плоскость. Независимо от того, мыслим ли мы в понятиях жизненного цикла, континуума документов или иных подходов, реальная проблема заключается в признании того, что документы не являются статичными - они являются социальными, материальными, а теперь ещё и вычислительными сущностями.

Прослеживая то, как коллекции писем военного времени превратились в наборы данных, авторы дают негромкое, но убедительное напоминание: смысл работы по управлению документами заключается не в фиксировании прошлого, а в сохранении его понятности с течением времени.

В этом плане модель континуума является не просто теоретической конструкцией, но и живым опытом находящихся в движении архивных документов.

Мой комментарий: Я бы сказала, что попытка «продать» модель континуума как наиболее подходящую для документов личного хранения является более чем сомнительной, и «континуум» здесь «притягивается за уши». Модель континуума куда интереснее, если применять её в отношении тех документов, которые непрерывно «живут» и изменяются, и практически никогда не выходят из активного использования – и в первую очередь это научно-техническая и проектно-конструкторская документация.

Эндрю Поттер (Andrew Potter)

Источник: сайт Substack
https://metaarchivist.substack.com/p/tracing-transformations-records-digitization 

Комментариев нет:

Отправить комментарий