понедельник, 1 марта 2021 г.

Штат Техас, США: Что происходит с электронными документами в архивах? Часть 1

Данная заметка Джослин Сезар (Joslyn Ceasar – на фото) была опубликована 25 января 2020 года на блоге «The Texas Record» («Документы Техаса», https://www.tsl.texas.gov/slrm/blog/ ), который ведёт Комиссия по вопросам библиотечного и архивного дела штата Техас (Texas State Library and Archives Commission, TSLAC – это архивно-библиотечная служба штата).

В отделе архивно-информационных услуг (Archives and information services division) Комиссии по вопросам библиотечного и архивного дела штата Техас (Texas State Library and Archives Commission, TSLAC) используются сложные процессы управления электронными документами. Многие органы исполнительной власти, передающие свои документы в Архивы, могут не знать, каким образом их документы включены в структуру архивных фондов TSLAC.

На конференции «Электронные документы 2020» (E-records 2020) специалист TSLAC по электронным документам Брайан Томас (Brian Thomas) представил доклад «Что происходит с электронными документами, передаваемыми в архив штата?» (What Happens Electronic Records Sent to the State Archives? – 46-минутная видеозапись доклада доступна по адресу https://www.youtube.com/watch?v=6ZPHqY9-dKAН.Х.).  У аудитории была возможность подробно ознакомиться с процессом обеспечения долговременной сохранности электронных документов.

Я поговорила с Брайаном (на фото справа) о его докладе и задала вопросы, интересующие наших читателей:

1. В чем разница между передачей в архивную систему (ingest) и миграцией?

Говоря простым языком, прием/передача в архивную систему (ingest) - это процесс добавления электронных документов в электронное хранилище.

Миграция - это процесс преобразования электронного документа из одного формата в другой, будь то обновленная версия того же формата (например, преобразование из .doc в .docx) или совершенно другой формат (преобразование .doc в .pdf).

В системе обеспечения электронной сохранности исходный документ и мигрированный документ связаны вместе как версии одного и того же объекта. Поскольку форматы файлов могут быть весьма разнообразными, миграция в стандартные и широко распространённые форматы важна для обеспечения долгосрочной доступности документов.

Мой комментарий: В международной терминологии ИСО, которой следуют адаптированные в виде ГОСТов стандарты, вместо термина «миграция» предлагается использовать термин «конверсия/конвертация», в то время как «миграция» обозначает перемещение документов без преобразования их формата.

Если говорить о процессе передачи в архивную систему подробнее, то он включает в себя много этапов. В их число входят:

  • «упаковка» файлов, создание контрольных сумм, позволяющих впоследствии убедиться в том, чтобы введённые в хранилище файлы остались такими же, как они были посланы;

  • сканирование на вирусы;

  • определение системой характеристик файлов с тем, чтобы понять, какого рода объекты поступили на хранение;

  • хранение извлеченных данных (метаданных – Н.Х.), а также добавление описательных данных (метаданных – Н.Х.) о файле;

  • хранение самих документов; и, наконец,

  • увязывание всего этого воедино в базе данных хранилища.

Управляемое TSLAC электронное хранилище поддерживает возможность выполнения стандартизированных миграций на основе правил, которые мы установили в качестве последнего этапа процесса передачи (мы так поступаем, чтобы обеспечить выполнение этого необходимого этапа).

2. Что такое метаданные, и почему они так важны при архивации электронных документов?

Метаданные - это описательная информация (данные) об объектах. Это настолько распространенная вещь, что её трудно описать.

В качестве общеизвестного примера представьте, что Вы покупаете сезон своего любимого телешоу, который продаётся в местном магазине в любом из форматов на Ваш выбор (VHS, DVD, Blu-RAY и т.д.).

Материальный физический объект просто существует. Магазинный ценник представляет собой описательную информацию о стоимости объекта. На обратной стороне коробки с экземпляром сезона Вашего любимого сериала (ну, Вы знаете, какого), имеется описательная информация о содержании сезона и, возможно, о сериале в целом. Если в коробке упаковано несколько носителей информации (в 2020 году это будут диски) с эпизодами сезона, то, вероятно, на каждом носителе будет описательная информация о записанных на нём эпизодах шоу. Безо всех этих метаданных Вы бы держали в руках «чёрный ящик», который мог быть, а мог и не быть бесплатным, но определенно представлял бы собой загадку.

Как и в описанном примере, метаданные об электронных документах важны для понимания того, что это такое и каковы их характеристики. Метаданные о наборе документов важны для понимания контекста происхождения документов и причин их поступления к нам на хранение. Метаданные, которые встроены в сам файл, сообщают нам о характеристиках этого файла, что, в свою очередь, говорит нам о том, как обрабатывать данный файл.

Многие различные типы файлов используют одно и то же расширение имени файла (которое само по себе является метаданными, назначение которых - дать компьютеру информацию о том, как обрабатывать файл), - поэтому встроенные метаданные могут содержать более подробную информацию о файловом формате.

Подумайте о сканировании физического документа в PDF-файл и об электронном письме, сохраненном в формате PDF - расширение имени файла в обоих случаях одно и то же, для доступа используются те же программы, но имеется колоссальное отличие в том, как программа обрабатывает файл.

Если отсканированный (или изначально графический) документ проходит через процесс распознавания текста (Optical Character Recognition, OCR), то встроенный в файл распознанный текст документа является метаданными о сканированном изображении.

Если вы используете офисное программное обеспечение или что-то вроде Sharepoint, то могут существовать метаданные о том, кто создал или последним изменил файл.

Электронное хранилище извлекает, хранит и использует метаданные о документах для управления ими, и для предоставления конечным пользователям информации о контексте документа. Если происходит миграция, то метаданные в базе данных используются для связывания друг с другом двух версий документа в единое целое. Если исследователю важно знать, когда файлы были созданы, то встроенные метаданные – отметки времени (извлеченные хранилищем) могут дать ему возможность выполнять поиск по этим сведениям. Дополнительную информацию Вы можете найти в моём посте в блоге «Метаданные: Описание, которое существует» (Metadata: The Description is Out There, https://www.tsl.texas.gov/outofthestacks/metadata-the-description-is-out-there/ ).

(Окончание следует, см. http://rusrim.blogspot.com/2021/03/2.html )

Джослин Сезар (Joslyn Ceasar)

Источник: сайт TSLAC
https://www.tsl.texas.gov/slrm/blog/2021/01/what-happens-to-electronic-records-in-the-archives/

Комментариев нет:

Отправить комментарий