(Окончание, начало см. http://rusrim.blogspot.com/2025/03/1_01899728219.html )
Цель: Нужно перенести файлы с носителя информации в место хранения, либо переместить их между местами хранения.
Методы / инструменты:
- Создание образа диска - создание точной копии устройства хранения, со всей структурой диска, включая системные файлы и порой также скрытые/удалённые файлы. Среди популярных инструментов можно назвать FTK Imager, Guymager и GNU ddrescue.
- Форматы и инструменты работы с аудиовидеоматериалами (их много)
- Библиотека Bag-It на языке Python - используется для структуризации файлов и метаданных в соответствии с широко используемыми спецификациями BagIt. Библиотека совместима с различными программами (включая валидаторы контрольных сумм), и поддерживает сохранение метаданных и отчётов вместе с файлами данных (об инструменте BagIt см. также пост на моём блоге http://rusrim.blogspot.com/2015/08/2_20.html - Н.Х.)
Цель: Нужно выявить / изолировать закономерности в данных; требуется нормализовать данные, очистить их и провести их пакетное редактирование.
Методы / инструменты:
- Регулярные выражения (Regular Expressions) - язык для сопоставления с образцом, встроенный во многие другие вычислительные инструменты (или совместимый с ними).
- OpenRefine - приложение с открытым исходным кодом для очистки и преобразования данных. Оно обычно используется для электронных таблиц, но способно обрабатывать и другие форматы данных.
- Python - язык программирования общего назначения, часто рекомендуемый из-за его удобочитаемости.
Pandas - библиотека Python, специально разработанная для работы с «грязными» данными.
Цель: Нужно собирать веб-контент и обеспечивать его долговременную сохранность.
Методы / инструменты:
- Archive-It - сервис веб-архивирования для учреждений культурного наследия, который сканирует веб-страницы и сохраняет их копии в «Интернет-архиве» (Internet Archive), доступном через Wayback Machine.
- Conifer - веб-сервис (ранее webrecorder.io), который создает и сохраняет интерактивную копию веб-страницы, записывая Ваши взаимодействия с ней.
Цель: Нужно захватывать и сохранять сообщения электронной почты
Методы / инструменты:
- ePADD - приложение с открытым исходным кодом для проведения экспертизы ценности, обработки, поиска и просмотра архивированных сообщений электронной почты.
- Mailbag - спецификации и инструмент упаковки, который сохраняет сообщения электронной почты в пригодных для длительного хранения пакетах, включая создание PDF-файлов для удобства доступа.
- JHOVE - инструмент с открытым исходным кодом для идентификации, проверки и характеризации файловых форматов. Это популярный инструмент для идентификации редких или неизвестных файловых форматов и для встраивания в рабочие процессы архивной обработки цифровых объектов.
- PRONOM - реестр файловых форматов, программных продуктов и других технических компонентов, поддерживаемый Национальными Архивами Великобритании
- DROID - инструмент, который идентифицирует файловые форматы с использованием реестра PRONOM и извлекает другие полезные метаданные.
- Библиотека Конгресса США – поддерживает базу сведений о жизнестойкости цифрового контента и форматов.
- r/DataHoarder - Этот подфорум на сайте reddit.com — отличное место для того, чтобы задать вопросы о нишевых форматах данных, малоизвестных носителях и т.д. (следуйте полученным советам на свой страх и риск!)
Цель: Нужно понять, как работать с конкретным странным форматом.
Нельзя ли просто получить список инструментов?
Инструменты обеспечения электронной сохранности (для доступа может потребоваться VPN – Н.Х.):
- https://digitalpowrr.niu.edu/digital-preservation-101/tool-grid/
- https://coptr.digipres.org/index.php/Main_Page
- (в составе BitCurator): https://bitcurator.github.io/documentation/Tools/
- https://infrafinder.investinopen.org/solutions
- Электронная таблица набора инструментов для систем управления коллекциями (Collection Management System Collection), составленная Эшли Блюэр (Ashley Blewer) с применением краудсорсинга, https://docs.google.com/spreadsheets/d/1cXOug3qM0pNNeD_wssiVEv9c0W1Y5I1VDTnSPTk7fb4/edit?gid=0#gid=0
Что ещё почитать?
- https://dpconline.org/handbook
- https://www.dpconline.org/digipres/discover-good-practice/tech-watch-reports
- Тревор Оуэнс (Trevor Owens) «Теория и искусство обеспечения электронной сохранности» (Theory and Craft of Digital Preservation)
- https://digiprez.com/2020-syllabus-legacy
- https://saaers.wordpress.com/
- https://digipreslab.lib.umich.edu/
- «Технический глоссарий для электронных архивов DANNNG» (DANNNG Digital Archives Technical Glossary), https://dannng.github.io/digital-archives-technical-glossary
Ресурсы, предложенные участниками семинара:
- «Автоматизация скучной работы» (Automate the Boring Stuff), https://automatetheboringstuff.com/
- Сайт курсов повышения квалификации Library Juice Academy: https://libraryjuiceacademy.com/
- Сайт обучающих программ Udemy: https://www.udemy.com/
Эмили Хиггс Копин (Emily Higgs Kopin)
Источник: блог секции электронных документов Общества американских архивистов
https://saaers.wordpress.com/2025/02/13/how-do-i-develop-digital-archivist-skills/
Комментариев нет:
Отправить комментарий