четверг, 30 октября 2014 г.

Что нужно для того, чтобы быть всесторонним электронным архивистом? Часть 2


(Продолжение, начало см. http://rusrim.blogspot.ru/2014/10/1.html )

В приведенных ниже таблицах (таблицы переформатированы мною в текст для улучшения читаемости. Каждый пункт включает описание задачи, выполнение которой может входить в обязанности электронных архивистов, а также необходимых для этого знаний, навыков, программного обеспечения и инструментов – Н.Х) представлены задачи, с которыми мне пришлось столкнуться в течение последних шести лет работы в данной области, а также навыки и инструменты, полезные для решения каждой из этих задач.

Данные списки могут показаться обескураживающе разносторонними, но я овладел этими навыками в результате многолетней работы в качестве электронного архивиста в ряде сложных проектов. Когда я начинал, я знал далеко не всё, что здесь перечислено. Я приобрёл эти навыки и знания, посещая конференции, семинары, проходя бесплатные онлайн-курсы обучения (Massive Open Online Courses, MOOC) по обработке текстов на естественных языках, а также путем самостоятельного изучения, отыскивая доступные в Интернете ресурсы. Начинающий свою деятельность электронный архивист не обязан с самого начала владеть всеми этими навыками и знаниями, но он должен быть готов и способен последовательно изучать и применять новые знания.

1. Развитие коллекций. Взаимодействие с донорами, создателями, дилерами, кураторами (далее – «создатели»)

Задача 1.1. Получение общего представления об электронной части коллекции (особенности использования электронных технологий создателями материалов, виды электронных материалов, использовавшееся оборудование и программное обеспечение и т.д.).

Глубокое понимание характера использования создателями информационных технологий, знание видов электронных материалов, оборудования/ПО для всех форматов (ПК, Mac, устройства, облака и т.д.). Инструмент: подготовленный AIMS План обследования электронных материалов в персональных электронных архивах (см. https://docs.google.com/document/edit?id=1-zhAUIAOyvBmGvmi-jHeQZOLbsObNxt5j8SOZPQAYEo&hl=en&authkey=CKnE4ogP  )

Задача 1.2. Объяснение создателям вопроса об обеспечении долговременной сохранности электронных материалов (электронной сохранности), в том числе, при необходимости, разницы между сохранением потока битов и сохранением контента, закодированного в этих битах; миграции / эмуляции / виртуализации; «доверенных хранилищ»; уровней электронной сохранности

Глубокое знание основ электронной сохранности. Литература:
Задача 1.3. Объяснение создателям, как программное обеспечение для электронной судебной экспертизы (forensic software) при необходимости используется для приема на хранение, обработки и распространения коллекций изначально-электронных материалов – особенно в отношении материалов конфиденциальных / ограниченного доступа.

Специальные знания по использованию ПО для электронной судебной экспертизы в архивной работе. Инструменты: AccessData FTK, EnCase Forensic и др.

Задача 1.4. Объяснение создателям, как инструменты для обработки текстов на естественных языках / интеллектуального анализа данных (data mining) / визуализации используются, при необходимости, для обработки и распространения коллекций изначально-электронных материалов.

Общие представления об инструментах, используемых при обработке и распространении архивов изначально-электронных материалов, таких, как ПО для извлечения имен и наименований, для визуализации и т.д. Инструменты: Stanford Named Entity Recognizer (NER), Apache OpenNLP, Gephi (http://gephi.github.io/ - интерактивный инструмент на основе открытого кода для визуализации и изучения различных сетей, сложных систем и иерархических графов - Н.Х.), D3.js (http://d3js.org/ - JavaScript-библиотека для манипулирования документами на основе содержащихся в них данных, например, преобразование чисел в HTML-таблицу или график - Н.Х.), HTML 5 PivotViewer (https://github.com/openlink/html5pivotviewer  - открытое ПО, позволяющее визуализировать данные как набор бизнес-карт / плиток, с возможностью сортировки. фильтрации, установления взаимосвязей - Н.Х.) и др.

Задача 1.5. Разъяснения создателям, при необходимости, относительно публикации метаданных и/или контента коллекций изначально-электронных документов в виде семантической сети / связанных открытых данных – в сравнении с научно-справочным аппаратом в соответствии со стандартом кодированного архивного описания (Encoded Archival Description, EAD, http://www.loc.gov/ead/ ), другими методами веб-публикации на основе HTML.

Знания о связанных данных / семантической сети / EAD / методе веб-публикации на основе HTML.

Задача 1.6. Объяснение создателям, что такое веб-архивация.

Общее представление о веб-архивации, каталогизации, распространении и обеспечении сохранности веб-сайтов. Знание такого программного обеспечения для веб-архивации, как Heritrix ( https://webarchive.jira.com/wiki/display/Heritrix/Heritrix;jsessionid=858D4A9D7DC46D8864C2263DE435DD99 - веб-архиватор) и HTTrack ( http://www.httrack.com/ - ПО для сохранения и локального просмотра веб-сайтов). Умение пользоваться веб-архивом Wayback Machine ( https://archive.org/web/ ) компании Internet Archive.

Задача 1.7. Объяснение создателям, что из себя представляет архивная профессия в целом.

Знания о том, как устанавливать и поддерживать контроль, упорядочивать и описывать изначально-электронные архивные материалы в соответствии с общепринятыми стандартами и практикой с тем, чтобы обеспечить долговременную сохранность коллекций.

2. Прием материалов на хранение

Задача 2.1. Копирование содержащихся на носителях информации файлов, в том числе с таких устаревших носителей, как 5-дюймовые флоппи-диски, перфокарты и т.п.

Знание устанавливаемых на материнской плате контроллеров 5-дюймовых флоппи-дисков, интерфейсов для подключения оборудования и инструментов, в том числе IDE, SCSI, Firewire, SATA, FC5025 ( http://www.deviceside.com/fc5025.html  - позволяет подключить привод 5-дюймовых флоппи дисков к ПК через USB-порт - Н.Х.), KryoFlux, Catweasel ( http://en.wikipedia.org/w/index.php?title=Individual_Computers_Catweasel&oldid=618875268  - семейство производимых немецкой фирмой контроллеров для подключения флоппи-приводов к современным компьютерам - Н.Х.), ZIP-диски, компьютерные ленты и т.д. Знание таких файловых систем, как FAT, NTFS, HFS и др.

Задача 2.2. Обеспечение защиты данных на носителях информации от неумышленного стирания/изменения в ходе приёма на хранение, надлежащее протоколирование процесса копирования файлов с носителей информации.

Умение пользоваться прорезями/переключателями флоппи-дисков, обеспечивающими доступ только на чтение, а также аппаратными средствами блокирования записи на носители. Знание ПО для электронной судебной экспертизы (например, FTK Imager для ПК и Command FTK Imager для Mac).

Задача 2.3. Получение информации о числе файлов, их размере и виде файлов в коллекции.

Знание ПО для электронной судебной экспертизы (напр., AccessData FTK, EnCase Forensic, BitCurator ( http://www.bitcurator.net/ ), и др.), JHOVE ( http://jhove.sourceforge.net/ - средство идентификации и проверки форматов - Н.Х.), DROID ( http://www.nationalarchives.gov.uk/information-management/manage-information/preserving-digital-records/droid/ - средство автоматической пакетной идентификации файловых форматов - Н.Х.), Pronom ( http://apps.nationalarchives.gov.uk/PRONOM/Default.aspx  - реестр информации о файловых форматах - Н.Х.) и пр.

Задача 2.4. Обеспечение контроля над имеющимися в материалах коллекции вирусами (если они есть) в процессе приема на хранение.

Понимание уникальной природы архивных материалов (отсутствие возможности заменить их чем-либо, и т.д.), поведения вирусов, находящихся в файловых контейнерах и специальных процедур использования антивирусного программного обеспечения при работе с архивными материалами.

Задача 2.5. Прием на хранение архивов сообщений электронной почты.

Знание интернет-протоколов (POP, IMAP) и форматов электронных почтовых сообщений (Outlook, mbox).Знание коммерческих программных пакетов для архивации и переформатирования электронной почты (Emailchemy, Mailstore). Знание открытого ПО для архивации электронной почты, такого, как ePADD (Email: Process, Accession, Discover and Deliver, http://library.stanford.edu/spc/more-about-us/projects-and-initiatives/epadd-project ).

Задача 2.6. Архивация веб-сайтов.

Знание программного обеспечения для архивации сайтов, такого, как Heritrix и HTTrack. Понимание правовых вопросов, связанных с архивацией веб-сайтов. Знание сервисов веб-архивации, таких, как Archive-It.

Задача 2.7. Создание документации о приеме на хранение для изначально-электронных документов.

Знание систем для управления архивными данными, таких, как Archivists’ Toolkit (AT, http://www.archiviststoolkit.org/ - система управления архивными данными на основе открытого ПО - Н.Х.) с подключаемым модулем Multiple Extent Plugin, и др.

 (Окончание следует, см. http://rusrim.blogspot.ru/2014/10/3.html )

Питер Чен (Peter Chan)

Источник: блог «The Signal – Digital Preservation» на сайте Библиотеки Конгресса США
http://blogs.loc.gov/digitalpreservation/2014/10/what-does-it-take-to-be-a-well-rounded-digital-archivist/

Комментариев нет:

Отправить комментарий