пятница, 31 октября 2014 г.

Что нужно для того, чтобы быть всесторонним электронным архивистом? Часть 3


(Окончание, предыдущую часть см. http://rusrim.blogspot.ru/2014/10/2_30.html )

3. Упорядочение и описание / обработка

Задача 3.1. Отсеивание из архивных материалов секретной, конфиденциальной, персональной и защищаемой правами собственности информации, такой, как номера социального страхования, номера кредитных карт, секретные сведения, медицинские документы и т.д.

Представление о «чувствительности» персональных данных и знание инструментов, позволяющих локализовать такие данные (например, AccessData FTK, Identity Finder). Знание правовых ограничений на доступ к данным, таких, как DMCA (Digital Millennium Copyright Act, http://www.copyright.gov/reports/studies/dmca/dmca_executive.html  - Закон нового тысячелетия о защите авторских прав на электронный контент - Н.Х.), FERPA (Family Educational Rights and Privacy Act, http://www2.ed.gov/policy/gen/guid/fpco/ferpa/index.html - закон США, защищающий персональные данные в документах, касающихся школьников - Н.Х.) и др.

Задача 3.2. Классификация, где это требуется, элементов текста в изначально-электронных материалах по предопределенным категориям, таким, как «имена людей», «названия организаций» и «местоположения».

Знание программного обеспечения и инструментов, позволяющих извлекать нужные элементы текста (например, OpenCalais ( http://www.opencalais.com/ ), Stanford Named Entity Recognizer, Apache Open NLP).

Задача 3.3. Отображение сети взаимосвязей между людьми на основе материалов коллекции, где это уместно.

Знание сетевых графов и таких инструментов, как Gephi, NodeXL ( http://nodexl.codeplex.com/ - шаблон для Excel, упрощающий создание и анализ сетевых графов - Н.Х.).

Задача 3.4. Создание контролируемых словарей для упрощения процессов упорядочения и описания (где это уместно).

Понимание концепции контролируемых словарей. Знание стандарта консорциума W3C по публикации контролируемых словарей (Simple Knowledge Organization System, SKOS, http://www.w3.org/2004/02/skos/ ). Знание ПО для создания контролируемых словарей в формате SKOS, такого, как SKOSjs ( https://github.com/tkurz/skosjs ) и SKOS Editor ( https://code.google.com/p/skoseditor/ ). Знание платформ для размещения контролируемых словарей SKOS, таких, как Linked Media Framework ( https://code.google.com/p/lmf/ ) и Apache Marmotta ( http://marmotta.apache.org/ ). Знание сервисов публикации SKOS-словарей, таких. как Open Metadata Registry и Poolparty, Inc.

Задача 3.5. Моделирование данных в архивах с использованием RDF (Resource Description Framework – метод концептуального описания/моделирования информации – Н.Х.).

Понимание семантической сети / связанных данных. Знание общеупотребительных словарей и схем, таких, как DC, Schema.org ( https://schema.org/ ), FOAF и др. Знание репозиториев словарей, таких, как Linked Open Vocabularies (LOV, http://lov.okfn.org/dataset/lov/ ). Знание инструментов для создания rdf/xml, rdf/json, таких, как LODRefine ( http://code.zemanta.com/sparkica/ ) и Karma ( http://www.isi.edu/integration/karma/ ) и др.

Задача 3.6. Моделирование относящихся к архивным материалам (например, к игровым консолям) понятий и взаимосвязей между ними с использованием онтологий (где это уместно).

Знание стандарта консорциума W3C OWL (Web Ontology Language, http://www.w3.org/2001/sw/wiki/OWL ) и программного обеспечения для создания онтологий на основе OWL, такого, как Protégé и WebProtege ( http://protegewiki.stanford.edu/wiki/WebProtege ).

Задача 3.7. Описание файлов в специальных форматах (например, изначально-электронные фотоизображения).

Знание стандартов на схемы метаданных для графических образов (IPTC, EXIF) и программного обеспечения для создания/модификации таких метаданных (Adobe Bridge, Photo Mechanic и др.).

Задача 3.8. Описание файлов изображений путем указания имен зафиксированных на них лиц с помощью программного обеспечения (где это уместно).

Знание функциональных возможностей для выделения/распознавания лиц в таком программном обеспечении, как Picasa, Photoshop Elements.

Задача 3.9. Использование инструментов визуализации для отображения архивных данных (где это уместно).

Знание библиотеки открытого ПО на основе JavaScript для манипулирования документами, такого, как D3.js, HTML 5 PivotViewer, и коммерческих инструментов, таких как IBM ManyEyes и Cooliris.

Задача 3.10. Присваивание метаданных заархивированным веб-сайтам.

Знание возможностей для каталогизации, имеющихся в веб-сервисах архивации, таких, как Archive-It ( https://www.archive-it.org/ ) и в ПО для веб-архивации типа HTTrack.

Задача 3.11. Создание описей в формате EAD.

Знание принятых стандартов и практики создания описей и НСА. Знание XML-редакторов или другого программного обеспечения (как, например, Archivists’ Toolkit), используемого для создания описей в формате EAD.

4. Поиск и обеспечение доступа

Задача 4.1. Доставка пользователям изначально-электронных архивных материалов.

Знание законодательства об авторских правах и понимание вопросов, связанных с защитой персональных данных.

Задача 4.2. Доставка изначально-электронных архивных материалов на компьютеры читального зала.

Знание мер безопасности, необходимых для рабочих станций в читальных залах, таких, как отключение интернет-доступа и USB-портов, с целью предотвращения неумышленного перемещения материалов коллекции. Знание программного обеспечения для доставки пользователям содержащихся в коллекции графических образов, такого, как Adobe Bridge (поддерживает, в том числе, редактирование метаданных и сортировку по метаданным – Н.Х.). Знание программного обеспечения, способного читать файлы в устаревших форматах, такого как QuickView Plus.

Задача 4.3. Доставка пользователям изначально-электронных архивных материалов с использованием системы каталогов учреждения.

Знание соответствующего интерфейса, использования которого требует система каталогов учреждения.

Задача 4.4. Доставка пользователям изначально-электронных архивных материалов с использованием систем управления электронными хранилищами организации.

Знание DSpace ( http://www.dspace.org/ - открытое ПО для управления электронными хранилищами и электронными активами - Н.Х.), Fedora ( http://www.fedora-commons.org/about ), Hydra ( http://projecthydra.org/community-2-2/partners-and-more/stanford-university-2/ ), и интерфейсов, способствующих выполнению такого рода задач.

Задача 4.5. Публикация изначально-электронных архивных материалов с использованием связанных данных / семантической сети.

Знание платформ публикации связанных данных, таких, как Linked Media Framework, Apache Marmotta, OntoWiki ( http://aksw.org/Projects/OntoWiki.html ) и сервисов публикации связанных данных, таких как Open Metadata Registry.

Задача 4.6. Доставка пользователям изначально-электронных архивных материалов с использование ПО для проведения выставок.

Знание открытого ПО для проведения выставок, такого, как Omeka ( http://omeka.org/ )

Задача 4.7. Доставка пользователям заархивированных веб-сайтов.

Знание опций доставки контента, имеющихся в сервисах веб-архивации типа Archive-It и/или в ПО для веб-архивации типа HTTrack.

Задача 4.8. Доставка пользователям материалов из архивов электронной почты.

Знание коммерческого программного обеспечения, такого, как Mailstore. Знание открытого ПО, такого, как ePADD (Email: Process, Accession, Discover and Deliver).

Задача 4.9. Доставка пользователям материалов из коллекций программного обеспечения с использованием эмуляции / виртуализации.

Знание инструментов эмуляции / виртуализации, таких, как KEEP ( http://www.keep-project.eu/ezpub2/index.php ), JSMESS ( http://jsmess.textfiles.com/ ), MESS ( http://www.mess.org/ ), VMNetX ( https://olivearchive.org/software/ ) и XenServer.

Задача 4.10. Предоставление пользователям доступа к описям и другому научно-справочному аппарату изначально-электронных архивных материалов с использованием объединенных каталогов (union catalogs), таких, как онлайн-каталог архивных материалов OAC (Online Archive Catalogue).

Знание процедур закачки в соответствующие объединенные каталоги, такие, как OAC.

5. Обеспечение долговременной сохранности

Задача 5.1. Подготовка технических метаданных (контрольных сумм, дат создания, модификации и последнего доступа, файлового формата, размера файла и т.д.) для файлов в составе архивных материалов, передаваемых в хранилище на сохранение.

Знание ПО для электронной судебной экспертизы, такого, как AccessData FTK, EnCase Forensic, and BitCurator и др. Навыки программирования в XSLT для извлечения, где это уместно, информации из отчетов, создаваемых программным обеспечением.

Задача 5.2. Использование стратегий эмуляции / виртуализации для обеспечения долговременной сохранности коллекций программного обеспечения.

Знание инструментов эмуляции / виртуализации, таких, как KEEP, JSMESS, MESS, VMNetX и XenServer.

Задача 5.3. Использование стратегий миграции для обеспечения долговременной сохранности электронных объектов.

Знание «Спецификации рекомендуемых форматов» (Recommended Format Specifications, http://www.loc.gov/preservation/resources/rfs/ , см. также мой пост http://rusrim.blogspot.ru/2014/07/blog-post_8806.html - Н.Х.) Библиотеки Конгресса США. Знание инструментов миграции, таких, как Xena, Adobe Acrobat Professional, а также проектов Curl Exemplars in Digital Archives (Cedars, http://www.ukoln.ac.uk/services/elib/projects/cedars/ ) и Creative Archiving at Michigan and Leeds: Emulating the Old on the New (CAMiLEON, http://www.dcc.ac.uk/resources/external/camileon-creative-archiving-michigan-and-leeds-emulating-old-new ).

Задача 5.4. Передача объектов в электронное хранилище.

Знание систем обеспечения долговременной сохранности, таких, как Archivematica ( https://www.archivematica.org/wiki/Main_Page ), LOCKSS ( http://www.lockss.org/ ) и соответствующих сервисов, таких. как Portico ( http://www.portico.org/digital-preservation/ ), Tessella и DuraSpace ( http://www.duraspace.org/ ). Знание интерфейсов электронных хранилищ. Продвинутое владение Excel для организации, когда это уместно, пакетного ввода в хранилище.

Задача 5.5. Обеспечение долговременной сохранности заархивированных веб-сайтов.

Знание возможностей для обеспечения долговременной сохранности, имеющихся в сервисах веб-архивации, таких, как Archive-It. Знание того, как обеспечивать сохранность заархивированных веб-сайтов в электронных хранилищах.

Заключительные замечания

Конечно, круг обязанностей у электронных архивистов в различных учреждениях будет разным в зависимости от конкретной ситуации. Надеюсь, что эта статья инициирует обсуждение той работы, выполнение которой ожидается от электронных архивистов, и набора знаний, необходимых им для того, чтобы добиться успеха. В заключение я хотел бы поблагодарить своего руководителя Глинн Эдвардс (Glynn Edwards), поддерживающую мои пробные исследования в тех областях, которые некоторые другие организации могли бы счесть не имеющими отношения к должностным обязанностям электронного архивиста. Напомню также, что мое мнение не обязательно отражает точку зрения моего работодателя или каких-либо иных организаций.

Питер Чен (Peter Chan)

Источник: блог «The Signal – Digital Preservation» на сайте Библиотеки Конгресса США
http://blogs.loc.gov/digitalpreservation/2014/10/what-does-it-take-to-be-a-well-rounded-digital-archivist/

Комментариев нет:

Отправить комментарий