среда, 29 октября 2014 г.

Что нужно для того, чтобы быть всесторонним электронным архивистом? Часть 1


Статья электронного архивиста Стэндфордского университета Питера Чена (Peter Chan – на фото) была опубликована 7 октября 2014 года на блоге «Сигнал – Электронная сохранность» (The Signal - Digital Preservation), располагающемся на сайте Библиотеки Конгресса США.

Я - электронный архивист Стэндфордского университета. Пару лет назад Стэнфорд принял участие в проекте AIMS (см. http://born-digital-archives.blogspot.ru/p/about-us.html , а также пост на моем блоге http://rusrim.blogspot.ru/2010/08/blog-post_15.html . AIMS - совместный проект университетов Виржинии, Стэнфорда, Халла и Йейла по развитию коллекций изначально-электронных публикаций и предоставлению библиотекарям и архивистам инструментов для управления электронными активами – Н.Х.) . Это подтолкнуло Стэнфорд задуматься о роли «электронного архивиста». Данный проект завершился в 2011 году, и я – единственный электронный архивист, который был нанят в рамках этого проекта и всё ещё продолжает работать на постоянной основе. Недавно я обсуждал вопрос о роли и ответственности электронного архивиста с моим руководством. Это побудило меня взглянуть на объявления о вакансиях для «электронных архивистов» и посмотреть, какие навыки и квалификация в настоящее время ищут работодатели.

Я просмотрел восемь вакансий для электронных архивистов, которые были опубликованы в течение последних 12 месяцев. Ответственность и требуемые организациями компетенции электронных архивистов сильно различались. Тем не менее, все работодатели хотели, чтобы у кандидата было документально подтвержденное образование по вопросам архивной теории и практики. Некоторые учреждения больший упор делали на навыки программирования, отдавая предпочтение кандидатам, умеющим программировать на Perl, XSLT, Ruby, HTML и имеющим опыт работы с базами данных SQL и такими хранилищами, таких как DSpace или Fedora. Другие работодатели требовали знания различных стандартов метаданных. Кое-кто даже хотел, чтобы кандидаты владели такими инструментами электронной судебной экспертизы, как FTK Imager, AccessData Forensic Toolkits и устройствами, предотвращающими перезапись данных на носителях информации (write blockers). Электронные архивисты /библиотекари хотя бы отчасти знакомы с большинством таких инструментов.

На рис.: Копия экрана из проекта ePADD.

За время своей карьеры, однако, я выявил и другие навыки, полезные для выполнения этой работы. По опыту участия в двух проектах (ePADD, http://library.stanford.edu/spc/more-about-us/projects-and-initiatives/epadd-project - проект разработки программного обеспечения для обработки архивов сообщений электронной почты, в результате обеспечивающего возможность поиска по ним, и GAMECIP, http://gamecip.soe.ucsc.edu/ - проект совершенствования библиотечной практики в отношении компьютерных игр, затрагивающий вопросы метаданных игр и способов ссылок на игровые события и состояния игр – Н.Х.), я понял, что очень полезны знания в области обработки естественного языка (Natural Language Processing), а также связанных открытых данных (Linked Open Data) / семантического интернета (Semantic Web) / онтологий. Вследствие этих потребностей я освоил разработанный в Стэнфорде инструмент распознавания имен и названий (Named Entity Recognizer, NER, http://nlp.stanford.edu/software/CRF-NER.shtml ) и библиотеку Apache OpenNLP ( https://opennlp.apache.org/ ) для извлечения из массивов сообщений электронной почты в рамках проекта ePADD личных имен, названий организаций и географических названий.

Помимо этого, знакомство со SKOS (Simple Knowledge Organization System – «Простая система организации знаний», http://www.w3.org/2004/02/skos/ - проект по разработке спецификаций и стандартов, поддерживающих такие системы организации знаний, как тезаурусы, классификационные схемы, списки тематических заголовков и таксономии в рамках семантического интернета – Н.Х.) , «Открытым реестром метаданных» (Open Metadata Registry, http://metadataregistry.org/ - средства управления контролируемыми словарями – Н.Х.) и Protégé (http://protege.stanford.edu/ - бесплатный редактор онтологий на основе открытого кода – Н.Х.) помогли публиковать контролируемые словари как связанные открытые данные и моделировать взаимоотношения между понятиями, относящимися к игровым консолям в рамках проекта GAMECIP.

(Продолжение следует, см. http://rusrim.blogspot.ru/2014/10/2_30.html )

Питер Чен (Peter Chan)

Источник: блог «The Signal – Digital Preservation» на сайте Библиотеки Конгресса США
http://blogs.loc.gov/digitalpreservation/2014/10/what-does-it-take-to-be-a-well-rounded-digital-archivist/

Комментариев нет:

Отправить комментарий