(Продолжение, начало см http://rusrim.blogspot.ru/2014/09/1_30.html . Второй пост серии был опубликован на сайте hangingtogether.org 9 сентября 2014 года)
Это второй из трех постов, посвященных сессии «блиц-выступлений» на конференции Общества американских архивистов (SAA). В первой части речь шла о разнообразных носителях информации, с которыми могут столкнуться архивы, и об усилиях, направленных на то, чтобы понять, что же именно может быть сделано собственными силами. Во второй части четыре архивиста рассказывают о решениях для работы с особенно сложными форматами.
Электронный архивист Эбби Адамс (Abby Adams) представляла музей и библиотеку Хэгли (Hagley Museum & Library) - независимую научно-исследовательскую библиотеку в г. Уилмингтон (Wilmington), штат Делавер, документирующую историю американской корпорации с момента ее создания и до наших дней, уделяя при этом основное внимание пересечению вопросов, связанных с развитием промышленности, технологий и общества.
В 2012 году библиотека Хэгли получила большую гибридную коллекцию, состоящую в основном из текстовых аналоговых материалов, дополненную рядом изначально электронных документов. Документы были созданы различными техническими корпорациями в ходе их обычной деловой деятельности в конце 1990-х - начале 2000-х годов и отражали различные аспекты бума и последующего банкротства дот-комов (dot-com, первая волна сайтов для электронной коммерции – Н.Х.) - это область исследований, где первоисточников катастрофически не хватает. Учитывая потенциально высокую научную ценность коллекции, Адамс придала высокий приоритет усилиям по сохранению изначально-электронного контента и перебрала сотни коробов с документами, выявив следующие устаревшие носители информации: 349 компакт-дисков; 134 3-дюймовые дискеты; 113 цифровых DLT-ленты; 49 цифровых лент DDS; 19 четвертьдюймовых мини-картриджей; 15 картриджей Travan и 8 ZIP-дисков.
Если с компакт-дисками и дискетами особых проблем не было, то прочие устаревшие виды носителей стали наглядным уроком, показывающим, насколько сложным может оказаться восстановление данных. Попытки Адамса использовать бесплатно отдаваемые владельцами старые привода ("freecycled") диски и починенные «на живую нитку» старые компьютеры оказались безуспешными. Даже если бы ей удалось подключить к компьютеру DLT или DDS-привода для чтения лент соответствующего поколения, ей также нужно было бы знать, какая программа использовалась для создания резервной копии (в разные периоды времени использовалось множество разных программ), суметь успешно установить эту программу и молиться, чтобы носители не оказались зашифрованными или повреждёнными.
Поскольку библиотека Хэгли – небольшое учреждение с ограниченными собственными возможностями, было ясно, что лучшей стратегией является передача выполнения задачи по извлечению данных на аутсорсинг. После консультаций с несколькими поставщиками таких услуг, Адамс и ее коллега Кевин Мартин (Kevin Martin) нашли компанию, специализирующуюся на извлечении данных с резервных лент и их индексации. Получив финансирование для первого этапа проекта, Адамс и Мартин послали поставщику пробную партию из пяти DLT-лент и трех DDS-лент. Менее чем через неделю поставщик предоставил им доступ к индексированным данным с семи из восьми лент. С учетом размеров коллекции и ограниченности внутренних ресурсов библиотеки Хэгли, Адамс очень строго проводила экспертизу ценности, отбирая на хранение лишь около десяти процентов данных. Оригинальные носители были возвращены поставщиком несколько недель спустя. Успешно завершив первый этап проекта, библиотека Хэгли собирается использовать услуги той же компании для обработки остальных резервных лент.
Элиза Варшавски (Elise Warshavsky) работает электронным архивистом Пресвитерианского исторического общества (Presbyterian Historical Society), выполняющего роль национального архива Пресвитерианской церкви, документирующего политическую и социальную историю церкви. В своё время архивы получили на хранение ноутбук Клифтона Киркпатрика (Clifton Kirkpatrick), бывшего клерка-исполнителя (Stated Clerk), т.е. высшего выборного должностного лица этой церкви. Ноутбук содержал файлы, над которыми он работал, а также его электронную почту. Пять лет спустя, когда Элиза поступила на работу в общество, её попросили провести архивную обработку содержимого этого ноутбука. Как выглядели полученные ею «детальные инструкции» относительно паролей, типов файлов и сведения о наличии 28 тысяч писем в учетной записи Novell GroupWise, можно увидеть на фотографиях:
Первоначально принявший ноутбук специалист по управлению документами конвертировал учетную запись электронной почты в «удаленную» (Remote), что позволяло электронной переписке существовать исключительно на ноутбуке. Он также реорганизовал почтовый ящик входящей почты и провел экспертизу ценности каждого отдельного письма, в результате чего была потеряна структура папок и, возможно, утрачены и другие метаданные. Электронные письма были читаемы, но, учитывая 50-летний срок ограничения доступа к ним, задача заключалась в том, чтобы обеспечить читаемость эти файлов через 50 лет.
Не найдя способ преобразовать почту из удаленной учетной записи GroupWise в иной формат, Элиза в конечном итоге связалась с компанией-разработчиком коммерческого конвертора электронной почты с названием Transend. Компания согласилась воскресить учетную запись почты GroupWise на своих серверах, а затем преобразовать её содержимое в формат .PST - открытый файловый формат фирмы Microsoft (это американское толкование «открытости», означающее, что спецификации формата опубликованы и свободно доступны, и за их использование не взимаются лицензионные отчисления – Н.Х.). После этого она смогла продвинуться дальше с выполнением её плана миграции: преобразовать контент в более подходящий для архивного хранения формат электронной почты .MBOX (формат, появившийся на Unix-системах, см. RFC 4155, http://tools.ietf.org/html/rfc4155 - Н.Х.), а также провести пакетный экспорт всех сообщений электронной почты в формат PDF/A, с которым исследователи смогут работать и вести поиск и через 50 лет.
Элиза советует: Если Вас постигнет разочарование в связи с отсутствием необходимых для завершения проекта инструментов или навыков, постарайтесь найти помощь вне организации. Нет никакой необходимости создавать собственные ресурсы, если приходится разбираться с уникальным случаем, который, скорее всего, больше не повторится. Воспользуйтесь внешней помощью и затем продолжайте делать то, что Вы умеете – принимать на хранение, проводить экспертизу ценности и обеспечивать долговременную сохранность.
Тед Халл (Ted Hull), директор отделения электронных документов Национальных Архивов США в Колледж-Парке (College Park), рассказал о проекте по восстановлению контента 7-дорожечных магнитных лент.
Отделение электронных документов (Electronic Records Division) ведёт прием на архивное хранение, обрабатывает, упорядочивает для архивного хранения, описывает и обеспечивает доступ к изначально-электронным федеральным документам, подлежащим постоянному хранению в Национальных Архивах. В отделении хранится 932 серии документов из более чем 100 федеральных органов исполнительной власти – это в общей сложности свыше 750 миллионов уникальных файлов и более 320 терабайт данных.
Семидорожечная магнитная лента была отраслевым стандартом в 1950 -1970 годы, после чего её повсеместно заменила 9-дорожечная лента. Хотя большая часть архивных материалов ранее была мигрирована с семидорожечных лент, в 2013 году сотрудники выявили ещё 13 таких магнитных лент, содержащих документы совета директоров Федерального банка жилищного кредита (Federal Home Loan Bank), Бюро по делам индейцев (Bureau of Indian Affairs) и Объединенного комитета начальников штабов (U.S. Joint Chiefs of Staff). В ходе проведенных Национальными Архивами поисков выяснилось, что Национальный центр атмосферных исследований (National Center for Atmospheric Research, NCAR) в городе Боулдер (Boulder), штат Колорадо, по-прежнему имеет возможность читать 7-дорожечные ленты. Специалисты центра смогли восстановить данные с 9 лент, а ещё 4 ленты оказались пустыми. Центр NCAR также преобразовал данные в кодировку ASCII и выложил файлы на своём FTP-сервере, откуда сотрудники Национальных Архивов смогли их скачать напрямую. Национальные Архивы обработали материалы и приняли документы на архивное хранение, а оригинальные ленты были возвращены в Национальные Архивы для утилизации.
Бен Голдман (Ben Goldman), электронный архивист библиотеки университета штата Пенсильвания, обнаружил 27 трёхдюймовых флоппи-диска в коллекции современных литературных рукописей. У библиотеки не было ни оборудования, необходимого для чтения дисков, ни даже уверенности в их читаемости и в наличии на них заслуживающих восстановления данных.
Amstrad-диск из фонда Фионы Питт-Кетли (Fiona Pitt-Kethley) в библиотеке специальных коллекций университета штата Пенсильвания
Автор подтвердила, что у неё когда-то был компьютер Amstrad (в 1980-е годы в течение недолгого периода довольно популярный в Великобритании). Поскольку Бен не знал в точности, какое оборудование и программное обеспечение нужно для чтения таких дисков, он решил передать восстановление информации с них на аутсорсинг. Он решил использовать эту возможность для разработки типового соглашения с поставщиками услуг, а также сделать данный проект своего рода расширением внутренних процессов работы с изначально-электронным контентом.
С этой целью Бен подготовил электронную таблицу для инвентаризации носителей, включающую сведения на их этикетках, информацию об их содержании, о сделанных образах этих носителей, а также контрольные суммы, вычисленные после их окончательной миграции. Ему, однако, в первую очередь хотелось оценить, является ли использование аутсорсинга жизнеспособным вариантом для архивистов, сталкивающихся с проблемными видами носителей информации; посмотреть, можно ли в этом случае выполнить базовые архивные требования; смогут ли поставщики услуг придерживаться формирующейся наилучшей практики работы, и будут ли расходы посильными для архивов. Университет предоставил проекту финансирование в 40 долларов в расчете на один флоппи-диск.
Вскоре Бен добился заключения с Музеем компьютерной культуры (Museum of Computer Culture) соглашения о создании образов дисков, которые можно было бы обрабатывать с использованием инструментов электронной судебно-криминалистической экспертизы. Сотрудники музея должны были опираться на инвентарную ведомость, соблюдать правила именования и задокументировать контрольные суммы, чтобы затем с их помощью можно было проконтролировать целостность переданных данных.
Спустя много месяцев, однако, Бен уже работал с двумя другими поставщиками – не имея официально подписанного соглашения. Выяснилось, что образы дисков, «родные» для операционной системы Amstrad, не могут быть мигрированы в современные форматы или обработаны с использованием распространенных инструментов электронной судебной экспертизы. Вместо этого Бен получил по три версии каждого файла в трех различных форматах с характерными для них потерями информации; правила наименования не были соблюдены и не было никаких контрольных сумм.
Несмотря на то, что его ожидания не совсем оправдались, Бен не считает проект провальным. «Носители-бродяги непокорны», - предупреждает он. Ключевую роль играют хорошо налаженное взаимодействие и обмен информацией, поэтому соответствующие требования следует включить в соглашение с поставщиком. Кроме того, Бен не уверен, что подобная экономическая модель окажется жизнеспособной. Он считает, что в качестве альтернативы архивистам следует развивать варианты решения задачи совместными усилиями архивной отрасли. Есть технологии, ресурсы, и есть талантливые люди, занимающиеся этими вопросами. Было бы здорово увидеть более продуманные стратегии коллективного решения проблем и оказания поддержки друг другу.
Следующая, третья часть будет посвящена выступлениям трех докладчиков, отразивших точку зрения поставщиков услуг.
(Продолжение следует, см. http://rusrim.blogspot.ru/2014/10/3-1.html )
Рики Эрвей (Ricky Erway)
Источник: сайт hangingtogether.org
http://hangingtogether.org/?p=4228
Комментариев нет:
Отправить комментарий