Кто не идёт вперед, тот идёт назад: США: Конференция MARAC Spring 2011: Новые инструменты для решения проблем, связанных с электронными документами

суббота, 14 мая 2011 г.

США: Конференция MARAC Spring 2011: Новые инструменты для решения проблем, связанных с электронными документами – часть I

Данная статья, написанная Бонни Ведл (Bonnie Weddle), была опубликована на блоге «l'Archivista» 7 мая 2011 года.

Бонни Ведл, электронный архивист Архивов штата Нью-Йорк

На первой сессии весенней Средне-Атлантической конференции региональных архивов 2011 года (Mid-Atlantic Regional Archives Conference, MARAC) в центре внимания были три исследовательских проекта в области электронных документов, спонсируемых Национальными Архивами США. Все они интригующие и обещающие облегчить работу многим электронным архивистам.

Питер Баджси (Peter Bajscy) из Национального центра по прикладному применению суперкомпьютеров (National Center for Supercomputing Applications, NCSA) подробно рассказал об облачных решениях, которые он и его коллеги разработали для того, чтобы справиться с проблемами, связанными с ростом числа и сложности файловых форматов, нарастающими объемами электронных документов, увеличивающейся сложностью аппаратного и программного обеспечения сложности и негарантированной поддержкой проприетарного (коммерческого) программного обеспечения. У меня не было возможности лично опробовать эти инструменты, но я, конечно, сделаю это при первой же возможности. Это:

Реестр программного обеспечения, используемого для конверсии (Conversion Software Registry, http://isda.ncsa.uiuc.edu/NARA/csrAbout.html ): Реестр и свободно доступный инструмент поиска, позволяющие пользователям, решающим задачу преобразования (конверсии) файлов из одного формата в другой, указать формат документов, с которыми они работают, и желаемый формат для длительного сохранения, а затем просмотреть список соответствующих инструментов для конверсии. В реестре сейчас описано более 2000 программных продуктов.

Система «Полиглот» (Polyglot, http://isda.ncsa.uiuc.edu/NARA/conversion.html ): облачный инструмент конверсии с открытым программным кодом, который можно использовать для работы секретной и конфиденциальной информацией.

Система Versus (в разработке): инструмент, сравнивающий оригинальные и преобразованные (конвертированные) версии одного и того же электронного объекта – объекты могут быть как простые, так и сложные - и оценивающий имевшие место потери информации. Результаты таких сравнений могут быть использованы для выбора того способа обеспечения долговременной сохранности, использование которого приводит к наименьшим потерям.

Баджси и его команда также заинтересованы в разработке универсальной программы просмотра файлов (Universal File Viewer) – облачной службы, обеспечивающей предварительный просмотр файлов, закодированных в любом формате.

Баджси также предложил аудитории подумать над рядом вопросов:

Его команда способна обеспечить, в среднем, 1537 конверсий файлов в час (при 50% использовании однопроцессорной виртуальной машины и её 50% виртуальной полезной загрузке). Удовлетворяет ли такая скорость конверсии потребностям архивов?
Со сколькими файловыми форматами приходится работать каждому из участников?
Будет ли востребована универсальная программа просмотра файлов?
Жизнеспособен ли подход, когда сами данные определяют выбор файлового формата для длительного хранения (data-driven file format selection)?
Является ли допустимым подходом для оценки того, правильно ли сформирован файл, использование анализа на робастность по отношению к программному обеспечению (т.е. не окажется ли выяснение того, какое количество прикладных программ способно открыть данный файл более практичным способом определения «правильности» файла, чем его проверка на соответствие спецификациям формата)?
Чем может быть полезна управляемая данными (data-driven) оценка качества функциональных средств ввода/вывода, имеющихся у программного продукта?

Затем Уильям Андервуд (William Underwood) из Технологического научно-исследовательского института Джорджии (Georgia Tech Research Institute) рассказал о своей работе над новыми инструментами для определения файловых и типов документов, и для извлечения метаданных.

Архивистам нужно уметь определять форматы файлов для решения ряда задач:

Для проверки соблюдения соглашений о передаче данных на архивное хранение и соответствия переданных файлов сведениям в передаточных описях,
Для чтения / воспроизведения файлов,
Для преобразования файлов в стандартные форматы или форматы для длительного хранения,
Для извлечения информации из файлов-архивов (таких, как .zip, .arc),
Для восстановления паролей и расшифровки, а также для восстановления поврежденных файлов.

В некоторых случаях для идентификации неизвестных форматов можно использовать внешние идентификаторы (например, расширения файлов, MIME-типы). Однако иногда внешних идентификаторов недостаточно, а популярные аналитические инструменты (такие, как команда file в Linux и используемый ею реестр сигнатур типов файлов - magic file) имеют ряд ограничений: их выдача иногда неоднозначна; затем, они проверяют как типы файлов, так и выходные метаданные, и точность определения набора символов и языка текстовых файлов у них далека от идеальной.

Андервуд и его коллеги стремятся улучшить команду file в ОС Linux и используемый ею реестр сигнатур, с тем, чтобы они выдавали сигнатуры форматов, которые можно было бы сравнить с сигнатурами известных файловых форматов. На данный момент, ими определено примерно 850 сигнатур файловых форматов и собраны образцы около 700 различных типов файловых форматов. Они также создали базу данных сигнатур, которую, как впоследствии отметил модератор сессии Марк Конрад (Mark Conrad), передали в Национальные Архивы Великобритании разработчикам реестра файловых форматов PRONOM. Эти сигнатуры были включены в созданное Национальными Архивами Великобритании программное обеспечение с открытым исходным кодом «Друид» (Droid), служащее для идентификации форматов.

Андервуд и его коллеги также тестируют новые методы распознавания типов документов и извлечения описательных метаданных. Основное внимание они уделяют унаследованным документам, форматы которых не соответствуют XML-описаниям типа документа. Они изучают интеллектуальную форму (т.е. структуру) этих документов, затем строят «интеллектуальные грамматики» для каждого типа документа (например, для меморандумов), и используют интеллектуальные методы для извлечения имен, дат и других элементов метаданных.

По ходу доклада Андервуд отметил, что после того, как он и его коллеги извлекли эти метаданные, они могут написать правила, позволяющие нам создавать описания на уровне отдельных объектов (item-level descriptions). Далее, они могут написать правила, дающие возможность на основе этих описаний создавать описания дел, а затем и групп дел. Меня действительно поразило это заявление, из которого следует, что автоматизация способна привести к некоторым весьма интригующим - и для многих, тревожным - изменениям в практике составления архивных описаний.

Андервуд и его команда надеются применить метод индукции к образцам определенного вида документов, автоматически выработать «документную грамматику» и расширить возможности своих методов извлечения, с тем, чтобы они включали физические элементы документарной формы (например, шрифты) и документные грамматики физических форм. Всё это очень интересно!

(Окончание следует)

Бонни Ведл (Bonnie Weddle)

Источник: блог l'Archivista
http://larchivista.blogspot.com/2011/05/marac-spring-2011-new-tools-to-address.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+ArchivesBlogs+%28ArchivesBlogs%29

Кто не идёт вперед, тот идёт назад

суббота, 14 мая 2011 г.

США: Конференция MARAC Spring 2011: Новые инструменты для решения проблем, связанных с электронными документами – часть I

Комментариев нет:

Отправить комментарий

Dr Natasha Khramtsovsky

Обо мне: Наташа Храмцовская / Dr Natasha Khramtsovsky

Поиск по блогу / Search this blog

Искать по блогу / Search this blog 2

Архив блога / Blog Archives

Используйте теги / Click the tags!

География моих читателей (RU)

Постоянные читатели

Кто не идёт вперед, тот идёт назад

суббота, 14 мая 2011 г.

США: Конференция MARAC Spring 2011: Новые инструменты для решения проблем, связанных с электронными документами – часть I

Комментариев нет:

Отправить комментарий

Dr Natasha Khramtsovsky

Обо мне: Наташа Храмцовская / Dr Natasha Khramtsovsky

Поиск по блогу / Search this blog

Искать по блогу / Search this blog 2

Архив блога / Blog Archives

Используйте теги / Click the tags!

География моих читателей (RU)

Постоянные читатели

суббота, 14 мая 2011 г.