Данная статья, написанная Бонни Ведл (Bonnie Weddle), была опубликована на блоге «l'Archivista» 7 мая 2011 года.
На первой сессии весенней Средне-Атлантической конференции региональных архивов 2011 года (Mid-Atlantic Regional Archives Conference, MARAC) в центре внимания были три исследовательских проекта в области электронных документов, спонсируемых Национальными Архивами США. Все они интригующие и обещающие облегчить работу многим электронным архивистам.
Питер Баджси (Peter Bajscy) из Национального центра по прикладному применению суперкомпьютеров (National Center for Supercomputing Applications, NCSA) подробно рассказал об облачных решениях, которые он и его коллеги разработали для того, чтобы справиться с проблемами, связанными с ростом числа и сложности файловых форматов, нарастающими объемами электронных документов, увеличивающейся сложностью аппаратного и программного обеспечения сложности и негарантированной поддержкой проприетарного (коммерческого) программного обеспечения. У меня не было возможности лично опробовать эти инструменты, но я, конечно, сделаю это при первой же возможности. Это:
Реестр программного обеспечения, используемого для конверсии (Conversion Software Registry, http://isda.ncsa.uiuc.edu/NARA/csrAbout.html ): Реестр и свободно доступный инструмент поиска, позволяющие пользователям, решающим задачу преобразования (конверсии) файлов из одного формата в другой, указать формат документов, с которыми они работают, и желаемый формат для длительного сохранения, а затем просмотреть список соответствующих инструментов для конверсии. В реестре сейчас описано более 2000 программных продуктов.
Система «Полиглот» (Polyglot, http://isda.ncsa.uiuc.edu/NARA/conversion.html ): облачный инструмент конверсии с открытым программным кодом, который можно использовать для работы секретной и конфиденциальной информацией.
Система Versus (в разработке): инструмент, сравнивающий оригинальные и преобразованные (конвертированные) версии одного и того же электронного объекта – объекты могут быть как простые, так и сложные - и оценивающий имевшие место потери информации. Результаты таких сравнений могут быть использованы для выбора того способа обеспечения долговременной сохранности, использование которого приводит к наименьшим потерям.
Баджси и его команда также заинтересованы в разработке универсальной программы просмотра файлов (Universal File Viewer) – облачной службы, обеспечивающей предварительный просмотр файлов, закодированных в любом формате.
Баджси также предложил аудитории подумать над рядом вопросов:
Архивистам нужно уметь определять форматы файлов для решения ряда задач:
Андервуд и его коллеги стремятся улучшить команду file в ОС Linux и используемый ею реестр сигнатур, с тем, чтобы они выдавали сигнатуры форматов, которые можно было бы сравнить с сигнатурами известных файловых форматов. На данный момент, ими определено примерно 850 сигнатур файловых форматов и собраны образцы около 700 различных типов файловых форматов. Они также создали базу данных сигнатур, которую, как впоследствии отметил модератор сессии Марк Конрад (Mark Conrad), передали в Национальные Архивы Великобритании разработчикам реестра файловых форматов PRONOM. Эти сигнатуры были включены в созданное Национальными Архивами Великобритании программное обеспечение с открытым исходным кодом «Друид» (Droid), служащее для идентификации форматов.
Андервуд и его коллеги также тестируют новые методы распознавания типов документов и извлечения описательных метаданных. Основное внимание они уделяют унаследованным документам, форматы которых не соответствуют XML-описаниям типа документа. Они изучают интеллектуальную форму (т.е. структуру) этих документов, затем строят «интеллектуальные грамматики» для каждого типа документа (например, для меморандумов), и используют интеллектуальные методы для извлечения имен, дат и других элементов метаданных.
По ходу доклада Андервуд отметил, что после того, как он и его коллеги извлекли эти метаданные, они могут написать правила, позволяющие нам создавать описания на уровне отдельных объектов (item-level descriptions). Далее, они могут написать правила, дающие возможность на основе этих описаний создавать описания дел, а затем и групп дел. Меня действительно поразило это заявление, из которого следует, что автоматизация способна привести к некоторым весьма интригующим - и для многих, тревожным - изменениям в практике составления архивных описаний.
Андервуд и его команда надеются применить метод индукции к образцам определенного вида документов, автоматически выработать «документную грамматику» и расширить возможности своих методов извлечения, с тем, чтобы они включали физические элементы документарной формы (например, шрифты) и документные грамматики физических форм. Всё это очень интересно!
(Окончание следует)
Бонни Ведл (Bonnie Weddle)
Источник: блог l'Archivista
http://larchivista.blogspot.com/2011/05/marac-spring-2011-new-tools-to-address.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+ArchivesBlogs+%28ArchivesBlogs%29
Бонни Ведл, электронный архивист Архивов штата Нью-Йорк
На первой сессии весенней Средне-Атлантической конференции региональных архивов 2011 года (Mid-Atlantic Regional Archives Conference, MARAC) в центре внимания были три исследовательских проекта в области электронных документов, спонсируемых Национальными Архивами США. Все они интригующие и обещающие облегчить работу многим электронным архивистам.
Питер Баджси (Peter Bajscy) из Национального центра по прикладному применению суперкомпьютеров (National Center for Supercomputing Applications, NCSA) подробно рассказал об облачных решениях, которые он и его коллеги разработали для того, чтобы справиться с проблемами, связанными с ростом числа и сложности файловых форматов, нарастающими объемами электронных документов, увеличивающейся сложностью аппаратного и программного обеспечения сложности и негарантированной поддержкой проприетарного (коммерческого) программного обеспечения. У меня не было возможности лично опробовать эти инструменты, но я, конечно, сделаю это при первой же возможности. Это:
Реестр программного обеспечения, используемого для конверсии (Conversion Software Registry, http://isda.ncsa.uiuc.edu/NARA/csrAbout.html ): Реестр и свободно доступный инструмент поиска, позволяющие пользователям, решающим задачу преобразования (конверсии) файлов из одного формата в другой, указать формат документов, с которыми они работают, и желаемый формат для длительного сохранения, а затем просмотреть список соответствующих инструментов для конверсии. В реестре сейчас описано более 2000 программных продуктов.
Система «Полиглот» (Polyglot, http://isda.ncsa.uiuc.edu/NARA/conversion.html ): облачный инструмент конверсии с открытым программным кодом, который можно использовать для работы секретной и конфиденциальной информацией.
Система Versus (в разработке): инструмент, сравнивающий оригинальные и преобразованные (конвертированные) версии одного и того же электронного объекта – объекты могут быть как простые, так и сложные - и оценивающий имевшие место потери информации. Результаты таких сравнений могут быть использованы для выбора того способа обеспечения долговременной сохранности, использование которого приводит к наименьшим потерям.
Баджси и его команда также заинтересованы в разработке универсальной программы просмотра файлов (Universal File Viewer) – облачной службы, обеспечивающей предварительный просмотр файлов, закодированных в любом формате.
Баджси также предложил аудитории подумать над рядом вопросов:
- Его команда способна обеспечить, в среднем, 1537 конверсий файлов в час (при 50% использовании однопроцессорной виртуальной машины и её 50% виртуальной полезной загрузке). Удовлетворяет ли такая скорость конверсии потребностям архивов?
- Со сколькими файловыми форматами приходится работать каждому из участников?
- Будет ли востребована универсальная программа просмотра файлов?
- Жизнеспособен ли подход, когда сами данные определяют выбор файлового формата для длительного хранения (data-driven file format selection)?
- Является ли допустимым подходом для оценки того, правильно ли сформирован файл, использование анализа на робастность по отношению к программному обеспечению (т.е. не окажется ли выяснение того, какое количество прикладных программ способно открыть данный файл более практичным способом определения «правильности» файла, чем его проверка на соответствие спецификациям формата)?
- Чем может быть полезна управляемая данными (data-driven) оценка качества функциональных средств ввода/вывода, имеющихся у программного продукта?
Архивистам нужно уметь определять форматы файлов для решения ряда задач:
- Для проверки соблюдения соглашений о передаче данных на архивное хранение и соответствия переданных файлов сведениям в передаточных описях,
- Для чтения / воспроизведения файлов,
- Для преобразования файлов в стандартные форматы или форматы для длительного хранения,
- Для извлечения информации из файлов-архивов (таких, как .zip, .arc),
- Для восстановления паролей и расшифровки, а также для восстановления поврежденных файлов.
Андервуд и его коллеги стремятся улучшить команду file в ОС Linux и используемый ею реестр сигнатур, с тем, чтобы они выдавали сигнатуры форматов, которые можно было бы сравнить с сигнатурами известных файловых форматов. На данный момент, ими определено примерно 850 сигнатур файловых форматов и собраны образцы около 700 различных типов файловых форматов. Они также создали базу данных сигнатур, которую, как впоследствии отметил модератор сессии Марк Конрад (Mark Conrad), передали в Национальные Архивы Великобритании разработчикам реестра файловых форматов PRONOM. Эти сигнатуры были включены в созданное Национальными Архивами Великобритании программное обеспечение с открытым исходным кодом «Друид» (Droid), служащее для идентификации форматов.
Андервуд и его коллеги также тестируют новые методы распознавания типов документов и извлечения описательных метаданных. Основное внимание они уделяют унаследованным документам, форматы которых не соответствуют XML-описаниям типа документа. Они изучают интеллектуальную форму (т.е. структуру) этих документов, затем строят «интеллектуальные грамматики» для каждого типа документа (например, для меморандумов), и используют интеллектуальные методы для извлечения имен, дат и других элементов метаданных.
По ходу доклада Андервуд отметил, что после того, как он и его коллеги извлекли эти метаданные, они могут написать правила, позволяющие нам создавать описания на уровне отдельных объектов (item-level descriptions). Далее, они могут написать правила, дающие возможность на основе этих описаний создавать описания дел, а затем и групп дел. Меня действительно поразило это заявление, из которого следует, что автоматизация способна привести к некоторым весьма интригующим - и для многих, тревожным - изменениям в практике составления архивных описаний.
Андервуд и его команда надеются применить метод индукции к образцам определенного вида документов, автоматически выработать «документную грамматику» и расширить возможности своих методов извлечения, с тем, чтобы они включали физические элементы документарной формы (например, шрифты) и документные грамматики физических форм. Всё это очень интересно!
(Окончание следует)
Бонни Ведл (Bonnie Weddle)
Источник: блог l'Archivista
http://larchivista.blogspot.com/2011/05/marac-spring-2011-new-tools-to-address.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+ArchivesBlogs+%28ArchivesBlogs%29
Комментариев нет:
Отправить комментарий