вторник, 15 ноября 2011 г.

США: Представители Национальных Архивов защищают электронный архив от обвинений в недостаточности возможностей поиска

Заметка Элис Липович (Alice Lipowicz – на фото) была опубликована на сайте издания Federal Computer Week 1 ноября 2011 года под названием «NARA officials defend searchability of electronic archive» . В ней она продолжает тему возможностей поиска в созданном Национальными Архивами США государственном электронном архиве.

Высшие должностные лица Национальных Архивов США (National Archives and Records Administration, NARA) встали на защиту недавно развернутого «Архива электронных документов» (Electronic Records Archive, ERA)  стоимостью в 430 миллионов долларов от критики со стороны федерального аудитора, заявившего о том, что в архиве нет возможности вести полнотекстовой поиск.

Хотя руководители NARA признают, что в настоящее время полнотекстовой поиск возможен только по небольшой части электронного архива, эта часть будет увеличиваться, и через 10 лет, как отметил представитель ведомства 1 ноября 2011 года, полнотекстовой поиск будет охватывать «огромное количество» материалов.

Дискуссия началась с заявления Генерального инспектора Национальных Архивов Пола Бречфельда (Paul Brachfeld) о наличии в решении NARA для электронного архива (системе ERA) принципиального недостатка, поскольку в нем не предусмотрена возможность полнотекстового поиска.

В интервью нашему изданию, данном 26 октября 2011 года, Бречфельд сказал, что люди, работающие с архивом, в основном могут вести поиск только по относящимся к документам меткам или тегам (также известным как «метаданные»), а не напрямую по тексту документов.

Отсутствие полнотекстового поиска, по словам Бречфельда,  «является на данный момент одной из серьёзных проблем системы ERA. Метаданные сам по себе не раскрывают всего того, что содержится в документах».

Однако руководители NARA, в ответ на эту критику, предположили, что, возможно, имеет место определенное недопонимание концепции системы ERA и тех задач, которые она должна решать.

«Судя по всему, Вы и некоторые из ваших сотрудников получили кажущиеся противоречивыми ответы», писал Архивист США Давид Ферьеро (David Ferriero) в своём ответе Бречфельду в начале этого года. Его ответное письмо было предоставлено нашему изданию 31 октября 2011 года.

«Я стремлюсь к тому, чтобы в системе ERA имелся полнотекстовой поиск по всему её контенту», писал в этом письме Ферьеро. «Моя позиция в этом отношении не изменилась».

Руководитель Национальных Архивов пояснил, что сейчас для публики открыта лишь небольшая часть системы ERA, и одновременно проводится классификация оставшейся части с целью её возможного раскрытия в более поздние сроки в соответствии с законодательством, в том числе в соответствии с законами, касающимся президентских документов, документов Конгресса, секретных документов и материалов переписи населения.

Что касается публично доступной части ERA, известной как «Система публичного онлайн-доступа» (Online Public Access system), то её контент в значительной степени состоит из отсканированных исторических документов, т.е. из неэлектронных документов, преобразованных в графические образы. Полнотекстовой поиск по ним не поддерживается, хотя сейчас предпринимаются усилия по разработке технологий и методов, позволяющих вести по ним такой поиск, - по словам Дэвида Лейка (David Lake), отвечающего в NARA за связи с общественностью.

Лейк отметил, что, одновременно с этим, к настоящему времени существенная часть Системы публичного онлайн-доступа сформирована из изначально-электронных документов, таких, как сообщения электронной почты и текстовые документы, по которым возможен полнотекстовый поиск с использованием применяемой Национальными Архивами машины поиска Vivisimo.

Он добавил, что в течение последующих 10 лет, по мере того, как от федеральных агентств в электронный архив будет поступать всё больше материалов, доля в архиве изначально-электронных документов будет увеличиваться, и в результате все большая часть контента электронного архива будет охвачена полнотекстовым поиском, - даже несмотря на то, что на хранение также будут поступать и исторические документы [неэлектронные документы, которые будут вводиться в систему в виде графических образов – Н.Х.]. Так, например, в течение следующих 5-10 лет через систему станут доступны 300 миллионов электронных почтовых сообщений администрации Джорджа Буша.

«Хотел бы я иметь хрустальный шар, чтобы предвидеть, что именно будет поступать к нам на хранение», сказал Лейк. «Это будет огромное количество изначально-электронных материалов, но также и огромное количество отсканированных графических образов. В ближайшие 10 лет нас ждёт существенное увеличение объёмов материалов», По словам Лейка, по поступающим в архив изначально-электронным материалам, таким, как электронные письма, полнотекстовой поиск будет возможен.

Впереди ещё много проблем с экспертизой документов на наличие в них секретных сведений и на выполнение требований по защите персональных данных, прежде чем документы можно будет раскрыть для широкой публики. Кроме того, ожидается передача в архив на хранение 350 терабайт данных переписи 2010 года, которые, по закону, не будут доступны в течение 72 лет.

Руководство NARA ранее уже признало наличие определенных ограничений в системе ERA. В сентябре был завершен 430-миллионный контракт на создание и развитие системы с фирмой Локхид Мартин (Lockheed Martin), без продления его на дополнительный год. Взамен NARA наняла фирму IBM для обслуживания и эксплуатации ERA по ежегодно возобновляемому контракту, общая сумма которого за 10 лет может достичь 243 млн. долларов, если будут использованы все возможные опции.

Элис Липович (Alice Lipowicz)

Источник: Federal Computer Week
http://fcw.com/articles/2011/11/01/nara-officials-defending-searchability-of-electronic-archive.aspx

Комментариев нет:

Отправить комментарий