Статья Аарона Дуброва (Aaron Dubrow) из Техасского центра перспективных вычислительных методов (Texas Advanced Computing Center, TACC) , была опубликована на сайте издания LiveScience 24 марта 2011 года, под названием «Behind the Scenes: A Glimpse to the Archives of the Future»
Как архивисту понять взаимосвязи, существующие между миллиардами документов, как отыскать единственный нужный документ в море данных? По мере стремительного распространения электронных документов, стоящие перед архивистами задачи усложнились. Данная проблема особенно остро стоит перед Национальными Архивами США (National Archives and Records Administration, NARA) – государственным органом, отвечающим за управление и сохранение исторических документов нации.
В конце срока полномочий администрации президента Джорджа Буша в 2000 году, в Национальные Архивы поступило примерно в 35 раз больше данных, чем ранее было получено от администрации Клинтона, которая, в свою очередь, передала NARA многократно больше данных, чем предшествующие администрации. Учитывая, что федеральное правительство всё более активно использует социальные сети, облачные вычисления и другие технологии в интересах «открытого правительства», эта тенденция вряд ли изменится. По оценкам Национальных Архивов, в них к 2014 году накопится более 35 петабайт данных (1 петабайт = 1 миллион гигабайт) в виде электронных документов.
По словам Роберта Чеддака (Robert Chadduck), исполняющего обязанности директора Центра перспективных систем и технологий Национальных Архивов (Center for Advanced Systems and Technologies, CAST), «Национальный архив является уникальным национальным институтом, удовлетворяющим потребности в обеспечении сохранности, доступа и дальнейшего использования государственных документов» (В последнее время, до своего ухода на пенсию, директорам CAST был Кеннет Тибодё, см. http://rusrim.blogspot.com/2011/01/blog-post_08.html - Н.Х.)
В поисках инновационных и масштабируемых решений для крупномасштабных коллекций электронных документов, Чеддак обратился в финансируемый Национальным научным фондом (National Science Foundation, NSF) Техасский центр перспективных вычислительных методов (Texas Advanced Computing Center, TACC), чтобы воспользоваться опытом электронного архивиста центра Марии Эстевы (Maria Esteva) и эксперта в области анализа данных Сю Вейдья (Weijia Xu).
«Для того, чтобы государство и нация могли эффективно реагировать на все требования, связанные с очень большими коллекциями электронных документов, необходимы перспективные методы и средства, заложенные именно в такой тип киберинфраструктуры, который сейчас разрабатывается в TACC», отмечает Чеддак.
После консультаций с Национальными Архивами относительно их потребностей, члены группы TACC по анализу данных и информации разработала многосторонний подход, в котором различные методы анализа объединяются в рамках оболочки для визуализации результатов. Визуализация служит «мостом» между архивистом и данными, интерактивно отображая информацию с использованием форм и цветов, для того, чтобы облегчить понимание структуры и содержания архива.
Архивисты тратят немало времени на определение способа организации, контента и характеристик коллекций, чтобы описать их и тем самым сделать доступными для общественности. «Этот процесс включает в себя набор стандартных методов и опирается на многолетний опыт архивиста», говорит Сю. «Для решения этой задачи в отношении крупномасштабных электронных коллекций, мы разрабатываем технологии, в которых вычислительные мощности сочетаются со знаниями в предметной области».
Зная, что у человека визуальное восприятие представляет собой мощную систему обработки информации, исследователи центра сделали упор на развитие методов, использующих эту врожденную способность. В частности, они адаптированы традиционно используемый для представления структуры файлов древовидный метод визуализации (treemap visualization) для отображения дополнительных информационных измерений, таких как технические метаданные, корреляции файловых форматов и уровни риска для долговременной сохранности. Соответствующая информация определяется с использованием управляемых данными (data driven) методов анализа, реализованных в служебной части системы визуализации. Способы отображения разработаны таким образом, чтобы удовлетворить потребности архивиста в плане сравнения и сопоставления «на лету» различных групп электронных документов. Таким образом, архивист может оценивать результаты, проверять их, запрашивать дополнительную информацию и запускать другие виды анализа.
В одном из базовых методов анализа, разработанном группой, методы сопоставления цепочек (string alignment algorithm) комбинируются с методами обработки текстов на естественном языке (оба этих метода пришли из биологии). Это метод, применённый к названиям директорий и правилам именования дел, помогает архивистам определить, каким образом организован массив документов - по похожим названиям, по дате, по географическому местоположению, в последовательном порядке, или и использованием любой комбинации перечисленных способов.
Ещё один разрабатываемый метод анализа вычисляет степень сходства параграфов текста, и использует методы кластеризации для автоматического обнаружения «историй» в больших коллекциях сообщений электронной почты. Эти «истории», образованные сообщениями, относящимися к одному виду деятельности или к одной операции, могут стать «точками доступа» к большим коллекциям, которые невозможно исследовать вручную.
Для анализа объёмов данных порядка нескольких терабайт и более (1 терабайт = 1024 гигабайт – Н.Х.), исследователи распределяют данные и вычислительные задачи по многочисленным узлам высокопроизводительной вычислительной системы Техасского центра «Longhorn» - кластера для анализа и визуализации данных, финансируемого NSF. Это позволяет намного ускорить решение вычислительных задач, которые, в противном случае, потребовали бы гораздо большего времени при их выполнении на стандартных рабочих станциях.
«Признаваемые на национальном уровне высокопроизводительные суперкомпьютеры центра TACC - это прекрасные национальные инвестиции», говорит Чеддак. «Понимание того, как такие системы могут быть эффективно использованы, лежит в основе нашего сотрудничества с TACC».
Остается, однако, вопрос, смогут ли архивисты и общественность адаптироваться к абстрактным представлениям данных, предлагаемым центром TACC.
По словам Марии Эстевы, «Выяснение того, являются ли предлагаемое представление и абстракции данных осмысленными для ведущих анализ архивистов; дадут ли они архивистам четкое и полное представление о коллекции – это фундаментальный элемент нашего исследования».
По ходу исследований группа TACC стремилась получить обратную связь от архивистов и специалистов по работе с информацией из Техасского университета, а также от общественности города Остин (Austin).
«Исследования затрагивают многие проблемы, связанные с осознанием сложностей при обеспечении сохранности больших и разнообразных электронных коллекций», говорит Дженнифер Ли (Jennifer Lee), библиотекарь отделения Техасского университета в г. Остин. «Возможность оценить различные характеристики и сравнить отдельные атрибуты файлов в масштабах обширной коллекции является настоящим прорывом».
Совместный проект Национальных Архивов и Техасского центра перспективных вычислительных методов был отмечен Белым домом в его докладе Конгрессу в качестве приоритетного национального проекта в рамках федерального ИТ-бюджета на 2011 год. Исследователи представили результаты своей работы на 6-й Международной конференции по курированию электронных коллекций (International Digital Curation Conference), и на конференции по электронным библиотекам 2010 года (Joint Conference on Digital Libraries).
По мере того, как коллекции данных становятся всё больше, растёт потребность в новых способах отображения и интерактивного взаимодействия с данными. В настоящее время, TACC создает трансформируемый сенсорный мультитач-дисплей (multi-touch - умеющий одновременно работать с несколькими точками касания – Н.Х.) для повышения интерактивности и поддержки коллективной работы в ходе архивного анализа. Новая система даст возможность нескольким пользователям одновременно изучать данные в ходе обсуждения их значения.
«То, что сегодня исследуется в TACC, в конечном итоге будет интегрировано в киберинфраструктуру страны, после чего станет общедоступным и общераспространенным», подчёркивает Чеддак. «Поэтому результаты исследований TACC я считаю «окном», позволяющим увидеть контуры архивов будущего».
Аарон Дубров (Aaron Dubrow)
Мой комментарий: Статья, на мой взгляд, отчасти наивная – это уже не первая попытка создания искусственного интеллекта/экспертной системы/и т.п., которые могли бы заменить специалиста-профессионала и его опыт и знания предметной области. До сих результаты таких попыток были довольно скромными. Вот и в данном случае, например, непонятно, чем может помочь архивисту приведенная в тексте картинка - не считая, конечно, презентаций для высокого начальства, в попытке изумить/напугать его и выбить себе лишнюю копеечку на обеспечение сохранности фондов :) .
Однако проблема поставлена правильно – очень скоро объемы документов и информации станут такими, что о ручной полистной работе с документами будет бессмысленно даже и думать. Уже сейчас нужно искать новые подходы, новые инструменты – причем, я убеждена, нужно не ограничиваться разработкой алгоритмов и программ, но и находить новые правовые и организационные решения.
Американцы молодцы – они инвестируют средства в поисковые исследования, и, рано или поздно, какие-то приемлемые решения будут найдены.
Источник: сайт LiveScience
http://www.livescience.com/13406-glimpse-archives-future-bts-110325.html
Взгляд на фонды Геологической службы США (U.S. Geological Survey) с точки зрения обеспечения долговременной сохранности документов, с учетом разнообразия файловых форматов. Цвета на диаграмме соответствуют различным уровням риска для сохранности файлов. Авторы визуализации: Мария Эстева (Maria Esteva) , Сю Вейдья (Weijia Xu), Сьог Датт Джейн (Suyog Dutt Jain) и Варун Джейн (Varun Jain).
Как архивисту понять взаимосвязи, существующие между миллиардами документов, как отыскать единственный нужный документ в море данных? По мере стремительного распространения электронных документов, стоящие перед архивистами задачи усложнились. Данная проблема особенно остро стоит перед Национальными Архивами США (National Archives and Records Administration, NARA) – государственным органом, отвечающим за управление и сохранение исторических документов нации.
В конце срока полномочий администрации президента Джорджа Буша в 2000 году, в Национальные Архивы поступило примерно в 35 раз больше данных, чем ранее было получено от администрации Клинтона, которая, в свою очередь, передала NARA многократно больше данных, чем предшествующие администрации. Учитывая, что федеральное правительство всё более активно использует социальные сети, облачные вычисления и другие технологии в интересах «открытого правительства», эта тенденция вряд ли изменится. По оценкам Национальных Архивов, в них к 2014 году накопится более 35 петабайт данных (1 петабайт = 1 миллион гигабайт) в виде электронных документов.
По словам Роберта Чеддака (Robert Chadduck), исполняющего обязанности директора Центра перспективных систем и технологий Национальных Архивов (Center for Advanced Systems and Technologies, CAST), «Национальный архив является уникальным национальным институтом, удовлетворяющим потребности в обеспечении сохранности, доступа и дальнейшего использования государственных документов» (В последнее время, до своего ухода на пенсию, директорам CAST был Кеннет Тибодё, см. http://rusrim.blogspot.com/2011/01/blog-post_08.html - Н.Х.)
В поисках инновационных и масштабируемых решений для крупномасштабных коллекций электронных документов, Чеддак обратился в финансируемый Национальным научным фондом (National Science Foundation, NSF) Техасский центр перспективных вычислительных методов (Texas Advanced Computing Center, TACC), чтобы воспользоваться опытом электронного архивиста центра Марии Эстевы (Maria Esteva) и эксперта в области анализа данных Сю Вейдья (Weijia Xu).
«Для того, чтобы государство и нация могли эффективно реагировать на все требования, связанные с очень большими коллекциями электронных документов, необходимы перспективные методы и средства, заложенные именно в такой тип киберинфраструктуры, который сейчас разрабатывается в TACC», отмечает Чеддак.
После консультаций с Национальными Архивами относительно их потребностей, члены группы TACC по анализу данных и информации разработала многосторонний подход, в котором различные методы анализа объединяются в рамках оболочки для визуализации результатов. Визуализация служит «мостом» между архивистом и данными, интерактивно отображая информацию с использованием форм и цветов, для того, чтобы облегчить понимание структуры и содержания архива.
Архивисты тратят немало времени на определение способа организации, контента и характеристик коллекций, чтобы описать их и тем самым сделать доступными для общественности. «Этот процесс включает в себя набор стандартных методов и опирается на многолетний опыт архивиста», говорит Сю. «Для решения этой задачи в отношении крупномасштабных электронных коллекций, мы разрабатываем технологии, в которых вычислительные мощности сочетаются со знаниями в предметной области».
Зная, что у человека визуальное восприятие представляет собой мощную систему обработки информации, исследователи центра сделали упор на развитие методов, использующих эту врожденную способность. В частности, они адаптированы традиционно используемый для представления структуры файлов древовидный метод визуализации (treemap visualization) для отображения дополнительных информационных измерений, таких как технические метаданные, корреляции файловых форматов и уровни риска для долговременной сохранности. Соответствующая информация определяется с использованием управляемых данными (data driven) методов анализа, реализованных в служебной части системы визуализации. Способы отображения разработаны таким образом, чтобы удовлетворить потребности архивиста в плане сравнения и сопоставления «на лету» различных групп электронных документов. Таким образом, архивист может оценивать результаты, проверять их, запрашивать дополнительную информацию и запускать другие виды анализа.
В одном из базовых методов анализа, разработанном группой, методы сопоставления цепочек (string alignment algorithm) комбинируются с методами обработки текстов на естественном языке (оба этих метода пришли из биологии). Это метод, применённый к названиям директорий и правилам именования дел, помогает архивистам определить, каким образом организован массив документов - по похожим названиям, по дате, по географическому местоположению, в последовательном порядке, или и использованием любой комбинации перечисленных способов.
Ещё один разрабатываемый метод анализа вычисляет степень сходства параграфов текста, и использует методы кластеризации для автоматического обнаружения «историй» в больших коллекциях сообщений электронной почты. Эти «истории», образованные сообщениями, относящимися к одному виду деятельности или к одной операции, могут стать «точками доступа» к большим коллекциям, которые невозможно исследовать вручную.
Для анализа объёмов данных порядка нескольких терабайт и более (1 терабайт = 1024 гигабайт – Н.Х.), исследователи распределяют данные и вычислительные задачи по многочисленным узлам высокопроизводительной вычислительной системы Техасского центра «Longhorn» - кластера для анализа и визуализации данных, финансируемого NSF. Это позволяет намного ускорить решение вычислительных задач, которые, в противном случае, потребовали бы гораздо большего времени при их выполнении на стандартных рабочих станциях.
«Признаваемые на национальном уровне высокопроизводительные суперкомпьютеры центра TACC - это прекрасные национальные инвестиции», говорит Чеддак. «Понимание того, как такие системы могут быть эффективно использованы, лежит в основе нашего сотрудничества с TACC».
Остается, однако, вопрос, смогут ли архивисты и общественность адаптироваться к абстрактным представлениям данных, предлагаемым центром TACC.
По словам Марии Эстевы, «Выяснение того, являются ли предлагаемое представление и абстракции данных осмысленными для ведущих анализ архивистов; дадут ли они архивистам четкое и полное представление о коллекции – это фундаментальный элемент нашего исследования».
По ходу исследований группа TACC стремилась получить обратную связь от архивистов и специалистов по работе с информацией из Техасского университета, а также от общественности города Остин (Austin).
«Исследования затрагивают многие проблемы, связанные с осознанием сложностей при обеспечении сохранности больших и разнообразных электронных коллекций», говорит Дженнифер Ли (Jennifer Lee), библиотекарь отделения Техасского университета в г. Остин. «Возможность оценить различные характеристики и сравнить отдельные атрибуты файлов в масштабах обширной коллекции является настоящим прорывом».
Совместный проект Национальных Архивов и Техасского центра перспективных вычислительных методов был отмечен Белым домом в его докладе Конгрессу в качестве приоритетного национального проекта в рамках федерального ИТ-бюджета на 2011 год. Исследователи представили результаты своей работы на 6-й Международной конференции по курированию электронных коллекций (International Digital Curation Conference), и на конференции по электронным библиотекам 2010 года (Joint Conference on Digital Libraries).
По мере того, как коллекции данных становятся всё больше, растёт потребность в новых способах отображения и интерактивного взаимодействия с данными. В настоящее время, TACC создает трансформируемый сенсорный мультитач-дисплей (multi-touch - умеющий одновременно работать с несколькими точками касания – Н.Х.) для повышения интерактивности и поддержки коллективной работы в ходе архивного анализа. Новая система даст возможность нескольким пользователям одновременно изучать данные в ходе обсуждения их значения.
«То, что сегодня исследуется в TACC, в конечном итоге будет интегрировано в киберинфраструктуру страны, после чего станет общедоступным и общераспространенным», подчёркивает Чеддак. «Поэтому результаты исследований TACC я считаю «окном», позволяющим увидеть контуры архивов будущего».
Аарон Дубров (Aaron Dubrow)
Мой комментарий: Статья, на мой взгляд, отчасти наивная – это уже не первая попытка создания искусственного интеллекта/экспертной системы/и т.п., которые могли бы заменить специалиста-профессионала и его опыт и знания предметной области. До сих результаты таких попыток были довольно скромными. Вот и в данном случае, например, непонятно, чем может помочь архивисту приведенная в тексте картинка - не считая, конечно, презентаций для высокого начальства, в попытке изумить/напугать его и выбить себе лишнюю копеечку на обеспечение сохранности фондов :) .
Однако проблема поставлена правильно – очень скоро объемы документов и информации станут такими, что о ручной полистной работе с документами будет бессмысленно даже и думать. Уже сейчас нужно искать новые подходы, новые инструменты – причем, я убеждена, нужно не ограничиваться разработкой алгоритмов и программ, но и находить новые правовые и организационные решения.
Американцы молодцы – они инвестируют средства в поисковые исследования, и, рано или поздно, какие-то приемлемые решения будут найдены.
Источник: сайт LiveScience
http://www.livescience.com/13406-glimpse-archives-future-bts-110325.html
Комментариев нет:
Отправить комментарий