четверг, 31 мая 2018 г.

Электронная архивация: «Контекст – это наше всё», часть 2


(Окончание, начало см. https://rusrim.blogspot.com/2018/05/1_30.html )

«Мы будем изучать новые возможности для контекстуального описания»

У нас есть замечательные возможности для переосмысления того, как мы устанавливаем интеллектуальный контроль с использованием современных технологий в условиях, когда расширяется приём на хранение намного более насыщенных документов, с встроенной прямо в их структуру информацией о том, как они создавались и использовались. Хорошим примером тому являются сообщения электронной почты: каждое сообщение включает в себя обширную информацию о взаимосвязях и цепочках, о датах взаимодействия, о получателях и т.д.

Нам нужно не упустить возможности для захвата как можно большего количества сведений о контексте (при этом по-прежнему сохраняя для всего набора данных контекстную информацию о его ответственном хранении, которая поступает от источника комплектования в определенный момент времени). И нам нужно больше думать о компьютерных моделях, которые мы создаем для поддержки проведения экспертизы ценности и отбора документов. Мы начинаем разрабатывать системы машинного обучения, которые помогут нам в процессе отбора. В свою очередь информация о том, как эти системы разрабатываются и создаются, станет теперь важным элементом контекста, раскрывающим, почему некоторые электронные активы были сохранены, а другие - нет. Интересно, сколько же сведений пользователи захотят получить о системе, которая использовалась для выявления и отбора тех самых документов, которые им предоставлены?

«Мы будем изучать вопрос о том, как наилучшим образом управлять неопределенностью в наших данных о документах»

К настоящему моменту мы начали прием на хранение того, что рассматриваем как «первое поколение» электронного контента – это изначально-электронные документы, электронные суррогаты и оцифрованные документы (фактически, это электронные версии бумажных документов). Однако сейчас мы сталкиваемся с наплывом «необъезженного» второго поколения изначально-электронного контента, который уже накапливается в государственных ведомствах – с электронным «Диким Западом», где мы больше уже не можем полагаться на традиционные опоры в виде надежной аутентичности или ясности вопроса о том, кто создал документ, о его временных рамках и согласованности формата. Вероятно, будет чрезвычайно сложно обуздать эти не подчиняющиеся законам данные в рамках структур традиционного онлайн-каталога.

Когда мы используем контекстуальную информацию, которая была сгенерирована компьютером, мы не можем гарантировать ее абсолютную достоверность или релевантность. Возможно проникновение в метаданные определенных «ложных новостей» (fake news). Например, Вы может знать «дату последнего изменения» для документа, но какова вероятность того, что именно тогда файл действительно был последний раз существенно изменён? Такого рода знания о чём-либо мы можем отразить, используя «вероятностное описание» (probabilistic description).
«Практики каталогизации электронных документов в Национальных Архивах» (Digital Cataloguing Practices at The National Archives), март 2017, http://www.nationalarchives.gov.uk/documents/digital-cataloguing-practices-march-2017.pdf

«Вероятностное описание признает прозрачным образом то, что данные несовершенны и что в них присутствует неопределенность. Мы рассматриваем введение в наши будущие метаданные для изначально-электронных и других документов показателей уверенности (confidence ratings)».
Нам также необходимо принять во внимание то, что люди могут пожелать изучать совокупности электронных документов, а не отдельные документы, и это повлияет на информацию, которая им будет нужна о документах. Хотя мы по-прежнему предлагаем нашим «читателям» точку зрения, сфокусированную на отдельных документах, мы также должны делать документы доступными для анализа с применением вычислительных методов, позволяя «пользователям данных» работать с большими массивами документов и ставить исследовательские вопросы очень разных типов.

«Электронные документы могут устанавливать контекст друг для друга»

Есть ряд действительно захватывающих новые возможностей для установления контекста. Широкое распространение электронных документов в государственном управлении было соизмеримо с развитием «всемирной паутины». В настоящее время правительство выкладывает в публичном доступе гораздо больше информации о своей деятельности. Мы захватываем эти материалы в нашем веб-архиве правительства Великобритании ( http://www.nationalarchives.gov.uk/webarchive/ ); и сейчас мы приближаемся к очень интересному моменту, когда мы сможем начать контекстуализацию электронных документов на основе тех подробных сведений о себе, которыми государственные органы делились в Интернете в соответствующие периоды времени. И, конечно же, существуют другие веб-архивы, которые дают более широкий контекст того, что происходило в Интернете - и в мире - в это время.

Внезапно у нас появится возможность контекстуализировать каждый документ в рамках множества документов, содержащихся в глобальной развернутой информационной системе. Нам нужно будет спланировать, как образом мы могли бы с этой целью установить связи с другими веб-архивами и учреждениями, занимающимися сохранением культурно-исторической памяти.

Использовать преимущества «интертвингулярности»

Мой комментарий: Как объясняет Википедия, термин «интервингулярность», придуманный американским ИТ-пионером, философом и социологом Тедом Нельсоном (Ted Nelson), выражает сложность взаимосвязей человеческого знания (см. http://ru.knowledgr.com/00203928/Intertwingularity ), и искусственность и неэффективность попыток как-то его структурировать в виде относительно простых последовательных или иерархических структур. Конечно, можно было бы придумать термин попроще, типа «неразделимости знания», но это было бы неинтересно! :)

Традиционный архивный каталог является иерархическим по структуре: до сих пор иерархия и структура были ключевыми элементами при предоставлении архивного контекста.

В «перевязанном» гиперссылками мире богатство контекста - интеллектуального контроля - намного больше, чем мы традиционно способны были достичь. Мы вступаем в эпоху, когда архивы смогут использовать преимущества того, что философ и социолог Тед Нельсон назвал «интертвингулярностью» (intertwingularity, https://en.wikipedia.org/wiki/Intertwingularity ):
Тед Нельсон (Ted Nelson) «Компьютерная библиотека: Ты можешь и должен понять компьютеры сейчас / Машины мечты: Новые свободы через экраны компьютеров – отчет меньшинства» (Computer Lib: You can and must understand computers now/Dream Machines: New freedoms through computer screens - a minority report’), 1974 год

«Всё глубоко переплетено и тесно взаимосвязано. В существенном смысле, «научных дисциплин» нет вообще; есть лишь единое знание, поскольку перекрестные связи между бесчисленными вопросами этого мира просто невозможно аккуратно отделить.»
Различные виды информации могут контекстуализировать друг друга. Карта окружной железной дороги, 1898 г. Код по каталогу RAIL 1034/69

Знания и информация о наших активах, которые пользователи в состоянии собрать воедино, находятся на грани того, чтобы стать неизмеримо более объёмными и детальными.

Нам в Национальных Архива предстоит проделать большую работу, чтобы быть уверенными в своей готовности справиться с богатством и сложностью направляющегося в нашу сторону прилива информации, - а также в том, что мы сможем обеспечить уровень интеллектуального контроля, на который будут рассчитывать наши пользователи. Это захватывающий вызов, и к настоящему времени нам удалось добиться впечатляющего прогресса по ряду направлений.

Если Вы работаете в этой области, или у Вас есть интерес к какой-либо из тем, затронутых в этом посте, мы будем рады услышать Ваше мнение. Пожалуйста, оставьте комментарий на блоге или напишите нам по адресу discovery@nationalarchives.gov.uk .

Джон Шеридан (John Sheridan)

Источник: Блог Национальных Архивов Великобритании
http://blog.nationalarchives.gov.uk/blog/digital-archiving-context-everything/

Комментариев нет:

Отправить комментарий