четверг, 5 января 2017 г.

Обсуждение проблем электронной сохранности на встрече членов группы PASIG в Нью-Йорке


Заметка Элис Сары Прёль (Alice Sara Prael – на фото) была опубликована 16 декабря 2016 года на блоге bloggERS!, который ведёт секция электронных документов Общества американских архивистов (SAA). Элис работает архивистом – специалистом по комплектованию изначально-электронными материалами в библиотеке редких книг и манускриптов им. Бейнеке (Beinecke Rare Book and Manuscript Library) Йельского университета. 

В октябре этого года в Музее современного искусства Нью-Йорка прошла встреча членов специальной тематической группы по вопросам обеспечения сохранности и архивации (Preservation and Archiving Special Interest Group, PASIG, http://www.pasignyc.org/  – независимого от поставщиков сообщества, целью которого является обмен открытыми компьютерными решениями и передовым опытом, уроками, извлеченными из успехов и неудач, а также выявление возможностей для сотрудничества – Н.Х.). Группа PASIG объединяет представителей соответствующего международного сообщества с тем, чтобы делиться успехами и проблемами в области электронной сохранности, с акцентом на практических приложения и решения.

Конференция, которая продолжалась три дня, началась с дня сессий по программе «Bootcamp 101» (название говорит о том, что это обучающие семинары, рассчитанные на студентов и молодых специалистов, типа «курса молодого бойца» – Н.Х.), направленных на быстрое ознакомление участников с тем, что именно мы сохраняем, и какими путями можно создавать инфраструктуры, поддерживающие электронную сохранность. К сожалению, я смогла прибыть на встречу лишь во второй день, но многие из презентаций первого дня выложены в Интернете, и с ними можно познакомиться на странице  на странице https://pasignyc.figshare.com/ .

Мой комментарий: В частности, презентация Тома Крамера (Tom Cramer), см. https://figshare.com/articles/Digital_Preservation_in_Theory_and_Practice/4141668 (прямая ссылка https://ndownloader.figshare.com/files/6780882 ) содержит ряд известных и не очень известных примеров утраты электронных архивных материалов.

Я прибыла на встречу в четверг утром, готовая окунуться в утро, наполненное докладами и круглыми столами по воспроизводимости и научно-исследовательским данным. Первым шёл доклад Вики Стивз (Vicky Steeves), в котором объяснялось существенное отличие воспроизводимости от репликации, особенно важное для тех из нас, у кого невелик опыт работы с научно-исследовательскими данными:  «Воспроизводимость обеспечивает независимое подтверждение результатов на основе тех же исходных данных (и/или с использованием того же кода). Репликации обеспечивает независимое подтверждение результатов на основе новых данных (и/или кода)».

Стивз отметила, что проблемы воспроизводимости на деле представляют собой верхушку айсберга, поскольку среда, в которой выполнялись исследования, часто остается незамеченной - особенно в технологической среде, где инструменты исследования могут опираться на конкретную версию браузера, аппаратных или программных средств. Эти инструменты могут быть обновлены или же измениться так, что это не сразу будет заметно.

Одно из возможных решений этой проблемы было представлено Фернандо Чиригати (Fernando Chirigati) из Нью-Йоркского университета. Он рассказал об инструменте ReproZip, который позволяет исследователю упаковать вместе файлы данных, библиотеки и параметры среды. Во время проведения эксперимента ReproZip работает в фоновом режиме и документирует параметры и технологические зависимости, которые понадобятся будущим исследователям для воспроизведения эксперимента в последующее время, когда инструменты и браузеры уже могут измениться. Упакованные данные и параметры среды могут быть заархивированы, а впоследствии распакованы с помощью ReproZip для будущего использования.

Питер Бранхилл (Peter Brunhill) из Университета Эдинбурга и Рейчел Трент (Rachel Trent) из библиотеки университета Джорджа Вашингтона оба затронули проблему воспроизведения научных исследований, которые опираются на веб-ресурсы. В докладе Бранхилла «Нынешний веб-контент завтра может уйти в небытие» (Web Today, Gone Tomorrow) основное внимание было сосредоточено на нежизнестойкость веб-адресов, а также на необходимость постоянных усилий по обеспечению сохранности выложенных в сети статей и других академических ресурсов. Следующие данные дают представление  о масштабах этой проблемы: 20-30% цитируемых URL-адресов перестают работать через 2 недели с момента публикации. Бранхилл представил проект Hiberlink, задачей которого является найти закрывающие данную проблему решения посредством партнерств с научными издательствами.

В докладе Рейчел Трент «Документирование демографического воображения» (Documenting the Demographic Imagination) обсуждалась проблема сохранения данных социальных сетей с целью обеспечения воспроизводимости исследований. С учетом непрерывной миграции с одних социальных платформ на другие (скажем, с MySpace на Facebook, с него на Twitter и т.д.), архивист не может рассчитывать на то, что будущие исследователи будут понимать основные принципы функционирования этих сайтов. Трент рассказала об использовании средств менеджмента для социальных сетей и программ-сборщиков веб-контента для автоматизации сбора данных из социальных сетей, отметив, какие метаданные могут быть автоматически извлечены с помощью этих инструментов. Трент и ее группа хотят теперь получить отзывы и предложения от сообщества (см. их документ  https://docs.google.com/document/d/1Eq42SHMwPyXj0r-0tKUC4wflHVRaTHMaeKWAgvCcV3o ) о том, каких недостает метаданных для социальных сетей, и как исследователи собираются использовать эти метаданные (в данном документе, в частности, приводятся любопытные сведения о том, какие метаданные могут быть захвачены вместе с твитом при использовании API – Н,Х,).

После короткого обеденного перерыва, мы нырнули в проблемы сохранения сложных и очень больших по объёму данных. Карен Кариани (Karen Cariani) рассказала о медиа-библиотеке и архивах публичного вещания WGBH (американская вещательная компания, базирующаяся в Бостоне, Кариани возглавляет её медиа-библиотеку и архив – Н.Х.). При работе с аудио- и видеофайлами, потребности в обеспечении долговременной сохранности значительны, а объём используемых для этих целей несжатых мастер-копий очень велик. Файловые форматы сложны и для целей доступа приходится создавать суррогаты (прокси-файлы). Кариани рассказала о том, как для решения этой проблемы использовался проект HydraDAM2 (подробнее об этом проекте см. http://www.avalonmediasystem.org/blog-post/hydradam2 - Н.Х.), путем расширения возможностей системы HydraDAM для работы с хранилищем Fedora 4 и создания «головы» «Гидры» для сохранения электронных аудиовидеоматериалов.

Бен Фино-Радин (Ben Fino-Radin) продолжил тему решения масштабных проблем электронной сохранности, затронув вопрос о создании рабочих процессов для оцифрованных динамических медиаколлекций (time-based media holdings) Музея современного искусства (МоМА). В электронном хранилище для ввода материалов в систему используется система Archivematica; для хранение - решение Arkivum; а для управления электронными активами – программное обеспечение Binder. Один 120-минутный фильм в разрешении 4K (т.е. с горизонтальным разрешением порядка 4000 пикселей и вертикальным – порядка 2000 пикселей – Н.Х.) содержит 4 терабайта данных, поэтому рабочие процессы и системы для управления такими файлами должны проходить быстро и эффективно. Это также означает, что МоМА должен эффективно устанавливать  приоритеты при проведении работ по оцифровке.

В третий день встречи основное внимание уделялось жизнестойкости (sustainability), не только в смысле поддержания нашего культурного и научного наследия посредством усилий в плане электронной сохранности; но также поддержания нашей планеты и сообществ. Эйра Тенси (Eira Tansey) из Университета Цинциннати отметила очевидный, но редко обсуждаемый момент: архивы потребляют энергию, особенно электронные  архивы. Она призвала аудиторию подумать о энергозатратах, необходимых для обеспечения сохранности в рамках повседневной работы в архиве. Некоторые распространенные практики электронной сохранности могут расточительно использовать ресурсов – например, сохранение каждого производного файла в случае миграции из одного формата в другой, или отношение к использованию методов сжатия файлов как к врагу электронной сохранности. Она выложила в Интернете полный текст своего выступления, называвшегося «Голос вопиющего в пустыне: Обеспечение сохранности в Антропоцене» (The Voice of One Crying Out in the Wilderness: Preservation in the Anthropocene, http://eiratansey.com/2016/10/28/pasig-2016-talk-text/ ). (А ведь сколько ценных ресурсов можно было бы сэкономить, не выкладывая этот материал, а лучше, вообще его не сохраняя! :) – Н.Х.)

Эльвия Арройо-Рамирес (Elvia Arroyo-Ramirez), специалист по архивной обработке Коллекции латиноамериканских манускриптов Принстонского университет, выступила с докладом «Невидимые умолчания и ощущаемые ограничения: Обработка дел Хуана Гельмана» (Invisible Defaults and Perceived Limitations: Processing the Juan Gelman Files,  https://medium.com/on-archivy/invisible-defaults-and-perceived-limitations-processing-the-juan-gelman-files-4187fdd36759 ). Она рассказала о том, как в используемых нами системах запрятаны предубеждения их создателей, указывая в качестве примера на системы, которые требуют «чистить» имена файлов и удалять из них «недопустимые символы», в число которых попадают диакритические знаки испанского языка. При работе с изначально-электронной коллекцией, созданной не на английском языке, эти символы  имеют очень важное значение для понимания документов. Она задала сообществу вопрос о том, как мы могли бы повлиять на то, чтобы используемые нами инструменты и технологии соответствовали нашей миссии по обеспечению сохранности документов и соблюдению принципа «не навреди».

Конференция завершилась выступлением Ингрид Баррингтон (Ingrid Burrington), которая не является ни архивистом, ни специалистом по электронной сохранности. Сама она считает себя писателем, картографом и юмористом. Она автор «Сетей Нью-Йорка: Иллюстрированного руководства по городской Интернет-инфраструктуре» (Networks of New York:  An Illustrated Field Guide to Urban Internet Infrastructure). Ингрид говорила о  физической инфраструктуре, которая образует Интернет и корпоративные сетевые инфраструктуры, поддерживая их работу. Она рассмотрела социальные сети как генераторы общения, а такие продукты, как «Гугл-карты» (Google Maps) - как силу, способствующую нашему пониманию географии мира. Компании вроде Google могут в своих продуктах искажать реальность – например, замазывая секретные государственные объекты или собственные центры обработки данных. Корпоративные интересы не всегда совпадают с потребностями общественности.

Подобная смена перспективы стала отличным завершением конференции, выведя нас из наших технических зон комфорта и заставив аудиторию задуматься над тем, что усилия в области электронной сохранности могут иметь более значительные, а иногда и более  тяжкие последствия, чем мы можем себе представить.

Элис Сары Прёль (Alice Sara Prael)

Источник: блог bloggERS!
https://saaers.wordpress.com/2016/12/16/digital-preservation-in-nyc/ 

Комментариев нет:

Отправить комментарий