понедельник, 16 марта 2015 г.

Дэвид Розенталь: О Международной конференция по курированию электронных данных IDCC15


Заметка Дэвида Розенталя (David Rosenthal – на фото) была опубликована на его блоге (DSHR's Blog) 3 марта 2015 года.

Известный американский специалист, сотрудник Библиотеки Стенфордского университета д-р Розенталь был одним из инициаторов проекта LOCKSS (от Lots of Copies Keep Stuff Safe - «Множество копий гарантирует сохранность»), осуществляемого Стенфордским университетов с целью создания системы с открытым кодом, позволяющей библиотекам собирать, сохранять и предоставлять читателям доступ к материалам, опубликованным в Интернете. В настоящее время он занимается в рамках проекта экономическими моделями обеспечения долговременной сохранности электронных материалов.

Я не смог присутствовать на 10-й Международной конференция по курированию электронных данных IDCC2015 (International Digital Curation Conference, http://www.dcc.ac.uk/events/idcc15 ), которая прошла 9-12 февраля 2015 года в Лондоне, но я постарался наверстать упущенное, используя выложенные в Интернете презентации, см. http://www.dcc.ac.uk/events/idcc15/programme-presentations . Ниже приведены мои впечатления о некоторых из них.

Открывший конференцию пленарный доклад Тони Хея (Tony Hey) – это путешествие на 84-слайда (см. http://www.dcc.ac.uk/sites/default/files/documents/IDCC15/Presentations%20Day%201/%28Feb15%29%20TonyHey%20-%20Data%20Curation%20talk%20%28final%29.pdf ) через последнее десятилетие электронной науки, включающий тревожные наблюдения, не соответствующие обычному розово-оптимистичному взгляду на этот вопрос. Многие из слайдов представляют собой хорошо подобранные цитаты. Особенно злободневными являются следующие три из них:
  • Майкл Курц (Michael Kurtz, из совместного проекта НАСА и Смитсоновского института «Система астрофизических данных» - Astrophysics Data System, ADS, см. слайд 19): «Проблема с курированием заключается в том, что финансирование почти полностью идёт из местных источников, а используется информация в электронно-цифровом мире в основном глобально. Это ведёт к  трагедии сообществ, в которых никто не захочет взять на себя долгосрочные обязательства по курированию и управлению теми данными, которые в основном происходят не из местных источников»;

  • Джеймс Фрю (James Frew из университета Калифорнии в Санта-Барбаре, UCSB, см. слайд 47): «Первый закон Фрю гласит: Ученые не заполняют метаданные. Второй закон Фрю: Любого ученого можно вынудить вводить плохие метаданные».

  • Майкл Леск (Michael Lesk, университет Рутгерс - Rutgers University, см. слайд 82): «Большая часть затрат на архивацию совершается в начале, до того, как мы узнаем, будут ли читаться статьи или использоваться данные. Не имея соответствующих данных, не вкладываясь эмоционально в процесс рецензирования, может быть легче организовать какую-то более простую форму депозитарного хранения, когда всё по максимуму откладывается до того момента, когда данные будут востребованы. Существует, конечно, определённый риск того, что, используя такого рода подход, мы спустя несколько лет окажемся один-на-один с таким набором данных, который лучше бы курировался тогда, когда ещё жив был его создатель. И чем дольше данные не используются, тем больше вероятность того, что они никогда не будет использоваться». ( http://www.scilogs.com/the_fourth_paradigm/encouraging-scientific-data-use-michael/ )
На слайде: система британских электронных библиотек.

Больше всего мне понравились доклады членов команды веб-архивации Британской библиотеки. Завершающий пленарный доклад Хелен Хокс-Юи (Helen Hockx-Yu, см. http://www.dcc.ac.uk/sites/default/files/documents/IDCC15/Presentations%20Day%202/IDCC_HHY_Finalv2.pdf ) рассказывает о первых десяти годах программы, в том числе о начале приема в электронном виде обязательных экземпляров материалов, не печатавшихся на бумаге. Мне всегда нравилось, как стратегия Британской библиотеки использует распределенный характер британской системы хранения обязательных экземпляров для реализации подхода «Множество копий гарантирует сохранность» (Lots of Copies Keep Stuff Safe, LOCKSS) (хорошо, всего четыре копии, но это всё равно намного больше, чем у большинства остальных).

Часть веб-архива Британской библиотеки, – материалы, на которых библиотека получила разрешение владельцев сайтов, - находится в свободном доступе. Основная же часть, в том числе сайты британского домена, собранные во время компаний архивации в 2013 и 2014 году, доступна только на территории библиотеки. В обоих случаях поддерживается полнотекстовой поиск.

На слайде: Визуализация перекрестных ссылок между сайтами 1996 года (см. также http://britishlibrary.typepad.co.uk/webarchive/2013/07/using-open-data-to-visualise-the-early-web.html ).

Энди Джексон (Andy Jackson, см. http://www.dcc.ac.uk/sites/default/files/documents/IDCC15/Presentations%20Day%202/B3/IDCC15-UKWA-Open-Data.pdf ) в своём кратком докладе пояснил, что, хотя из-за связанных с авторскими правами ограничений Британская библиотека не может выложить большинство своих веб-коллекций в свободном доступе, она может и должна (как она это делала всегда) обеспечить свободный доступ к соответствующим метаданным в формате «открытых данных» (см. http://data.webarchive.org.uk/opendata/ ). Он продемонстрировал этот пример визуализации перекрестных ссылок между сайтами 1996 года, а в слайдах Хелен есть масса других интересных примеров того, каким образом заархивированные веб-материалы могут анализироваться и использоваться учеными.

Л.Боликовски (Ł.Bolikowski), А.Новински (A.Nowiński) и В.Сильвестржак (W.Sylwestrzak) из Варшавского университета рассказали (см.  http://www.dcc.ac.uk/sites/default/files/documents/IDCC15/Presentations%20Day%202/B1/20150210-bolikowskiB1.pdf ) об еще одном варианте потенциального применения для используемой в криптовалютах blockchain-технологии для выпуска постоянных идентификаторов. Хотя их предложение является технически возможным, их доклад не дает ответ ни на один из вопросов, из-за которых я сомневаюсь в том, что технология blockchain являются «решением всех проблем» (см. http://blog.dshr.org/2015/01/a-solution-to-everything.html ).

Мэтью Аддис (Matthew Addis, см. http://www.dcc.ac.uk/sites/default/files/documents/IDCC15/Presentations%20Day%201/IDCC_Arkivum_Demo_v5%20-%20DATA%20ARCHIVING.pdf ) отлично прорекламировал сервис Arkivum для управления научно-исследовательскими данными. Arkivum до 2023 является поставщиком услуг для британской программы архивирования «Джанет» (Janet Data Archiving Framework, см. https://www.ja.net/products-services/janet-cloud-services/data-archiving-framework ). Сервис интересен и необычен тем, что берет на себя материальную ответственность за сохраняемые данные, см. http://arkivum.com/general-terms-and-conditions/ . Я надеюсь в ближайшие дни найти время для того, чтобы написать на блоге заметку об этом аспекте данного сервиса.

Дэвид Розенталь (David Rosenthal)

Источник: DSHR's Blog
http://blog.dshr.org/2015/03/idcc15.html 

Комментариев нет:

Отправить комментарий