понедельник, 18 мая 2020 г.

Джина Джоунз и 20 лет веб-архивации в Библиотеке Конгресса США


Данное интервью Джины Джоунз (Gina Jones), взятое её коллегой по группе веб-архивации Библиотеки Конгресса США (Web Archiving Team, см. https://www.loc.gov/programs/web-archiving/about-this-program/?locr=blogsig ) Эбби Гротке (Abbie Grotke), была опубликовано на сайте Библиотеки Конгресса США 15 апреля 2020 года в блоге «Сигнал» (The Signal).

В рамках серии статей, в которых мы рассказываем о людях и случаях, имеющих отношение к отмечаемой нами 20-летней годовщине веб-архивации ( https://blogs.loc.gov/thesignal/2020/04/happy-birthday-to-lcwa-celebrating-the-20th-anniversary-of-web-archiving-at-the-library-of-congress/?locr=blogsig ), мы предлагаем Вашему вниманию интервью человека, дольше всех проработавшего в группе веб-архивации – это координатор цифровых проектов Джина Джоунз (Gina Jones). В этом месяце Джина уходит на пенсию после невероятных 18 лет карьеры в Библиотеке Конгресса США, а до того - 20 лет в Корпусе морской пехоты. Мы сожалеем о её уходе, и желаем ей всего наилучшего на безусловно заслуженном отдыхе!

Ниже приведены (слегка отредактированные) ответы Джины на вопросы, которые я задала ей несколько недель назад по электронной почте.

Отмечайте вместе с нами 18-летие работы Джины Джоунз в группе веб-архивации Библиотеки Конгресса! (Фото: Джина Джоунз).

Вопрос: Как долго Вы работаете в группе веб-архивации Библиотеки Конгресса?

Джина Джоунз: Меня приняли на работу в 2002 году, когда я перешла в Библиотеку из Университета Мэриленда (University of Maryland).

Как Вы стали профессионалом в области веб-архивации?

Это была удача. Я подала заявление о приёме на работу в Библиотеку, когда там искали специалиста с моими навыками. Военная служба дала мне опыт управления тактическими группами обеспечения связи и понимание коммуникационных функций телекоммуникационной системы.

Моим первым компьютером стал Apple в 1982 году, и я научилась работать на языке BASIC. Со временем, несмотря на то, что я никогда не посещала компьютерные курсы, я самостоятельно узнала и изучила Интернет и, когда та появилась в сети, «всемирную паутину». Двумя другими достижениями, которыми я горжусь, были: вовлечение в работу в Интернете (Prodigy) моей мамы в начале 90-х годов и развертывание Интернета в центрах обслуживания семей военнослужащих (Family Service Centers) Корпуса морской пехоты США ещё до того, как генералы на базе получили к нему доступ.

Данная служба имеет для семей важнейшее значение, поскольку предоставляет услуги по переходу и переселению посредством поиска возможностей для трудоустройства, а также предоставления информации о местах службы и соответствующих местных условиях.

К моменту окончания военной службы, я получила степень магистра библиотечных наук (MLS), о которой мечтала годами. В период учёбы в Университете штата Мэриленд мне удалось получить должность ассистента-старшекурсника в отделе информационных технологий университета, и моя группа студентов отвечала за поддержку потребностей департаментов и колледжей университета в веб-разработках.

Учитывая совокупность моих веб-навыков, Библиотека наняла меня и включила меня в проект веб-архивации.

Знали ли Вы о веб-архивации до того, как пришли в Библиотеку?

В общем-то, да. Колледж искусств и гуманитарных наук Университета штата Мэриленд «потерял» свои веб-страницы в тот момент, когда Интернет-архив (Internet Archive) ещё только начинал свою деятельность, где-то в 1999 или 2000 годах. Мне было поручено решить проблему, и я использовала то, что Интернет-архив успел захватить, для реконструкции сайта.

Какова была Ваша основная роль в группе веб-архивации?

Я отвечала за внедрение и использование во времени инструментов веб-архивации, таких, как Heritrix, Wayback и Digiboard (инструмент курирования нашей внутренней разработки, ранее известный как Leaderboard), но основное мой внимание было сфокусировано на попытках осознать, что мы сумели получить [в рамках процесса архивирования], чего не получили и почему.

По слухам, Вы были среди первых специалистов, проводивших анализ качества веб-архивов. Не могли бы Вы рассказать нам о том, как первоначально выглядел этот процесс и на что это было похоже?

Это всегда было вопросом понимания того, как работают программы просмотра архива и веб-сканер (crawler). Я могу рассказать о двух классических примерах.

Во-первых, я анализировала качество веб-архива выборов 2002 года (Election 2002 archive,  https://www.loc.gov/collections/united-states-elections-web-archive/?fa=partof:united+states+elections+2002 ), и по ходу этой работы я продолжала сталкиваться с контентом, который в архиве отсутствовал – это были гиперссылки, содержащие пробелы в универсальном идентификаторе ресурса URI. Я попросил нашего тогдашнего подрядчика по веб-сканированию выяснить, имелся ли контент там, куда вели ссылки, и если да, то почему его инструмент Wayback не смог его обработать. Его ответ заключался в том, не следует публиковать контент в Интернете с пробелами в URI.

Для меня это было наглядной демонстрацией того, почему так сложно архивировать интернет-контент: если что-то вообще можно сделать, люди это обязательно сделают. Разработчики, которые поддерживали нашу деятельность в ранний период, само собой, имели дело с Unix-средой, которая не допускает пробелов в именах файлов; однако люди размещали контент в Интернете и с использованием платформ Microsoft, которые допускает пробелы в именах.

Второй пример касается глубины. Я потратила около месяца на изучение результатов архивации веб-материалов, относящихся к деятельности Конгресса США107-го созыва ( https://www.loc.gov/collections/united-states-congressional-web-archive/?fa=subject:united+states.+congress+%28107th%29 ). Мы всегда говорили, что нашей целью является охват веб-сайта в глубину и широту. Просматривая результаты работы веб-сканера, я продолжала сталкиваться с отсутствием в архиве контента, который Библиотека рассматривала как важный для визуализации веб-страниц в будущем, с тем, чтобы сохранить их внешний вид (графические элементы) и восприятие (скрипты и файлы разметки страниц). Сканер не захватывал эти элементы, поскольку был разработан для коммерческих целей, а не для целей архивации, когда документируется, как соответствующая страница выглядела на момент архивации. Это подтолкнуло нас к продвижению идеи разработки международного кураторского решения для веб-архивации, которое бы захватывало все необходимые веб-объекты.

Вы уделяли особое внимание обеспечению адекватной архивации веб-сайтов предвыборных кампаний в ходе выборов в США. Какие самые большие изменения Вы бы отметили в архивации таких сайтов?

Распространение социальных сетей и недорогих / бесплатных веб-платформ обеспечило возможность присутствия в Интернете тем кампаниям, которые были ограничены в средствах. В ранний период покупка доменов и платформ для обслуживания контента обходилась дорого, и весьма продвинутое (на то время) веб-присутствие в первую очередь имели видные кандидаты от Демократической и Республиканской партий. Мы пытались проводить веб-сканирование некоторые ранних сайтов «геогородов» (geocities – ранние предшественники социальных сетей – Н.Х.), но, к сожалению, наш сканер оказался неспособен захватить документы и объекты, необходимые для отображения этих страниц, и их нельзя было показать в составе архивов.

Какие наиболее значимые изменения произошли в веб-архивации с тех пор, как Вы начали ею заниматься?

Владельцы контента становятся всё более осведомленными о веб-архивации и работают с нами «на опережение», если мы сталкиваемся с проблемами в процессе захвата контента. Существует также всё более заинтересованная популяция разработчиков, занимающихся вопросами захвата и воспроизведения, которые становятся всё более сложными по мере совершенствования веб-платформ. И, наконец, изменения за последние годы в возможностях управления процессом получения разрешений позволили значительно увеличить разнообразие и количество сайтов, которые мы можем архивировать.

Какие технические навыки, по Вашему мнению, будут полезны для тех, кто только начинает заниматься веб-архивацией?

Само собой разумеется, мы предполагаем, что эти люди понимают Интернет, поскольку мы используем его уже в течение ряда десятилетий. Со временем наиболее успешные специалисты, работавшие с нами в группе веб-архивации, развили отличные навыки наблюдательности и высокий уровень любопытства в отношении контента.

Хотя любопытство не является техническим навыком, оно, с моей точки зрения, важно для тех, кто проводит исследования или анализ веб-архивов, поскольку, по моему мнению, именно способность подмечать не совсем правильные вещи позволяет успешно проверять качество архивации. Желание узнать ответ на вопрос: «Хмм, почему так происходит?» заставляет специалиста проанализировать дополнительные объёмы контента того же рода, чтобы выяснить, есть ли здесь проблема с веб-сканером или отображением контента, которую можно устранить.

Что Вы считаете самой большой проблемой в веб-архивации?

Полагаю, что самая большая проблема заключается примерно в том же, с чем я столкнулась, когда только начинала. Мне сказали, что «Интернет-архив» архивирует интернет. Однако, когда я посмотрела на их архив и на то, что собирал тот же веб-сканер для наших коллекций, обнаружились зияющие дыры в контенте, поскольку сканер был разработан для конкретной бизнес-модели [Alexa Internet], в рамках которой важен был лишь текст. К счастью, в 2003 году международное сообщество специалистов в области веб-архивации ( http://netpreserve.org/ ) объединило усилия, и к 2004 году мы смогли запустить «кураторский» веб-сканер Heritrix.

Так что в наших архивах имеется немало веб-страниц, для которых отсутствуют графические изображения и/или иные элементы контента, необходимые для воспроизведения первоначального внешнего вида и функциональности сайта, особенно в те ранние годы. И, конечно же, по мере ввода в эксплуатацию новых платформ, веб-сканер запаздывает с захватом некоторых труднодоступных материалов. Важно выявлять подобные пробелы, и это, я думаю, является задачей тех из нас, кто создаёт веб-архивы. Смышлёные веб-архивисты будущего позднее смогут сообразить, как отобразить этот контент, но, если Вы его не обеспечите его захват и сохранность, он будет потерян.

Что бы Вы хотели бы уже знать о веб-архивации в тот момент, когда только начинали свою работу?

Я хотела бы, чтобы тема обеспечения долговременной сохранности электронных материалов уже была бы «на слуху» в то время, когда я работал над своей магистерской диссертацией, и чтобы в университете были курсы по этому направлению.

Есть ли у Вас любимые коллекции в составе веб-архива Библиотеки, в обеспечении сохранности которых Вы участвовали?

Я помню времена, вместе с [бывшим членом группы веб-архивации] Дэвидом Бруксом (David Brooks) мы работали с сайтами избирательной кампании и делали ставки об их принадлежности политической партии на основе используемых в оформлении сайтах цветов. Он всякий раз угадывал!

Для Библиотеки Конгресса это 20-й год веб-архивации, и большую часть этого времени Вы принимали участие в этой работе. Чем из сделанного Вами в ранние дни веб-архивации Вы больше всего гордитесь?

Когда я смотрю на то, что мы делали и продолжаем делать, я вижу, что многое из этого основано на рекомендациях, сделанных мною за эти годы. Думаю, мне удалось повлиять на направление развития программы веб-архивации в Библиотеке Конгресса - надеюсь, во благо.

Но это были коллективные усилия, начиная с первых дней программы MINERVA и заканчивая тем, чем мы сейчас занимаемся; все участники группы принесли с собой замечательные навыки и точки зрения, позволившие значительно расширить нашу деятельность.

Какой совет Вы бы дали, уходя, остающимся членам группы?

Всего наилучшего, и удачи! Полагаю, с созданием секции управления цифровым контентом (Digital Content Management Section,  https://blogs.loc.gov/thesignal/2018/04/teaming-up-digital-content-management-joins-the-signal/?locr=blogsig [в которую группа веб-архивации сейчас входит организационно]) под руководством Тревора Оуэнса (Trevor Owens), группа находится в хороших руках, лучших со времён Марты Андерсон (Martha Anderson, https://blogs.loc.gov/thesignal/2012/12/digital-pioneer-martha-anderson/?locr=blogsig ).

Что Вы собираетесь делать на пенсии?

Это будет непростая задача - мне приходилось работать и поддерживать себя более 50 лет, и ходить на работу - это укоренившаяся привычка, которую будет непросто сломать. У меня действительно есть масса «домашних» проектов, над которыми следовало бы поработать. Я хотела бы получить сертификат мастера-пчеловода, восстановить владение испанским языком и поработать волонтёром в пчеловодческих проектах Корпуса мира (Peace Corps) или других волонтерских организаций.

Интервью брала Эбби Гротке (Abbie Grotke)

Источник: блог «Сигнал» (The Signal) на сайте Библиотеки Конгресса США
https://blogs.loc.gov/thesignal/2020/04/gina-jones-web-archiving/

Комментариев нет:

Отправка комментария