четверг, 23 февраля 2017 г.

Идёт работа над стандартами сохранения электронной почты


Статья заместителя редактора по вопросам технологий престижного американского «Библиотечного журнала» (Library Journal) Мэтта Эниса (Matt Enis – на фото) была опубликована на сайте издания 31 января 2017 года.

В то время как архивы и специальные коллекции уже принимают на хранение растущие объемы изначально-электронного контента, в сфере библиотечного дела пока еще не сформировались набор общеиспользуемых инструментов и хорошая практика обеспечения долговременной сохранности электронной переписки.

С целью решения этой задачи Фонд Эндрю Меллона (Andrew W. Mellon Foundation) и британская Коалиция по электронной сохранности (Digital Preservation Coalition, DPC) в ноябре 2016 года объявили о создании Целевой группы по методическим подходам к архивации электронной почты (Task Force on Technical Approaches for Email Archives), которую возглавили помощник руководителя архивной службы и профессор университета штата Иллинойс в Урбана-Шампейн (University of Illinois at Urbana-Champaign) Кристофер Пром (Christopher Prom) и IT-специалист дирекции технологической политики Библиотеки Конгресса США Кейт Мюррей (Kate Murray).

Система ePADD (образ предоставлен департаментом специальных коллекций и университетских архивов Библиотеки Стэнфордского университета)

«Технические проблемы, связанные с сохранением электронной почты, усугубляется самим масштабом коллекций», - поясняет Мюррей в извещении о создании целевой группы. «У многих из нас в электронных почтовых ящиках лежат тысячи, а иногда десятки тысяч сообщений. От мелкомасштабных местечковых и разовых решений нужно перейти к поддерживаемым сообществом, способным работать с большими объёмами и настраиваемым под потребности пользователей вариантам».

И Пром, и Мюррей подключились к работе целевой группой по просьбе Дональда Уотерса (Donald Waters), руководителя проектного офиса подразделения научных коммуникаций (Scholarly Communications) фонда Меллона. Мюррей в Библиотеке Конгресса занималась изучением форматов электронной почты в качестве соавтора сайта библиотеки «Жизнеспособность электронных форматов» (Sustainability of Digital Formats, http://www.digitalpreservation.gov/formats/ ) и была координатором проведенного в 2015 году симпозиума по архивации электронной почты ( https://blogs.loc.gov/thesignal/2015/07/we-welcome-our-email-overlords-highlights-from-the-archiving-email-symposium ). Пром работал в DPC в более раннем проекте в 2010-2011 годах, где, как он нам сообщил, он исследовал «стандарты, непосредственно связанные с передачей, получением и хранением электронной почты, а также инструменты и проекты, направленные на обеспечение сохранности переписки в форме сообщений электронной почты».

Одной из рекомендаций в подготовленном Промом для DPC отчете «Обеспечение сохранности электронной почты» (Preserving Email, http://www.dpconline.org/docman/technology-watch-reports/739-dpctw11-01-pdf/file ) была необходимость совместной работы занимающихся сохранением культурного наследия учреждений, распределяющих финансирование органов, библиотек, архивов и других групп над созданием инструментов, позволяющих наладить более тесно интегрированные рабочие процессы и практики управления для обеспечения сохранности электронной почты.

«Электронная почта ... по сути дела является преемником тех видов частной корреспонденции, которые в прошлом люди посылали от имени предприятий или организаций или от себя лично», - говорит Пром. «У меня есть стойкое ощущение неполноты исторических документов в случаях, когда у нас нет доступа к определенной части частной переписки, и когда мы не сохраняем эту переписку таким же образом, как раньше сохраняли письма и (написанную от руки или машинописную) корреспонденцию».

«На целевой группе мы говорили о том, что у нас на чердаках больше нет теперь шкафчиков, где сложены дедушкины письма домой из армии», добавляет Мюррей. «Теперь вся эта переписка ведётся по электронной почте».

Технические проблемы

Однако с сохранением электронной почты связан ряд технических проблем, которые Пром обрисовал в своем отчете. Учетная запись электронной почты, как правило, «содержит документы разнородные по своему контексту, структуре и содержанию, документируя как заурядные, так и необыкновенные события», - это смесь писем друзьям и членам семьи, уведомлений и частной переписки с деловой, это новостные рассылки, спам и многое другое. В отчете отмечается, что отдельные сообщения часто содержат присоединенные файлы различного формата и содержания, такие как, например, электронные графические образы / фотографии, PDF-файлы, а также аудио- и видеофайлы.  Помимо этого, сообщения часто содержат гиперссылки на внешний контент, в том числе на веб-страницы и видеоматериалы.

«Даже просто захват и сохранение образующих сообщение битов является достаточно сложной задачей, а ведь необходимо ещё предпринять дальнейшие шаги для того, чтобы сообщением в полной мере оставалось доступным в будущем, включая присоединенные объекты», - пишет Пром. «Поскольку каждое сообщение электронной почты включает в себя небольшое количество структурированных данных (заголовок) наряду с массой неструктурированных данных (тело сообщения и вложения), то степень сложности усилий по обеспечения сохранности электронной почты может быть куда выше, чем для других типичных работ по обеспечению сохранности электронных материалов, таких, как миграция однородного набора документов, изображений или аудиозаписей».

В числе других проблем - масштабы многих коллекций электронной почты, проприетарный характер систем электронной почты, а также сложности, связанные с доступом к защищенному паролями контенту, поясняет Мюррей.

Защита неприкосновенности частной жизни

Хотя управление письмами и личными бумагами всегда было связано с вопросами защиты неприкосновенности частной жизни, конфиденциальностью и управлением доступом, эти проблемы обостряются при работе с объёмными электронными коллекциями.

«Там присутствуют как конфиденциальная информация, так и персональные данные», объясняет Мюррей. «Таким образом, когда доноры передают свою электронную переписку на хранение в учреждение, то они, очевидно, являются заинтересованной стороной; но они могут переписываться с людьми – как членами семьи, так и просто знакомыми - которые не хотят, чтобы их письма попали на постоянное архивное хранение, Проблема обработки текстов на естественном языке заключается в том, чтобы выделить потенциально «чувствительные» фрагменты и затем удалить их ... мы определенно думаем на тем, как это можно было бы сделать».

Использование электронных форматов также может сделать доноров более чувствительными к вопросам защиты неприкосновенности частной жизни, поскольку «очевидно, что эти материалы гораздо легче воспроизводить», подчеркивает Пром. Одной из основных задач проекта, добавляет он, является подготовка рекомендаций по практике и инструментам, которые помогут архивистам и кураторам развивать доверительные отношения с донорами в отношении этого контента.

«Использование программного обеспечения для обработки текстов на естественном языке, для выделения определенных объектов, а также иных передовых методов машинного обучения не является самоцелью, а направлено на то, чтобы дать архивистам и кураторам возможность сесть с людьми, просмотреть документы и выделить те их части, доступ к которым они хотели бы ограничить; чтобы в итоге дать людям определенный уровень уверенности в том, что хранилище ведёт себя ответственно», - говорит Пром.

Объединяя экспертов

Помимо Мюррей, Прома и DPC, в состав целевой группы входят эксперты из Google и Microsoft, из Стэнфордского, Гарвардского, Йельского и Колумбийского университетов; из университета Манчестера (Великобритания), Национальных Архивов США (NARA); Архивного центра Рокфеллера (Rockefeller Archive Center); Архивов Смитсоновского института; университета штата Техас в Остине; университета штата Аризона; университет штата Мичиган; и компании  Artefactual Systems.

Целевая группа будет опираться в своей деятельности на ранее выпущенные отчеты, проекты и других наработки этих экспертов и представляемых ими учреждений, такие, как подход «Capstone» Национальных Архивов США к обеспечению сохранности электронной переписки ключевых рук5оводителей федеральных органов исполнительной власти ( https://www.archives.gov/files/records-mgmt/email-management/final-capstone-white-paper.pdf , см. также посты на моём блоге здесь: http://rusrim.blogspot.ru/search/label/Capstone - Н.Х.), проект DArcMail Архивов Смитсоновского института ( https://siarchives.si.edu/blog/yes-we%E2%80%99re-still-talking-about-email ), проект MeMail ( https://blogs.loc.gov/thesignal/2015/06/digital-preservation-infrastructure-tours-the-bentley-historical-library/ ) в исторической библиотеке Бентли университета Мичигана, и платформа ePADD ( http://lj.libraryjournal.com/2015/09/industry-news/open-source-email-archiving-software-expands-with-imls-grant/ ), разработанная библиотекой Стэнфордского университета.

Пром также выделил работу, проделанную в последнее время в этой области архивистами из Гарварда ( http://library.harvard.edu/preservation/email-archiving ), например, по созданию «сетки» инструментов, где перечислены различные инструменты, которые могут быть использованы для обеспечения сохранности электронной почты; а также отчеты по техническим вопросам, по стратегиям практической реализации и рекомендации по вопросам политики, включая «Отчет об интероперабельности систем архивации электронной почты» (Email Archiving Systems Interoperability Report), опубликованный в июле 2016 года ( https://dash.harvard.edu/handle/1/28682572 ).

В сообщении о создании группы отмечается, что в ближайшие месяцы усилия целевой группы будет сосредоточены на формулировании технической концепции обеспечения сохранности электронной почты, на изучении того, как существующие инструменты вписываются в эти рамки, и на выявление недостающих элементов. Затем группа подготовит отчет «с рекомендациями относительно конкретных мер, которые архивисты могли бы реализовать в течение пяти лет для создания, обеспечения сохранности и доступа к документам в составе электронной переписки».

Сохранение электронной почты становится всё более насущной проблемой, «поскольку она уже приходит на наш порог», - говорит Мюррей. «Много лет мы слышали разговоры о «цифровом потопе», и вот он уже здесь. И когда кураторы и архивисты обсуждают с донорами приобретение их коллекций, электронная почта является тем богатым источником данных, который учреждения хотели бы заполучить. Таким образом, проблема уже налицо, но у нас есть пробелы в арсенале наших инструментов, поддерживающих процессы принятия этих материалов на хранение, принятие решений, связанных с персональными данными и конфиденциальной информации, и усилия по обеспечению доступности этих материалов».

Мэтт Энис (Matt Enis)

Источник: Library Journal
http://lj.libraryjournal.com/2017/01/industry-news/setting-the-standards-for-saving-email/#_

1 комментарий:

  1. Очень полезные сведения. Интересен подход. Надо приспособить под наши условия. Хотя-бы подумать об этом.
    При всех случаях - спасибо !!

    ОтветитьУдалить