понедельник, 20 декабря 2021 г.

Мари-Анн Шабен: Вытесняются и затмеваются ли документы данными? Часть 2: Данные затмевают документы

Данная часть статьи известного французского специалиста в области управления документами и архивного дела Мари-Анн Шабен (Marie-Anne Chabin – на фото) была опубликована 22 ноября 2021 года на её блоге (Le blog de Marie-Anne Chabin, http://www.marieannechabin.fr/ ).

(Продолжение, начало см. http://rusrim.blogspot.com/2021/12/1.html )

Честно говоря, мысль написать этот пост пришла мне в голову какое-то время тому назад, когда я читала книгу Жерома Дени (Jérôme Denis) «Невидимая работа данных. Элементы для социологии инфраструктур письменных материалов» (Le travail invisible des données. Éléments pour une sociologie des infrastructures scripturales, Париж, изд-во Mines, социологическая коллекция, 2018, https://www.pressesdesmines.com/produit/le-travail-invisible-des-donnees/ ).

Эта книга побудила меня изучить вопрос о взаимосвязи между документами и данными. Он подсказала мне, где можно познакомиться с другими точками зрения, и заставила заново задуматься о других интерпретациях. Именно эти точки зрения я обсуждаю во второй части своего поста, после краткого обзора посвященных данным публикаций (см. первую часть поста «Le règne de la donnée», https://www.marieannechabin.fr/2021/11/les-donnees-ont-elles-evince-ou-eclipse-les-documents-1-3/  - в моём переводе «Вытесняются и затмеваются ли документы данными? Часть 1: Господство данных», см. http://rusrim.blogspot.com/2021/12/1.html - Н.Х.) и перед тем, как дать анализ данного вопроса с точки зрения дипломатики (это будет часть 3).


«Данные» доминируют в сфере научных исследований

Книга «Невидимая работа данных» кажется мне репрезентативным представителем растущего числа научно-исследовательских публикаций (например, в области социологии, информатики), в которых термин «документ», когда-то очень распространенный, вытесняется термином «данные». Это субъективное впечатление, которое хорошо было бы подтвердить или опровергнуть путем надлежащего текстометрического анализа.

Жером Дени - социолог с большим опытом управления данными в инженерной среде. В своей книге о «невидимой работе данных» он предпочитает оставить в стороне «социологию с использованием данных» с тем, чтобы сосредоточить внимание на «социологии данных». Отмечая, что пока еще не существует удовлетворительного определения понятия «данные», он выходит за рамки вопроса об определения понятия («Что такое данные?»), чтобы задать вопрос «Когда это является данными?» (Quand est-ce une donnée?). Несколько отстраняясь от общепринятых представлений о том, что а) мы являемся свидетелями «революции данных», и что b) все данные будут доступны в качестве больших данных, он стремится наблюдать за «операциями записи и чтения», которые используются при создании данных и поддерживают их распространение.

Жером Дени рассказывает о своем видении на примере личного опыта. Когда его отец умер, он и его семья столкнулись (как и многие другие семьи) с запутанным клубком процедур и процессов обмена информацией (административной, банковской, служебной, из учётной записи Facebook и т.д.) - необходимым шагом для того, чтобы эта реальность смерти любимого человека, в некотором смысле незафиксированные в письменной форме данные, стала достоверными данными в рамках общества.

Что меня сразу поразило при чтении книги - безусловно, с учётом моего собственного профессионального опыта и культуры - так это то, в какой степени понятие «документ», по-прежнему остающееся глубоко укоренившимся в административной деятельности и договорных отношениях с поставщиками всех типов, исчезло, затенённое понятием «данные». Конечно, мы говорим о документах, и особенно о документах, которые должны быть подписаны в такой ситуации, и Жером Дени признаёт, что документы, возможно, не являются столь уж второстепенными для понимания социальных фактов, как думают другие социологи. «Документы, сопровождающие смерть, - пишет Жером Дени, - позволяют нам получить довольно чёткое представление о роли, выполняемой определенной информацией. Они ясно показывают, что создание данных и связанные с ними в дальнейшем операции по чтению и записи, в полной мере участвуют в создании той реальности, которую мы разделяем». Хочу добавить, что это наблюдение не ограничивается контекстом траурных событий. Итак, документ здесь присутствует (это может быть сертификат, удостоверение, письмо, контракт, форма, выписка со счета ...), однако автор выдвигает на первый план понятие «данных», собранных в базах данных и включённых в различные информационные потоки, которые затем представляются в виде более формальных документов.

В свете этого личного, но в то же время и универсального опыта, Жером Дени проводит почти что этнографические наблюдения за данными, за тем, как они «работают» и за соответствующими «работниками» в различных условиях: в лаборатории, администрации, банке. В частности, он связывает эту манипулирование данными с понятием записи (inscription) или письменного документа (écrit) – к последнему термину я вернусь в части 3 моего поста.

Эта исследовательская работа по изучению данных, с среде которых мы находимся - когда они не окружают нас… - возможно, должна быть связана с обсуждениями, инициированными пятнадцать лет назад группой Роже Педок (Roger T. Pédauque – коллективный псевдоним группы авторов – Н.Х.) на тему «Документ в свете цифровых технологий» (Le document à la lumière du numérique, https://bbf.enssib.fr/consulter/bbf-2007-04-0122-012 ); данная публикация, в частности, настаивала на повторном документальном оформлении (redocumentarisation, https://fr.wikipedia.org/wiki/Redocumentarisation - это идея повторной документальной обработки при переводе бумажных документов в электронную форму, включая разрыв связи между информацией и её носителем, обогащение метаданных и т.д. – Н.Х.), поддерживаемой технологиями декомпозиции-перекомпоновки документов, - то было время, когда «данные» и «большие данные» еще не получили широкого распространения.

«Данные» преобладают в нормативном регулировании

Это постепенный уход в тень «документа» ввиду его вытеснения «данными» можно наблюдать как в речи, так и в реальности. По сути, термин «документ» постепенно приобретает оттенок архаичности; мы настолько привыкли к бумажным документам формата A4 и PDF-файлам, что сочетание термина «документ» с цифровыми объектами в иной форме (базы данных, видео, онлайн-формы, посты в социальных сетях и т.д.) становится всё менее и менее понимаемым.

Но что такое документ? Наиболее распространенное в информатике определение (см.  https://fr.wikipedia.org/wiki/Document ) - это сочетание информации и носителя, на котором она хранится. Такое определение весьма широкое и очень удобное для цифровых данных. Если даже мы вспомним, что этимология слова «документ» связана с тем, что он передает информацию или даже учит (на латыни doceo – «учить»), мы всё ещё придерживаемся представления, далеко выходящего за рамки «формата A4».

Для тех, кто никогда не читал брошюру Сюзанны Брие (Suzanne Briet) «Что такое документация?» (Qu’est-ce que la documentation? , 1951, http://martinetl.free.fr/suzannebriet/questcequeladocumentation/ ), еще не всё потеряно, и я рекомендую им воспользоваться приведенной гиперссылкой. Среди прочего, они узнают, как пойманную исследователем антилопу можно рассматривать как первичный документ, с которым взаимосвязаны различные описательные научные документы.

Давайте дискутировать, - это всегда полезно, а нередко и приятно. Но давайте не будем забывать о влиянии нормативного регулирования на административную практику и на связанную с ней терминологию. Нормативная база также формируют реальность.

С этой точки зрения «Общие правила защиты персональных данных» (General Data Protection Regulation, GDPR, https://eur-lex.europa.eu/legal-content/EN/TXT/?qid=1532348683434&uri=CELEX:02016R0679-20160504закон Евросоюза о защите персональных данных – Н.Х.), действующие с мая 2018 года, являются важным терминологическим событием.

Действительно, этот ключевой для защиты персональных данных закон, который в значительной степени определяет стратегическое управление данными в организациях на протяжении более трёх лет, уже привёл к найму десятков тысяч «уполномоченных по защите персональных данных» (délégués à la protection des données, DPO); который, безусловно, нацелен на борьбу с произволом GAFAM (большая пятёрка американских транснациональных технологических компаний, включающая Google, Amazon, Facebook, Apple и  Microsoft – Н.Х.), но также определяет поведение десятков тысяч организаций, - этот закон говорит исключительно о «данных», и никогда - о «документах».

Официально в мире защиты персональных данных у «документа» больше нет прав гражданства. И это не фейковые новости!

Что еще более поразительно, из англоязычной версии закона GDPR полностью исключён термин record (документ) в пользу data (данные). Однако англоязычный термин «record» куда более точен, чем термин « document » во французском языке (в англоязычной архивной терминологии понятия record и document - две очень разные вещи); он также намного шире в плане формы и формата, потому что в английском языке «record» относится не только к листам формата A4, но и к любому типу записи данных.

Закон GDPR, безусловно, является ударом по дисциплине управления документами. Как только «документы» - по крайней мере, с терминологической точки зрения, - «уходят» из области применения GDPR, становится ещё труднее, чем раньше, предложить организации развернуть проект «управления документами» (во французской терминологии английскому термину «records management» соответствуют термины «archivage managérial», «gouvernance des documents engageants»); и подобная эволюция международного нормативно-правового регулирования является потенциально смертельным ударом по стандарту управления документами ISO 15489 (его первая редакция вышла в 2001 году, вторая – в 2016-м), который когда-то так превозносился (и вполне справедливо), а сегодня, хотя и находится всё ещё в молодых годах, уже несколько подзабыт. Мой пост о лексике закона GDPR см. здесь: https://www.arcateg.fr/2018/01/29/rgpd-gdpr-choix-mots/

Как любой может проверить, в 99 статьях закона GDPR слово «документ» практически не используется для обозначения документального объекта, частично или полностью состоящего из персональных данных. Единственным исключением, лишь подтверждающим закономерность, является статья 86 о персональных данных, содержащихся в официальных документах. Это, конечно, не означает, что документы – раз уж их определенное количество имеется в организациях - не содержат персональных данных или что персональные данные не могут быть «обработаны», чтобы сформировать документальный объект, именуемый «документ». Однако терминологическая революция здесь налицо. Определенным утешением для нас может служить то, что GDPR, с другой стороны, в нескольких местах настаивает на необходимости «задокументировать» определённые ситуации, такие, как, например, утечки данных ...

Мой комментарий: Думаю, данное заключение не вполне справедливо. Законодатель вполне сознательно при установлении порядка защиты персональных данных не делает различия между персональными данными в документах и в не-документах – и правильно, поскольку в противном случае закон обходился бы и превращался бы в посмешище путём заявлений о том, что «документов у нас нет, а есть только информация». А вот там, где оператор должен доказывать законность обработки персональных данных, адекватность принятых мер или информировать об утечках – в законе везде говорится именно о «документах» и «документировании»!

В статье 4 закона GDPR «Определения», персональные данные определяются как «любая информация, относящаяся к идентифицированному или идентифицируемому физическому лицу ...». «Обработка персональных данных», новый и важный термин закона, определяется как «любая операция или набор операций, выполняемых с персональными данными или с наборами персональных данных, вне зависимости от того, используются или нет ли автоматизированные средства, - таких как сбор, запись , организация, структурирование, сохранение, адаптация или модификация, извлечение, просмотр, использование, раскрытие посредством передачи, распространения или любой другой формы предоставления; согласование или комбинирование, ограничение, стирание или уничтожение». Было бы интересно сопоставить это перечисление с формулировкой Жерома Дени: «операции записи и чтению, поддерживающие распространение данных».

В статье 13 закона GDPR говорится, что оператор (представитель юридического лица, собирающего персональные данные) должен сообщить субъекту персональных данных, помимо прочего, срок хранения персональных данных или, если это невозможно, критерии определения этого срока, - иногда довольно деликатная операция, к которой я вернусь в третьей части своего поста.

Один вопрос, который, с моей точки зрения, недостаточно изучен - это степень пересечения области в пространстве информации, охватываемой законом GDPR, и области, охватываемой управлением документами. Ведь очевидно, что как специалисты, отвечающие за защиту персональных данных в организации в соответствии с требованиями GDPR, так и те, кто отвечает за архивацию (то есть за обеспечение их защиты во времени), на практике заинтересованы в одних и тех же «вещах», какое бы имя мы им ни дали. Этот вопрос, заданный в 2017 году во время круглого стола, совместно организованного «Клубом ответственных за политику и проекты архивации» (Club des Responsables de Politiques et Projets d’archivage, CR2PA, см. http://blog.cr2pa.fr/2017/10/cr2pa-rgpd-et-archivage-managerial-les-points-forts-de-la-table-ronde-du-11-octobre/ ) и группой L'Oréal, позволил увидеть различные интерпретации такого пересечения. На продолжающуюся дискуссию по данному вопросу, несомненно, негативно влияет нестыковка академических дисциплин и направлений деятельности в организации, хотя в значительном числе случаев обязанности уполномоченного по защите персональных данных и отвечающего за архивацию выполняются одними и теми же людьми.

«Документ», застрявший между «архивными документами» и «данными»

В 2015 году историк Бертран Мюллер (Bertrand Müller) написал следующее (в неопубликованном тексте, который автор передал мне): «Судьбы этих двух понятий [элемент данных (donnée) и архивный документ (archive)] теперь, кажется, взаимосвязаны, хотя эта связь является одновременно парадоксальной и недавней. Она парадоксальна, потому что эти два понятия вторглись в семантическое пространство интернета; они оба распространены повсеместно. В то же время эти два понятия также обозначают различные вещи или явления, которые были полностью переопределенные с появлением цифровых практик».

«Документ» (document) уже не обсуждается ...

Но если «документ» исчезнет, то что будет архивироваться завтра?

Данные?


Традиционно архивные документы определяются как «документы», созданные при осуществлении деятельности, сохранение сведений о которой представляет интерес (эта формулировка является кратким изложением статьи 1 французского Закона об архивах 1979 года). Во время пересмотра Закона об архивах в 2008 году (этот закон интегрирован в Кодекс культурно-исторического наследия» (Code du patrimoine), созданный в 2004 году), была сохранена эквивалентность «archives = documents», с учётом широкой трактовки понятия document (охватывающего носители всех видов, все формы…), при этом сфера охвата сужается за счёт упоминания качества (qualité) и законченности (finalité ) документов, которые и делают их «архивными документами» (documents d’archives).

«Данные» появляются в юридическом определении понятия «архивы» лишь в 2016 году (пять лет назад, за два года до GDPR), вместе со статьей 59 закона № 2016-925 от 7 июля 2016 года, которая заменяет формулировку «Архивы - это совокупность документов, вне зависимости от даты их создания. ...» на «Архивы - это совокупность документов, включая данные, вне зависимости от даты их создания... ». Мы видим, что в определение была сделана короткая вставка, вызывающая недоумение. Следует ли мы понимать это таким образом, что данные - это подмножество документов? Или что в документах обязательно есть данные, и данные вскользь упомянуты лишь для тех, кто в этом сомневается? Или что одни архивные документы состоят из данных, а другие нет? Означает ли это, что не включенные в документ данные не будут архивными документами и не будут архивироваться? В этом хотелось бы поподробнее разобраться, и данный вопрос заслуживает проработки для условий, в которых подавляющее большинство потенциально подлежащей архивации информации создается с помощью цифровых технологий.

Давайте подождём.

Архивисты, с другой стороны, заинтересованы в данных, как показало проведённое с участием исследователей обсуждение вопроса об использовании архивных документов с помощью технологий. Как историки, так и архивисты долгое время работали с базами данных, опираясь на анализ и изучение архивных документов. Этот вопрос стал темой учебного семинара, организованного в июне 2019 года региональной группой Аквитании (Aquitaine) Ассоциации французских архивистов (l’Association des archivistes français, AAF) в партнерстве с рабочей группой «Цифровые исследования: от данных к системе / структуре» (Études digitales: des données aux dispositifs – E3D) исследовательской лаборатории «Посредничество, информация, коммуникация, искусство» (Médiation, information, communication, arts - MICA) университета Бордо-Монтень (Université Bordeaux-Montaigne). Название семинара «Документ, бедный родственник данных. В поисках утраченных архивных фондов» (Le document, parent pauvre de la donnée. À la recherche du fonds d’archives perdu, https://mica.u-bordeaux-montaigne.fr/wp-content/uploads/2019/06/Document_parent_pauvre_donnee_programme.pdf ) особенно примечательно своим «триптихом» «архивы – документы – данные».

Этот подход новый и экспериментальный, и понятно, что он начинается с изучения уже собранных, существующих архивных фондов, созданных на аналоговых носителях, прежде чем погрузиться в полностью цифровой мир. Имеющийся опыт, что совершенно не случайно, больше относится к оцифровке бумажных архивных документов (процесс, следующий за созданием архивных документов), чем к производству изначально-электронных «документов». Интересно, однако, увидеть взаимосвязь между архивными документами и данными, которые могут быть извлечены из них, с возможной проекцией процесса в противоположном направлении, от данных к документам.

Аналитический отчёт, написанный в 2017 году Жильбером Кутазом (Gilbert Coutaz) в сотрудничестве с Жилем Жанмоно (Gilles Jeanmonod) и озаглавленный «Место персональных данных в исторических архивах: попытка интерпретации в контексте медицинских архивных документов в архивах кантона Во» (La place de la donnée personnelle dans les archives historiques, essai d’interprétation à travers les archives de santé aux Archives cantonales vaudoises,  https://www.vd.ch/fileadmin/user_upload/organisation/chancellerie/ACV/fichiers_pdf/dossier-thematique/Dossier-thematique-2017.pdf , 40 страниц), содержит размышления на стыке архивной науки и права, точнее, на перекрестке архивной науки и законодательства о защите персональных данных. В тот момент, когда писалась эта работа, европейские архивисты высказали свое мнение по поводу проекта европейского закона (будущего GDPR) ввиду определенных радикальных толкований «права быть забытым», ведущих к безвозвратному уничтожению архивных документов или к их несохранению, которые, однако, будучи следами жизни отдельных людей, являются незаменимыми источниками для коллективной истории.

В отчёте рассматривается «место персональных данных в процессах архивирования, и весь жизненный цикл документов от их разработки до окончательного решения их судьбы - либо уничтожения, либо передачи на хранение в архив для целей сохранения культурно-исторического наследия и проведения исторических исследований». Цитируя опубликованный в 2002 году отчет группы историков, касающийся истории и медицинских архивов, авторы напоминают, что проведение оценки содержащих персональные данные документов предполагает, что эти документы предлагаются для передачи на архивное хранение до того, как можно будет оценить необходимость их сохранения. Еще предстоит увидеть, как эволюционировало за последние два десятилетия производство медицинской информации, от цифровых файлов, являющихся наследниками бумажных документов прошлого, до баз данных информации о здоровье, подпитываемых постоянными, общими, связанными потоками; коллективно используемых, соединённых друг с другом и «обрабатываемых»… Между тем, подсчёт в этом тексте количества трёх рассматриваемых нами терминов дает следующие результаты: «данные» - 185; «архивы, архивные документы» - 251; «документ» - 50.

(Продолжение следует, см. http://rusrim.blogspot.com/2022/01/3-1-3.html )

Мари-Анн Шабен (Marie-Anne Chabin)

Источник: блог Мари-Анн Шабен
https://www.marieannechabin.fr/2021/11/les-donnees-ont-elles-evince-ou-eclipse-les-documents-2-3/

Комментариев нет:

Отправить комментарий