понедельник, 10 января 2022 г.

Мари-Анн Шабен: Вытесняются и затмеваются ли документы данными? Часть 3: Документы не сдаются (пост 2 из 3)

(Продолжение, предыдущую часть см. http://rusrim.blogspot.com/2022/01/3-1-3.html )

Документ в виде совокупности данных

Давайте отложим в сторону термины и вернемся к реалиям, к которым они относятся.

Цифровые технологии разрушили ограничивающие рамки материального носителя и в каком-то смысле «освободили» контент.

Как следствие, «документ» имеет тенденцию уходить в тень «данных», которые он содержит (документ содержит данные) или которые его образуют (документ состоит из данных). В любом случае документ уходит на вторые роли, поскольку данные выходят на первый план и привлекают внимание.

Это особенно характерно для цифровой обработки книг в библиотеках или технической документации в инженерных службах. «Доцифровой» документ разбивается на индивидуализированные элементы данных, по которым поисковая система может вести поиск, и которые можно выделить и извлечь. «Обеспечивая возможность компьютерной обработки самого контента, оцифровка шаг за шагом привела к изменению понимания вещей»; «документ представляет собой совокупность данных, которые можно использовать», - пишет Готье Пупо (Gautier Poupeau), автор блога Les petites cases («Маленькие ящички», http://www.lespetitescases.net/ ) в образовательной презентации под названием «Экскурсия по стране данных» (Visite guidée au pays de la donnée,  https://drive.google.com/drive/folders/1eAqAVKPEgVm4dgxiqpIPw2NL5wyGtI7R?sort=13&direction=a ). Автор подчеркивает изменение степени детализации обрабатываемой информации благодаря современным технологиям.

Это затенение «документа» «данными» или даже «элементами данных» также имеет место тогда, когда документ существует лишь виртуально, возникая после производства данных в результате агрегирования группы соответствующих данных.

В ряде международных стандартов по вопросам управления электронными документами (фр.: records management électronique, archivage des informations numériques engageantes) используется понятие агрегации (aggregation – речь идёт об упорядоченных наборах документов различного уровня, от папки и дела и вплоть до фонда – Н.Х.). Это касается спецификаций MoReq2010 ( https://www.moreq.info/ ) и стандарта ICA-Req ( https://www.ica.org/fr/node/14871 ), опубликованного в 2008 году и впоследствии ставшего международным стандартом ISO 16175 – о нём также см. https://rusrim.blogspot.com/2020/10/iso-16175-1-ica-req.html , https://rusrim.blogspot.com/2020/07/iso-16175.html и https://rusrim.blogspot.com/2020/10/isots-16175-22020.html - Н.Х.).

Термины «агрегация» (agrégation) или «агрегат, конгломерат» (agrégat) понимаются как совокупность документов, но также и как совокупность данных: это «любая совокупность документных объектов на уровне выше индивидуального документного объекта (документ, электронный объект), - например, электронное дело или серия». Хотя эти стандарты, написанные 10-15 лет назад, в первую очередь имеют в виду объединение (агрегацию) документов в дела, термин «агрегация» хорошо иллюстрирует логическую конструкцию, в рамках которой на основе существующих данных создаётся информационный объект, который в доцифровом мире назывался «документом», не задавая лишних вопросов.

Приведенный ниже рисунок, взятый из части 3 стандарта ICA-Req («Функциональные требования и рекомендации по управлению документами в деловых системах»), снабжён подзаголовком «Идентификация информационных компонентов / элементов данных, составляющих электронный документ в базе данных» (Identification des composants d’information (ou données) constituant un document électronique engageant dans une base de données):


Идея проста, когда мы имеем дело с так называемыми структурированными данными, образующими «документ» типа формы с хорошо индивидуализированными полями, такой, как платежная ведомость или счёт-фактура.

Для других случаев, то есть в случае документов, подпадающих под определение «неструктурированных данных» ( https://www.arcateg.fr/2018/09/06/donnees-structurees-et-donnees-non-structurees/ ) агрегирование является более сложным вопросом.

Чтобы проиллюстрировать этот сценарий, я воспользуюсь материалами публикации, упомянутой в моём обзоре литературы в начале части 1 этого поста - «Является ли копия письменной экзаменационной работы набором персональных данных? (Une copie d’examen manuscrite est-elle un ensemble de données à caractère personnel? ,  https://www.droit-technologie.org/actualites/copie-dexamen-manuscrite-ensemble-de-donnees-a-caractere-personnel/ ), выложенной на отличном блоге «Право и технологии» (Droit et technologies). Речь шла о бумажном документе, однако приведенный анализ взаимосвязи между «документом» и «данными» весьма красноречив.

Суд Европейского Союза (Cour de Justice de l’Union Européenne, CJUE) рассматривал иск провалившего экзамен ирландца, которому было отказано в возможности ознакомиться с его экзаменационной работы на том основании, что она «не представляет собой персональные данные в смысле законодательства о защите персональных данных». Оказалось, что да, экземпляр письменного теста содержит персональные данные: «в той мере, в какой в ней фиксируется информация, относящаяся к кандидату, она представляет собой набор персональных данных». Уточняется, что сам по себе рукописный текст может содержать информацию о человеке; а также что комментарии проверяющего также считаются персональными данными кандидата.

Из этого примера экзаменационной работы очевидно, что сегодня данные - это нечто намного большее, чем числа или значения, которые мы вводим в поля, хотя такого рода определение остаётся наиболее распространенным в глоссариях и словарях, которые, как я отмечала в первой части моего поста, не являются актуальными.

Говоря иными словами, не следует ли нам считать, что экземпляр экзаменационной работы является неделимым, неразделимым (заполнение и отметки проверяющего) целым, и что если данные могут быть извлечены из неё для той или иной обработки, эта совокупность (файл, набор данных ) тем не менее сохраняет свой статус «документа» (document) в смысле определений «зафиксированная информация либо объект, которые могут восприниматься и обрабатываться как единое целое» (ISO 15489-1:2001 – это по сути дела определение понятия «информационный объект», который в быту также известен как «файл» - Н.Х.), «любой текст или запись, рассматриваемые как документальные единицы» (это французское определение можно найти здесь: Glossaire PIAF, "Document", https://www.piaf-archives.org/sites/default/files/bulk_media/glossaire/glossaire_papier.pdf - Н.Х.)?

Именно поэтому тот факт, что слово «документ» удалено из французского и английского текстов закона GDPR удивил меня своим радикализмом. GDPR требует, чтобы устанавливались сроки хранения персональных данных, и чтобы о них был проинформирован субъект персональных данных. Но как применить сроки хранения в отношении элементарным данных? И как применить сроки хранения (и выполнить действия по их уничтожения) к группе данных, которая не рассматривается как отражение взаимодействия между двумя людьми (отправителем и получателем, источником и производителем) с конкретной целью, связанной с определённой датой?

Бертран Мюллер (Bertrand Müller), уже цитировавшийся во второй части этого длинного поста, далее говорит: «Изолированный фрагмент данных, то есть отделённый как от контекста его создания, так и от контекста его достоверности, является бессмысленными данными. Документирование данных означает фиксирование сведений о том, как они были спроектированы, что они означают, а также специфицирование их контента и структуры. Документация также имеет решающее значение для обеспечения длительного долговременной сохранности данных.» Я полностью с этим согласна.

Чтобы проиллюстрировать бессмысленность изолированных данных, я с удовольствием воспользуюсь приведенным ниже рисунком (где изображение элемента данных в виде маленькой девочки в платьице может порадовать одних и быть осмеяно другими, в соответствии с представлением каждого человека о феминизме – ладно, неважно):


«Данные и документы»

Моя цель - показать тем, кто не осознает, что доминирование «данных» возникло не спонтанно, и основано, посредством переименования понятий, как мы это делаем в политике, на существующем и часто довольно старом документальном субстрате. Например, на рисунке мы можем увидеть: структурированный документ (например, табель), поток поступающих данных и два тематических досье. Документ, как совокупность (агрегация) данных, является виртуальным - даже если он является предметом целевой записи информации - и его скрепляет воедино общая ценность собранных таким образом данных.

(Окончание следует, см. http://rusrim.blogspot.com/2022/01/3-3-3.html )

Мари-Анн Шабен (Marie-Anne Chabin)

Источник: блог Мари-Анн Шабен
https://www.marieannechabin.fr/2021/11/les-donnees-ont-elles-evince-ou-eclipse-les-documents-3-3/

Комментариев нет:

Отправить комментарий