четверг, 2 декабря 2021 г.

Мари-Анн Шабен: Вытесняются и затмеваются ли документы данными? Часть 1: Господство данных

Данная заметка известного французского специалиста в области управления документами и архивного дела Мари-Анн Шабен (Marie-Anne Chabin – на фото) была опубликована 15 ноября 2021 года на её блоге (Le blog de Marie-Anne Chabin, http://www.marieannechabin.fr/ ). Перевод сделан с некоторыми сокращениями.

Данные (données). Наши данные. Данные компании. Открытые данные. Персональные данные. Сеть данных ... Данные повсюду. Это господство «данных».


Слово «данные» все чаще появляется в заголовках публикаций в СМИ, статей в журналах и постов на блогах.

Поэзия данных

Ниже приведена подборка заголовков статей последних лет, посвященных многообразным аспектам данных (составленный в хронологическом порядке список несколько длинноват, однако материал богат, и читать его увлекательно; также обратите внимание на то, что из выборки были исключены статьи, содержащие в заголовках англоязычный термин « data », поскольку его использование – дурной тон для публикаций на французском языке!):

[Список действительно очень длинный, поэтому здесь он не приводится. С ним можно познакомиться по адресу https://www.marieannechabin.fr/2021/11/les-donnees-ont-elles-evince-ou-eclipse-les-documents-1-3/  – Н.Х.]

Но что такое «данные»?

Этот яркий выход - или вторжение - «данных» на авансцену (в зависимости от Вашей точки зрения) ставит ряд вопросов:
  • Что именно означает слово «данные» (во множественном или единственном числе)?

  • Что не является «данными»?

  • Являются ли «данные» недавно появившейся оригинальной сущностью, или же это метаморфоза чего-то ранее существовавшего?

  • Какова связь между данными и документами (documents), о которых мы обычно говорили: личными документами, документами компаний (а также связь с вопросами доступа и классификации документов и т.д.)?

  • Вытесняются ли и будут ли навсегда вытеснены - и отправлены к «праотцам» (то есть в архивы) - документы данными с информационной сцены, или же мы являемся свидетелями всего лишь временного падения интереса к документам в том «платье», которое они носили в последние десятилетия, и ожидаем возрождения документов, теперь уже облаченных в новые цифровые одежды?

Изучение первого вопроса (что такое данные, что они собой представляют?) сразу же позволяет увидеть вопиющее несоответствия между существующими определениями (общими и техническими) и тем, что мы можем себе представить, просматривая приведенные выше заголовки публикаций, которые можно воспринимать как сводку характерных проблем, связанных с данными в 21-м веке - или как поэму нового времени.

Толковые словари, оставаясь ценными для истории использования термина «данные», явно устарели и не отражают текущее использование данного слова (словари все ещё отслеживают, как это слово используется, но в этом они, похоже, сильно отстают от жизни).

Словарь Французской Академии (Le dictionnaire de l’Académie française, http://www.dictionnaire-academie.fr/article/A9D3040 ) описывает «данные» как математический термин, появившийся в 18-м веке (данные задачи, которую нужно решить).

Наиболее распространённое сегодня определение ссылается на к понятию «рассуждение»: «То, что известно и признано, и что служит основой для рассуждений, изучения или исследования» (« Ce qui est connu et admis, et qui sert de base, à un raisonnement, à un examen ou à une recherche », CNRTL,  https://www.cnrtl.fr/definition/donnée ), и ту же идею мы находим в словаре Larousse ( https://www.larousse.fr/dictionnaires/francais/donnée/26436 ), в Википедии ( https://fr.wikipedia.org/wiki/Donnée ) или в онлайн-словаре Робер (Le Robert,  https://dictionnaire.lerobert.com/definition/donnee ).

Свои определения предлагаются в различных научно-технических публикациях. Например, на сайте  сайт www.techno-science.net читаем (см. https://www.techno-science.net/definition/222.html ): «В сфере информационных технологий (ИТ) данные – это  элементарные описания вещей, деловых операций, событий и т.д., часто представленные в виде кодов, Данные могут различным образом храниться и классифицироваться: бумажные, электронные, алфавитно-цифровые, графические изображения, аудиозаписи и т.д.».

Мы перешли, как нетрудно заметить, от математики к информатике.

Существует немало глоссариев, предлагающих определения понятия «данные» (или копирующих их из словарей или других глоссариев), так что перечислять их все не имеет особого смысла. Со своей стороны, я придерживаюсь первоначального определения, данного в опубликованном в 2001 году стандарте открытой архивной информационной системы (Open Archival Information System, OAIS, ныне это международный стандарт ISO 14721, о нём см. https://fr.wikipedia.org/wiki/Open_Archival_Information_System ), посвящённом обеспечению долговременной сохранности научных данных.

В стандарте OAIS сказано следующее: «Данные: повторно интерпретируемое представление информации в формализованном виде, пригодном для передачи, интерпретации или обработки. В качестве примеров данных можно назвать последовательность битов, таблицу чисел, символы на странице, запись издаваемых говорящим человеком звуков или образец лунного камня.»

Это определение тем более интересно, что оно перекликается с определением понятия «информация», которое слишком часто ассоциируют с данными, не зная при этом, как объяснить разницу между этими двумя понятиями. В OAIS «информация» определяется как «любые знания, которыми можно обмениваться. При обмене оно представлена в виде данных. Примером может служить строка битов (данные), сопровождаемая описанием того, как интерпретировать строку битов в виде чисел, отражающих результаты измерений температуры, представленные в градусах Цельсия (информация о представлении).»

Это определение OAIS вдохновило меня на создание определения понятия «данные» для моего «Нового глоссария архивной терминологии» (Nouveau glossaire de l’archivage, 2010,  https://www.arcateg.fr/wp-content/uploads/2017/03/Nouveau_glossaire_de_l_archivage.pdf - о нём также см. мой пост http://rusrim.blogspot.com/2010/03/blog-post_13.html - Н.Х.): «Данные: Слово, число, сигнал, цепочка символов, последовательность битов, часть материала (morceau de matière) или иной первичный компонент (élément brut), записанный в информационной системе, где его можно соотнести с другими объектами и интерпретировать, превратив тем самым в информацию», сопровождающееся примечанием: «Данные - это только один компонент информации или документа. Следовательно, архивирование элементарных данных не имеет смысла, в отличие от операции резервного копирования, которая направлена на восстановление элементов системы в случае сбоя.» Но к понятию «документ» (document) я вернусь позже.

Очевидно, что в начале 21 века мы перешли из сферы информационных технологий в области экономики, повседневной жизни и управления населением. Это огромное изменение, такого масштаба, что «компетентным органам» (хм…) стоило бы взяться за данный вопрос и предложить определение, которое охватывало бы, скажем, как минимум 90% реальных значений терминов «данные» (données - во множественном числе) и «элемент данных» (donnée - в единственном числе), в которых те сегодня используются в публикациях. Это, возможно, помешало бы публиковать «нелепые и неотшлифованные» определения, такие, как то, что можно прочитать в конце последней работы Орели Жан (Aurélie Jean) «Создают ли алгоритмы закон (Les algorithmes font-ils la loi ? , издательство l’Observatoire, https://start.lesechos.fr/innovations-startups/tech-futur/aurelie-jean-les-algorithmes-ne-sont-pas-coupables-les-seuls-responsables-sont-ceux-qui-les-concoivent-1357204 ), где в глоссарии предлагается следующее: «Данные (Data): это информация в форме данных (données), которая описывает физическое или юридическое лицо, страну, компанию, объект или даже сценарий» - заявление столь же шокирующее с лингвистической, как и со смысловой точки зрения (могу лишь предположить, что автор не перечитывала корректуру ...).

К сожалению, в большинстве определений не делается различия между единственным (donnée) и множественным числом (données), а англоязычный термин data используется как имя существительное женского рода в единственном числе, в то время как оно и в латинском языке является существительным среднего рода во множественном числе (чтобы не пришлось использовать ужасно варварское « datas » - за что (вместе с « esse » ) живодёров от правописания могли бы и повесить?). Тем не менее, помимо элемента данных (в английском языке, data element  - это форма единственного числа от data, которое, повторюсь, является существительным во множественном числе), мы должны признать растущее употребление «данных» (donnée) в единственном числе как коллективного единственного числа (singulier collectif) – подобно тому, как мы говорим «электромобиль» (la voiture électrique), « вакцина » (le vaccin)  или « комикс » (la bande dessinée).

В следующем посте я сравню использование понятия «данные» с использованием (или неиспользованием) понятия «документы». Этот пост будет называться «Вытесняются и затмеваются ли документы данными? Часть 2: Данные затмевают документы».

(Продолжение следует, см. http://rusrim.blogspot.com/2021/12/2.html )

Мари-Анн Шабен (Marie-Anne Chabin)

Источник: блог Мари-Анн Шабен
https://www.marieannechabin.fr/2021/11/les-donnees-ont-elles-evince-ou-eclipse-les-documents-1-3/

Комментариев нет:

Отправить комментарий