четверг, 2 декабря 2021 г.

Мари-Анн Шабен: Вытесняются и затмеваются ли документы данными? Часть 1: Господство данных

Данная заметка известного французского специалиста в области управления документами и архивного дела Мари-Анн Шабен (Marie-Anne Chabin – на фото) была опубликована 15 ноября 2021 года на её блоге (Le blog de Marie-Anne Chabin, http://www.marieannechabin.fr/ ). Перевод сделан с некоторыми сокращениями.

Данные (données). Наши данные. Данные компании. Открытые данные. Персональные данные. Сеть данных ... Данные повсюду. Это господство «данных».


Слово «данные» все чаще появляется в заголовках публикаций в СМИ, статей в журналах и постов на блогах.

Поэзия данных

Ниже приведена подборка заголовков статей последних лет, посвященных многообразным аспектам данных (составленный в хронологическом порядке список несколько длинноват, однако материал богат, и читать его увлекательно; также обратите внимание на то, что из выборки были исключены статьи, содержащие в заголовках англоязычный термин « data », поскольку его использование – дурной тон для публикаций на французском языке!):

[Список действительно очень длинный, поэтому здесь он не приводится. С ним можно познакомиться по адресу https://www.marieannechabin.fr/2021/11/les-donnees-ont-elles-evince-ou-eclipse-les-documents-1-3/  – Н.Х.]

Но что такое «данные»?

Этот яркий выход - или вторжение - «данных» на авансцену (в зависимости от Вашей точки зрения) ставит ряд вопросов:
  • Что именно означает слово «данные» (во множественном или единственном числе)?

  • Что не является «данными»?

  • Являются ли «данные» недавно появившейся оригинальной сущностью, или же это метаморфоза чего-то ранее существовавшего?

  • Какова связь между данными и документами (documents), о которых мы обычно говорили: личными документами, документами компаний (а также связь с вопросами доступа и классификации документов и т.д.)?

  • Вытесняются ли и будут ли навсегда вытеснены - и отправлены к «праотцам» (то есть в архивы) - документы данными с информационной сцены, или же мы являемся свидетелями всего лишь временного падения интереса к документам в том «платье», которое они носили в последние десятилетия, и ожидаем возрождения документов, теперь уже облаченных в новые цифровые одежды?

Изучение первого вопроса (что такое данные, что они собой представляют?) сразу же позволяет увидеть вопиющее несоответствия между существующими определениями (общими и техническими) и тем, что мы можем себе представить, просматривая приведенные выше заголовки публикаций, которые можно воспринимать как сводку характерных проблем, связанных с данными в 21-м веке - или как поэму нового времени.

Толковые словари, оставаясь ценными для истории использования термина «данные», явно устарели и не отражают текущее использование данного слова (словари все ещё отслеживают, как это слово используется, но в этом они, похоже, сильно отстают от жизни).

Словарь Французской Академии (Le dictionnaire de l’Académie française, http://www.dictionnaire-academie.fr/article/A9D3040 ) описывает «данные» как математический термин, появившийся в 18-м веке (данные задачи, которую нужно решить).

Наиболее распространённое сегодня определение ссылается на к понятию «рассуждение»: «То, что известно и признано, и что служит основой для рассуждений, изучения или исследования» (« Ce qui est connu et admis, et qui sert de base, à un raisonnement, à un examen ou à une recherche », CNRTL,  https://www.cnrtl.fr/definition/donnée ), и ту же идею мы находим в словаре Larousse ( https://www.larousse.fr/dictionnaires/francais/donnée/26436 ), в Википедии ( https://fr.wikipedia.org/wiki/Donnée ) или в онлайн-словаре Робер (Le Robert,  https://dictionnaire.lerobert.com/definition/donnee ).

Свои определения предлагаются в различных научно-технических публикациях. Например, на сайте  сайт www.techno-science.net читаем (см. https://www.techno-science.net/definition/222.html ): «В сфере информационных технологий (ИТ) данные – это  элементарные описания вещей, деловых операций, событий и т.д., часто представленные в виде кодов, Данные могут различным образом храниться и классифицироваться: бумажные, электронные, алфавитно-цифровые, графические изображения, аудиозаписи и т.д.».

Мы перешли, как нетрудно заметить, от математики к информатике.

Существует немало глоссариев, предлагающих определения понятия «данные» (или копирующих их из словарей или других глоссариев), так что перечислять их все не имеет особого смысла. Со своей стороны, я придерживаюсь первоначального определения, данного в опубликованном в 2001 году стандарте открытой архивной информационной системы (Open Archival Information System, OAIS, ныне это международный стандарт ISO 14721, о нём см. https://fr.wikipedia.org/wiki/Open_Archival_Information_System ), посвящённом обеспечению долговременной сохранности научных данных.

В стандарте OAIS сказано следующее: «Данные: повторно интерпретируемое представление информации в формализованном виде, пригодном для передачи, интерпретации или обработки. В качестве примеров данных можно назвать последовательность битов, таблицу чисел, символы на странице, запись издаваемых говорящим человеком звуков или образец лунного камня.»

Это определение тем более интересно, что оно перекликается с определением понятия «информация», которое слишком часто ассоциируют с данными, не зная при этом, как объяснить разницу между этими двумя понятиями. В OAIS «информация» определяется как «любые знания, которыми можно обмениваться. При обмене оно представлена в виде данных. Примером может служить строка битов (данные), сопровождаемая описанием того, как интерпретировать строку битов в виде чисел, отражающих результаты измерений температуры, представленные в градусах Цельсия (информация о представлении).»

Это определение OAIS вдохновило меня на создание определения понятия «данные» для моего «Нового глоссария архивной терминологии» (Nouveau glossaire de l’archivage, 2010,  https://www.arcateg.fr/wp-content/uploads/2017/03/Nouveau_glossaire_de_l_archivage.pdf - о нём также см. мой пост http://rusrim.blogspot.com/2010/03/blog-post_13.html - Н.Х.): «Данные: Слово, число, сигнал, цепочка символов, последовательность битов, часть материала (morceau de matière) или иной первичный компонент (élément brut), записанный в информационной системе, где его можно соотнести с другими объектами и интерпретировать, превратив тем самым в информацию», сопровождающееся примечанием: «Данные - это только один компонент информации или документа. Следовательно, архивирование элементарных данных не имеет смысла, в отличие от операции резервного копирования, которая направлена на восстановление элементов системы в случае сбоя.» Но к понятию «документ» (document) я вернусь позже.

Очевидно, что в начале 21 века мы перешли из сферы информационных технологий в области экономики, повседневной жизни и управления населением. Это огромное изменение, такого масштаба, что «компетентным органам» (хм…) стоило бы взяться за данный вопрос и предложить определение, которое охватывало бы, скажем, как минимум 90% реальных значений терминов «данные» (données - во множественном числе) и «элемент данных» (donnée - в единственном числе), в которых те сегодня используются в публикациях. Это, возможно, помешало бы публиковать «нелепые и неотшлифованные» определения, такие, как то, что можно прочитать в конце последней работы Орели Жан (Aurélie Jean) «Создают ли алгоритмы закон (Les algorithmes font-ils la loi ? , издательство l’Observatoire, https://start.lesechos.fr/innovations-startups/tech-futur/aurelie-jean-les-algorithmes-ne-sont-pas-coupables-les-seuls-responsables-sont-ceux-qui-les-concoivent-1357204 ), где в глоссарии предлагается следующее: «Данные (Data): это информация в форме данных (données), которая описывает физическое или юридическое лицо, страну, компанию, объект или даже сценарий» - заявление столь же шокирующее с лингвистической, как и со смысловой точки зрения (могу лишь предположить, что автор не перечитывала корректуру ...).

К сожалению, в большинстве определений не делается различия между единственным (donnée) и множественным числом (données), а англоязычный термин data используется как имя существительное женского рода в единственном числе, в то время как оно и в латинском языке является существительным среднего рода во множественном числе (чтобы не пришлось использовать ужасно варварское « datas » - за что (вместе с « esse » ) живодёров от правописания могли бы и повесить?). Тем не менее, помимо элемента данных (в английском языке, data element  - это форма единственного числа от data, которое, повторюсь, является существительным во множественном числе), мы должны признать растущее употребление «данных» (donnée) в единственном числе как коллективного единственного числа (singulier collectif) – подобно тому, как мы говорим «электромобиль» (la voiture électrique), « вакцина » (le vaccin)  или « комикс » (la bande dessinée).

В следующем посте я сравню использование понятия «данные» с использованием (или неиспользованием) понятия «документы». Этот пост будет называться «Вытесняются и затмеваются ли документы данными? Часть 2: Данные затмевают документы».

(Продолжение следует, см. http://rusrim.blogspot.com/2021/12/2.html )

Мари-Анн Шабен (Marie-Anne Chabin)

Источник: блог Мари-Анн Шабен
https://www.marieannechabin.fr/2021/11/les-donnees-ont-elles-evince-ou-eclipse-les-documents-1-3/

В.В.Путин о доступе к данным, в том числе к персональным данным

Президент России, выступая 12 ноября 2021 года на конференции по искусственному интеллекту и анализу данных Artificial Intelligence Journey 2021 на тему «Технологии искусственного интеллекта для решения социальных задач», затронул, среди прочего, вопрос о доступе к данным, «без которых невозможно – мы об этом хорошо знаем и не раз уже об этом говорили – развитие многих цифровых технологий».

По мнению В.В.Путина, в этой сфере должны действовать, как минимум, два фундаментальных принципа:

  • «Необходимы эффективные механизмы деперсонализации и хранения данных, а также предельно чёткие, понятные правила предоставления такой анонимной информации; безусловная защита прав и интересов граждан, включая их частную жизнь»;

  • «В современных условиях любая попытка установить монополию на данные ограничивает свободную конкуренцию и экономическое развитие. В этой связи требуется принять законодательные решения, которые обеспечат доступ российских разработчиков искусственного интеллекта, научных организаций, бизнеса к массивам обезличенных данных государства, тем более, что такие, выражаясь на профессиональном сленге, датасеты министерствами и ведомствами уже сформированы у нас. Правительству и Банку России предложено подумать о возможности предоставить аналогичный доступ к массивам обезличенных данных крупнейших отечественных компаний, при этом уделить особое, конечно, внимание безопасности персональной информации граждан!»

Еще один момент выступления был связан с персональными данными граждан:

«Почему личные данные должны принадлежать не самому человеку, а коммерческим, финансовым структурам, у которых он получает те или иные услуги? Это вопрос, - ведь по факту именно так сейчас, к сожалению, часто и происходит. При этом если у гражданина будет полное право распоряжаться массивом данных о себе, он получит возможность передать их, например, другой компании или банку. Благодаря такой информации они смогут предоставить новому клиенту более выгодные продукты, товар или, например, пониженную ставку по кредиту».

«Особое решение следует принять в отношении информации, имеющей критическое значение для безопасности граждан. Речь прежде всего о биометрических данных, которые всё чаще используются для совершения финансовых и других операций … . Считаю, что такая предельно личная информация должна храниться в единой государственной системе биометрической идентификации, то есть государство должно взять на себя ответственность за её хранение и при этом обеспечить свободный доступ к ней банкам, другим организациям, но в полностью зашифрованном виде, исключающем любое внешнее вмешательство, открытый доступ к персональным данным человека».

Мой комментарий: Централизованное хранение биометрических персональных данных ещё не означает их надёжной защищенности, а в случае взлома защиты может привести к масштабным утечкам, имеющим колоссальные и длящиеся десятилетиями негативные последствия. Подобную информацию с самого начала нужно защищать так же, как государственную тайну, а если государство к этому ещё не готово – не торопиться с созданием и наполнением таких систем.

Источник: сайт Президента Российской Федерации
http://www.kremlin.ru/events/president/news/67099

среда, 1 декабря 2021 г.

Национальные Архивы Великобритании: Использование искусственного интеллекта для отбора на архивное хранение электронных государственных документов

Данный материал взят с сайта Национальных Архивов Великобритании.

Цифровая трансформация в органах правительства Великобритании привела к увеличению объёмов и разнообразия государственных документов, - одновременно с уменьшением внимания к организации и структурированию данных. Традиционные процессы, разработанные для бумажных документов, не в состоянии справиться с объемами, разнообразием, сложностью и распределенной природой электронных документов министерств и ведомств.

В рамках выполненного Национальными Архивами Великобритании проекта был исследован потенциал для решения этой проблемы инструментов на основе искусственного интеллекта (ИИ). Пять поставщиков ИИ-решений применили свои инструменты для классификации предоставленного Национальными Архивами набора данных. Оценивались следующие инструменты и платформы: Adlib Elevate, Amazon Web Services, Microsoft Azure, InSight от компании Iron Mountain и Records365 от компании RecordPoint. В целом, были получены обнадёживающие результаты, при этом ни один инструмент или подход не смог систематически превзойти все другие при выполнении всех задач.

В рамках проекта было обнаружено, что, хотя искусственный интеллект и не может заменить опыт специалистов по управлению документами, однако доступные на рынке ИИ-инструменты и конвейеры могут успешно помочь в решении задачи по отбору документов из полуструктурированных и неструктурированных массивов документов. Данные продукты продолжают эволюционировать, и сейчас подходящее время для того, чтобы наладить взаимодействие с поставщиками и повлиять на направления развития этих продуктов.

В документе под названием «Использование искусственного интеллекта для отбора электронных документов в государственных органах» (Using AI for Digital Selection in Government, https://cdn.nationalarchives.gov.uk/documents/using-ai-digital-selection-in-government.pdf ) описаны основные результаты данного проекта, а также даны рекомендации для государственных органов, желающих внедрить собственное решение на основе искусственного интеллекта. Руководство адресовано должностным лицам государственных органов, которые знакомы с процессами экспертизы ценности, отбора, анализа и передачи документов на постоянное хранение в Национальные Архивы.

В рамках проекта для проведения анализа имеющихся на рынке инструментов искусственного интеллекта был привлечён опытный маркетолог. Поставщики подготовили отчёты, объясняющие причины выбора определённых продуктов. Каждый поставщик предоставил отчёт в конце проекта (ссылки на них приведены ниже). В рамках проекта Национальные Архивы также разработал «инструмент для сравнительного анализа» (benchmarking tool); в упомянутом выше документе представлена подробная информация об этом инструменте.

Рекомендации и основные результаты проекта

Дополнительные материалы проекта

Отчёты поставщиков

Источник: сайт Национальных Архивов Великобритании
https://www.nationalarchives.gov.uk/information-management/manage-information/preserving-digital-records/research-collaboration/using-ai-for-digital-selection-in-government/

В.В.Путин о проблемах внедрения искусственного интеллекта в России

Президент России В.В.Путин 12 ноября 2021 года принял участие в основной дискуссии на конференции по искусственному интеллекту и анализу данных Artificial Intelligence Journey 2021 на тему «Технологии искусственного интеллекта для решения социальных задач».

В.В.Путин отметил, что «трансформация затрагивает не только экономику, но и социальную сферу, систему государственного управления. И ключевую роль здесь, конечно, играют большие данные, искусственный интеллект».

Президент подчеркнул, что тот «кто лучше использует мощный технологический потенциал в интересах людей, их благополучия, тот в современном мире и выигрывает, выигрывает в глобальной конкуренции, и мы обязательно должны быть здесь среди лидеров – имею в виду нашу страну, Россию».

«Нам нужно повсеместно наращивать темпы цифровой трансформации и от отдельных экспериментов, «пилотных» инициатив в максимально короткие сроки перейти к запуску сквозных проектов внедрения искусственного интеллекта, прежде всего в тех сферах, которые определяют качество жизни человека. Словом, нужно сделать так, чтобы технологии будущего уже сегодня становились доступными, служили всем гражданам страны, работали на достижение наших национальных целей развития. Именно в этом и состоит миссия государства, учёных, инженеров, инновационного бизнеса».

«Нужно как можно быстрее убирать все явно избыточные барьеры на пути создания и внедрения передовых решений, в том числе в области искусственного интеллекта, формировать нормативную, правовую среду, отвечающую уровню технического прогресса.»

При этом В.В.Путин потребовал не забывать и о другом аспекте – ответственности за принятые решения и действия:

  • «С кого взыскивать ущерб, если, например, беспилотный автомобиль спровоцирует дорожно-транспортное происшествие, а такое в мире уже случалось, уже это есть, и часто органы власти и управления заходят в тупик»;

  • «Как страховать ответственность за действия и в определённых случаях за бездействие роботов и алгоритмов искусственного интеллекта».

Президент поручил Правительству совместно с профессиональным сообществом «отладить эти и другие юридические аспекты внедрения передовых технических решений в рамках экспериментальных правовых режимов, в том числе обеспечить гарантии защиты интеллектуальной собственности на результаты деятельности алгоритмов искусственного интеллекта».

Мой комментарий: Отмечу, что позиция лидеров государств во многом определяет, в каком направлении пойдёт развитие страны, - и радует то, что наш лидер интересуется вопросами использования искусственного интеллекта и больших данных в государственном управлении и деловой деятельности, не одевая при этом «розовые очки».

Источник: сайт Президента Российской Федерации
http://www.kremlin.ru/events/president/news/67099