среда, 24 января 2024 г.

Международный совет архивов опубликовал первую версию нового стандарта архивного описания «Документы в контекстах»

Данная новость была опубликована 16 января 2024 года на веб-сайте технического подкомитета ИСО TC46/SC11 «Управление документами» (Archives/records management).

Экспертная группа Международного совета архивов по архивному описанию (Experts Group on Archival Description, EGAD) объявляет о выпуске версии 1.0 стандарта архивного описания «Документы в контекстах» (Records in Contexts, RiC, также EGAD-RiC). Данный стандарт включает в себя три ключевых компонента (см. https://github.com/ICA-EGAD ):

Четвертый компонент «Документы в контекстах – Рекомендации по применению» (Records in Contexts – Application Guidelines, RiC-AG), находится на стадии планирования, и работу над ним предполагается начать в 2024 году.


Это событие знаменует собой выпуск в свет первой стабильной всесторонней версии стандарта RiC, что представляет собой значительный прогресс в разработке стандартов архивного описания. Стандарт RiC заменяет четыре существующих стандарта Международного совета архивов:

Эти стандарты по-прежнему будут доступны на сайте МСА.

В версию 1.0 включены изменения, сделанные на основе многочисленных (всего 165) замечаний и предложений, поступивших от профессионального сообщества. Эти замечания и предложения будут опубликованы вместе с решениями группы EGAD в репозитории ICA/EGAD на сайте GitHub в начале 2024 года.

В числе наиболее значительных изменений - переименование первого компонента из «Введение в архивное описание» (Introduction to Archival Description) в «Основы архивного описания»; корректировки концептуальной модели и сокращение количества объектов, относящихся к дате, с четырёх до одного. Онтология согласована с Концептуальной моделью и содержит 105 классов, 61 свойство типов данных и 400 свойств объектов, что делает её более компактной, однако с расширенными функциональными возможностями по сравнению с версией 0.2.

Источник: сайт МСА
https://committee.iso.org/sites/tc46sc11/home/news/content-left-area/news-about-standarization-in-t-1/ica-s-egad-releases-version-1-0.html
https://www.ica.org/en/records-in-contexts-conceptual-model

Задачи обработки естественного языка и варианты применения ИИ в архивном деле и управлении документами

В последнее время архивисты и специалисты по управлению документами активно изучают вопрос о возможности применения искусственного интеллекта (ИИ) в своих сферах деятельности, а также выявляют специфические аспекты документирования работы ИИ-систем и управления созданным с помощью ИИ-технологий контентом – включая, в том числе, такие темы, как документирование сведений о происхождении данных, используемых для машинного обучения.

Поскольку сейчас во всем мире архивная наука и документоведение переживают упадок, эти усилия, к сожалению, чаще всего сводятся к составлению списков литературы и проведению опросов среди архивистов и специалистов по управлению документами (большинство из которых пока что имеет об ИИ и его возможностях весьма отдаленное представление) – в результате чего на свет появляются очень странные аналитические отчёты.

Оказывается, здесь нам могут помочь представители других профессий.

Применение ИИ в архивах и в сфере управления документами – это в значительной степени использование технологий обработки естественного языка (natural language processing, NLP), которая в международном стандарте ISO/IEC 22989:2022 «Информационные технологии - Искусственный интеллект – Понятия и терминология в области искусственного интеллекта» (Information technology - Artificial intelligence - Artificial intelligence concepts and terminology, о нём см. http://rusrim.blogspot.com/2022/08/isoiec-229892022.html ) определяется следующим образом:

3.6.7. Естественный язык (natural language): язык, который активно используется или ранее активно использовался сообществом людей, правила которого обусловлены практикой его применения.

Примечания:

1 Естественным языком является любой человеческий язык, который может быть выражен в виде текста, речи, языка жестов и т.д.

2 Естественным языком является любой язык общения между людьми, такой как русский, английский, испанский, арабский, китайский или японский языки. Естественные языки следует отличать от языков программирования и формальных языков, таких как Java, Fortran, C++ или логика (исчисление предикатов) первого порядка.

3.6.9. Обработка естественного языка (natural language processing, NLP): <система> обработка информации на основе понимания естественного языка и/или генерация естественного языка.

3.6.10. Обработка естественного языка (natural language processing, NLP): <дисциплина> дисциплина, изучающая то, как системы воспринимают, обрабатывают и интерпретируют естественный язык.

Недавно мне в руки попал план-проспект технического отчёта ISO/IEC TR 23281 «Искусственный интеллект – Обзор задач и функциональных возможностей ИИ, связанных с обработкой естественного языка» (Artificial Intelligence - Overview of AI tasks and functionalities related to natural language processing) объёмом 46 страниц, который, как предполагается, будет в ускоренном порядке разработан подкомитетом SC42 «Искусственный интеллект» (Artificial intelligence) Объединенного технического комитета ИСО/МЭК JTC1 на основе проекта, подготовленного европейским органом по стандартизации  CEN.

Голосование в ИСО и МЭК об открытии этого проекта завершается 17 января 2024 года,  а официально опубликовать готовый технический отчёт предполагается в конце октября 2024 года.

Во вводной части технического отчёта, в частности, отмечается:

«В настоящем документе обсуждается концепция задачи в случае применения ИИ для обработки естественного языка, и описывается ландшафт ИИ-задач, связанных с анализом или генерацией естественного языка, а также других связанных с естественным языком функциональных возможностей, которые ассоциируются с такими ИИ-системами.

В данном документе отражены существующие конкурирующие терминологии, сосуществующие варианты одних и тех же задач и функциональных возможностей, а также показано, как языковое многообразие (в т.ч. любые языки, диалекты и варианты, официальные или неофициальные) может повлиять на конкретные задачи в плане их роли или существующих проблем.

Обсуждаются и иллюстрируются взаимосвязи между задачами и функциональными возможностями, а также их взаимодействие внутри конвейеров.

Кроме того, в документе приводятся ссылки на существующие стандарты и опубликованные руководства, относящиеся к таким задачам и функциональным возможностям, при этом в случае конкурирующих стандартов обращается особое внимание на различия между ними.»

Содержание технического отчёта следующее:

Европейское предисловие
Введение
1. Область применения
2. Нормативные ссылки
3. Термины и определения
4. Сокращения
5. Задачи и функциональные возможности
6. Языковое многообразие
7. Иерархия задач и функциональных возможностей
8. Комбинации задач
Приложение А (справочное): Выявление существующих стандартов для конкретных задач.
Библиография

Для нас в первую очередь представляет интерес содержание седьмого раздела технического отчёта, в котором приведена следующая классификация задач обработки естественного языка, многие из которых потенциально могут найти применение в архивном деле и управлении документами (как самостоятельно, так и в комбинации с другими функциональными возможностями):

Задачи, связанные с поверхностным анализом содержания естественного языка.

  • Идентификация языка
  • Обнаружение границ предложения
  • Токенизация (выделение в тексте базовых смысловых единиц)
  • Лемматизация (lemmatization – приведение слова к канонической форме по итогам морфологического и словарного анализа – Н.Х.)
  • Маркировка частей речи (морфологическая маркировка)
  • Синтаксический анализ
  • Морфологический анализ
  • Устранение неоднозначности смысла слов
  • Выявление и группировка ссылок на одни и те же объекты в различных материалах (coreference resolution – «разрешение кореферентности»; кореферентность (кореферентная связь) определяется как «связь между двумя упоминаниями, которые относятся к одному и тому же элементу действительности» - Н.Х.)
  • Разрешение анафор (о том, что такое «анафора», см.. например, Википедию: https://ru.wikipedia.org/wiki/Анафора_(лингвистика) - Н.Х.)
  • Дискурсивный анализ (дискурс-анализ - discourse parsing; здесь - выявление взаимосвязей между фрагментами текста в документе – например, того, что данный фрагмент расширяет, разъясняет иной фрагмент, противоречит ему или содержит оговорки – Н.Х.)
  • Сегментация документов
  • Сопоставление параллельных наборов контента (parallel corpora alignment) – обычно речь идёт об одних и тех же текстах на различных языках – Н.Х.
  • Обнаружение речевой активности
  • Установление границ устного высказывания
  • Установление границ фразы
  • Выявление смены говорящего
  • Диаризация говорящих (процесс разделения входящего аудиопотока на однородные сегменты в соответствии с принадлежностью аудиопотока тому или иному говорящему, см. https://ru.wikipedia.org/wiki/Диаризация - Википедия)

Задачи, связанные с установлением авторства и профилированием автора

  • Установление авторства
  • Распознавание говорящего
  • Идентификация почерка
  • Анализ стиля
  • Определение роли говорящего
  • Половая идентификация говорящего
  • Выявление случаев выдачи себя за иное лицо (имперсонации)

Задачи, связанные с анализом и интеллектуальным анализом контента

  • Анализ темы
  • Распознавание поименованных объектов
  • Связывание объектов
  • Извлечение отношений
  • Идентификация атрибутов объекта
  • Извлечение утверждений, проверка фактов
  • Анализ настроений
  • Распознавание эмоций
  • Определение намерений пользователя
  • Определение намерений автора
  • Обнаружение оскорбительной речи

Задачи, связанные с анализом и интеллектуальным анализом на уровне массива материалов

  • Рекомендация контента
  • Поиск материалов по содержанию
  • Семантическая кластеризация
  • Тематическая кластеризация

Задачи, связанные с семантикой и смысловым значением

  • Автоматическое извлечение терминологии
  • Индуктивное определение смысла слов
  • Расширение набора терминов
  • Извлечение семантических отношений
  • Обучение представлениям (representation learning)
  • Языковое моделирование

Задачи, связанные с взаимодействием с пользователем

  • Ответы на вопросы
  • Генерация мультимедийного контента на основе подсказок

Задачи, связанные с генерацией лингвистического контента

  • Автоматическое обобщение / резюмирование
  • Машинный перевод
  • Снижение шума в контенте
  • Исправление языковых ошибок
  • Нормализация текста
  • Обработка персональных данных
  • Анонимизация голоса
  • Генерация описания
  • Генерация текста с заданными ограничениями
  • Генерация необусловленного текста (без опоры на источники)
  • Создание субтитров (captioning)
  • Генерация исходного кода
  • Документация исходного кода
  • Генерация пересказа (paraphrase generation)
  • Генерация вопросов
  • Генерация неверных вариантов (distractor generation) при формировании вопросов с несколькими вариантами ответа

Задачи, связанные с преобразованием модальностей

  • Автоматическое распознавание речи
  • Синтез речи на основе текста
  • Оптическое распознавание символов
  • Чтение по губам

Ну а если к эти задачам добавить задачи обработки изображений и звуков, а также экспертизу контента с целью установления сроков хранения и проведения уничтожения / передачи на архивное хранение, конфиденциальности, наличия защищаемых персональных данных, интеллектуальной собственности и т.д. – вполне можно будет сформировать достаточно полную картину возможно применения ИИ в нашей отрасли.

вторник, 23 января 2024 г.

Стратегическое управление данными и искусственным интеллектом: Эволюция традиционного стратегического управления данными в эпоху искусственного интеллекта, часть 1

Данная статья американского специалиста Чарльза Смарта (Charles Smart, https://www.linkedin.com/in/charlessmart/ - на фото) была опубликована 13 октября 2023 года на сайте компании Factspan.

Познакомьтесь с эволюционирующим ландшафтом стратегического управления искусственным интеллектом (ИИ), с воздействием Закона Евросоюза об ИИ и с Единой концепцией стратегического управления ИИ и данными (Unified Data and AI Governance framework). Узнайте, как организации могут ответственно масштабировать ИИ, поддерживать прозрачность и укреплять доверие к ИИ-системам, способствуя справедливому ускорению развития в бизнесе и обществе на основе цифровых технологий.


Искусственный интеллект (ИИ) трансформирует способы, используемые организациями для стратегического оперативного управления данными. По мере того, как ИИ проникает во все отрасли, происходит коренной сдвиг от традиционного стратегического управления данными к более развитой концепции, объединяющей стратегическое управление как данными, так и искусственным интеллектом ( https://www.factspan.com/ ). Эта эволюция имеет критически-важное значение для использования потенциала ИИ и одновременного управления связанными с ним рисками и проблемами.

Основы традиционного стратегического управления данными

Стратегическое управление данными представляет собой всестороннюю концепцию управления, обеспечивающую доступность данных, их пригодность для использования, согласованность, защищённость и соответствие политикам в рамках всей экосистемы корпоративных данных. Она опирается на шесть ключевых столпов:
  • Качество данных: Обеспечение точности, полноты, надёжности и достоверности данных при использовании в деловой деятельности, посредством процессов валидации (проверки), мониторинга и корректировки.

  • Безопасность данных: Защита данных от несанкционированного доступа и утечек с помощью таких мер и средств, как шифрование и меры кибербезопасности.

  • Управление метаданными: Каталогизация и документирование контекста данных, их смысла, структуры, взаимосвязей данных в различных системах и происхождения данных.

  • Политики в отношении данных: Установление политик и стандартов, соответствующих требования законодательства в отношении сбора, порядка и сроков хранения, использования, защиты неприкосновенности частной жизни (персональных данных) и управления жизненным циклом данных.

  • Доступ к данным: Обеспечение аутентифицированного доступа к корпоративным данным на основе политик различных лиц, представляющих различные направления деловой деятельности.

  • Управление жизненным циклом данных: Управление данными по всей цепочке поставок данных, начиная от момента их создания, на протяжении периода их использования и вплоть до уничтожения.
Эта традиционная модель стратегического управления достаточно хорошо подходит для сценариев обработки структурированных данных, однако искусственный интеллект приводит к появлению новых проблем.

Трансформирующие изменения, вызванные искусственным интеллектом

ИИ-системы эффективны лишь настолько, насколько хороши данные, на которых они обучаются. Однако управление ИИ-данными сопряжено с рядом сложностей:
  • Объёмы данных: Обучающие данные ИИ могут включать миллиарды точек из различных источников, что создаёт проблемы для традиционных методов управления.

  • Низкое качество данных: Низкое качество, предвзятость / необъективность или противоречивость обучающих данных существенно влияют на производительность и справедливость ИИ-моделей. Обеспечивать стабильно высокое качество данных становится экспоненциально сложнее при больших объёмах ИИ-данных.

  • Непрозрачность моделей: Внутренние механизмы работы сложных ИИ-моделей часто представляет собой «чёрные ящики», что делает процессы принятия конкретных решений непрозрачными и создаёт проблемы для стратегического управления.

  • Алгоритмическая предвзятость: Обучающие данные, содержащие человеческие предубеждения, могут привести к тому, что ИИ-модели будут принимать предвзятые и неэтичные решения. Постоянное выявление и устранение предвзятости / необъективности имеет критически-важное значение.

  • Повышенные риски для персональных данных: Глубина знаний и представлений, выявленных ИИ на основе анализа закономерностей в данных усиливает, усиливает обеспокоенность в отношении неприкосновенности частной жизни и защищённости персональных данных. Даже если осуществляется анонимизация данных, такая мера способна обеспечить лишь ограниченную защиту от повторной идентификации.

  • Исполнение законодательно-нормативных требований: Расширяющееся использование потребительских данных ИИ-приложениями требует всё большего внимания к исполнению требований таких законов о защите персональных данных, как GDPR, CCPA и т.д.

  • Нехватка знаний и компетенций: Для стратегического управления ИИ требуется сочетание знаний, навыков и компетенций в области стратегического управления данными и информатики, наличие которых обеспечить достаточно сложно, что затрудняет надзор над ИИ-системами.
(Продолжение следует, см. http://rusrim.blogspot.com/2024/01/2_02077082389.html )

Чарльз Смарт (Charles Smart)

Источник: сайт компании Factspan
https://www.factspan.com/blogs/data-and-ai-governance-evolving-traditional-data-governance-in-the-age-of-artificial-intelligence/

Единая государственная информационная система обеспечения градостроительной деятельности «Стройкомплекс.РФ»

Постановлением Правительства РФ от 26 августа 2023 года №1389 утверждены «Правила создания, развития, эксплуатации и ведения единой государственной информационной системы обеспечения градостроительной деятельности «Стройкомплекс.РФ»».

Постановлением установлено, что (п.2):

  • Оператором ЕГИС является Министерство строительства и жилищно-коммунального хозяйства РФ;

  • Официальный сайт ЕГИС в сети «Интернет» находится по адресу: https://stroi.gov.ru .

Постановление вступит в силу со дня ввода единой ГИС «Стройкомплекс.РФ» в эксплуатацию Министерством строительства и жилищно-коммунального хозяйства Российской Федерации.

Содержание Правил:

I. Общие положения

II. Порядок создания, развития, эксплуатации и ведения единой информационной системы

III. Требования к технологическим, программным, лингвистическим, правовым и организационным средствам обеспечения пользования единой информационной системой

IV. Перечень сведений, документов, материалов и иных сведений, включаемых в единую информационную систему, а также порядок их включения в единую информационную систему

V. Порядок предоставления доступа органам государственной власти, органам местного самоуправления, физическим и юридическим лицам к сведениям, содержащимся в единой информационной системе

С использованием единой информационной системы осуществляется сбор, обработка, хранение, предоставление, размещение и использование (п.2)

  • Сведений, которых представляют собой машиночитаемую информацию о развитии территорий, об их застройке, о существующих и планируемых к размещению объектах капитального строительства и иную необходимую для осуществления градостроительной деятельности информацию;

  • Документов, которые, представляют собой структурированную информацию, в том числе машиночитаемую информацию, о развитии территорий, об их застройке, о существующих и планируемых к размещению объектах капитального строительства в виде текста, изображения и (или) их сочетания, имеющую реквизиты, позволяющие ее идентифицировать в целях предоставления, использования и хранения;

  • Материалов, которые представляют собой информацию, в том числе машиночитаемую информацию, о развитии территорий, об их застройке, о существующих и планируемых к размещению объектах капитального строительства в виде текста, изображения и (или) их сочетания, не имеющую реквизитов, позволяющих ее идентифицировать (!?) в целях предоставления, использования и хранения.

Мой комментарий: Интересно, а зачем в информационной системе хранить информацию, которую нельзя идентифицировать? :) Похоже, авторы документа не понимают смысл слова «идентифицировать» применительно к информации и документам – а  также то, что при размещении абсолютно любого контента в информационной системе он автоматически снабжается соответствующими реквизитами. А «ноги» этого безобразия растут из неудачного определения понятия «документ», данного в терминологическом стандарте, разработанном ВНИИДАД. …

ЕИС обеспечивает возможность выгрузки сведений, документов, материалов органами государственной власти, органами местного самоуправления, физическими и юридическими лицами для последующего использования.

Единая информационная система состоит из 13 подсистем (п.6):

ЕИС помимо всего прочего будет обеспечивать (п.7):

  • Использование средств усиленной квалифицированной электронной подписи;

  •  …  хранение (без ограничения срока);

Правовые средства обеспечения пользования ЕИС представляют собой издаваемые оператором (п.10):

  • Организационно-распорядительные документы, необходимые для обеспечения бесперебойного функционирования ЕИС,

  • Разъяснения и иные документы рекомендательного характера по вопросам, связанным с пользованием ЕИС органами государственной власти, органами местного самоуправления, физическими и юридическими лицами.

Включение сведений, документов, материалов и иных сведений в ЕИС осуществляется посредством (п.13):

  • интеграции ГИС обеспечения градостроительной деятельности субъектов Российской Федерации с ЕИС;

  • обеспечения единой информационной системой интеграции с иными ГИС, предусмотренными Градостроительным кодексом РФ;

  • интеграцией с ещё 18 ИС.

Взаимодействие ЕИС с иными информационными системами осуществляется в соответствии с соглашениями об информационном взаимодействии, заключаемыми между оператором ЕИС и операторами иных ИС (п.14).
 
Доступ органов государственной власти, органов местного самоуправления, физических и юридических лиц к сведениям, содержащимся в ЕИС, обеспечивает возможность их получения из ЕИС с учетом требований законодательства РФ о государственной, коммерческой и иной охраняемой законом тайне (п.17).

Доступ обеспечивается посредством официального сайта ЕИС и инфраструктуры, обеспечивающей информационно-технологическое взаимодействие ИС, используемых для предоставления государственных и муниципальных услуг и исполнения государственных и муниципальных функций в электронной форме (п.18).

Отображение сведений, содержащихся в ЕИС, с использованием официального сайта ЕИС осуществляется в режиме просмотра таких сведений без возможности их изменения (п.20).

Мой комментарий: Впечатляют планы развития ещё одной ГИС. В этой системе будет накапливаться колоссальный массив информации и документов по объектам капитального строительства, включая информацию, раскрытие которой в случае её утечки может нанести серьезный ущерб как стране в целом, так и отдельным организациям. Порядок доступа к такой информации и документам нужно тщательно продумывать.

Источник Консультант Плюс
https://www.consultant.ru/cons/cgi/online.cgi?req=doc;base=LAW;n=455644