понедельник, 26 сентября 2022 г.

Росстандарт: Начато публичное обсуждение четырёх частей стандарта ГОСТ Р «Искусственный интеллект. Качество данных для аналитики и машинного обучения»

На сайте NORMACS ( https://www.normacs.info ) с 20 сентября 2022 года открыто публичное обсуждение четырёх частей проекта стандарта ГОСТ Р «Информационные технологии. Искусственный интеллект. Качество данных для аналитики и машинного обучения»:

Обсуждение всех частей продлится до 14 ноября 2022 года; для участия в обсуждении может потребоваться регистрация на сайте.

Стандарт подготовлен Московским государственным университетом имени М.В.Ломоносова» (МГУ имени М.В.Ломоносова) в лице Научно-образовательного центра компетенций в области цифровой экономики МГУ и ООО «Институт развития информационного общества» (ИРИО); внесён Техническим комитетом по стандартизации ТК 164 «Искусственный интеллект».

Стандарт идентичен первым 4 из 6 частей разрабатываемого в настоящее время одноимённого международного стандарта ISO/IEC 5259, Artificial intelligence - Data quality for analytics and machine learning (ML).

Часть 1 «Обзор, терминология и примеры»

Текст проекта документа объёмом 36 страниц можно скачать по адресу https://www.normacs.info/project_files/11659 , а пояснительной записки к нему – по адресу https://www.normacs.info/project_files/11658 .

Во вводной части документа, в частности, отмечается:

«Данный документ предоставляет средства для понимания и сопоставления отдельных документов серии ИСО/МЭК «Искусственный интеллект — качество данных для аналитики и машинного обучения» и является основой для концептуального понимания качества данных для аналитики и машинного обучения. В нем также обсуждаются взаимосвязанные технологии и примеры (например, варианты использования и сценарии использования).»

Содержание документа следующее:

Предисловие
Введение
1. Область применения
2. Нормативные ссылки
3. Термины и определения
4. Обозначения и сокращения
5. Концепции качества данных для аналитики и машинного обучения

5.1. Рекомендации по качеству данных для аналитики и машинного обучения
5.2. Концептуальная структура качества данных для аналитики и машинного обучения
5.3. Жизненный цикл данных для аналитики и машинного обучения

Приложение А (справочное): Сведения о соответствии ссылочных международных стандартов национальным стандартам
Библиография

Оставить свои замечания на проект стандарта можно здесь:  https://www.normacs.info/discussions/8473#8473

Часть 2  «Показатели качества данных»


Текст проекта документа объёмом 68 страниц можно скачать по адресу https://www.normacs.info/project_files/11661 , а пояснительной записки к нему – по адресу https://www.normacs.info/project_files/11660 .

Во вводной части документа, в частности, отмечается:

«В этом документе представлена модель качества данных, показатели качества данных и рекомендации по составлению отчетов о качестве данных в контексте аналитики и машинного обучения. Этот документ основан на серии стандартов ISO 8000, ISO/IEC 25012 и ISO/IEC 25024.

Цель этого документа — помочь организациям достичь своих целей в области качества данных и применима ко всем типам организаций.»

Содержание документа следующее:

Предисловие
1. Область применения
2. Нормативные ссылки
3. Термины и определения
4. Обозначения и сокращения
5. Модель качества данных для аналитики и машинного обучения

5.1. Измерение качества данных в жизненном цикле данных
5.2. Система измерения качества данных
5.3. Модель качества данных
5.4. Характеристики качества данных и меры качества

5.4.1. Общие положения
5.4.2. Переносимость
5.4.3. Понятность
5.4.4. Возможность аудита
5.4.5. Идентифицируемость
5.4.6. Актуальность
5.4.7. Достоверность
5.4.8. Полнота

5.5. Характеристики качества набора данных и меры качества

5.5.1. Общие положения
5.5.2. Масштабируемость данных
5.5.3. Обобщаемость
5.5.4. Эффективность
5.5.5. Представимость
5.5.6. Точность
5.5.7. Согласованность
5.5.8. Релевантность
5.5.9. Своевременность
5.5.10. Репрезентативность
5.5.11. Сбалансированность
5.5.12. Подобие
5.5.13. Разнообразие

6. Методы улучшения качества данных

6.1. Дополнение данных
6.2. Стандартизация данных
6.3. Нормализация данных
6.4. Вменение данных
6.5. Шифрование данных

7. Отчет о качестве данных
Библиография
Приложение А (справочное): Сведения о соответствии ссылочных международных стандартов национальным стандартам
Разработка и документирование функции измерения
UML-модель системы измерения качества данных
Обзор характеристик качества данных и наборов данных

Оставить свои замечания на проект стандарта можно здесь:  https://www.normacs.info/discussions/8474#8474

Часть 3  «Требования и рекомендации по управлению качеством данных»

Текст проекта документа объёмом 54 страниц можно скачать по адресу https://www.normacs.info/project_files/11663 , а пояснительной записки к нему – по адресу https://www.normacs.info/project_files/11662 .

Во вводной части документа, в частности, отмечается:

«Этот документ определяет требования и рекомендации по созданию, внедрению, поддержке и постоянному повышению качества данных, используемых в областях аналитики и машинного обучения. В документе не определяются детально сам процесс, методы или показатели. Он содержит требования и рекомендации для организации процесса управления качеством, а также эталонный процесс и методы, которые могут быть адаптированы для выполнения данных требований. Требования и рекомендации, изложенные в этом документе, являются общими и предназначены для применения ко всем организациям, независимо от их типа, размера или характера.»

Содержание документа следующее:

Предисловие
Введение
1. Область применения
2. Нормативные ссылки
3. Термины и определения
4. Обозначения и сокращения
5. Требования к соответствию
6. Общее управление качеством данных
7. Рекомендации и требования, относящиеся к жизненному циклу управления качеством данных
8. Горизонтальные процессы
9. Управление качеством данных в цепочках поставок
10. Управление средствами обработки данных
11. Управление зависимостями качества данных
12. Управление качеством данных по конкретному проекту
Библиография
Приложение А (справочное) Сведения о соответствии ссылочных международных стандартов национальным стандартам

Оставить свои замечания на проект стандарта можно здесь:  https://www.normacs.info/discussions/8475#8475

Часть 4 «Инструментарий для мониторинга качества данных»

Текст проекта документа объёмом 51 страница можно скачать по адресу https://www.normacs.info/project_files/11665 , а пояснительной записки к нему – по адресу https://www.normacs.info/project_files/11664 .

Во вводной части документа, в частности, отмечается:

«В этом документе представлены общие организационные подходы, независимо от типа, размера или характера организации-заявителя, для обеспечения качества данных используемых для обучения и оценки в области аналитики и машинного обучения. Он включает руководство по процессу обеспечения качества данных для: машинного обучения с учителем в отношении маркировки данных, используемых для обучения систем машинного обучения, включая общие организационные подходы к маркировке обучающих данных; машинного обучения без учителя; с привлечение учителя; обучения с подкреплением; аналитики.

Настоящий документ применим к данным обучения и оценки, которые поступают из разных источников, включая сбор и объединение данных, подготовку данных, маркировку данных, оценку и использование данных, но не определяет конкретные услуги, платформы или инструменты.»

Содержание документа следующее:

Предисловие
Введение
1. Область применения
2. Нормативные ссылки
3. Термины и определения
4. Обозначения и сокращения
5. Принципы процесса обеспечения качества данных
6. Структура процесса качества данных
7. Процесс качества данных для машинного обучения
8. Методы и процесс маркировки данных
9. Роли участников
10. Процесс обеспечения качества данных для машинного обучения с подкреплением
11. Процесс качества данных для обучения с подкреплением
12. Процесс обеспечения качества данных для аналитики
Библиография
Приложение А (справочное) Сведения о соответствии ссылочных международных стандартов национальным стандартам

Оставить свои замечания на проект стандарта можно здесь:  https://www.normacs.info/discussions/8476#8476

Источник: сайт NORMACS
https://www.normacs.info/projects/10618   
https://www.normacs.info/projects/10619   
https://www.normacs.info/projects/10620   
https://www.normacs.info/projects/10621  

воскресенье, 25 сентября 2022 г.

Первый шаг, который следует сделать, если в Вашей организации документы находятся в «дыре»

Данный пост австралийского специалиста в области управления документами и информацией Карла Мелроуза (Karl Melrose – на фото) был опубликован 29 августа 2022 года на его блоге Meta-IRM (Мета-управление информацией и документами)

Первый шаг, который следует сделать, если в Вашей организации документы находятся в «дыре» - это взять на себя ответственность за эту дыру.

Первый шаг в лидерстве - это взять на себя ответственность. Лидерство - это то, что Вам придётся делать, если Вы хотите перемен.

В ситуациях, когда есть потребность в изменениях, можно выделить два типа людей:

  • Есть люди, которые ведут других за собой;

  • Есть люди, которые стоят и ждут, пока кто-то другой поведёт их за собой.

Карл Мелроуз (Karl Melrose)

Источник: блог Meta-IRM
https://metairm.substack.com/p/the-first-step-if-records-is-in-a

США: Национальный институт стандартов и технологий (NIST) опубликовал отчёт NISTIR 8286C «Описание рисков кибербезопасности для целей управления корпоративными рисками и надзора со стороны руководства»

Данная новость была опубликована в сентябре 2022 года в новостной рассылке и на сайте Национального института стандартов и технологий (NIST).

В сентябре 2022 года сайт американского Национального института стандартов и технологий (National Institute of Standards and Technology, NIST) сообщил о публикации внутреннего отчёта (NIST Internal Report) NISTIR 8286C «Описание рисков кибербезопасности для целей управления корпоративными рисками и надзора со стороны руководства» (Staging Cybersecurity Risks for Enterprise Risk Management and Governance Oversight) объёмом 43 страницы, см. https://csrc.nist.gov/publications/detail/nistir/8286c/final (прямая ссылка на PDF-файл:  https://nvlpubs.nist.gov/nistpubs/ir/2022/NIST.IR.8286C.pdf ).

Настоящий отчёт завершает цикл интеграции управления рисками кибербезопасности (cybersecurity risk management, CSRM) и управления корпоративными рисками (enterprise risk management, ERM), описанный в документах серии NISTIR 8286.

Данный документ является третьим документов в серии публикаций, дополняющих межведомственный / внутренний отчет NISTIR 8286 «Интеграция кибербезопасности и корпоративного менеджмента риска» (Integrating Cybersecurity and Enterprise Risk Management (ERM) – об этом документе см. также мой пост http://rusrim.blogspot.com/2020/11/nist-nistir-8286.html - Н.Х.).

В публикациях этой серии содержатся дополнительные сведения о корпоративном применении сведений о рисках кибербезопасности. В ранее опубликованные документы NISTIR 8286A и NISTIR 8286B включены подробные рекомендации по вопросам менеджмента риска для заинтересованных сторон и сведения о методах оценки и управления рисками кибербезопасности в свете корпоративных целей.

Отчёт NISTIR 8286C описывает, как задокументированная в реестрах рисков кибербезопасности (cybersecurity risk registers, CSRR) информация может быть интегрирована в рамках целостного подхода, обеспечивающего надлежащий учёт рисков для информации и технологий в рамках портфеля корпоративных рисков. Это согласованное понимание поддерживает корпоративный реестр рисков (enterprise risk register, ERR) и корпоративный профиль рисков (enterprise risk profile, ERP), которые, в свою очередь, способствуют достижению корпоративных целей.

NISTIR 8286C описывает методы объединения информации о рисках со всего предприятия, включая примеры агрегирования и нормализации результатов из реестров рисков кибербезопасности (CSRR) с учётом параметров риска, критериев и влияния риска на деловую деятельность. Полученная в итоге интеграция и нормализация информации о рисках используется при принятии связанных с риском решений и мониторинге рисков на корпоративном уровне, что помогает создать всеобъемлющую комплексную картину кибер-рисков. В отчёте описывается создание корпоративного профиля рисков (ERP), который поддерживает сравнение и управление кибер-рисками наряду с рисками других типов.

Содержание документа следующее:

Резюме для руководства
1. Введение
2. Агрегация и нормализация реестров рисков кибербезопасности
3. Интеграция риска кибербезопасности в ERR/ERP
4. Стратегическое управление рисками как основа управления рисками кибербезопасности
5. Мониторинг, оценка и корректировка рисков кибербезопасности
Литература

Отчёт NISTIR 8286C сочетается с несколькими другими отчетами NIST:

  • NISTIR 8286 «Интеграция кибербезопасности и корпоративного менеджмента риска» (Integrating Cybersecurity and Enterprise Risk Management (ERM)) - основополагающий документ, описывающий процессы высокого уровня, см. https://csrc.nist.gov/publications/detail/nistir/8286/final (а также мой пост http://rusrim.blogspot.com/2020/11/nist-nistir-8286.html - Н.Х.)

  • NISTIR 8286A «Выявление и оценка рисков кибербезопас6ности для целей корпоративного управления рисками» (Identifying and Estimating Cybersecurity Risk for Enterprise Risk Management) - описывает идентификацию и анализ рисков, см. https://csrc.nist.gov/publications/detail/nistir/8286a/final

  • NIST IR 8286B «Приоритизация рисков кибербезопасности для целей корпоративного управления рисками» (Prioritizing Cybersecurity Risk for Enterprise Risk Management) - описывает методы применения корпоративных целей для определения приоритетов выявленных рисков и последующего выбора и применения адекватных мер реагирования, см. https://csrc.nist.gov/publications/detail/nistir/8286b/final

  • NIST IR 8286D «Использование результатов анализа воздействия на деловую деятельность для приоритизации рисков и реагирования» (Using Business Impact Analysis to Inform Risk Prioritization and Response) -  описывает, как анализ воздействия на деловую деятельность (business impact analysis, BIA) может помочь оценивать воздействие на активы предприятия, включая расширение аспектов BIA-анализа путем добавления конфиденциальности и целостности к существующим вопросам доступности, см. https://csrc.nist.gov/publications/detail/nistir/8286d/draft

Серия публикаций NISTIR 8286 даёт возможность специалистам-практикам по управлению рисками более полно интегрировать деятельность по управлению рисками кибербезопасности (CSRM) в более широкие корпоративные процессы управления рисками.

Поскольку информация и технологии представляют собой одни из самых ценных ресурсов предприятия, крайне важно, чтобы у представителей высшего руководства всегда было чёткое представление о степени риска кибербезопасности. Точно так же крайне важно, чтобы те, кто занимается выявлением, оценкой и обработкой рисков кибербезопасности, понимали стратегические цели предприятия при принятии связанных с рисками решений.

Авторы серии NISTIR 8286 надеются, что эти публикации инициируют дальнейшее обсуждение в отрасли. По мере продолжения разработки NIST-ом концепций и руководств, поддерживающих применения и интеграции информации и технологий, многие из содержащихся в документах серии положений будут рассмотрены на предмет их включения в эти концепции.

Источник: сайт NIST
https://csrc.nist.gov/publications/detail/nistir/8286c/final
https://nvlpubs.nist.gov/nistpubs/ir/2022/NIST.IR.8286C.pdf

суббота, 24 сентября 2022 г.

Нейронно-алгоритмическое мышление: Подход к решению запутанных проблем реального мира с алгоритмической элегантностью

Данная заметка Дика Вейсингера (Dick Weisinger – на фото) была опубликована 24 августа 2022 года на блоге компании Formtek.

Использование нейронных сетей в исследованиях в области искусственного интеллекта (ИИ) привело к весьма впечатляющим результатам ( https://towardsdatascience.com/the-5-deep-learning-breakthroughs-you-should-know-about-df27674ccdf2 ), в числе которых можно назвать:

  • Классификация и выявление графических образов – определение того, какие объекты присутствуют в изображении;

  • Генерация текста, который может быть написан в определённом стиле и по определённой теме;

  • Перевод с одного языка на другой;

  • Генерация изображений объектов или людей, которых не существует в реальности.

Сами по себе нейронные сети относительно просты. Они состоят из узлов, которые получают входные данные, выполняют их простую обработку, а затем производят новые выходные данные. Волшебство происходит тогда, когда создается сеть, которая объединяет и располагает по слоям миллионы узлов. Хотя выполняемая отдельным узлом работа не очень интересна, однако результаты, полученные от большой сети взаимодействующих узлов, могут быть поразительными.

В настоящее время исследователи стремятся усовершенствовать и сделать «умнее» внутренние механизмы нейронных сетей, интегрируя их со стандартными алгоритмами или известными принципами. Улучшения могут означать потребность в меньшем количестве данных для обучения и в создании возможностей для получения ещё более глубоких аналитических результатов.

Исследователи из проекта Google DeepMind Петар Величкович (Petar Veličković, https://petar-v.com/ ) и Чарльз Бланделл (Charles Blundell, http://www.gatsby.ucl.ac.uk/~ucgtcbl/ ) пишут, что «алгоритмы обладают принципиально иными качествами в сравнении с методами глубокого обучения, и на этом основании можно высказать предположение о том, что, если бы методы глубокого обучения могли лучше имитировать алгоритмы, то обобщения такого рода, что наблюдаются при использовании алгоритмов, стали бы возможными и с помощью глубокого обучения – нечто находящееся далеко за пределами досягаемости современных методов машинного обучения. Кроме того, представляя элементы в непрерывном пространстве обученных алгоритмов, нейронные сети могут более близко адаптировать известные алгоритмы к реальным проблемам, потенциально находя более эффективные и прагматичные решения, чем те, которые предлагают ученые-компьютерщики» (см. https://arxiv.org/abs/2105.02761 ).

Хотя алгоритмы часто отличаются элегантностью выдаваемых ими решений, они часто требуют введения допущений и приближений, чтобы проблема могла быть решена. Сочетание алгоритмов с нейронными сетями позволяет сохранять эту элегантность, одновременно давая возможность решать более сложные задачи, которые более точно отражают реальность.

Дик Вейсингер (Dick Weisinger)

Источник: блог компании Formtek
https://formtek.com/blog/neural-algorithmic-reasoning-an-approach-for-solving-messy-real-world-problems-with-algorithmic-elegance/