пятница, 3 октября 2025 г.

«То, что мы можем это сделать, не означает, что мы должны это делать»: Открытые данные, беспорядок с машинной обработкой и несколько извлеченных уроков

Данный пост эксперта в области управления электронными документами, эксперта ИСО от США Энди Поттера (Andy Potter - на фото) был опубликован 27 августа 2025 года в социальной сети Substack.

27 августа в Бристоле (Великобритания) на конференции 2025 года (см. https://openingdoors.eventsair.com/ara2025/ ) Ассоциация архивистов и специалистов по управлению документами Великобритании и Ирландии (Archives and Records Association UK and Ireland, ARA) под названием «Следующее поколение: Инновации и воображение в управлении документами» (Next Generation: Innovation and Imagination in Record Keeping) на послеобеденной сессии выступили специалисты по исследовательским данных из библиотеки Бристольского университета, полные решимости не дать нам заснуть. 

Определённый тон задало уже само название их доклада: «То, что мы можем это сделать, не означает, что мы должны это делать: Прототипирование инструментов машинного обучения для мониторинга и оценки научно-исследовательских данных» (Just because we can doesn’t mean we should: prototyping machine learning tools to monitor and assess research data). И, справедливости ради, следует отметить, что разговор о воспроизводимости и машинном обучении вовсе не был таким скучным и монотонным, как можно было бы ожидать.

Представление трио докладчиков сочетало авторитетность и индивидуальность: 
  • Д-р Кирсти Мерретт (Dr. Kirsty Merrett), библиотекарь-руководитель службы поддержки исследований с 26-летним стажем работы в Бристольском университете, руководит программой управления научно-исследовательскими данными и публикует открытые наборы данных с контролируемым доступом в университетском репозитории. Она является ярым сторонником принципов FAIR (буквально «справедливый» - в данном случае является сокращением от слов Findability, Accessibility, Interoperability, Reusability – отыскиваемость, доступность, интероперабельность и повторное использование – Н.Х.), особенно в сложной сфере качественных данных; 
  • Вместе с ней работала Джейд Годсолл (Jade Godsall), ранее специализировавшаяся на средневековой литературе, а ныне помощник библиотекаря-руководителя службы поддержки исследований в Бристоле, чей карьерный путь провёл её от рукописей до машинного обучения, - которая сейчас также интересуется вопросами обеспечения сохранности и доступности цифровых данных; 
  • Последний член команды - Кристофер Уоррен (Christopher Warren), ещё один помощник библиотекаря-руководителя службы поддержки исследований, который днями занимается поддержкой жизненного цикла исследовательских данных, а вечера посвящает воспитанию детей.

Тема их выступления была простой, но провокационной: даже если мы можем измерить воспроизводимость, должны ли мы это делать?


«То, что мы можем это сделать, не означает, что мы должны это делать: Прототипирование инструментов машинного обучения для мониторинга и оценки научно-исследовательских данных»

Представители Бристольского университета рассказали нам о пилотных проектах Британской сети воспроизводимости результатов (UK Reproducibility Network, https://www.ukrn.org/ ) – восьми проектах, в рамках которых тестируется способность учреждений и поставщиков решений сотрудничать в разработке прототипов инструментов машинного обучения для оценки открытых научно-исследовательских практик. Цели этих звучали разумно: создать адекватные, надёжные и этичные индикаторы для таких вещей, как доступность данных, предварительная регистрация и кредитоспособность. Но, как отметили докладчики, индикаторы имеют смысл тогда и только тогда, когда они отражают реальную практику, а не только алгоритмическое хитроумие.

Были чётко сформулированы этические проблемы. Слишком часто инструменты демонстрируют улучшения в алгоритмах, а не в культуре. Если информационные панели (dashboards) показывают, что открытость «улучшается», но это происходит только потому, что программное обеспечение стало лучше анализировать громоздкие утверждения - это бесплодная победа. Суть хорошо передали запоминающиеся метафоры уровней открытости, от «открытости, которой может воспользоваться даже собака» (dog-level open - напоминает старую рекламу компании Lycos, где даже лабрадор мог пользоваться интернетом) до ужасных «тёмных данных» (dark data).

«Контролируемые утверждения имеют важное значение». 
— Группа исследователей данных Бристольского университета


Затем Кристофер повёл нас в дебри методологии. Группа собрала более 2600 документов и передала их трём поставщикам. Результаты [оценки степени открытости и возможности повторного использования – Н.Х.] оказались почти комичными: один поставщик сообщил о 299 пригодных для использования результатах, другой - о 1187, ещё один - о 2672. «Были некоторые расхождения в оценках», - пошутил Кристофер. 

Машины отлично справлялись с текстом, когда тот был понятным и простым, - но как только появлялись качественные данные или музейные архивные документы, они начинали «спотыкаться». Описания наборов данных целых репозиториев оказались нераспознанными. В одном поразительном случае 77% наборов данных, которые следовало классифицировать как доступные «от учреждения по запросу», были ошибочно классифицированы как «от автора по запросу».

Джейд завершила доклад напоминанием о практической истине: контролируемые утверждения (типовые формы – Н.Х.) имеют большое значение. Когда исследователи использовали стандартный шаблон для заявления о доступности данных, инструменты машинного обучения распознавали его с точностью 93%. В отсутствие такого шаблона точность резко падала, до 64%. Вывод был ясен: если мы хотим, чтобы инструменты работали, нам нужна последовательность при описании и публикации данных.

Трио завершило свой выступление предупреждением. Машинное обучение может справляться с простыми задачами, однако если мы станем слишком сильно и слишком рано на него полагаться, то рискуем нанести ущерб целым дисциплинам, особенно гуманитарным, социальным наукам и GLAM-областям (деятельности галерей, библиотек, архивов и музеев - Galleries, Libraries, Archives and Museums, GLAM – Н.Х.), чьи данные не вписываются в чёткие технические категории. Этический мониторинг также по-прежнему требует человеческого суждения.

Я сидел в зале, размышляя над уже знакомой мыслью: это как раз того рода сложная междисциплинарная задача, где могли бы помочь стандарты. Единообразные шаблоны, согласованные словари и метаданные в предсказуемых местах пусть и не «гламурны», но именно они делают возможной интероперабельность. И здесь я не мог не вспомнить усилия технического комитета TC 46 «Информация и документация» Международной организации по стандартизации (ИСО), в особенности его подкомитета SC9 «Идентификация и описание» (Identification and Description). 

Подкомитет SC9 уже давно занимается созданием «строительных лесов», поддерживающих отыскание информации, её цитирование и обеспечивающих доверие к ней: это постоянные идентификаторы, схемы метаданных, модели интероперабельности и контролируемые словари. Результаты этой работы поддерживают всё, от цифровых идентификаторов объекта (DOI) для результатов исследований (стандарт ISO 26324), международных идентификаторов стандартных наименований (ISNI) для авторов (ISO 27729) и международных стандартных книжных номеров (ISBN) для книг (ISO 2108), и до нарождающихся концепций идентификаторов для цифровых объектов и авторитетных данных.

Но дело не только в идентификации. В структуре технического комитета TC 46 есть подкомитет SC4 «Техническая интероперабельность» (Technical interoperability), изучающий, каким образом системы «разговаривают» друг с другом. Подкомитет поддерживает протоколы и форматы обмена, позволяющие взаимодействовать репозиториям и каталогам. Вспомните о стандартах:
  • ISO 23950:1998 «Информация и документация - Поиск информации (Z 39.50) - Определение службы приложений и спецификация протокола для поиска информации» (Information and documentation - Information retrieval (Z39.50) - Application service definition and protocol specification), см. https://www.iso.org/standard/27446.html 

    Мой комментарий: Z39.50 - это международный стандарт клиент-серверного протокола прикладного уровня для поиска и извлечения информации из базы данных по компьютерной сети TCP/IP, разработанный и поддерживаемый Библиотекой Конгресса США. Название происходит от американского национального стандарта ANSI/NISO Z39.50-2003 (см. https://www.niso.org/publications/ansiniso-z3950-2003-s2014 ), в котором он впервые был описан.

  • ISO 2709:2008 «Информация и документация - Формат для информационного обмена» (Information and documentation - Format for information exchange), см. https://www.iso.org/standard/41319.html , и 

  • ISO 2146:2010 «Информация и документация. Регистрационные услуги для библиотек и аналогичных организаций» (Information and documentation - Registry services for libraries and related organizations), см. https://www.iso.org/standard/44936.html для служб реестров. 
Именно такого рода технические спецификации позволяют надёжным образом собирать структурированные метаданные и передавать их между системами.

Когда группа представителей Бристольского университета отметила, что непоследовательные заявления о данных, использование неконтролируемого языка и непоследовательность при размещении метаданных делают автоматизированный мониторинг ненадёжным, я не мог не услышать в этом обращение к подкомитетам SC4 и SC9. Системы идентификаторов и концептуальные структуры описания необходимы, это так, - но также необходимы технические спецификации, обеспечивающие согласованную реализацию этих концептуальных структур на различных платформах.

Разочарования, прозвучавшие в ходе этой сессии, – ускользающие из виду репозитории данных, плохо поддающиеся автоматической обработке заявления о наборах данных в свободной форме, и целые дисциплины, данные которых невидимы для машинного обучения, – всё это как раз относится к сфере деятельности подкомитетов SC9 и SC4. Чтобы научно-исследовательские данные всех дисциплин были доступны для поиска, повторного использования и машинной обработки, необходим именно такой международный консенсус в отношении идентификаторов, размещения метаданных и протоколов обмена, на достижении которого специализируются эти подкомитеты.

Ведь вопрос воспроизводимости – это вопрос не только науку о данных или машинного обучения. Речь идёт о стратегическом управлении, о структуре и о дисциплине в сообществе. И именно здесь мир стандартов, и в особенности совместные усилия подкомитета SC9 по идентификации и описанию и подкомитета SC4 по интероперабельности, могут по-настоящему сыграть свою роль.

Эндрю Поттер (Andrew Potter)

Источник: сайт Substack
https://metaarchivist.substack.com/p/just-because-we-can-doesnt-mean-we 

Комментариев нет:

Отправить комментарий