Данная заметка «пропагандиста открытых знаний и технологий», в прошлом - заместителя директора по архивированию и обслуживанию данных в компании «Internet Archive» Томаса Падилья (Thomas Padilla – на фото, о нём см. https://www.linkedin.com/in/thomas-padilla-57a8238a/ ) была опубликована 4 апреля 2025 года на сайте Inside Higher Ed (IHE – «Внутри высшего образования»).
Учёным будущего потребуется долговечная электронная документальная история технологий искусственного интеллекта (ИИ).
Как нам эффективно обеспечить сохранность истории быстро эволюционирующего искусственного интеллекта?
Как специалист библиотечного дела, специалист по технологиям и организатор сообществ, поработавший в таких учреждениях, как «Интернет-архив» (Internet Archive), Библиотека Конгресса США и университетские исследовательские библиотеки, - я считаю обеспечение долговременной сохранности ИИ ключевой по важности проблемой, которая во многом остается нерешённой. Как можно понять процесс развития общества, не имея постоянного доступа к какой-либо версии инструментов, фундаментальным образом влияющих на то, как производятся знания в наше время?
Мой комментарий: Со своей стороны отмечу, что традиционно при разработке и внедрении инновационных технологий все усилия направляются на достижение желаемых результатов в краткосрочной перспективе, и мало кто задумывается о том, что будет происходить хотя бы через 10 лет. Так, при всём ажиотаже вокруг машинного обучения, практически никто сейчас не думает о том, как через 5-10 лет, когда устареют внедряемые в настоящий момент информационные системы, мигрировать с успешных, но устаревших ИИ-систем на новые, не создавая всё с нуля. Не продумывается также сохранение обученных ИИ-моделей в качестве ключевой научно-технической документации…
Обеспечение долговременной сохранности ИИ
Основные практики обеспечения долговременной сохранности электронных материалов (электронной сохранности - digital preservation), такие как проверка неизменности (fixity), хранение экземпляров данных в географически распределенных местах и требование сохранять данные, по мере возможности, в открытых форматах, закладывают хороший фундамент для усилий по обеспечению долговременной сохранности ИИ.
Эффективное обеспечение сохранности ИИ, однако, зависит от решения ряда вопросов. Когда мы говорим о долговременной сохранности ИИ, что в первую очередь мы понимаем под этим? Говорим ли мы об обеспечение сохранности в архивном смысле (делая акцент, например, на сохранение документов о том, как принимались решения), или же мы также подразумеваем под этим сохранение моделей и обучающих данных?
Как нам следует документировать ИИ, чтобы способствовать его долговременному использованию? Достаточно ли подхода «карты модели» (Model Card, см. https://huggingface.co/docs/hub/model-cards ) компании Hugging Face (американская компания, разрабатывающая инструменты для создания приложений с использованием машинного обучения – Н.Х.) к описанию ИИ и машинного обучения (когда, например, захватываются такие характеристики, как тип модели, язык, лицензия, сведения о предвзятости, риски и ограничения), или же для обеспечения долговременной сохранности требуется иной стандарт курирования?
Если обучающие данные играют ключевую роль при оценке производительности ИИ, то все ли обучающие данные должны быть сохранены? Учитывая существующую в настоящий момент неопределенность в международной среде авторских прав, а также проблемы защиты персональных данных, не следует ли сфокусировать усилия на сохранении информации об обучающих данных, а не на самих обучающих данных? Какие объёмы данных предположительно нам придётся сохранять? Достаточно ли обеспечить сохранность на уровне битов (которая обеспечивает неизменность файлов, однако не гарантирует возможность использования этих файлов в будущих технических средах), или же потребуется эмуляция (что подразумевает использование программного обеспечения для имитации устаревших технических сред)?
Какие стратегии следует использовать для компенсации негативного воздействия усилий по сохранению ИИ на окружающую среду? Сколько стоит обеспечение долговременной сохранности ИИ? Какие модели жизнеспособности следует рассматривать для поддержки долговременной сохранности ИИ?
Какие существенные свойства ИИ необходимо сохранить, чтобы этот ИИ был полезен в будущем?
Партнерства по обеспечению долговременной сохранности ИИ
Учитывая давнюю вовлеченность своих учреждений во внедрение ИИ, библиотекари Университета Карнеги-Меллона (Carnegie Mellon University) и Массачусетского технологического института (Massachusetts Institute of Technology, MIT) активно участвуют в проектах, которые могут способствовать усилиям по обеспечению долговременной сохранности ИИ. Потенциально в рамках усилий по сохранению ИИ могут также быть задействованы современные сервисы обеспечения долговременной сохранности (где лидирующую роль играют библиотеки) и сообщества, такие как EaaSI («Эмуляция как сервисная инфраструктура» - Emulation as a Service Infrastructure), LOCKSS (проект «Множество копий гарантирует сохранность» - Lots of Copies Keep Stuff Safe, о нём также см. подборку постов http://rusrim.blogspot.com/search/label/LOCKSS - Н.Х.) и Коалиция по электронной сохранности (Digital Preservation Coalition, DPC). Каждое из них демонстрирует способность исследовательских библиотек разрабатывать политики и практики, создавать сообщества и инфраструктуру, которые обеспечивают долговременную сохранность и пригодность к использованию данных.
Партнерства по обеспечению долговременной сохранности между поставщиками ИИ-сервисов и учреждениями памяти, такими как исследовательские библиотеки, могут помочь с обеспечением сохранности ИИ. Говоря несколько упрощённо, поставщики ИИ-сервисов, как правило, сосредотачивают своё внимание на разработке и поддержании передовых, максимально полезных версий инструментов, в то время как исследовательские библиотеки, как правило, фокусируют своё внимание на постоянном поддержании ряда объектов ввиду их внутренне присущей и/или артефактной ценности.
Это означает, что исследовательские библиотеки обеспечиваю своим пользователям полезную отдачу отчасти за счет обеспечения долговременного доступа к основным версиям объектов, с тем, чтобы мы могли лучше оценить их воздействие на общество в периоды их использования. Если ИИ является основным столпом Четвертой промышленной революции, то, по-видимому, нам следует попытаться создать максимально полную и долговечную документальную историю этой технологии и её влияния на общество.
На практике имеет смысл начать с сохранения ИИ с открытым исходным кодом, - хотя сохранение ИИ с закрытым исходным кодом, безусловно, также должно быть частью этих усилий, где это возможно. Возможно, триггером усилий по обеспечению долговременной сохранности ИИ с закрытым исходным кодом послужит его вывод из эксплуатации. Тем временем продолжаются дебаты о том, что представляет собой ИИ с открытым исходным кодом, несмотря на активные усилия по формализации данного определения. Анализ условий использования от самопровозглашенных поставщиков ИИ-сервисов с открытым исходным кодом, таких как Meta и Hugging Face, показывает отсутствие каких-либо обязательств по обеспечению долговременной сохранности ИИ. Это не сулит ничего хорошего для понимания событий настоящего времени в будущем.
Существуют прецеденты создания межсекторальных партнёрств по обеспечению долговременной сохранности, из которых нам следует извлечь уроки. Ранее возникшие партнерства занимались такими вещами, как передача научных данных в большую цифровую библиотеку, а кодов - в европейское хранилище данных. Характеристики партнёрств могут различаться, однако для того, чтобы иметь возможность масштабирования, они должны в качестве общей черты включать предоставление сервисам долговременной сохранности соответствующих уровней финансовой поддержки от поставщиков ИИ-сервисов. Федеральная политика и инвестиции (в США – Н.Х.) также должны непосредственным образом принимать во внимание потребности в обеспечении долговременной сохранности ИИ.
Помимо этого, филантропия, безусловно, в состоянии сыграть важную роль в обеспечении сохранности ИИ. Фонд Патрика Макговерна (Patrick J. McGovern Foundation), сеть Омидьяра (Omidyar Network), фонды Макартура и Форда, а также такие проекты, как Current AI («Текущий ИИ»), уже продемонстрировали свою приверженность обеспечению ответственной разработки и развертывания ИИ. Логично, что предпосылкой для достижения этой цели является обеспечение того, чтобы ИИ оставался доступным для изучения и инспекции на постоянной основе.
Нам предстоит работа по согласованию усилий исследовательских библиотек, поставщиков ИИ-сервисов, филантропии и разработчиков политик, чтобы они могли сотрудничать в области обеспечения долговременной сохранности ИИ. Такое согласование будет иметь ключевое значение для ресурсного обеспечения стабильного перехода ИИ от стадии максимальной полезности к артефактному состоянию, в котором он будет доступен для будущих исследований. Долговременная сохранность ИИ может и должна быть обеспечена.
Томас Падилья (Thomas Padilla)
Источник: сайт Inside Higher Ed (IHE)
https://www.insidehighered.com/opinion/views/2025/04/04/ai-preservation-unaddressed-challenge-opinion
понедельник, 28 апреля 2025 г.
Обеспечение долговременной сохранности технологий и результатов искусственного интеллекта
Подписаться на:
Комментарии к сообщению (Atom)
Комментариев нет:
Отправить комментарий