29 марта 2024 года в публикуемом издательством Cell Press онлайн-журнале Patterns («Закономерности») была опубликована любопытная статья Миры Десаи (Meera A. Desai), Ирен Паскетто (Irene V. Pasquetto), Эбигейл Джейкобс (Abigail Z. Jacobs) и Даллас Кард (Dallas Card) под названием «Архивная точка зрения на обучающие данные» (An archival perspective on pretraining data).
Статья объёмом 11 страниц доступна как для чтения онлайн ( https://doi.org/10.1016/j.patter.2024.100966 ), так и для скачивания в виде PDF-файла ( https://www.cell.com/action/showPdf?pii=S2666-3899%2824%2900074-6 ).
Статья наиболее интересна тем, что эта одна из крайне редких публикаций, в которых архивисты не просто пытаются выйти за рамки традиционных документов и обратить внимание на данные, но и изучают наборы данных, используемые для обучения моделей искусственного интеллекта.
Ниже приведен перевод двух вводных и заключительного разделов статьи:
Общая картина
Большие языковые модели (large language models, LLM) стали применяться повсеместно, при этом они крайне зависимы от данных, на которых они обучаются. Эти обучающие наборы данных сами по себе являются самостоятельными артефактами, которые – помимо их роли в формировании результатов модели - повторно используются, надстраиваются и легитимизуются.
Мы изучаем сходство между обучающими наборами данных и архивами: и те, и другие представляют собой коллекции разнообразных социокультурных материалов, которые опосредуют производство знаний и тем самым наделяют властью тех, кто отбирает, документирует и контролирует доступ к ним.
Мы обсуждаем ограниченность существующих подходов к комплектованию обучающих наборов данных и задаёмся вопросом, какие голоса становятся слышны сильнее или же заглушаются? Кому причиняется ущерб? Чьи точки зрения принимаются или подразумеваются по умолчанию?
Мы подчёркиваем необходимость в проведении дополнительных исследований этих наборов данных и методов, с помощью которых они формируются, и предлагаем возможные пути продвижения вперёд, опираясь на идеи архивной науки.
Краткое содержание
Наряду с бурным ростом исследований и разработок, связанных с большими языковыми моделями, одновременно наблюдается и рост усилий по созданию обучающих наборов данных - масштабных коллекций текстов, обычно взятых из Интернета.
Опираясь на результаты архивной науки, мы анализируем обучающие наборы данных, рассматривая их как неформальные архивы — неоднородные коллекции разнообразных материалов, которые опосредуют доступ к знаниям.
Мы используем эту концептуальную структуру для того, чтобы выявить влияние создания и использования обучающих данных за рамками прямого формирования поведения модели, - и показать, как выбор того, что именно включается в состав обучающих данных, обязательно включает в себя субъективные решения, касающиеся ценности. При этом архивная точка зрения помогает нам определить возможности для исследователей, которые изучают социальные последствия технологий, внести свой вклад в решение проблем, а также компромиссы, которые возникают при формировании обучающих наборов данных такого масштаба.
Заключение
Отбор обучающих данных для пребольших языковых моделей (LLM) в основном рассматривался как инженерная деятельность. Однако курирование обучающих данных -это также политический процесс, в котором как сам артефакт (обучающие данные), так и любые модели, обученные на нём, будут иметь культурные и политические последствия, которые, как правило, редко принимаются во внимание.
Мы исходим их архивной точки зрения на обучающие данные, предлагая рассматривать их возможности как неформальных архивов, а также процессы их формирования.
Мы обращаем внимание на то, как распространённые практики разработки LLM-моделей организованы вокруг решения конкретных проблем, таких как смягчение конкретных рисков для неприкосновенности частной жизни, - которые на деле оказываются практиками экспертизы ценности.
Архивная точка зрения указывает на источники власти при принятии инженерных решений, связанных с обучающими данными. В конечном счете, такой концептуальный подход предлагает путь вперед для изучения не только данных, но и систем, которые их производят.
Источник: сайт издательства Cell Press
https://doi.org/10.1016/j.patter.2024.100966
https://www.cell.com/action/showPdf?pii=S2666-3899%2824%2900074-6
Подписаться на:
Комментарии к сообщению (Atom)
Комментариев нет:
Отправить комментарий