пятница, 5 июня 2026 г.

Локальный ИИ-помощник PlumA для архивного описания документов с использованием ИИ

Данная заметка испанского специалиста, исполнительного директора Испанского общества научной документации и информации (Sociedad Española de Documentación e Información Científica, SEDIC) Виктора Вильяпалоса Пардиньяса (Víctor Villapalos Pardiñas – на фото) была опубликована 14 мая 2026 года в социальной сети LinkedIn,

Новые локальные ИИ-помощники для архивного описания: Локальный ИИ-помощник PlumA для архивного описания документов с использованием ИИ

Мой комментарий: Эта новость интересна тем, что она показывает – начали разрабатываться специализированные ИИ-инструменты для архивистов.

После нескольких месяцев итеративной разработки и завершения закрытого альфа-тестирования я выпускаю первую публичную бета-версию решения PlumA - инструмента с открытым исходным кодом, призванного помочь архивистам в выполнении одной из самых рутинных задач повседневной архивной работы: извлечения из документов структурированной информации и её сопоставлении с международными стандартами архивного описания.

Решение PlumA не заменяет архивиста, не автоматизирует процесс принятия профессиональных суждений. Программа считывает оцифрованный документ и предлагает варианты значений для полей, опираясь на стандарты архивного описания ISAD(G), DACS, ISAAR(CPF), ISDF, ISDIAH, а также на упрощенную модель нового стандарта архивного описания «Документы в контекстах» (RiC). При этом каждое предложение программы подкрепляется обосновывающими его буквальными цитатами из исходного документа.

Специалист-человек сохраняет контроль над процессом: он просматривает, корректирует и принимает окончательное решение о том, какие данные следует передать в ArchivesSpace, AtoM или любую иную систему архивного описания.

Основная идея, лежащая в основе решения PlumA, проста: многие архивные документы нельзя отправлять на обработку в облачные ИИ-сервисы. Организационно-распорядительная документация, персональные данные, метрические книги, нотариальные акты и чувствительные документы организаций требуют иного подхода.

Именно поэтому решение PlumA работает полностью локально, используя контейнерную платформу Docker и локальный движок ИИ на базе Ollama. После установки программы, документы не покидают компьютер архивиста. В системе отсутствуют телеметрия, внешняя обработка данных и подключения к удаленным серверам.

В первую бета-версию включены следующие функциональные возможности:

  • Поддержка стандартов архивного описания ISAD(G), DACS, ISAAR(CPF), ISDF, ISDIAH и упрощенного варианта RiC;

  • Режимы извлечения данных: извлечение только важнейших данных, полное извлечение данных и настраиваемый (пользовательский) режим;

  • Автоматическое определение типа документа;

  • Поддержка текстовых и сканированных PDF-файлов, документов формата DOCX, а также файлов изображений;

  • Экспорт данных в форматы JSON, CSV, EAD3 и EAC-CPF;

  • Предложения и заполнении полей, подкрепляемые цитатами из источника, с использованием индикаторов уверенности;

  • Двуязычный интерфейс (испанский и английский языки).

Данная версия по-прежнему находится на стадии бета-тестирования. Она предназначена для целей тестирования, обучения, демонстрации возможностей, а также для выполнения контролируемых пилотных проектов с использованием материалов коллекций, не содержащих конфиденциальной информации. Данный инструмент пока не предназначен для промышленной эксплуатации при работе с конфиденциальными документами организаций или же для пакетной обработки без контроля со стороны оператора.

Решение PlumA является частью более широкого набора локальных архивных инструментов с открытым исходным кодом, который я разрабатываю для поддержки выполнения типовых профессиональных задач: описания документов, создания авторитетных записей и словарей, обеспечения интероперабельности, а также для подготовки научно-справочного аппарата.

Я буду признателен за отзывы и предложения от архивистов, специалистов по управлению документами, преподавателей архивного дела и специалистов галерей, библиотек, архивов и музеев (GLAM).

Ссылка на репозиторий: https://github.com/Token-Vean/Pluma 

Релиз v0.5.0-beta доступен по адресу: https://github.com/Token-Vean/Pluma/releases/tag/v0.5.0-beta ; см. также https://github.com/Token-Vean/Pluma/releases 

Решение PlumA распространяется под лицензией GNU AGPL-3.0.

Виктор Вильяпалос Пардиньяс (Víctor Villapalos Pardiñas)

Источник: сайт LinkedIn
https://www.linkedin.com/feed/update/urn:li:activity:7458244092368625664 
https://www.linkedin.com/feed/update/urn:li:groupPost:2620672-7458243834502672385  

четверг, 4 июня 2026 г.

«Такими они уродились»: Размышления на симпозиуме Национальной библиотеки Норвегии об изначально-электронных личных архивах (3)

(Окончание, предыдущую часть см. http://rusrim.blogspot.com/2026/06/2_0926872896.html )

Что в приоритете: идеальные сведения о происхождении или защита персональных данных? Этические дилеммы в электронных личных архивах

Оскар Рюдеберг (Oscar Rüdeberg) из Национальной библиотеки Швеции ( https://www.kb.se/ )  представил результаты работы по исследованию подходов к обеспечению сохранности данных на магнитных носителях.

Его концепция «внешнего мониторинга» (external monitoring – под которым понимается создание и сохранение полных образов носителей информации – Н.Х.) были особенно актуальна как в контексте тематики симпозиума, так и с точки зрения сопоставления с аналогичной работой, проводимой Библиотеками и архивами Кембриджского университета (University of Cambridge Libraries and Archives). Были описаны две стратегии, каждая из которых имеет свои сильные стороны и проблемные особенности.


Слайд с описанием двух подходов к «внешнему мониторингу»

Создание полных образов дисков (как это делается в цифровой криминалистике – Н.Х.) позволяет сохранить, наряду с целенаправленно созданными документами, также и удалённые файлы, системные файлы, следы действий пользователя и скрытые метаданные. Такие подходы могут обеспечить максимально полную информацию о происхождении и повысить ценность данных для будущих исследований, однако при этом возникают вопросы этики и неприкосновенности частной жизни (защиты персональных данных).

Я высоко оценила приведенный ниже слайд, на котором приведены размышления о прошлых процессах передачи на архивное хранение в сравнении с будущими, в которых подчеркивается необходимость пересмотра существующих методов по мере накопления информации и опыта.

Мой комментарий: Из слайда видно, что в настоящее время образы носителей информации создаются по умолчанию, но не предоставляются пользователям архивов в отсутствие явного согласия источника комплектования. В будущем предполагается перейти на более жёсткий (в плане защиты конфиденциальности) режим, когда такие образы будут создаваться и использоваться только с согласия источника комплектования.

Документирование приобретений в архивных учреждениях

Томас Хвид Кроманн (Thomas Hvid Kromann) из Королевской библиотеки Дании ( https://www.kb.dk/ ) предложил переходить от представления об архивных документах только как об источниках для исследований к рассмотрению самих этих архивных документов в качестве объектов исследования. Следствием такого подхода является необходимость осмысления исследователями архивных процессов в своей работе; а для архивных учреждений – необходимость обеспечения того, чтобы их действия были тщательно изучены, задокументированы, прозрачны и подотчётны.

В своем докладе он сфокусировал внимание на документировании архивной деятельности: на решениях по отбору материалов для приобретения, на решениях по упорядочению документов, на действиях по обеспечению долговременной сохранности, на ограничениях доступа; и на роли архивистов как со-создателей архива, в том числе создания документации или иных выходных результатов для цифрового контента в архиве.

Это стало важным напоминанием о том, что архивная практика формирует коллекции, - и будущим исследователям, возможно, потребуется понять, как именно это происходит.

 
Итоговый слайд, подчёркивающий важность документирования различных аспектов деятельности архивов

Исследование изначально-электронных архивов: Пробелы, пересечения и темы в двух норвежских коллекциях материалов из сети Usenet

Заключительный доклад Титы Энстад (Tita Enstad) и Йона Тённессена (Jon Tønnessen) из Национальной библиотеки Норвегии (NLN) был посвящен сети Usenet (см. https://ru.wikipedia.org/wiki/Usenet ) - ранней социальной онлайн-платформе и предшественнице многих более поздних онлайн-сообществ.

В докладе были рассмотрены проблемы, связанные с пробелами, пересечениями, некорректной каталогизацией, хранением на унаследованных CD-R носителях и с подготовкой исторических наборов данных для проведения анализа с использованием вычислительных методов. В данном случае материалы сети Usenet были депонированы в NLN на CD-R дисках и отражены в каталоге как журнал, что затрудняло их поиск.


Описание коллекции материалов из Usenet в фондах Национальной библиотеки Норвегии 

Контент Usenet также захватывался «Интернет-Архивом» (Internet Archive), поэтому значительная часть работы заключалась в определении с использованием вычислительных методов того, какой контент присутствовал в обеих или только в одной из этих коллекций.

Особенно интересным извлечённым уроком оказалась потребность в моделях на языках, отличных от английского, для проведения вычислительного анализа контента на том языке, на котором он был создан.


Слайд с итогами исследования

Мы также узнали, что Национальная библиотека Норвегии создала ИИ-лабораторию для изучения использования искусственного интеллекта в контексте библиотек, архивов и музеев, а также для проведения исследований и разработок с целью создания ресурсов для более широкого сообщества.

Заключительные мысли

Больше всего на симпозиуме меня порадовала его прозрачность. Ни один из выступавших, будь то представители национальных библиотек, университетов или региональных архивов, не претендовал на то, что нашёл окончательное решение проблемы изначально-электронных личных архивов. Вместо этого коллеги делились информацией об экспериментах, ограничениях, компромиссах и извлеченных уроках.

Изначально-электронные архивные документы и архивы поступают в наши учреждения [архивы, библиотеки и музеи – Н.Х.], и это происходит уже в течение некоторого времени. Эти материалы имеют исключительную научно-исследовательскую ценность, но они также могут создавать риски, неопределенности и сложности. Перед нашей профессией стоит сейчас вызов, заключающийся не в том, стоит ли иметь с ними дело, а в том, как делать это ответственно, жизнеспособным образом и на основе сотрудничества.

Я благодарна Бенте (Bente), Эллен (Ellen), Метте (Mette) и Ребекке (Rebecca) из NLN за приглашение на симпозиум и за щедрое гостеприимство. Для меня было честью внести свой вклад и самой поучиться у таких вдумчивых коллег из нашей отрасли.

Примечание: Все изображения в этом посте были сделаны или созданы автором. Интеллектуальный контент, представленный на этих изображениях, принадлежит соответствующим авторам.

Кейлин Смит (Caylin Smith) 

Источник: блог «Обеспечение электронной сохранности в библиотеках и архивах Кембриджского университета»
https://digitalpreservation-blog.lib.cam.ac.uk/born-this-way-reflections-from-the-national-library-of-norway-symposium-on-born-digital-personal-912ce2c6de3a 

Верховный Суд проанализирует и обобщит судебную практику по делам, связанным с использованием искусственного интеллекта

27 мая 2026 года на официальном сайте Верховного Суда Российской Федерации была опубликована новость о том, что «в целях формирования единообразных подходов к правоприменению в условиях стремительного развития цифровых технологий» Председатель Верховного Суда Российской Федерации Игорь Краснов дал поручение о проведении всестороннего анализа судебных дел, затрагивающих сферу использования технологий искусственного интеллекта (ИИ). Отмечается, что такое обобщение проводится впервые в масштабах страны и с учетом всех видов судопроизводства.

Перед судами поставлен ряд конкретных задач. В первую очередь, им предстоит оценить, насколько часто использование ИИ становится предметом судебных споров или совершенных правонарушений.

При анализе особое внимание будет обращено на возмещение вреда, причиненного решениями ИИ, и на вопрос выбора надлежащего ответчика по таким искам. Отдельный блок будет посвящён защите чести, достоинства и деловой репутации при распространении порочащих сведений, созданных с помощью ИИ, включая случаи использования высокотехнологических фальшивок (дипфейков), а также защите интеллектуальной собственности, в том числе при обучении больших языковых моделей без согласия автора.

Кроме того, план обобщения включает изучение административных и уголовных дел по вопросам 

  • Оспаривания решений властей, принятых на основе предложений ИИ;

  • Фиксации правонарушений системами видеоаналитики и распознавания лиц;

  • Квалификации преступлений с использованием дипфейков и мошеннических схем с чат-ботами. 

Судам предстоит оценить практику признания доказательствами документов и заключений, сформированных ИИ, а также случаи обжалования судебных актов по тем мотивам, что судья использовал ИИ-инструменты для их вынесения.

По результатам изучения судебной практики Верховный Суд, при необходимости, даст разъяснения для обеспечения её единообразия, а полученные данные смогут стать ориентиром для законодателя при решении вопроса о выборе модели правового регулирования исследуемой сферы. 

В свою очередь Верховный Суд в рамках предоставленных ему полномочий также может выступить с инициативой о корректировке действующего законодательства. 

Мой комментарий: Данное решение признаёт то, что ИИ уже стал реальностью в рамках судебной практики. Суды уже столкнулись с дипфейками, ботами-мошенниками, спорами об авторских правах на «творчество» нейросетей и вопросами ответственности за вред, причинённый автоматическими системами.

Инициатива Верховного Суда направлена на то, чтобы ликвидировать правовую неопределенность и дать судам на местах четкие ориентиры, подсказывающие, как действовать в тех или иных ситуациях. Полученные результаты могут быть учтены при работе над российским законом об искусственном интеллекте.

Для справки: 21-22 мая 2026 г. в Москве в Конгресс-центр ГК «Cosmos Moscow» прошел Всероссийский профессиональный форум АРХИВЫ-2026. Я выступала на Форуме с докладом «Оценка судами доказательств, созданных с использованием ИИ» см.: https://assud.ru/professionalnyj-forum-arhivy-2026/ 

Это актуальная тема находится на стыке цифровых технологий, права и управления документацией, а вопросы юридической значимости электронных документов и доказательств, сформированных с помощью систем искусственного интеллекта, являются одной из сложных и обсуждаемых проблем современного документооборота и судопроизводства.

Источник: Сайт Верховного Суда Российской Федерации
https://www.vsrf.ru/press_center/news/35924/ 

среда, 3 июня 2026 г.

«Такими они уродились»: Размышления на симпозиуме Национальной библиотеки Норвегии об изначально-электронных личных архивах (2)

(Продолжение, начало см. http://rusrim.blogspot.com/2026/06/1_0344722029.html )

«Такими они уродились»: Управление изначально-электронными архивами от их приобретения до предоставления к ним доступа

Это был мой доклад, который, вместо описания примера работы с личным архивом, был посвящён тому, как специалисты в области электронной сохранности (т.е. по обеспечению долговременной сохранности электронных материалов - digital preservation) могут поддерживать усилия архивистов, работающих с изначально-электронными материалами, посредством разработки для них соответствующих сервисов.

Группа библиотек Кембриджского университета по обеспечения электронной сохранности работает над созданием взаимосвязанных сервисов, охватывающих весь жизненный цикл цифровых коллекций. Сюда входят сервисы депонирования, передачи цифровых файлов и метаданных, и обеспечения безопасного доступа к изначально-электронным специальным коллекциям, а также рабочие процессы хранилища, инструментарий для проведения экспертизы ценности файлов и других вспомогательных меры и средства управления.


Слайд об инструментах и сервисах, поддерживающих работу с изначально-электронными материалами перед их приёмом на постоянное хранение

Один из ключевых уроков, которыми я хотела поделиться, заключается в том, что проблемы изначально-электронных архивов редко могут быть решены с помощью какого-то одного инструмента. Для работы с ними необходимы скоординированные системы, политики и сотрудничество представителей различных профессий. В нашем случае мы воспользовались опытом коллег из наших групп консервации и цифровым услуг; инструментом сканирования и архивирования веб-контента Browsertrix ( https://webrecorder.net/browsertrix/ ) и помощью сотрудников и волонтеров Центра компьютерной истории в Кембридже (Centre for Computing History, https://www.computinghistory.org.uk/ ).

Электронное архивирование в Швейцарском литературном архиве: Текущее состояние и процедуры

Кристель Родер (Kristel Roder) из Швейцарской национальной библиотеки ( https://www.nb.admin.ch/en ) рассказала об электронном архивировании в контексте швейцарских литературных архивов.

В своем докладе она проиллюстрировала, как личные архивы часто поступают в руки архивистов, имея весьма специфические технические зависимости. Одна коллекция библиотеки включала более ста дискет, а другая - жёсткий диск, извлечённый из компьютера Atari, для изучения которого требовались специальные знания и оборудование.

Кристель также привела пример специализированной «криминалистической» рабочей станции, собранной на основе игрового компьютера (см. рис. ниже).
 

В докладе было показано, что технические проблемы могут варьироваться от простых задач по созданию цифровых образов носителей информации до восстановления файлов, зависящих от устаревшего программного обеспечения и оборудования, а также от наличия специальных знаний.

Использование возможностей муниципальной цифровой инфраструктуры: Дорога от государственных документов к личным архивам

Rolf Holte (Рольф Хольте) из архива норвежской губернии (фюльке) Вестфолд (в восточной Норвегии – Н.Х.) задался вопросом о том, чего можно добиться, если повторно использовать для личных архивов инфраструктуру, разработанную для государственных документов.

Опираясь на ресурсы норвежского «Цифрового ресурсного центра муниципальных архивных учреждений» (Kommunearkivinstitusjonenes Digitale Ressurssenter, KDRS, https://www.kdrs.no/ ) и на отлаженные рабочие процессы для муниципальных электронных документов, он исследовал, каким образом конвейеры обработки, используемые для структурированных архивных документов государственного сектора, могут быть адаптированы для работы с частными и коммерческими архивными документами.

В его докладе также было привлечено внимание к недавно опубликованному руководству по частным электронным архивам, которое адресовано архивистам частного сектора и рассказывает о том, как можно «продавать» руководству своих организаций идею передачи документов на депозитарное хранение в государственные архивы.


Слайд о норвежском руководстве для частных электронных архивов

Мой комментарий: Речь идёт об опубликованном в марте 2026 года руководстве «Извлечение из частного сектора и обеспечение сохранности созданных в цифровом виде архивных материалов» (Uttrekk og bevaring av digitalt skapt arkivmateriale fra næringslivet – Veileder) объёмом 67 страниц, см. https://www.nasjonalarkivet.no/content/uploads/2026/03/Vestfoldarkivet_Veilederen.pdf 

(Окончание следует, см. http://rusrim.blogspot.com/2026/06/3_01351863457.html )

Кейлин Смит (Caylin Smith) 

Источник: блог «Обеспечение электронной сохранности в библиотеках и архивах Кембриджского университета»
https://digitalpreservation-blog.lib.cam.ac.uk/born-this-way-reflections-from-the-national-library-of-norway-symposium-on-born-digital-personal-912ce2c6de3a