понедельник, 7 июня 2021 г.

Китай: Ускорение применения технологий искусственного интеллекта в управлении документами и архивном деле

Предлагаемая статья Чжу Чена  (祝 成, Zhu Cheng) была впервые опубликована 14 января 2021 года в 3628-м выпуске «Китайских архивных новостей» (《中国档案报》, http://www.zgdazxw.com.cn/ ). Её китайское название: «加快人工智能技术在档案管理工作中的应用». 18 января 2021 года она была выложена на сайте Сети подготовки специалистов в области архивного дела и управления документами (档案管理信息网 , Archives management training network).


В последние годы технология искусственного интеллекта стремительно развивалась, вызывая изменения во многих областях. Она стала национальной стратегической технологией, за которой гоняются правительства, отрасли, научно-исследовательские институты и потребительские рынки. Эта технология проникла во все аспекты работы и жизни людей, и играет огромную роль в улучшении качестве жизни, в повышении эффективности труда и в содействии социальному развитию.

Китай придаёт большое значение развитию технологии искусственного интеллекта, и страна сформулировала связанные с искусственным интеллектом политики на национальном, отраслевом и местном уровнях, с тем, чтобы активно содействовать развитию и применению данной технологии. В процессе своей стратегической трансформации архивная отрасль также активно осваивает технологию искусственного интеллекта. В настоящее время ряд архивных учреждений взял на себя лидирующую роль во внедрении и проведении исследовательских работ на основе технологии искусственного интеллекта, и уже удалось достичь определенных результатов.

С точки зрения текущей ситуации с развитием технологии искусственного интеллекта и насущных потребностей архивной отрасли, данная технология в основном может использоваться в четырех типовых вариантах применения, а именно:

  • Оцифровка архивных материалов;

  • Классификация и контроль;

  • Повышение качества и восстановление цвета архивных изображений; а также

  • «Умная» безопасность.

Первый вариант применения - это работа по оцифровке архивных материалов. «Оцифровка» - это популярный термин, который в последние годы получил широкое распространение в архивной отрасли. Целью оцифровки архивных материалов является распознавание содержимого графических изображений, аудиовизуальных записей и иных материалов и преобразование их в информацию, которую можно редактировать, обрабатывать, анализировать и искать с помощью компьютера. Оцифровку архивных материалов можно разделить на четыре типа: распознавание текста (OCR) в электронных копиях бумажных документов; оцифровка фотографий; оцифровка аудиозаписей и оцифровка видеоматериалов.

На фоне энергичных усилий Государственного архивного управления Китая (国家档案局 , далее Госархив) по реализации стратегии «оцифровки и повышения качества архивных фондов», оцифровка по всему Китаю архивных фондов на всех уровнях архивов дала замечательные результаты. По состоянию на конец 2019 года, суммарный объём электронных копий архивных документов, созданных китайскими архивами всех уровней, достиг в масштабах страны 14 миллионов гигабайт. Некоторые региональные архивные управления приступили к полнотекстовому распознаванию отсканированных бумажных документов.

Исходя из текущей ситуации, Госархив в декабре 2019 года выпустил стандарт DA/T 77-2019 «Требования к распознаванию текста в электронных копиях бумажных документов» ( 纸质档案数字复制件光学字符识别(OCR)工作规范 , самоназвание на английском языке: Specification for optical character recognition (OCR) of digital copies of paper-based records), что указывает на то, что данный вид работ повсеместно осуществляется в архивной отрасли.

Качество OCR-распознавания на основе технологии искусственного интеллекта, в случае упрощённого печатного текста (не будем забывать, речь идёт о китайских иероглифах, распознавать которые намного сложнее, чем фонетические алфавиты – Н.Х.) превысило 98% (это примерно тот уровень качества, когда обеспечение 100% точности итогового текста, когда в этом есть необходимость, уже не требует колоссальных дополнительных трудозатрат – Н.Х.), что обеспечивает техническую поддержку непрерывных усилий архивов по выполнению такого вида работ.

В последние годы быстро развивалась технология распознавания речи, и качество распознавания речи на стандартном диалекте китайского языка превысило 97%. Технология распознавания лиц также становится более зрелой, и она начала широко использоваться в сфере безопасности, аутентификации при выполнении финансовых транзакций и в других областях.

В то же время, по мере постоянного развития технологий обработки изображений и снижения затрат на хранение, объёмы цифровых аудио- и видеоархивов продолжают расти. Архивные учреждения и службы также активно изучают возможности «полной оцифровки» цифровых аудиовидеоархивов и проводят соответствующие исследования на основе технологий искусственного интеллекта, в ходе которых достигнуты большие успехи. Так, Архивы провинции Чжэцзян (浙江省档案馆) и компания iFlytek (科大讯飞 - частично государственная компания, известная своими решениями для распознавания речи и работами в области искусственного интеллекта - Н.Х.) совместно выполнили научно-технический проект Госархива «Исследование приложений технологии искусственного интеллекта для упорядочения и использования аудиовизуальных архивных материалов». В проекте, посредством комплексного использования распознавания голоса, распознавания лиц и иных технологий, речь преобразуется в текст, обеспечивается «умная» группировка по людям и т.д. Результаты проекта были официально опубликованы 3 сентября 2020 года.

Вторая область применения - это область классификации и рассекречивания. Классификация документов и вопросы определения степени их секретности (конфиденциальности) - это два различных вида работ, но с технической точки зрения между ними есть общие черты, поэтому автор объединяет их в одну категорию для целей анализа.

Классификация и установление сроков хранения всегда были основными задачами в сфере управления документами, однако из-за недостаточного внимания и отсутствия специалистов эта работа всегда для ряда архивных учреждений и служб низших уровней создавала непростые проблемы. Использование технологии искусственного интеллекта для содействия недостаточно опытному персоналу архивно-документационных в выполнении работы по классификации документов может решить сложные проблемы управления документами в организациях, поможет повысить эффективность и точность упорядочения документов и, таким образом, определенно имеет практическую ценность.

Сложность, высокий риск и высокая ответственность за результаты рассекречивания; ограниченное количество экспертов соответствующей квалификации и несогласованные друг с другом стандарты в определенной степени препятствовали раскрытию архивных документов для общественности. Недавно пересмотренный Закон об архивах официально вступил в силу, и одним из основных нововведений стало сокращение периода ограничения доступа к архивным материалам, расширение состава раскрываемых документов, расширение спектра каналов и методов раскрытия, а также появление конкретных положений об ответственности должностных лиц, не обеспечивающих раскрытие архивных документов в соответствии с законом. Данный шаг, несомненно, будет способствовать дальнейшему увеличению доступности архивов.

В настоящее время некоторые архивные учреждения и службы берут на себя ведущую роль в проведении исследований и прикладных работ на основе технологии искусственного интеллекта. Так, например, компания China Mobile Communications Group Jiangsu Co. Ltd. (中国移动通信集团江苏有限公司) на основе ИИ-алгоритма TextCNN (Text Classification Using a Convolutional Neural Network – «классификация текста с использованием свёрточной нейросети»; это алгоритм, использующий свёрточную нейронную сеть для классификации текста) проводит работу по определению сроков хранения документов.

Архивное управление провинции Аньхой (安徽省档案局) и компания iFlytek совместно выполнили научно-технический проект Госархива «Применение технологии искусственного интеллекта для контроля над документами» (人工智能技术在档案划控上的应用), помогая управляющему документами персоналу определять конфиденциальность документов и выбирать надлежащие меры контроля и управления.

Третья область применения – повышение качества и восстановление цвета архивных изображений. К 70-летию основания Китайской Народной Республики Центральный архив выпустил самую длительную и полную цветную видеозапись церемонии основания КНР, вызвавшую огромную сенсацию в Интернете. Эта видеозапись была показана или перевыложена крупными СМИ, и уже за первые 24 часа. количество просмотров достигло 320 миллионов.

При создании примерно тогда же вышедшего в прокат фильма «Решающий момент» (《决战时刻》) много средств было потрачено на восстановление цвета черно-белых фотографий церемонии основания КНР и повышение их разрешения до 4K, что также вызвало больший общественный резонанс.


Архивные изображения после улучшения качества и восстановления цвета в определенной степени изменили свой первоначальный вид, и их больше нельзя рассматривать и использовать как «архивные» документы. Однако в нашу информационную эпоху чёткие и красочные исторические изображения могут не только разжечь любопытство людей и повысить их интерес к истории, стимулировать чувство национальной гордости – они также позволяют в полной мере продемонстрировать роль архивов в патриотической пропаганде и воспитании.

В этой связи усилия по восстановлению цвета и повышению качества архивных изображений имеют определенное социальное значение. Второй исследовательский отдел Института архивной науки и технологий Госархива провёл соответствующие эксперименты в этой области и подало заявку на выполнение проекта по данной теме. Следующим шагом будет продолжение прикладных исследований в области повышения качества и восстановления цвета архивных изображений на основе технологии искусственного интеллекта.

Четвертая область применения – «умные» подходы к обеспечению безопасности. К настоящему времени интеллектуальные технологии обеспечения безопасности достигли очень высокого уровня зрелости. Начиная от строительства безопасного города в 2005 году до строительства «умного» города, начатого в 2011 году, а также включая такие ключевые проекты в сфере безопасности, как «проект Skynet» (天网工程 – масштабная китайская система видеонаблюдения, обеспечивающая идентификацию пешеходов в реальном времени – Н.Х.), «проекта Xueliang» (雪亮工程 – проект наблюдения и мониторинга, ставящий задачу обеспечит покрытие всех общественных мест и территорий в стране – Н.Х.), тень технологии искусственного интеллекта можно увидеть повсюду.

В рамках создания «умных» (интеллектуальных) архивов, многие архивные учреждения и службы включили интеллектуальные системы безопасности в свои планы и программы внедрения. В настоящее время передовые интеллектуальные системы безопасности в основном используют технологии мультимодального распознавания, которая объединяет распознавание лиц, походки, характерных особенностей и голоса человека, что дополнительно повышает уровень безопасности, поддерживаемый такой системой, и обеспечивает более качественную техническую поддержку безопасности деятельности архивов.

В настоящее время технология искусственного интеллекта становится всё более зрелой, и такие функции, как распознавание текста, содержащего упрощённые китайские иероглифы (применяются в КНР, в отличие от Тайваня и некоторых других стран и регионов – Н.Х.), и речи на официальном северокитайском диалекте, уже могут напрямую применяться при работе с документами.

На данном этапе развития технологии искусственного интеллекта, чтобы расширить спектр вариантов её применения, необходимо продолжить работу по оптимизации алгоритмов, по разработке моделей и обучению, другие работы по внедрению ИИ-технологий, - а также инвестировать определенные средства.

Чтобы идти в ногу со временем, нам необходимо продолжить изучение вариантов применения технологий искусственного интеллекта в управлении документами и архивном деле, активизировать исследования и усилия по внедрению этих технологий, как можно скорее разработать и улучшить соответствующие стандарты. Нужно стремиться к тому, чтобы сформировать междисциплинарные группы специалистов, которые обладают знаниями как в сфере технологий, так и в архивном деле, а также научно обоснованно использовать информационные технологии нового поколения для ускорения стратегической трансформации деятельности архивов.

Чжу Чен  (祝 成, Zhu Cheng)

Источник: Сеть подготовки специалистов в области архивного дела и управления документами
http://www.dapx.org/shownews.asp?ID=528
http://www.zgdazxw.com.cn/news/2021-01/15/content_316467.htm

Комментариев нет:

Отправить комментарий