понедельник, 10 сентября 2018 г.

Беседы об управлении документами, эпизод 3: Машинное обучение, часть 1


Заметка авторитетного австралийского специалиста Касси Финдлей (Cassie Findlay) была опубликована 19 августа 2018 года на сайте дискуссионной группы «Круглый стол по вопросам управления документами» (Recordkeeping Roundtable).

Этим эпизодом, в котором обсуждается машинное обучение (machine learning) и его возможные приложения в сфере управления и использования документов, мы завершаем цикл из трёх бесед с директором по электронным технологиям Национальных Архивов Великобритании Джоном Шериданом (John Sheridan).

Мы благодарим Джона за щедрость, с которой он уделил нам своё время и поделился массой интересных идей. Не забудьте подписаться на блог Национальных Архивов Великобритании ( https://blog.nationalarchives.gov.uk/ ), где Вы узнаете новости о многих интересных проектах, которые сейчас выполняются Национальными Архивами.

На данную серию подкастов Вы можете подписаться Google Play ( https://play.google.com/music/m/Iciilsslmfxy2z3l3aocwj2kx2m?t=Recordkeeping_Roundtable ); что касается iTunes, то пока что там есть проблемы с выкладыванием новых подкастов, которые, как мы надеемся, скоро будут решены.

Мой комментарий: аудиозапись доступна на странице по адресу https://rkroundtable.org/2018/08/19/recordkeeping-roundcasts-episode-3-machine-learning/

Касси Финдлей: У нас остается ещё немного времени, поэтому, если Вы не возражаете, мы продолжим нашу беседу.

Джон Шеридан (на фото): Конечно.

Касси Финдлей: Замечательно, поскольку наша третья тема – это тот вопрос, который, как я заметила, всё больше и больше обсуждается представителями нашей профессии, а в Австралии мои бывшие коллеги даже провели ряд интересных экспериментов. Я говорю о машинном обучении (machine learning).

Так, например, архивно-документационная служба австралийского штата Новый Южный Уэльс (State Archives and Records New South Wales) недавно сообщила о проведенном ею пилотном проекте, и я видела посты на блоге Национальных Архивов Великобритании о Ваших собственных экспериментах.

Наверное, я ставлю довольно широкий вопрос – я хотела бы спросить Вас о том, что Вы делаете для тестирования технологий машинного обучения и их приложений для управления, поиска и использования документов.

Джон Шеридан: Наша основная задача сейчас - просто накапливать, в качестве архивного учреждения, знания и понимание подходов, используемых в машинном обучении, его возможностей, областей, где эта технология могла бы эффективно применяться, а также направлений деятельности, где мы могли бы сравнительно легко её освоить и использовать. Мы, например, провели в Национальных Архивах двухдневный «хакатон» (говоря по-простому, не очень формальный семинар – Н.Х) по машинному обучению, в рамках которого мы дали нашим сотрудникам, главным образом специалистам по информационным технологиям, базовые знания об основных алгоритмах машинного обучения и о некоторых инструментах в т.ч. программных библиотеках, которые можно использовать, если есть желание выполнить проект в области (или с использованием технологий) машинного обучения, чтобы впоследствии привлечь группы специалистов к работе уже над собственными проектами.

У нас имеется на примете удивительно разнообразный набор потенциальных приложений. Примером может служить попытка решить проблему определения того, какое из 500 руководств по проведению исследований соответствует определенной части архивного каталога, содержащего 30 миллионов описаний, в том числе оценить возможности использования машинного обучения. Всякий раз нам очень сложно понять, какое руководство по проведению исследований можно было бы предложить пользователям, когда они изучают описания в каталоге, и каталог слишком велик для того, чтобы это можно было сделать вручную. Можно попробовать применить для этой цели машинное обучение, и такой подход на самом деле работает весьма неплохо.

Касси Финдлей: То есть потенциально у Вас мог бы появиться бот-автомат, выскакивающий и говорящий: «О, я вижу, вас интересуют документы X, Y, Z. Вот Вам руководство»? Видите ли Вы это как один из возможных способов использования данной технологии?

Джон Шеридан: Именно так,  с определенной вероятностью успеха. Мы пока провели быстрый эксперимент, но в то же время для нас это заслуживающий изучения вариант применения. В области обеспечения долговременной сохранности электронных материалов нас очень интересует возможность применения машинного обучения для установления характеристик тех электронных объектов, свойства которых мы не можем определить по сигнатуре файлового формата. Как правило, это будут такие объекты, как компьютерные программы - все они сохраняются в виде текстовых файлов, и, соответственно, идентификация по сигнатуре файлового формата не позволяет, например, распознать, имеем ли мы дело с компьютерным программным обеспечением, написанном на языке Java, C# или Python. Мы особенно обращаем внимание на тот факт, что сотрудники государственных органов в ходе своей деятельности всё чаще создают объекты, имеющие все признаки документов и при этом представляющие собой компьютерные программы либо смесь элементов, одни из которых содержат текстовой контент, а другие являются компьютерными программами.

Есть такая штука, называющаяся «R Markdown» (упрощённый язык разметки, используемый для создания мультимедийных документов, включающих аналитику данных, графики, математические формулы и текст; см., например, п.3.3 здесь https://sibsutis.ru/upload/63e/диплом_дряницын_без_приложения.pdf  – Н.Х.), которым всё чаще пользуются специалисты по статистике государственных органов, смешивая в рамках единого электронного объекта текстовой контент, отформатированный средствами разметки Markdown со статистическими алгоритмами на языке R (это язык программирования, предназначенный для статистической обработки данных и работы с графикой – Н.Х.). Такого рода объекты, представляющие собой смесь текстового контента и компьютерного кода, несомненно, имеют многие свойства документов, и, по нашему мнению, могут быть отобраны на архивное хранение по итогам экспертизы ценности. Сигнатуры файловых форматов не подходят для идентификации такого контента. Можем ли мы использовать машинное обучение и наборы обучающих материалов для того, чтобы начать идентифицировать некоторые из объектов тех типов, для которых идентификация по сигнатурам не работает? И вот оказывается, что да, такой подход на самом деле работает очень хорошо, если у Вас есть хороший обучающий набор данных. Это мы и узнали.

Мы также попробовали машинное обучение там, где наибольший интерес представляет принятие решений об отборе документов. Как известно, существует большая проблема отделения документов от не-документов. Классической, конечно, является данная задача применительно к электронной почте. Мы знаем, что машинное обучение довольно хорошо решает проблемы классификации, и оно способно давать ответ на такие вопросы, как «Можно ли считать данное сообщение электронной почты личным? Является ли данное сообщение деловым? Можно настроить основанное на машинном обучении решение таким образом, чтобы оно давало Вам вероятностную оценку типа «Вот это - почти наверняка личная переписка, вот это - почти наверняка деловая корреспонденция, а вот то - может быть некоей комбинацией, со степенью уверенности лишь 60%».

Мы, я думаю, в разумной степени уверены в том, что в будущем отбор на архивное хранение государственных электронных документов будет осуществляться с использованием машинного обучения, и что это будущее для электронных архивов начинается сегодня. Есть ряд задач отбора документов, которые современные системы машинного обучения способны решать хорошо, и различение личной и деловой электронной почты является здесь классическим примером. Есть другие задачи, которые очень сложны. Если принятие решений опирается на знание более широкого контекста, то, в отсутствие какой-либо модели этого контекста, трудно себе представить, как система машинного обучения сможет быть полезной. Именно поэтому мы очень заинтересованы в том, чтобы попытаться понять некоторые из этих параметров, а затем почувствовать, где нам следует опираться на более традиционные, что ли, формы инженерии знаний наряду с инновационными подходами на основе машинного обучения. Это фактически наша основная цель, но первоначально очень важно заложить в нашем учреждении фундамент собственной оценки машинного обучения и собственного ноу-хау с тем, чтобы мы могли экспериментировать, задавать вопросы и давать на некоторые из них ответы.

(Окончание следует, см. http://rusrim.blogspot.com/2018/09/3-2.html )

Беседу вела Касси Финдлей (Cassie Findlay)

Источник: сайт «Recordkeeping Roundtable»
https://rkroundtable.org/2018/08/19/recordkeeping-roundcasts-episode-3-machine-learning/

Комментариев нет:

Отправить комментарий