среда, 3 августа 2016 г.

США: Почему «предсказательное кодирование» пока не оправдало надежд в сфере э-раскрытия?


Данная заметка Дэрина Тига (Daryn Teague) была опубликована 20 июля 2016 года на блоге компании LexisNexis (это, в частности, крупнейший поставщик справочно-правовых систем). Автор занимается поддержкой линии программных продуктов для поддержки ведения судебных исков в технологическом центре им. Рейли компании LexisNexis (LexisNexis Raleigh Technology Center).

Мой комментарий: Напомню, что э-раскрытие (e-discovery) – это неотъемлемый элемент судебных процессов США. Стороны в обязательном порядке и под страхом жестких санкций обязаны отыскать и передать другой стороне все имеющиеся в их распоряжении и относящие к судебному спору документы и информацию. В связи с колоссальными объёмами электронных материалов ручной отбор подлежащих раскрытию документов и информации стал запредельно трудоемким и дорогостоящим. В связи с этим стороны обязаны договориться между собой о том, по каким признакам и ключевым словам будет проводиться поиск. В последние годы были предложены её более продвинутые решения, известные как метод «предсказательного кодирования» (predictive coding) – в этом случае используются системы, которые обучаются на согласованных сторонами эталонных выборках, а затем уже в автоматическом режиме отбирают похожие материалы из исходного массива. Есть, конечно, риск, что по тем или иным причинам (неоптимальная обучающая выборка, несовершенное владение технологиями и т.п. – даже в случае добросовестного применения метода) некоторые относящиеся к делу документы раскрыты не будут…

На прошлой неделе Налоговый суд США (U.S. Tax Court) отказал налоговой службе (Internal Revenue Service) в принятии решения о принуждении коммерческой компании к раскрытию электронной документированной информации, которая не была представлена при э-раскрытии на основе взаимно-согласованного использования «предсказательного кодирования». Это решение принято спустя два года после того, как тот же суд санкционировал применение «предсказательного кодирования» в рамках судебного спора (Dynamo Holdings, Ltd. vs. Commissioner, 143 T.C. No. 9 (2014)), и оно служит важным напоминанием со стороны суда о том, что «предсказательное кодирование» является допустимым способом э-раскрытия в судах США, и таковым оно и останется.

«Предсказательное кодирование» использует мощь методов и технологий машинного обучения для того, чтобы «натренировать» компьютер распознавать и идентифицировать в ходе анализа те документы, которые потенциально подпадают под э-раскрытие. Программное обеспечение «учится» классифицировать документы на опыте юристов-людей, отслеживая, как те принимают свои решения; а затем использует алгоритмы для предсказания того, как юристы моги бы классифицировать каждый документ в обрабатываемом массиве. Первоначальные пробные результаты затем анализируются с целью выявления имеющихся ошибок и точной подстройки алгоритмов – таким образом, очевидно, складывается гораздо более эффективный подход для анализа большого количества документов на относимость к делу.

«Предсказательное кодирование» впервые было допущено к применению в судебном процессе американским федеральным судьей-магистратом Нью-Йорка (Magistrate Judge – в федеральных судах США, младшие судьи, обладающие ограниченными полномочиями – Н.Х.) Эндрю Пеком (Andrew Peck) в 2011 году, и с тех пор постепенно расширяется признание данного метода судами США в качестве альтернативы дорогостоящему и непроизводительному ручному отбору документов. Однако, как отмечают такие эксперты отрасли, как Крейг Болл (Craig Ball). «предсказательное кодирование» пока не сумело в такой степени закрепиться в сфере судопроизводства, как это многие прогнозировали после широко разрекламированной поддержки его судьёй Пеком.

Почему же, имея поддержку судебного сообщества и экономические соображения в свою пользу, «предсказательное кодирование» не оправдало возлагавшихся на него надежд в сфере э-раскрытия?

«Ведущие связанную с судебными исками работу команды имеют доступ к поразительно продвинутым программным продуктам, основанным на технологиях машинного обучения, - но они не обязательно используют их так, как можно было бы ожидать. Самое большое препятствие, с моей точки зрения, связано с распространением использования таких инструментов», - говорит д-р Майкл Этген (Michael Etgen), старший архитектор LexisNexis по вопросам интерфейса и удобства использования. «Адвокаты и их сотрудники говорят об использовании предсказательного кодирования в ходе э-раскрытия, однако практике мы видим, что они применяют этот метод в очень ограниченном числе случаев и обстоятельств, а не во всей своей работе.»

Этген считает, что связывавшиеся с предсказательным кодированием надежды пока что не сбылись в связи с тремя основными факторами:
  • Отсутствие мотивации. «Вы должны понимать, что с помощью таких технологий, как предсказательное кодирование, юридические команды смогут анализировать куда большие объёмы документов, делать это быстрее, чем когда-либо прежде, расходуя при этом меньше ресурсов», - объясняет он. «Затраты на анализ и отбор документов на сегодняшний день составляют львиную долю затрат на э-раскрытие, а выживание некоторых организаций зависит от сохранения расценок на их услуги по анализу документов. Такие организации на самом деле не ищут новых и уникальных способов применения технологий для совершенствования своего бизнеса».

  • Угроза потери рабочих мест. «Сейчас, в период перехода глобальной экономики в электронно-цифровую эпоху, боязнь потерять рабочие места в нашем мире распространена повсеместно, и отрасль э-раскрытия здесь не является исключением», - говорит Этген. «Масштабные проекты анализа и отбора документов часто выполняют нанятые по контракту люди, которых просят выделить специфический контент, читая документ за документом. Эти люди, а также координирующие их работу и обеспечивающие получение от неё осмысленных результатов профессионалы, чувствуют, что их работа оказывается под угрозой со стороны систем машинного обучения, которые могут сделать то же самое быстрее и надежнее, чем они».

  • Сложность приложений. «Я также говорил со многими участниками судебных процессов, которые некомфортно себя чувствуют из-за того, что не могут понять, что же происходит внутри «черного ящика», который обычно представляли собой программные инструменты «предсказательного кодирования» первого поколения», - рассказывает Этген. «Представьте себе на минуту, что Вам нужно стоять перед судьей и отстаивать результаты работы программного приложения, в то время, как в действительности Вы не имеете ни малейшего понятия о том, что и как это приложение делает».
Этген отмечает, что отсутствие финансовых стимулов для более эффективной и производительной работы является тем элементом общей ситуации, который, вероятно, со временем будет устранен за счет действия рыночных механизмов. Он, однако, считает, что другие два вопроса, замедляющих внедрение предсказательного кодирования, решаются прямо сейчас.

«Что касается угрозы потери рабочих мест, то имеется достаточно свидетельств тому, что наилучшие результаты мы получаем, когда соединяем человеческое «прикосновение» и технологическую мощь машинного обучения, а не тогда, когда используем что-то одно», -  подчеркнул он. «Нет никаких оснований опасаться технологий, поскольку всегда будет требоваться участие и надзор человека для того, чтобы работа была выполнена как следует». (Есть, правда, одна «мелочь» - для «надзора» за работой экскаватора нужен всего один человек вместо сотен землекопов :)  Спрос на «машинистов экскаватора», вполне возможно, вырастет, а вот «землекопы», как массовая профессия, могут уйти в небытие… – Н.Х.).

Наконец, ответом на чрезмерную сложность имеющихся на рынке программных приложений, по словам Эткена, является разработка следующего поколения инструментов для э-раскрытия, где технические элементы будут интегрированы с элементами, обеспечивающими удобство работы пользователей. В последние месяцы он сфокусировал своё внимание на пользовательском интерфейсе для решения Lexis DiscoveryIQ - новой корпоративной программной платформы от компании LexisNexis, где совершенно иной подход к тому, как и когда предсказательное кодирование используется в деловых процессах.

«Мы преодолеваем один из барьеров для более широкого внедрения предсказательного кодирования путем обеспечения большей прозрачности того, как технология машинного обучения работает в решении Lexis DiscoveryIQ», - говорит Этген. «Упрощая и делая более интуитивно-понятным использование юристами следующего поколения инструментов для предсказательного кодирования, мы прокладываем путь для того, чтобы эти инструменты более полно оправдали возлагаемые на них надежды в сфере э-раскрытия».

Дэрин Тиг (Daryn Teague)

Мой комментарий: «Предсказательное кодирования» - это лишь один из вариантов использования автоматической/автоматизированной классификации документов и информации. Аналогичные инструменты можно использовать в процессе принятия решений в отношении сроков хранения, наличия защищаемой конфиденциальной и секретной информации, рассекречивания. Вообще мир идёт к тому, что всё чаще значимые решения, затрагивающие права и интересы человека, будут приниматься автоматически (пусть даже законодательство пока это и не разрешает). Нам, специалистам по работе с информацией, обязательно нужно отслеживать ситуацию – и вовремя осваивать новые технологии самим, чтобы не оказаться замененными «умными машинами» :)

Источник: блог компании LexisNexis
http://businessoflawblog.com/2016/07/why-hasnt-predictive-coding-fulfilled-its-promise-in-ediscovery/

Комментариев нет:

Отправить комментарий