(Окончание, начало см. https://rusrim.blogspot.com/2019/10/1_30.html )
Важно отметить, что когда речь идёт об инвестициях в технологии машинного обучения, то эти инвестиции могут принимать несколько форм. Есть инвестиции в программное обеспечение и в вычислительные алгоритмы, лежащие в его основе. Крайне важны инвестиции в обучающие данные: это те данные, которые можно использовать для обучения и проверки моделей машинного обучения; как правило, это большие наборы вариантов, оцененных лучшими специалистами-людьми - например, рентгеновские снимки с комментариями относительно наличия опухолей; описания содержания фотографий; фотографии лиц вместе с именами людей. Формирование таких наборов обучающих данных может быть очень сложным делом, и часто включает в себя перепрофилирование других данных - например, фотографий и имен, собранных в процессе выдачи государственными органами водительских прав или паспортов. Сектор сохранения культурно-историческое памяти должен очень тщательно продумать, какие существуют наборы данных, которые можно было бы аналогичным образом перепрофилировать или адаптировать (возможно, с использованием краудсорсинга т.е. привлечения волонтёров – Н.Х.) для своих собственных целей в плане машинного обучения.
Одной из больших и в значительной степени неисследованных проблем, стоящих перед учреждениями культурной памяти - это определение того, до какой степени выгодно «подстраивать» или специально проводить машинное обучение для отдельных коллекций – например, с целью распознавания почерка отдельного человека, в отличие от распознавания характерного почерка викторианской эпохи в целом; или для идентификации членов конкретной семьи на снимках в составе коллекции фотографий. Создание такого рода обучающих наборов будет дорогостоящим, и критически важным станет нахождение правильного компромисса между затратами и эффективностью рабочих процессов.
В ближайшие несколько десятилетий технологии машинного обучения в учреждениях культурной памяти будет иметь смысл использовать лишь применительно к уже переведенным в цифровую форму материалам. Коллекции нужно будет либо оцифровывать, либо изначально создавать в цифровой форме, чтобы они были доступны как цифровые материалы. Это очень важный аспект, поскольку он ограничивает возможности применения данных технологий в связи с тем, что в некоторых учреждениях не так уж много материалов являются цифровыми. В то же время следует иметь в виду, что всё чаще новые материалы, поступающие на хранение в архивы и специальные коллекции, попадают туда в цифровом виде. Однако я не верю в возможность увидеть в скором времени в наших физических коллекциях бродящих по ним роботов-ученых / архивистов / кураторов, которые отбирают, исследуют и анализируют материалы.
Взглянем на препятствия на пути распространения беспилотных транспортных средств: хотя их применение позволит сэкономить деньги, в настоящее время затраты на водителей-людей «встроены» в экономику. Чтобы оправдать подобную экономию, необходимо убедительно доказать, что эти автономные транспортные средства значительно безопаснее, чем транспорт, управляемый водителями-людьми.
По контрасту, текущее положение дел с доступом к коллекциям является плохим из-за нехватки ресурсов для найма людей; и когда для улучшения доступности используется машинное обучение, риск ошибок обычно низок по сравнению с существующей практикой. Подумайте о специальной коллекции, содержащей множество фотографий людей. В этих условиях внедрение распознавания лиц обычно связано с низким уровнем риска. Чаще всего научно-справочный аппарат по представленным на снимках людям отсутствует, поэтому даже умеренно хорошее распознавание станет существенным улучшением. Кроме того, цена ошибки невелика: неспособность идентифицировать человека на фотографии не создаст угрозы для национальной безопасности, а ложная идентификация не приведет к аресту и допросу невинного человека, или к чему-нибудь похуже. Действительно, самой большой проблемой для кураторов коллекций, проиндексированных с использованием неидеального программного обеспечения для распознавания лиц, будет заставить благодарных пользователей осознать, что программное обеспечение на самом деле несовершенно, принять возможность неидентификации и неверной идентификации, а также понять, в каких ситуациях чаще всего возможны ошибки.
Позвольте мне в заключение остановиться на трёх моментах. Во-первых, для дальнейшего прогресса критически-важное значение будут иметь рабочие процессы, а также соответствующая организация и структурирование данных. Сегодня во многих приложениях машинного обучения и анализа подавляющее большинство времени тратится на сбор и очистку данных и на отладку рабочих процессов, - а не на собственно работу по машинному обучению. Сохраняющие культурно-историческую память учреждения также столкнутся с этими проблемами, которые способны серьезно ограничить прогресс. Кроме того, машинное обучение в ряде случаев требует больших вычислительных ресурсов и, соответственно, как обучение, так и последующее использование таких решений являются дорогостоящими.
Во-вторых, улучшение доступности приведет к многочисленным спорам по поводу защиты персональных данных, а также о наилучшей практике. Здесь движущей силой станет распознавание лиц. Обратите внимание на опыт многих университетов, которые оцифровали свои старые ежегодники. Эти материалы могут использоваться для формирования баз данных, применяемых для обучения алгоритмов распознавания лиц в другом контексте (поскольку они содержат подписанные фотографии). Когда такие материалы индексируются и становятся более удобными для поиска, на свет порой выплывают неприятные и неуместные фотографии, на которых изображены люди, которые, возможно, много лет спустя стали публичными фигурами. Уместность применения индексации на основе распознавания лиц в ближайшие годы будет предметом серьезных дискуссий; уже сегодня эта проблема очень актуальна в контексте социальных сетей, и она будет становиться всё более актуальной для архивов и специальных коллекций.
Наконец, рассмотрим еще один сценарий применения машинного обучения в учреждениях памяти, который позволяет повторно использовать плоды инвестиций в машинное обучение в сфере разведки, правоприменения и криминалистики. Все чаще и чаще при передаче на хранение «личных документов» материалы, главным образом, зафиксированы на разнообразных цифровых устройствах хранения данных - ноутбуках, внешних жёстких диски и т.п. Общераспространенной реакцией на такие поступления (помимо перезаписи битов на современные носители) является отчаяние: курирующий коллекции персонал просто не успевает оценивать и описывать эти материалы. Представьте себе приложение на основе технологий машинного обучения, способное выполнить, по крайней мере, первоначальный отбор и классификацию этих цифровых материалов. Я считаю, что в ближайшие несколько лет это может стать реальностью.
Этот вариант применения служит типичным примером того, что я вижу как возможную отдачу от приложений машинного обучения в краткосрочной перспективе, в той степени, в какой учреждения памяти способны развить навыки и рабочие процессы для их применения: в этом случае существенно повысится способность обрабатывать и предоставлять доступ к цифровым коллекциям, которая исторически была сильно ограничена ввиду нехватки квалифицированных специалистов-людей. Однако это будет происходить за счёт согласия на качество и степень согласованности, часто уступающие тем, которые способны обеспечить специалисты-люди (когда они есть).
Я благодарен Сесилии Престон (Cecilia Preston), Мэри Ли Кеннеди (Mary Lee Kennedy), Джоан Липпинкотт (Joan Lippincott) и Дайане Гольденберг-Харт (Diane Goldenberg-Hart) за полезные замечания на проект этой статьи.
Клиффорд Линч (Clifford A. Lynch)
Источник: блог МСА
https://blog-ica.org/2019/10/02/machine-learning-archives-and-special-collections-a-high-level-view/