(Продолжение, начало см. http://rusrim.blogspot.com/2022/03/1.html )
Как Вы определяете ориентированный на данные ИИ, и почему Вы считаете его «движением»?
Эндрю Нг: Ориентированный на данные искусственный интеллект (data-centric AI) - это дисциплина систематической инженерии данных, необходимых для успешного построения ИИ-системы. Для создания ИИ-системы Вам нужно реализовать в коде, какой-то алгоритм (скажем, нейронную сеть), а затем обучить его на Вашем наборе данных. В течение последнего десятилетия доминирующей парадигмой было скачивание набора данных, в то время, как Вы сосредотачивали внимание на улучшении кода. Благодаря этой парадигме сети глубокого обучения за последнее десятилетие значительно улучшились, до такой степени, что для многих приложений код - архитектура нейронной сети - стал практически решённой проблемой. Таким образом, для многих практических приложений теперь более продуктивно оставить как есть архитектуру нейронной сети, и вместо этого найти способы улучшения данных.
Когда я начал говорить об этом, многие специалисты-практики вполне уместно поднимали руки и говорили: «Да, мы этим занимаемся уже 20 лет». Настало время взять то, что некоторые специалисты делали интуитивно, и сделать это систематической инженерной дисциплиной.
Движение за ориентированный на данные ИИ намного шире, чем одна компания или группа исследователей. Мы с коллегами по работе организовали семинар по ориентированному на данные ИИ в рамках Конференция по машинному обучению и нейровычислениям (Conference on Neural Information Processing Systems, NeurIPS, https://neurips.cc/virtual/2021/workshop/21860 ), и меня очень порадовало количество пришедших авторов и докладчиков.
Вы часто говорите о компаниях или учреждениях, имеющих лишь небольшие объемы данных, с которыми они могут работать. Как ориентированный на данные ИИ может им помочь?
Эндрю Нг: Очень много слышно о системах машинного зрения, построенных с использованием миллионов изображений – я однажды создал систему распознавания лиц, используя 350 миллионов изображений. Архитектуры, созданные для сотен миллионов изображений, не работают со всего лишь 50 изображениями. Однако оказывается, что если у вас есть 50 действительно хороших примеров, то Вы можете создать что-то полезное, например, систему проверки на наличие дефектов. Я полагаю, что во многих отраслях, где гигантских наборов данных просто не существует, акцент должен быть смещён с больших данных на качественные данные. Пятидесяти продуманно сконструированных примеров может быть достаточно, чтобы объяснить нейронной сети то, чему Вы хотите её научить.
Когда Вы говорите об обучении модели на всего лишь 50 изображениях, означает ли это, что Вы берёте существующую модель, которая была обучена на очень большом наборе данных, и настраиваете её? Или вы имеете в виду совершенно новую модель, которую предполагается обучить только на этом небольшом наборе данных?
Эндрю Нг: Позвольте мне описать, что делает компания Landing AI. При проведении для производителей визуальной инспекции на наличие дефектов мы часто используем наш вариант RetinaNet ( https://developers.arcgis.com/python/guide/how-retinanet-works/ ). Это предварительно обученная модель. В то же время, предварительное обучения – лишь это маленький кусочек головоломки. Более крупной часть головоломки является предоставление инструментов, позволяющих производителю выбрать правильный набор изображений [используемых для тонкой настройки] и пометить их согласованным образом. Существует очень практическая проблема, с которой мы сталкивались в областях машинного зрение, обработки естественного языка и речи, когда даже занимающиеся аннотированием люди не могли договориться о подходящей метке. Для приложений больших данных, обычный ответ был следующим: если данные зашумлены, давайте просто возьмём очень много данных, и алгоритм усреднит их. Но если Вы можете разработать инструменты, которые отмечают, где данные являются несогласованными, и предлагают Вам очень целенаправленный способ улучшить согласованность данных, то это оказывается более эффективным способом создания высокопроизводительной системы.
«Сбор большего количества данных часто помогает, но если Вы попытаетесь собирать больше данных обо всём, то это может оказаться очень дорогим удовольствием.» - Эндрю Нг
Если, например, у вас есть 10 тысяч изображений, из которых 30 относятся к одному классу, и эти 30 изображений помечены несогласованно, то одна из вещей, которые мы делаем – это создание инструментов, которые привлекут Ваше внимание к этому подмножеству несогласованных данных. В результате Вы можете очень быстро пере-пометить эти изображения, чтобы обеспечить большую согласованность, и это приводит к повышению производительности.
Может ли такой акцент на высококачественные данные помочь с устранением предвзятости, имеющейся в наборах данных? Если у Вас будет возможность в большей степени курировать данные перед обучением?
Эндрю Нг: Очень даже может. Многие исследователи отмечают, что предвзятые данные являются одним из многих факторов, ведущих к появлению предвзятых систем. Было предпринято много продуманных усилий в плане инженерии данных. На семинаре NeurIPS Ольга Русаковская (Olga Russakovsky, https://www.cs.princeton.edu/~olgarus/ ) очень хорошо рассказала об этом. На основной конференции NeurIPS мне также очень понравился доклад Мэри Грей (Mary Gray, https://neurips.cc/virtual/2021/invited-talk/22281 ), в котором затрагивался вопрос о том, что ориентированный на данные ИИ является одним из элементов решения, но не всем решением. Новые инструменты, такие как Datasheets for Datasets ( https://www.microsoft.com/en-us/research/project/datasheets-for-datasets/ ) также представляются важной частью головоломки.
Одним из мощных инструментов, которые нам даёт ориентированный на данные ИИ, является возможность сконструировать подмножество данных. Представьте себе, что Вы обучаете систему машинного обучения и обнаруживаете, что её результаты вполне удовлетворительны для большей части набора данных, но оказываются предвзятыми для подмножества данных. Если ради улучшения показателей только на этом подмножестве Вы попытаетесь изменить всю архитектуру нейронной сети, это будет довольно сложно сделать. Но если Вы можете спроектировать подмножество данных, то сможете решить проблему гораздо более целенаправленно.
Когда Вы говорите о «конструировании» (engineering) данных, что именно Вы имеете в виду?
Эндрю Нг: В ИИ важна очистка данных, однако способ, которым проводилась такая очистка, часто был очень «ручным». В сфере компьютерного зрения кто-то может визуализировать изображения с помощью Jupyter notebook ( https://jupyter.org/ ) и, возможно, он сможет обнаружить проблему и исправить её. Но меня интригуют и кажутся многообещающими инструменты, которые позволяют Вам иметь очень большой набор данных, и которые быстро и эффективно привлекают Ваше внимание к подмножеству данных, где, скажем, метки зашумлены. Или они могут быстро привлечь Ваше внимание к одному из 100 классов, по которому Вам было бы полезно собрать больше данных. Сбор большего количества данных часто помогает, но если Вы попытаетесь собирать больше данных обо всём, то это может оказаться очень дорогим удовольствием
Например, однажды я обнаружил, что система распознавания речи плохо работает, когда на заднем фоне слышен шум автомобиля. Знание этого позволило мне собрать больше данных именно с шумом автомобиля на заднем плане, вместо того, чтобы собирать больше данных «обо всём», что было бы дорого и медленно.
(Окончание следует, см. http://rusrim.blogspot.com/2022/03/3.html )
Интервью брала Элиза Стрикленд (Eliza Strickland)
Источник: сайт IEEE Spectrum Международной ассоциации специалистов по электротехнике и радиоэлектронике IEEE
https://spectrum.ieee.org/andrew-ng-data-centric-ai#toggle-gdpr
Комментариев нет:
Отправить комментарий