Данная заметка Дика Вейсингера (Dick Weisinger – на фото) была опубликована 3 августа 2023 года на блоге компании Formtek.
Обеспечение конфиденциальности данных и защиты персональных данных является серьёзной проблемой для многих приложений машинного обучения, особенно когда речь идёт о высокочувствительной информации, такой как медицинские документы или личные фотографии. Как нам делиться полезными моделями, не раскрывая при этом данные, на которых они были обучены?
Одним из возможных решений может стать новый метод, разработанный исследователями Массачусетского технологического института (MIT), https://dx.doi.org/10.48550/arxiv.2210.03458 . Он называется «Вероятно-приблизительно правильная конфиденциальность» (Probably Approximately Correct (PAC) Privacy) и даёт пользователям возможность автоматически определять минимальное количество шума, которое необходимо добавить в модель для защиты данных от злоумышленников.
В отличие от других подходов к обеспечению конфиденциальности и защите персональных данных, метод PAC Privacy не требует знания архитектуры модели или процесса обучения. В нём всё внимание обращается на выходные результаты модели, а также на то, насколько сложно злоумышленнику будет восстановить какую-либо часть данных на основе выходных результатов.
Например, если данные представляют собой изображения человеческих лиц, метод PAC Privacy может оценить способность злоумышленника извлечь узнаваемый силуэт лица из модели, а не просто определить, присутствовало ли изображение лица данного человека в наборе данных или нет.
Пользователь может указать желаемый уровень уверенность и точности в интересах обеспечения неприкосновенности частной жизни. Например, пользователь может пожелать, чтобы злоумышленник был не более чем на 1% уверен в том, что он успешно реконструировал данные с точностью до 5% от их фактического значения. После этого алгоритм PAC Privacy сообщит пользователю оптимальный уровень шума, который необходимо добавить в модель, прежде чем она начнёт публично распространяться.
Исследователи показали, что метод PAC Privacy по сравнению с другими методами позволяет значительно снизить уровень шума, необходимого для защиты чувствительных данных. Это способствует сохранению точности и полезности моделей машинного обучения в реальных условиях, при одновременном обеспечении защиты персональных данных.
Метод PAC Privacy - это новый мощный подход, который осмысленно использует неопределенность или энтропию данных. Его использование позволит инженерам и ученым уверенно делиться своими моделями, не ставя под угрозу конфиденциальность своих источников данных.
Дик Вейсингер (Dick Weisinger)
Источник: блог компании Formtek
https://formtek.com/blog/how-to-secure-data-when-computing-with-pac-privacy/
Комментариев нет:
Отправить комментарий