Google открыла алгоритмы приватного анализа

Компания Google объявила о том, что открывает доступ к так называемой библиотеке для дифференциальной обработки персональных данных.

Как пишет The Verge, теперь она доступна по модели open source. Код библиотеки написан на языке C++ и открыт под лицензией Apache 2.0.

Дифференциальная приватность — определение защиты пользовательских данных, изначально предложенное компанией Cynthia Dwork в 2006 году. Грубо говоря, вкратце её можно описать следующим образом: «Представьте, что у вас есть две во всех остальных отношениях идентичные базы данных, одна с вашей информацией внутри, а другая без неё. Дифференциальная приватность гарантирует, что статистический запрос к одной и второй базе данных выдаст определённый результат с (почти) одинаковой вероятностью».

Анализ с использованием методов дифференциальной приватности даёт возможность производить аналитические выборки из статистических баз данных, не позволяя разделить данные и выделить из общей информации параметры конкретных лиц. Например, этот подход может быть применен для анализа медицинских данных: можно сравнивать среднее количество времени пребывания пациентов в больницах, не разглашая личные данные и диагнозы.

Дифференциальную приватность активно использует также и Apple в качестве одного из фундаментальных компонентов систем машинного обучения собственной разработки. Так компания извлекает и анализирует данные пользователей iPhone для развития алгоритмов голосового помощника Siri, при этом не вторгаясь в личное пространство.

Google делает то же самое с браузером Chrome, используя так называемый рандомизированный агрегируемый порядковый ответ, сохраняющий конфиденциальность (RAPPOR). Таким образом компания анализирует истории просмотров веб-страниц.

Ранее в этом году Google также открыл инструмент для своей учебной платформы TensorFlow AI под названием TensorFlow Privacy, который позволяет исследователям использовать дифференциальную конфиденциальность для защиты пользовательских данных при обучении алгоритмов AI.

В здравоохранении и социология дифференциальная конфиденциальность может быть очень полезной, отмечает Google. «Этот тип анализа может быть реализован различными способами и для самых разных целей», — пишет в своем блоге Мигель Гевара, менеджер по продуктам Google.

Google надеется, что, открыв свою библиотеку на GitHub, он сможет помочь организациям и частным лицам без ресурсов крупной технологической компании приблизиться к анализу данных с таким же строгим подходом к конфиденциальности. Для Google создание таких алгоритмов было очень трудоемким.

«Мы использовали дифференциально-частные методы для создания полезных функций в наших продуктах, например, насколько занят бизнес в течение дня или насколько популярно блюдо конкретного ресторана в Картах Google, и улучшаем Google Fi», — пишет Гевара. «Мы надеемся, что эти инструменты с открытым исходным кодом помогут прийти к выводам, которое принесет пользу всем», от медицины до правительства, бизнеса и других областей.

Leave a ReplyCancel reply