Искусственный интеллект

Федеративное обучение - децентрализованное машинное обучение

Обновление конфиденциальности для машинного обучения

Для работы многих приложений машинного обучения требуется тонны данных. Однако проблема в том, что пользовательские данные конфиденциальны и конфиденциальны.

Растущие опасения по поводу конфиденциальности и призывы к защите прав на данные создают проблему для традиционных способов обучения и разработки моделей машинного обучения, которые требуют, чтобы пользователи передавали свои конфиденциальные данные на облачный сервер.

Решение? Федеративное обучение.

Прежде чем мы углубимся в сегодняшнюю статью, у нас есть новый сервер Discord, на котором сообщество bitgrit обсуждает все, что связано с наукой о данных и искусственным интеллектом, включая наш недавно выпущенный токен BGR! Присоединяйтесь к серверу здесь!

Что такое федеративное обучение?

Благодаря сочетанию распределенной оптимизации, исследования конфиденциальности и машинного обучения родилось федеративное обучение.

Формальное определение из Википедии:

Федеративное обучение (также известное как совместное обучение) - это метод машинного обучения, который обучает алгоритм на нескольких децентрализованных периферийных устройствах или серверах, содержащих локальные образцы данных, не обменивая их.

Ключевые слова здесь: децентрализованные и локальные данные.

Впервые он был представлен в статье 2016 года, опубликованной исследователями Google AI: Коммуникационно-эффективное обучение глубоких сетей на основе децентрализованных данных.

Основная идея федеративного обучения - внедрение централизованной модели на децентрализованные устройства, устранение необходимости в получении пользовательских данных.

Поскольку пользовательские данные не покидают устройство, это помогает сохранить конфиденциальность и безопасность данных, поскольку передаются только результаты модели (подробнее об этом позже).

Это обновление конфиденциальности для машинного обучения является революционным и открывает новые возможности для приложений машинного обучения для обработки конфиденциальных данных.

Но прежде чем мы погрузимся в примеры использования и преимущества федеративного обучения, давайте рассмотрим, как это работает, на примере.

Как это работает

Мы возьмем пример предсказателя следующего слова для Google Gboard и шаг за шагом рассмотрим процесс федеративного обучения.

Во-первых, Google построил базовую модель машинного обучения на своем облачном сервере, обученный на общедоступных данных.

Затем несколько пользовательских устройств вызываются для обучения модели. Они получают модель, загружая ее при подключении к источнику питания и по сети Wi-Fi (поскольку обучение модели - это интенсивная операция, и мы не хотели бы разряжать батарею устройств пользователей).

Они предоставляют модели релевантные данные - журналы нажатий клавиш, отзывы о прогнозах и т. Д. - для изучения и совершенствования модели.

После завершения обучения все обновления или улучшения модели собираются, шифруются и отправляются в облако, обновляя базовую модель новой информацией.

Этот цикл загрузки и обновления происходит на нескольких устройствах и повторяется несколько раз до достижения хорошей точности. Только после этого модель распространяется среди всех остальных пользователей для всех типов сценариев использования.

Важное примечание: данные обучения по-прежнему остаются на устройстве пользователя; только результат обучения шифруется и отправляется в облако.

Вот разбивка процесса на изображении.

Ваш телефон настраивает модель локально в зависимости от вашего использования (A). Обновления многих пользователей объединяются (B), чтобы сформировать консенсусное изменение (C) для общей модели, после чего процедура повторяется. ("источник")

Этот совместный способ обучения и разработки моделей машинного обучения очень эффективен и имеет реальные приложения.

Приложения

Там, где данные разделены по юридическим, экономическим причинам и т. Д., Федеративное обучение выгодно, поскольку оно позволяет отдельным сторонам обучать свои модели на более крупном наборе данных.

1. Здравоохранение

Прекрасный пример - цифровое здоровье. Данные из медицинских учреждений хранятся изолированно из-за конфиденциальности пациентов и управления данными и не могут использоваться без согласия пациента. При традиционном подходе модели машинного обучения могут учиться только на ограниченном доступном источнике данных и смещены в сторону инструментов / демографии / практики больницы.

Благодаря федеративному обучению алгоритмы ИИ могут получать больше информации из других больниц, собирая более объективную информацию, такую ​​как пол, возраст, демографические данные и т. Д., Что может помочь модели делать более обобщенные прогнозы.

Подробнее → Будущее цифрового здравоохранения с федеративным обучением

2. Беспилотные автомобили.

Беспилотные автомобили также можно рассматривать как отдельных участников, когда обучение передается автомобилям, а не данные, отправляемые обратно на центральный сервер.

Поскольку вождение в реальном мире опасно и часто непредсказуемо, федеративное обучение может ускорить процесс обучения, уменьшая необходимость передачи больших объемов данных. В конечном счете, он может ускорить процесс перехода к полностью автономному автономному вождению.

Существует больше приложений федеративного обучения, в первую очередь в области Интернета вещей (IoT), которые повторяют одно и то же сообщение о включении Интернета вещей с машинным обучением при сохранении конфиденциальности данных и снижении высоких накладных расходов на связь и хранение.

Ограничения / проблемы

Федеративное обучение - все еще довольно новая идея, и некоторые распространенные проблемы не позволяют ей полностью реализовать свой потенциал.

1. Неидентификационные данные

Устройства по всему миру постоянно генерируют данные, отличные от iid. В статистической литературе это означает, что данные не являются независимыми и неравномерно распределенными. Предположение о переменных iid является центральным для многих статистических методов и алгоритмов и может усложнить модель и вызвать проблемы.

2. Вычислительные возможности устройства.

Каждое устройство, участвующее в объединенной сети, отличается своими возможностями на программном и аппаратном уровне (сетевое подключение, оперативная память, питание и т. Д.). Несмотря на то, что сегодня большинство смартфонов обладают высокой способностью к ресурсоемким задачам, таким как обучение модели, все еще существует значительная часть периферийных устройств, которые не могут работать и могут снизить производительность устройства. Будет компромисс между поддержанием производительности устройства и точностью модели.

3. Маркировка данных

Многие методы контролируемого машинного обучения требуют четких и последовательных меток для работы алгоритма. Поскольку данные поступают с различных устройств, необходимо реализовать хорошие конвейеры данных для автоматической маркировки данных.

4. Утечка данных

С помощью обратного проектирования все еще можно идентифицировать и получать данные от конкретного пользователя. Однако методы обеспечения конфиденциальности, такие как дифференциальная конфиденциальность, могут повысить конфиденциальность федеративного обучения, но за счет более низкой точности модели.

Чтобы узнать больше о проблемах федеративного обучения, прочтите здесь.

Каркасы

Заинтересованы в том, чтобы испачкать руки федеративным обучением?

Вот несколько рамок для реализации федеративного обучения.

Федеративное обучение - мощная идея искусственного интеллекта. Он обеспечивает децентрализованное обучение на нескольких устройствах с низкой задержкой и энергопотреблением, обеспечивая конфиденциальность и безопасность ваших данных.

Он все еще сталкивается с проблемами, прежде чем его можно будет практически применить в реальном мире, но сегодня проводится множество исследований.

Я надеюсь, что эта статья пробудила ваш интерес к федеративному обучению и дала вам представление о том, что это такое и чего можно достичь.

Ниже вы можете найти больше ресурсов по федеративному обучению.

Спасибо за прочтение!

Дополнительная литература / ресурсы

использованная литература

Понравилась эта статья? Вот несколько статей, которые могут вам понравиться 👇

Следите за публикацией bitgrit Data Science, чтобы узнать больше!

Найдите нас на этих платформах 👇📱