Федеративное обучение - децентрализованное машинное обучение

Искусственный интеллект

Федеративное обучение - децентрализованное машинное обучение

Обновление конфиденциальности для машинного обучения

Для работы многих приложений машинного обучения требуется тонны данных. Однако проблема в том, что пользовательские данные конфиденциальны и конфиденциальны.

Растущие опасения по поводу конфиденциальности и призывы к защите прав на данные создают проблему для традиционных способов обучения и разработки моделей машинного обучения, которые требуют, чтобы пользователи передавали свои конфиденциальные данные на облачный сервер.

Решение? Федеративное обучение.

Прежде чем мы углубимся в сегодняшнюю статью, у нас есть новый сервер Discord, на котором сообщество bitgrit обсуждает все, что связано с наукой о данных и искусственным интеллектом, включая наш недавно выпущенный токен BGR! Присоединяйтесь к серверу здесь!

Что такое федеративное обучение?

Благодаря сочетанию распределенной оптимизации, исследования конфиденциальности и машинного обучения родилось федеративное обучение.

Формальное определение из Википедии:

Федеративное обучение (также известное как совместное обучение) - это метод машинного обучения, который обучает алгоритм на нескольких децентрализованных периферийных устройствах или серверах, содержащих локальные образцы данных, не обменивая их.

Ключевые слова здесь: децентрализованные и локальные данные.

Впервые он был представлен в статье 2016 года, опубликованной исследователями Google AI: Коммуникационно-эффективное обучение глубоких сетей на основе децентрализованных данных.

Основная идея федеративного обучения - внедрение централизованной модели на децентрализованные устройства, устранение необходимости в получении пользовательских данных.

Поскольку пользовательские данные не покидают устройство, это помогает сохранить конфиденциальность и безопасность данных, поскольку передаются только результаты модели (подробнее об этом позже).

Это обновление конфиденциальности для машинного обучения является революционным и открывает новые возможности для приложений машинного обучения для обработки конфиденциальных данных.

Но прежде чем мы погрузимся в примеры использования и преимущества федеративного обучения, давайте рассмотрим, как это работает, на примере.

Как это работает

Мы возьмем пример предсказателя следующего слова для Google Gboard и шаг за шагом рассмотрим процесс федеративного обучения.

Во-первых, Google построил базовую модель машинного обучения на своем облачном сервере, обученный на общедоступных данных.

Затем несколько пользовательских устройств вызываются для обучения модели. Они получают модель, загружая ее при подключении к источнику питания и по сети Wi-Fi (поскольку обучение модели - это интенсивная операция, и мы не хотели бы разряжать батарею устройств пользователей).

Они предоставляют модели релевантные данные - журналы нажатий клавиш, отзывы о прогнозах и т. Д. - для изучения и совершенствования модели.

После завершения обучения все обновления или улучшения модели собираются, шифруются и отправляются в облако, обновляя базовую модель новой информацией.

Этот цикл загрузки и обновления происходит на нескольких устройствах и повторяется несколько раз до достижения хорошей точности. Только после этого модель распространяется среди всех остальных пользователей для всех типов сценариев использования.

Важное примечание: данные обучения по-прежнему остаются на устройстве пользователя; только результат обучения шифруется и отправляется в облако.

Вот разбивка процесса на изображении.

Ваш телефон настраивает модель локально в зависимости от вашего использования (A). Обновления многих пользователей объединяются (B), чтобы сформировать консенсусное изменение (C) для общей модели, после чего процедура повторяется. ("источник")

Этот совместный способ обучения и разработки моделей машинного обучения очень эффективен и имеет реальные приложения.

Приложения

Там, где данные разделены по юридическим, экономическим причинам и т. Д., Федеративное обучение выгодно, поскольку оно позволяет отдельным сторонам обучать свои модели на более крупном наборе данных.

1. Здравоохранение

Прекрасный пример - цифровое здоровье. Данные из медицинских учреждений хранятся изолированно из-за конфиденциальности пациентов и управления данными и не могут использоваться без согласия пациента. При традиционном подходе модели машинного обучения могут учиться только на ограниченном доступном источнике данных и смещены в сторону инструментов / демографии / практики больницы.

Благодаря федеративному обучению алгоритмы ИИ могут получать больше информации из других больниц, собирая более объективную информацию, такую как пол, возраст, демографические данные и т. Д., Что может помочь модели делать более обобщенные прогнозы.

Подробнее → Будущее цифрового здравоохранения с федеративным обучением

2. Беспилотные автомобили.

Беспилотные автомобили также можно рассматривать как отдельных участников, когда обучение передается автомобилям, а не данные, отправляемые обратно на центральный сервер.

Поскольку вождение в реальном мире опасно и часто непредсказуемо, федеративное обучение может ускорить процесс обучения, уменьшая необходимость передачи больших объемов данных. В конечном счете, он может ускорить процесс перехода к полностью автономному автономному вождению.

Существует больше приложений федеративного обучения, в первую очередь в области Интернета вещей (IoT), которые повторяют одно и то же сообщение о включении Интернета вещей с машинным обучением при сохранении конфиденциальности данных и снижении высоких накладных расходов на связь и хранение.

Ограничения / проблемы

Федеративное обучение - все еще довольно новая идея, и некоторые распространенные проблемы не позволяют ей полностью реализовать свой потенциал.

1. Неидентификационные данные

Устройства по всему миру постоянно генерируют данные, отличные от iid. В статистической литературе это означает, что данные не являются независимыми и неравномерно распределенными. Предположение о переменных iid является центральным для многих статистических методов и алгоритмов и может усложнить модель и вызвать проблемы.

2. Вычислительные возможности устройства.

Каждое устройство, участвующее в объединенной сети, отличается своими возможностями на программном и аппаратном уровне (сетевое подключение, оперативная память, питание и т. Д.). Несмотря на то, что сегодня большинство смартфонов обладают высокой способностью к ресурсоемким задачам, таким как обучение модели, все еще существует значительная часть периферийных устройств, которые не могут работать и могут снизить производительность устройства. Будет компромисс между поддержанием производительности устройства и точностью модели.

3. Маркировка данных

Многие методы контролируемого машинного обучения требуют четких и последовательных меток для работы алгоритма. Поскольку данные поступают с различных устройств, необходимо реализовать хорошие конвейеры данных для автоматической маркировки данных.

4. Утечка данных

С помощью обратного проектирования все еще можно идентифицировать и получать данные от конкретного пользователя. Однако методы обеспечения конфиденциальности, такие как дифференциальная конфиденциальность, могут повысить конфиденциальность федеративного обучения, но за счет более низкой точности модели.

Чтобы узнать больше о проблемах федеративного обучения, прочтите здесь.

Каркасы

Заинтересованы в том, чтобы испачкать руки федеративным обучением?

Вот несколько рамок для реализации федеративного обучения.

Федеративное обучение - мощная идея искусственного интеллекта. Он обеспечивает децентрализованное обучение на нескольких устройствах с низкой задержкой и энергопотреблением, обеспечивая конфиденциальность и безопасность ваших данных.

Он все еще сталкивается с проблемами, прежде чем его можно будет практически применить в реальном мире, но сегодня проводится множество исследований.

Я надеюсь, что эта статья пробудила ваш интерес к федеративному обучению и дала вам представление о том, что это такое и чего можно достичь.

Ниже вы можете найти больше ресурсов по федеративному обучению.

Спасибо за прочтение!

Дополнительная литература / ресурсы

использованная литература

Понравилась эта статья? Вот несколько статей, которые могут вам понравиться 👇

Следите за публикацией bitgrit Data Science, чтобы узнать больше!

Найдите нас на этих платформах 👇📱

материалы по теме:

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Typescript Computer Science Data Tech Development CSS HTML Programming Languages Angular Startup Productivity Python Programming Tutorial Neural Networks Computer Vision Open Source Javascript Tips AWS Education NLP Learning Mlops