Искусственный интеллект
Федеративное обучение - децентрализованное машинное обучение
Обновление конфиденциальности для машинного обучения
Для работы многих приложений машинного обучения требуется тонны данных. Однако проблема в том, что пользовательские данные конфиденциальны и конфиденциальны.
Растущие опасения по поводу конфиденциальности и призывы к защите прав на данные создают проблему для традиционных способов обучения и разработки моделей машинного обучения, которые требуют, чтобы пользователи передавали свои конфиденциальные данные на облачный сервер.
Решение? Федеративное обучение.
Прежде чем мы углубимся в сегодняшнюю статью, у нас есть новый сервер Discord, на котором сообщество bitgrit обсуждает все, что связано с наукой о данных и искусственным интеллектом, включая наш недавно выпущенный токен BGR! Присоединяйтесь к серверу здесь!
Что такое федеративное обучение?
Благодаря сочетанию распределенной оптимизации, исследования конфиденциальности и машинного обучения родилось федеративное обучение.
Формальное определение из Википедии:
Федеративное обучение (также известное как совместное обучение) - это метод машинного обучения, который обучает алгоритм на нескольких децентрализованных периферийных устройствах или серверах, содержащих локальные образцы данных, не обменивая их.
Ключевые слова здесь: децентрализованные и локальные данные.
Впервые он был представлен в статье 2016 года, опубликованной исследователями Google AI: Коммуникационно-эффективное обучение глубоких сетей на основе децентрализованных данных.
Основная идея федеративного обучения - внедрение централизованной модели на децентрализованные устройства, устранение необходимости в получении пользовательских данных.
Поскольку пользовательские данные не покидают устройство, это помогает сохранить конфиденциальность и безопасность данных, поскольку передаются только результаты модели (подробнее об этом позже).
Это обновление конфиденциальности для машинного обучения является революционным и открывает новые возможности для приложений машинного обучения для обработки конфиденциальных данных.
Но прежде чем мы погрузимся в примеры использования и преимущества федеративного обучения, давайте рассмотрим, как это работает, на примере.
Как это работает
Мы возьмем пример предсказателя следующего слова для Google Gboard и шаг за шагом рассмотрим процесс федеративного обучения.
Во-первых, Google построил базовую модель машинного обучения на своем облачном сервере, обученный на общедоступных данных.
Затем несколько пользовательских устройств вызываются для обучения модели. Они получают модель, загружая ее при подключении к источнику питания и по сети Wi-Fi (поскольку обучение модели - это интенсивная операция, и мы не хотели бы разряжать батарею устройств пользователей).
Они предоставляют модели релевантные данные - журналы нажатий клавиш, отзывы о прогнозах и т. Д. - для изучения и совершенствования модели.
После завершения обучения все обновления или улучшения модели собираются, шифруются и отправляются в облако, обновляя базовую модель новой информацией.
Этот цикл загрузки и обновления происходит на нескольких устройствах и повторяется несколько раз до достижения хорошей точности. Только после этого модель распространяется среди всех остальных пользователей для всех типов сценариев использования.
Важное примечание: данные обучения по-прежнему остаются на устройстве пользователя; только результат обучения шифруется и отправляется в облако.
Вот разбивка процесса на изображении.
Ваш телефон настраивает модель локально в зависимости от вашего использования (A). Обновления многих пользователей объединяются (B), чтобы сформировать консенсусное изменение (C) для общей модели, после чего процедура повторяется. ("источник")
Этот совместный способ обучения и разработки моделей машинного обучения очень эффективен и имеет реальные приложения.
Приложения
Там, где данные разделены по юридическим, экономическим причинам и т. Д., Федеративное обучение выгодно, поскольку оно позволяет отдельным сторонам обучать свои модели на более крупном наборе данных.
1. Здравоохранение
Прекрасный пример - цифровое здоровье. Данные из медицинских учреждений хранятся изолированно из-за конфиденциальности пациентов и управления данными и не могут использоваться без согласия пациента. При традиционном подходе модели машинного обучения могут учиться только на ограниченном доступном источнике данных и смещены в сторону инструментов / демографии / практики больницы.
Благодаря федеративному обучению алгоритмы ИИ могут получать больше информации из других больниц, собирая более объективную информацию, такую как пол, возраст, демографические данные и т. Д., Что может помочь модели делать более обобщенные прогнозы.
Подробнее → Будущее цифрового здравоохранения с федеративным обучением
2. Беспилотные автомобили.
Беспилотные автомобили также можно рассматривать как отдельных участников, когда обучение передается автомобилям, а не данные, отправляемые обратно на центральный сервер.
Поскольку вождение в реальном мире опасно и часто непредсказуемо, федеративное обучение может ускорить процесс обучения, уменьшая необходимость передачи больших объемов данных. В конечном счете, он может ускорить процесс перехода к полностью автономному автономному вождению.
Существует больше приложений федеративного обучения, в первую очередь в области Интернета вещей (IoT), которые повторяют одно и то же сообщение о включении Интернета вещей с машинным обучением при сохранении конфиденциальности данных и снижении высоких накладных расходов на связь и хранение.
Ограничения / проблемы
Федеративное обучение - все еще довольно новая идея, и некоторые распространенные проблемы не позволяют ей полностью реализовать свой потенциал.
1. Неидентификационные данные
Устройства по всему миру постоянно генерируют данные, отличные от iid. В статистической литературе это означает, что данные не являются независимыми и неравномерно распределенными. Предположение о переменных iid является центральным для многих статистических методов и алгоритмов и может усложнить модель и вызвать проблемы.
2. Вычислительные возможности устройства.
Каждое устройство, участвующее в объединенной сети, отличается своими возможностями на программном и аппаратном уровне (сетевое подключение, оперативная память, питание и т. Д.). Несмотря на то, что сегодня большинство смартфонов обладают высокой способностью к ресурсоемким задачам, таким как обучение модели, все еще существует значительная часть периферийных устройств, которые не могут работать и могут снизить производительность устройства. Будет компромисс между поддержанием производительности устройства и точностью модели.
3. Маркировка данных
Многие методы контролируемого машинного обучения требуют четких и последовательных меток для работы алгоритма. Поскольку данные поступают с различных устройств, необходимо реализовать хорошие конвейеры данных для автоматической маркировки данных.
4. Утечка данных
С помощью обратного проектирования все еще можно идентифицировать и получать данные от конкретного пользователя. Однако методы обеспечения конфиденциальности, такие как дифференциальная конфиденциальность, могут повысить конфиденциальность федеративного обучения, но за счет более низкой точности модели.
Чтобы узнать больше о проблемах федеративного обучения, прочтите здесь.
Каркасы
Заинтересованы в том, чтобы испачкать руки федеративным обучением?
Вот несколько рамок для реализации федеративного обучения.
Федеративное обучение - мощная идея искусственного интеллекта. Он обеспечивает децентрализованное обучение на нескольких устройствах с низкой задержкой и энергопотреблением, обеспечивая конфиденциальность и безопасность ваших данных.
Он все еще сталкивается с проблемами, прежде чем его можно будет практически применить в реальном мире, но сегодня проводится множество исследований.
Я надеюсь, что эта статья пробудила ваш интерес к федеративному обучению и дала вам представление о том, что это такое и чего можно достичь.
Ниже вы можете найти больше ресурсов по федеративному обучению.
Спасибо за прочтение!
Дополнительная литература / ресурсы
- Интернет-комикс о федеративном обучении от Google
- Статьи с кодом - Федеративное обучение
- Федеративное обучение для классификации изображений
- Федеративное обучение: машинное обучение на децентрализованных данных (Google I / O'19)
использованная литература
- Федеративное обучение: совместное машинное обучение без централизованных данных обучения
- Что такое федеративное обучение?
Понравилась эта статья? Вот несколько статей, которые могут вам понравиться 👇
- Разъяснение 5 лучших алгоритмов машинного обучения
- Использование науки о данных для прогнозирования вирусных твитов
- Создание модели классификации изображений с нуля с помощью PyTorch
Следите за публикацией bitgrit Data Science, чтобы узнать больше!
Найдите нас на этих платформах 👇📱
- "Веб-сайт"
- Твиттер
- Инстаграм
- "YouTube канал"
- Сообщество Telegram!