Продукты данных: стратегические корпоративные данные для искусственного интеллекта и машинного обучения

Узнайте, как крупные компании создают активы данных

Компании по всему миру участвуют в ожесточенной гонке за превращение в дальновидные организации, ориентированные на данные.

Но широко распространенное унаследованное ориентированное на проекты мышление заставило многих из них чувствовать, что они пытаются бежать в стальных ботинках.

Возьмем, к примеру, банк, в котором я работаю.

Трудно мечтать об ИИ и расширенной аналитике, когда инженеры тонут в море дублированных конвейеров данных, что затрудняет извлечение выгоды из неиспользованной ценности, скрытой в нашей сокровищнице данных.

А без правильного стека данных и согласованных стимулов отдельные команды будут продолжать создавать дорогостоящие в обслуживании одноразовые решения, которые только увеличат существующую гору технического долга. Ба!

Какое решение?

Закройте глаза и подумайте о лучших продуктах на Земле…

… качественные вещи, которые нравятся вам каждый день.

Как заядлый путешественник, некоторые личные вещи должны быть у меня: мой надежный ноутбук Macbook Pro, моя рабочая лошадка камеры Sony, мои грозные воздушные дроны DJI Mavic, и мои неизменные кроссовки Asics.

Что общего у всех этих замечательных продуктов?

У них есть бренд. Они излучают качество и пользуются надежностью. Они производятся с гордостью. Они созданы из лучших «ингредиентов» или частей. И они постоянно обновляются, чтобы обеспечить доминирование на своих рынках.

Отказ от ответственности: меня не спонсирует ни один из этих брендов… но было бы неплохо!

Так какой смысл я пытаюсь сделать?

Что ж, оказывается, революция, направленная на воспроизведение этого продукта, происходит в ландшафте корпоративных данных.

Действительно, создание информационных активов рассматривается архитекторами и технологами как серебряная пуля для снижения сложности данных в крупных компаниях.

Переходя от проектного мышления к продуктовому мышлению, мы начинаем устанавливать инфраструктуру и структуры стимулирования, необходимые для создания качественных и многократно используемых активов данных, которые действительно могут превратить организации в просто управляемые данными, но вдохновленные данными электростанции.

Это очень захватывающее время.

В этой статье я расскажу вам, как…

Многие крупные организации тонут в зыбучих песках проблем с данными;
Как информационные продукты убивают сразу несколько зайцев;
Как создаются эти стратегические активы данных.

Давайте углубимся.

Новичок в Medium? Присоединяйтесь здесь и получите неограниченный доступ к лучшим статьям в Интернете.

1. Проблемы с корпоративными данными… о, о!

Компании, которые действительно объединяют свои данные, немногочисленны.

Большие технологии, такие как Airbnb, Amazon, Apple, Google, Meta, Netflix и Uber, явно выделяются. Это потому, что вся их бизнес-модель основана на безупречном стеке данных.

Это компании, работающие с данными, и они представляют собой исключения из правил.

Требования отрасли

Но организации в каждой отрасли испытывают потребность в переходе на данные, потому что:

Принятие решений на основе данных повышает результативность и сокращает потери.
Потребители все чаще ожидают появления гиперперсонализированных цифровых продуктов и услуг, использующих мощную аналитику, такую как ИИ и машинное обучение, которые обучаются на всех качественных данных, которые может собрать компания.
Контроль со стороны регулирующих органов становится все жестче.

Приведу личный пример: я работаю аналитиком в одном из австралийских банков «Большой четверки». И мальчик, это тяжелая ситуация.

Мы вынуждены повышать производительность при одновременном снижении операционной прибыли, а это значит, что нам нужно, чтобы решения принимались на основе доказательств (т. е. данных), а не на догадках, как в старые добрые дни.

Мы подвергаемся нападкам со стороны проворных необанков, которые предлагают нашим клиентам невероятные цифровые услуги, такие как возможность предоставлять им дешевую ипотеку в течение минут — и все это через приложение для смартфона — возможность, которая требует целостного «360-градусного» понимания клиента, использующего невероятное количество данных.

Мы находимся под давлением наших регулирующих органов, которые поставили нам крайний срок, чтобы начать предоставлять более подробные данные. В то же время правительство обязало делиться данными о наших клиентах с другими организациями в связи с растущим глобальным распространением открытого банкинга.

Все это означает, что нам нужны масштабируемые платформы данных, заполненные полным набором качественных данных с расширенными аналитическими возможностями, такими как ИИ и машинное обучение. », готовые извлечь из наших данных ценную информацию.

У нас есть это? Еще нет.

Миска спагетти с дублированными конвейерами данных

Реальность такова, что ландшафт данных на многих предприятиях ушиблен, избит и усеян проблемами и техническим долгом.

Это похоже на дом, полный скопившегося беспорядка, который вам нужно убрать для проверки в ближайшее время. Не так много вещей должным образом организовано и их легко найти.

Во-первых, это сложность данных. Уххх!

Сегодня большинство компаний подходят к корпоративным данным с проектным мышлением. Каждый раз, когда у бизнес-функции возникает проблема, которую она хочет решить с помощью данных, компания начинает новый проект по сбору данных, их очистке и подготовке, а затем анализу для конкретного варианта использования.

После того, как работа сделана, это специальное одноразовое решение устанавливается и забывается, и команда переходит к чему-то другому.

Что происходит, когда возникает новая проблема?

Ты угадал. Поскольку команды часто работают разрозненно, начинается целый новый проект данных, а не развитие существующего.

Со временем это приводит к чрезмерно сложному ландшафту данных, характеризующемуся спагетти дублированных конвейеров ETL с ограниченным контролем, управлением и надзором.

Большинство вещей носят тактический характер, но не так много стратегических.

Организация, управляемая данными? Ха!

Итак, что это значит для компании?

Плохие вещи. Сотрудникам довольно сложно разблокировать скрытую ценность данных.

Потребители данных будут получать данные в любое время и любым способом. Разные команды используют разные методы для интеграции и преобразования данных, создавая новую спагетти-цепь конвейера данных для каждого нового проекта. Помимо добавления технического долга, эти одноразовые инвестиции ложатся огромным бременем на ресурсы компании, занимающейся экспертами в предметной области (МСП), что приводит к увеличению затрат.
Происхождение данных сложно отслеживать и управлять. Отсутствует четкая ответственность и подотчетность, поскольку данные распространяются по всей организации по специально разработанным конвейерам. Это затрудняет доверие к нисходящим данным.
Производители данных не знают, как используются их данные, что создает риски для данных. Две команды могут обрабатывать данные разными способами, что приводит к противоречивым аналитическим результатам, которые затем сообщаются лицам, принимающим решения, и регулирующим органам.

Все это означает, что компания изо всех сил старается своевременно реализовывать проекты и предоставлять наилучшую информацию, которую могут предложить данные.

Не самый лучший результат как для коллег, так и для клиентов.

2. Объяснение информационных продуктов

Как мы решаем эти проблемы?

Архитекторы поняли, что, объединяя продуктовое мышление с данными, мы согласовываем стимулы и технологический стек, который способствует тому, чтобы данные становились первоклассными гражданами.

Так что же такое продукты данных?

Продукты данных — это высококачественные, модульные, повторно используемые и постоянно улучшаемые активы данных, которые управляют и группируют большие объемы данных вместе в логические использует. Их можно использовать для конкретных проектов, а затем преобразовать во что-то совершенно другое, масштабируя ценность для всей компании с течением времени.
Продукты данных заключены в интерфейсы, обеспечивающие обнаружение (например, рынки данных) и отслеживание (происхождение данных), чтобы сделать ихпростой для понимания, доступа, использования и доверия.
Продукты данных могут использоваться приложениями (через API) для поддержки повседневных бизнес-операций и аналитическим сообществом для поддержки бизнес-аналитики, науки о данных и машинного обучения.

В моей компании мы создаем набор базовых информационных продуктов, которые охватывают логическое использование, например Клиент, Ипотечные кредиты, Продукты и Транзакции.

Эти элементарные продукты данных, такие как базовые блоки Lego или атомарные частицы, можно использовать для определенной цели, а затем переупорядочивать и повторно использовать для чего-то совершенно другого.

В моей работе различные комбинации наших базовых информационных продуктов объединяются для создания более ценных продуктов корпоративного, таких как Customer 360, Взаимодействия и Категоризация транзакций.

На эти готовые информационные активы можно стратегически полагаться во всем банке, чтобы обеспечить золотой источник информации о наших клиентах, что позволяет нам привлекать их в нужном месте и с нужным продуктом. , в нужное время.

Невероятно мощная штука.

Данные как продукт являются ключевым элементом сетки данных, архитектуры данных следующего поколения, на которую в настоящее время переходят многие организации, в том числе и моя.

Короче говоря, сетка данных отходит от идеи единой команды, управляющей централизованным озером данных, к децентрализованной архитектуре, в которой отдельные бизнес-подразделения в компании, которые лучше всего разбираются в своих данных, имеют право владеть и управлять своими собственными конвейерами данных и продуктами данных. Это известно как владение доменом.

Эти бизнес-команды заинтересованы в создании качественных продуктов данных, которые они затем могут опубликовать в сетке данных и с гордостью поделиться (или даже продать) другим подразделениям бизнеса.

Прочтите мое Объяснение 101 по теме сетка данных.

В целом, информационные продукты…

Сделайте потребителей данных счастливыми. Они упрощают поиск, доступ и использование высококачественных данных. Они обеспечивают упрощение, согласованность и экономию средств в корпоративной среде данных, предлагая надежные золотые источники достоверной информации, которые могут использоваться и повторно использоваться многими командами и вариантами использования. Попрощайтесь с этим неконтролируемым ростом конвейеров спагетти. Избавьтесь от сложности данных раз и навсегда! (По крайней мере, в теории.)
Сделайте управление данными счастливым. Владение доменом ведет к подотчетности. Происхождение данных тщательно отслеживается и контролируется.
Порадуйте производителей данных. Они понимают, как их данные проходят через организацию и как они используются, обеспечивая столь необходимую видимость своих активов и снижая риск случайного неправильного использования, которое может нанести ущерб компании.

Хотите узнать больше о сетке данных? Ознакомьтесь с моей статьей Explainer 101 о том, как ландшафт корпоративных данных эволюционировал в сторону сетки данных.

3. Как создавать отличные информационные продукты

Короче говоря, организациям необходимо учитывать две стороны одной медали.

1. Создайте правильный продукт.

Без удовлетворения потребности клиента продукт терпит неудачу — это просто и понятно.

2.Правильно создавайте продукт.

Подобно моему Macbook Pro или дрону DJI Mavic, информационные продукты должны быть надежными и точными инженерными решениями, которые внушают гордость и доверие.

Эти два столпа затем вызывают целый ряд вопросов, таких как:

Как мы узнаем, что продукт данных необходим? Кто его использует?
Кто создает продукты данных и владеет ими?
Откуда берутся данные?

Вот одна модель. Владельцы информационных продуктов будут поддерживать тесные отношения с различными сферами бизнеса (такими как Ипотека, Кредит, Филиалы<). /em> и т. д.), работая в тесном контакте с каждым специалистом по решениям в предметной области, команды которого создают продукты данных.

Владелец продукта данных служит связующим звеном между бизнесом и инженерами.

Давайте углубимся в вещи немного подробнее.

Создание правильных информационных продуктов

Для этого требуется эффективный цикл обратной связи между производителями данных и потребителями данных в вашей компании.

Как и в случае с «настоящими» готовыми продуктами, вы проведете фантастическое исследование, чтобы определить, какие информационные продукты необходимы на «рынке».

Затем свяжите ответственность с производителями данных, которые будут создавать эти продукты данных.

Чтобы сделать их действительно ответственными за то, чтобы правильные продукты выпускались из пресловутого фабричного цеха, эти производители, работающие в соответствующих сферах бизнеса, естественно, будут владельцами своих информационных продуктов.

Это называется владение доменом — ключевой столп сетки данных!

Как только V1 продукта данных будет создана и развернута в сети, потребители будут использовать их и предоставлять отзывы (посредством оценок, запросов и предложений) производителям, которые затем будут использовать эту информацию для постоянного улучшения своих предложений.

Как и все продукты, потребителям данных должно быть легко получать информацию о том, что они используют.

Например:

Название продукта:Продукт базовых данных о клиентах.
Бренд. Создан основной командой клиентов? Большой! Я доверяю этому.
Питание. Как эти данные могут помочь вашему варианту использования? Подходит ли он для использования в моей новой модели машинного обучения для сегментации клиентов?
Ингредиенты. Какие таблицы и исходные системы использовались для создания продукта данных?
Инструкции: как мне получить доступ и использовать этот продукт данных?
Размер пакета. Насколько велик этот продукт данных? Могу ли я загрузить это в Excel или PowerBI? Или мне следует использовать вычисления с большими данными?
Контактная информация: кому принадлежит этот продукт данных? Кто его построил? Как я могу связаться с ними?
Штрих-код. Что такое финансовая модель? Как я могу заплатить за это?
Дополнительная информация: есть ли дорожная карта? Как часто обновляются данные? Есть ли что-то еще, что я должен знать?

В общем, относитесь к своему блестящему новому информационному продукту так же, как к своим любимым продуктам.

Правильное создание продуктов данных

С другой стороны, как вы гарантируете, что ваши продукты будут высокого качества, надежными и заслуживающими доверия?

Ваша работа как архитектора заключается в том, чтобы продукты данных были правильно спроектированы и имели стратегическую ценность. Из каких высококачественных золотых источников следует получать данные? Хорошо ли мой дизайн и схема сочетаются с моим техническим стеком? Будет ли мое решение создавать технический долг? Он масштабируется?

Как инженер данных вы будете создавать конвейеры ETL, разработанные архитекторами и инженерами по решениям. Где мои информационные продукты будут располагаться на платформе? Какие автоматизированные задания мне нужно настроить? Были ли решены проблемы с качеством данных?

Как производитель данных, вы будете контролировать всю эту работу и подтверждать происхождение, качество, надежность и достоверность данных, поскольку вы владеете продуктом данных. Если что-то сломается, это будет на вас и вашей команде, поскольку сетка данных объединяет право собственности на отдельные бизнес-домены.

Как инженер UX, ваша работа заключается в том, чтобы продукты данных были доступны и просты в использовании потребителями по всей сетке. Как пользователи покупают информационные продукты? На моей работе мы создаем торговую площадку в стиле Netflix, и это довольно круто. Могут ли мои корпоративные инструменты, такие как Dataiku, PowerBI и Azure Synapse, легко получить доступ к данным?

4. Заключительные слова

Один талантливый предприниматель однажды сказал следующее:

«Великие компании строятся на отличных продуктах».

— Илон Маск, 2009

Этот тип ориентированного на продукт мышления для данных в настоящее время быстро распространяется в среде корпоративных данных.

Продукты данных позиционируются как средство (или это бульдозер) для одновременного удовлетворения множества требований клиентов, регулирующих органов и конкурентов, останавливая неконтролируемые распространение дублированных конвейеров данных, которое с годами росло как опухоль.

И время не может быть более важным.

Мы находимся в плавильном котле технологических инноваций, где все движется с головокружительной скоростью. Данные стремительно растут, вычислительная мощность растет, ИИ прорывается вперед и ожидания потребителей постоянно меняются.

Продукты для обработки данных — это важный шаг вперед для компаний, стремящихся стать той организацией, основанной на данных, основанной на передовой аналитике, к которой они стремились с момента их первоначальных набегов на озера данных на базе Apache Hadoop.

Продукты данных, будучи зрелыми, даже открывают совершенно новые источники дохода для уже существующих компаний, что также известно как коммерциализация данных. Это сократит разрыв между многими отраслями и крупными цифровыми аборигенами, такими как Google, Netflix и Google, которые построили всю свою бизнес-модель на основе данных и своей способности извлекать из них полезные идеи.

Но получить продукты данных с земли — немалый подвиг.

Компаниям нужны правильные навыки, технологии и стратегия.

Им необходимо взять на себя большие разовые капиталовложения, чтобы реализовать мечту о гораздо большей рентабельности инвестиций и более низкой стоимости использования в будущем по сравнению с текущим способом, основанным на проектах. работы.

Огромное количество организаций, использующих информационные продукты, показывает, что они верят в то, что эта трансформация того стоит.

Найдите меня на Linkedin, Twitter и YouTube.

Мои популярные статьи об искусственном интеллекте и науке о данных

AI Revolution: стремительное введение в машинное обучение — здесь
ChatGPT и GPT-4: как OpenAI выиграл войну NLU — здесь
Искусство генеративного искусственного интеллекта: объяснение промежуточного пути и стабильного распространения — здесь
Сила сторителлинга на основе данных — продавайте истории, а не данные — здесь
Хранилища данных и моделирование данных — краткий курс — здесь
От хранилищ данных и озер данных до сетки данных — здесь
От озер данных к сетке данных: руководство по новейшей архитектуре — здесь
Продукты данных: создание прочной основы для аналитики — здесь
Cloud Computing 101: Используйте облако для своего бизнеса — здесь
Power BI — от моделирования данных до потрясающих отчетов — здесь
Машинное обучение против механического моделирования — здесь
Объяснение популярных показателей производительности машинного обучения — здесь
Будущее работы: безопасна ли ваша карьера в эпоху ИИ — здесь
Помимо ChatGPT: поиск настоящей интеллектуальной машины — здесь
Регрессия: прогнозирование цен на жилье с помощью Python — здесь
Классификация: прогнозирование оттока сотрудников с помощью Python — здесь
Блокноты Python Jupyter против Dataiku DSS — здесь

Неограниченный доступ к среде

Присоединяйтесь к Medium здесь и наслаждайтесь неограниченным доступом к лучшим статьям в Интернете.

Вы будете напрямую поддерживать меня и других ведущих писателей. Ваше здоровье!

Будьте в курсе последних новостей и обновлений в сфере творческого ИИ — следите за публикацией Генеративный ИИ.

Data Science Artificial Intelligence Business Technology Programming

материалы по теме:

Коллекции публикаций по глубокому обучению

Представляем: Pepita

Советы по коду Laravel #2

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

3 способа решить квадратное уравнение (3-й мой любимый) -

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки
Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Computer Science Typescript Data Tech Development CSS HTML Programming Languages Tutorial Angular Startup Productivity Python Programming Computer Vision Neural Networks Javascript Tips AWS Education Open Source NLP Learning Developer