Зачем нам нужна причинность в науке о данных?

Случайный причинный вывод

Зачем нам нужна причинность в науке о данных?

Это серия сообщений, объясняющих, почему нам нужен причинно-следственный вывод в науке о данных и машинном обучении (следующий - Используйте графики!). Причинный вывод приносит новый свежий набор инструментов и перспектив, которые позволяют нам решать старые проблемы.

Когда экспериментировать недоступно

Во-первых, планирование и проведение экспериментов (обычно с A / B-тестированием) всегда лучше, чем использование методов причинного вывода: вам не нужно моделировать, как генерируются данные. Если вы можете это сделать, дерзайте!

Однако есть много ситуаций, когда это не совсем возможно:

Если ваши эксперименты неэтичны (вы не можете заставить ребенка курить, чтобы проверить, вызывает ли это рак)
Причина не зависит от вас (компетенция запускает новый продукт, и вы хотите измерить его влияние на ваши продажи)
У вас есть исторические данные, и вы хотите извлечь из них максимальную пользу.
Проведение экспериментов обходится слишком дорого с точки зрения денег или воздействия, либо их слишком сложно реализовать на практике.

Немного истории

Есть три основных источника влияния на причинно-следственный вывод: информатика, статистика, эпидемиология и эконометрика. Активные исследования причинно-следственной связи начались в 80-х годах.

Отрасль информатики возглавляет Джудея Перл. Его первые влияния восходят к Сьюэллу Райту в 1920-х годах, когда он писал о графических моделях с линейными функциями. Эти методы эволюционировали и теперь известны как подход с направленными ациклическими графами (DAG).

Самая популярная в статистике и эпидемиологии схема, известная как схема потенциальных результатов, была предложена Ежи Нейманом в 1923 году. Это была отправная точка для разработки причинно-следственного вывода с более статистической точки зрения. Дональд Рубин наиболее известен в этом подходе.

Обе структуры эквивалентны, что означает, что теорема в одной является теоремой в другой, и каждое предположение в одной может быть переведено в эквивалентное предположение в другой. Различия заключаются в использовании. Некоторые проблемы легче сформулировать в одной структуре, а некоторые - в другой. Джейми Робин и Томас С. Ричардсон работали над фреймворком под названием Single World Intervention Graphs (SWIG), который действует как посредник между двумя фреймворками.

Есть некоторые факты о причинно-следственной связи, которые уже давно известны эконометрике. Среди эконометристов более популярны следующие методы:

Контролируемая регрессия
Дизайн разрывов регрессии
Различия в различиях
Регрессия с фиксированными эффектами
Инструментальные переменные

Конечно, их можно сформулировать в терминах предыдущих рамок.

Философские вопросы (всегда в дискуссии)

Природа причинности действительно сложна. Парадокс в том, что мы используем его постоянно, ежедневно, во многих случаях это здравый смысл, но найти определение, позволяющее оценить, в каких случаях A вызывает B в реальном мире, очень сложно! Мы все согласны с тем, что из-за дождя пол становится влажным (я надеюсь… мы можем найти и отрицателей дождя). Но как дать четкое определение, которое различает дождь или воздух, являющиеся причиной влажности? Как мы узнаем, что основной причиной является дождь, а не еще одна ненаблюдаемая переменная, вызывающая дождь и влажный пол одновременно? Поразмышляйте над этим сколько угодно ... В восемнадцатом веке Дэвид Юм уже начал думать о природе причинности, и многие философы писали об этом.

В сообществе статистиков все согласны с тем, что вы не можете доказать причинный эффект, по крайней мере, без проведения эксперимента. Когда вы имеете дело с данными наблюдений (данными, полученными пассивно, без ваших экспериментов), самое большее, что вы можете ожидать, - это говорить о корреляции (вероятностной зависимости). Это создало сценарий, в котором явный разговор о причинно-следственной связи в данных наблюдений является табу.

Несмотря на то, что доказать причинность в таких случаях невозможно, явный разговор о причинности дает определенные преимущества. Первый легко понять: большая часть наших человеческих знаний о том, как устроен мир, основаны на наблюдениях. Вы не экспериментируете со всем, что знаете. В некоторых случаях это даже невозможно: солнце вызывает дневной свет? как провести эксперимент, включая и выключая солнце? в этом случае вы можете попробовать какой-нибудь суррогатный эксперимент и утверждать, что это подтверждает исходную гипотезу, но это тоже не так просто. Между тем мы все согласны с тем, что солнце вызывает дневной свет. Второй аргумент - избежать заблуждения. Когда вы анализируете данные, вы хотите прийти к каким-то выводам, чтобы предпринять дальнейшие действия. Если вы думаете таким образом, это потому, что вы думаете, что эти действия влияют (и, следовательно, являются причиной) некоторого количества интереса. Итак, даже если вы говорите о корреляциях для технической корректности, вы собираетесь использовать эти идеи в причинно-следственной связи. Так что, если ваша цель носит причинный характер, вам лучше говорить прямо.

Где начать читать

Учебники

Вводная серия адама келлехера
Интерпретация линейных моделей с причинной точки зрения: Графические инструменты для моделирования линейных структурных уравнений, Брайант Чен и Джудея Перл

Книги

Причинный вывод в статистике: учебник, (структура DAG) Перл Дж., Глимур М. и Джуэлл Н.П.
Причинный вывод, (Структура потенциальных результатов) Эрнан М.А. и Робинс Дж. М.
В основном безобидная эконометрика: компаньон эмпириков, (с точки зрения эконометрики) Ангрист Дж. Д. и Пишке Дж.

Кто я? Я Алекс Руис де Вилья (http://aleixruizdevilla.net), доктор философии. в области математического анализа и экс-глава отдела науки о данных некоторых компаний. Я живу в Барселоне, Каталония, и являюсь соучредителем badass.cat и bacaina.cat.

материалы по теме:

Новые материалы

Коллекции публикаций по глубокому обучению

Последние пару месяцев я создавал коллекции последних академических публикаций по различным подполям глубокого обучения в моем блоге https://amundtveit.com - эта публикация дает обзор 25..

Представляем: Pepita

Фреймворк JavaScript с открытым исходным кодом Я знаю, что недостатка в фреймворках JavaScript нет. Но я просто не мог остановиться. Я хотел написать что-то сам, со своими собственными..

Советы по коду Laravel #2

1-) Найти // You can specify the columns you need // in when you use the find method on a model User::find(‘id’, [‘email’,’name’]); // You can increment or decrement // a field in..

Работа с временными рядами спутниковых изображений, часть 3 (аналитика данных)

Анализ временных рядов спутниковых изображений для данных наблюдений за большой Землей (arXiv) Автор: Рольф Симоэс , Жильберто Камара , Жильберто Кейрос , Фелипе Соуза , Педро Р. Андраде ,..

3 способа решить квадратное уравнение (3-й мой любимый) -

1. Методом факторизации — 2. Используя квадратичную формулу — 3. Заполнив квадрат — Давайте поймем это, решив это простое уравнение: Мы пытаемся сделать LHS,..

Создание VR-миров с A-Frame

Виртуальная реальность (и дополненная реальность) стали главными модными терминами в образовательных технологиях. С недорогими VR-гарнитурами, такими как Google Cardboard , и использованием..

Демистификация рекурсии

КОДЕКС Демистификация рекурсии Упрощенная концепция ошеломляющей О чем весь этот шум? Рекурсия, кажется, единственная тема, от которой у каждого начинающего студента-информатика..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Web Development Software Development Python Coding Deep Learning AI React Software Engineering Nodejs Front End Development Java Algorithms Computer Science Typescript Data Tech Development CSS HTML Programming Languages Startup Productivity Python Programming Tutorial Angular Neural Networks Computer Vision Open Source Javascript Tips AWS Education Learning NLP Mlops