Случайный причинный вывод
Зачем нам нужна причинность в науке о данных?
Это серия сообщений, объясняющих, почему нам нужен причинно-следственный вывод в науке о данных и машинном обучении (следующий - Используйте графики!). Причинный вывод приносит новый свежий набор инструментов и перспектив, которые позволяют нам решать старые проблемы.
Когда экспериментировать недоступно
Во-первых, планирование и проведение экспериментов (обычно с A / B-тестированием) всегда лучше, чем использование методов причинного вывода: вам не нужно моделировать, как генерируются данные. Если вы можете это сделать, дерзайте!
Однако есть много ситуаций, когда это не совсем возможно:
- Если ваши эксперименты неэтичны (вы не можете заставить ребенка курить, чтобы проверить, вызывает ли это рак)
- Причина не зависит от вас (компетенция запускает новый продукт, и вы хотите измерить его влияние на ваши продажи)
- У вас есть исторические данные, и вы хотите извлечь из них максимальную пользу.
- Проведение экспериментов обходится слишком дорого с точки зрения денег или воздействия, либо их слишком сложно реализовать на практике.
Немного истории
Есть три основных источника влияния на причинно-следственный вывод: информатика, статистика, эпидемиология и эконометрика. Активные исследования причинно-следственной связи начались в 80-х годах.
Отрасль информатики возглавляет Джудея Перл. Его первые влияния восходят к Сьюэллу Райту в 1920-х годах, когда он писал о графических моделях с линейными функциями. Эти методы эволюционировали и теперь известны как подход с направленными ациклическими графами (DAG).
Самая популярная в статистике и эпидемиологии схема, известная как схема потенциальных результатов, была предложена Ежи Нейманом в 1923 году. Это была отправная точка для разработки причинно-следственного вывода с более статистической точки зрения. Дональд Рубин наиболее известен в этом подходе.
Обе структуры эквивалентны, что означает, что теорема в одной является теоремой в другой, и каждое предположение в одной может быть переведено в эквивалентное предположение в другой. Различия заключаются в использовании. Некоторые проблемы легче сформулировать в одной структуре, а некоторые - в другой. Джейми Робин и Томас С. Ричардсон работали над фреймворком под названием Single World Intervention Graphs (SWIG), который действует как посредник между двумя фреймворками.
Есть некоторые факты о причинно-следственной связи, которые уже давно известны эконометрике. Среди эконометристов более популярны следующие методы:
- Контролируемая регрессия
- Дизайн разрывов регрессии
- Различия в различиях
- Регрессия с фиксированными эффектами
- Инструментальные переменные
Конечно, их можно сформулировать в терминах предыдущих рамок.
Философские вопросы (всегда в дискуссии)
Природа причинности действительно сложна. Парадокс в том, что мы используем его постоянно, ежедневно, во многих случаях это здравый смысл, но найти определение, позволяющее оценить, в каких случаях A вызывает B в реальном мире, очень сложно! Мы все согласны с тем, что из-за дождя пол становится влажным (я надеюсь… мы можем найти и отрицателей дождя). Но как дать четкое определение, которое различает дождь или воздух, являющиеся причиной влажности? Как мы узнаем, что основной причиной является дождь, а не еще одна ненаблюдаемая переменная, вызывающая дождь и влажный пол одновременно? Поразмышляйте над этим сколько угодно ... В восемнадцатом веке Дэвид Юм уже начал думать о природе причинности, и многие философы писали об этом.
В сообществе статистиков все согласны с тем, что вы не можете доказать причинный эффект, по крайней мере, без проведения эксперимента. Когда вы имеете дело с данными наблюдений (данными, полученными пассивно, без ваших экспериментов), самое большее, что вы можете ожидать, - это говорить о корреляции (вероятностной зависимости). Это создало сценарий, в котором явный разговор о причинно-следственной связи в данных наблюдений является табу.
Несмотря на то, что доказать причинность в таких случаях невозможно, явный разговор о причинности дает определенные преимущества. Первый легко понять: большая часть наших человеческих знаний о том, как устроен мир, основаны на наблюдениях. Вы не экспериментируете со всем, что знаете. В некоторых случаях это даже невозможно: солнце вызывает дневной свет? как провести эксперимент, включая и выключая солнце? в этом случае вы можете попробовать какой-нибудь суррогатный эксперимент и утверждать, что это подтверждает исходную гипотезу, но это тоже не так просто. Между тем мы все согласны с тем, что солнце вызывает дневной свет. Второй аргумент - избежать заблуждения. Когда вы анализируете данные, вы хотите прийти к каким-то выводам, чтобы предпринять дальнейшие действия. Если вы думаете таким образом, это потому, что вы думаете, что эти действия влияют (и, следовательно, являются причиной) некоторого количества интереса. Итак, даже если вы говорите о корреляциях для технической корректности, вы собираетесь использовать эти идеи в причинно-следственной связи. Так что, если ваша цель носит причинный характер, вам лучше говорить прямо.
Где начать читать
Учебники
- Вводная серия адама келлехера
- Интерпретация линейных моделей с причинной точки зрения: Графические инструменты для моделирования линейных структурных уравнений, Брайант Чен и Джудея Перл
Книги
- Причинный вывод в статистике: учебник, (структура DAG) Перл Дж., Глимур М. и Джуэлл Н.П.
- Причинный вывод, (Структура потенциальных результатов) Эрнан М.А. и Робинс Дж. М.
- В основном безобидная эконометрика: компаньон эмпириков, (с точки зрения эконометрики) Ангрист Дж. Д. и Пишке Дж.
Кто я? Я Алекс Руис де Вилья (http://aleixruizdevilla.net), доктор философии. в области математического анализа и экс-глава отдела науки о данных некоторых компаний. Я живу в Барселоне, Каталония, и являюсь соучредителем badass.cat и bacaina.cat.