Случайный причинный вывод

Зачем нам нужна причинность в науке о данных?

Это серия сообщений, объясняющих, почему нам нужен причинно-следственный вывод в науке о данных и машинном обучении (следующий - Используйте графики!). Причинный вывод приносит новый свежий набор инструментов и перспектив, которые позволяют нам решать старые проблемы.

Когда экспериментировать недоступно

Во-первых, планирование и проведение экспериментов (обычно с A / B-тестированием) всегда лучше, чем использование методов причинного вывода: вам не нужно моделировать, как генерируются данные. Если вы можете это сделать, дерзайте!

Однако есть много ситуаций, когда это не совсем возможно:

  • Если ваши эксперименты неэтичны (вы не можете заставить ребенка курить, чтобы проверить, вызывает ли это рак)
  • Причина не зависит от вас (компетенция запускает новый продукт, и вы хотите измерить его влияние на ваши продажи)
  • У вас есть исторические данные, и вы хотите извлечь из них максимальную пользу.
  • Проведение экспериментов обходится слишком дорого с точки зрения денег или воздействия, либо их слишком сложно реализовать на практике.

Немного истории

Есть три основных источника влияния на причинно-следственный вывод: информатика, статистика, эпидемиология и эконометрика. Активные исследования причинно-следственной связи начались в 80-х годах.

Отрасль информатики возглавляет Джудея Перл. Его первые влияния восходят к Сьюэллу Райту в 1920-х годах, когда он писал о графических моделях с линейными функциями. Эти методы эволюционировали и теперь известны как подход с направленными ациклическими графами (DAG).

Самая популярная в статистике и эпидемиологии схема, известная как схема потенциальных результатов, была предложена Ежи Нейманом в 1923 году. Это была отправная точка для разработки причинно-следственного вывода с более статистической точки зрения. Дональд Рубин наиболее известен в этом подходе.

Обе структуры эквивалентны, что означает, что теорема в одной является теоремой в другой, и каждое предположение в одной может быть переведено в эквивалентное предположение в другой. Различия заключаются в использовании. Некоторые проблемы легче сформулировать в одной структуре, а некоторые - в другой. Джейми Робин и Томас С. Ричардсон работали над фреймворком под названием Single World Intervention Graphs (SWIG), который действует как посредник между двумя фреймворками.

Есть некоторые факты о причинно-следственной связи, которые уже давно известны эконометрике. Среди эконометристов более популярны следующие методы:

  1. Контролируемая регрессия
  2. Дизайн разрывов регрессии
  3. Различия в различиях
  4. Регрессия с фиксированными эффектами
  5. Инструментальные переменные

Конечно, их можно сформулировать в терминах предыдущих рамок.

Философские вопросы (всегда в дискуссии)

Природа причинности действительно сложна. Парадокс в том, что мы используем его постоянно, ежедневно, во многих случаях это здравый смысл, но найти определение, позволяющее оценить, в каких случаях A вызывает B в реальном мире, очень сложно! Мы все согласны с тем, что из-за дождя пол становится влажным (я надеюсь… мы можем найти и отрицателей дождя). Но как дать четкое определение, которое различает дождь или воздух, являющиеся причиной влажности? Как мы узнаем, что основной причиной является дождь, а не еще одна ненаблюдаемая переменная, вызывающая дождь и влажный пол одновременно? Поразмышляйте над этим сколько угодно ... В восемнадцатом веке Дэвид Юм уже начал думать о природе причинности, и многие философы писали об этом.

В сообществе статистиков все согласны с тем, что вы не можете доказать причинный эффект, по крайней мере, без проведения эксперимента. Когда вы имеете дело с данными наблюдений (данными, полученными пассивно, без ваших экспериментов), самое большее, что вы можете ожидать, - это говорить о корреляции (вероятностной зависимости). Это создало сценарий, в котором явный разговор о причинно-следственной связи в данных наблюдений является табу.

Несмотря на то, что доказать причинность в таких случаях невозможно, явный разговор о причинности дает определенные преимущества. Первый легко понять: большая часть наших человеческих знаний о том, как устроен мир, основаны на наблюдениях. Вы не экспериментируете со всем, что знаете. В некоторых случаях это даже невозможно: солнце вызывает дневной свет? как провести эксперимент, включая и выключая солнце? в этом случае вы можете попробовать какой-нибудь суррогатный эксперимент и утверждать, что это подтверждает исходную гипотезу, но это тоже не так просто. Между тем мы все согласны с тем, что солнце вызывает дневной свет. Второй аргумент - избежать заблуждения. Когда вы анализируете данные, вы хотите прийти к каким-то выводам, чтобы предпринять дальнейшие действия. Если вы думаете таким образом, это потому, что вы думаете, что эти действия влияют (и, следовательно, являются причиной) некоторого количества интереса. Итак, даже если вы говорите о корреляциях для технической корректности, вы собираетесь использовать эти идеи в причинно-следственной связи. Так что, если ваша цель носит причинный характер, вам лучше говорить прямо.

Где начать читать

Учебники

Книги

Кто я? Я Алекс Руис де Вилья (http://aleixruizdevilla.net), доктор философии. в области математического анализа и экс-глава отдела науки о данных некоторых компаний. Я живу в Барселоне, Каталония, и являюсь соучредителем badass.cat и bacaina.cat.