Корреляция и причинно-следственная связь. Разница для аналитики продукта.

Для начала чуть-чуть определений, чтобы в дальнейшем меньше было путаницы.

Причинно-следственная связь — связь двух величин, при которой изменение одной величины порождает изменение другой.

Корреляция — это такая связь двух величин, при которой изменение одной из них сопутствует систематическому изменению другой. При этом связь может как быть, так и не быть причинно-следственной (например, обе величины зависят от третьей, но не зависят друг от друга).

Хотя причинно-следственная связь и корреляция могут существовать одновременно, корреляция не означает причинно-следственную связь.

Корреляция и причинно-следственная связь могут показаться обманчиво похожими. Но понимание их различий может стать неудачной тратой усилий на недорогие функции и созданием продукта, которым ваши клиенты не могут перестать восхищаться.

В чем же разница между корреляцией и причинно-следственной связью?

Как ранее уже упоминал, причинно-следственная связь и корреляция могут существовать одновременно, но корреляция не подразумевает причинно-следственную связь. Причинно-следственная связь — это когда действие A приводит к результату B.

Корреляция же — это в каком-то роде просто отношения. То есть действие A относится к действию B, но одно событие не обязательно вызывает другое событие.

Корреляция и причинно-следственная связь часто путаются, потому что человеческий ум любит находить закономерности, даже когда их нет. Мы часто выдумываем эти паттерны, когда две переменные оказываются настолько тесно связанными, что одна зависит от другой. Это означало бы причинно-следственную связь, когда зависимое событие является результатом независимого события. Мы не можем просто предположить причинно-следственную связь, даже если видим два события, происходящих, казалось бы, вместе, перед нашими глазами.

Во-первых, наши наблюдения — это слишком субъективная оценка. Во-вторых, может быть, что:

Верно и обратное: B на самом деле вызывает А.
Эти два действия коррелируют, но это еще не все: А и И коррелируют, но на самом деле они вызваны C
Здесь задействована еще одно действие: A действительно приводит к B, но до тех пор, пока D происходит.
Или существует цепная реакция: А вызывает Е, которая приводит Е к причине В (но вы видели, что А вызывает в только из ваших собственных глаз).

Пример корреляции и причинно-следственной связи в аналитике продуктов

Вы можете ожидать найти причинно-следственную связь в вашем продукте, где конкретные действия или поведение пользователя приводят к определенному результату.

Представьте себе, что вы только что запустили новую версию своего мобильного приложения. Вы делаете ключевую ставку на то, что Retention в приложении связан с социальным поведением, а точнее пользователю важно присутствие в каком-либо сообществе.

Вы просите свою команду разработать новую функцию, которая позволяет пользователям присоединяться к «сообществам».

Через месяц после того, как вы выпустили и анонсировали свою новую функцию сообществ, вы анализируете данные на предмет влияния сообществ на Retention. Для этого вы создаете две группы пользователей одинаковой численностью с произвольно выбранными пользователями. В одной когорте есть только пользователи, которые присоединились к сообществам, а в другой — только юзеры, которые не присоединились к сообществам.

Ваш анализ показывает шокирующее открытие: пользователи, присоединившиеся по крайней мере к одному сообществу, возвращаются в апп намного чаще, чем средний пользователь.

Retention 1-го дня у пользователей с сообществами — почти 90%, по сравнению с 50% у тех, кто не присоединился к ним. К 7-му дню метрика показывает 60%, тогда как лишь 18% у тех, кто не вступил в сообщества. Это очень крутые изменения.

https://imgs.xkcd.com/comics/cell_phones.png

Но надо быть осторожным. Чисто логически необходимо всегда понимать, что у вас нет достаточной информации, чтобы сделать вывод, является ли присоединение к сообществам причиной лучшего Retention. Все, что вы знаете, — это то, что эти два действия взаимосвязаны.

Как проверить наличие причинно-следственной связи в вашем продукте

Причинно-следственные связи не возникают случайно. Конечно, часто возникает соблазн связать два действия (или переменные) как «причину и следствие». Но без четкого доказательства причинности, без анализа, этот соблазн может привести к ложному положительному результату, когда причинная связь кажется существующей, но на самом деле ее нет. Это может произойти, если вы не будете тщательно проверять связь между зависимой и независимой переменными.

Тщательно проверьте связь между зависимой и независимой переменными, прежде чем утверждать причинность. Ложные срабатывания очень болезненны при создании продуктов, поскольку они могут ввести вас в заблуждение, заставляя думать, что вы понимаете связь между важными результатами и поведением пользователей. Например, вы можете думать, что знаете, какое конкретное событие приводит к долгосрочному удержанию пользователя (Retention), но без тщательного тестирования вы рискуете основывать важные решения о продукте на неправильном поведении пользователя.

Проведите надежные эксперименты, чтобы определить причинную связь

Существуют два эксперимента, которые вы можете использовать для выявления причинно-следственной связи с вашим продуктом:

Проверка гипотез
А/B/n эксперименты

Проверка гипотез

Самый обычная проверка гипотезы будет состоять из H0 (нулевая гипотеза) и H1 (ваша основная гипотеза). Вы также можете иметь вторичную гипотезу, третичную гипотезу и так далее.

Нулевая гипотеза всегда противоположна вашей основной гипотезе. Почему? Потому что вы не можете доказать свою первичную гипотезу со 100% уверенностью (самое близкое, что вы можете получить, — это 99%), но вы можете опровергнуть свою нулевую гипотезу.

Основная гипотеза указывает на причинно-следственные связи, которые вы исследуете, и должна идентифицировать независимую переменную и зависимую переменную. Лучше всего сначала создать свою H1, а затем определить его противоположность и использовать его для вашего H0.

Ваш H1 должен идентифицировать ожидаемую связь между вашими независимыми и зависимыми переменными. Таким образом, если мы используем предыдущий пример влияния социальных функций (сообществ) на удержание, ваша независимая переменная будет действием присоединения к сообществам, а ваша зависимая переменная — к Retention.

Итак, ваши гипотезы могут быть:

H1: если пользователь присоединяется к сообществу в рамках нашего продукта в первый месяц, то он будет оставаться клиентом более одного года.

Чтобы сгенерировать нулевую гипотезу, необходимо сформировать обратное утверждение гипотезе H1:

H0: нет никакой связи между присоединением к сообществу в приложении и удержанием пользователей.

Цель состоит в том, чтобы наблюдать любое фактическое различие между вашими различными гипотезами.

Если вы можете отвергнуть нулевую гипотезу со статистической значимостью (в идеале с минимальной достоверностью 95%), вы ближе к пониманию взаимосвязи между вашими независимыми и зависимыми переменными.

В приведенном выше примере, если вы можете отвергнуть нулевую гипотезу, обнаружив, что присоединение к сообществу привело к большему Retention, то вы, вероятно, можете сделать вывод, что существует некоторая связь между сообществами и удержанием пользователей.

Когда использовать проверку гипотез

Проверка гипотез полезна, когда вы пытаетесь определить, действительно ли существует связь между двумя переменными, а не опираетесь на собственные домыслы.

Возможно, вы захотите взглянуть на исторические данные, чтобы запустить продольный анализ, который рассматривает изменения с течением времени. Например, вы можете проверить, являются ли первые пользователи для запуска продукта вашими самыми большими промоутерами.

Или же вы можете запустить перекрестный анализ, который анализирует данные в конкретный момент. Это полезно, когда вы смотрите на последствия конкретного воздействия и результата, а не на изменения тенденций в течение определенного периода. Например, можно изучить взаимосвязь между рекламными акциями и продажами в праздничные дни.

A/B/n эксперименты

A/B/n тестирование может привести вас от корреляции к причинно-следственной связи. Посмотрите на каждую из ваших переменных, измените одну и посмотрите, что произойдет. Если ваш результат постоянно меняется (с одной и той же тенденцией), вы нашли переменную, которая имеет значение.

Эндрю Чен говорит об этом так: «…После того, как вы нашли модель, которая работает для вас, следующий шаг — это попробовать и А/B протестировать ее. Сделайте что-то такое, что расставляет приоритеты входной переменной и увеличивает ее, возможно, за счет чего-то другого. Посмотрите, будут ли эти пользователи более успешными в результате. Если вы видите большую разницу в своей метрике (не важно в какую сторону), значит, вы на что-то наткнулись. Если нет, то, возможно, это не очень хорошая модель.»

Когда речь заходит о том, что присоединение к сообществам приводит к более высокому Retention, вы должны исключить все другие переменные, которые могут повлиять на результат. Например, пользователи могли бы выбрать другой путь, который в конечном итоге повлиял бы на сохранение данных.

Чтобы проверить, существует ли причинно-следственная связь, вам нужно будет найти прямую связь между пользователями, присоединяющимися к сообществам и использующими ваше приложение в долгосрочной перспективе.

Начните с самого начала. Для следующих 1000 пользователей, которые зарегистрируются, разделите их на две группы. Половина из них будет вынуждена присоединиться к сообществам, когда они впервые зарегистрируются, а другая половина — нет.

Проведите эксперимент в течение 30 дней, а затем сравните показатели удержания между двумя группами.

Если вы обнаружите, что группа, которая была вынуждена присоединиться к сообществам, имеет относительно более высокий уровень удержания, то у вас есть доказательства, необходимые для подтверждения наличия причинно-следственной связи между присоединением к сообществам и удержанием. Эта взаимосвязь, вероятно, заслуживает дальнейшего изучения, чтобы понять, почему сообщества стимулируют удержание ресурсов.

Когда используется A/B/n тестирование

A/B / n, или сплит-тестирование, идеально подходит, когда вы сравниваете влияние различных фичей (это может быть функция продукта или контентная стратегия и пр.).

Например, можно провести тест пользователей на:

Использование стороннего приложения для автоматического распознавания имени и компании ваших пользователей
Сокращение количества полей в вашей регистрационной форме, если таковая имеется

После запуска нескольких вариантов продукта вы можете взглянуть на результаты, чтобы сравнить показатели конверсии, Retention и другие.

Для устойчивого роста продукта используйте правильные выводы

Мы всегда ищем закономерности вокруг себя, поэтому наша основная цель — быть в состоянии объяснить то, что мы видим. Однако, если причинно-следственная связь не может быть четко определена, следует предположить, что мы видим только корреляцию.

События, которые кажутся связанными на основе здравого смысла, не могут рассматриваться как причинные, если вы не можете доказать четкую и прямую связь. И хотя причинно-следственная связь и корреляция могут существовать одновременно, корреляция не означает причинно-следственную связь.

Чем лучше вы научитесь выявлять истинные корреляции внутри вашего продукта, тем лучше вы сможете расставить приоритеты в своих усилиях по вовлечению и удержанию пользователей.

P. S. Города с бОльшим количеством церквей имеют больше преступлений. Это достоверный факт. Как церкви влияют на количество преступлений в городах? :)

На основе: https://amplitude.com/blog/2017/01/19/causation-correlation.