Всем более-менее понятно, что «после — не значит вследствие»
Теоретически. На деле, это когнитивное искажение сложно преодолеть даже в житейских вопросах. Вот в офис входит незнакомец, через пять минут выходит, а вечером мы обнаруживаем пропажу часов. Через офис могли за день пройти десятки людей, но именно выбивающийся из привычного хода вещей незнакомец попадает под подозрение.
Что уж говорить о больших объемах данных, в которых житейская логика не работает (как в посте про феминистку Линду). Причинно-следственные связи там почти всегда туманны, но человек легко их проводит (поскольку нам вообще свойственно находить связи, это самопроизвольный процесс).
Вот психологи проводят какой-нибудь эксперимент. Скажем, тот всеми известный и любимый, когда к парням и девушкам подходили люди противоположного пола и сходу предлагали им заняться сексом. Большинство парней соглашалось, среди девушек не согласилась ни одна. Вывод: мужчины — озабоченные ублюдки, женщины — непорочные девы. И хотя что-то в этом есть, даже на поверхности обнаруживается несколько вопросов:
- А какие именно девушки подходили к парням и какие именно парни подходили к девушкам? Насколько обаятельны, артистичны, красивы и так далее
- Все экспериментаторы произносили одни и те же фразы. Может, произносимые фразы «подходят» для парней и «не подходят» для девушек?
- В социологии есть такое явление как непроизвольная выборка экспериментаторов. Например, когда экспериментатор, проводя опрос, между двумя проходящими мимо мужчинами 40+ выберет мужчину в костюме, а не бомжа. Это грубый пример, в реальности выборка происходит неосознанно и по намного более тонким критериям. Насколько чист данный эксперимент в этом отношении?
- Откуда нам вообще известны причины согласия одних и отказа — других? Опять же, даже на поверхности среди возможных причин отказа мы можем назвать страх, непривлекательность экспериментатора, занятость в данный момент и так далее
- Почему мы делаем такие глобальные выводы исходя лишь из согласия заняться сексом спустя минуту после знакомства?
Мы подходим к большим данным и статистике так, как мы подходили бы к математике, только при этом допускаем в ней произвольные выводы. Если в математике когда А>B, а B>С, то А>С, то в статистике у нас внезапно когда А>B, а B>С, то А — это гладиолус.
Проблема анализа больших данных, социологических экспериментов и статистики в том, что в реальности, в отличие от математики, — бесконечное количество факторов, каждый из которых связан с каждым. Мы не можем вычленить два фактора (скажем, пол испытуемых), не повлияв тем самым на всю систему — как в эксперименте с предложением заняться сексом.
На практике это означает, что хотя мы и можем использовать большие данные — скажем, маркетологи постоянно делают это, проводя тесты рекламы — но почти никогда не можем с уверенностью делать из этого выводы. Это, опять же, хорошо знают маркетологи, поскольку у каждого из нас было огромное количество очевидных выводов, которые не оправдались, будучи примененными на практике, а также миллион случайностей, которые необъяснимо, но радикально влияли на результат.