目录
The Bias Equation
A Visual Guide to Bias
The Bias Equation
既然你现在理解了为何样本平均值可能与它试图估计的平均潜在结果存在差异,我们不妨更详细地探究为什么平均差值通常无法恢复出ATE(平均处理效应)。
在销售的例子中,处理与结果之间的关联性由E[Y|T=1] - E[Y|T=0]来衡量。这是有促销活动的商家平均销售量减去无促销活动商家的平均销售量。另一方面,因果关系则由(这是E[Y|do(t)=1] - E[Y|do(t)=0]的缩写)来衡量。
为了理解它们为何以及如何不同,让我们将观察到的结果替换为关联性度量E[Y|T=1] - E[Y|T=0]中的潜在结果。对于被处理组,观察到的结果是Y1;而对于未处理组,观察到的结果是Y0:
现在,让我们加上并减去E[Y0|T=1],这是一个反事实结果,它告诉我们如果被处理者没有接受处理,其结果会是什么:
最后,你可以重新排列这些项,并合并一些期望值:
这段简单的数学涵盖了你在因果问题上会遇到的所有问题。为了更好地理解它,让我们分解一下它的含义。
首先,这个等式告诉我们为什么相关性并不等于因果关系。正如你所见,相关性等于对被处理者的处理效应加上一个偏差项。这个偏差由处理组和对照组在无论是否接受处理的情况下有何不同所给出,这体现在Y0的差异上。现在你可以解释为什么当有人告诉你价格削减能大幅度提升销量时,你可能会产生怀疑。在这个销售例子中,你认为,也就是说,有能力进行降价的企业即便不促销,销量也往往更高。
为什么会这样?你会研究混杂因素(confounding)。现在,你可以认为偏差的出现是因为许多你无法观测到的因素正在与处理一起变化。因此,有促销和无促销的企业不仅仅在是否进行促销这一点上有区别,在规模、位置、选择促销的周次、管理风格、所在城市,以及其他很多方面都有所不同。为了确定价格削减能增加多少销量,你需要有促销和无促销的企业在平均意义上彼此相似。换句话说,处理组和对照组需要具有可比性(exchangeable)。
A Visual Guide to Bias
你不必仅依赖数学和直觉来讨论可比性(exchangeability)。在我们的例子中,你甚至可以通过绘制不同处理组间变量与结果之间的关系图来检查它们是否可比。如果你以业务规模(avg_week_sales衡量)为横轴,以每周销售量(weekly_amount_sold)为纵轴,并用不同的颜色表示是否进行促销(is_on_sale),你会发现进行促销的业务(被处理组)在图表的右侧更加集中,这意味着它们通常是更大的企业。也就是说,处理组和未处理组在平衡性上存在差异。
这是非常有力的证据,证明你的假设 是正确的。存在一种向上的偏差,因为实施降价的企业数量(T=1)以及这些企业在没有促销时的预期结果(Y0)都会随着企业规模的增大而提高。
如果你听说过辛普森悖论(Simpson’s Paradox),这种偏差就像是一个不那么极端的版本。在辛普森悖论中,两个变量之间的关系最初是正向的,但一旦调整第三个变量后,关系变成了负向的。在我们的案例中,偏差并没有极端到改变关联性的符号。这里,你从一个初始情况开始,即价格削减与销量之间的关联性过高,而控制第三个变量则会减少这种关联性的大小。如果你聚焦于相同规模的企业内部,价格削减与销量之间的关系会减弱,但仍保持正向。
再次强调,这一点非常重要,我认为值得再深入讲解一遍,这次会配合一些图像。虽然这些图像并不现实,但它们很好地解释了偏差的问题。假设你有一个表示企业规模的变量。如果将销售量与规模绘制成图,你会看到一个上升的趋势,其中规模越大,企业销售越多。接下来,根据处理情况给点着色:白色点表示降价的企业,黑色点表示没有降价的企业。如果你简单地比较处理组和未处理组企业的平均销售量,你将得到以下结果:
请注意,两组间销售量的差异(并且很可能确实存在)可能由两个原因造成:
- 处理效应。因降价而导致的销售量增加。
- 业务规模。规模较大的企业既能够卖出更多商品,也能够进行更多的降价促销。这种处理组和对照组间的差异并非由降价引起,而是源于企业本身的规模。
因果推断的挑战在于区分这两种原因。
对比一下,如果我们将所有可能的结果(包括反事实结果,用三角形表示)加入图中,情况会有所不同。个体处理效应是个体结果与其在另一种处理条件下理论上的结果之间的差值。你想要估计的平均处理效应是每个个体单元潜在结果的平均差。这些个体间的差异远小于之前图中处理组和对照组之间的差异。原因在于偏倚,如右侧的图所示:
你可以通过设定所有单位都不接受处理来表示这种偏倚。在这种情况下,你只保留了Y0这一种潜在结果。然后,你可以观察在没有接受处理的情况下,处理组和对照组在这类潜在结果上是如何不同的。如果它们之间存在差异,那么除了处理本身之外,还有其他因素导致处理组和对照组的不同。这正是我一直在讨论的偏倚。它掩盖了真实的处理效应。