--- template: overrides/blogs.html tags: - analytics --- # 双重差分小介 !!! info 作者:Void,发布于2021-06-24,阅读时间:约5分钟,微信公众号文章链接:[:fontawesome-solid-link:](https://mp.weixin.qq.com/s/3JlO0eO95SBqhHH4EHPypw) ## 1 引言 双重差分,顾名思义就是差分两次。那么差分和我小叮当又有什么关系呢?更何况是差分两次。别急,听我们慢慢道来。 双重差分模型是计量经济学中的一种常见的模型。它的作用是探究一项实验或一个事件的影响,有一丢丢类似ab test。有别于刻画简单的相关关系的线性回归,双重差分是关于因果推断的小巧、实用的模型。它的由来要从线性回归的假设说起。 ## 2 线性回归假设 我们都知道线性回归,我们也可能都不知道线性回归。它就是如下这个“简单”的式子: $$ Y=\beta X+\varepsilon $$ 我们在快乐使用线性回归的同时,往往忽略了线性回归模型的4个前提条件: - 线性关系 - 严外生性 $$E(\varepsilon_{t}|X)=E(\varepsilon_{t}|X_{1},X_{2}\cdots X_{n})=0$$ - 无完全共线性 - 球形误差方差 $$E(\varepsilon_{t}^{2}|X)=\sigma^{2}$$ $$E(\varepsilon_{t}\varepsilon_{s}|X)=0$$ 用人话来说,Y和X必须满足线性关系(废话。。)。残差(实际值与估计值的差异)与X不相关并且它自身的分布满足同方差、不存在自相关的性质。不能有一个X是别的几个X的爸爸(被线性表示)。好的,聪明的我们已经准备忽略这些前提条件了。且慢,如果前提条件不满足的话可是会使估计不准的哦。 其中,严外生性就是一个很傲娇(容易不满足)的条件。在这种情况下,我们常说这个模型具有内生性问题。我们再用小学数学回顾一下什么是严外生性。 ## 3 严外生性 $$E(\varepsilon_{t}|X)=E(\varepsilon_{t}|X_{1},X_{2}\cdots X_{n})=0$$ $$t=1,2\cdots n$$ 根据重复期望法则$E(Y|X)=E[E(Y|X,Z)|X]$,有 $$E(\varepsilon_{t}|X_{t})=E[E(\varepsilon_{t}|X)|X_{t}]=0$$ $$E(\varepsilon_{t})=E[E(\varepsilon_{t}|X)]=0$$ 从而有 $$E(X_{s}\varepsilon_{t})=E[E(X_{s}\varepsilon_{t}|X)]=0$$ 因此$cov(X_{s},\varepsilon_{t})=0$,假设要求扰动项$\varepsilon_{t}$与解释变量之间没有线性相关性。 ## 4 内生性问题常见形式 好的,我们已经成功(没)搞明白了学术中的严外生性。那么,在实际的数据中,内生性问题是怎么表现的呢? - 遗漏解释变量(还有别的X可以有效的估计Y) - X与Y互为因果(如X为教育水平,Y为收入,教育水平可以影响收入,同时,收入也可以影响教育水平,如读个MBA) ## 5 解决方案 - 工具变量法(Instrumental Variable)\ 找到一个变量和内生解释变量相关,但是和随机扰动项不相关的外生变量。同其他已有的外生变量一起回归,得到内生变量的估计值,以此作为IV,放到原来的回归方程中进行回归。 例子,Y为内战爆发概率,X为经济增长,IV为降雨量。内战爆发概率和经济增长本身互为因果(存在内生性问题),降雨量和经济增长有关(农业国家),同时,降雨量只能通过影响经济增长单向的影响内战爆发概率。 - 双重差分法(Differences-in-Differences, DID)\ 倘若出现了一次外部冲击,这次冲击影响了一部分样本,对另一部分样本则无影响,而我们想看一下这次外部冲击到底有何影响,双重差分法就是用来研究这次冲击的净效应的。由于冲击相对于研究样本而言一般是外生的,因而不存在反向因果问题。 好的,我们的大明星双重差分模型终于出现了。 ## 6 双重差分模型 双重差分模型的形式也比较简单,本质上还是一个线性回归。 $$Y_{it}=\beta_{0}+\beta_{1}D+\beta_{2}T+\beta_{3}(D\times T)+\varepsilon_{it}$$ D为分组虚拟变量。在研究事件或政策影响时,若受冲击的影响,则个体i属于实验组,$D=1$,反之个体i属于对照组,$D=0$。T为时间的虚拟变量(事件或政策有一个发生的时点),冲击之前$T=0$,冲击之后$T=1$。$D\times T$为分组虚拟变量与时间虚拟变量的交互项(乘在一起),其系数$\beta_{3}$就反映了冲击的净效应。 哇塞,是不是看上去很简单。在这个模型中,我们还可以加入一些别的控制变量。同时,双重差分模型也有自己的前提条件,实验组和对照组在冲击前有平行趋势,是不是有点像ab test? 总而言之,双重差分模型可以帮助你科学地评估某项事件或政策的影响。让你再也不用担心老板振聋发聩地问你,你说说这到底有啥影响? ## 7 Takeaways - 关注模型假设 - 基于因果推断的机器学习(瞬间升华)