---
template: overrides/blogs.html
tags:
- analytics
---
# 双重差分小介
!!! info
作者:Void,发布于2021-06-24,阅读时间:约5分钟,微信公众号文章链接:[:fontawesome-solid-link:](https://mp.weixin.qq.com/s/3JlO0eO95SBqhHH4EHPypw)
## 1 引言
双重差分,顾名思义就是差分两次。那么差分和我小叮当又有什么关系呢?更何况是差分两次。别急,听我们慢慢道来。
双重差分模型是计量经济学中的一种常见的模型。它的作用是探究一项实验或一个事件的影响,有一丢丢类似ab test。有别于刻画简单的相关关系的线性回归,双重差分是关于因果推断的小巧、实用的模型。它的由来要从线性回归的假设说起。
## 2 线性回归假设
我们都知道线性回归,我们也可能都不知道线性回归。它就是如下这个“简单”的式子:
$$ Y=\beta X+\varepsilon $$
我们在快乐使用线性回归的同时,往往忽略了线性回归模型的4个前提条件:
- 线性关系
- 严外生性
$$E(\varepsilon_{t}|X)=E(\varepsilon_{t}|X_{1},X_{2}\cdots X_{n})=0$$
- 无完全共线性
- 球形误差方差
$$E(\varepsilon_{t}^{2}|X)=\sigma^{2}$$
$$E(\varepsilon_{t}\varepsilon_{s}|X)=0$$
用人话来说,Y和X必须满足线性关系(废话。。)。残差(实际值与估计值的差异)与X不相关并且它自身的分布满足同方差、不存在自相关的性质。不能有一个X是别的几个X的爸爸(被线性表示)。好的,聪明的我们已经准备忽略这些前提条件了。且慢,如果前提条件不满足的话可是会使估计不准的哦。
其中,严外生性就是一个很傲娇(容易不满足)的条件。在这种情况下,我们常说这个模型具有内生性问题。我们再用小学数学回顾一下什么是严外生性。
## 3 严外生性
$$E(\varepsilon_{t}|X)=E(\varepsilon_{t}|X_{1},X_{2}\cdots X_{n})=0$$
$$t=1,2\cdots n$$
根据重复期望法则$E(Y|X)=E[E(Y|X,Z)|X]$,有
$$E(\varepsilon_{t}|X_{t})=E[E(\varepsilon_{t}|X)|X_{t}]=0$$
$$E(\varepsilon_{t})=E[E(\varepsilon_{t}|X)]=0$$
从而有
$$E(X_{s}\varepsilon_{t})=E[E(X_{s}\varepsilon_{t}|X)]=0$$
因此$cov(X_{s},\varepsilon_{t})=0$,假设要求扰动项$\varepsilon_{t}$与解释变量之间没有线性相关性。
## 4 内生性问题常见形式
好的,我们已经成功(没)搞明白了学术中的严外生性。那么,在实际的数据中,内生性问题是怎么表现的呢?
- 遗漏解释变量(还有别的X可以有效的估计Y)
- X与Y互为因果(如X为教育水平,Y为收入,教育水平可以影响收入,同时,收入也可以影响教育水平,如读个MBA)
## 5 解决方案
- 工具变量法(Instrumental Variable)\
找到一个变量和内生解释变量相关,但是和随机扰动项不相关的外生变量。同其他已有的外生变量一起回归,得到内生变量的估计值,以此作为IV,放到原来的回归方程中进行回归。
例子,Y为内战爆发概率,X为经济增长,IV为降雨量。内战爆发概率和经济增长本身互为因果(存在内生性问题),降雨量和经济增长有关(农业国家),同时,降雨量只能通过影响经济增长单向的影响内战爆发概率。
- 双重差分法(Differences-in-Differences, DID)\
倘若出现了一次外部冲击,这次冲击影响了一部分样本,对另一部分样本则无影响,而我们想看一下这次外部冲击到底有何影响,双重差分法就是用来研究这次冲击的净效应的。由于冲击相对于研究样本而言一般是外生的,因而不存在反向因果问题。
好的,我们的大明星双重差分模型终于出现了。
## 6 双重差分模型
双重差分模型的形式也比较简单,本质上还是一个线性回归。
$$Y_{it}=\beta_{0}+\beta_{1}D+\beta_{2}T+\beta_{3}(D\times T)+\varepsilon_{it}$$
D为分组虚拟变量。在研究事件或政策影响时,若受冲击的影响,则个体i属于实验组,$D=1$,反之个体i属于对照组,$D=0$。T为时间的虚拟变量(事件或政策有一个发生的时点),冲击之前$T=0$,冲击之后$T=1$。$D\times T$为分组虚拟变量与时间虚拟变量的交互项(乘在一起),其系数$\beta_{3}$就反映了冲击的净效应。
哇塞,是不是看上去很简单。在这个模型中,我们还可以加入一些别的控制变量。同时,双重差分模型也有自己的前提条件,实验组和对照组在冲击前有平行趋势,是不是有点像ab test?
总而言之,双重差分模型可以帮助你科学地评估某项事件或政策的影响。让你再也不用担心老板振聋发聩地问你,你说说这到底有啥影响?
## 7 Takeaways
- 关注模型假设
- 基于因果推断的机器学习(瞬间升华)