首页 > 资讯 > 科技 > 正文
2024-03-01 00:18

【Stata 18新功能】工具变量强度检验及stata应用

参考资料:Keane 和 Neal (2023, JoE) 发表文章《IV and : A Guide to and》。

一、概述

IV 的三个假设:

这就是对 IV 的支持变得神奇的地方:给我一个足够好的 IV,我可以识别所有的处理效果。 IV 中最流行的方法是 2SLS。 然而,邦德等人。 (1995)和(1990)都强调,当IV是外生的但相关性较弱时,2SLS将表现出较差的特性。

这里提到的不好的地方主要是:(1)2SLS的第二阶段t统计量会有大小偏差; (2)2SLS的中位偏差将趋于OLS。 大量文献提出:(1)测试IV是否足够强以避免上述问题; (2) 将稳健的统计数据与较弱的工具进行比较。

而且,Keane和Neal(2023,JoE)的模拟结果也表明2SLS的t统计量存在严重的不对称偏差。 特别是当OLS偏差为正时,2SLS的t统计量很难检测到真正的负效应,反之亦然。

当存在弱工具变量时,理论文献通常建议使用弱工具变量稳健检验作为 t 统计量的替代方法。 在单一工具变量的情况下,AR 检验是最常用的(Rubin,1949)。 Keane 和 Neal (2023, JoE) 指出,在检测真实的负面效应时,AR 检验远优于 t 检验; 但是当真阴性效应为真时,t检验比AR检验具有更高的功效(注意KN认为这并不意味着t检验比AR检验更好)。 这是因为AR检查在检查效果上也存在不对称性,但这种不对称性会随着工具强度的增加而很快消失。

简而言之,AR 检验不仅在仪器较弱时,而且在仪器较强时都远远优于 t 检验。 AR测试不仅尺寸正确,而且在检测OLS偏差相反方向的真实效果方面也有更好的效果。

2. 示例

让我们估计预期收入冲击的消费弹性。 这就是长期收入(PIH)假说主要关心的问题——弹性为0。回归方程如下:

C为家庭消费,Y为家庭收入,V为控制变量,其中还包括年份效应(控制经济周期特征)、n年龄、年龄平方变化、家庭子女数变化等。

此时家庭收入和消费存在很强的内生性,因此可以使用IV。 在这个例子中,滞后一个时期的收入并不是一个好的 IV,因为它预测增长,因此对消费是内生的。 理论上,家庭收入可以通过 IMA(1,1) 过程来近似,因此是一个 MA(2) 过程,这意味着它可以用作 IV。

数据来自Keane and Neal (2023, JoE),stata代码如下:

local path = "/Users/xuwenli/Library/CloudStorage/OneDrive-个人/DSGE建模及软件编程/教学大纲与讲稿/应用计量经济学讲稿/应用计量经济学讲稿与code/KeaneNeal2023_Replication.v1"
qui {
// Load PSID subsample data
use "`path'/PSID_Data/PSID_Data.dta", clear
// Table 3 Replication
noi reg chg_cons2 chg_inc1 i.wave age dage2 dchild, robust // OLS - 1st column of table
noi reg chg_cons2 chg_inc1 i.wave age dage2 dchild, cluster(id) // OLS - 1st column of table (clustered std. errors)
noi ivreg2 chg_cons2 (chg_inc1 = l2_linc1) i.wave age dage2 dchild, first robust // 2SLS - 2nd and 3rd column of table
noi ivreg2 chg_cons2 (chg_inc1 = l2_linc1) i.wave age dage2 dchild, first cluster(id) // 2SLS - 2nd and 3rd column of table (clustered std. errors)
noi reg chg_cons2 l2_linc1 i.wave age dage2 dchild, robust // Reduced Form - 4th Column
noi test l2_linc1 // F-stat (Hetero Robust)
noi reg chg_cons2 l2_linc1 i.wave age dage2 dchild, cluster(id) // Reduced Form - 4th Column (clustered std. errors)
noi test l2_linc1 // F-stat (Cluster Robust)
// AR confidence interval (mentioned in text)
noi weakiv ivreg2 chg_cons2 (chg_inc1 = l2_linc1) i.wave age dage2 dchild if samp, robust gridpoints(2000) gridmin(-0.5) gridmax(2)

结果如下:

上表的第二列显示了 OLS 的结果。 消费弹性为 0.1398,异方差稳健标准误(括号)为 0.0166。 然而,OLS并没有估计收入变化的预期部分:(1)观察到的收入变化包括预期变化和非预期变化。 PIH认为,意外的收入变化会通过收入效应引起消费变化,从而产生较高的OLS系数。 ; (2)收入变化的计量误差可能较大,导致OLS系数较低。

第三列和第四列估计2SLS:第一阶段结果表明IV对收入变化的预测具有很高的显着性。 F统计量为10.28,高于常用的临界值10。第二阶段结果显示,消费弹性为0.552,这意味着OLS偏向下,当前消费对当前预期的变化非常敏感收入。 但异方差标准误(括号)表明 2SLS t 检验在 95% 时并不显着。

表的第五列以简化形式呈现 OLS 结果(结果变量与工具变量的回归)。 异方差稳健的部分 F 统计量为 4.31,因此,AR 检验意味着消费弹性估计量在 3.79% 的水平上显着。 通过转置AR检验,可以得到95%置信区间(stata中的命令)为(0.034,1.556),排除0。

总之,AR检验结果和t检验结果并不一致。 然而,Keane和Neal(2023,JoE)的模拟结果表明AR测试更加可靠。

3.新的t检验:条件t检验

近年来,有文献提出修正t检验,即调整临界值。 传统的 t 检验临界值很大程度上依赖于 N(0,1) 的正态分布。 事实上,2SLS 的 t 统计量是非正态的,因此是扭曲的。 由于 IC,条件 t 检验会调整标准 t 检验临界值以考虑非正态性,从而获得正确的 t 统计量。

(1)不对称条件t检验(ACT)

米尔斯等人。 (2014)指出可以将左右删失条件临界值组合起来得到双边删失条件t统计量(ACT)。 Keane 和 Neal (2023, JoE) 认为 ACT 和 AR 测试都可以有效地检测 OLS 偏差相反方向的真实效果。 但在工具变量单一的情况下,由于ACT实施难度较大,实际研究中首选AR测试。

(2)tF测试

李等人。 (2022,AER)提出了以单阶段F统计量为条件的临界值,以消除两侧截断t检验的最大失真。 他们称之为“tF 测试”。 他们表明,为了确保常用的 95% t 检验,F 统计量的值至少为 104.7。 因此,从实际应用的角度来看,tF检验的威力甚至不如t检验。 因此,如果可以进行AR测试,最好使用AR测试。

4。结论

2SLS 和相关 t 检验的工具变量需要有多强才能表现出可接受的属性? -Stock 提出了一个流行的经验法则:要使 2SLS t 检验给出可靠的结果,第一阶段 F 应至少为 10。然而,我们发现 2SLS 估计和 t 检验在 F 的环境中表现非常差。范围为 10 至 16.4。 Stock 和 Yogo (2005) 重点关注双尾 t 检验的规模膨胀问题,但掩盖了其他关键问题。 首先,2SLS t 检验的功效非常低,F 范围约为 10 到 20,这通常被传统的弱 IV 检验视为可以接受。 其次,当 2SLS 估计器产生的估计值最偏向 OLS 偏差的方向时,它们产生的标准误差会人为地变小。 因此,当工具变量较弱时,几乎所有重要的 2SLS 估计都强烈偏向 OLS。 令人惊讶的是,即使工具变量非常强,这种权力不对称仍然存在。

当 OLS 偏差为正时,2SLS 估计值与其标准误差之间的相关性使得 2SLS t 检验无法检测真正的负面影响。 即使工具变量按照传统标准相当强大,情况也是如此。 这种权力的缺乏在实践中很重要,因为这意味着在对可观察因素进行积极选择的情况下很难检测到负面的计划影响。 第二个结果是单尾 t 检验中的大小失真比双尾 t 检验中的大小失真大得多。 例如,李等人。 (2022) 表明,第一阶段 F 为 104.7 足以消除双尾 t 检验中的规模膨胀。 但我们发现,消除单尾 2SLS t 检验中的尺寸失真需要数千个第一阶段 F。

应用研究人员很少使用单尾测试,因为他们期望双尾测试是对称的(例如,5% 的双尾测试相当于 2.5% 的一尾测试)。 但这与 2SLS 完全不一致:即使有强大的工具变量,大多数被双尾 2SLS t 检验判断为显着的估计值也偏向 OLS 偏差的方向,而不是围绕真实值对称分布。

2SLS t 检验中的功效不对称对于应用工作很重要。 以评估教育对工资影响的经典问题为例。 一个普遍的担忧是,未测量的功率会导致 OLS 估计值上升。 但如果 OLS 偏差确实是正的,那么对教育对工资影响的更大的 2SLS 估计将会错误地显得更加精确。 这自然导致研究人员夸大教育的影响。

Rubin (1949) 检验很大程度上避免了困扰 t 检验的问题。 无论工具变量的强度如何,AR 检验都有正确的大小。 因此,理论家强烈建议将其用于精确识别具有弱工具变量的模型。 此外,它是单一工具变量情况下最有力的无偏检验,并且在工具变量较强时不会牺牲t检验的威力。 重要的是,我们表明 AR 检验不太容易受到困扰 t 检验的幂不对称的影响。 特别是,当 OLS 偏差为正时,AR 能够更好地检测负面影响。 因此,我们建议完全放弃 2SLS t 检验并使用 AR,即使工具变量很强。

AR检验也是通过简化形式的OLS估计来实现的,然后检验工具变量的显着性。 为了说明这一点,我们提出了一个使用 PSID 数据来估计消费对收入的过度敏感性的应用程序。 这使我们能够在现实环境中评估 AR 和 t 测试的相对性能,其中第一阶段 F 略高于阈值 10。我们表明,在这种情况下,AR 测试显着优于 t 测试。 - 功率和尺寸方面的测试。

在过度识别的模型中,2SLS t 检验的规模膨胀变得更加严重,并且 2SLS 估计量对 OLS 的中值偏差变得更加显着。 使用多个工具变量还会增加 2SLS 估计值与其标准误差之间的协方差,从而放大 t 检验的功效不对称性。 t 检验在检测 OLS 偏差相反方向的真实效应方面功效较低,并且严重偏向于寻找与 OLS 偏差相同方向的显着效应。

2 在过度识别的情况下,SLS 和 t 检验的偏差和大小问题促使 He 和 (2008) 认为应用研究人员应该选择他们最好的一个工具变量。 然而,多个工具变量的使用可以大大提高估计的效率。 因此,我们认为使用不会引入偏差和尺寸失真的方法来利用多个工具变量中的信息非常重要。

事实上,Rubin(1949)的有限信息最大似然(LIML)估计量在多个工具变量的情况下不受中位数偏差的影响,并且条件似然比(CLR)检验的效率特性优于t测试。 多得多。 LIML 和 CLR 的结合使用使得利用多个工具变量中的信息成为可能,而不会引入偏差和尺寸失真。 因此,在过度识别模型中,我们建议使用 LIML 和 CLR 而不是 2SLS 和 t 检验,即使工具变量很强。 对于异方差数据,我们建议使用稳健的 CLR 与 LIML 相结合,或者为了提高效率,使用不断更新的 GMM(等人,1996)。

最后,我们指出,等人(2019)和 Young(2022)最近的论文强调,即使传统的 F 检验似乎是可以接受的,2SLS 也可能在异方差和/或聚类误差的背景下受到低功效和尺寸的影响。 失真。 我们通过证明即使在简单的独立同分布正态设置中也可能出现类似的问题,其中工具变量按照传统标准可以接受,从而对这项工作进行了补充。