计量经济学导论16：面板数据模型

时间 2021-02-22 标签 spa 排序 it io class 变量 lambda 数据类型方法 im

面板数据模型

面板数据模型

经济数据模型

在介绍面板数据以前，咱们先回顾一下计量经济学中涉及的各种数据类型。spa

横截面数据，Cross-sectional Data ，指在特定的时点上，对我的、家庭、企业、城市、省份、国家或一系列其余单位采集的样本所构成的数据集。排序

一般假定样本是从整体中随机抽样而获得的，经常使用指标集 \(i=1,2,\cdots,n\) 表示随机样本。
计量分析的结果与数据的排序无关。

时间序列数据，Time-series Data ，指由一个或几个变量不一样时间的观测值所构成，或是由同一观测个体在不一样时点上所观测的数据构成。it

时间序列的数据先后之间具备相关性。
经常使用时间指标集 \(t=1,2,\cdots,T\) 表示有序样本数据，不知足随机样本的设定。

混合截面数据，Pooled Cross-sections Data ，指既有横截面数据的特色，又有时间序列数据特色的数据。为了扩大样本容量，能够将数据合并成一个混合截面数据。io

Cross-section 与 Time-series 同时存在，需引入两组指标集 \(i=1,2,\cdots,n\) 和 \(t=1,2,\cdots,T\) 分别表示随机样本和时间序列。
在计量分析过程当中，须要引入表示时间变化的虚拟变量以扩大样本容量。
不一样时间点上的截面个体可能不同。
例如：2008年，随机抽取一组家庭针对某些变量作调查；2010年，再随机抽取一组新家庭作调查。

面板数据，Panel Data，指将横截面数据域时间序列数据结合起来的数据，即对横截面中的观测个体在时间上进行连续观测所获得的数据。class

不一样时点上相同截面个体，即只在第一期作随机抽样，后面都在观察这一组样本的数据。
例如：收集同一组公司不一样时点的财务信息。
面板数据一般可以研究决策行为或结果中滞后的重要性，因此反映的信息更有意义。
因为面板数据要求对同一组个体在不一样时期进行重复观测，所以面板数据的收集成本更大。

面板数据模型的基本形式

面板数据模型同时包含了截面和时间两个维度，设 \(i=1,2,\cdots,n\) 表示截面个体，\(t=1,2,\cdots,T\) 表示时间。面板数据模型的基本形式为变量

\[y_{it}=f(x_{1it},x_{2it},\cdots,x_{kit})+u_{it} \ , \]

模型偏差通常能够认为由三部分组成：lambda

\[u_{it}=\alpha_i+\lambda_t+\varepsilon_{it} \ , \]

\(\alpha_i\) 表示个体效应、非观测效应、固定效应，表示那些不随时间改变的影响因素，如我的的消费习惯、企业文化、经营风格等。数据类型

\(\lambda_t\) 表示时间效应，用于控制随时间改变的影响，如用于表示技术进步的时间趋势项。方法

\(\varepsilon_{it}\) 表示特异性偏差、时变偏差，是整个模型的随机偏差项。im

在这里将 \(\alpha_i\) 和 \(\lambda_t\) 设定为干扰项，由于 \(\alpha_i\) 和 \(\lambda_t\) 在多数状况下都是没法直接观测或难以量化的，所以也就没法做为解释变量进入模型。使用截面分析的模型每每会引发遗漏变量的问题。通常地，咱们不考虑时间效应，或者说将 \(\lambda_t\) 的做用并入了 \(\varepsilon_{it}\) 中。此时，咱们能够设定线性的面板数据模型为

\[y_{it}=\alpha_i+\beta_1x_{1it}+\beta_2x_{2it}+\cdots+\beta_kx_{kit}+\varepsilon_{it} \ . \]

其中 \(\alpha_i+\varepsilon_{it}=u_{it}\) ，而且假设 \(\varepsilon_{it}\sim N(0,\,\sigma_{\varepsilon}^2)\) 。

根据 \(\alpha_i\) 的不一样状态，咱们能够将面板数据模型分为三类：混合回归模型，固定效应模型，随机效应模型。其差别主要反映在对个体效应的处理上。

混合回归模型就是由混合截面数据构成的计量经济学模型。正如咱们在经济数据模型中介绍的，这里的混合回归模型严格来讲并不属于面板数据模型，它是面板数据模型的一种退化形式。当对全部的截面个体 \(i\) ，个体效应 \(\alpha_i\) 均相等时，模型退化为混合回归模型。

混合回归模型的基本形式

\[y_{it}=\alpha+\beta_1x_{1it}+\beta_2x_{2it}+\cdots+\beta_kx_{kit}+\varepsilon_{it} \ . \]

\[i=1,2,\cdots,n \ ; \ \ \ \ t=1,2,\cdots,T \ . \]

混合回归模型假设全部的横截面个体在各个不一样的时期的截距和斜率都是相同的，这样能够直接把面板数据混合在一块儿，或是直接收集不一样时间点上的不一样截面个体数据，即混合截面数据。

混合回归模型能够直接用 OLS 方法进行参数估计。

固定效应模型的基本形式

\[y_{it}=\alpha_i+\beta_1x_{1it}+\beta_2x_{2it}+\cdots+\beta_kx_{kit}+\varepsilon_{it} \ . \]

\[i=1,2,\cdots,n \ ; \ \ \ \ t=1,2,\cdots,T \ . \]

固定效应模型的每个截面个体具备不一样的截距项（常数项）。即 \(\alpha_i\) 归纳了影响着 \(y_{it}\) 但不随着时间而变化的全部没法观测的因素。

固定的含义：\(\alpha_i\) 是个常数。虽然每一个截面个体具备不一样的截距项，可是每一个截面个体的截距项并不随着时间而变化。即在时间上是固定的，只和个体相关。

因为 \(\alpha_i\) 表现出个体异质性，观测不到，因此通常假设 \(a_i\) 与 \(x_{it}\) 相关：\({\rm Cov}(\alpha_i,\,x_{it})\neq 0\) 。

随机效应模型的基本形式

\[y_{it}=\alpha_i+\beta_1x_{1it}+\beta_2x_{2it}+\cdots+\beta_kx_{kit}+\varepsilon_{it} \ . \]

\[i=1,2,\cdots,n \ ; \ \ \ \ t=1,2,\cdots,T \ . \]

其中，截距项 \(\alpha_i\) 是一个随机变量，设其均值为 \({\rm E}(\alpha_i)=\alpha\) ，则能够将 \(\alpha_i\) 写为

\[\alpha_i=\alpha+v_i \ . \]

这里的 \(v_i\) 是一个随机变量，知足零均值假设和同方差假设。随机效应的含义为，假设个体间的差别是随机的，反应在随机干扰项的设定上。

通常假设这种随机的个体间差别与 \(x_{it}\) 无关：\({\rm Cov}(\alpha_i,\,x_{it})={\rm Cov}(v_i,\,x_{it}) = 0\) 。

因为随机效应模型具备多种随机偏差项，所以咱们须要提出一系列的随机效应模型的方差结构假定：

\[{\rm E}(v_i)={\rm E}(\varepsilon_{it})=0 \ , \ \ \ \ \forall\ i,\,t \ . \]

\[{\rm Cov}(v_i,\,\varepsilon_{it})=0 \, \ \ \ \ \forall\,i,\,t \ . \]

\[{\rm Cov}(\varepsilon_{it},\,\varepsilon_{is})=0 \, \ \ \ \ \forall \, i,\,s\neq t \ . \]

\[{\rm Var}(v_i|X)=\sigma_v^2 \ , \ \ \ \ \forall\,i \ . \]

\[{\rm Var}(\varepsilon_{it}|X)=\sigma_\varepsilon^2 \ , \ \ \ \ \forall\,i,\,t \ . \]

从上到下依次为：假设两种随机偏差项 \(v_i\) 和 \(\varepsilon_{it}\) 均知足零均值假设，假设两种随机偏差项 \(v_i\) 和 \(\varepsilon_{it}\) 相互独立，假设时变偏差 \(\varepsilon_{it}\) 不具备序列相关性，假设两种随机偏差项 \(v_i\) 和 \(\varepsilon_{it}\) 均知足同方差假设。

因为两种随机偏差项均不可观测，所以咱们经常将二者写在一块儿。设 \(u_{it}=v_i+\varepsilon_{it}\) ，根据上述假设条件能够获得：

\[{\rm E}(u_{it}u_{is})=\sigma_v^2 \ , \ \ \ \ \forall \, i,\,s\neq t \ . \]

\[{\rm E}(u_{it}^2)=\sigma_v^2+\sigma_\varepsilon^2 \ , \ \ \ \ \forall\,i,\,t \ . \]

\[{\rm Corr}(u_{it}u_{is})=\frac{\sigma_v^2}{\sigma_v^2+\sigma_\varepsilon^2} \ , \ \ \ \ \forall \, i,\,s\neq t \ . \]

对于个体 \(i\) ，设 \(\boldsymbol{u}_i^{\rm T}=(u_{i1},u_{i2},\cdots,u_{iT})\) ，咱们能够写出随机偏差项的协方差矩阵：

\[{\rm E}(\boldsymbol{u_i}\boldsymbol{u_i}^{\rm T})=\left[ \begin{array}{ccccc} \sigma_v^2+\sigma_\varepsilon^2 & \sigma_v^2 & \sigma_v^2&\cdots & \sigma_v^2 \\ \sigma_v^2 & \sigma_v^2+\sigma_\varepsilon^2 & \sigma_v^2 &\cdots & \sigma_v^2 \\ \vdots & \vdots & \vdots & \ddots & \vdots\\ \sigma_v^2 & \sigma_v^2& \sigma_v^2 &\cdots& \sigma_v^2+\sigma_\varepsilon^2 \\ \end{array} \right]_{T\times T} =\sigma_\varepsilon^2\boldsymbol{I}+\sigma_v^2\boldsymbol{1}\triangleq\boldsymbol\Omega \ . \]

固定效应模型的参数估计

最小二乘虚拟变量估计法 LSDV

因为固定效应模型假设存在着“个体效应”，每一个截面个体都有其单独的截距项。这就至关于在经典的线性回归模型中，经过加法方式引入 \(n-1\) 个虚拟变量来表明不一样的个体。若是省略模型的常数项 \(\beta_0\) ，则引入 \(n\) 个虚拟变量。

若是一元的固定效应模型设定为

\[y_{it}=\alpha_i+\beta_1x_{it}+\varepsilon_{it} \ . \]

假设上式为含截距项的模型，所以咱们能够引入 \(n-1\) 个虚拟变量：

\[D_1=\left\{ \begin{array}{cc} 1\ \ , & i=1 \ ; \\ 0\ \ , & i\neq1 \ ; \end{array} \right. \ \ \ \ D_2=\left\{ \begin{array}{cc} 1\ \ , & i=2 \ ; \\ 0\ \ , & i\neq2 \ ; \end{array} \right. \ \ \ \ \cdots \ \ \ \ D_{n-1}=\left\{ \begin{array}{cc} 1\ \ , & i=n-1 \ ; \\ 0\ \ , & i\neq n-1 \ ; \end{array} \right. \ \]

此时咱们的虚拟变量模型设定为：

\[y_{it}=\alpha_i+\beta_1x_{it}+\gamma_1D_1+\gamma_2D_2+\cdots+\gamma_{n-1}D_{n-1}+\varepsilon_{it} \ . \]

对上式进行 OLS 回归，咱们能够获得 LSDV 估计量 \(\hat\beta_1\) 。

该模型还能够用来检验应该选择混合回归模型仍是固定效应模型。利用受约束回归模型和 \(F\) 检验，约束条件为 \(\gamma_1=\gamma_2=\cdots=\gamma_{n-1}=0\) 。若是接受原假设，则认为不存在个体异质性，此时应该选择混合回归模型。若是拒绝原假设，则认为存在个体异质性，此时应该选择固定效应模型。

一阶差分法 FD

在固定效应模型中，截距项 \(\alpha_i\) 表示的个体异质性是一个常数，且并不随着时间而变化。所以，咱们能够经过差分的方式消去模型中的个体异质性，从而可使用 OLS 进行回归。

考虑一元的状况，假设固定效应模型设定以下：

\[y_{it}=\alpha_i+\beta_1x_{it}+\varepsilon_{it} \ . \]

写出一阶滞后的状况：

\[y_{i,t-1}=\alpha_i+\beta_1x_{i,t-1}+\varepsilon_{i,t-1} \ . \]

两式相减获得一阶差分方程：

\[\Delta y_{it}=\beta_1\Delta x_{it}+\Delta \varepsilon_{it} \ . \]

能够看到，非观测效应 \(\alpha_i\) 被差分掉了，所以上述模型只要知足经典假设即可以经过 OLS 回归进行参数估计。由一阶差分方程获得的 OLS 估计量称为一阶差分估计量 \(\hat\beta_{1,fd}\) 。

为了保证 \(\hat\beta_{1,fd}\) 的一致性，需假定 \(\Delta X_{it}\) 与 \(\Delta\varepsilon_{it}\) 无关：

\[{\rm Cov}(\Delta X_{it},\,\Delta\varepsilon_{it})=0 \ . \]

须要注意的是，一阶差分法可能会存在 \(\Delta\varepsilon_{it}\) 和 \(\Delta\varepsilon_{i,t-1}\) 相关的问题。

固定效应转换法 FE

又称为除时间均值法、固定效应估计法、组内变换法。当 \(n\) 很大时，利用 LSDV 回归会损失大量的自由度，能够考虑对模型进行变化，消去常数项，再用变换后的模型进行回归。该模型的另外一好处是能够消除 \(\alpha_i\) 与其余解释变量的相关性。

仍然考虑一元的状况：

\[y_{it}=\alpha_i+\beta_1x_{it}+\varepsilon_{it} \ . \]

对每一个横截面个体 \(i\) 求方程在时间上的均值（组间均值）：

\[\bar{y}_i=\alpha_i+\beta_1\bar{x}_i+\bar\varepsilon_i \ . \]

两个模型相减获得：

\[y_{it}-\bar{y}_i=\beta_1(x_{it}-\bar{x}_i)+\varepsilon_{it}-\bar\varepsilon_i \ . \]

通过变换后的模型便可经过混合 OLS 进行参数估计。基于除时间均值变量的混合 OLS 估计量被称为固定效应估计量 \(\hat\beta_{1,fe}\) 。

随机效应模型的参数估计

随机效应模型将固定效应模型的个体异质性纳入到随机偏差项中，所以更加灵活，也具备更加复杂的随机偏差项的结构。此时咱们须要经过变换，构造出符合基本假设的随机偏差项。所以咱们使用 GLS 进行参数估计。

仍然考虑一元的随机效应模型：

\[y_{it}=\beta_0+\beta_1x_{it}+u_{it} \ . \]

假设该模型含有截距项，设 \(u_{it}=v_i+\varepsilon_{it}\) 为模型的非观测偏差。

定义：\(\lambda=1-\displaystyle\frac{\sigma_\varepsilon}{\sqrt{\sigma_\varepsilon^2+T\sigma_v^2}}\) ， \(\bar{y}_i=\displaystyle\frac{1}{T}\sum_{t=1}^Ty_{it}\) ，\(\bar{x}_i=\displaystyle\frac{1}{T}\sum_{t=1}^Tx_{it}\) 。咱们能够作以下变换：

\[y_{it}-\lambda\bar{y}_i=\beta_0(1-\lambda)+\beta_1(x_{it}-\lambda\bar{x}_i)+u_{it}-\lambda\bar{u}_i \ . \]

能够验证此时的随机偏差项不存在序列相关性：\({\rm Cov}(u_{it}-\lambda\bar{u}_i,\,u_{is}-\lambda\bar{u}_i)=0\) 。对变换后的方程进行 OLS 回归获得 GLS 估计量 \(\hat\beta_{1,re}\) ，也被称做随机效应估计量。在知足 \({\rm E}(u_{it}|x_{it})=0\) 假设条件下，随机效应估计量是有效的。

随机效应模型与固定效应模型的选择

豪斯曼检验

这里的豪斯曼检验并不是内生性检验，而是随机效应检验。检验的基本思路：若是 \({\rm Cov}(\alpha_i,\,x_{it})\neq0\) ，则 GLS 估计量是有偏和非一致的，可是固定效应估计量是无偏且一致的。因此，若是模型的异质性与解释变量之间是正交的，则应将模型设定为随机效应模型，不然设定为固定效应模型。

这里的正交指的是：若 \({\rm E}(XY)=0\) ，则称随机变量 \(X\) 和 \(Y\) 正交。

\(H_0\) ：个体异质性与 \(x_{it}\) 不相关。

\(H_1\) ：个体异质性与 \(x_{it}\) 相关。

用矩阵和向量的形式，构造 Wald 统计量：

\[W=\left(\hat{\boldsymbol\beta}_{fe}-\hat{\boldsymbol\beta}_{re}\right)^{\rm T}\left[{\rm Var}\left(\hat{\boldsymbol\beta}_{fe}-\hat{\boldsymbol\beta}_{re}\right)\right]^{-1}\left(\hat{\boldsymbol\beta}_{fe}-\hat{\boldsymbol\beta}_{re}\right)\sim\chi^2(k) \ . \]

其中 \(k\) 是解释变量的个数。

若是拒绝原假设，则选择固定效应模型；若是接受原假设，则选择随机效应模型。

实证研究中的模型选择问题

固定效应模型仅适用于所抽到的横截面单位，不适用于样本之外的单位。即若是所抽取的样本自己是整体，例如从全国抽取全部的省份，那么固定效应模型就是一个合理的面板数据模型。
若是想以样本结果对整体进行推断分析，那么应该选用随机效应模型，即把反映个体差别的特定常数项看做是跨个体成员的随机分布更为合适。例如从全国抽取部分省，固定效应模型便仅适用于所抽到的个体成员单位，而不适用于样本以外的其余单位，这时采用随机效应模型就较为合适。