重み付き最小自乗推定量と、不等分散下の最良線形不偏推定量

線型モデル $\mathbf{Y}=\mathbf{X}\mathbf{\beta}+\boldsymbol{\epsilon}$ において、不等分散下
\[
\mathrm{E}\left(\mathbf{Y}\right)=
\mathbf{X}\mathbf{\beta}=
\begin{pmatrix} x_{11} & x_{12} & \cdots & x_{1m} \\
x_{21} & x_{22} & \cdots & x_{2m} \\
\vdots & \vdots & \ddots & \vdots \\
x_{n1} & x_{n2} & \cdots & x_{nm}
\end{pmatrix}
\begin{pmatrix}
\beta_1 \\
\beta_2 \\
\vdots \\
\beta_m \end{pmatrix}
\] \[
\mathrm{Var}\left(\mathbf{Y}\right)=
\mathbf{V}=
\begin{pmatrix}
\s_1^2 & 0 & \cdots & 0 \\
0 & \s_2^2 & \cdots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & \s_n^2
\end{pmatrix}
\] のとき、ある線型式 $\mathbf{d}\mathbf{\beta}$ の最良線形不偏推定量 $t(\mathbf{Y})$ は
\[
t(\mathbf{Y})=\mathbf{d}(\mathbf{X}^{\mathrm{t}}\mathbf{V}^{-1}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{t}}\mathbf{V}^{-1}\mathbf{Y}
\] である。
また、推定量 $t(\mathbf{Y})$ の分散は、
\[
\begin{eqnarray}
\mathrm{Var}\left(t(\mathbf{Y})\right) &=&
\mathbf{d}(\mathbf{X}^{\mathrm{t}}\mathbf{V}^{-1}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{t}}\mathbf{V}^{-1}\mathbf{V}\mathbf{V}^{-1}\mathbf{X}(\mathbf{X}^{\mathrm{t}}\mathbf{V}^{-1}\mathbf{X})^{-1}\mathbf{d}^{\mathrm{t}}\\ &=&
\mathbf{d}(\mathbf{X}^{\mathrm{t}}\mathbf{V}^{-1}\mathbf{X})^{-1}\mathbf{d}^{\mathrm{t}}
\end{eqnarray}
\] である。

一方、重み $\mathbf{W}=\mathrm{diag}(w_i)$ を与えたときの、重み付き最小自乗推定量 $\mathbf{b}_{\scriptsize W}$ は、
\[
\mathbf{b}_{\scriptsize W}=(\mathbf{X}^{\mathrm{t}}\mathbf{W}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{t}}\mathbf{W}\mathbf{Y}
\] である。
また、推定量 $\mathbf{b}_{\scriptsize W}$ の分散は
\[
\mathrm{Var}\left(\mathbf{b}_{\scriptsize W}\right)=
(\mathbf{X}^{\mathrm{t}}\mathbf{W}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{t}}\mathbf{W}\mathbf{V}\mathbf{W}\mathbf{X}(\mathbf{X}^{\mathrm {t}}\mathbf{W}\mathbf{X})^{-1}
\] である。
この推定量について、重みとして真の分散の逆数に比例する値 $k(1/\s_i^2)$ を要素としてもつ対角行列 (つまり $\mathbf{W}=k\mathbf{V}^{-1}$) を与えたときの推定量 $\mathbf{b}^{\prime}_{\scriptsize W}$ とその分散は、
\[
\mathbf{b}^{\prime}_{\scriptsize W}=
(\mathbf{X}^{\mathrm{t}}k\mathbf{V}^{-1}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{t}}k\mathbf{V}^{-1}\mathbf{Y}=
(\mathbf{X}^{\mathrm{t}}\mathbf{V}^{-1}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{t}}\mathbf{V}^{-1}\mathbf{Y}
\] \[
\begin{eqnarray}
\mathrm{Var}\left(\mathbf{b}^{\prime}_{\scriptsize W}\right)&=&
(\mathbf{X}^{\mathrm{t}}k\mathbf{V}^{-1}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{t}}k\mathbf{V}^{-1}\mathbf{V}k\mathbf{V}^{-1}\mathbf{X}(\mathbf{X}^{\mathrm{t}}k\mathbf{V}^{-1}\mathbf{X})^{-1}\\ &=&
(\mathbf{X}^{\mathrm{t}}\mathbf{V}^{-1}\mathbf{X})^{-1}
\end{eqnarray}
\] となる。
また、重み $k\mathbf{V}^{-1}$ を与えた重み付き最小自乗推定量に基づいた、回帰直線 $\mathbf{X}\mathbf{b}^{\prime}_{\scriptsize W}$ の各行は線型式である。
上で示した最良線形不偏推定量、およびその分散と比較すると、回帰直線 $\mathbf{X}\mathbf{b}^{\prime}_{\scriptsize W}$ は不等分散下で導かれた最良線形不偏推定量を集めたものと言って良いだろう。
したがって、不等分散下では、重み $\mathbf{W}$が適切でさえあれば、通常の最小自乗推定量等よりも、重み付き最小自乗推定量の方が、良い推定量を与えるといえる。