読者です 読者をやめる 読者になる 読者になる

行列を用いない残差分散の不偏性の証明 (重み付き最小二乗法)

統計

重み付き最小二乗法において、残差分散
\[
V_{e}=
\frac{\sum_{i=1}^nw_i(Y_i-\hat{Y}_i)^2}{\phi_e},~
\phi_e=n-p
\] が $\s^2$ の不偏推定量である事、すなわち
\[
\mathrm{E}\left(\sum_{i=1}^n w_i e_i^2\right)=(n-p)\s^2
\] が成り立つ事を示したい。
行列でエレガントに証明する方がいいと思うけど、泥くさいスカラー演算でも解いてみようよ、というお話です。
あまり次元が高いと複雑すぎるので、$p=2$ の場合を示そうと思います。

いくつかの仮定や定義が必要になるので、以下に示す。
確率変数 $Y_i$ ($i=1, 2, \ldots, n$) について、

  • 独立性:$Y_i$ が互いに独立である
  • 不偏性:$\mathrm{E}(Y_i)=\alpha+\beta x_i$
  • 正しい重み:$\mathrm{Var}(Y_i)=\s_i^2=\s^2/w_i$、すなわち重みが真の分散に比例する事

が成り立つと仮定する。
この意味は、$Y_i$ の期待値が $x_i$ の値に依存して直線的に異なること、また、条件付きだが不等分散な構造を仮定するという事である。
正規性に関しては、検定や信頼区間の構成に言及しない限り不要である。

以上の確率モデル/統計モデルの下で、
\[
Q=\sum_{i=1}^n w_i e_i^2=\sum_{i=1}^n w_i(Y_i-\hat{Y}_i)^2
\] \[
e_i=Y_i-\hat{Y}_i
\] を最小化するような直線
\[
\hat{Y}_i=\hat{\alpha}+\hat{\beta}x_i
\] を求めること、つまり $\hat{\alpha}, \hat{\beta}$ を求める問題を考える。
具体的には、$Q$ をパラメータで偏微分して $=0$ と置いた連立方程式を解く必要がある。
つまり、
\[
\sum_{i=1}^n w_i e_i=0,~ \sum_{i=1}^n w_i x_i e_i=0
\] を満たす $\hat{\alpha}, \hat{\beta}$ を解けばよく、この解は、
\[
\hat{\alpha}=\bar{Y}-\hat{\beta}\bar{x}
\] \[
\hat{\beta}=\frac{\sum_{i=1}^n w_i(x_i-\bar{x})Y_i}{\sum_{j=1}^n w_j(x_j-\bar{x})^2}
\] である、これが重み付き最小二乗推定量である。
ただし、$\bar{Y}$ と $\bar{x}$ は重み付き平均
\[
\bar{Y}=\left(\sum_{i=1}^n w_i Y_i\right)/(\sum_{i=1}^nw_i)
\] \[
\bar{x}=\left(\sum_{i=1}^n w_i x_i\right)/(\sum_{i=1}^nw_i)
\] とする。
また、残差分散は
\[
V_e=\frac{\sum_{i=1}^n w_i e_i^2}{n-2}
\] である。

多少おおざっぱだが、以上の仮定や定義を用いる事にする。

では、$V_e$ が $\s^2$ の不偏推定量である事、すなわち
\[
\mathrm{E}\left(\sum_{i=1}^n w_i e_i^2\right)=(n-2)\s^2
\] が成り立つ事を示す。

まず、残差を
\[
\begin{eqnarray}
e_i=(Y_i-\alpha-\beta x_i)+(\hat{\alpha}-\alpha)+(\hat{\beta}-\beta)x_i\\
(Y_i-\alpha-\beta x_i)=e_i-(\hat{\alpha}-\alpha)-(\hat{\beta}-\beta)x_i
\end{eqnarray}
\] のように変形し、それの二乗を求めると、
\[
\begin{eqnarray}
(Y_i-\alpha-\beta x_i)^2&=&
\{e_i-(\hat{\alpha}-\alpha)-(\hat{\beta}-\beta)x_i\}^2\\&=&
e_i^2+(\hat{\alpha}-\alpha)^2+2(\hat{\alpha}-\alpha)(\hat{\beta}-\beta)x_i+(\hat{\beta}-\beta)^2x_i^2-2(\hat{\alpha}-\alpha)e_i-2(\hat{\beta}-\beta)x_i e_i
\end{eqnarray}
\] が得られる。
次に、両辺に $w_i$ を掛け、これの総和について期待値を取ると、
\[
\begin{eqnarray}
\mathrm{E}\left\{\sum_{i=1}^n w_i(Y_i-\alpha-\beta x_i)^2\right\}&=&
\mathrm{E}\left(\sum_{i=1}^n w_i e_i^2\right)+\mathrm{E}\left\{\sum_{i=1}^n(\hat{\alpha}-\alpha)^2 w_i\right\}+\\&&
\mathrm{E}\left\{\sum_{i=1}^n2(\hat{\alpha}-\alpha)(\hat{\beta}-\beta)w_ix_i\right\}+\mathrm{E}\left\{\sum_{i=1}^n(\hat{\beta}-\beta)^2 w_ix_i^2\right\}
\end{eqnarray}
\] が得られる。ただし、(重み付き最小二乗推定量の導出過程より) 右辺の最後の 2 項は
\[
\sum_{i=1}^n w_i e_i=0,\, \sum_{i=1}^n w_i x_i e_i=0
\] を用いると $0$ になるため省略した。
また、独立性の仮定から、
\[
\sum_{i=1}^n w_i \mathrm{Var}(Y_i)=
\mathrm{E}\left(\sum_{i=1}^n w_i e_i^2\right)+\mathrm{Var}\left(\hat{\alpha}\right)\sum_{i=1}^n w_i+
2\cvar\left(\hat{\alpha}, \hat{\beta}\right)\sum_{i=1}^n w_ix_i+\mathrm{Var}\left(\hat{\beta}\right)\sum_{i=1}^n w_ix_i^2
\] となる。
共分散 $\cvar(\bar{Y}, \hat{\beta})=0$ などに注意し各項を求めると、
\[
\begin{eqnarray}
\sum_{i=1}^nw_i \mathrm{Var}\left(Y_i\right)&=& n\s^2 \\
\mathrm{Var}\left(\hat{\beta}\right) &=& \frac{\s^2}{\sum_{i=1}^nw_i(x_i-\bar{x})^2} \\
\mathrm{Var}\left(\hat{\alpha}\right) &=& \mathrm{Var}\left(\bar{Y}-\hat{\beta}\bar{x}\right)=
\left\{\frac{1}{\sum_{i=1}^nw_i}+\frac{\bar{x}^2}{\sum_{i=1}^nw_i(x_i-\bar{x})^2}\right\}\s^2 \\
\cvar\left(\hat{\alpha}, \hat{\beta}\right)&=&
\mathrm{E}\left\{(\hat{\alpha}-\alpha)(\hat{\beta}-\beta)\right\} = \mathrm{E}\left\{\left\{(\bar{Y}-\alpha-\beta\bar{x})-\bar{x}(\hat{\beta}-\beta)\right\}(\hat{\beta}-\beta)\right\} \\&=&
\cvar\left(\bar{Y}, \hat{\beta}\right)-\bar{x}\mathrm{Var}\left(\hat{\beta}\right)=-\frac{\bar{x}\s^2}{\sum_{i=1}^nw_i(x_i-\bar{x})^2}\end{eqnarray}
\] が得られる。
これを代入して整理すると、
\[
\begin{eqnarray}
n\s^2 &=& \mathrm{E}\left(\sum_{i=1}^n w_i e_i^2\right)+\s^2+\frac{\s^2\bar{x}^2\sum_{i=1}^n w_i}{\sum_{i=1}^n w_i(x_i-\bar{x})^2}-\frac{2\bar{x}\s^2\sum_{i=1}^n w_ix_i}{\sum_{i=1}^n w_i(x_i-\bar{x})^2}+\frac{\s^2\sum_{i=1}^n w_ix_i^2}{\sum_{i=1}^n w_i(x_i-\bar{x})^2}\\&=&
\mathrm{E}\left(\sum_{i=1}^n w_i e_i^2\right)+\s^2+\frac{\sum_{i=1}^n w_i x_i^2-\bar{x}^2\sum_{i=1}^n w_i}{\sum_{i=1}^n w_i(x_i-\bar{x})^2}\s^2=\mathrm{E}\left(\sum_{i=1}^n e_i^2\right)+2\s^2
\end{eqnarray}
\] である。
したがって、
\[
\mathrm{E}\left(\sum_{i=1}^n e_i^2\right)=(n-2)\s^2
\] が成立し、$V_e$ が $\s^2$ の不偏推定量である事が示された。

$\hat{\alpha}, \hat{\beta}$ の分散はすぐ計算できるので、それが出てくるように強引に式変形してみて導出しました。
パラメータ数が $p$ の場合は cross term がいっぱいになるんでしょうねw

正しい重み:$\mathrm{Var}(Y_i)=\s_i^2=\s^2/w_i$ の仮定は、まともな本じゃないと書いていない、困ったもんだ。