Triad sou.

指数型分布族

$n$ 個の独立な確率変数 $\mathbf{Y}$ が、$p$ 個のパラメータ $\boldsymbol{\theta}$ を持つ指数型分布に従うとすると、$\mathbf{Y}$ の確率密度関数は、
\[
\begin{align*} f(\mathbf{Y}=\mathbf{y} \mid \boldsymbol{\theta}) &=
\left\{\prod_{i=1}^n f(y_i)\right\} K(\boldsymbol{\psi}(\boldsymbol{\theta}))^n \exp\left[\sum_{j=1}^q \phi_j(\boldsymbol{\theta})\left\{ \sum_{i=1}^n g_j(y_i) \right\} \right] \\ &=
\left\{\prod_{i=1}^n f(y_i)\right\} \exp\left[\sum_{j=1}^q \phi_j(\boldsymbol{\theta})\left\{ \sum_{i=1}^n g_j(y_i) \right\}-n\log [K(\boldsymbol{\psi}(\boldsymbol{\theta}))]^{-1}\right]
\end{align*}
\] と書き表わすことができる。ただし、$q\leq p$ とする。
$\phi_j(\boldsymbol{\theta})$ は自然パラメータ (natural parameter) と呼ばれ、各 $j$ に対応した十分統計量 $T_j=\sum_{i=1}^n g_j(Y_i)=h_j(Y)$ が存在する。
ここで、$\Omega_Y$ を $Y$ の標本空間とすると、
\[
[K(\boldsymbol{\psi}(\boldsymbol{\theta}))]^{-1}=
\int_{\Omega_Y}f(y)\exp\left\{\sum_{j=1}^p \phi_j(\boldsymbol{\theta}) h_j(y) \right\}\mathrm{d} y
\] である。
また、
\[
A(\boldsymbol{\psi}(\boldsymbol{\theta}))= \log [K(\boldsymbol{\psi}(\boldsymbol{\theta}))]^{-1}
\] は $h_j(Y)$ のキュムラント母関数であり、
\[
\frac{\partial A(\boldsymbol{\psi}(\boldsymbol{\theta}))}{\partial \phi_j(\boldsymbol{\theta})}=\frac{\int_{\Omega_Y} h_j(y) f(y)\exp\left\{\sum_{j=1}^p \phi_j(\boldsymbol{\theta}) h_j(y) \right\} \mathrm{d} y}{\int_{\Omega_Y}f(y)\exp\left\{\sum_{j=1}^p \phi_j(\boldsymbol{\theta}) h_j(y) \right\}\mathrm{d} y}=\mathrm{E}_{\boldsymbol{\theta}}( h_j(Y) ),
\] \[
\frac{\partial^2 A(\boldsymbol{\psi}(\boldsymbol{\theta}))}{\partial \phi_j(\boldsymbol{\theta})\phi_k(\boldsymbol{\theta})} =\cvar_{\boldsymbol{\theta}}( h_j(Y),h_k(Y) ),
\] である (第 $2$ 項の分子の微積分の交換については細かく調べていないが、指数型分布族ならきっと大丈夫?)。

このように表現できた対数尤度関数を、$\phi_j(\boldsymbol{\theta})$ で偏微分した式、
\[
\begin{align*}
\frac{\partial}{\partial \phi_j(\boldsymbol{\theta})} \log L(\boldsymbol{\theta} \mid \boldsymbol{y}) &
\frac{\partial}{\partial \phi_j(\boldsymbol{\theta})} \left[ \sum_{j=1}^q \phi_j(\boldsymbol{\theta}) \left\{ \sum_{i=1}^n g_j(y_i) \right\} - n A(\boldsymbol{\psi}(\boldsymbol{\theta})) \right] \\ & =
\left\{ \sum_{i=1}^n g_j(y_i) \right\} - n \mathrm{E}_{\boldsymbol{\theta}}( h_j(Y) )
\end{align*}
\] が $0$ と等しくなる式を求めると、
\[
\widehat{\mathrm{E}_{\boldsymbol{\theta}}}(h_j(Y))=\frac{\sum_{i=1}^n g_j(y_i) }{n}
\] が得られる。
上式を満たすような $\hat{\phi_j}(\boldsymbol{\theta})$ は、自然パラメータの最尤推定量である。

感想

非常に綺麗な関係が成立するらしい。

ベイズ流の統計学では
\[
K(\boldsymbol{\psi}(\boldsymbol{\theta}))
\] をスケーリングファクターとして適当に扱う事があるのに、頻度論では
\[
\log \{K(\boldsymbol{\psi}(\boldsymbol{\theta}))\}^{-1}
\] が十分統計量 $h_j(Y)$ のキュムラント母関数になっているという。
何とも不思議な気がするんだ。