読者です 読者をやめる 読者になる 読者になる

局外パラメータを消す方法

最近勉強していると、必ずこの問題にぶつかるので、今のうちに整理しておこうと思う。


ここで、統計モデル
\[
f(\mathbf{Y} \mid \boldsymbol{\theta}, \boldsymbol{\phi}),
\] を考えよう ($\mathbf{Y}, \boldsymbol{\theta}, \boldsymbol{\phi}$ は全てベクトルとしておく)。
この統計モデルには、推定したい (もしくは最低限これは知っておきたい) パラメータ $\boldsymbol{\theta}$ と、興味がない (推定は諦めてもよい) 局外パラメータ $\boldsymbol{\phi}$ があるとする。
このような場合に、局外パラメータが推定したいパラメータに悪影響を及ぼすという事はよく知られている *1
とりあえず色々な方法があるので、それをまとめてみようというお話。

普通の最尤法を使う場合は性質が良くない、以下の全尤度関数に基づいて推測を行う。
\[
\mathrm{\arg\max_{\boldsymbol{\theta}, \boldsymbol{\phi}}} f(\mathbf{Y} \mid \boldsymbol{\theta}, \boldsymbol{\phi}),
\] この場合、最尤推定量 $\boldsymbol{\theta}$ は一致性を持たない事が多い ($\boldsymbol{\phi}$ の数が増えると特にダメ)。

※面倒なので、尤度関数も $f(\mathbf{Y} \mid \boldsymbol{\theta}, \boldsymbol{\phi})$ と書きます。

条件付き尤度 (conditional likelihood)

指数型分布族で局外パラメータ $\boldsymbol{\phi}$ の十分統計量 $\mathbf{T}$ がうまく見付かったときに、
\[
\mathrm{\arg\max_{\boldsymbol{\theta}}} f(\mathbf{Y} \mid \boldsymbol{\theta}, \mathbf{t}),
\] に基づく推測を行う事がある。
この方法は全尤度を
\[
f(\mathbf{Y} \mid \boldsymbol{\theta}, \boldsymbol{\phi})=
f(\mathbf{Y}, \mathbf{T} \mid \boldsymbol{\theta}, \boldsymbol{\phi})=
f(\mathbf{Y} \mid \boldsymbol{\theta}, \mathbf{t}) f(\mathbf{T} \mid \boldsymbol{\phi}),
\] と分解した一部 ($\boldsymbol{\phi}$ に依存しない部分) を使って推測していると言える。

周辺尤度と部分尤度 (marginal likelihood; partial likelihood)

これは、混合モデルやベイズ流推測で出てくる周辺尤度ではないらしい[1, 3]
確率変数 $\mathbf{Y}$ を、以下のような構造を持つ同時分布が得られるように $(\mathbf{A}, \mathbf{B})$ と一対一変換できる場合
\[
f(\mathbf{A}, \mathbf{B} \mid \boldsymbol{\theta}, \boldsymbol{\phi})=
f(\mathbf{A} \mid \boldsymbol{\theta}) f(\mathbf{B} \mid \mathbf{a}, \boldsymbol{\theta}, \boldsymbol{\phi}),
\] を考える。
つまり、$\mathbf{A}$ が $\boldsymbol{\phi}$ に依存しないように分離できる場合である。
そして、
\[
\mathrm{\arg\max_{\boldsymbol{\theta}}} f(\mathbf{A} \mid \boldsymbol{\theta}),
\] に基づいて推測を行う方法が周辺尤度法である。

Cox は全尤度関数をいくつかに分解し、その中の局外パラメータに依存しない部分を使う方法を partial likelihood method (部分尤度法) と言っている。そして、marginal likelihood や conditional likelihood に基づく方法は、partial likelihood に基づく方法の特殊な場合であるらしい [6]
partial likelihood が上の二つを含むなら、partial likelihood に基づく推測の漸近性質がそのまま上の二つに適用できるはずなので、ちゃんと勉強しておいた方が良いのかもしれない。

周辺尤度 (integrated likelihood, marginal likelihood)

混合モデルやベイズ流推測で出てくる周辺尤度。
\[
\mathrm{\arg\max_{\theta}} f(\mathbf{Y} \mid \boldsymbol{\theta})
\] \[
f(\mathbf{Y} \mid \boldsymbol{\theta})=
\int_{\boldsymbol{\phi} \in \boldsymbol{\Phi}} f(\mathbf{Y} \mid \boldsymbol{\theta}, \boldsymbol{\phi}) f(\boldsymbol{\phi} \mid \boldsymbol{\theta}) \mathrm{d}\phi
\] 結果が prior に依存するので、うまく決める必要がある。

プロファイル尤度 (profile likelihood)

$\boldsymbol{\theta}$ を与えた元での局外パラメータの最尤推定
\[
\hat{\boldsymbol{\phi}}(\boldsymbol{\theta})
\] を全尤度関数にぶち込んだもの
\[
\mathrm{\arg\max_{\boldsymbol{\theta}}} f(\mathbf{Y} \mid \boldsymbol{\theta}, \hat{\boldsymbol{\phi}}(\boldsymbol{\theta})),
\] に基づいて推測する方法である [2]
性質が悪いことがあるので、注意が必要。

複合条件付き尤度, 複合周辺尤度 (composite conditional likelihood, composite marginal likelihood)

pseudo-likelihood と呼ばれることもある[4, 5]
標本をいくつかの要素 (2 群比較なら各群から 1 つずつ標本を取ったペアを1要素にする) に分けて、それぞれの要素に対する条件付き・周辺尤度 (ここで局外パラメータを消す) の全ての組み合わせをかけたものに基づいて推測を行う。
pairwise-likelihood などがこの方法に当てはまる、ものによっては計算量の面でお得だったりする。
i.i.d. よりは仮定が緩いというか柔軟なので、その代償として効率が低下する。
要素間に任意の構造を与えた条件付き (周辺) 確率を考える事になるので、時系列データ解析や巨大なネットワークっぽい確率モデル (Graphical model, Bayesian network) でこの方法を使う事があるらしい。
こいつは少し上の方法たちとは毛色が違うが、そういう目的で使われていた事もあるようなので一応メモしました。

まだまだまだまだ勉強中。
他にもあったっけ?

文献

[1] Kalbfleisch JD. Marginal Likelihood. In: Armitage P, Colton T (eds.). Encyclopedia of Biostatistics, 2nd ed. Wiley 2005.
[2] Aitkin M. Profile Likelihood. In: Armitage P, Colton T (eds.). Encyclopedia of Biostatistics, 2nd ed. Wiley 2005.
[3] Kalbfleisch JD, Sprott DA. Applications of Likelihood Methods to Models Involving Large Numbers of Parameters. Journal of the Royal Statistical Society Series B 1970; 32: 175–208.
[4] Besag J. Statistical Analysis of Non-Lattice Data. Journal of the Royal Statistical Society Series D 1975; 24(3): 179–195.
[5] Lindsay BG. Composite Likelihood Methods. Comtemporary Mathematics 1988; 80: 221–239.
[6] Cox DR, 竹内 啓. 条件付推測について. 応用統計学 1981; 10(2); 77–91.
[7] Neyman J, Scott EL. Consistent Estimates Based on Partially Consistent Observations. Econometrica 1948: 16(1); 1–32.

*1:Neyman-Scott problem[7], Fieller's problem, Behrens-Fisher problem などという名前が付いた問題も存在する。