読者です 読者をやめる 読者になる 読者になる

pivotal quantityと無情報事前分布

[1] の説明が分からなかったので、考えたり調べたりしていたら [2] を見つけることが出来た。


ある尤度関数 $p(y \mid \theta)$ に対して、無情報事前分布を構成する事を考える。
どんなパラメータ $h(\theta)$ に対して一様な事前分布を考えるかによって、$p(\theta)$ は異なる関数になる。
ただし、$h(\theta)$ は一般的に用いる尤度関数に現れるパラメータ $\theta$ に何らかの変換を行ったものとする。
では、いったいどんな変換を選んだら適切なのだろうか?
尤度関数が、パラメータに対して、特定の形をしている場合については、以下のことがいえる。

pure location parameter の場合

尤度関数が $p(y-\theta \mid \theta)=f(u \mid \theta), \quad \theta \in(-\infty, \infty)$ のように、データとパラメータの差 $u=y-\theta$ の関数に変換可能なとき、$y-\theta$ を pivotal quantity、$\theta$ を pure location parameter と呼ぶ。

このとき、線型変換 $X=Y+a$ について、$p(x-\phi \mid \phi)=f(u \mid \theta)$、$\phi=\theta+a$ を構成することができる。
$Y$ と $X$ は、pure location parameter は異なるが、実質的に「同一の」分布に従う。
したがって、無情報事前分布を与えることを考えると、$Y-\theta$ と $X-\phi$ については、事前分布が等しく、事後分布も等しくなるべきである。
すべての $a$ について、
\[
p(\theta)=p(\theta+a)
\] を満たすためには、
\[
p(\theta)\propto c,
\] となる必要がある ($c$ は定数)。
$Y-\theta$ については、$p(\theta)$ が一様分布であれば、事後分布は
\[
f(\theta \mid u)\propto f(u \mid \theta)\times c=p(y \mid \theta)
\] である。
$X-\phi$ についても、事後分布は
\[
p(\phi \mid x-\phi)\propto p(x-\phi \mid \phi)\times c=p(x \mid \phi)
\] である。

pure scale parameter の場合

尤度関数が $p(y/\theta \mid \theta)=g(v \mid \theta), \quad \theta \in(0, \infty)$ のように、データとパラメータの比 $v=y/\theta$ の関数に変換可能なとき、$y/\theta$ を pivotal quantity、$\theta$ を pure scale parameter と呼ぶ。
上の場合、$Y$ そのものの分布は、
\[
p(y\mid\theta)=g(v\mid\theta)\left|\frac{\mathrm{d}v}{\mathrm{d}y}\right|=g(v\mid\theta)/\theta
\] である。

このとき、定数倍の変換 $X=b Y$について、$p(x/\phi\mid\phi)=g(v\mid\theta), \quad \phi=b\theta$ を構成することができる。
$Y$ と $X$ は、pure scale parameter は異なるが、実質的に「同一の」分布に従う。
すべての $b$ ($> 0$)について、
\[
p(\theta)=p(b\theta)
\] を満たすためには、
\[
p(\log\theta)\propto c, \quad p(\theta)=p(\log\theta)\left|\frac{\mathrm{d}\log\theta}{\mathrm{d}\theta}\right|\propto\theta^{-1}
\] となる必要がある。
$Y/\theta$ については、$p(\theta)\propto\theta^{-1}$ であれば、事後分布は
\[
p(\theta\mid v) \propto g(v\mid\theta)p(\theta)=p(y\mid\theta)
\] である。
$X$ そのものの分布は、
\[
p(x\mid\phi)=p(x/\phi\mid\phi)\left|\frac{\mathrm{d}}{\mathrm{d}x}\left(\frac{x}{\phi}\right)\right|=p(x/\phi\mid\phi)/\phi
\] であるから、$X/\phi$ についても、事後分布は
\[
p(\phi\mid x/\phi) \propto p(x/\phi\mid\phi)p(\phi) = p(x\mid\phi)
\] である。

pure scale parameter について上の無情報事前分布を与えるとき、尤度関数として $Y$ や $X$ そのものの尤度関数を与えるため、事後分布の形は異なってしまいます。
しかし、変換を行った $Y/\theta$ や $X/\phi$ の事後分布が、元の情報を保つように事前分布を与えている事が分かります。
Box & Tiao の data-translated likelihood も
\[
p(\theta)=p(\theta+a)
\] の様な考え方で、近似的な無情報事前分布を与えているのかもしれません?

個人的には今ひとつしっくり来ないけど、要はこういう事なのかなぁと思いました。

追記

2010年度統計関連学会連合大会で行われた東大の駒木文保先生のチュートリアルで、ベイズ法のパラメータの不変性についての話が聞けた (メインではなかったが)。
要は最尤法はパラメータに対する変換 (あらゆる変換ではなさそう?) について不変 (invariant) だけれども、ベイズ法は prior の取り方で変わってしまう。
なので、パラメータの変換に対して不変な方法の中で、良いものを探すべきだろうという事。
例えば Jeffreys' prior などは漸近的にはこれを満たす。


チュートリアルはものすごく難しかった、右不変事前分布に基づくベイズ予測分布というものがよいらしい。