Triad sou.

部分集団と集団全体での割合の差に対する推測

以下のような状況を想定する。

  • あるマーカーが陽性の時の真の有病率を$p_1$、あるマーカーが陰性の時の真の有病率を$p_2$とする
  • ある集団では、陽性の$n_1$人のうち病気は$X_1$人であり、陰性の$n_2$人のうち病気は$X_2$人であった
  • ある集団全体では$n=n_1+n_2$人中$X_1+X_2$人が病気であった

一般的には、陽性の有病率$p_1$と陰性の有病率$p_2$を比較したリスク差$p_2-p_1$を考える事が多いと思われるが、ここでは陽性の有病率$p_1$と全体の有病率$p$を比較したリスク差$p-p_1$の推測について考えてみたい。

リスク差$p-p_1$に対する推測

いわゆる二項分布の仮定$X_1 \sim \mathrm{Bin}(n_1, p_1)$および$X_2 \sim \mathrm{Bin}(n_2, p_2)$のもとでは、$j=1,2$について、$\mathrm{E}[X_j]=n_jp_j$、$\mathrm{Var}[X_j]=n_jp_j(1-p_j)$である。

各有病率$p_j$の推定量は$\hat{p}_j=\frac{X_j}{n_j}$である。$\mathrm{E}[\hat{p}_j]=\frac{n_jp_j}{n_j}=p_j$であり、これは不偏推定量である。

$p$の推定量は$\hat{p}=\frac{X_1+X_2}{n}$である。陽性割合を$w=n_1/n$とおけば、$\mathrm{E}[\hat{p}]=\frac{n_1p_1+n_2p_2}{n}=wp_1+(1-w)p_2$と書ける。

そして、リスク差$p-p_1$の点推定量は、
\[
\begin{split}
\hat{p}-\hat{p}_1
&=
\frac{X_1+X_2}{n}-\frac{X_1}{n_1}
\\&=
\frac{n_2}{n}\frac{X_2}{n_2}-\frac{n_2}{n}\frac{X_1}{n_1}
\\&=
(1-w)(\hat{p}_2-\hat{p}_1),
\end{split}
\]であり、期待値は$\mathrm{E}[\hat{p}-\hat{p}_1]=(1-w)(p_2-p_1)$となる。

また、$\hat{p}-\hat{p}_1$の分散は、
\[
\begin{split}
\mathrm{Var}[\hat{p}-\hat{p}_1]
&=
\mathrm{Var}[(1-w)(\hat{p}_2-\hat{p}_1)]
\\&=
(1-w)^2(\mathrm{Var}[\hat{p}_2]+\mathrm{Var}[\hat{p}_1]),
\end{split}
\]となり、$\hat{p}-\hat{p}_1$の分散推定量は、$\widehat{\mathrm{Var}}[\hat{p}-\hat{p}_1]=(1-w)^2(\widehat{\mathrm{Var}}[\hat{p}_2]+\widehat{\mathrm{Var}}[\hat{p}_1])$である。ただし、$\mathrm{Var}[\hat{p}_j]=\frac{p_j(1-p_j)}{n_j}$、$\widehat{\mathrm{Var}}[\hat{p}_j]=\frac{\hat{p}_j(1-\hat{p}_j)}{n_j}$である。

正規近似できる事を想定すれば、$p-p_1=0$を帰無仮説とした検定統計量
\[
\begin{split}
Z
&=
\frac{(1-w)(\hat{p}_2-\hat{p}_1)}{\sqrt{(1-w)^2(\widehat{\mathrm{Var}}[\hat{p}_2]+\widehat{\mathrm{Var}}[\hat{p}_1])}}
\\&=
\frac{\hat{p}_2-\hat{p}_1}{\sqrt{\widehat{\mathrm{Var}}[\hat{p}_2]+\widehat{\mathrm{Var}}[\hat{p}_1]}},
\end{split}
\]が得られるが、これは$p_2-p_1=0$を帰無仮説としたナイーブな検定統計量に完全に一致する。

リスク差$p-p_1$の信頼区間は、
\[
(1-w)\left[(\hat{p}_2-\hat{p}_1) \pm \Phi^{-1}(1-\alpha/2) \sqrt{\widehat{\mathrm{Var}}[\hat{p}_2]+\widehat{\mathrm{Var}}[\hat{p}_1]}\right]
\]と書け、リスク差$p_2-p_1$の信頼区間を$(1-w)$倍すれば求められる事が分かる。

まとめ

リスク差$p-p_1$の点推定量区間定量はリスク差$p_2-p_1$の点推定量区間定量から計算でき、$p-p_1=0$を帰無仮説としたナイーブな検定は$p_2-p_1=0$を帰無仮説としたナイーブな検定と同一の$P$値を与える事が分かる。

補足


篠崎先生、ありがとうございました。