Triad sou.

Bland-Altman分析とlimits of agreementと思い出

はじめに

Bland-Altman分析は、臨床検査等について2つの方法の間の一致を評価するための統計的手法です。
Martin Bland先生とDouglas Altman先生が提案し、Lancetに載った論文は5万回以上引用されています(2022/2/1 Google Scholar)。
当時は2つの方法の一致を相関係数の高さだけで評価される事が標準的であったものの、相関係数の評価だけでは不十分な場合があるということも解説されています。
おもにBland-Altman plotという、横軸に2つの方法による測定値 $X_i$ と $Y_i$ の平均 $\frac{X_i+Y_i}{2}$ をとり、縦軸に差 $d_i=X_i-Y_i$ をとった散布図を用い、バイアス(差の平均値が0でない)・比例誤差(測定値が大きくなるとプロットのばらつきが広がっていく)・系統的な傾向(プロットに直線を当てはめると傾きを持つ/非線形なトレンド)などについて検討します。
また、limits of agreement (LOA) という値を計算し、測定誤差が大きくない事を確認します。
詳細については良い解説もありますので、そちらを参照すると良いと思います。

LOAの解釈

バイアス(これは一応補正可能な場合もありますが)、比例誤差、系統的な傾向がなければ、あとは誤差が大きくない事を確認することになります。
これにはLOAの間の範囲を用います。
2つの測定値の差の平均値 $\bar{d}=\frac{1}{n}\sum_{i=1}^n d_i$ と、差の標準偏差を $s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(d_i-\bar{d})^2}$ とすると、LOAの範囲は $\bar{d} \pm 1.96 s$ で表されます。
差が正規分布すると仮定すれば、概ね95%の差はこの範囲に含まれると考えられます(ざっくりいうと、ほとんどの差がこの範囲に含まれる)。

簡便な測定法Xとゴールドスタンダードの測定法Yがあり、XをYの代わりに使えるかどうかを考えているとします。
LOAの範囲は差($X-Y$の値)のほとんどが含まれる範囲であるため、仮定が正しければ、Xで測定したときの誤差は概ねこの範囲に収まると解釈できます。
したがって、LOAの範囲が臨床的に無視しても問題ないレベルなのかを考察する事がもっとも重要です

例えば、体温を0.5秒で測定する新しい機器があったとします。
試験をしてみて $\bar{d}=0, s=0.1$ であったとすると、LOAは $0 \pm 0.196$ となります。
実際に利用を想定している状況で、測定誤差が±0.2℃程度の体温計が使えるかどうかを真剣に議論することが重要ということです。
いろいろな状況があると考えられますので、単純に使えそう・使えなそうの判断ができるケースもあるでしょうし、悩ましいケースもあると思われます。
「なんとなくBland-Altman plotとLOAを出して、相関係数も一応出して、差の平均の検定をして、まあOK」みたいな論文をよく見かけるわけですが、何もわかっていないことを露呈しているだけですので止めましょう。
「二つの測定値の差がLOAの範囲内に含まれていれば二つの測定方法は一致性があると解釈できる」という解説・解釈もよく見かけるのですが、よりひどい完全な誤りですので禁止しましょう。

また、LOAは差が正規分布することを仮定しているため、少なくともヒストグラムなどで差の分布の確認したほうが良いでしょう。

LOAはどうなのか

LOAはかなり大胆な近似を用いて導出されている上に $s$ の推定誤差を考慮していないため、区間としては狭すぎると言われています(Francq et al., 2020)。
例えば、予測区間 $\bar{d} \pm t_{0.975,n-1} s\sqrt{1+\frac{1}{n}}$ と比べると分かりやすく、LOAにはかなり狭い区間が使われています。
予測区間(prediction interval)はデータから将来観察されるであろう1つの標本の値が含まれる範囲を推定したものなので、本来はこちらのほうが正しそうではないかと私も思います。
Francqet al.(2020)に載っているシミュレーションでは、LOAの範囲ではうまく予測できない事が示されています(Figure 1; LOAの範囲は図中の95%AIのこと)。
さらに、許容区間(tolerance interval)を用いたほうが良いとも言われています。
例えば、信頼率$\beta$の$\gamma$許容区間は、確率$\gamma$で母集団分布の$\beta$以上の割合を含むような区間です。
どちらにせよ、サンプルサイズが小さい時のLOAの範囲は誤差の大きさを過小評価していることに注意したほうがよいと考えています。

思い出

私が初めて国際学会で発表した時、私の前に発表していたのがBland先生でした。
正直お話を聞いている余裕が全くなかったので、何をお話しされていたのかは覚えていないです。
後でBland先生だと知って、もったいなかった(けど余裕もなかった)なー、と思ったものです。

実は最近Bland-Altman分析に関する論文を読んでいて、ふとこの事を思い出して、関連する記事を何か書いておこうかなと思ったのでした。

参考文献

  • Bland JM, Altman DG. Statistical methods for assessing agreement between two methods of clinical measurement. Lancet 1986; 1(8476): 307–310. doi: 10.1016/S0140-6736(86)90837-8.
  • Francq, BG, Berger, M, Boachie, C. To tolerate or to agree: A tutorial on tolerance intervals in method comparison studies with BivRegBLS R Package. Statistics in Medicine 2020; 39(28): 4334– 4349. doi: 10.1002/sim.8709.
  • Bland先生のHPにはBMJ誌で統計について解説したStatistics Notesシリーズ一覧と リンク があり、このシリーズもとても勉強になります。