【統計】割合の信頼区間(WaldとClopper-pearson)

割合の信頼区間について

【目次】


計算式


Wald (正規近似を用いた方法)
\quad \widehat{p}\pm z\sqrt{\dfrac{\widehat{p}\left( 1-\widehat{p}\right) }{n}}

二項分布 B (n, p) は n が十分大きいとき、平均 np , 分散 np(1-p) の正規分布に近づく(ラプラスの定理)。 一般的に、np>5 かつ n(1-p)>5 の場合を n が十分に大きいと考えるようである。

n が十分に大きくない場合は近似が悪い。また、0や1の両端も近似が悪いので不均衡データ(Imbalanced Data)に注意が必要となる。


Clopper-pearson (F分布を用いた方法)
\quad Lower = \Biggl( 1+ \dfrac{n-x+1}{(x)F\bigl( 1-\frac{\alpha}{2}; \ 2(x) , \ 2(n-x+1) \bigr) } \Biggr)^{-1}
\quad Upper = \Biggl( 1+ \dfrac{n-x}{(x+1)F\bigl( \frac{\alpha}{2}; \ 2(x+1) , \ 2(n-x) \bigr) } \Biggr)^{-1}

二項分布(離散確率分布)をベータ分布(連続値型確率分布)に拡張し、F分布で表したものを利用した信頼区間

計算例


Wald
=D4-NORM.S.INV(1-G4/2)*SQRT(D4*(1-D4)/C4)
=D4+NORM.S.INV(1-G4/2)*SQRT(D4*(1-D4)/C4)

Clopper-pearson
=(1+(C4-B4+1)/(B4*F.INV.RT(1-G5*0.5, 2*B4, 2*(C4-B4+1))))^-1
=(1+(C4-B4)/((B4+1)*F.INV.RT(G5*0.5, 2*(B4+1), 2*(C4-B4))))^-1


コード


library(DescTools)
DescTools::BinomCI(x, n, conf.level=.95,method=c("wald"))
DescTools::BinomCI(x, n, conf.level=.95,method=c("clopper-pearson"))


proc freq data=ADS;
    tables YN / binomial;
    weight CNT / zeros;
run;


被覆確率 (Coverage Probability)


被覆確率(信頼区間が真の値を含む確率)を調べてみる。
p = 0 ~ 1を 0.01 刻みで、二項分布 B(n, p) に従う乱数を100個ずつ生成(PCのスペックがないのでこのくらいで)。
n = 10, 100, 1000 の3種類を試してみる。

被覆確率 (Coverage Probability) をグラフ化し、95%のところに横線を引いている。
n が小さいとき、Waldは被覆確率95%を大きく下回る。両端の不均衡データにあたる部分でその傾向が大きく見られる。
Clopper-pearsonは n が小さくても95%から大きく下回ることはなさそう。



参考


https://www.lexjansen.com/phuse/2013/sp/SP05.pdf
https://www.sas.com/content/dam/SAS/ja_jp/doc/event/sas-user-groups/usergroups14-d-05.pdf
統計学入門−第3章

本ブログは個人メモです。 本ブログの内容によって生じた損害等の一切の責任を負いかねますのでご了承ください。