「さらば、p値」 p値とエフェクトサイズと信頼区間

Twitterでフォローしていつも勉強させていただいている先生のtweetで印象深いものがあったので、引用させていただきます。

さらば、P値。理由は再現性の欠如。サンプルサイズがよほど巨大でもない限り、たとえ同様の研究を繰り返したところで、得られるP値はばらばら。http://t.co/ceKEF1Nb2I
— kouta ito (@itokouta) 2015年3月15日

元文献はNature Methods。注目すべきは、エフェクトサイズと95％信頼区間。差異の有無ではなく、差異の大きさ。http://t.co/KoHvdiKVaA
— kouta ito (@itokouta) 2015年3月15日

p値は絶対視されるものではない、くらいのことは勿論知っていましたが、うんうん、そうだよね、と納得できるくらいきちんと勉強していたわけではなく、お、おう…くらいの感じです。これを期にきちんとp値、エフェクトサイズ、信頼区間などについて勉強してみようと思って、いろいろとまとめてみました。

まずは国際医療研究センター加藤研究室のHPのPDFより引用。

p値が0.05より小さいからといって、すぐにその結果が臨床的に重要であるということにはならないし、逆にp値が0.05より大きいからといって、その介入には効果がないということにもならない。統計学的検定は数理上の計算値であり、標本数などの条件によって結果が大きく影響される。標本数さえ大きければ、たとえ臨床的には役に立たないほど小さな違いであっても、統計学的には有意差があると判定され得る。

p値の大きさではなく、むしろ介入の効果の大きさ(effect size)が臨床的に意味のあるものかどうかを検討せねばならない。この目的で、相対リスクの推定値である、Cox比例ハザードモデルの相対ハザードや多重ロジスティック回帰分析におけるオッズ比が汎用される。 ( 中略 ) オッズ比 ( Oddsratio:OR ) はある事象の起こりやすさを2つの群間で比較して示す統計学的な尺度である。

うんうん。このp値についての記載は知っていました。ただエフェクトサイズについて、恥ずかしながら実はまったくよくわかっていなくて、次に辿り着いたのが抗血栓療法トライアルの「臨床試験論文の読み方　─臨床上有用である指標というwebページ。

effect sizeは、用いる効果指標により印象が大きく異なる。 ( 中略 ) 効果指標として、RRR ( 相対リスク減少率 ) 、ARR ( 絶対リスク減少率 ) とNNT ( 治療必要数 ) の3つが用いられる。RRRは概念的に受け入れ易いが、effect sizeをかなり大きく、ときに誇張して見せる印象がある。むしろ、実験治療の真の恩恵を受ける人の割合を示すARR、あるいはその逆数であり何人の患者に実験治療を行えばその治療効果により1人の運命を変えられるのかを示すNNTで表現した方がよいとされる。

・RRRが20％以上の数値の場合，臨床的にも有用な治療法であることが多い。
・最近の臨床試験論文では，このp値が5％未満（p＜0.05）という記述だけでは不十分とし，もっと正確なp値（たとえばp＝0.002など）を示すことが要求される。
・NNT＝40人ということは，抗血小板療法の導入により40人に1人を余計に救えることを意味する。この『余計に』という点が重要である。

よくわかりました。最後に信頼区間について調べてみたところ、いつもお世話になっている、医学書院の「医療統計学の基礎 EBMの実現のために知っておきたいこと」に辿り着きました。この連載は非常にオススメです。

P値にはサンプル数次第でどうとでもなるという落とし穴があります。つまりサンプル数が多ければ臨床的に無意味な差でも有意となり，少なければ臨床的に意味のある差でも有意差が出ないというケースが有り得るのです。

数年前までいくつかの学術誌では，P値を排除し95％信頼区間のみを使うよう指示していたこともありましたが，現在では併記するのが一般的です。例外として，同等性を検討する研究の場合は信頼区間のみを使うことが義務付けられています。

これは，同等性の検証で大きなP値が観測された場合（通常はP＞0.05），これが本当に差がないことを示しているのか，サンプル数が少ないだけなのか，判断がつけられないためです。差がなければ信頼区間は狭くなり、サンプル数が少ないことが理由であれば信頼区間が広がります。どちらも0を含んでいるのでP値は5％より大きくなりますが，信頼区間が狭い場合には正確に差がないという科学的な証拠となります。

なるほど、信頼区間が大事なのはよくわかりました。もう少し信頼区間の読み方・考え方について勉強したいと思います。CDISC標準推進プロジェクトのwebサイトより。

信頼区間とは推定値の精度の指標。この区間は、高い確率（通常は95％）で“真の”値を内包すると考えられる、データに矛盾しない値の範囲を表す。信頼区間は推定値と同じ単位で表現される。広い信頼区間ほど精度が低いことを意味し；狭い信頼区間は精度が高いことを意味する。

そして名著より。

EZRでやさしく学ぶ統計学～EBMの実践から臨床研究まで～　2版

2群の差の95%信頼区間が0を含まなければ、あるいは2群の比の95%信頼区間が1を含まなければ有意差があると結論される。

これは勘違いしてました。なんとなく0をまたがなければ有意差があるんだろうなーなんて思ってましたが、よく考えたら「差」と「比」で「同等」を表す数字は異なりますよね、勉強になりました。これとp値 < 0.05というのは、まったく同じことを意味しているのです。つまり有意差がない時に、その信頼区間を見て、信頼区間が狭ければ本当に有意差がない、信頼区間が広ければサンプル数が少ないだけなのかも？と判断して良いということですね。

また、医学書院の「医療統計学の基礎 EBMの実現のために知っておきたいこと」にこんな記載もありました。