読者です 読者をやめる 読者になる 読者になる

Note of Pediatric Surgery

腸内細菌、R、ときどき小児外科

多重検定

はじめに

今回の記事では多重検定について調べてまとめたことを中心に書いていきます。多重検定については下記の2つのサイトが大変わかりやすく、参考にさせていただきました。

Bonferroni法、Holm法、False Discovery Rate | 大阪大学腎臓内科

www.slideshare.net

さいころを1回振って、●が出る確率は1/6 = 0.167です。

さいころを2回振って、●が1回も出ない確率は、(5/6)2 = 0.694です。したがって、さいころを2回振って、1回でも●が出る確率は、1-(5/6)2 = 0.306です。 当然ながら、さいころを振れば振るほど、1回でも●が出る確率が上がっていきます。さいころを20回振って、一度も●が出ない確率は、わずか0.026です。

さいころを繰り返し振るという事と、有意水準α = 0.05の検定を繰り返すという事は、確率論的には全く同じ事です。検定を繰り返せば繰り返すほど、偶然棄却される帰無仮説が増えます。複数回繰り返された検定全体において帰無仮説が棄却される可能性を、familywise error rateと呼びます。

有意水準α = 0.05の検定を20回繰り返すと、1回でも帰無仮説棄却される可能性(familywise error rate)は0.642です。100回繰り返すと、familywise error rateは0.994です。検定を繰り返すという多重比較を行う場合、それぞれの検定の有意水準を0.05よりも小さくしなければ、familywise error rate ( FWER ) を0.05にする事ができません。




菌叢解析と多重検定

腸内細菌の菌叢解析では、1つの細菌の存在割合を各群で比較し、さらにそれを細菌の種類だけ行います。細菌を門で区切るか、目で区切るか、種で区切るかによっても変わってくるのですが、細菌の種類は数百数千にまで膨れ上がることもあります。

これはマイクロアレイと似ていて、例えば健常者と癌患者で遺伝子の発現の変化を調べる際も、何万という遺伝子の中から発現している割合の違いを各遺伝子において検定を繰り返します。腸内細菌の解析も、マイクロアレイの解析もとてつもない数の検定を繰り返すことになります。

Family wise Error Rateを調整する方法はいろいろありますので、こちらの記事を参考にして下さい。ただ腸内細菌やマイクロアレイの比較をFWERの制御で行うことには問題があります。

Bonferroni法やHolm法によるfamilywise error rateの調整は、「何回検定を繰り返しても、全体のαレベル ( familywise error rate ) は0.05を超えないようにするぞ!」という非常に保守的な方法です。したがって、本当は有意差があるのに、帰無仮説が棄却されないというβエラーが問題になります。

一番有名なのはBonferroni法で簡単に言うと、有意水準αを厳しくして偽陰性を防ぐためにαを検定数で割った数値を有意水準として設定します。例えば3群間であれば、0.05 / 3 = 0.166 が有意水準になり、有意差を出すのが難しくなるので、FWERを低く抑えることができます。

しかしこれを腸内細菌叢やマイクロアレイなどの超多重検定で行ってしまうのは問題です。なぜなら例えば1000種類の細菌に関して検定を繰り返すと 0.05 / 1000 = 0.00005 が有意水準となります。まず有意差が出る細菌は出てこないでしょう。これがβエラーです。

FDR制御法

http://image.slidesharecdn.com/dna-130516082155-phpapp02/95/dna-17-1024.jpg

そこで上のスライドの様な考え方が生まれました。FDRの制御法にもいろいろとあり、

http://image.slidesharecdn.com/dna-130516082155-phpapp02/95/dna-18-1024.jpg

となっているのでまずは得られたP値の分布をみなければならなそうです。とある手持ちのデータでP値の分布をみてみました。すると

http://pedsurgery.wp.xdomain.jp/wp-content/uploads/2015/03/Rplot02-copy.jpg

こんな感じになったので、どうみても一様分布ではないですね。この記事にはこのように書いてあります。

d.hatena.ne.jp

p値が一様分布で無い場合、BH法で推定された「棄却されたのに本当は帰無仮説が正しいもの」の数は過剰に見積もりされていることになります。すなわち、BH法で求められる FDR は実際よりも大きめに算出される傾向にあります。FDR はそもそも多重検定の有意水準指標としては「ゆるすぎる」という批判もあるようなので*3、これぐらい保守的でもあまり気にすることはなさそうです。

とはありますのでどうやらBH法でも良さそうですが、こちらの記事にはQ-valueというスコアを用いていると記載されていました。ややテクニカルすぎて自分の頭を越してしまっていますので、検討実験でもあるので取り敢えずBH法でFDRの制御をしていこうと思います。

sites.google.com

参考