Note of Pediatric Surgery

腸内細菌、R、ときどき小児外科

腸内細菌の論文が読める様になりたい臨床医へ ( 2 ) レアファクション解析

はじめに

腸内細菌の論文を読み、多様性の話が出てくる時に避けて通れないのがレアファクション解析 ( Rarefaction解析 )。図表にしれっとグラフが登場するのに、material and methodsをきちんと読まないとあまり詳しく書かれていないレアファクション解析。直訳すると”希薄化”。その概念をなかなか理解するのが難しかったのですが、がんばってまとめてみます。

レアファクション解析の意義とは?

とある理研のプレスリリースにはこう記載されていました。

生態学において、サンプリングの結果をもとに生物多様性の度合いを求める方法。生態学の調査においては、サンプル数が十分な状態になるまでサンプリングを行うことが難しい。これを解決するために、統計的な数式を用いて限られたサンプル数から、多様性を推定する解析方法。

ちょっとわかりづらいですね。いろいろと調べてみたところ、こちらのPDFファイルが一番わかりやすい記載をしていました。ぶっちゃけ、これ読むだけでわかると思います。

肝となる部分を引用すると

  • 新しい松林と古い松林にピットフォールトラップ(落とし穴トラップ)を仕掛けて採集した
  • 新しい松林では 31 種、古い松林では9種が見つかった
  • このデータから古い松林のほうがオサムシの種数が低いと言えるだろうか?
  • 新しい松林では 243 個体がサンプルされているのに対して、古い松林では63個体しかサンプルされていない
  • 古い松林で種数が低いのは単にサンプルされた個体数が少ないためかもしれない。

生態学の先生が書いた文書のようですが、生態学の先生たちは山や野に出て、自分たちの手で脚で標本 ( 生物 ) を採取してくる、というのが新鮮で、罠作って自分でそれを回収したりするの楽しそうですよね。それは置いといて、これと同じことが腸内細菌の研究に言い換えてみましょう

  • IBD罹患者のAとの健常者のBの糞便を、採便器を渡して回収してもらった
  • Aの糞便からは300 OTU、Bの糞便からは80 OTUが見つかった
  • このデータからBの糞便のほうが腸内細菌の種数が少ないと言えるだろうか?
  • Aの糞便からは60,000リードがシーケンスされているのに対して、Bの糞便では10,000リードしかシーケンスされていない
  • Bの糞便で種数が少ないのは単にシーケンスされたリード数が少ないためかもしれない

となります。実際、( 所謂 ) meta16Sを行うと、それぞれのサンプルでシーケンスされるリード数は大幅に異なります。条件などにもよりますが、同一のシーケンスで少ないもので10000リードくらいから多いものだと100000リードくらいまで変化します。これをそのまま比較しちゃいけませんよね、という考え方です。

レアファクション解析とは?

ここでレアファクションという概念が登場します。

  • 新しい松林からのサンプルを1つの母集団と考え、この母集団から63個体(古い松林から採取できた個体数)を再サンプリング(非復元抽出)する
  • この再サンプリングからは20種が得られた
  • この数は古い松林で得られた種数より多い
  • おなじ 63 個 体を採集していたとしても、新しい松林では、古い松林より多くの種が採集できそうである

つまり、リード数が少ないサンプルに、リード数が多いサンプルを合わせて比較してみる、という発想です。でもみなさんお気づきだと思いますが、せっかく読んだリード数の情報を捨てて比較すると情報の質が落ちてしまいます。( だからレアファクション ( 希薄化 ) という言葉を当てたのではないかと個人的に思っています ) そこで

  • この議論をより厳密にするために、再サンプリングを複数回繰り返す
  • 再サンプリングを1000回繰り返した
  • 1000 回の再サンプリングのうち約 200 回で19種が採集された
  • 新しい松林から63個体を採集したときに、古い松林で得られたような種数(9 種)が得られる確率は 5% より低い
  • 新しい松林のほうが古い松林よりたくさんの種のオサムシがいるといってよさそうである

このように、リード数の多い検体からリード数の少ない検体分をピックアップ ( 再サンプリング ) することを繰り返してあげればまぐれ当たりじゃないって証明できるでしょ?というのがレアファクションの考え方です。

レアファクション曲線

さて、後輩からこの図の解釈を教えてほしいというメールが僕のところに送られてきました。腸内細菌の論文ではよくみるグラフになりますが、これがレアファクション曲線です。

スクリーンショット 2016-02-21 16.20.47

ちなみに元論文はコチラです。縦軸にあるShannon DiversityやChao1 indexはα多様性を表す多様度指数です。横軸にはsequences per Samplesとありますので、サンプルごとのシーケンスのリード数になります。この論文のMaterial and Methodsを見てみると

An average of 14862 sequences were attained per sample

とあります。ので、恐らく一番少なかったリード数が6,000リード程度だったのでしょう。実際にレアファクションをかける時はQiimeやRのPhyloseqを使ってやりますが、再サンプリングの値の上限を設定します。この上限は、リード数が少ないサンプルのリード数に設定することが多いです。

このグラフは0に近い少ない数から再サンプリングを始め、1000刻みで6000まで再サンプリングするリード数を増やしていくと、得られたα多様性の指数がこういう風に変化しました、ということを表しています。ここで、なぜ6000リードでだけ再サンプリングしないで徐々に増やしていくのか?という疑問に感じると思います。

種の多様性というのは、サンプリングする数を増やしていけば無限大に増えていくものではありません。徐々にその値は正確になる、つまり実際にその生態系にいる種数に近似してくる、というのはイメージできると思います。そこで、再サンプリングのリード数を横軸にとったレアファクション曲線を描くことで、どのくらいのリード数を読めれば真の値に近づいていると考えて良さそうか?ということがわかります。

例えば、図のAとBでは2000-3000リード読めていれば、曲線が漸近しているので正確そうということがわかりますし、CやDは5000-6000もしくはそれ以上読めると正確そうということがわかると思います。

というわけでつらつらと説明しましたが、全体としてこのグラフでは、白丸の肥満がない母親から生まれたこどもの方が、肥満のある母親から生まれたこどもよりも、腸内細菌のα多様性が高い、という解釈になります。

最後に

ちなみにこのレアファクション解析に異を唱えている論文も少なからずあるようです。ちょっとココらへんの事情まではフォローできていませんが、多くの論文でこの手法は採用されていますので、普通には使っていいのだと解釈しています。

それでは次回はα多様性の多様度指数についてまとめていきたいと思います。上のグラフの縦軸がそのα多様性です。それぞれ微妙に意味するところが異なるようです。

参考

更新情報

  • 2015/02/06 公開
  • 2016/02/21 もとに記載した文章に追記してまとめ直しました