予測メタゲノム解析: HUMAnNをインストールするためのあれこれ
はじめに
HUMAnNとは、The HMP Unified Metabolic Analysis Networkの略で、メタゲノムデータを使って腸内細菌叢がどの代謝経路を有していて、またその遺伝子をどれくらい持っているのか?ということを明らかにするためのパイプラインです。16SrRNAアンプリコンシーケンシングではできない、腸内細菌の機能の比較にまで踏み込んでいけます。
通常はメタゲノムデータ、つまり糞便中の全細菌の全DNAの配列を全て読んだ膨大なシーケンスデータを使って解析をしますが、PICRUStを用いれば、16S rRNA解析の結果をゲノムデータベースにマッチングさせて遺伝子を予測することができます。
1. 必要なもの
Biobakeryやhuttenhowerのウェブサイトに詳しく書かれています。
- ネットワークへの接続
- HUMAnNは解析の間、データやソフトウェアをダウンロードしながら行うようですので、ネットワークへの接続は必須
- curl
- RAMの空き
- 割と重いです
- scons
- Python
- 2.7以上
- blast+
2. sconsのインストール
コチラのサイトを参考にさせていただきました。
Sconsのサイトにアクセスしてscons-2.4.0.tar.gz
をダウンロード。ダブルクリックして解凍して好みの場所に置いておく。僕は~/Appilcations/Bioinformatics
というディレクトリを作って、Bioinformatics系のアプリをまとめています。
# ターミナルを開いて、解凍したファイルの場所まで行く cd /Applications/Bioinformatics/scons-2.4.0 # インストール:sudoコマンドなので、パスワードを要求される sudo python setup.py install # sconsを実行 scons
これでインストールできるはずです。もし、
-bash : scons : command not found
と表示されたら上記のサイトを参考にしてエラーを修正してください。
3. blast+のインストール
bioinformaticsを参考にさせていただきました。
コチラにアクセスする。パスワードを要求されるが、ゲストとしてアクセスしても大丈夫。ここからncbi-blast-2.2.31+-src.tar.gz
をダウンロードする。ダブルクリックして解凍し、好みの場所に置く。
# blast+のディレクトリに移る cd /Applications/Bioinformatics/ncbi-blast-2.2.31+-src # コンパイルする ./configure make
4. PATHを通しておく
ここら辺はあまり詳しくないのですが、取り敢えず先輩から教わった方法を書いておきます。
不可視ファイルを可視化する
まず不可視ファイルが見えない状態ならば、見える様にしておきます。コチラのサイトを参照させていただきました。
defaults write com.apple.finder AppleShowAllFiles -boolean true killall Finder
.bash_profileの修正
.bash_profileをテキストエディタで開いて下記の記述を加えて保存。.bash_profileは/Users/"ユーザー名"/.bash_profile
にあります。
# scons export PATH="/Applications/Bioinformatics/scons" # blast+ export PATH="/Applications/Bioinformatics/ncbi-blast-2.2.31+-src" source /Users/ユーザー名/.bash_profile
5. HUMAnNを走らせる
ようやくここまで来ましたが、この後も何度もエラーが起きて、なかなか解決できず骨が折れました。どうやらMacではいろいろとエラーが起きてしまう仕様の様です。最初に肝を書いておくと、
- 読み込むテキストファイルは.txtは使わず、.tsvか.csvを使う
- .tsvファイルの1行目に余計な物を書かない
- 1行目は#OTU…で始まる形にする
- glpk-4.6を以前のバージョンに置き換える
- エラーが起きてやり直す場合はOutputフォルダに入ったファイルを全て削除しておく
というのが大事です。この全てのステップを踏んだところで無事に解析が終わりました。
scons: *** [output/04b-hit-keg-mpt-cop-nul-nve-nve-graphlan_tree.txt] Error 1 scons: building terminated because of errors.
こんな感じのエラーメッセージが最後に出てこなくなったら成功です!
エラーメッセージの解決にはHUMAnNのGoogle groupsのフォーラムを参考にしました。世界中の人たちが同じ所でつまずいててちょっと安心です。
https://groups.google.com/forum/#!topic/humann-users/PBBwfyF4uGU https://groups.google.com/forum/#!topic/humann-users/D6nnsXKdbx8
.biomから.tsvを作成する
# BiomファイルをTSV formatに変換する # https://picrust.github.io/picrust/tutorials/humann_tutorial.htmlの記述と違うので注意 biom convert -i metagenome_predictions.biom -o metagenome_predictions.tsv --to-tsv # できたmetagenome_predictions.tsvをhuman-0.99/input/に入れておく mv metagenome_predictions.tsv /Applications/Bioinformatics/humann-0.99/input
ここで、metagenome_predictions.tsv
をテキストエディタで開いて、1行目に# Constructed from biom file
という記述があればこれを削除しておいて下さい。
glpkのバージョンを書き換える
まずコチラからglpk-4.43.tar.gz
をダウンロードしてダブルクリックして解凍し、適当なフォルダに移動させます。
# glpkのあるディレクトリに移動 cd /Applications/Bioinformatics/glpk-4.43 # glpk-4.43をインストール # ./configure : カレントディレクトリにあるconfigureスクリプトを実行する # --prefix= : インストール先のトップディレクトリを指定 ./configure --prefix=/usr/local sudo make install # .bash_profileに下記の様に追記してPATHを通しておく export PATH="/Applications/Bioinformatics/glpk-4.43" # /humann-0.99/data/MinPath/にあるgplk-4.6を削除 # インストールしたgplk-4.43のディレクトリを/humann-0.99/data/MinPath/にペースト # glpk-4.43の名前をglpk-4.6に変える # 再度この場所でインストールする cd /Applications/Bioinformatics/humann-0.99/data/MinPath/glpk-4.6 sudo make install # .bash_profileに下記の様に追記してPATHを通しておく export PATH="/Applications/Bioinformatics/humann-0.99/data/MinPath/glpk-4.6" source /Users/Ryohei/.bash_profile
たぶんかなり回りくどいことをしていて、最初のglpk-4.43
のインストールは要らないかもしれないのですが、一応、こうやってやって上手くいったのでそのまま書いておきます。修正点などがあれば教えていただけると幸いです。
sconsからHUMAnNを動かす
# HUMAnNのディレクトリに移る cd /Applications/Bioinformatics/humann-0.99 scons
するとターミナルにたくさん文字列が出てきます。ファイルの重さにもよりますが、数十分くらいかかるのだと思います。これで解析に移れると思います。僕はここまで来て涙しました。みなさんの検討を祈ります。
注:この記事は2015年に書いた記事を、2018年7月にまとめて読みやすくしたものです。もはやHUMAnN2が出てどこまで需要があるかはわかりませんが。