Note of Pediatric Surgery

腸内細菌、R、ときどき小児外科

予測メタゲノム解析: HUMAnNをインストールするためのあれこれ

はじめに

f:id:Razumall:20180708130659p:plain

HUMAnNとは、The HMP Unified Metabolic Analysis Networkの略で、メタゲノムデータを使って腸内細菌叢がどの代謝経路を有していて、またその遺伝子をどれくらい持っているのか?ということを明らかにするためのパイプラインです。16SrRNAアンプリコンシーケンシングではできない、腸内細菌の機能の比較にまで踏み込んでいけます。

通常はメタゲノムデータ、つまり糞便中の全細菌の全DNAの配列を全て読んだ膨大なシーケンスデータを使って解析をしますが、PICRUStを用いれば、16S rRNA解析の結果をゲノムデータベースにマッチングさせて遺伝子を予測することができます。

1. 必要なもの

Biobakeryhuttenhowerのウェブサイトに詳しく書かれています。

  • ネットワークへの接続
    • HUMAnNは解析の間、データやソフトウェアをダウンロードしながら行うようですので、ネットワークへの接続は必須
  • curl
    • コチラを参照
    • 解析の間のファイルのやり取りに必要なアプリ
    • HTTP ( およびその他のプロトコル ) リクエストをWebブラウザを使用せずに作成するための軽量なコマンドラインツール
    • MacOS Xにはデフォルトでインストールされている
  • RAMの空き
    • 割と重いです
  • scons
  • Python
    • 2.7以上
  • blast+
    • blastは相同性を検索するプログラム
    • blast+は入力された核酸配列をアミノ酸配列に翻訳し、相同性を持つものをデータベースから検索するもの

2. sconsのインストール

ynumerator.blogspot.jp

コチラのサイトを参考にさせていただきました。

Sconsのサイトにアクセスしてscons-2.4.0.tar.gzをダウンロード。ダブルクリックして解凍して好みの場所に置いておく。僕は~/Appilcations/Bioinformaticsというディレクトリを作って、Bioinformatics系のアプリをまとめています。

# ターミナルを開いて、解凍したファイルの場所まで行く
cd /Applications/Bioinformatics/scons-2.4.0

# インストール:sudoコマンドなので、パスワードを要求される
sudo python setup.py install

# sconsを実行
scons

これでインストールできるはずです。もし、

-bash : scons : command not found

と表示されたら上記のサイトを参考にしてエラーを修正してください。

3. blast+のインストール

bioinformaticsを参考にさせていただきました。

コチラにアクセスする。パスワードを要求されるが、ゲストとしてアクセスしても大丈夫。ここからncbi-blast-2.2.31+-src.tar.gzをダウンロードする。ダブルクリックして解凍し、好みの場所に置く。

# blast+のディレクトリに移る
cd /Applications/Bioinformatics/ncbi-blast-2.2.31+-src

# コンパイルする
./configure
make



4. PATHを通しておく

ここら辺はあまり詳しくないのですが、取り敢えず先輩から教わった方法を書いておきます。

不可視ファイルを可視化する

まず不可視ファイルが見えない状態ならば、見える様にしておきます。コチラのサイトを参照させていただきました。

inforati.jp

defaults write com.apple.finder AppleShowAllFiles -boolean true
killall Finder

.bash_profileの修正

.bash_profileをテキストエディタで開いて下記の記述を加えて保存。.bash_profileは/Users/"ユーザー名"/.bash_profileにあります。

# scons
export PATH="/Applications/Bioinformatics/scons"
# blast+
export PATH="/Applications/Bioinformatics/ncbi-blast-2.2.31+-src"

source /Users/ユーザー名/.bash_profile



5. HUMAnNを走らせる

ようやくここまで来ましたが、この後も何度もエラーが起きて、なかなか解決できず骨が折れました。どうやらMacではいろいろとエラーが起きてしまう仕様の様です。最初に肝を書いておくと、

  • 読み込むテキストファイルは.txtは使わず、.tsvか.csvを使う
  • .tsvファイルの1行目に余計な物を書かない
  • 1行目は#OTU…で始まる形にする
  • glpk-4.6を以前のバージョンに置き換える
  • エラーが起きてやり直す場合はOutputフォルダに入ったファイルを全て削除しておく

というのが大事です。この全てのステップを踏んだところで無事に解析が終わりました。

scons: *** [output/04b-hit-keg-mpt-cop-nul-nve-nve-graphlan_tree.txt] Error 1
scons: building terminated because of errors.

こんな感じのエラーメッセージが最後に出てこなくなったら成功です!

エラーメッセージの解決にはHUMAnNのGoogle groupsのフォーラムを参考にしました。世界中の人たちが同じ所でつまずいててちょっと安心です。

https://groups.google.com/forum/#!topic/humann-users/PBBwfyF4uGU https://groups.google.com/forum/#!topic/humann-users/D6nnsXKdbx8

.biomから.tsvを作成する

# BiomファイルをTSV formatに変換する
# https://picrust.github.io/picrust/tutorials/humann_tutorial.htmlの記述と違うので注意
biom convert -i metagenome_predictions.biom -o metagenome_predictions.tsv --to-tsv

# できたmetagenome_predictions.tsvをhuman-0.99/input/に入れておく
mv metagenome_predictions.tsv /Applications/Bioinformatics/humann-0.99/input

ここで、metagenome_predictions.tsvテキストエディタで開いて、1行目に# Constructed from biom fileという記述があればこれを削除しておいて下さい。

glpkのバージョンを書き換える

まずコチラからglpk-4.43.tar.gzをダウンロードしてダブルクリックして解凍し、適当なフォルダに移動させます。

# glpkのあるディレクトリに移動
cd /Applications/Bioinformatics/glpk-4.43

# glpk-4.43をインストール
# ./configure : カレントディレクトリにあるconfigureスクリプトを実行する
# --prefix= : インストール先のトップディレクトリを指定
./configure --prefix=/usr/local
sudo make install

# .bash_profileに下記の様に追記してPATHを通しておく
export PATH="/Applications/Bioinformatics/glpk-4.43"

# /humann-0.99/data/MinPath/にあるgplk-4.6を削除
# インストールしたgplk-4.43のディレクトリを/humann-0.99/data/MinPath/にペースト
# glpk-4.43の名前をglpk-4.6に変える
# 再度この場所でインストールする
cd /Applications/Bioinformatics/humann-0.99/data/MinPath/glpk-4.6
sudo make install
# .bash_profileに下記の様に追記してPATHを通しておく
export PATH="/Applications/Bioinformatics/humann-0.99/data/MinPath/glpk-4.6"
source /Users/Ryohei/.bash_profile

たぶんかなり回りくどいことをしていて、最初のglpk-4.43のインストールは要らないかもしれないのですが、一応、こうやってやって上手くいったのでそのまま書いておきます。修正点などがあれば教えていただけると幸いです。

sconsからHUMAnNを動かす

# HUMAnNのディレクトリに移る
cd /Applications/Bioinformatics/humann-0.99
scons

するとターミナルにたくさん文字列が出てきます。ファイルの重さにもよりますが、数十分くらいかかるのだと思います。これで解析に移れると思います。僕はここまで来て涙しました。みなさんの検討を祈ります。

注:この記事は2015年に書いた記事を、2018年7月にまとめて読みやすくしたものです。もはやHUMAnN2が出てどこまで需要があるかはわかりませんが。