SnpEff 使い方 アノテーション

バイオインフォ道場、くまぞうです。

samtoolsなどで予測されたVariantに、snpEffを使ってアノテーションをつけてみます。

スポンサーリンク



snpEff

snpEffとは、予測されたVariantにアノテーションやその影響に関する情報を付与するツールです。その数や位置情報・タイプ(SNP, Ins, Delなど)や影響度(アミノ酸への置換)の情報を得ることが出来ます。

SnpEff

http://snpeff.sourceforge.net/index.html

snpEffのインストール

インストールは簡単です。ダウンロードして解凍するだけで使えます。Java1.7以上が必要です。

  $ wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip
  $ unzip snpEff_latest_core.zip
  $ cd snpEff/
  $ java -jar snpEff.jar -version
  4.2

snpEffでアノテーションをつける

データベースのダウンロード

snpEffへ、アノテーション用のビルド済データベースをdownloadコマンドでダウンロードします。また、どのようなデータベースがダウンロードできるかは、databasesコマンドで確認できます。たくさんの情報が表示されるので、grepなどで絞り込んだ方が良いでしょう。今回は、マウスを使います。

  $ java -jar snpEff.jar databases | less
  $ java -jar snpEff.jar databases | grep Mus_musculus
  GRCm38.75 Mus_musculus http://.../snpEff_v4_2_GRCm38.75.zip
  GRCm38.81 Mus_musculus http://.../snpEff_v4_2_GRCm38.81.zip
  GRCm38.82 Mus_musculus http://.../snpEff_v4_2_GRCm38.82.zip
  ...
  $ java -jar snpEff.jar download -v GRCm38.82

アノテーション付与

データベース・対象となるVCFファイルを指定して、snpEFFをコールします。結果はデフォルトでVCF形式にて出力され、アノテーションはINFO/ANNに付与されます。また、併せて、HTML summary (snpEff_summary.html)とGene counts summary (snpEff_genes.txt)が出力されます。

  $ java -Xmx4g -jar snpEff.jar GRCm38.82 myfile.vcf > myfile.snpeff.vcf
スポンサーリンク