VCFtools 使い方 VCFファイルからの抽出(BEDファイル対応領域)

バイオインフォ道場、くまぞうです。

SNP Callerには、通常、領域指定オプションがあります。しかし、既に算出されたVCFデータが領域外のデータを含む場合、領域を参照しながら整理し直すのは面倒な作業です。そんなとき、vcftoolsを使えば、計算した後からでも簡単に領域の絞り込み行うことができます。

スポンサーリンク



VCFtools VCFファイルとBEDファイル

vcfファイルとbedファイルを準備します。vcfファイル内のデータについて、bedファイルで定義されている領域に合致するものだけ抽出する場合は、--bedオプションでbedファイルを指定します。ちなみに、bedファイルで定義されている領域外のものだけ抽出したい場合は、--exclude-bedを指定します。

使い方

$ vcftools --vcf input.vcf --bed bed_file_describing_the_range.bed \
           --out output_prefix --recode --recode-INFO-all

$ ls output_prefix*
output_prefix.recode.vcf  # bedファイルの定義領域に合致したエントリーのみを抽出

オプション(他、多数)

  • –out 出力ファイルにプレフィックスをつけます。
  • –recode 結果を新規にファイルとして出力します。
  • –recode-INFO-all ファイルの内容を保持しつつ、抽出します。

VCFtools インストール

こちらの手順に従ってインストールします。

git clone https://github.com/vcftools/vcftools.git
cd vcftools
./autogen.sh
./configure
make
make install

インストールでエラーが出てしまう場合は、(必要に応じて)以下のパッケージをインストールします。その後、make作業を再度./autogen.sh, ./configureから始めると良いようです。

sudo apt install build-essential
sudo apt install autoreconf automake libtool
sudo apt install zlib1g-dev
sudo apt install pkg-config

./autogen.sh
./configure
make
make install

VCFtools ヘルプ

使い方は、以下のmanコマンドを使って参照することができます。

$ man vcftools
スポンサーリンク