UCSCのゲノム配列ファイル .2bitファイルの展開
バイオインフォ道場、くまぞうです。
UCSCのゲノム配列ファイルは、.2bit形式で圧縮されているものがあります。「twoBitToFa」というツールを使って展開します。
.2bit形式について
塩基を2ビットで表現していて、非常に効率の良いデータ格納方式です。実際に、以下のように定義されているようです。
- T – 00
- C – 01
- A – 10
- G – 11
twoBitToFaの使い方 .2bitファイルの展開
.2bitファイルの展開に用いるツールは「twoBitToFa」です。input.2bitに展開したい.2bit形式のファイル名、output.faに展開後のファイル名を指定します。
twoBitToFa input.2bit output.fa
ユーティリティのダウンロード
UCSCのサイトからダウンロード出来ます。Utilities – The utilities directoryのリンクから、環境に適したものをダウンロードしましょう。