UCSCのゲノム配列ファイル .2bitファイルの展開

バイオインフォ道場、くまぞうです。

UCSCのゲノム配列ファイルは、.2bit形式で圧縮されているものがあります。「twoBitToFa」というツールを使って展開します。

スポンサーリンク



.2bit形式について

塩基を2ビットで表現していて、非常に効率の良いデータ格納方式です。実際に、以下のように定義されているようです。

  • T – 00
  • C – 01
  • A – 10
  • G – 11

twoBitToFaの使い方 .2bitファイルの展開

.2bitファイルの展開に用いるツールは「twoBitToFa」です。input.2bitに展開したい.2bit形式のファイル名、output.faに展開後のファイル名を指定します。

twoBitToFa input.2bit output.fa

ユーティリティのダウンロード

UCSCのサイトからダウンロード出来ます。Utilities – The utilities directoryのリンクから、環境に適したものをダウンロードしましょう。

TwoBit Sequenceに関する情報

スポンサーリンク