今回は、tophat2を使って、RNA-seqデータのマッピングに挑戦です。
tophat2とは
tophat2は、代表的なマッピングツールの1つです。RNA-Seqのデータをスプライシングを考慮してゲノム配列にマッピングします。(tophat2・tophat2のインストール)
[browser-shot url=”https://ccb.jhu.edu/software/tophat/index.shtml” width=”600″ target=”_blank”]
tophat2の使い方
リファレンス配列とアノテーションファイル
Illumina社が提供しているWebサイトiGenomesでは、代表的な生物に対してリファレンス配列とアノテーションファイル(GTF)を提供しています。データが大きいのでそれなりに適切な対応が必要と思いますが、直近のバージョンも管理されていて利用すると便利だと思います。(iGenomes)
基本的な使い方
マッピングを行うリードデータ(fastqファイル:シングル/ペアエンド)と、リファレンス配列・既知のアノテーション情報を準備して、tophat2のコマンドをコールします。必要に応じてオプションを指定しますが、オプションのパラメータのデフォルト値は人などの哺乳類に最適化されていて、リードの長さは75bp以上で最適化されています。前提条件が大きく異なる場合は、パラメータの調整を検討した方が良いかもしれません。
計算を開始すると、データの大きさやコンピュータリソースの使用環境にもよりますが、一般的なデータで最低でも数時間程度は計算が続きます。マッピング結果はbam形式のファイルでaccepted_hits.bam
として得られます。マッピング情報は、align_summary.txt
に概要が示されます。
tophat2の一般的な書式
tophat [options] <bowtie_index> <reads1_1[,...,readsn_1]> [reads1_2,...,readsN_2]</reads1_1[,...,readsn_1]>
single-end
tophat -p 4 -G genes.gtf -o tophat_results bowtie_index_genome reads1.fastq
paired-end
tophat -p 4 -r 100 -G genes.gtf -o tophat_results bowtie_index_genome reads1_1.fastq reads1_2.fastq
よく使うオプション
- -p
tophatの計算に使用するスレッド数。多いほうが早く結果を得ることができます。しかし、メモリがあまり大きくない場合は、スレッド毎のメモリが小さくなってしまい、エラーが発生することがあります。スレッド数を小さくすると、うまくいく場合があります。
- -o
結果を格納するフォルダを指定します。
-o
で指定したフォルダが存在しないとエラーになります。 - -G
既知のtranscriptに関する情報を提供する場合は、gtfまたはgff形式で指定します。
- -r
pair-endの場合、リード1・リード2間の距離の期待値を入力します。デフォルトは50ですが、情報が手元にあれば指定した方が良いと思います。
論文・データ解析の支援
個別に直接相談できるのが良いと、たくさんの方にご利用頂いています。