tophat2 使い方 RNA-Seq マッピング

スポンサーリンク

tophat2

2016.08.052021.12.22

今回は、tophat2を使って、RNA-seqデータのマッピングに挑戦です。

とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談

目次

tophat2とは
tophat2の使い方
論文・データ解析の支援
関連記事１
関連記事２

tophat2とは

tophat2は、代表的なマッピングツールの１つです。RNA-Seqのデータをスプライシングを考慮してゲノム配列にマッピングします。（tophat2・tophat2のインストール）
[browser-shot url=”https://ccb.jhu.edu/software/tophat/index.shtml” width=”600″ target=”_blank”]

tophat2の使い方

リファレンス配列とアノテーションファイル

Illumina社が提供しているWebサイトiGenomesでは、代表的な生物に対してリファレンス配列とアノテーションファイル（ＧＴＦ）を提供しています。データが大きいのでそれなりに適切な対応が必要と思いますが、直近のバージョンも管理されていて利用すると便利だと思います。（iGenomes）

基本的な使い方

マッピングを行うリードデータ（fastqファイル：シングル／ペアエンド）と、リファレンス配列・既知のアノテーション情報を準備して、tophat2のコマンドをコールします。必要に応じてオプションを指定しますが、オプションのパラメータのデフォルト値は人などの哺乳類に最適化されていて、リードの長さは75bp以上で最適化されています。前提条件が大きく異なる場合は、パラメータの調整を検討した方が良いかもしれません。

計算を開始すると、データの大きさやコンピュータリソースの使用環境にもよりますが、一般的なデータで最低でも数時間程度は計算が続きます。マッピング結果はbam形式のファイルでaccepted_hits.bamとして得られます。マッピング情報は、align_summary.txtに概要が示されます。

tophat2の一般的な書式

tophat [options] <bowtie_index> <reads1_1[,...,readsn_1]> [reads1_2,...,readsN_2]</reads1_1[,...,readsn_1]>

single-end

tophat -p 4 -G genes.gtf -o tophat_results bowtie_index_genome reads1.fastq

paired-end

tophat -p 4 -r 100 -G genes.gtf -o tophat_results bowtie_index_genome reads1_1.fastq reads1_2.fastq

よく使うオプション

-p
tophatの計算に使用するスレッド数。多いほうが早く結果を得ることができます。しかし、メモリがあまり大きくない場合は、スレッド毎のメモリが小さくなってしまい、エラーが発生することがあります。スレッド数を小さくすると、うまくいく場合があります。
-o
結果を格納するフォルダを指定します。-oで指定したフォルダが存在しないとエラーになります。
-G
既知のtranscriptに関する情報を提供する場合は、gtfまたはgff形式で指定します。
-r
pair-endの場合、リード１・リード２間の距離の期待値を入力します。デフォルトは５０ですが、情報が手元にあれば指定した方が良いと思います。

論文・データ解析の支援

個別に直接相談できるのが良いと、たくさんの方にご利用頂いています。

とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談

とにかく早く問題解決したい人はこちら＞＞直接、論文相談

関連記事１

tophat2 使い方エラーと対策

tophat2でマッピングしていたらエラー終了しました。一応解決したので報告します。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談Tophat2 マッピングで発生したエラーtophat2のマッピングをバックグラウンドで実行した...

tophat2 v2.1.0 - インストール

今回は、Tophat2 v2.1.0 のインストールに挑戦です。プリコンパイル版です。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談準備Tophat2が内部で利用する解析ツールを事前にインストールします。bowtie2samt...

関連記事２

IGV 使い方遺伝子位置や好きな位置への移動

IGVはリードのマッピング状況を視覚的に確認できるツールです。ゲノムデータ（fastaファイル）とアライメントデータ（bamファイル、及びbaiファイル）を準備すれば簡単に表示できますが、更に遺伝子の位置情報を読み込むともっと使いやすくなり...

IGV 使い方インストール〜便利な使い方まで | リファレンス・マッピングデータ・アノテーションを読み込んで表示しよう

IGV（Integrative Genomics Viewer）は、マッピングデータを視覚的に確認することができる大変便利なツールです。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談IGVとはIGVは、米Broad Insti...

IGV 使い方 bowtieのマッピングデータをsamtoolsで変換してIGVに表示するまで

IGVを使って、bowtieのマッピング結果表示してみます。samtoolsを使ったbamへの変換やsortなど、IGVの表示に必要なステップを１つずつ確認しながら説明します。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談bo...

マッピング率が低いときの対応方法 - Trimmomatic 除去アダプターの登録方法

マッピング率が極端に低い場合は、使用しているシーケンサ特有のアダプター配列がリードに残っていないか確認するとうまくいくケースがあります。特に、ライブラリーサイズが小さくなった場合は、シーケンサ内部のソフトで特有の配列が除去しきれずに残るケー...

fastqc memory error - java実行時により大きなメモリを割り当てる方法

bamファイルに対してfastqcを実行したら、メモリが足りないというエラーが発生しました。実行環境は十分にメモリーを積んでいたので、fastqc実行時のjavaのメモリーオプションを強制的に書き換えて実行したら、正常終了しました。とにかく...

FastQC 使い方 Fastq リードの評価

バイオインフォ道場、くまぞうです。バイオインフォマティクスの解析を行うにあたって、次世代シーケンサから得られたリード情報の品質をチェックすることはとても大事なことです。代表的なツールFastQCの使い方をまとめます。とにかく早く問題解決した...

FastQC 使い方コマンドラインでテキスト形式の結果を活用する

バイオインフォマティクスの解析を行う際、一番最初に行うのはリードの品質チェックです。代表的なツールはFastQCで結果を視覚的に確認できて非常に便利ですが、たくさんデータを使う場合はコマンドライン（command line）を活用して結果を...

FastQC - インストール

FastQCは、NGSのリードの品質をチェックするツールです。解析の直前で使用し、リードの品質に問題がなければ解析に進みます。もし、品質に問題があるようであれば、低品質の情報をトリミングツールで除去したり、対象となるデータを解析から外すなど...

blast 使い方完全一致の連続領域を探索するには？

blastn で完全一致の連続領域を探索する方法blastn オプション word_sizeblastnのパラメータ-word_sizeは、完全一致の初期長さを設定します。長さを指定すると、「完全一致が連続する場所」で「指定長さを満たす」部...

blast 使い方エラーと解決 tblastx

バイオインフォマティクスの解析では、様々なツールを使います。たまにはエラーに遭遇してしまい、解決するのに時間がかかったりします。BLASTは、大変使用頻度の高いツールの１つですが、見慣れないエラーに遭遇したので、エラーと対応方法をまとめます...

blast 使い方 makeblastdb

blastを実行するには、事前にデータベースを構築する必要があります。データベースの対象となるfastaファイルを準備し、makeblastdbコマンドを実行してデータベースを作ります。とにかく早く問題解決したい人はこちら＞＞直接、データ解...

blast+ 使い方 best hitの算出 awkとoutfmt7

blastはよく使うツールの１つです。色んな機能があるし、オプションもたくさんあるので使いこなすのが大変です。よく苦労するのが「best hitを１個だけ取り出す」ことですが、実は「outfmt7」を使うと簡単に得ることができます！使用した...

blast 使い方インストール blast+ v2.3.0

今回はblast+のインストールに挑戦です。プリコンパイル版です。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談インストールマニュアルに従い、プリコンパイル版をインストールします。場所# cd /usr/localダウンロード...

シェルスクリプト FASTAファイルの分割 fastx_toolkit, sed, コマンドの活用例

バイオインフォマティクスでは、大きなファイルを扱う機会が多いです。小さなファイルに分割すれば、サーバーで分散処理して大幅な時間短縮を行うことが出来るかもしれません。いくつかのツールを組合せてFASTAファイルを小さく分割してみます。とにかく...

bowtie メモリー関連のエラー Warning: Exhausted best-first chunk memory for read

bowtieを--bestモードで実行したところ、メモリーに関するワーニング（警告）が大量に表示されました。エラーではないので処理は進んでいくのですが、「マッピング結果に影響を与えないか？」という点がとても気になりました。そこで、--chu...

bowtie 使い方マッピングとオプション

bowtie は、代表的なマッピングソフトです。高速にマッピング処理を行うことが出来ます。ただし、ギャップは考慮しません。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談Bowtie - 使い方まずは、インデックスファイルを作る...

bowtie2 使い方アライメント情報（alignment summary）をファイルに保存する

bowtie2のアライメント情報（alignment summary）をファイル保存する方法について考えます。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談bowtie2 アライメント情報と標準エラー出力Linuxのコマンド結...

bowtie v1.1.2 - インストール

今回はbowtie v1.1.2のインストールに挑戦です。プリコンパイル版です。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談インストール場所cd /usr/localダウンロードwget 展開unzip bowtie-1.1...

bowtie2 v2.2.6 使い方インストール

今回はbowtie2 v2.2.6のインストールに挑戦です。プリコンパイル版です。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談インストールマニュアルに従い、プリコンパイル版をインストールします。cd /usr/localwg...

gffread を使った transcripts fasta 転写物の配列取得

ゲノム配列から転写物の配列を取得転写物（transcript）の配列を取得したい場合、染色体上の位置（開始位置〜終了位置）をたよりに配列情報を抜き出します。位置情報を管理する方法としてよく使われるのがGFF3やGTF形式のファイルです。領域...

VCFtools 使い方 VCFファイルからの抽出（BEDファイル対応領域）

SNP Callerには、通常、領域指定オプションがあります。しかし、既に算出されたVCFデータが領域外のデータを含む場合、領域を参照しながら整理し直すのは面倒な作業です。そんなとき、vcftoolsを使えば、計算した後からでも簡単に領域の...

SRA_Toolkit 使い方データ保存フォルダの変更

SRA Toolkiltのprefetchでデータをダウンロードする際の保存フォルダは変更可能です。vdb-configを使って設定します。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談SRA_toolkit デフォルトフォル...

SRA Toolkit 使い方公開データのダウンロードとsra fastq変換

公開されているFastqデータを活用したい場合は、SRA_toolkitを使うと便利です。データのダウンロードやFastqへの展開がコマンド１つで簡単に実行できます。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談SRA Too...

UCSCのゲノム配列ファイル .2bitファイルの展開

UCSCのゲノム配列ファイルは、.2bit形式で圧縮されているものがあります。「twoBitToFa」というツールを使って展開します。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談.2bit形式について塩基を２ビットで表現して...

fastx_toolkit 使い方 FastqからFastaへ変換

Fastq・Fastaファイルともに、バイオインフォマティクスで良く使うファイル形式です。FastqからFastaへ変換についてまとめます。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談FastqからFasta形式への変換よく...

FASTX-Toolkit 使い方インストール

FASTX-Toolkitは、次世代シーケンサのFASTA・FASTQの前処理に関連するツールを集めたものです。トリミングやクリッピング、クオリティ処理に関するツールが提供されています。インストール方法について手順を整理します。とにかく早く...

samtools 使い方 faidx Fastaから部分配列

塩基配列の変異に注目したSNP解析や配列パターンに注目した解析などでは、部分配列を抜き出して詳しく調べる場合があります。今回は、開始位置-終了位置を指定してFASTAファイルから注目する塩基配列の一部（部分配列）を取り出します。開始・終了の...

samtools 使い方 mpileup ( calling SNPs ) & annotation

samtoolsを使ったVariant callingについてまとめます。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談解析作業の流れマッピングCalling SNPsフィルタリングアノテーション付与主なツールCalling ...

samtools 使い方インストール

SAM tools のインストールについて、バージョン毎にまとめました。手順は同じ。指定バージョンを探すのが面倒なので、それぞれ整理しました。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談インストールインストール情報に従い、ダ...

hisat2 使い方 | index 作成

HISAT2のindexファイルを、hisat2-buildコマンドで自ら生成します。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談HISAT2は、高速かつ正確に次世代シーケンシング（NGS）データをリファレンスゲノムにマッピ...

HISAT2 使い方インストールとマッピング

HISAT2 インストールHISAT2のサイトにインストールが簡単なバイナリー版が準備してあるので、ダウンロードして使います。使用したのは、「Linux x86_64 binary」版です。HISAT2HISAT2 インストール手順# ホー...

SnpEff 使い方アノテーション

samtoolsなどで予測されたVariantに、snpEffを使ってアノテーションをつけてみます。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談snpEffsnpEffとは、予測されたVariantにアノテーションやその影響...

Miniconda 使い方 | インストールと環境作成・環境利用

Miniconda install公式サイトから、最新版 Miniconda installer（各OS毎）のシェルファイルをダウンロードします。Miniconda$ wget $ bash Miniconda3-latest-Linux-...

Trinity 使い方 RNA-seq de novo アセンブル

Trinityは、トランスクリプトーム解析で用いられる「de novo アセンブルツール」です。たくさんのメモリとマルチコアの環境を要求します。100万のペアエンドリードに対して1GB程度のメモリが推奨されています。とにかく早く問題解決した...

Trinity Docker 面倒な「install作業なし」で一発起動！

Trinityを、一番「簡単に動かす方法」だと思います。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談Trinity in Docker 使い方アセンブルツール Trinity（de novo transcriptome as...

Trinity v2.2.0, v2.4.0 インストール

Trinity v2.2.0、v2.4.0のインストールに挑戦です。ソースダウンロードして、make作業を行なってインストールします。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談インストールmake関連場所cd /usr/l...

Trinotate インストール | conda/biocondaを使って簡単インストール

trinotateは、trinityのアセンブル結果にアノテーションをつけるツールです。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談trinotate installTrinotate便利なツールなのですが、インストールが必...

fastp インストール・簡単な使い方・よく使うオプション

Fastqファイル用の高速前処理ツールです。クオリティの評価（トリミング前後）やトリミング処理を行います。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談fastp とは？fastp : fastp 使い方簡単な使い方シングルエ...

macs2 install & 使い方

MACS2、良く使われている ChIP-Seq 解析用の peak caller です。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談macs2色々なサイトで、macs2 のインストール方法や使い方がまとめられていますが、バー...

freebayes インストール簡単な使い方

freebayesは、代表的なSNP検出ツールの１つです。ベイズ的アプローチでIndelを検出します。インストールと簡単な使い方についてまとめます。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談freebayes とはこちらで...

htseq-count 使い方 gene単位・transcript単位の数え方

RNA-Seq解析では、ゲノムに張りついたリードの数を数えます。gene単位・transcript単位の数え方は、オプションで切り替えることができます。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談htseq-count 使い...

htseq-count 使い方よく使うオプション

htseq-countは、RNA-Seq解析などでゲノムに張りついたリードの数を数えるツールです。よく使うオプションをまとめます。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談htseq-count 使い方基本的な使い方hts...

HTSeq htseq-count 使い方インストール v0.7.2

htseq-countは、RNA-Seq解析などでリードをゲノムにマッピングしたとき、どこにどのくらい張り付いたかをカウントするプログラムです。HTSeqのインストールには、いくつか事前にインストールしておくべきものがあります。とにかく早く...

STAR RNA-seq aligner 使い方インストール・index・マッピング

STARは、RNA-Seq用のマッピングソフトです。非常に高速なマッピングが可能です。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談STARとは？STAR インストールダウンロードした圧縮ファイルにプリコンパイル版が含まれてい...

塩基配列の表示幅を調整する - Fastaファイルの整形 -

Fastaファイルの整形についてまとめます。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談フォーマットを整えるFASTX_Toolkitは、Fastq・Fasta形式のファイルについて前処理をしたり、ファイル整形をするのに便利...

Fastq Fasta ファイル形式

Fastq・Fastaファイルともに、良く使うファイル形式です。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談ファイル形式Fastq形式1本の配列は4行構成で記述されます。１行目：「@」で始まる配列のID。以降に、説明を記述す...

当ブログで掲載している画像の著作権・肖像権等は各権利所有者に帰属致します。権利を侵害する目的ではございません。記事の内容や掲載画像等に問題がございましたら、各権利所有者様本人が直接メールでご連絡下さい。確認後、対応させて頂きます。当ブログのコンテンツ・情報につきまして、可能な限り正確な情報を掲載するよう努めておりますが、誤情報が入り込んだり、情報が古くなっていることもございます。当ブログからリンクやバナーなどによって他のサイトに移動された場合、移動先サイトで提供される情報、サービス等について一切の責任を負いません。また、閲覧者が当ブログの情報を直接または間接に利用したことで被ったいかなる損害についても当サイト運営者は一切の責任を負いません。

タイトルとURLをコピーしました