Trinityは、トランスクリプトーム解析で用いられる「de novo アセンブルツール」です。たくさんのメモリとマルチコアの環境を要求します。100万のペアエンドリードに対して1GB程度のメモリが推奨されています。
Trinity を使った de novo assemble
基本的な使い方
- シングルエンドの場合
Trinity --seqType fq \ --single single.fq \ --max_memory 10G --CPU 6
- ペアエンドの場合
Trinity --seqType fq \ --left read_1.fastq --right read_2.fastq \ --max_memory 10G --CPU 6
よく用いられるオプション
- –CPU int
並列化するCPUの数。 - –max_memory string
Trinityでの使用メモリの上限。旧バージョンでは–JMとしていたパラメータかな? - –SS_lib_type string
strand specificなRNA-seqを使用した場合の方向指定。
RF・FR(ペアエンド)、F・R(シングルエンド)のように指定します。
デフォルトは、not strand-specific。 - –min_contig_length int
報告する際の、アセンブルされたコンティグ最小長さ。デフォルトは200。
Trinityアセンブル結果の評価
Contig Nx(N50)
Trinityのutilityを使って、アセンブル結果(trinity_out_dir/Trinity.fasta)からN50などの情報を得ることができます。
$TRINITY_HOME/util/TrinityStats.pl Trinity.fasta 出力例) ################################ ## Counts of transcripts, etc. ################################ Total trinity 'genes': 89999 Total trinity transcripts: 199999 Percent GC: 49.99 ######################################## Stats based on ALL transcript contigs: ######################################## Contig N10: 3999 Contig N20: 2999 Contig N30: 2999 Contig N40: 1999 Contig N50: 1599 Median contig length: 500 Average contig: 800.00 Total assembled bases: 100000000 ...続く...
より便利なContig ExN50
transcript abundance estimation作業のデータを使って、より便利なExN50の情報を得ることができます。アセンブル結果に含まれがちな、短く・低発現のコンティグ情報を理解するのに役立つかもしれません。
$TRINITY_HOME/util/misc/contig_ExN50_statistic.pl \ transcripts.TMM.EXPR.matrix Trinity.fasta | tee ExN50.stats 出力例) #E min_expr E-N50 num_transcripts E1 7189.679 285 2 E2 5155.110 558 4 E3 2699.540 558 8 E4 2194.672 1856 12 E5 2194.672 1856 17 E6 1787.996 1856 23 E7 1416.918 1843 31 E8 1243.634 1594 39 E9 1136.093 1843 48 E10 1136.093 1594 58 ... E50 59.416 1700 2808 ... E80 8.623 1928 16808 ... E90 2.355 1888 39602
ツール情報
RNA-Seq De novo Assembly Using Trinity
論文・データ解析の支援
個別に直接相談できるのが良いと、たくさんの方にご利用頂いています。
関連記事1
Trinity Docker 面倒な「install作業なし」で一発起動!
Trinityを、一番「簡単に動かす方法」だと思います。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 Trinity in Docker 使い方 アセンブルツール Trinity(de novo transcriptome...
Trinity v2.2.0, v2.4.0 インストール
Trinity v2.2.0、v2.4.0のインストールに挑戦です。 ソースダウンロードして、make作業を行なってインストールします。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 インストール make関連 場所 cd ...
関連記事2
IGV 使い方 遺伝子位置や好きな位置への移動
IGVはリードのマッピング状況を視覚的に確認できるツールです。ゲノムデータ(fastaファイル)とアライメントデータ(bamファイル、及びbaiファイル)を準備すれば簡単に表示できますが、更に遺伝子の位置情報を読み込むともっと使いやすくなり...
IGV 使い方 インストール〜便利な使い方まで | リファレンス・マッピングデータ・アノテーションを読み込んで表示しよう
IGV(Integrative Genomics Viewer)は、マッピングデータを視覚的に確認することができる大変便利なツールです。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 IGVとは IGVは、米Broad In...
IGV 使い方 bowtieのマッピングデータをsamtoolsで変換してIGVに表示するまで
IGVを使って、bowtieのマッピング結果表示してみます。samtoolsを使ったbamへの変換やsortなど、IGVの表示に必要なステップを1つずつ確認しながら説明します。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 ...
マッピング率が低いときの対応方法 - Trimmomatic 除去アダプターの登録方法
マッピング率が極端に低い場合は、使用しているシーケンサ特有のアダプター配列がリードに残っていないか確認するとうまくいくケースがあります。 特に、ライブラリーサイズが小さくなった場合は、シーケンサ内部のソフトで特有の配列が除去しきれずに残るケ...
fastqc memory error - java実行時により大きなメモリを割り当てる方法
bamファイルに対してfastqcを実行したら、メモリが足りないというエラーが発生しました。実行環境は十分にメモリーを積んでいたので、fastqc実行時のjavaのメモリーオプションを強制的に書き換えて実行したら、正常終了しました。 とにか...
FastQC 使い方 Fastq リードの評価
バイオインフォ道場、くまぞうです。 バイオインフォマティクスの解析を行うにあたって、次世代シーケンサから得られたリード情報の品質をチェックすることはとても大事なことです。代表的なツールFastQCの使い方をまとめます。 とにかく早く問題解決...
FastQC 使い方 コマンドラインでテキスト形式の結果を活用する
バイオインフォマティクスの解析を行う際、一番最初に行うのはリードの品質チェックです。代表的なツールはFastQCで結果を視覚的に確認できて非常に便利ですが、たくさんデータを使う場合はコマンドライン(command line)を活用して結果を...
FastQC - インストール
FastQCは、NGSのリードの品質をチェックするツールです。解析の直前で使用し、リードの品質に問題がなければ解析に進みます。もし、品質に問題があるようであれば、低品質の情報をトリミングツールで除去したり、対象となるデータを解析から外すなど...
blast 使い方 完全一致の連続領域を探索するには?
blastn で完全一致の連続領域を探索する方法 blastn オプション word_size blastnのパラメータ-word_sizeは、完全一致の初期長さを設定します。長さを指定すると、「完全一致が連続する場所」で「指定長さを満たす...
blast 使い方 エラーと解決 tblastx
バイオインフォマティクスの解析では、様々なツールを使います。たまにはエラーに遭遇してしまい、解決するのに時間がかかったりします。BLASTは、大変使用頻度の高いツールの1つですが、見慣れないエラーに遭遇したので、エラーと対応方法をまとめます...
blast 使い方 makeblastdb
blastを実行するには、事前にデータベースを構築する必要があります。データベースの対象となるfastaファイルを準備し、makeblastdbコマンドを実行してデータベースを作ります。 とにかく早く問題解決したい人はこちら>>直接、データ...
blast+ 使い方 best hitの算出 awkとoutfmt7
blastはよく使うツールの1つです。色んな機能があるし、オプションもたくさんあるので使いこなすのが大変です。よく苦労するのが「best hitを1個だけ取り出す」ことですが、実は「outfmt7」を使うと簡単に得ることができます!使用した...
blast 使い方 インストール blast+ v2.3.0
今回はblast+のインストールに挑戦です。プリコンパイル版です。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 インストール マニュアルに従い、プリコンパイル版をインストールします。 場所 # cd /usr/local ...
シェルスクリプト FASTAファイルの分割 fastx_toolkit, sed, コマンドの活用例
バイオインフォマティクスでは、大きなファイルを扱う機会が多いです。小さなファイルに分割すれば、サーバーで分散処理して大幅な時間短縮を行うことが出来るかもしれません。いくつかのツールを組合せてFASTAファイルを小さく分割してみます。 とにか...
bowtie メモリー関連のエラー Warning: Exhausted best-first chunk memory for read
bowtieを--bestモードで実行したところ、メモリーに関するワーニング(警告)が大量に表示されました。エラーではないので処理は進んでいくのですが、「マッピング結果に影響を与えないか?」という点がとても気になりました。そこで、--chu...
bowtie 使い方 マッピングとオプション
bowtie は、代表的なマッピングソフトです。高速にマッピング処理を行うことが出来ます。ただし、ギャップは考慮しません。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 Bowtie - 使い方 まずは、インデックスファイル...
bowtie2 使い方 アライメント情報(alignment summary)をファイルに保存する
bowtie2のアライメント情報(alignment summary)をファイル保存する方法について考えます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 bowtie2 アライメント情報と標準エラー出力 Linuxのコマ...
bowtie v1.1.2 - インストール
今回はbowtie v1.1.2のインストールに挑戦です。プリコンパイル版です。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 インストール 場所 cd /usr/local ダウンロード wget 展開 unzip bow...
bowtie2 v2.2.6 使い方 インストール
今回はbowtie2 v2.2.6のインストールに挑戦です。プリコンパイル版です。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 インストール マニュアルに従い、プリコンパイル版をインストールします。 cd /usr/loc...
gffread を使った transcripts fasta 転写物の配列取得
ゲノム配列から転写物の配列を取得 転写物(transcript)の配列を取得したい場合、染色体上の位置(開始位置〜終了位置)をたよりに配列情報を抜き出します。位置情報を管理する方法としてよく使われるのがGFF3やGTF形式のファイルです。領...
VCFtools 使い方 VCFファイルからの抽出(BEDファイル対応領域)
SNP Callerには、通常、領域指定オプションがあります。しかし、既に算出されたVCFデータが領域外のデータを含む場合、領域を参照しながら整理し直すのは面倒な作業です。そんなとき、vcftoolsを使えば、計算した後からでも簡単に領域の...
tophat2 使い方 エラーと対策
tophat2でマッピングしていたらエラー終了しました。一応解決したので報告します。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 Tophat2 マッピングで発生したエラー tophat2のマッピングをバックグラウンドで実...
tophat2 使い方 RNA-Seq マッピング
今回は、tophat2を使って、RNA-seqデータのマッピングに挑戦です。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 tophat2とは tophat2は、代表的なマッピングツールの1つです。RNA-Seqのデータをス...
tophat2 v2.1.0 - インストール
今回は、Tophat2 v2.1.0 のインストールに挑戦です。プリコンパイル版です。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 準備 Tophat2が内部で利用する解析ツールを事前にインストールします。 bowtie2...
SRA_Toolkit 使い方 データ保存フォルダの変更
SRA Toolkiltのprefetchでデータをダウンロードする際の保存フォルダは変更可能です。vdb-configを使って設定します。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 SRA_toolkit デフォルトフ...
SRA Toolkit 使い方 公開データのダウンロードとsra fastq変換
公開されているFastqデータを活用したい場合は、SRA_toolkitを使うと便利です。データのダウンロードやFastqへの展開がコマンド1つで簡単に実行できます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 SRA T...
UCSCのゲノム配列ファイル .2bitファイルの展開
UCSCのゲノム配列ファイルは、.2bit形式で圧縮されているものがあります。「twoBitToFa」というツールを使って展開します。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 .2bit形式について 塩基を2ビットで表...
fastx_toolkit 使い方 FastqからFastaへ変換
Fastq・Fastaファイルともに、バイオインフォマティクスで良く使うファイル形式です。 FastqからFastaへ変換についてまとめます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 FastqからFasta形式への変...
FASTX-Toolkit 使い方 インストール
FASTX-Toolkitは、次世代シーケンサのFASTA・FASTQの前処理に関連するツールを集めたものです。 トリミングやクリッピング、クオリティ処理に関するツールが提供されています。 インストール方法について手順を整理します。 とにか...
samtools 使い方 faidx Fastaから部分配列
塩基配列の変異に注目したSNP解析や配列パターンに注目した解析などでは、部分配列を抜き出して詳しく調べる場合があります。 今回は、開始位置-終了位置を指定してFASTAファイルから注目する塩基配列の一部(部分配列)を取り出します。 開始・終...
samtools 使い方 mpileup ( calling SNPs ) & annotation
samtoolsを使ったVariant callingについてまとめます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 解析作業の流れ マッピングCalling SNPsフィルタリングアノテーション付与 主なツール Cal...
samtools 使い方 インストール
SAM tools のインストールについて、バージョン毎にまとめました。 手順は同じ。指定バージョンを探すのが面倒なので、それぞれ整理しました。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 インストール インストール情報に...
hisat2 使い方 | index 作成
HISAT2のindexファイルを、hisat2-buildコマンドで自ら生成します。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 HISAT2は、高速かつ正確に次世代シーケンシング(NGS)データをリファレンスゲノムにマ...
HISAT2 使い方 インストールとマッピング
HISAT2 インストール HISAT2のサイトにインストールが簡単なバイナリー版が準備してあるので、ダウンロードして使います。使用したのは、「Linux x86_64 binary」版です。 HISAT2 HISAT2 インストール手順 ...
SnpEff 使い方 アノテーション
samtoolsなどで予測されたVariantに、snpEffを使ってアノテーションをつけてみます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 snpEff snpEffとは、予測されたVariantにアノテーションやそ...
Miniconda 使い方 | インストール と 環境作成・環境利用
Miniconda install 公式サイトから、最新版 Miniconda installer(各OS毎)のシェルファイルをダウンロードします。 Miniconda $ wget $ bash Miniconda3-latest-Lin...
Trinotate インストール | conda/biocondaを使って簡単インストール
trinotateは、trinityのアセンブル結果にアノテーションをつけるツールです。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 trinotate install Trinotate 便利なツールなのですが、インスト...
fastp インストール・簡単な使い方・よく使うオプション
Fastqファイル用の高速前処理ツールです。クオリティの評価(トリミング前後)やトリミング処理を行います。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 fastp とは? fastp : fastp 使い方 簡単な使い方 ...
macs2 install & 使い方
MACS2、良く使われている ChIP-Seq 解析用の peak caller です。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 macs2 色々なサイトで、macs2 のインストール方法や使い方がまとめられていますが...
freebayes インストール 簡単な使い方
freebayesは、代表的なSNP検出ツールの1つです。 ベイズ的アプローチでIndelを検出します。インストールと簡単な使い方についてまとめます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 freebayes とは ...
htseq-count 使い方 gene単位・transcript単位の数え方
RNA-Seq解析では、ゲノムに張りついたリードの数を数えます。 gene単位・transcript単位の数え方は、オプションで切り替えることができます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 htseq-count...
htseq-count 使い方 よく使うオプション
htseq-countは、RNA-Seq解析などでゲノムに張りついたリードの数を数えるツールです。 よく使うオプションをまとめます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 htseq-count 使い方 基本的な使い...
HTSeq htseq-count 使い方 インストール v0.7.2
htseq-countは、RNA-Seq解析などでリードをゲノムにマッピングしたとき、どこにどのくらい張り付いたかをカウントするプログラムです。 HTSeqのインストールには、いくつか事前にインストールしておくべきものがあります。 とにかく...
STAR RNA-seq aligner 使い方 インストール・index・マッピング
STARは、RNA-Seq用のマッピングソフトです。 非常に高速なマッピングが可能です。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 STARとは? STAR インストール ダウンロードした圧縮ファイルにプリコンパイル版が...
塩基配列の表示幅を調整する - Fastaファイルの整形 -
Fastaファイルの整形についてまとめます。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 フォーマットを整える FASTX_Toolkitは、Fastq・Fasta形式のファイルについて前処理をしたり、ファイル整形をするの...
Fastq Fasta ファイル形式
Fastq・Fastaファイルともに、良く使うファイル形式です。 とにかく早く問題解決したい人はこちら>>直接、データ解析相談 ファイル形式 Fastq形式 1本の配列は4行構成で記述されます。 1行目:「@」で始まる配列のID。以降に、説...