Trinity 使い方 RNA-seq de novo アセンブル

Trinityは、トランスクリプトーム解析で用いられる「de novo アセンブルツール」です。たくさんのメモリとマルチコアの環境を要求します。100万のペアエンドリードに対して1GB程度のメモリが推奨されています。

スポンサーリンク



Trinity を使った de novo assemble

基本的な使い方

  • シングルエンドの場合
    Trinity --seqType fq \
             --single single.fq \
             --max_memory 10G --CPU 6
  • ペアエンドの場合
    Trinity --seqType fq \
             --left read_1.fastq --right read_2.fastq \
             --max_memory 10G --CPU 6

よく用いられるオプション

  • –CPU int
    並列化するCPUの数。
  • –max_memory string
    Trinityでの使用メモリの上限。旧バージョンでは–JMとしていたパラメータかな?
  • –SS_lib_type string
    strand specificなRNA-seqを使用した場合の方向指定。
    RF・FR(ペアエンド)、F・R(シングルエンド)のように指定します。
    デフォルトは、not strand-specific。
  • –min_contig_length int
    報告する際の、アセンブルされたコンティグ最小長さ。デフォルトは200。

Trinityアセンブル結果の評価

Contig Nx(N50)

Trinityのutilityを使って、アセンブル結果(trinity_out_dir/Trinity.fasta)からN50などの情報を得ることができます。

$TRINITY_HOME/util/TrinityStats.pl Trinity.fasta

出力例)
################################
## Counts of transcripts, etc.
################################
Total trinity 'genes':	89999
Total trinity transcripts:	199999
Percent GC: 49.99

########################################
Stats based on ALL transcript contigs:
########################################

	Contig N10: 3999
	Contig N20: 2999
	Contig N30: 2999
	Contig N40: 1999
	Contig N50: 1599

	Median contig length: 500
	Average contig: 800.00
	Total assembled bases: 100000000
...続く...

より便利なContig ExN50

transcript abundance estimation作業のデータを使って、より便利なExN50の情報を得ることができます。アセンブル結果に含まれがちな、短く・低発現のコンティグ情報を理解するのに役立つかもしれません。

$TRINITY_HOME/util/misc/contig_ExN50_statistic.pl \
     transcripts.TMM.EXPR.matrix Trinity.fasta | tee ExN50.stats

出力例)
#E	min_expr  E-N50 num_transcripts
E1	7189.679  285	2
E2	5155.110  558	4
E3	2699.540  558	8
E4	2194.672  1856	12
E5	2194.672  1856	17
E6	1787.996  1856	23
E7	1416.918  1843	31
E8	1243.634  1594	39
E9	1136.093  1843	48
E10	1136.093  1594	58
...
E50	  59.416  1700	2808
...
E80	   8.623  1928	16808
...
E90	   2.355  1888	39602

ツール情報

RNA-Seq De novo Assembly Using Trinity

スポンサーリンク





ピックアップ記事

  1. awk for 繰り返し処理 簡単なサンプルでわかる インクリメント・デクリメント、変わった繰り返し

    awkのfor文は、カウンタを目印にして処理を繰り返したいときによく使われます。for文では、カウ…
  2. R plot 重ねる方法3パターン サンプルでわかるRの使い方

    Rでグラフ (plot) を重ねる方法は、「単純な追加」「図に重ねて描画」「濃淡で重なり表現」の3…
  3. awk split サンプルでわかる列の分割とセパレータ(文字・正規表現)の指定方法

    awkのsplit関数は、セパレータを指定して文字列を分割することができます。セパレータには文字や…

人気記事

  1. IGV, 解析ツール

    IGV 使い方 インストール〜便利な使い方まで | リファレンス・マッピングデータ・アノテーションを読み込んで表示しよう
    IGV(Integrative Genomics View…
  2. R データ型 - 文字列・ベクター・データフレーム・マトリックス など-, R言語, スクリプト

    R subset関数 データフレームやmatrixからの条件指定による行・列の抽出
    R の subset関数は、データフレームやマトリックスか…
  3. Excel, その他, 統計

    z-score 計算方法 エクセル(Excel) 編
    統計処理で、大きく変化しているなどの判断基準にも使われる値…

おすすめ記事

  1. awk, bash 文字列操作, シェルスクリプト

    bash 部分文字列・置換・長さ・連結・分割の文字列処理
    bashのよく使う文字列処理、部分文字列・置換・連結・長さ…
  2. R言語, グラフ

    R 使い方 軸・ラベルの調整(向き・サイズ・色など) グラフの描き方
    Rによるplot(グラフ)の描画は、手軽で大変便利です。た…
  3. bash 応用, シェルスクリプト

    シェル スクリプト ファイル存在チェック・空のファイルチェック
    bashでスクリプトを作成するときに、よく使うのがファイル…