Trinity 使い方 RNA-seq de novo アセンブル

Trinityは、トランスクリプトーム解析で用いられる「de novo アセンブルツール」です。たくさんのメモリとマルチコアの環境を要求します。100万のペアエンドリードに対して1GB程度のメモリが推奨されています。

スポンサーリンク



Trinity を使った de novo assemble

基本的な使い方

  • シングルエンドの場合
    Trinity --seqType fq \
             --single single.fq \
             --max_memory 10G --CPU 6
  • ペアエンドの場合
    Trinity --seqType fq \
             --left read_1.fastq --right read_2.fastq \
             --max_memory 10G --CPU 6

よく用いられるオプション

  • –CPU int
    並列化するCPUの数。
  • –max_memory string
    Trinityでの使用メモリの上限。旧バージョンでは–JMとしていたパラメータかな?
  • –SS_lib_type string
    strand specificなRNA-seqを使用した場合の方向指定。
    RF・FR(ペアエンド)、F・R(シングルエンド)のように指定します。
    デフォルトは、not strand-specific。
  • –min_contig_length int
    報告する際の、アセンブルされたコンティグ最小長さ。デフォルトは200。

Trinityアセンブル結果の評価

Contig Nx(N50)

Trinityのutilityを使って、アセンブル結果(trinity_out_dir/Trinity.fasta)からN50などの情報を得ることができます。

$TRINITY_HOME/util/TrinityStats.pl Trinity.fasta

出力例)
################################
## Counts of transcripts, etc.
################################
Total trinity 'genes':	89999
Total trinity transcripts:	199999
Percent GC: 49.99

########################################
Stats based on ALL transcript contigs:
########################################

	Contig N10: 3999
	Contig N20: 2999
	Contig N30: 2999
	Contig N40: 1999
	Contig N50: 1599

	Median contig length: 500
	Average contig: 800.00
	Total assembled bases: 100000000
...続く...

より便利なContig ExN50

transcript abundance estimation作業のデータを使って、より便利なExN50の情報を得ることができます。アセンブル結果に含まれがちな、短く・低発現のコンティグ情報を理解するのに役立つかもしれません。

$TRINITY_HOME/util/misc/contig_ExN50_statistic.pl \
     transcripts.TMM.EXPR.matrix Trinity.fasta | tee ExN50.stats

出力例)
#E	min_expr  E-N50 num_transcripts
E1	7189.679  285	2
E2	5155.110  558	4
E3	2699.540  558	8
E4	2194.672  1856	12
E5	2194.672  1856	17
E6	1787.996  1856	23
E7	1416.918  1843	31
E8	1243.634  1594	39
E9	1136.093  1843	48
E10	1136.093  1594	58
...
E50	  59.416  1700	2808
...
E80	   8.623  1928	16808
...
E90	   2.355  1888	39602

ツール情報

RNA-Seq De novo Assembly Using Trinity

スポンサーリンク





カテゴリー

今週よく読まれている記事

  1. 学会・会議で英語が絶望的にできなくて困るケース | オンライン開催で「英語力のなさ」を痛感した場合の対処法

    学会・会議で英語ができなくてに困るケース学会やイベント・会議などが、オンラインで開催される…
  2. r tidyverse 使い方 | 列 filter 絞り込み select関数 – dplyrパッケージ

    tidyverseで1つのデータフレームの列の絞り込みは、dplyrパッケージのselect関数を…
  3. プログラミングで疲れた脳をリフレッシュ 〜 鬼滅の刃「感動」と「やる気アップ」でストレス発散!

    ストレス発散は鬼滅で。「50%OFF」で読む!脳のパフォーマンスを上げるには、適度な休憩と…
  4. AWS ディスク容量不足 新しいボリュームを追加する

    バイオインフォマティクスでは大きなファイルを扱うことがあるので、ディスク不足に陥ることがあります。…
  5. 「知っている」と「知らない」とでは、もしものとき、大違いになる – コロナうつ対策

    コロナうつなどという言葉を聞くようになりましたが、派遣切り、解雇、リストラは、これから本格化します…

人気記事

  1. Excel, 統計

    z-score 計算方法 エクセル(Excel) 編
    統計処理で、大きく変化しているなどの判断基準にも使われる値…
  2. R言語

    R subset関数 データフレームやmatrixからの条件指定による行・列の抽出
    R の subset関数は、データフレームやマトリックスか…
  3. IGV, 解析ツール

    IGV 使い方 インストール〜便利な使い方まで | リファレンス・マッピングデータ・アノテーションを読み込んで表示しよう
    IGV(Integrative Genomics View…

おすすめ記事

  1. awk, シェルスクリプト

    bash 部分文字列・置換・長さ・連結・分割の文字列処理
    bashのよく使う文字列処理、部分文字列・置換・連結・長さ…
  2. シェルスクリプト

    シェルスクリプト | ファイル存在チェック・空ファイルチェック
    bashでスクリプトを作成するときに、よく使うのがファイル…
  3. R言語, グラフ

    R 使い方 軸・ラベルの調整(向き・サイズ・色など) グラフの描き方
    Rによるplot(グラフ)の描画は、手軽で大変便利です。た…