FastQC 使い方 Fastq リードの評価

スポンサーリンク

バイオインフォ道場、くまぞうです。

バイオインフォマティクスの解析を行うにあたって、次世代シーケンサから得られたリード情報の品質をチェックすることはとても大事なことです。代表的なツールFastQCの使い方をまとめます。

とにかく早く問題解決したい人はこちら>>直接、データ解析相談

リードの評価

一般的に、リードの評価については以下のようなことに着目します。

  • 塩基の品質
  • リードの長さ
  • 特定配列の残存(アダプター配列・PolyA/T tail・N)
  • 対象外の配列の混入
  • PCRによるDuplicate

FastQCによるリードの評価

FastQCについて

次世代シーケンサから得られたリード情報の品質をチェックするツールです。FastQCから得た評価を基に、トリミング処理や除外処理などを行なって、リードの品質管理を行います。

関連事項

FastQCでは、リードの品質について複数の基準をもうけていて、それぞれが基準を満たしたかを評価します。結果は、fastqファイル毎にまとめられます。テキスト(summary・詳細)とHTML形式の結果が格納されます。HTML形式は、ブラウザでグラフを確認することができます。

評価結果

  • 評価結果一覧(summary.txt)
  • 評価とデータ:テキスト(fastqc_data.txt)
  • 評価とデータ:HTML・グラフ(fastqc_report.html、データ群)

品質評価

下記の項目について、品質評価が行われます。バージョンによって項目が少し異なります。今回まとめたのは、FastQC v0.11.5です。PASSが問題なし、WARNFAILが確認・対処が必要な項目です。

左から、評価・評価項目・対象Fastqファイル名です(summary.txt)。

PASS    Basic Statistics                sample1.fastq
PASS    Per base sequence quality       sample1.fastq
PASS    Per tile sequence quality       sample1.fastq
PASS    Per sequence quality scores     sample1.fastq
PASS    Per base sequence content       sample1.fastq
PASS    Per sequence GC content         sample1.fastq
PASS    Per base N content              sample1.fastq
PASS    Sequence Length Distribution    sample1.fastq
FAIL    Sequence Duplication Levels     sample1.fastq
PASS    Overrepresented sequences       sample1.fastq
PASS    Adapter Content                 sample1.fastq
FAIL    Kmer Content                    sample1.fastq

評価結果については、必ず「評価項目の全てにPASSしないといけない」というわけではありません。対象とする解析内容と照らしあわせて、必要な項目をチェックします。例えば、塩基の品質「Per base sequence quality」では何れの解析でも「PASS」になる方が望ましいし、リードの重複度合いを示す「Sequence Duplication Levels」ではRNA-Seqで発現解析を行う場合は必ずしも「PASS」にはならないと思います。

評価項目

評価の詳細やWarning・Failの判断基準について、FastQCのサイトに説明があります。(評価方法

  • Basic Statistics

    ファイル・リードの基本情報です。

  • Per Base Sequence Quality・Per tile Sequence Quality

    リードの位置における品質のばらつきを確認します。
    品質の低い部位はトリミングや除去の対象になるかもしれません。

  • Per Sequence Quality Scores

    品質が安定しているかを確認します。
    品質に明らかな変動がないかチェックしましょう。

  • Per Base Sequence Content・Per Sequence GC Content

    リードの各塩基・GCの割合です。
    既知の理由以外で、割合が大きく変化する場合は、対象外の断片が含まれるかもしれません。

  • Per Base N Content

    ATGC以外の「N」の割合です。

  • Sequence Length Distribution

    リード長の分布です。短すぎるリードは除外の対象になるかもしれません。

  • Sequence Duplication Levels

    リードの重複の程度をチェックします。解析内容や他の指標と併せて判断しましょう。

  • Overrepresented Sequences

    異常にたくさん見つかる配列に、アダプターや特定のタグ・対象外の断片などが含まれないかチェックします。

  • Adapter Content

    シーケンサーの特定のアダプターが残存・混入していないかをチェックします。

  • Kmer Content

    解析によっては、理論値から大きく乖離して出現する特徴的配列に注意が必要かもしれません。
    他の指標と併せて判断しましょう。

評価の例

FastQCのサイトに、FastQCを用いて評価した様々なデータ例があります。とても参考になるので、自分のデータと見比べてみましょう。(サイト中央付近:Example Reports

FastQCの使い方

必要に応じて各種オプションを付与し、評価すべきfastqファイルを指定します。ファイルの指定にはワイルドカードを指定できるので、データファイルを一括で指定するのに便利です。尚、gz形式でファイルが圧縮されていても使うことができます。fastqファイルは圧縮されている場合もあるので、いちいち解凍しなくて良いので便利です。

使い方

fastqc -t 4 -o fastqc_results/ *.fastq

良く使うオプション

  • -t

    スレッドの使用数です。
    マシンの性能に応じて適切に指定します。コア数が多いと、早く結果を得ることができます。

  • -o

    結果の出力先フォルダです。
    指定した場合、フォルダが存在しないとエラーになります。

論文・データ解析の支援

個別に直接相談できるのが良いと、たくさんの方にご利用頂いています。

とにかく早く問題解決したい人はこちら>>直接、データ解析相談
とにかく早く問題解決したい人はこちら>>直接、論文相談

関連記事1

fastqc memory error - java実行時により大きなメモリを割り当てる方法
bamファイルに対してfastqcを実行したら、メモリが足りないというエラーが発生しました。実行環境は十分にメモリーを積んでいたので、fastqc実行時のjavaのメモリーオプションを強制的に書き換えて実行したら、正常終了しました。とにかく...
FastQC 使い方 コマンドラインでテキスト形式の結果を活用する
バイオインフォマティクスの解析を行う際、一番最初に行うのはリードの品質チェックです。代表的なツールはFastQCで結果を視覚的に確認できて非常に便利ですが、たくさんデータを使う場合はコマンドライン(command line)を活用して結果を...
FastQC - インストール
FastQCは、NGSのリードの品質をチェックするツールです。解析の直前で使用し、リードの品質に問題がなければ解析に進みます。もし、品質に問題があるようであれば、低品質の情報をトリミングツールで除去したり、対象となるデータを解析から外すなど...

関連記事2

IGV 使い方 遺伝子位置や好きな位置への移動
IGVはリードのマッピング状況を視覚的に確認できるツールです。ゲノムデータ(fastaファイル)とアライメントデータ(bamファイル、及びbaiファイル)を準備すれば簡単に表示できますが、更に遺伝子の位置情報を読み込むともっと使いやすくなり...
IGV 使い方 インストール〜便利な使い方まで | リファレンス・マッピングデータ・アノテーションを読み込んで表示しよう
IGV(Integrative Genomics Viewer)は、マッピングデータを視覚的に確認することができる大変便利なツールです。とにかく早く問題解決したい人はこちら>>直接、データ解析相談IGVとはIGVは、米Broad Insti...
IGV 使い方 bowtieのマッピングデータをsamtoolsで変換してIGVに表示するまで
IGVを使って、bowtieのマッピング結果表示してみます。samtoolsを使ったbamへの変換やsortなど、IGVの表示に必要なステップを1つずつ確認しながら説明します。とにかく早く問題解決したい人はこちら>>直接、データ解析相談bo...
マッピング率が低いときの対応方法 - Trimmomatic 除去アダプターの登録方法
マッピング率が極端に低い場合は、使用しているシーケンサ特有のアダプター配列がリードに残っていないか確認するとうまくいくケースがあります。特に、ライブラリーサイズが小さくなった場合は、シーケンサ内部のソフトで特有の配列が除去しきれずに残るケー...
blast 使い方 完全一致の連続領域を探索するには?
blastn で完全一致の連続領域を探索する方法blastn オプション word_sizeblastnのパラメータ-word_sizeは、完全一致の初期長さを設定します。長さを指定すると、「完全一致が連続する場所」で「指定長さを満たす」部...
blast 使い方 エラーと解決 tblastx
バイオインフォマティクスの解析では、様々なツールを使います。たまにはエラーに遭遇してしまい、解決するのに時間がかかったりします。BLASTは、大変使用頻度の高いツールの1つですが、見慣れないエラーに遭遇したので、エラーと対応方法をまとめます...
blast 使い方 makeblastdb
blastを実行するには、事前にデータベースを構築する必要があります。データベースの対象となるfastaファイルを準備し、makeblastdbコマンドを実行してデータベースを作ります。とにかく早く問題解決したい人はこちら>>直接、データ解...
blast+ 使い方 best hitの算出 awkとoutfmt7
blastはよく使うツールの1つです。色んな機能があるし、オプションもたくさんあるので使いこなすのが大変です。よく苦労するのが「best hitを1個だけ取り出す」ことですが、実は「outfmt7」を使うと簡単に得ることができます!使用した...
blast 使い方 インストール blast+ v2.3.0
今回はblast+のインストールに挑戦です。プリコンパイル版です。とにかく早く問題解決したい人はこちら>>直接、データ解析相談インストールマニュアルに従い、プリコンパイル版をインストールします。場所# cd /usr/localダウンロード...
シェルスクリプト FASTAファイルの分割 fastx_toolkit, sed, コマンドの活用例
バイオインフォマティクスでは、大きなファイルを扱う機会が多いです。小さなファイルに分割すれば、サーバーで分散処理して大幅な時間短縮を行うことが出来るかもしれません。いくつかのツールを組合せてFASTAファイルを小さく分割してみます。とにかく...
bowtie メモリー関連のエラー Warning: Exhausted best-first chunk memory for read
bowtieを--bestモードで実行したところ、メモリーに関するワーニング(警告)が大量に表示されました。エラーではないので処理は進んでいくのですが、「マッピング結果に影響を与えないか?」という点がとても気になりました。そこで、--chu...
bowtie 使い方 マッピングとオプション
bowtie は、代表的なマッピングソフトです。高速にマッピング処理を行うことが出来ます。ただし、ギャップは考慮しません。とにかく早く問題解決したい人はこちら>>直接、データ解析相談Bowtie - 使い方まずは、インデックスファイルを作る...
bowtie2 使い方 アライメント情報(alignment summary)をファイルに保存する
bowtie2のアライメント情報(alignment summary)をファイル保存する方法について考えます。とにかく早く問題解決したい人はこちら>>直接、データ解析相談bowtie2 アライメント情報と標準エラー出力Linuxのコマンド結...
bowtie v1.1.2 - インストール
今回はbowtie v1.1.2のインストールに挑戦です。プリコンパイル版です。とにかく早く問題解決したい人はこちら>>直接、データ解析相談インストール場所cd /usr/localダウンロードwget 展開unzip bowtie-1.1...
bowtie2 v2.2.6 使い方 インストール
今回はbowtie2 v2.2.6のインストールに挑戦です。プリコンパイル版です。とにかく早く問題解決したい人はこちら>>直接、データ解析相談インストールマニュアルに従い、プリコンパイル版をインストールします。cd /usr/localwg...
gffread を使った transcripts fasta 転写物の配列取得
ゲノム配列から転写物の配列を取得転写物(transcript)の配列を取得したい場合、染色体上の位置(開始位置〜終了位置)をたよりに配列情報を抜き出します。位置情報を管理する方法としてよく使われるのがGFF3やGTF形式のファイルです。領域...
VCFtools 使い方 VCFファイルからの抽出(BEDファイル対応領域)
SNP Callerには、通常、領域指定オプションがあります。しかし、既に算出されたVCFデータが領域外のデータを含む場合、領域を参照しながら整理し直すのは面倒な作業です。そんなとき、vcftoolsを使えば、計算した後からでも簡単に領域の...
htseq-count 使い方 gene単位・transcript単位の数え方
RNA-Seq解析では、ゲノムに張りついたリードの数を数えます。gene単位・transcript単位の数え方は、オプションで切り替えることができます。とにかく早く問題解決したい人はこちら>>直接、データ解析相談htseq-count 使い...
tophat2 使い方 エラーと対策
tophat2でマッピングしていたらエラー終了しました。一応解決したので報告します。とにかく早く問題解決したい人はこちら>>直接、データ解析相談Tophat2 マッピングで発生したエラーtophat2のマッピングをバックグラウンドで実行した...
tophat2 使い方 RNA-Seq マッピング
今回は、tophat2を使って、RNA-seqデータのマッピングに挑戦です。とにかく早く問題解決したい人はこちら>>直接、データ解析相談tophat2とはtophat2は、代表的なマッピングツールの1つです。RNA-Seqのデータをスプライ...
tophat2 v2.1.0 - インストール
今回は、Tophat2 v2.1.0 のインストールに挑戦です。プリコンパイル版です。とにかく早く問題解決したい人はこちら>>直接、データ解析相談準備Tophat2が内部で利用する解析ツールを事前にインストールします。bowtie2samt...
SRA_Toolkit 使い方 データ保存フォルダの変更
SRA Toolkiltのprefetchでデータをダウンロードする際の保存フォルダは変更可能です。vdb-configを使って設定します。とにかく早く問題解決したい人はこちら>>直接、データ解析相談SRA_toolkit デフォルトフォル...
SRA Toolkit 使い方 公開データのダウンロードとsra fastq変換
公開されているFastqデータを活用したい場合は、SRA_toolkitを使うと便利です。データのダウンロードやFastqへの展開がコマンド1つで簡単に実行できます。とにかく早く問題解決したい人はこちら>>直接、データ解析相談SRA Too...
UCSCのゲノム配列ファイル .2bitファイルの展開
UCSCのゲノム配列ファイルは、.2bit形式で圧縮されているものがあります。「twoBitToFa」というツールを使って展開します。とにかく早く問題解決したい人はこちら>>直接、データ解析相談.2bit形式について塩基を2ビットで表現して...
fastx_toolkit 使い方 FastqからFastaへ変換
Fastq・Fastaファイルともに、バイオインフォマティクスで良く使うファイル形式です。FastqからFastaへ変換についてまとめます。とにかく早く問題解決したい人はこちら>>直接、データ解析相談FastqからFasta形式への変換よく...
FASTX-Toolkit 使い方 インストール
FASTX-Toolkitは、次世代シーケンサのFASTA・FASTQの前処理に関連するツールを集めたものです。トリミングやクリッピング、クオリティ処理に関するツールが提供されています。インストール方法について手順を整理します。とにかく早く...
samtools 使い方 faidx Fastaから部分配列
塩基配列の変異に注目したSNP解析や配列パターンに注目した解析などでは、部分配列を抜き出して詳しく調べる場合があります。今回は、開始位置-終了位置を指定してFASTAファイルから注目する塩基配列の一部(部分配列)を取り出します。開始・終了の...
samtools 使い方 mpileup ( calling SNPs ) & annotation
samtoolsを使ったVariant callingについてまとめます。とにかく早く問題解決したい人はこちら>>直接、データ解析相談解析作業の流れマッピングCalling SNPsフィルタリングアノテーション付与主なツールCalling ...
samtools 使い方 インストール
SAM tools のインストールについて、バージョン毎にまとめました。手順は同じ。指定バージョンを探すのが面倒なので、それぞれ整理しました。とにかく早く問題解決したい人はこちら>>直接、データ解析相談インストールインストール情報に従い、ダ...
hisat2 使い方 | index 作成
HISAT2のindexファイルを、hisat2-buildコマンドで自ら生成します。とにかく早く問題解決したい人はこちら>>直接、データ解析相談HISAT2は、高速かつ正確に次世代シーケンシング(NGS)データをリファレンスゲノムにマッピ...
HISAT2 使い方 インストールとマッピング
HISAT2 インストールHISAT2のサイトにインストールが簡単なバイナリー版が準備してあるので、ダウンロードして使います。使用したのは、「Linux x86_64 binary」版です。HISAT2HISAT2 インストール手順# ホー...
SnpEff 使い方 アノテーション
samtoolsなどで予測されたVariantに、snpEffを使ってアノテーションをつけてみます。とにかく早く問題解決したい人はこちら>>直接、データ解析相談snpEffsnpEffとは、予測されたVariantにアノテーションやその影響...
Miniconda 使い方 | インストール と 環境作成・環境利用
Miniconda install公式サイトから、最新版 Miniconda installer(各OS毎)のシェルファイルをダウンロードします。Miniconda$ wget $ bash Miniconda3-latest-Linux-...
Trinity 使い方 RNA-seq de novo アセンブル
Trinityは、トランスクリプトーム解析で用いられる「de novo アセンブルツール」です。たくさんのメモリとマルチコアの環境を要求します。100万のペアエンドリードに対して1GB程度のメモリが推奨されています。とにかく早く問題解決した...
Trinity Docker 面倒な「install作業なし」で一発起動!
Trinityを、一番「簡単に動かす方法」だと思います。とにかく早く問題解決したい人はこちら>>直接、データ解析相談Trinity in Docker 使い方アセンブルツール Trinity(de novo transcriptome as...
Trinity v2.2.0, v2.4.0 インストール
Trinity v2.2.0、v2.4.0のインストールに挑戦です。ソースダウンロードして、make作業を行なってインストールします。とにかく早く問題解決したい人はこちら>>直接、データ解析相談インストールmake関連場所cd /usr/l...
Trinotate インストール | conda/biocondaを使って簡単インストール
trinotateは、trinityのアセンブル結果にアノテーションをつけるツールです。とにかく早く問題解決したい人はこちら>>直接、データ解析相談trinotate installTrinotate便利なツールなのですが、インストールが必...
fastp インストール・簡単な使い方・よく使うオプション
Fastqファイル用の高速前処理ツールです。クオリティの評価(トリミング前後)やトリミング処理を行います。とにかく早く問題解決したい人はこちら>>直接、データ解析相談fastp とは?fastp : fastp 使い方簡単な使い方シングルエ...
macs2 install & 使い方
MACS2、良く使われている ChIP-Seq 解析用の peak caller です。とにかく早く問題解決したい人はこちら>>直接、データ解析相談macs2色々なサイトで、macs2 のインストール方法や使い方がまとめられていますが、バー...
freebayes インストール 簡単な使い方
freebayesは、代表的なSNP検出ツールの1つです。ベイズ的アプローチでIndelを検出します。インストールと簡単な使い方についてまとめます。とにかく早く問題解決したい人はこちら>>直接、データ解析相談freebayes とはこちらで...
htseq-count 使い方 よく使うオプション
htseq-countは、RNA-Seq解析などでゲノムに張りついたリードの数を数えるツールです。よく使うオプションをまとめます。とにかく早く問題解決したい人はこちら>>直接、データ解析相談htseq-count 使い方基本的な使い方hts...
HTSeq htseq-count 使い方 インストール v0.7.2
htseq-countは、RNA-Seq解析などでリードをゲノムにマッピングしたとき、どこにどのくらい張り付いたかをカウントするプログラムです。HTSeqのインストールには、いくつか事前にインストールしておくべきものがあります。とにかく早く...
STAR RNA-seq aligner 使い方 インストール・index・マッピング
STARは、RNA-Seq用のマッピングソフトです。非常に高速なマッピングが可能です。とにかく早く問題解決したい人はこちら>>直接、データ解析相談STARとは?STAR インストールダウンロードした圧縮ファイルにプリコンパイル版が含まれてい...
塩基配列の表示幅を調整する - Fastaファイルの整形 -
Fastaファイルの整形についてまとめます。とにかく早く問題解決したい人はこちら>>直接、データ解析相談フォーマットを整えるFASTX_Toolkitは、Fastq・Fasta形式のファイルについて前処理をしたり、ファイル整形をするのに便利...
Fastq Fasta ファイル形式
Fastq・Fastaファイルともに、良く使うファイル形式です。とにかく早く問題解決したい人はこちら>>直接、データ解析相談ファイル形式Fastq形式1本の配列は4行構成で記述されます。1行目:「@」で始まる配列のID。以降に、説明を記述す...
タイトルとURLをコピーしました