FastQC 使い方 Fastq リードの評価

バイオインフォ道場、くまぞうです。

バイオインフォマティクスの解析を行うにあたって、次世代シーケンサから得られたリード情報の品質をチェックすることはとても大事なことです。代表的なツールFastQCの使い方をまとめます。

スポンサーリンク



リードの評価

一般的に、リードの評価については以下のようなことに着目します。

  • 塩基の品質
  • リードの長さ
  • 特定配列の残存(アダプター配列・PolyA/T tail・N)
  • 対象外の配列の混入
  • PCRによるDuplicate

FastQCによるリードの評価

FastQCについて

次世代シーケンサから得られたリード情報の品質をチェックするツールです。FastQCから得た評価を基に、トリミング処理や除外処理などを行なって、リードの品質管理を行います。

関連事項

http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

FastQCでは、リードの品質について複数の基準をもうけていて、それぞれが基準を満たしたかを評価します。結果は、fastqファイル毎にまとめられます。テキスト(summary・詳細)とHTML形式の結果が格納されます。HTML形式は、ブラウザでグラフを確認することができます。

評価結果

  • 評価結果一覧(summary.txt)
  • 評価とデータ:テキスト(fastqc_data.txt)
  • 評価とデータ:HTML・グラフ(fastqc_report.html、データ群)

品質評価

下記の項目について、品質評価が行われます。バージョンによって項目が少し異なります。今回まとめたのは、FastQC v0.11.5です。PASSが問題なし、WARNFAILが確認・対処が必要な項目です。

左から、評価・評価項目・対象Fastqファイル名です(summary.txt)。

PASS    Basic Statistics                sample1.fastq
PASS    Per base sequence quality       sample1.fastq
PASS    Per tile sequence quality       sample1.fastq
PASS    Per sequence quality scores     sample1.fastq
PASS    Per base sequence content       sample1.fastq
PASS    Per sequence GC content         sample1.fastq
PASS    Per base N content              sample1.fastq
PASS    Sequence Length Distribution    sample1.fastq
FAIL    Sequence Duplication Levels     sample1.fastq
PASS    Overrepresented sequences       sample1.fastq
PASS    Adapter Content                 sample1.fastq
FAIL    Kmer Content                    sample1.fastq

評価結果については、必ず「評価項目の全てにPASSしないといけない」というわけではありません。対象とする解析内容と照らしあわせて、必要な項目をチェックします。例えば、塩基の品質「Per base sequence quality」では何れの解析でも「PASS」になる方が望ましいし、リードの重複度合いを示す「Sequence Duplication Levels」ではRNA-Seqで発現解析を行う場合は必ずしも「PASS」にはならないと思います。

評価項目

評価の詳細やWarning・Failの判断基準について、FastQCのサイトに説明があります。(評価方法

  • Basic Statistics

    ファイル・リードの基本情報です。

  • Per Base Sequence Quality・Per tile Sequence Quality

    リードの位置における品質のばらつきを確認します。
    品質の低い部位はトリミングや除去の対象になるかもしれません。

  • Per Sequence Quality Scores

    品質が安定しているかを確認します。
    品質に明らかな変動がないかチェックしましょう。

  • Per Base Sequence Content・Per Sequence GC Content

    リードの各塩基・GCの割合です。
    既知の理由以外で、割合が大きく変化する場合は、対象外の断片が含まれるかもしれません。

  • Per Base N Content

    ATGC以外の「N」の割合です。

  • Sequence Length Distribution

    リード長の分布です。短すぎるリードは除外の対象になるかもしれません。

  • Sequence Duplication Levels

    リードの重複の程度をチェックします。解析内容や他の指標と併せて判断しましょう。

  • Overrepresented Sequences

    異常にたくさん見つかる配列に、アダプターや特定のタグ・対象外の断片などが含まれないかチェックします。

  • Adapter Content

    シーケンサーの特定のアダプターが残存・混入していないかをチェックします。

  • Kmer Content

    解析によっては、理論値から大きく乖離して出現する特徴的配列に注意が必要かもしれません。
    他の指標と併せて判断しましょう。

評価の例

FastQCのサイトに、FastQCを用いて評価した様々なデータ例があります。とても参考になるので、自分のデータと見比べてみましょう。(サイト中央付近:Example Reports

FastQCの使い方

必要に応じて各種オプションを付与し、評価すべきfastqファイルを指定します。ファイルの指定にはワイルドカードを指定できるので、データファイルを一括で指定するのに便利です。尚、gz形式でファイルが圧縮されていても使うことができます。fastqファイルは圧縮されている場合もあるので、いちいち解凍しなくて良いので便利です。

使い方

fastqc -t 4 -o fastqc_results/ *.fastq

良く使うオプション

  • -t

    スレッドの使用数です。
    マシンの性能に応じて適切に指定します。コア数が多いと、早く結果を得ることができます。

  • -o

    結果の出力先フォルダです。
    指定した場合、フォルダが存在しないとエラーになります。

スポンサーリンク